Está en la página 1de 414

1

DPTO. MTODOS CUANTITATIVOS PARA LA ECONOMA Y LA EMPRESA



UNIVERSIDAD DE GRANADA









AMPLIACIN
DE
TCNICAS CUANTITATIVAS

TEORA, EJERCICIOS Y PRCTICAS











2
3

INFORMACIN GENERAL (Exmenes, temario, bibliografa,...) . . . . . . . .


APUNTES:

1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . .
1.1 Definiciones bsicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Seleccin de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Mtodos de recoleccin de datos. . . . . . . . . . . . . . . . . . . . . . . .
1.5 Diseo del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Planificacin de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .

2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas
aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .
2.2.1 Media, varianza y proporcin muestrales: Propiedades. Error de
estimacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
2.2.3 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . .
2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . .
2.3.1 Estimacin de la media, proporcin y total poblacionales. . . . . . .
2.3.2 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Seleccin de una muestra aleatoria estratificada. . . . . . . . . . . . . . . .
3.2 Estimacin de la media, proporcin y total poblacionales. . . . . . . . . . .
3.3 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . . . . . .
3.4 Asignacin de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Asignacin ptima. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Asignacin de Neyman. . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 Asignacin proporcional. . . . . . . . . . . . . . . . . . . . . . . .
3.5 Estratificacin despus de seleccionar la muestra. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Muestreo con informacin auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Estimacin de razn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estimacin de la media y total poblacionales. . . . . . . . . . . . .
4.2.2 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . .
4.3 Estimacin de regresin. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Estimacin de la media y total poblacionales. . . . . . . . . . . . .
4.3.2 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . .
4.4 Estimacin de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Estimacin de la media y total poblacionales. . . . . . . . . . . . .
4.4.2 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . .
6
11
11
12
13
13
15
16
16
16
17
18
18
19
19
23
23
24
25
27
30
38
38
39
42
43
43
44
44
50
52
63
63
64
65
68
69
70
71
72
72
74
4
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Muestreo sistemtico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas. . . . . . . . . . . . .
5.2 Estimacin de la media, proporcin y total poblacionales. . . . . . . . . . .
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y peridicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . .
6.2 Formacin de los conglomerados. Conglomerados y estratos. . . . . . . . .
6.3 Estimacin de la media, proporcin y total poblacionales. . . . . . . . . . .
6.4 Determinacin del tamao muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7. Estimacin del tamao de la poblacin. . . . . . . . . . . . . . . . . . . . . . .
7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Muestreo por cuadros.
7.3.1 Estimacin de la densidad y tamao de la poblacin. . . . . . . . .
7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . .
7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. Indicadores estadsticos regionales. . . . . . . . . . . . . . . . . . . . . . . . .
8.1 Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Medidas de desigualdad-concentracin regional. . . . . . . . . . . . . . . .
8.2.1 Curva de Lorenz. ndice de Gini. . . . . . . . . . . . . . . . . . . .
8.2.2 Coeficiente de Theil. ndice de Theil. . . . . . . . . . . . . . . . . .
8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . .
8.3 Medidas de dispersin regional. . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Coeficiente de asociacin geogrfica de Florence. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9. Medidas de localizacin espacial. . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Cocientes de localizacin y especializacin. . . . . . . . . . . . . . . . . . .
9.3 Coeficientes de localizacin sectorial. . . . . . . . . . . . . . . . . . . . . .
9.4 Coeficientes de especializacin regional. . . . . . . . . . . . . . . . . . . . .
9.5 Coeficientes de diversificacin. . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10. Contrastes
2
de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.1 Contrastes
2
de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . .
10.2 Contrastes
2
de independencia. . . . . . . . . . . . . . . . . . . . . . . .
10.3 Contrastes
2
de homogeneidad. . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75
82
82
84
86
88
89
92
92
92
92
97
98
108
108
109
110
112
112
114
117
117
117
117
119
123
126
126
128
130
130
131
132
134
136
137
143
143
147
150
152
5
11. Inferencia no paramtrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . .
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . .
11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . .
11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


EJERCICIOS:

Ejercicios del captulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del captulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


PRE-PRCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


PRCTICAS:

Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduccin al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


FORMULARIOS Y TABLAS ESTADSTICAS . . . . . . . . . . . . . . . . .
162
162
165
168
176
178
179
181
190
196
207
217
220
230
234
236
240
248
259
276
279
286
293
311
317
320
327
330
333
337
351
366
381
6

INFORMACIN GENERAL

Licenciatura: Economa
Carcter: Obligatoria
Crditos: 4,5
Periodo lectivo: Segundo curso. Segundo cuatrimestre.
Departamento: Mtodos Cuantitativos para la Economa y la Empresa


Objetivos de la Asignatura:

o Completar los conocimientos previos de estadstica con el estudio de nuevos conceptos
en muestreo en poblaciones finitas, tcnicas cuantitativas para el anlisis regional e
inferencia no paramtrica, dotando al alumno de las herramientas estadsticas e
informticas necesarias para poder abordar la resolucin de supuestos prcticos.

o La asignatura es de tipo terico-prctico. Se considera fundamental la comprensin de
los conceptos, la capacidad de eleccin del mtodo en la resolucin de los problemas
prcticos que se planteen, la solucin de dichos problemas mediante la hoja de clculo
Excel y el paquete estadstico SPSS, as como la interpretacin de los resultados.

o Una hora de clase a la semana ser en el aula de informtica donde se utilizarn los
programas Excel y SPSS.


Sistema de Evaluacin:

En cualquiera de las convocatorias de examen de esta asignatura se realizarn dos
pruebas: una escrita (valorada en al menos el 60% de la calificacin) y otra con
ordenador (valorada como mximo en el 40% de la calificacin), siendo necesario
superar como mnimo un 35% en cada una para hacer media y en su caso aprobar la
asignatura. En ambas pruebas los alumnos podrn utilizar el formulario (con todas
las expresiones utilizadas en la asignatura) y las tablas estadsticas, dicha
informacin se facilitar por internet y/o en la fotocopiadora del centro. Tambin se
permite el uso de calculadora no programable en la prueba escrita.

Los alumnos podrn ser evaluados mediante un examen previo a la convocatoria
oficial de Junio. La superacin de este examen o parte del mismo eximir de la
realizacin de todo el examen final (escrito y ordenador) o de alguna de las partes en
esa convocatoria.


7
TEMARIO

1. Elementos del problema de muestreo.
1.1 Definiciones bsicas.
1.2 Seleccin de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Mtodos de recoleccin de datos.
1.5 Diseo del cuestionario.
1.6 Planificacin de la encuesta.
1.7 Razones para el uso del muestreo.

2. Muestreo aleatorio simple.
2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporcin muestrales: Propiedades. Error de
estimacin.
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
2.2.3 Determinacin del tamao muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimacin de la media, proporcin y total poblacionales.
2.3.2 Determinacin del tamao muestral.

3. Muestreo aleatorio estratificado.
3.1 Seleccin de una muestra aleatoria estratificada.
3.2 Estimacin de la media, proporcin y total poblacionales.
3.3 Determinacin del tamao muestral.
3.4 Asignacin de la muestra.
3.4.1 Asignacin ptima.
3.4.2 Asignacin de Neyman.
3.4.3 Asignacin proporcional.
3.5 Estratificacin despus de seleccionar la muestra.

4. Muestreo con informacin auxiliar.
4.1 Introduccin.
4.2 Estimacin de razn.
4.2.1 Estimacin de la media y total poblacionales.
4.2.2 Determinacin del tamao muestral.
4.3 Estimacin de regresin.
4.3.1 Estimacin de la media y total poblacionales.
4.3.2 Determinacin del tamao muestral.
4.4 Estimacin de diferencia.
4.4.1 Estimacin de la media y total poblacionales.
4.4.2 Determinacin del tamao muestral.

5. Muestreo sistemtico.
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas.
5.2 Estimacin de la media, proporcin y total poblacionales.
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y peridicas.
8
5.4 Determinacin del tamao muestral.

6. Muestreo por conglomerados.
6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formacin de los conglomerados. Conglomerados y estratos.
6.3 Estimacin de la media, proporcin y total poblacionales.
6.4 Determinacin del tamao muestral.

7. Estimacin del tamao de la poblacin.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimacin de la densidad y tamao de la poblacin.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.

8. Indicadores estadsticos regionales.
8.1 Introduccin.
8.2 Medidas de desigualdad-concentracin regional.
8.2.1 Curva de Lorenz. ndice de Gini.
8.2.2 Coeficiente de Theil. ndice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersin regional.
8.4 Coeficiente de asociacin geogrfica de Florence.

9. Medidas de localizacin espacial.
9.1 Introduccin.
9.2 Cocientes de localizacin y especializacin.
9.3 Coeficientes de localizacin sectorial.
9.4 Coeficientes de especializacin regional.
9.5 Coeficientes de diversificacin.

10. Contrastes
2
de Pearson.
10.1 Contrastes
2
de bondad de ajuste.
10.2 Contrastes
2
de independencia.
10.3 Contrastes
2
de homogeneidad.

11. Inferencia no paramtrica.
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
11.3 Contraste de Mann-Whitney.
11.4 Test de las rachas.
11.5 Test de los signos.
11.6 Test de Wilcoxon de los signos-rangos.


9
BIBLIOGRAFA

SCHEAFFER, R.; MENDENHALL, W.; y OTT, L. (2006). Elementos de muestreo.
International Thomson Editores.
PALACIOS, F. y CALLEJN, J. (2004). Tcnicas Cuantitativas para el Anlisis Regional.
Editorial Universidad de Granada.
MANZANO, V.G.; ROJAS, A.J. y FERNNDEZ, J.S. (1996). Manual para Encuestadores. Ed.
Ariel.
MARTN-GUZMN, P. y MARTN PLIEGO, F. J. (1993). Curso bsico de estadstica
econmica. AC. Madrid.
CASAS SNCHEZ, J.M. (1996). Inferencia Estadstica para Economa y Administracin de
Empresas. Ed. Centro de Estudios Ramn Areces, S. A.
LOHR, S.L. (1999). Muestreo: Diseo y Anlisis. International Thomson Editores.
SACHS, L. (1978). Estadstica Aplicada. Ed. Labor s.a.


Informacin en la WEB:

En el TABLON DOCENCIA de la pgina web de la Universidad se facilitar informacin a
los alumnos sobre:
Profesores que imparten la asignatura, despacho, correo electrnico, horario de
tutoras...
Programa de la asignatura
Bibliografa
Apuntes de clase
Relaciones de ejercicios
Prcticas de ordenador
Sistema de evaluacin
Fechas de exmenes
Calificaciones
Revisin de exmenes
Cualquier otra informacin que los profesores consideren importante.



10
11
1. Elementos del problema de muestreo.
1.1 Definiciones bsicas.
1.2 Seleccin de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Mtodos de recoleccin de datos.
1.5 Diseo del cuestionario.
1.6 Planificacin de la encuesta.
1.7 Razones para el uso del muestreo.



El objetivo fundamental de la estadstica es hacer inferencia acerca de una poblacin con base
en la informacin contenida en una muestra representativa.
La informacin obtenida de las encuestas por muestreo afecta a casi todos los aspectos de
nuestra vida: IPC, audiencia de televisin, intencin de voto,... Un rea particular de actividad
comercial que depende de las tcnicas de muestreo es el anlisis de mercados. Decisiones
sobre qu producto comercializar, cundo, dnde, cmo anunciarlo son frecuentemente
tomadas sobre la base de la informacin de encuestas por muestreo.

1.1 Definiciones bsicas
En la actualidad, las encuestas y las muestras estn presentes en nuestra vida diaria. Muchas
nos dan informacin valiosa, pero otras estn mal concebidas y aplicadas. Una muestra
perfecta sera una versin a escala reducida de la poblacin, que reflejara cada una de las
caractersticas de toda la poblacin. Una buena muestra reproduce las caractersticas de inters
que existen en la poblacin de la manera ms cercana posible.
Para precisar el concepto de buena muestra necesitamos una serie de definiciones previas
que ilustraremos apoyndonos en el siguiente ejemplo: supongamos que en cierta ciudad se
quiere realizar una encuesta telefnica con el objetivo de conocer la proporcin de votantes
que apoyarn a un determinado candidato

Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro
ejemplo un elemento de muestreo es un votante y la medicin que se toma es si apoyar o no
al candidato.
La poblacin objetivo es el conjunto de elementos que deseamos estudiar. La definicin debe
contener:
una descripcin de los elementos que sern incluidos, y
una especificacin de las mediciones que se van a considerar.
12
Una muestra es un subconjunto de la poblacin.
El muestreo de la poblacin deseada no es siempre posible, y el investigador tendr que reunir
informacin adicional a las preguntas de inters. Por ejemplo, en la encuesta sobre un
candidato en una votacin, la informacin disponible para el muestreo puede ser el censo de
residentes en la ciudad, entonces debemos recolectar informacin acerca de si cada persona
muestreada es un votante censado o no.
La poblacin muestreada es la coleccin de todos los elementos posibles que podran
seleccionarse para la muestra.
Las unidades de muestreo son conjuntos (no solapados) de elementos de la poblacin que
cubren la poblacin completa.
Por ejemplo, podramos querer estudiar a las personas, pero no tenemos una lista de los
telfonos de todos los individuos que pertenecen a la poblacin objetivo. En vez de esto, las
familias sirven como unidades de muestreo y los elementos son los individuos que viven en
una familia.
El marco de muestreo es la lista de las unidades de muestreo.
Por ejemplo, para las encuestas telefnicas, el marco de muestreo puede ser una lista de todos
los nmeros de telfono residenciales de la ciudad. Casi todos los marcos presentan
inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin
embargo, cabe esperar que la separacin entre el marco y la poblacin sea lo bastante pequeo
como para permitir que se hagan inferencias acerca de la poblacin basndose en una muestra
obtenida del marco.

1.2 Seleccin de la muestra
Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequea se
puede llevar a cabo inferencias de una poblacin arbitrariamente grande. La cantidad de
informacin contenida en una muestra se controla por medio del nmero de datos muestrales y
por el mtodo usado para seleccionar los datos muestrales.
Veamos algunos mtodos:
1. Muestreo aleatorio simple. Es la forma ms sencilla de realizar un muestreo.
Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de
tamao n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base
de otros diseos de muestreo.
2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se
pueden dividir en grupos con diferentes opiniones sobre un determinado candidato.
Obviamente nos interesa tener informacin de cada uno de esos grupos. Entonces se
13
divide a la poblacin en esos grupos o estratos y se selecciona una muestra aleatoria
simple de cada grupo. A la muestra resultante se le llama muestra aleatoria
estratificada.
3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que
componen una poblacin se renen en unidades de muestreo de mayor tamao,
llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar
de votantes individuales. En este caso las familias forman los conglomerados y los
miembros de las familias son las unidades de muestreo.
4. Muestreo sistemtico: Es un tipo de muestreo que muchas veces se utiliza como
sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al
comienzo de una lista de la poblacin y luego se selecciona cada un nmero fijo de
posiciones el resto de elementos.

1.3 Fuentes de error
1.3.1 Errores de muestreo
El error de muestreo es el que surge al considerar una muestra y no examinar toda la
poblacin. El error de muestreo puede ser controlado y medido mediante un diseo cuidadoso
de la muestra.
Nuestro objetivo a lo largo de la asignatura ser conocer o investigar alguna caracterstica de
una poblacin que, en principio, vamos a denotar por . Por ejemplo, estudiaremos la
audiencia televisiva una determinada noche, la intencin de voto de una regin,....
Claramente la recogida de informacin sobre toda la poblacin resultara cara y lenta. Por ello
es preferible utilizar un subconjunto pequeo de la poblacin, la muestra.
Denotando por

a un estimador de la caracterstica , definimos el error de estimacin como


-

estimacin de error =
Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el
estimador y estn dentro de una distancia especificada B, pero podemos expresar que eso
ocurre con una determinada probabilidad

1 , 0 1 P B
(
= < <


donde
Lmite para el Error de Estimacin (LEE) con nivel de confianza 1
Cota para el error de estimacin con nivel de confianza 1-
Error de estimacin mximo con nivel de confianza 1-
B



14
A continuacin veremos que forma tiene B bajo distintas hiptesis sobre el estimador:
1.

es un estimador insesgado de y tiene una distribucin Normal ( ) ( )

N .
Dado que ( )

, 0

N , entonces


1
P B P B B
B B
P Z


( (
=

(
= =
(
(


donde

(0,1) Z N

= . Por tanto,
2
1


= z
B
(podemos obtenerlo en una tabla de
probabilidades de la N(0,1)) y el lmite del error de estimacin es

2
1
= z B . Como
se puede observar, el lmite del error de estimacin depender del nivel de confianza y
de la desviacin tpica del estimador (esto ltimo depender de la variabilidad de la
muestra y del tipo de muestreo).

Tomando una confianza del 95% el lmite del error de estimacin ser:


975 , 0
2 96 , 1 = = z B . Entonces

2 0, 95 P


(
=


Es decir, con una confianza del 95%, el lmite del error de estimacin es dos veces la
desviacin tpica del estimador. (En muchos textos se denomina error tpico a la
desviacin tpica del estimador)

2.

es un estimador insesgado de con desviacin tpica (error tpico)

.
Por la desigualdad de Tchebyshev:
( )
2
1

1 , 1 P E k k
k


(

(


Dado que el estimador es insesgado y tomando 2 = k ,

2
1

2 1 0, 75
2
P


(
< =


Luego, con una confianza mayor del 75%, el lmite del error de estimacin es dos
veces la desviacin tpica del estimador.

Resumiendo, el lmite del error de estimacin es dos veces la desviacin tpica del estimador
con una confianza del 95% si el estimador tiene distribucin Normal y con una confianza
15
mayor del 75% si no tiene esa distribucin. Adems, si el tamao muestral es mayor que 30,
los estimadores que usaremos tendrn una distribucin aproximadamente Normal, en virtud
del Teorema central del lmite.

La expresin

1 P B
(
=

tiene una segunda lectura. Dado que

1 P B P B B P B B
( ( (
= = + =


el verdadero valor del parmetro se encuentra entre los extremos del intervalo ( ) B B +


con una confianza de 1 .

1.3.2 Errores de no muestreo
Otro tipo de errores, ms difcil de controlar, pueden ocurrir en la encuesta. Estos errores se
llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa
encuesta puede ser despreciable en comparacin con los errores que no son de muestreo.
Los errores de no muestreo ms comunes son:
1. Sesgo de seleccin. Este error ocurre cuando alguna parte de la poblacin objetivo no
est en la poblacin muestreada. Una muestra as obtenida no es representativa de la
poblacin objetivo.
2. Sesgo de medicin. El sesgo de medicin ocurre cuando los datos observados difieren
del valor verdadero. La obtencin de respuestas precisas en las encuestas es
fundamental pero esto a veces no se consigue por diversos motivos:
- A veces, las personas no dicen la verdad.
- Las personas no siempre comprenden las preguntas.
- Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera
equivocada.
- La formulacin y el orden de las preguntas tiene un gran efecto sobre las respuestas
obtenidas.
3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la
muestra puede causar un sesgo en los datos muestrales similar al sesgo de seleccin.
Puede ocurrir que las personas que respondan no representen a la poblacin bajo
estudio.

Los errores de no muestreo pueden controlarse con las siguientes acciones:
1. Reentrevistas.
16
2. Recompensas e incentivos.
3. Entrevistadores adiestrados.
4. Verificacin de datos.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)

1.4 Mtodos de recoleccin de datos
Tambin el mtodo de recoleccin de datos es fundamental en la reduccin de los errores de
no muestreo. Destacamos como mtodos ms habituales:
(A) Entrevista personal.
(B) Entrevista por telfono.
(C) Cuestionarios autoaplicados.
(D) Observacin directa.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)

1.5 Diseo del cuestionario
Uno de los objetivos en cualquier diseo de encuesta es minimizar los errores de no muestreo
que pueden ocurrir. Algunos consejos interesantes para la construccin del cuestionario son
los siguientes:
- Decidir lo que se quiere descubrir.
- Verificar las preguntas antes de realizar la encuesta.
- Elaborar las preguntas de manera sencilla y clara.
- Prestar atencin al orden de las preguntas.
- Decida si desea utilizar preguntas abiertas o cerradas.
- Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.
- Utilice preguntas de opcin forzosa.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)

1.6 Planificacin de la encuesta
Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse
en cuenta en la planificacin de una encuesta:
1. Establecer objetivos.
2. Poblacin objetivo.
17
3. El marco.
4. Diseo del muestreo.
5. Mtodo de recoleccin de datos.
6. Instrumentos de recoleccin de datos.
7. Seleccin y preparacin de investigadores de campo.
8. Prueba piloto.
9. Organizacin del trabajo de campo.
10. Organizacin de la administracin de datos.
11. Anlisis de los datos.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)

1.7 Razones para el uso del muestreo
Entre otras muchas razones, destacamos:
(a) Evitar la destruccin de la poblacin. En algunos casos, una unidad de observacin
debe ser destruida para ser observada. En ese caso, un censo destruira a toda la
poblacin. Por ejemplo el muestreo en el control de calidad.
(b) Rapidez. Los datos se pueden reunir ms rpido, de modo que las estimaciones se
pueden publicar de una manera programada. Por ejemplo las elecciones.
(c) Economa y precisin. El muestreo puede proporcionar informacin fiable con costes
mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus
respectivas muestras son, con frecuencia, ms precisas que las basadas en un censo,
pues los investigadores pueden tener ms cuidado al reunir los datos. Un censo
completo necesita, por lo regular, de una gran organizacin administrativa e implica a
muchas personas en la recoleccin de los datos. Con tal complejidad administrativa y
la presin por producir las estimaciones a tiempo, se pueden cometer muchos errores
en la elaboracin del censo. En una muestra, se puede dedicar ms atencin a la
calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no
contestan la encuesta.
18
2. Muestreo aleatorio simple.
2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
2.2.3 Determinacin del tamao muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimacin de la media, proporcin y total poblacionales.
2.3.2 Determinacin del tamao muestral.



2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas aleatorias.
Si cada muestra posible de tamao n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra as
seleccionada se le llama muestra aleatoria simple.
En el muestreo aleatorio con reemplazamiento el comportamiento de cada observacin da
lugar a variables aleatorias independientes e idnticamente distribuidas.
El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus
distribuciones marginales (no as las condicionadas) son idnticamente distribuidas pero falla
la hiptesis de independencia.
Si el nmero de elementos de la poblacin es muy grande (poblaciones infinitas) la anterior
distincin es irrelevante.
En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona ms
informacin. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin
reemplazamiento.
En la prctica, la condicin de que cada muestra tenga la misma probabilidad de ser
seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la
muestra. Para ello la seleccin de cada elemento de la muestra se hace sobre la base de un
sorteo completamente aleatorio. Para facilitar la obtencin de los resultados de ese sorteo
aleatorio existen lo que se conoce como tablas de nmeros aleatorios y que, junto con otras
tablas, suelen aparecer en un apndice al final de muchos libros de estadstica. Cada vez ms,
estas tablas de nmeros aleatorios son sustituidas por la generacin de nmeros aleatorios
mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos nmeros
aleatorios con los elementos de la poblacin necesitamos que sta est numerada, en caso
contrario deberamos formar una lista y numerarla. Esto ltimo, en muchos casos, no es tan
sencillo. Una alternativa a la formacin de una lista numerada para la seleccin mediante
nmeros aleatorios de los elementos de la muestra es el mtodo de las rutas aleatorias. Segn
19
este mtodo cada nmero aleatorio o grupo de nmeros aleatorios describe el camino hasta el
elemento de la muestra. Veamos cmo se aplicara este mtodo con un sencillo ejemplo:
Se ha seleccionado el nmero aleatorio 11071032, las dos primeras cifras (11) indican el
distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el
nmero de la calle, la siguiente (3) la planta del edificio y la ltima (2) la letra B de dicha
planta.
En muchos casos para llevar a cabo este procedimiento se recurre a la gua telefnica,
sobretodo si la entrevista es por telfono, as el nmero aleatorio 7836 podra interpretarse
como que se selecciona la pgina 78 de la gua y dentro de sta al abonado del telfono que
aparece en el lugar 36 de dicha pgina.

Otros tipos de muestreo que se utilizan con cierta frecuencia son:
Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra.
Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos
representativa de la poblacin, respetando el tamao relativo de los grupos que la
integran. Por ejemplo si en la poblacin hay un 65% de mujeres y un 35% de hombres,
tomamos una muestra que respete esos tamaos.
Estos muestreos estn sujetos al sesgo del investigador y conducen a estimadores cuyas
propiedades no pueden ser evaluadas estadsticamente (incurrimos en errores de no muestreo),
la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de nmeros
aleatorios.

EL NMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE
MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIN ALEATORIA.

2.2 Muestreo aleatorio simple en poblaciones infinitas.
Supongamos que la caracterstica en estudio de la poblacin est representada por la variable
Y (con media y varianza
2
), una muestra aleatoria simple de tamao n estar representada
por n variables: Y
1
,..., Y
n
, independientes e idnticamente distribuidas (i.i.d.). (Observaciones
en poblaciones infinitas y tambin en poblaciones finitas si se hacen con reemplazamiento nos
conducen a variables i.i.d.)

2.2.1 Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.
Como estimador de la media de la poblacin, , se utiliza la media muestral, y .
20
1
1
n
i
i
y y
n
=
=


Un valor aislado y del estimador revela poco acerca de la media poblacional, deberamos
evaluar tambin su bondad.
Este estimador tiene propiedades deseables como ser insesgado y tener mnima varianza
( ) ( )
2
E y V y
n

= =
Como estimador de la varianza de la poblacin,
2
, se utiliza la cuasivarianza muestral,
2
S .
( )
2
2
1
1
1
n
i
i
S y y
n
=
=



que tambin tiene la propiedad de ser insesgado
( )
2 2
E S =
de forma que la varianza de la media muestral se estima de forma insesgada por

2
( )
S
V y
n
=

Cuando las variables Y, Y
1
, ..., Y
n
son dicotmicas, slo toman dos valores (0 y 1), su media
representa una proporcin y se nota como p y el estimador de la misma, la proporcin
muestral, por

1
1
, 0, 1
n
i i
i
p y y
n
=
= =


Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas
antes.
La varianza de la poblacin es en este caso
2
pq = , donde q=1-p. Como antes, el estimador
insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a

2
1
n
S pq
n
=



Si conocemos ms caractersticas de las variables aleatorias Y, Y
1
,..., Y
n
, conoceremos ms
propiedades de la media muestral, aparte de las mencionadas. As,
si
2 2
( , ) Y N conocida
(0,1)
y
N
n


21
si
2 2
( , ) Y N desconocida
1
(0,1) ( , )
n
y
t N en la prctica para n 30
S
n

>
si Y cualquier distribucin (por el Teorema Central del Lmite) cuando n
(0,1)
y y
N
S
n
n


(en la prctica, para n>30)
un caso particular del anterior es cuando (1, ) Y B p , donde

p y p = =


(0,1)
1 1
p p p p p p
N
pq
n pq pq
n
n n n

=

(en la prctica, para n>30)

Todo lo anterior puede resumirse diciendo que la media muestral (de variables numricas, y ,
o dicotmicas,

p ) sigue o se puede aproximar, si el tamao de la muestra es suficientemente


grande, por una distribucin normal. De forma que podemos conocer la probabilidad de que
dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores
expresiones de la media muestral tipificada, siendo vlido lo que sigue tambin para las otras)
1, 96 1, 96 0, 95
y
P
n

(
(

= (
(
(


o en un caso ms general
2 2
1
y
P Z Z
n

(
(

= (
(
(


=nivel de significacin 1-=nivel de confianza
Para un nivel de confianza del 95% (el ms habitual) se suele redondear el anterior valor
1,962

De las probabilidades anteriores se puede hacer dos lecturas. La primera:
2 2 0, 95 2 0, 95 P y P y
n n n


( (
= =
( (


22
En esta ltima expresin aparecen valores y expresiones fundamentales en las tcnicas de
estimacin:
1-=0,95= nivel de confianza del 95%.
y = error de estimacin o diferencia entre la estimacin que hacemos, y , y el verdadero
valor del parmetro que se quiere estimar, .
2
n

= cota o lmite para el error de estimacin, es el mximo error de estimacin que se


puede estar cometiendo, con una confianza del 95%. En la prctica se estima por 2
S
n
.

La segunda lectura:
2 2 0, 95 P y y
n n

(
+ =
(


expresa la confianza que tenemos de que el verdadero valor del parmetro se encuentre
entre los extremos del intervalo 2 , 2 y y
n n
| |
+
|
\ .
.

Todo lo anterior se puede asegurar si el tamao de la muestra es suficientemente grande,
n>30. Pero qu ocurre si no es as. En ese caso la desigualdad de Tchebychev nos da la
respuesta.
La desigualdad de Tchebychev dice que si X es una variable aleatoria con media ( ) E X = y
varianza
2
( ) V X = , entonces
2
1
1 P X k
k
(


Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene
1
2 1 0, 75
4
P y
n

(
=
(


resultado parecido al que obtenamos anteriormente
2 0, 95 P y
n

(
=
(


salvo que en este caso lo ms que podemos asegurar es que la probabilidad de que
2 y
n

es mayor de 0,75.

23
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
Cuando estimamos el valor de un parmetro poblacional con el valor que ha presentado en una
determinada muestra el estimador asociado, hacemos una estimacin puntual.
Si dicha estimacin puntual se acompaa de un margen de error (lmite para el error de
estimacin) y de una medida de la certidumbre que se tiene en tal estimacin (nivel de
confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el
intervalo de confianza para la media poblacional con un nivel de confianza del 95% es
2 , 2
S S
y y
n n
| |
+
|
\ .

En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de
que el verdadero valor de un parmetro de la poblacin sea un determinado valor, por
ejemplo, se quiere contrastar la hiptesis nula
0 0
: H = con un nivel de significacin del
5%. Lo anterior equivale a comprobar si
0
2 , 2
S S
y y
n n

| |
+
|
\ .

en cuyo caso se aceptara la hiptesis nula, rechazndose en caso contrario.

2.2.3 Determinacin del tamao muestral.
En ocasiones se fija de antemano el mximo error de estimacin que estamos dispuestos a
aceptar en una estimacin, 2 B
n

= . La cantidad de informacin necesaria para conseguir lo


anterior depende del tamao de la muestra segn la siguiente expresin
2 2 2 2
2
2
4 ,
4
4
B
B n D
B n D

= = = =
El caso de la proporcin es anlogo al de la media, teniendo en cuenta que
2
pq =
2
,
4
pq B
n D
D
= =

Ejemplo 2.1. (ejercicio 13, relacin tema 2) Un hipermercado desea estimar la proporcin de
compras que los clientes pagan con su Tarjeta de Compras. Durante una semana observaron
al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas con dicha tarjeta.
24
b) Cuantas compras deberan observarse para estimar, con un error inferior al 3%, la
proporcin de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Si no se tuviera ninguna informacin acerca de los clientes que utilizan la tarjeta, cuntas
compras deberamos observar para asegurar que la anterior estimacin se realiza con un
error inferior al 3%.
d) Este mismo hipermercado desea estimar tambin el valor medio de las compras
realizadas con su Tarjeta de Compras. Basndose en los anteriores datos observa que el
valor total de las compras hechas con la tarjeta fue de 5.600 (siendo la cuasivarianza de
los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de
estimacin asociado.

Solucin:
a)


1
1 35
0,175 200 1 0,175 0, 825 ( ) 0, 000726
200 1
n
i
i
pq
p y n q V p
n n
=
= = = = = = = =


( ) 2 ( ) 0, 0539 12,11%, 22, 89% B V p p = =
b)
2
0, 03 0, 000225 641, 6 642
4
B pq
B D n
D
= = = = =


c)
2
0, 03 0, 000225 0, 5 1111,1 1112
4
B pq
B D p q n
D
= = = = = = =


d)
1
1 5600
35 160
35
n
i
i
n y y
n
=
= = = =



2
2
625
625 ( ) 17, 8571 2 ( ) 8, 45
35
S
S V y B V y
n
= = = = = =

2.3 Muestreo aleatorio simple en poblaciones finitas.
Suponemos que la poblacin es finita, tiene N elementos, y adems que la muestra se
selecciona sin reemplazamiento (en caso contrario estaramos ante el modelo del muestreo
aleatorio simple en poblaciones infinitas con variables i.i.d.)
25

2.3.1 Estimacin de la media, proporcin y total poblacionales.

(A) Estimacin de la media poblacional.
Para estimar la media poblacional, , se utiliza la media muestral

1
1
n
i
i
y y
n

=
= =


Este estimador es insesgado y su varianza decrece conforme crece el tamao de la muestra
( ) ( )
2
1
N n
E y V y
n N

| |
= =
|

\ .

En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la
varianza de la poblacin
( )
2 2 2 2
1
1
N N
E S E S
N N

| |
= =
|

\ .

De lo anterior se sigue que la varianza de la media muestral puede ser estimada
insesgadamente por

( )
2
2
1 1
1
N N n S N n
V y S
N n N n N
| | | | | |
= =
| | |

\ . \ . \ .

expresin igual a la del caso de poblaciones infinitas,

2
( )
S
V y
n
| |
=
|
\ .
, salvo el coeficiente
N n
N
| |
|
\ .
que se denomina coeficiente corrector para poblaciones finitas (c.p.f.).
En la prctica el coeficiente c.p.f. suele despreciarse si 0, 95
N n
N
| |

|
\ .
o lo que es equivalente
si
1
5%
20
n N N = . En muchos casos N no est claramente definido o se desconoce, pero si
N se supone suficientemente grande el c.p.f. se omite, 1
N n
N
| |

|
\ .
.

Para calcular el lmite para el error de estimacin , con un 95% de confianza, se halla

2 ( ) V y . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del


95% cuando trabajamos con el coeficiente 1,962. Pero en algunos casos, segn la
desigualdad de Tchevychev, slo se puede asegurar que este nivel es mayor de un 75%.


26
(B) Estimacin del total poblacional.
Para estimar el total poblacional, , dado que N
N

= = utilizaremos el estimador
1
n
i
i
N
N y y
n

=
= =

.
Para hallar su varianza, recordemos las propiedades de la varianza
2
( ) ( ) V kX k V X =
( ) ( ) ( ) ( ) V X Y V X V Y X e Y incorreladas + = +
Varianza estimada de



2 2
2 2
( ) ( ) ( ) ( )
S N n S
V V N y N V y N N N n
n N n


= = = =


Como en el caso de la media, el lmite para el error de estimacin con una confianza del 95%
est dado por

2 ( ) V

. Valiendo comentarios anlogos a los hechos anteriormente.



En lo sucesivo se dar el valor la varianza del estimador para los distintos tipos de muestreo,
omitindose, para no repetirnos ms, la referencia al lmite para el error de estimacin.

Ejemplo 2.2. (ejercicio 1, relacin tema 2) Un auditor examina las cuentas abiertas con
diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se
examinan 300. La media muestral de las cuentas fue 1.040 y = y la varianza muestral
(cuasivarianza) es S
2
=45.000
2
. Estime el promedio de la deuda y el total de la deuda por
cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%.
Solucin:

2
1
45000 1000 300
( ) 105
300 1000
n
S N n
V y
n N


= = =

2 ( ) 2 105 20, 49 V y = =
( ) ( ) 1.040 20, 49 1.019, 51 , 1.060, 49 =
1000 1040 1.040.000 N y = = =



2 ( ) 2 ( ) 1000 20, 49 20.490 ( 20.493, 9) V N V y valor exacto = = =


( ) ( ) 1.040.000 20.490 1.019.510 , 1.060.490 =

(C) Estimacin de la proporcin poblacional.
Para estimar la proporcin poblacional p , dado que se trata de una media usaremos la media
muestral que tiene la siguiente notacin en este caso
27

1
1
, 0, 1
n
i i
i
p y y
n
=
= =


su varianza estimada, teniendo en cuenta que

2
1
n pq
S
n
=

, es igual a


2
( )
1
S N n pq N n
V p
n N n N

= =


Para estimar el total poblacional de una variable dicotmica usamos

N p =




2
( ) ( ) ( ) ( )
1
pq
V V N p N V p N N n
n
= = =



2 ( ) 2 ( ) V N V p =



Ejemplo 2.3. (ejercicio 2, relacin tema 2) Se toma una muestra aleatoria simple de 100
estudiantes de un centro con 900 estudiantes para estimar
La proporcin que votarn a un determinado representante de centro.
La proporcin de ellos que tienen algn tipo de trabajo.
Sean , ( 1,...,100)
i i
y z i = las respuestas del i-simo estudiante seleccionado ( 0
i
y = cuando
responden NO, 1
i
y = cuando responden SI, anlogamente para
i
z ).
Segn la muestra
100 100
1 1
70 25
i i
i i
y z
= =
= =


Usando los datos de la muestra, estime
1
p (proporcin de estudiantes que votarn a un
determinado representante)
2
p (proporcin y nmero de estudiantes con algn tipo de trabajo)
y los lmites para los errores de estimacin correspondientes.
Solucin:


100 100
1 1
1 2
0, 70 (70%) 0, 25 (25%)
100 100
i i
i i
y z
p p
= =
= = = =







1 1 2 2
1 2
( ) 0, 0018855 ( ) 0, 0016835
1 1
p q p q N n N n
V p V p
n N n N

= = = =




1 2
2 ( ) 0, 0868 (8, 68%) 2 ( ) 0, 0821 (8, 21%) V p V p = =


2 2
2
900 0, 25 225 2 ( ) 900 0, 0821 73, 89 N p V = = = = =



2.3.2 Determinacin del tamao muestral.
El nmero de observaciones necesarias para estimar con un lmite para el error de
estimacin de magnitud B se obtiene resolviendo 2 ( ) V y B =
28
( )
2
2 ( )
4
B
V y B V y D = = =
2 2
2
( )
1 ( 1)
N n N
V y D n
n N N D

= = =
+

Para estimar el total poblacional con un lmite para el error de estimacin B, dado que

2 ( ) 2 ( ) V N V y B = =

, se llega a la misma expresin de n pero con


2
2
4
B
D
N
=

En la prctica la varianza poblacional
2
es desconocida. Si disponemos de
2
S de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresin
2
por
2
S ,
2 2
1
aunque la estimacin insesgada de es
N
S
N

| |
|
\ .
.
Si no se dispone de informacin previa para estimar la varianza podemos usar que en variables
normales el rango de la muestra es aproximadamente cuatro veces su desviacin tpica
2
2
4 16
R R


La proporcin poblacional p es la media de una variable dicotmica ( (1, ) B p , ( ) E X p = ,
( ) V X pq = ), luego el problema de determinar el tamao muestral se hace de forma anloga
sustituyendo
2
por pq, obtenindose
( 1)
Npq
n
N D pq
=
+

2
( )
4
B
D proporcion =
2
2
( )
4
B
D total
N
=

En la prctica p se desconoce. Una aproximacin al mismo se obtiene reemplazndolo por el
valor estimado

p obtenido en encuestas preliminares. Si no se cuenta con informacin


anterior, suponiendo
1
2
p = se obtiene un tamao muestral conservador (mayor que el
requerido para obtener la cota del error de estimacin prefijada).

Ejemplo 2.4. (ejercicio 3, relacin tema 2) Encuentre el tamao de muestra necesario para
estimar el valor total de 1.000 cuentas por cobrar con un lmite para el error de estimacin de
10.000. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero
se sabe que la mayora de las cuentas caen dentro del intervalo (600, 1.400).

29
Solucin:
2 2
2
2 2
10.000
25 4 800 200 40.000
4 4 1.000
B
D
N
= = =



2
2
615, 62 616
( 1)
N
n
N D

= =
+


Si se realizan dos preguntas (o ms) a cada elemento de la muestra, se calcularn los tamaos
muestrales que satisfacen los lmites para el error de estimacin fijados para cada estimacin y
finalmente el mayor de los dos ser el tamao de la muestra que satisface ambos lmites.

Ejemplo 2.5. (ejercicio 4, relacin tema 2) Los alumnos de TAM de una facultad con 3.000
estudiantes desean realizar una encuesta para determinar la proporcin de estudiantes que
estn a favor de hacer los exmenes en sbado con un lmite para el error de estimacin del
10%. La informacin previa disponible indica que el 60% preferan los exmenes en sbado.
Tambin se quiere estimar la proporcin de estudiantes que apoyan al equipo decanal con un
error de estimacin del 5%. Determnese el tamao muestral que se requiere para estimar
ambas proporciones con los lmites de error especificados.
Solucin:
1
p = proporcin de estudiantes que prefieren los exmenes en sbado.
2 2
1
1
(0,10)
0, 0025
4 4
B
D = = =
1 1
1
1 1 1
3.000 0, 60 0, 40
93, 05 94
( 1) (2.999 0, 0025) (0, 60 0, 40)
Np q
n
N D p q

= = =
+ +

2
p =proporcin de estudiantes que apoyan al equipo decanal.
2 2
2
2
(0, 05)
0, 000625
4 4
B
D = = =
2 2
2
2 2 2
3.000 0, 50 0, 50
353, 04 354
( 1) (2.999 0, 000625) (0, 50 0, 50)
Np q
n
N D p q

= = =
+ +

para cumplir con ambos objetivos habra que tomar n=354 con lo que el lmite para el error de
la estimacin de
1
p disminuira (con un 95% de confianza) hasta:


1 1
1
0, 60 0, 40 3.000 354
2 ( ) 2 2 0, 0489 ( 4, 9%)
1 353 3.000
p q N n
V p
n N

= = =


o bien la cota del error de estimacin del 10% se tiene con un nivel de confianza mucho
mayor
30

1
2 2 2
( ) 0,10 0, 02445 0,10 4, 09 Z V p Z Z

= = =
buscando en la tabla de la normal (o con ayuda de la hoja de clculo Excel, ...) la probabilidad
comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prcticamente del 100%.



EJERCICIOS RESUELTOS

1. (Ejercicio 19, relacin tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un
centro comercial para estimar el valor medio de las compras por cliente.
VALOR en
33,5 32 52 43 40 41 45 42,5 39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) Podemos aceptar que la compra media es de 45?
c) Qu tamao muestral deberamos tomar para que el LEE sea de 2?
SOLUCIN:
a)

33, 5 ... 39
40, 89
9
y
+ +
= = =
( ) ( )
( )
2 2
2
1
33, 5 40, 89 ... 39 40,89 35, 67
9 1
S = + + =

( )

( )
2
3, 963 2 3, 98
S
V y B V y
n
= = = =
( ) ( ) 40, 89 3, 98 ; 40, 89 3, 98 36, 91; 44, 87 + =
b) No, porque ( ) 45 36, 91; 44, 87
c)
2 2
2 2
35, 67
35, 67 36
1
4 4
S
n compras
B B

= = =

2. (Ejercicio 17, relacin tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente
entre los ms de cien mil habitantes de una ciudad para conocer su opinin sobre los
nuevos impuestos municipales. 655 manifestaron su opinin desfavorable. Estime la
proporcin de vecinos que estn en contra de los nuevos impuestos y establezca el lmite
para el error de estimacin. Se puede afirmar que la mayora de los habitantes estn en
contra?

31
SOLUCIN:

655
0, 655 65, 5%
1.000
p p = = =



0, 655 (1 0, 655)
( ) 0, 0002262012
1 999
pq
V p
n

= = =




2 ( ) 0, 0301 3, 01% V p =

(65, 5% 3, 01%, 65, 5% 3, 01%) (62, 49%, 68, 51%) + =

(62, 49%, 68, 51%) 50% p p s se puede afirmar que la mayora de los
habitantes estn en contra
>


3. (Ejercicio 18, relacin tema 2) El Centro de Estadstica desea estimar el salario medio de
los trabajadores de los invernaderos de una regin. Se decide clasificarlos en dos estratos,
los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los
contratos fijos est comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los
contratos temporales est comprendido entre 500 y 1.700 euros mensuales. Cul debe ser
el tamao muestral total y su asignacin para que se estime el salario medio de los
contratos fijos con un error inferior a 100 y el salario medio de los contratos temporales
con un error inferior a 120?`
SOLUCIN:
i
R
4
i
i
R

2
i

2.200-1.200=1000
1.700-500=1.200
250
300
62.500
90.000

2 2
1 1
1 2 2
1 1
62.500 62.500
25
10.000
100
4
4 4
n
B D

= = = = =

2 2
2 2
2 2 2
2 2
90.000 90.000
25
14.400
120
4
4 4
n
B D

= = = = =


1 2
50 n n n = + =

4. (Ejercicio 14, relacin tema 2) Entre todas las oficinas bancarias de una pequea ciudad se
tienen concedidos 2000 prstamos hipotecarios. Existen razones para pensar que el
prstamo hipotecario de menor cuanta es de algo ms de 1200 euros, siendo de casi 11000
32
euros el de mayor cuanta. cul es el tamao muestral necesario para estimar estos dos
parmetros:
- la cuanta media de los prestamos cometiendo un error de estimacin menor de 400
euros y
- la proporcin de prstamos pendientes de amortizar ms de la mitad de la deuda
cometiendo un error mximo del 5%?
SOLUCIN:
2.000 N =
2
11.000 1.200 9.800 2450 6.002.500
4
R
R = = =
2 2
400
40.000
4 4
B
D = = =
2
2
139, 65 140
( 1)
N
n
N D

= =
+



2 2
0.05
0, 000625
4 4
B
D = = =
0, 5 333, 47 334
( 1)
Npq
p q n
N D pq
= = = =
+


Para conseguir estimar los dos parmetros con los niveles de error especificados
necesitamos un tamao muestral igual al mximo de 140 y 334. 334 n = .

5. (Ejercicio 15, relacin tema 2) Se desea estimar el salario medio de los empleados de una
empresa y la proporcin de empleados que apoyan a la actual directiva. La empresa tiene
110 empleados y se sabe que el salario est comprendido entre los 1500 y 1800 euros
mensuales. Cul debe ser el tamao muestral para que al estimar el salario medio la cota
de error se site en 10 euros y al estimar la proporcin de los que apoyan a la actual
directiva el error mximo cometido sea del 2%?
SOLUCIN:
2
110 1.800 1.500 300 75 5625
4
R
N R = = = =
2 2
10
25
4 4
B
D = = =
2
2
74,1 75
( 1)
N
n
N D

= =
+


2 2
0.02
0, 0001
4 4
B
D = = =
33
0, 5 105, 4 106
( 1)
Npq
p q n
N D pq
= = = =
+


6. (Ejercicio 16, relacin tema 2) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 5 de las 25 inscritas en el registro mercantil. El nmero de bajas en el ltimo
ao, el nmero de empleados y la respuesta de cada empresa sobre si utilizara los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. Calcule el
lmite para el error de estimacin.
b) Estime el nmero de empresas que usaran los servicios ofertados. Calcule el lmite
para el error de estimacin.
SOLUCIN:

a) 25 5 N n = =

2
14
2,8 70
5
12, 7
( ) ( ) 25 20 1270
5
2 ( ) 71, 2741
y N y
S
V N N n
n
B V

= = = =
= = =
= =


Nota: este apartado podr resolverse de otra forma cuando estudiemos el muestreo por
conglomerados. Vase ejercicio 10 de la relacin del captulo 6)

b)

2
0, 4 10
5
0, 24
( ) ( ) 25 20 30
1 4
2 ( ) 10, 9545
p N p
pq
V N N n
n
B V

= = = =
= = =

= =



7. (Ejercicio 21, relacin tema 2) El consumo medio de combustible de los taxis de una
ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado
elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se
34
toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo.
El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla
Taxi n Consumo Taxi n Consumo Taxi n Consumo Taxi n Consumo
1 5.4 6 6.3 11 3.6 16 5.4
2 5.5 7 5.4 12 6.7 17 4.8
3 6.9 8 5 13 5.2 18 4.7
4 3.9 9 4.5 14 5.1 19 5.8
5 4.5 10 4.4 15 5.4 20 6.2
a) Estmese mediante un intervalo de confianza la proporcin de taxis con un consumo
inferior a 5.6 litros/100 Km.
b) Cuantos taxis deben observarse para estimar la anterior proporcin con un error
menor o igual que un 10%?
SOLUCIN:
a) 15 de los 20 taxis no superan el consumo de 56 litros/100 Km, por tanto

15
0' 75
20
p = =


0' 75 0' 25 580
( ) 0' 00954
1 19 600
pq N n
V p
n N

= = =




2 ( ) 0'1953 V p =

( ) ( ) 0' 75 0'1953 , 0' 75 0'1953 0' 5547 , 0' 9453 + = ( ) 55' 47%, 94' 53%

b)
( )
2
0'10
0'10 0' 0025
4
B D = = =


( ) ( )
600 0' 75 0' 25
66' 77 67
( 1) 599 0' 0025 0' 75 0' 25
Npq
n
N D pq

= = =
+ +


8. (ejercicio 1, prctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una
farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas
abiertas. Los valores de la muestra para estas seis cuentas son los siguientes:
Dinero adeudado ()
35,50
32,00
43,00
41,00
44,00
42,50
Estime el total del dinero adeudado y establezca un lmite para el error de estimacin.


35
SOLUCIN:
i
y
2
i
y
35,50
32,00
43,00
41,00
44,00
42,50
1260,25
1024,00
1849,00
1681,00
1936,00
1806,25
1
238,00
n
i
i
y
=
=


2
1
9556,50
n
i
i
y
=
=


1
100
238=3966,6
6
n
i
i
N
N y y
n

=
= = =


( )
2
2 1
2
2
2 1
1
1 1 238
9556,50 23,1667
1 1 5 6
n
i
n
i
i n
i
i
i
y
y
n
S y y
n n
=
=
=
| |
|
\ .

| |
= = = =
|

\ .

2
23,1667
2 ( ) 2 ( ) 2 100(100 6) 381, 02
6
S
V N N n
n
= = =


Los anteriores clculos que se han realizado a mano o con ayuda de una calculadora bsica
se simplifican notablemente si utilizamos una calculadora cientfica de uso comn. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadsticas
2
1 n n
x x
x x x s S = =

de forma inmediata.
1 n n
x x
s desviacin tpica S cuasidesviacin tpica = = = =

9. (Ejercicio 16, relacin tema 2) En un estudio sociolgico, realizado en una pequea
ciudad, se hicieron llamadas telefnicas para estimar la proporcin de hogares donde
habita por lo menos una persona mayor de 65 aos de edad. La ciudad tiene 5000 hogares,
segn la gua de telfonos ms reciente. Una muestra aleatoria simple de 300 hogares fue
seleccionada de la gua. Al terminar la investigacin de campo, de los 300 hogares
muestreados, en 51 habita al menos una persona mayor de 65 aos. Contraste la hiptesis
de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
aos.



36
SOLUCIN: N=5000, n=300



51
0,17 1 0,83 ( ) 0, 00044359197 2 ( ) 0, 0421
300 1
pq N n
p q p V p V p
n N

= = = = = = =

( ) ( ) 25% 17% 4, 21% 12, 79%, 21, 21% =


luego se rechaza la hiptesis de que en el 25% de los hogares de esa ciudad habita al
menos una persona mayor de 65 aos.

10. (Ejercicio 8, relacin tema 2) El gerente de un taller de maquinaria desea estimar el
tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45
operadores. Se seleccionaron aleatoriamente 5 operadores y se les tom el tiempo. Los
resultados obtenidos son los siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
Se puede aceptar la hiptesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
SOLUCIN: ( ) con las funciones del modo SD de la calculadora
N=45, n=5
( )
2
2
1 1
1 1
5, 26 2, 563
1
n n
i i
i i
y y S y y
n n
= =
= = = =




( )
2
( ) 0, 4556 2 ( ) 1, 35 . . : 3, 91min., 6, 61min.
S N n
V y V y INTERV CONF
n N

= = =
Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no
podemos aceptar esa hiptesis.

11. (Ejercicio 11, relacin tema 2) Con objetivos benficos, una asociacin filantrpica ha
solicitado firmas para una peticin en 700 hojas. Cada hoja tiene espacio suficiente para
40 firmas pero en muchas de las hojas se ha obtenido un nmero menor. Contando el
nmero de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los
siguientes resultados:
50 50
2
1 1
1.450; 54.496
i i
i i
Y Y
= =
= =


Cul sera la previsin ms optimista y ms pesimista en cuanto al nmero total de firmas
recogidas para la peticin?
SOLUCIN: N=700, n=50

2
2 1
2 1
1
1 1450
29 254
50 1
n
i
n
i
i n
i
i
i
y
y
n
y y S
n n
=
=
=
| |
|
\ .

= = = = =


37

2
20.300 ( ) ( ) 2.311.400 2 ( ) 3.040, 66
S
N y V N N n B V
n
= = = = = =


( ) ( ) 20.300 3.040, 66 17.259, 34 , 23.340, 66 =
Previsin ms optimista: 23.340 ; previsin ms pesimista: 17.259

38
3. Muestreo aleatorio estratificado.
3.1 Seleccin de una muestra aleatoria estratificada.
3.2 Estimacin de la media, proporcin y total poblacionales.
3.3 Determinacin del tamao muestral.
3.4 Asignacin de la muestra.
3.4.1 Asignacin ptima.
3.4.2 Asignacin de Neyman.
3.4.3 Asignacin proporcional.
3.5 Estratificacin despus de seleccionar la muestra.



3.1 Seleccin de una muestra aleatoria estratificada.
Una muestra aleatoria estratificada se obtiene mediante la separacin de los elementos de la
poblacin en conjuntos que no presenten interseccin, llamados estratos, y la seleccin
posterior de una muestra aleatoria simple en cada estrato.
Los estratos deben formarse de manera que los elementos de cada estrato sean lo ms
homogneos que se pueda entre s (ms homogneos que el conjunto de la poblacin) y las
diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los
estratos conduce a muestras con poca variabilidad entre las mediciones que producirn
pequeas varianzas de los estimadores y por tanto menores lmites para los errores de
estimacin que con otros diseos de la muestra.
Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes:
A veces los estratos se corresponden con zonas compactas bien definidas con lo que se
reduce el coste (en tiempo y/o dinero) de la muestra.
Adems de las estimaciones para toda la poblacin, este muestreo permite hacer
estimaciones de los parmetros poblacionales para los estratos.

Antes de continuar fijemos la notacin que va a utilizarse (a la izquierda para la poblacin, a
la derecha para la muestra):
L = nmero de estratos
N = tamao de la poblacin n = tamao de la muestra
i
N = tamao del estrato
i
n =tamao de la muestra del estrato i
1
L
i
i
N N
=
=


1
L
i
i
n n
=
=


i
= media poblacional del estrato i
i
y = media muestral del estrato i
i
= total poblacional del estrato i
39
2
i
=varianza poblacional del estrato i
2
i
S = varianza muestral del estrato i
i
p = proporcin poblacional del estrato i

i
p = proporcin muestral del estrato i
i
c =coste de una observacin del estrato i

3.2 Estimacin de la media, proporcin y total poblacionales.
En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato
i i
N y es un estimador insesgado del total
i
, parece razonable estimar
1
L
i
i

=
=

por
1
L
st
i i
i
N y
=
=

y la media poblacional
N

= mediante
1
1
L
i st i
i
y N y
N
=
=


NOTA:
st
y y en general ( y = media muestral de las n observaciones)
st

en general ( N y =

= estimador del total segn un M.A.S.)



Varianza estimada de
st
y

2
2 2
2 2
1 1
1 1
( ) ( )
L L
i i i
i i st i
i i i i
S N n
V y N V y N
N N n N
= =

= =


(se obtiene aplicando las propiedades de la varianza mencionadas en el captulo 2)
Varianza estimada de st



2
2 2
1
( ) ( )
L
i i i
st
i st
i i i
S N n
V N V y N
n N

= =



En el caso de variables dicotmicas los estimadores de la proporcin y total poblacionales as
como sus varianzas toman valores similares a los anteriores salvo las diferencias de notacin
vistas en el captulo anterior.
Estimador de la proporcin poblacional p

1
1
L
i st i
i
p N p
N
=
=


Varianza estimada de

st
p


2 2
2 2
1 1
1 1
( ) ( )
1
L L
i i i i
i i st i
i i i i
p q N n
V p N V p N
N N n N
= =

= =



Estimador del total poblacional

1
L
st
i st i
i
N p N p
=
= =



40
Varianza estimada de st




2 2
1
( ) ( )
1
L
i i i i
st
i st
i i i
p q N n
V N V p N
n N

= =



Ejemplo 3.1. (Ejercicio 1, prctica 3) Se est interesado en determinar la audiencia de la
publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por
muestreo para estimar el nmero de horas por semana que se ve la televisin en las viviendas
del municipio. ste est formado por tres barrios con diferentes perfiles socio-culturales que
afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el
barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30
hogares y decide seleccionar muestras aleatorias de tamaos: 15 del barrio A, 6 del barrio B,
y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisin en horas por semana, se muestran en la
siguiente tabla:
BARRIO A BARRIO B BARRIO C
36
39
38
28
29
34
38
37
41
37
26
32
29
35
41
20
30
14
41
39
25

14
15
21
20
24
22
17
11
14
Estime el tiempo medio que se ve la televisin, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un lmite para el error de estimacin.

Solucin: en primer lugar se calculan las medias y varianzas muestrales en cada estrato
2 2 2
1 2 3 1 2 3
2
34, 67 / 28,17 / 17, 56 / 23, 24 112, 57 19, 28
28, 23 92, 74
y horas semana y h s y h s S S S
y S
= = = = = =
= =

A partir de estos valores calculamos las varianzas de los estimadores de la media en cada
estrato y los lmites para los errores de dichas estimaciones
1 2 3 1 2 3
210 84 126 420 N N N N N N N = = = = + + =
1 2 3 1 2 3
15 6 9 30 n n n n n n n = = = = + + =
41

2 2 2
3 3 3 1 1 1 2 2 2
1 2 3
1 1 2 2 3 3
( ) 1, 44 ( ) 17, 42 ( ) 1, 99
S N n S N n S N n
V y V y V y
n N n N n N

= = = = = =

1 2 3
2 ( ) 2, 40 / 2 ( ) 8, 35 / 2 ( ) 2, 82 / V y h s V y h s V y h s = = =
Para el conjunto de todos los hogares el estimador de la media es
3
1
1
28, 23 /
i st i
i
y N y h s
N
=
= =


y la varianza de este estimador la podemos calcular basndonos en las varianzas de los
estimadores de la media en cada estrato mediante

3
2
2
1
1
( ) ( ) 1, 24
i st i
i
V y N V y
N
=
= =


o, si se prefiere, utilizando

2 3
2
2
1
1
( )
i i i
i st
i i i
S N n
V y N
N n N
=

=


el error para la estimacin de la media para todos los hogares est dado por

2 ( ) 2, 22 /
st
V y h s =

Ejemplo 3.2. (Ejercicio 2, prctica 3) En el caso anterior, tambin se desea saber qu
proporcin de hogares ven un determinado programa, para decidir la conveniencia de insertar
un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho
programa por los hogares de la muestra anterior se recoge a continuacin:
BARRIO A BARRIO B BARRIO C
SI
SI
NO
NO
SI
NO
SI
NO
SI
NO
SI
SI
NO
NO
NO
SI
NO
SI
SI
SI
SI

NO
SI
SI
NO
SI
SI
SI
SI
NO
Estime con un intervalo de confianza la proporcin de hogares del municipio donde se ve el
programa.
Solucin: en primer lugar se calculan las proporciones muestrales en cada estrato

1 2 3
7 5 6
0, 4667 0,8333 0, 6667
15 6 9
p p p = = = = = =
La estimacin puntual de la proporcin de hogares del municipio donde se ve el programa es

3
1
1
0, 60
i st i
i
p N p
N
=
= =


la varianza y error de estimacin asociados son



3
2
2
1
1
( ) 0, 00748 2 ( ) 0,173
1
i i i i
i st st
i i i
p q N n
V p N V p
N n N
=

= = =


y el intervalo de confianza expresado en porcentajes es
42
( ) ( ) 60% 17, 3% 42, 7%, 77, 3% =

3.3 Determinacin del tamao muestral.
El tamao muestral para conseguir un lmite para el error de estimacin de la media, B, viene
dado por 2 ( )
st
V y B = donde
2
2
2
1
1
( )
1
L
i i i
i st
i i i
N n
V y N
N n N

.
No podemos despejar el valor de todos los
i
n de una sola ecuacin a menos que conozcamos
la relacin entre los
i
n y n . Hay diversas formas de asignar el tamao muestral n en los
diferentes estratos
i i
n n = (problema de la asignacin de la muestra que estudiaremos ms
adelante) , sustituyendo lo anterior en ( )
st
V y se puede despejar n en funcin de los
i

obteniendo el tamao muestral aproximado que se requiere para estimar con un lmite para
el error de estimacin B (aproximado porque se hacen algunas modificaciones como
1
i i
N N , ... para resolver la anterior ecuacin).
2 2
1
2 2
1
L
i i
i i
L
i i
i
N
n
N D N

=
=
=
+


2
4
B
D = y la misma expresin vale para el total tomando
2
2
4
B
D
N
= .
Al igual que en el M.A.S. para poder usar la anterior ecuacin necesitamos conocer las
varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden
usar las varianzas muestrales de un estudio previo o conocer la amplitud de variacin de las
observaciones dentro de cada estrato.
En el caso de variables dicotmicas se obtiene una expresin similar, teniendo en cuenta que
en este caso particular
2
i i i
p q =
2
1
2
1
L
i i i
i i
L
i i i
i
N p q
n
N D N p q

=
=
=
+


2
4
B
D = (para estimar p) y la misma expresin vale para el total tomando
2
2
4
B
D
N
= .



43
3.4 Asignacin de la muestra.
Hay diversas formas de asignar el tamao muestral n en los distintos estratos.
El objetivo del diseo de una encuesta por muestreo es proporcionar estimadores con varianza
pequea (por tanto, pequeo error de estimacin) al menor coste posible.
El mejor esquema de asignacin est influido por:
El nmero total de elementos en cada estrato.
La variabilidad de las observaciones en cada estrato.
El coste de obtener una observacin en cada estrato.

3.4.1 Asignacin ptima.
La asignacin que minimiza el coste para un lmite para el error de estimacin fijado se
denomina asignacin ptima y est dada por
1
j j
j
j L
i i
i
i
N
c
N
c

=
=


sustituyendo los
j
en la expresin que obtenamos antes para n se tiene el tamao total de la
muestra segn la asignacin ptima
1 1
2 2
1
L L
i i
i i i
i i
i
L
i i
i
N
N c
c
n
N D N

= =
=
=
+


En el caso dicotmico las anteriores expresiones toman los valores
1
j j
j
j
j
L
i i
i
i i
p q
N
c
p q
N
c

=
=


1 1
2
1
L L
i i
i i i i i
i i i
L
i i i
i
p q
N p q c N
c
n
N D N p q
= =
=
=
+


En algunas ocasiones interesa encontrar la asignacin que minimiza el error de estimacin
para un coste fijo de obtencin de la muestra, en este caso la asignacin ptima tambin es la
respuesta y la eleccin de n viene dada por
44
1
1
L
i i
i
i
L
i i i
i
N
C
c
n
N c

=
=
=


donde C representa el coste total de obtencin de la muestra (vase ejemplo 3.3).
Anlogamente para el caso dicotmico sustituyendo
i i i
p q = .

3.4.2 Asignacin de Neyman.
Cuando los costes de observacin de cada estrato son los mismos, las expresiones de la
asignacin ptima se simplifican y transforman en:
Caso numrico
1
j j
j L
i i
i
N
N

=
=


2
1
2 2
1
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
=
+


Caso dicotmico
1
j j j
j L
i i i
i
N p q
N p q

=
=


2
1
2
1
( )
L
i i i
i
L
i i i
i
N p q
n
N D N p q
=
=
=
+


A este tipo de asignacin se le denomina de Neyman, que como acabamos de decir coincide
con la asignacin ptima cuando los costes de observacin son iguales en todos los estratos.
Las expresiones de esta asignacin son ms simples que las de la ptima y se utiliza an
cuando los costes de observacin no son idnticos, a veces, sencillamente porque no se
conocen.

3.4.3 Asignacin proporcional.
Si adems de los costes coincide el valor de las varianzas en cada uno de los estratos las
expresiones de la asignacin ptima se simplifican y reducen a
45
Caso numrico
j
j
N
N
=

2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N

=
=
=
+


Caso dicotmico
j
j
N
N
=
1
1
1
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N
=
=
=
+


La asignacin proporcional puede y suele utilizarse cuando las varianzas y costes de
observacin no son iguales para cada estrato, por la simplicidad de los clculos y por las
ventajas que presenta frente a los anteriores tipos de asignaciones:
Cuando se utiliza la asignacin proporcional el estimador
st
y coincide con la media muestral
de toda la muestra,
st
y y = (anlogamente para

st
p y el total).
Cuando se toma ms de una medicin en cada unidad muestral para estimar ms de un
parmetro poblacional aparecen complicaciones en la asignacin y determinacin del tamao
muestral. En la prctica se usa la asignacin proporcional cuando se observan varias variables
porque usualmente est cercana al ptimo y si se usa la asignacin ptima obtendramos
distintas asignaciones para cada variable que se mide. Con la asignacin proporcional y
tomando como n el mximo de los valores encontrados para cada estimacin, estaremos
utilizando estimadores, en muchos casos, con un lmite para el error mucho ms pequeo que
el establecido.

Aclarmoslo con un ejemplo. En la asignacin ptima y en la de Neyman los
i
dependen de
las varianzas y pueden ser distintos de una variable a otra
1 estimacin:
1 1 2 2
100 0,10 10 0, 90 90 n n n = = = = =
2 estimacin:
1 1 2 2
40 0, 50 20 0, 50 20 n n n = = = = =
46
An tomando el mayor de los tamaos muestrales (100) y pasando la encuesta a 10 individuos
del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimacin
fijado para la segunda estimacin que necesita al menos 20 individuos de cada estrato.
En la asignacin proporcional no ocurre lo anterior pues los
j
j
N
N
= son iguales para todas
las variables al no depender de sus varianzas, as si en dos estimaciones para los niveles de
error requeridos tenemos lo siguiente
1 estimacin:
1 1 2 2
100 0, 30 30 0, 70 70 n n n = = = = =
2 estimacin:
1 1 2 2
40 0, 30 12 0, 70 28 n n n = = = = =
tomando como n el mximo de los dos (o de los k si hay k variables que se observan), se
tiene garantizado que se cumple con los lmites para el error fijados para todas las
estimaciones.

Ejemplo 3.3 (Ejercicio 1, prctica 3) Continuando con el ejemplo 3.1
a) Qu tipo de asignacin se ha utilizado?
Debido a los traslados necesarios no cuesta lo mismo obtener una observacin en un
barrio que en otro. Se estima que el coste de una observacin del barrio A es de 1, 9
para el barrio B y 4 para el barrio C.
b) Cuntos hogares deberan entrevistarse para estimar el nmero medio de horas a la
semana que se ve la televisin en los hogares del municipio con un error inferior a 1
hora. (Tmese los anteriores datos como una muestra previa para estimar los
parmetros necesarios).
c) Supngase que se tiene slo 600 para gastar en el estudio, determine el tamao de la
muestra y la asignacin que minimizan el error de estimacin. (Como en el apartado
anterior, tmese los datos de la tabla como una muestra previa para estimar las
varianzas de los estratos).
Solucin:
a) Podemos comprobar que se cumple que
i i
n N
i
n N
=
15 210 6 84 9 126
0, 5 0, 2 0, 3
30 420 30 420 30 420
= = = = = =
luego la asignacin utilizada ha sido la proporcional.
b) Segn los datos anteriores estimaremos las varianzas de cada estrato por

2 2 2
2 2 2
1 2 3
1 2 3
23, 24 112, 56 19, 28 S S S = = = = = =
47

i
N

i


i
c

i i i
N c
i i
i
N
c



2
i i
N
210
84
126
4,8208
10,6094
4,3909
1
3
2
1012,368
2673,5688
1106,5068
1012,368
297,0632
276,6267
4880,4
9455,04
2429,28
420 4792,4436 1586,0579 16764,72

2
1
0, 25
4 4
B
D = = =
( )
3 3
1 1
3 2
2 2
1
4792, 4436 1586, 0579
124,89
420 0, 25 16764, 72
i i
i i i
i i
i
i i
i
N
N c
c
n
N D N

= =
=

= = =
+
+


1 1
1
1 2 3 3
1
0, 6383 0,1873 0,1744
i i
i
i
N
c
N
c

=
= = = =


1 1 2 2 3 3
79, 71 80 23, 39 24 21, 78 22 n n n n n n = = = = = =
80 24 22 126 n = + + =
c) En el supuesto de que se disponga slo de 600 para realizar el estudio
3
1
3
1
600
600 1586, 0679
198, 57
4792, 4436
i i
i
i
i i i
i
N
c
n
N c

=
=

= = =



y los tamaos de la muestra en cada estrato estn dados por la asignacin ptima
1 2 3
0, 6383 126, 75 126 0,1873 37,19 37 0,1744 34, 63 34 n n n n n n = = = = = =
126 37 34 197 n = + + =
o bien resolviendo la ecuacin
1 1 2 2 3 3
600 c n c n c n + + =
donde
i i
n n =
1 1 2 2 3 3
600 c n c n c n + + =
1 1 2 2 3 3
600 600
198, 57
3, 0216
n
c c c
= = =
+ +

A partir de n se obtienen los
i i
n n = segn la asignacin ptima.

48
Ejemplo 3.4 (Ejercicio 2, prctica 3) Continuando con el ejemplo 3.2
a) Cuntos hogares deberan entrevistarse si se quisiera hacer dicha estimacin con un
error inferior al 5%. (Supngase que se realiza la entrevista por telfono y el coste de
las observaciones es el mismo para todos los casos al no ser necesarios los traslados.
Tmese los anteriores datos como una muestra previa para estimar los parmetros
necesarios)
b) Respndase a la pregunta anterior pero suponiendo que no se tiene ninguna
informacin previa sobre la proporcin de hogares donde se ve el programa.
Solucin: a)
i
N
i
p
i
q
i i i
N p q
i i i
N p q
210
84
126
0,4667
0,8333
0,6667
0,5333
0,1667
0,3333
52,2671
11,6685
27,9986
104,7669
31,3075
59,3955
420 91,9342 195,4699
2 2
0, 05
0, 000625
4 4
B
D = = =
( )
2 3
2
1
3 2
2
1
195, 4699
188, 98
420 0, 000625 91, 9342
( )
i i i
i
i i i
i
N p q
n
N D N p q
=
=
= = =
+
+


1 1 1
1 1 3
1
104, 7669
188, 98 101, 29 102
195, 4699
i i i
i
N p q
n n n
N p q

=
= = = =


anlogamente
2 3
30, 27 31 57, 42 58 102 31 58 191 n n n = = = + + =
b)
i
N
i
p
i
q
i i i
N p q
210
84
126
0,5
0,5
0,5
0,5
0,5
0,5
52,5
21
31,5
420 105
( )
1
1
105
204, 878
105 1
420 0, 000625
420
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N
=
=
= = =
+ +


1
210
204, 878 102, 439 103
420
n = = anlogamente
2 3
40, 98 41 61, 46 62 n n = =
103 41 62 206 n = + + =


49
El muestreo estratificado no siempre conduce a un estimador con menor error de
estimacin, esto suele ocurrir cuando los estratos no incluyen datos homogneos.
Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada
estrato (por ejemplo, en un estudio regional tambin se quieren obtener estimaciones a nivel
provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema
queda bien ilustrado con el siguiente ejemplo.

Ejemplo 3.5 (Ejercicio 1, relacin tema 3) Un distribuidor de productos de limpieza desea
conocer el consumo por hogar durante un ao de un determinado producto en una comarca
formada por cuatro municipios. Para estimar de paso tambin el consumo en cada municipio
decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el
20% de la poblacin de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25%
en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes
para controlar y obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene informacin previa respecto a las varianzas de los estratos y porque el coste
del muestreo es el mismo en cada municipio, aplica asignacin proporcional, la cual conduce
a
1
1
20 0, 20 4
N
n n
N
= = = de forma similar
2 3 4
6 5 5 n n n = = = .
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
Estrato 1 Estrato 2 Estrato 3 Estrato 4
470
510
500
550
490
500
470
520
550
500
540
480
500
470
470
450
560
460
440
580
2
1 1
507, 5 1091, 67 y S = =
2
2 2
505 750 y S = =
2
3 3
492 870 y S = =
2
4 4
498 4420 y S = =
Estime el consumo anual medio por hogar y fije un lmite para el error de estimacin.

Solucin:
3 1 2 4
0, 20 0, 30 0, 25 0, 25
N N N N
N N N N
= = = =
( ) ( ) ( ) ( )
4 4
1 1
1
0, 20 507, 5 0, 30 505 0, 25 492 0, 25 498 500, 5
i
i st i i
i i
N
y N y y
N N
= =
= = = + + + =


Obsrvese que cuando se utiliza la asignacin proporcional
st
y y = , efectivamente
20
1
1 10010
500, 5
20
i
i
y y
n
=
= = =


50
En la siguiente expresin consideramos los c.p.f. en cada estrato iguales a la unidad

2
2 2 2 2 4 4 2
2
2 2
1 1 1
1
( )
i i i i i i i
i st
i i i i i i i
S N n N S N S
V y N
N n N N n N n
= = =
| |
= = = =
|
\ .


2 2 2 2
1091, 67 750 870 4420
0, 20 0, 30 0, 25 0, 25 88, 29
4 6 5 5
| | | | | | | |
= + + + =
| | | |
\ . \ . \ . \ .

2 ( ) 18, 79
st
V y =
Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20
hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es
20
1
1
500, 5
i
i
y y
n
=
= =


que coincide con el estimador del muestreo estratificado por las razones mencionadas
anteriormente, pero la varianza estimada y error de estimacin asociados toman los valores
(se omite el c.p.f.):
2
1
1520, 79
n
S

=

2
1
1520, 79
( ) 76, 04
20
n
S N n
V y
n N


= = =

2 ( ) 17, 44 V y =
Se observa que el error de estimacin es menor en el caso del muestreo aleatorio simple, esto
es debido a que el distribuidor no tuvo en cuenta que el consumo vara mucho dentro del
cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al
tamao de las familias u hogares, esto es, colocando los hogares pequeos en un estrato, los
medianos en otro, ...

3.5 Estratificacin despus de seleccionar la muestra.
A veces no se sabe a qu estrato pertenece un dato hasta que no se observa (p.e. estratos segn
sexo y entrevista telefnica).
Supngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede
ser dividida en
1
n masculinos y
2
n femeninos despus de que ha sido realizada. Entonces en
lugar de usar y para estimar , podemos usar
st
y siempre que
i
N
N
sea conocido para todo i.
Obsrvese que en esta situacin los
i
n son aleatorios, ya que varan de una muestra a otra
aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,
51
pero si
i
N
N
es conocido y 20
i
n i , entonces este mtodo de estratificar despus de la
seleccin es casi tan exacto como el muestreo aleatorio estratificado con asignacin
proporcional. Si
i
N
N
se desconoce o no se puede tener una buena aproximacin de su valor,
este mtodo no debe usarse.

Ejemplo 3.6 (Ejercicio 17, relacin tema 3) En una ciudad se sabe que el 30% de los hogares
tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de energa (valor en
euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica 60 5730 200
No elctrica 40 2080 90
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D un
lmite para el error de estimacin.
Solucin: Ya que la proporcin observada de facturas de hogares con calefaccin elctrica
(0,60=60/100) est muy alejada de la proporcin verdadera (0,30), es conveniente la
estratificacin despus de que se ha seleccionado la muestra aleatoria simple. Adems el
procedimiento se justifica pues tanto
1
n como
2
n superan 20.
1 2
5730 2080
95, 5 52
60 40
y y = = = =
2 2
1 1
1
(0, 30 95, 5) (0, 70 52) 65, 05
i
i st i i
i i
N
y N y y
N N
= =
= = = + =

2 2 2 2 2
2
2 2
1 1
1
( )
i i i i i i i
i st
i i i i i i
S N n N S N n
V y N
N n N N n N
= =

= =


omitiendo el coeficiente corrector por poblaciones finitas se tiene

2
2 2 2 2 2 2 2
2 2
2
1 1
200 90
( ) 0, 30 0, 70 159, 225
60 40
i i i i
st
i i
i i
N S N S
V y
N n N n
= =
| | | | | |
= = = + =
| | |
\ . \ . \ .


2 ( )
st
V y =25,24

A veces este mtodo de estimacin se utiliza para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la
proporcin de varones en la muestra va a ser pequea, y se podra conseguir un estimador
ajustado mediante la estratificacin despus del muestreo.

52
As, en este ejemplo la baja representacin en la muestra de facturas sin calefaccin elctrica y
la alta de facturas con calefaccin elctrica conducen a una sobreestimacin del valor medio
de las facturas si se utiliza m.a.s. y no se ajusta la estimacin de la media con la estraficacin
despus de seleccionar la muestra:

5730 2080 7810
78,10
60 40 100
y
+
= = =
+




EJERCICIOS RESUELTOS

1. (Ejercicio 10, relacin tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas
tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de energa (en
kilovatios-hora) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Media muestral Cuasivarianza muestral
Elctrica 24 972 202,396
No elctrica 36 463 96,721
a. Obtenga una estimacin del nmero medio de kilovatios-hora utilizado en la
ciudad. D un lmite para el error de estimacin.
b. Obtenga una estimacin del nmero medio de kilovatios-hora utilizado por las
casas que no tienen calefaccin elctrica. D un lmite para el error de
estimacin.
SOLUCIN:
a.
i
N
i
n
i
y
2
i
S
i i
N y i i
i
N n
N


2
2 i i i
i
i i
S N n
N
n N


164
186
24
36
972
463
202,396
96,721
159.408
86.118
0,854
0,806
193.699,13
74.925,32
350 245.526 268.624,45

1
1 245.526
701, 50
350
L
i st i
i
y N y
N
=
= = =

2
2
2 2
1
1 268.624, 45
( ) 2,19
350
L
i i i
i st
i i i
S N n
V y N
N n N
=

= = =



2 2,19 2, 96 =

53
b.
2
463 y =

2
2 2 2
2
2 2
96, 721 186 36
( ) 2,17
36 186
S N n
V y
n N

= = =

2 2,17 2, 94 =

2. (Ejercicio 11, relacin tema 3) Un analista de la opinin pblica tiene un presupuesto de
20.000 euros para realizar una encuesta sobre el nmero medio de coches por hogar. Se
sabe que de los 10.000 hogares de la ciudad, 9.000 tienen telfono. Las entrevistas por
telfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros
por hogar visitado. Suponga que las varianzas en los estratos con y sin telfono son
iguales. Con el objetivo de minimizar el lmite de error de estimacin Cuntos hogares
deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefnico
son entrevistados por telfono y los hogares sin telfono son entrevistados personalmente?
SOLUCIN:

1 1 1 1
1 1 1 1
20.000 3.028, 624
1784, 81
33.937, 726
L L L L
i i i i i
i i i i
i i i i
L L L L
i i i i i i i i i
i i i i
N N N N
C C C C
c c c c
n
N c N c N c N c



= = = =
= = = =

= = = = = =




1 1
2 2
1 2
1.784,81 0, 9397 1677, 2 1677
1.784, 81 0, 0603 107, 59 107
1784
n n
n n
n n n

= = =
= = =
= + =

O bien
1 1 2 2
1 1 2 2
20.000
20.000
9, 397 1, 809 11, 206 20.000
20.000
1.784, 8
11, 206
c n c n
c n c n
n n n
n

+ =
+ =
+ = =
= =

Y a partir de n se obtienen n
1
y n
2
como antes.

i
N
i
c i
i
N
c

i i
N c
i

9.000
1.000
10
30
2.846,05
182,574
28.460,5
5.477,226
2.846,05/3.028,624=0,9397
182,574/3.028,624=0,0603
10.000 3.028,624 33.937,726 1,0000
54
3. (Ejercicio 12, relacin tema 3) Se desea conocer el nmero de fines de semana que las
familias de una gran ciudad salen fuera de ella. Se sabe que el 425% de las familias tienen
de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 275% tienen ms de 5 hijos. Se realiz un
muestreo segn el nmero de hijos y se pregunt a las familias sobre los fines de semana
que pasan fuera, obtenindose los siguientes datos:
Nmero de hijos
i
n

=
n
i
i
y
1
2
i
S
0-2 25 239 6076
3-5 19 174 6301
Mas de 5 16 78 7824
Estimar el nmero medio de fines de semana que las familias pasan fuera de la ciudad y
dar el lmite de error de estimacin. Omitir el corrector por poblacin finita.
SOLUCIN:
1 2 3
239 174 78
9, 56 9,16 4,87
25 19 16
y y y = = = = = =
( ) ( ) ( )
1 1
1
0, 425 9, 56 0, 30 9,16 0, 275 4, 87 8,15
L L
i
i st i i
i i
N
y N y y
N N
= =
= = = + + =


2
2 2 2 2 2
2 2
2 2 2
1 1 1 1
2 2 2
1 1
1 ( )
60, 77 63, 01 78, 24
0, 425 0, 30 0, 275 1,107
25 19 16
L L L L
i i i i i i i i i i
i i st
i i i i
i i i i i i
N n S N n S N S N S
Si V y N N
N N n N N n N n N n
= = = =
| |
= = = = = =
|
\ .
| | | | | |
= + + =
| | |
\ . \ . \ .

2 1,107 2,1 =

4. (Ejercicio 6, relacin tema 3) Una compaa de autobuses est planeando una nueva ruta
para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada
barrio y se solicit a los miembros de la muestra que valorasen en una escala de 1
(totalmente opuesto) a 5 (totalmente a favor) su opinin sobre el servicio propuesto. Los
resultados se resumen en la tabla adjunta:
Barrio
1 2 3 4
i
N
240 190 350 220
i
n
25 25 25 25
i
y
3,5 3,6 3,9 3,8
i
S
0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinin media de los hogares que dispondrn del
nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuntos
perteneceran al barrio 3. (Suponga iguales los costes de observacin)
55

SOLUCIN:
a)

2
2
2
1 1 1
1 1
1000 3, 725 ( ) 0, 00973
L L L
i i i
i i i st i st
i i i i i
S N n
N N y N y V y N
N N n N
= = =

= = = = = =

( ) 2 ( ) 0,1973 3, 5277 , 3, 9223


st
B V y = =
b)
3 3
3 3 4
1
350 1, 2
100 100
(240 0, 8) (190 0, 9) (350 1, 2) (220 0, 7)
100 0, 4482 44,82 45
i i
i
N
n n
N

= = = =
+ + +
= =


5. (Ejercicio 20, relacin tema 3) Una empresa especializada en seguros est pensando en
ofrecer sus servicios a las empresas de los polgonos industriales de una ciudad. Para
ajustar sus tarifas desea estimar el gasto en pequeas reparaciones de mantenimiento
(objeto del seguro) de dichas empresas. Se clasifican las empresas en funcin de su
tamao. El nmero de empresas de cada tipo, el coste de obtencin de esta informacin en
cada empresa as como los valores mnimos, medios y mximos de un estudio similar
hecho hace dos aos se expresan en la siguiente tabla (los costes y gastos estn expresados
en euros)
Tipo de
empresa
Nmero de
empresas
Costes de
observacin
Gastos de reparacin
Mnimo Media Mximo
A 100 16 400 500 600
B 500 9 240 300 360
C 700 4 70 100 130
Si la empresa de seguros dispone de hasta 600 para llevar a cabo la estimacin, cuntas
empresas de cada tipo tiene que observar para conseguir que sea mnimo el error de
estimacin asociado?
SOLUCIN:
La asignacin que minimiza la cota del error de estimacin para un coste fijo es la
asignacin ptima.
Usamos que R4 y por tanto estimamos que
4
R
.

i
N

i
c

i
c

i
R

i

i i
i
N
c

i

100
500
700
16
9
4
4
3
2
600-400
360-240
130-70
50
30
15
1250
5000
5250
01087
04348
04565
11500 1
600 = 16n
1
+ 9n
2
+ 4n
3
( n
i
=
i
n ) 600 = 17392n + 39132n + 1826n = 74784n

56
n = 600/74784 = 80231

n
1
=
1
n = 872 8 n
2
=
2
n = 3488 34 n
3
=
3
n = 3663 36

C = (168) + (934) + (436) = 578 < 600 pero
C = (169) + (935) + (437) = 607 > 600

6. (Ejercicio 13, relacin tema 3) En una poblacin compuesta por aproximadamente igual
nmero de hombres que de mujeres se desea estimar el gasto medio mensual por habitante
en ocio. Se lleva a cabo la encuesta por telfono mediante una muestra aleatoria simple de
500 nmeros de telfono del citado municipio. Despus de obtenidos los datos se observa
que slo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide
llevar a cabo una estratificacin despus de seleccionar la muestra obtenindose los
siguientes datos
HOMBRES MUJERES
i
N 2.500 2.700
i
n 100 400
i
y
120 250
2
i
S
9.000 16.000
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado despus de seleccionar la muestra.
SOLUCIN:
i
N
i
n
i
y
2
i
S
i i
N y i i
i
N n
N


2
2 i i i
i
i i
S N n
N
n N


2.500
2.700
100
400
120
250
9.000
16.000
300.000
675.000
0,96
0,85185
540.000.000
248.399.460
5.200 500 975.000 788.399.460

1
1 975.000
187, 5
5.200
L
i st i
i
y N y
N
=
= = =

2
2
2 2
1
1 788.399.460
( ) 29,16
5.200
L
i i i
i st
i i i
S N n
V y N
N n N
=

= = =



2 29,16 10, 8 =


7. (Ejercicio 14, relacin tema 3) En una poblacin compuesta por aproximadamente igual
nmero de hombres que de mujeres se desea estimar la proporcin de individuos que ven
un determinado programa de televisin. Se lleva a cabo la encuesta por telfono mediante
57
una muestra aleatoria simple de 300 nmeros de telfono. Despus de obtenidos los datos
se observa que slo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se
decide llevar a cabo una estratificacin despus de seleccionar la muestra obtenindose los
siguientes datos
HOMBRES MUJERES
Encuestados 50 250
Ven el programa 12 130
Estime la proporcin de la poblacin que ven el programa de televisin y su cota de error,
mediante muestreo aleatorio estratificado despus de seleccionar la muestra.
SOLUCIN:

1 2
12 130
0, 24 0, 52 1
50 250
i i
p p q p = = = = =

( ) ( )

1 1
1
0, 50 0, 24 0, 50 0, 52 0, 38 38%
L L
i
i st i i st
i i
N
p N p p p
N N
= =
= = = + = =




2
2
2 2
2 2 2
1 1 1 1
2 2
1
1 1
( )
1 1 1 1
0, 24 0, 76 0, 52 0, 48
0, 50 0, 50 0, 0011812146
49 249
i i
i
L L L L
i i i i i i i i i i i i
i i st
i i i i
i i i i i
N n
Si
N
p q p q p q p q N n N N
V p N N
N n N N n N n N n
= = = =

=
| |
= = = = =
|

\ .
| | | |
= + =
| |
\ . \ .



2 ( ) 0, 0687 6, 87%
st
V p =

8. (Ejercicio 15, relacin tema 3) Una corporacin desea estimar el nmero total de horas
perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los
obreros, tcnicos y administrativos tienen diferentes tasas de accidentes, la corporacin
decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de aos
previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el nmero de horas
perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaos de
los estratos. No habiendo diferencia entre los costes de observacin de cada grupo,
determine la mejor asignacin para una muestra de 40 empleados.
Obreros Tcnicos Administrativos
2
i
S 36 25 9
i
N
132 92 27




58
SOLUCIN:
i
N
i i
S
i i
N
i

132

92

27
6

5

3
792

460

81
792
0, 5941
1.333
=
460
0, 3451
1.333
=
81
0, 0608
1.333
=
1.333 1
Donde se ha aplicado la asignacin de Neyman al ser los costes de observacin iguales:
1
j j
j L
i i
i
N
N

=
=


1
2
3
40 0, 5941 23, 8 24
40 0, 3451 13, 8 14
40 0, 0608 2, 4 2 40
n
n
n n
= =
= =
= = =


9. (Ejercicio 16, relacin tema 3) Se dispone de la siguiente informacin sobre tamaos
poblacionales de los estratos, costes de observacin y estimaciones de las proporciones
Tamao del estrato Coste de observacin Proporciones en %
ESTRATO 1 5000 9 90
ESTRATO 2 2000 25 55
ESTRATO 3 3000 16 70
Determine la mejor asignacin para una muestra de 200 observaciones.
SOLUCIN:

i
N
i
c

i
p

i
q

i i
p q

i i i
i
N p q
c

i

5.000

2.000

3.000
3

5

4
0,90

0,55

0,70
0,10

0,45

0,30
0,3

0,4975

0,45826
500

199

343,695
500
0, 4795
1.042, 695
=
199
0,1909
1.042, 695
=
343, 695
0, 3296
1.042, 695
=
1.042,695 1
Donde se ha aplicado la asignacin ptima:
1
j j
j
j
j
L
i i
i
i i
p q
N
c
p q
N
c

=
=


1
2
3
200 0, 4795 95, 9 96
200 0,1909 38, 2 38
200 0, 3296 65, 9 66
200
n
n
n
n
= =
= =
= =
=


10. (Ejercicio 19, relacin tema 3) La produccin de piezas de una factora se realiza en dos
mquinas. El 40% de las piezas las produce la mquina A y el 60% restante la mquina B.
Se les pas control de calidad a 200 piezas; 67 producidas por la mquina A y dos de ellas
resultaron defectuosas; las 133 restantes procedan de la mquina B, siendo 6 de ellas
defectuosas. Estimar la proporcin de piezas defectuosas de la factora y dar el lmite de
error de estimacin. Omita el coeficiente corrector por poblacin finita.
59
SOLUCIN:

Estrato

i
N

i
n

i
p

1
i i
i
p q
n

A
B
0.40 N
0.60 N
67
133
2/67=0.030
6/133=0.045
0.000441
0.000326
N 200

( ) ( ) ( ) ( ) ( ) ( ) ( )
1
0.40 0.030 0.60 0.045 0.40 0.030 0.60 0.045 0.039 3.9% p N N
N
= + = + =


( )
( ) ( ) ( )
2 2 2 2
2
1
0.40 0.000441 0.60 0.000326 V p N N
N
= + =
( ) ( ) ( )
2 2
0.40 0.000441 0.60 0.000326 0.000188 = + =
( ) 2 0.000188 0.0274 2.74% B = =

11. (Como ejercicio 3, relacin tema 3) Una inspectora de control de calidad debe estimar la
proporcin de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operacin de ensamble A y 40% de la operacin
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operacin A y 80 de la operacin B. De entre los circuitos integrados
muestreados de la operacin A, 3 son defectuosos. De entre las piezas muestreadas de la
operacin B, 13 son defectuosas. Estime la proporcin de los defectuosos en la poblacin,
y fije un lmite para el error de estimacin.
SOLUCIN

( )
1 1
1 3 13
0, 60 0, 40 0,155 15, 5%
20 80
L L
i
i st i i
i i
N
p N p p
N N
= =
| | | |
= = = + =
| |
\ . \ .




2
2
2
2 2
1 1 1
1
( )
1 1 1
L L L
i i i i i i i i i i
i st
i i i i i i i
p q p q p q N n N N
V p N
N n N N n N n
= = =
| |
= = = =
|

\ .


( ) ( )
2 2 0,15 0,85 0,1625 0, 8375
0, 60 0, 40 0, 00267
19 79

= + =

( ) 2 ( ) 0,103 10, 3%
st
V p =

12. (Ejercicio 18, relacin tema 3) Para la comercializacin de un producto se le clasifica,
atendiendo al calibre, en tres categoras: pequea, mediana y grande. Un establecimiento
dispone de 300 piezas pequeas, 500 medianas y 200 piezas grandes. Para estimar el peso
total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas
de todas las categoras, resultando

60
Categora N de piezas Peso en gramos
Pequea 5 12, 14, 12, 15, 12
Mediana 6 16, 22, 24, 20, 20, 18
Grande 4 30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el nmero de
unidades que cada categora debe aportar a la muestra para que el error en la estimacin
del peso total no supere el medio kilo.
SOLUCIN:
Peso en gramos ( ) con las funciones del modo SD de la calculadora
12, 14, 12, 15, 12
2
1 1
1, 4142 2 S S = =
16, 22, 24, 20, 20, 18
2
2 2
2,8284 8 S S = =
30, 33, 31, 34
2
3 3
1, 8257 3, 3333 S S = =

i
N
i

2
i

i i
N
2
i i
N
1
j j
j L
i i
i
N
N

=
=


71, 66
i i
n =
300
500
200
1,4142
2,8284
1,8257
2
8
3,3333
424,26
1414,2
365,14
600
4000
666,66
0,1925
0,6418
0,1657
13, 79 14
45, 99 46
11,87 12
1000 N = 2203,6 5266,66 1 72 n =
2
2
250.000
0, 0625
4 4.000.000
B
D
N
= = =
2
1
2 2
1
71, 66
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
= =
+



13. (Ejercicio 3, relacin tema 3) Una inspectora de control de calidad debe estimar la
proporcin de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operacin de ensamble A y 40% de la operacin
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operacin A y 80 de la operacin B. De entre los circuitos integrados
muestreados de la operacin A, 2 son defectuosos. De entre las piezas muestreadas de la
operacin B, 16 son defectuosas.
a. Considerando nicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporcin de los defectuosos en el lote, y establezca un
lmite para el error de estimacin.
61
b. Estratifique la muestra, despus de la seleccin, en circuitos integrados
provenientes de la operacin A y B, estime la proporcin de los defectuosos en
la poblacin, y fije un lmite para el error de estimacin.
c. Qu respuesta encuentra ms aceptable? Por qu?
SOLUCIN:
a.

18
0,18 (18%)
100
p = =


( ) 0, 001491
1
pq
V p
n
= =



( ) 2 ( ) 0, 0772 7, 72% V p =
b.

( )
1 1
1 2 16
0, 60 0, 40 0,14 14%
20 80
L L
i
i st i i
i i
N
p N p p
N N
= =
| | | |
= = = + =
| |
\ . \ .




2
2
2
2 2
1 1 1
1
( )
1 1 1
L L L
i i i i i i i i i i
i st
i i i
i i i i
p q p q p q N n N N
V p N
N n N N n N n
= = =
| |
= = = =
|

\ .


( ) ( )
2 2 0,10 0, 90 0, 20 0, 80
0, 60 0, 40 0, 00203
19 79

= + =

( ) 2 ( ) 0, 0901 9, 01%
st
V p =
c. Aunque en el conjunto de la poblacin hay ms elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimacin est sesgada hacia el valor de B (

2
0, 20 p = ) frente al de A
(

1
0,10 p = ). En el apartado b. este hecho se corrige dando a

1
p y

2
p las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.

14. (Ejercicio 4, relacin tema 3) Una cadena de restaurantes tiene 100 establecimientos en
Madrid, 70 en Barcelona y 30 en Sevilla. La direccin est considerando aadir un nuevo
producto en el men. Para contrastar la posible demanda de este producto, lo introdujo en
el men de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de
Sevilla. Usando los ndice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla,
respectivamente, las medias y las desviaciones tpicas muestrales del nmero de pedidos
de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:
1 1
2 2
3 3
21, 2 12
13, 3 11
26,1 9
y S
y S
y S
= =
= =
= =

a. Estimar el nmero medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un lmite del error de estimacin.
62
b. Determinar el tamao muestral y la asignacin para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
SOLUCIN:
a.
1
1 3834
19,17 /
200
L
i st i
i
y N y pedidos semana
N
=
= = =



2
2
2
1
1
( ) 6, 2965 2 ( ) 5, 02 /
L
i i i
i st st
i i i
S N n
V y N V y pedidos semana
N n N
=

= = =


b.
i
N
i

2
i

i i
N
2
i i
N
1
j j
j L
i i
i
N
N

=
=


43, 52
i i
n =
100
70
30
12
11
9
144
121
81
1200
770
270
14400
8470
2430
0,5357
0,3438
0,1205
23, 31 24
14, 96 15
5, 24 6
200 N = 2240 25300 1 45 n =
2
9
2, 25
4 4
B
D = = =
2
1
2 2
1
43, 52
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
= =
+




63
4. Muestreo con informacin auxiliar.
4.1 Introduccin.
4.2 Estimacin de razn.
4.2.1 Estimacin de la media y total poblacionales.
4.2.2 Determinacin del tamao muestral.
4.3 Estimacin de regresin.
4.3.1 Estimacin de la media y total poblacionales.
4.3.2 Determinacin del tamao muestral.
4.4 Estimacin de diferencia.
4.4.1 Estimacin de la media y total poblacionales.
4.4.2 Determinacin del tamao muestral.



4.1 Introduccin.
Si entre dos variables existe una fuerte relacin es posible utilizar la informacin auxiliar que
de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar
la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende
estimar el total sin conocer el nmero de elementos de la poblacin y s el valor total de la
variable que proporciona la informacin auxiliar
Denotemos por
Y Variable bajo estudio
X Variable que proporciona la informacin auxiliar
Y supongamos que tenemos una muestra constituida por n pares:
( ) ) , ( ,..., ,
1 1 n n
y x y x
A travs de los datos muestrales se puede estimar la relacin existente entre ambas variables.
Distintos diseos de muestreo pueden utilizarse con la estimacin con informacin auxiliar.
Aqu suponemos que el muestreo que se emplea es el aleatorio simple

Ejemplo 4.1. Ya que existe una fuerte relacin entre renta y ahorro, se puede estimar el valor
total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas
de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se
dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la dcima parte
del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el
nmero de empleados de la empresa.

Dependiendo de la relacin entre las variables X e Y utilizaremos:
Estimadores de razn ( ) y bx =
64
Estimadores de regresin ( ) y a bx = +
Estimadores de diferencia ( ) y a x = +
Cualquiera de estos estimadores slo se debe utilizar si entre las dos variables existe una
fuerte relacin lineal positiva (
2
1
>
xy
r ).

4.2 Estimacin de razn
Dada una poblacin de tamao N en la que se consideran las variables X e Y , se define la
razn como el cociente:
x
y
R

=
Es decir, la proporcin del total de Y respecto del total de X . Puesto que
y y
N = y
x x
N = , obtenemos
X
Y
R

=
De estas definiciones se deduce que
x y
x y
R
R


=
=

Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para
estimar la media y el total de Y slo hay que estimar el valor de R (que notaremos como

R r = ):

y x
y x
r
r


=
=

Puesto que la razn R es el cociente entre las medias poblacionales, tomando una muestra
aleatoria simple: ( ) ( )
n n
x y x y , ,..., ,
1 1
, podemos estimar R tomando el cociente entre las
medias muestrales:
ESTIMADOR DE LA RAZN:
1 1
1 1
1
1
n n
i i
i i
n n
i i
i i
y y
y n
r
x
x x
n
= =
= =
= = =



VARIANZA ESTIMADA DE r :
2
2
1

( )
r
x
S N n
V r
n N
| |
=
|
\ .
, ( )

=
n
i
i i r
rx y
n
S
1
2 2
1
1



65
4.2.1 Estimacin de la media y el total poblacionales
Hemos de suponer que entre X e Y existe una alta correlacin lineal positiva y que el
modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen,
( ) , y bx en este contexto se nota b r dado su significado = =
ESTIMADOR DE LA MEDIA:
x y
r =
VARIANZA ESTIMADA DE
y
: ( )
|
.
|

\
|
= =
N
n N
n
S
r V V
r
x y
2
2
) (



ESTIMADOR DEL TOTAL:
x y
r =
Observemos que no es necesario conocer el tamao de la poblacin N.
VARIANZA ESTIMADA DE
y
:
|
.
|

\
|
= =
N
n N
n
S
r V V
r
x
x
x y
2
2
2
2
) (

) (



Comentarios sobre el uso de estos estimadores:
Cuando N es desconocido y si estimamos que N n % 5 (el tamao poblacional es
ms de 20 veces el tamao de la muestra), es decir que 95 , 0

N
n N
, entonces
1

N
n N
. (Vase ejercicio resuelto 4)
De la relacin
N
x
x

= , conociendo dos de esos elementos se puede calcular el
tercero.
A la hora de obtener ( )
y
V

, si
x
es desconocida y no podemos utilizar la relacin
anterior entonces x
x
. Sin embargo, para estimar
y
necesitamos conocer el
verdadero valor de
x
.
Son estimadores sesgados.
A la hora de estimar el total, an conociendo el tamao de la poblacin, cuando existe
una fuerte correlacin entre las variables se comporta mejor el muestreo con
informacin auxiliar ( )
x y
r = que el m.a.s ( ) y N = .

Ejemplo 4.2 (Ejercicio 2, relacin tema 4, apartado (a))
Mediante una tasacin previa se desea estimar la produccin media y la produccin total de
los 750 socios de una cooperativa agrcola. Se sabe que el total de superficie plantada es de
66
3.840 hectreas. Se realiz un sorteo entre los socios para elegir a 20 de ellos a los que se les
pregunt por la superficie plantada y se les tas su produccin. Los resultados fueron:
Superficie Produccin
3,7 12
4,3 14
4,1 11
5 15
5,5 16
3,8 12
8 24
5,1 15
5,7 18
6 20
3 8
7 20
5,4 16
4,4 14
5,5 18
5 15
5,9 18
5,6 17
5 15
7,2 22
Estime la produccin media y total mediante los estimadores de razn y m.a.s., calcule sus
respectivos lmites para el error de estimacin y comprelos.
Solucin
" produccin (toneladas, tm)"
X "superficie plantada (hectreas, ha)"
Y =
=


i
x

i
y

2
i
x

2
i
y

i i
x y

3,7 12
13,69 144 44,4
4,3 14
18,49 196 60,2
4,1 11
16,81 121 45,1
5 15
25 225 75
5,5 16
30,25 256 88
3,8 12
14,44 144 45,6
8 24
64 576 192
5,1 15
26,01 225 76,5
5,7 18
32,49 324 102,6
6 20
36 400 120
3 8
9 64 24
7 20
49 400 140
5,4 16
29,16 256 86,4
4,4 14
19,36 196 61,6
5,5 18
30,25 324 99
67
5 15
25 225 75
5,9 18
34,81 324 106,2
5,6 17
31,36 289 95,2
5 15
25 225 75
7,2 22
51,84 484 158,4
TOTALES 105,2 320 581,96 5398 1770,2

Del enunciado y de la tabla anterior obtenemos
20 750 socios 3.840 ha
x
n N = = =
2 2
1 1 1 1 1
105, 2 320 581, 96 5398 1770, 2
n n n n n
i i i i i i
i i i i i
x y x y x y
= = = = =
= = = = =


( )
2
2
2 2 2
1 1 1
1 105, 2 1 1 581, 96
5, 26 5, 26 1, 4304
20 20
n n n
i x i i
i i i
x x s x x x x
n n n
= = =
= = = = = = =


( )
2 2
2 2 2
1 1 1
1 320 1 1 5398
16 16 13, 9
20 20
n n n
i y i i
i i i
y y s y y y y
n n n
= = =
= = = = = = =


( )( )
( )
1 1
1 1 1770, 2
5, 26 16 4, 35
20
n n
xy i i i i
i i
s x x y y x y x y
n n
= =
= = = =


Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene:
2 2 2 2
20 20
1, 4304 1, 5057 13, 9 14, 6316
1 19 1 19
x x y y
n n
S s S s
n n
= = = = = =


y hallando las races cuadradas obtenemos las desviaciones
( )
,
x y
s s y cuasidesviaciones
tpicas
( )
,
x y
S S .

Los anteriores clculos que se han realizado a mano o con ayuda de una calculadora bsica se
simplifican notablemente si utilizamos una calculadora cientfica de uso comn. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadsticas
2
1 n n
x x
x x x s S = =

de forma inmediata.
1 n n
x x
s desviacin tpica S cuasidesviacin tpica = = = =

La relacin entre las variables es alta
4, 35
0, 9756
1,196 3, 728
xy
xy
x y
s
r
s s
| |
= = =
|
|

\ .
. Esto junto con la
informacin auxiliar que disponemos de la variable X justifica el uso de estimadores de razn.
Por otra parte, dado el contexto, es lgico que la relacin pase por el origen (a 0 ha de
superficie le corresponde una produccin de 0 tm).
68
20
1
20
1
320
3, 042 tm/ha
105, 2
3, 042 3.840 11.680, 6 tm
i
i
i
i
y x
y
r
x
r
=
=
= = =
= = =


3840
5,12 /
750
x
ha socio
x
N

= = =
3, 042 5,12 15, 57 tm/socio
y x
r = = =
( )
20 20 20 20
2 2 2 2 2
1 1 1 1
1 1
2 0, 706
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .


( ) ( )
2

0, 0344 2 0, 37 tm/socio
r
y y
S N n
V B V
n N


| |
= = = =
|
\ .

2 2 2
2
2

( ) 19.326, 75 2 ( ) 278, 04 tm
x r r
y y
x
S N n S N n
V N B V
n N n N

| | | |
= = = = =
| |
\ . \ .

o 750 750 0, 37 277, 5 B B tm

= = = (no coinciden los dos procedimientos por los errores
de redondeo en el valor de B

).

A continuacin lo estimaremos utilizando muestro aleatorio simple.
( )
2
320 14, 63 750 20

16 / 0, 712
20 20 750
S N n
y tm socio V y
n N
| | | |
= = = = =
| |
\ . \ .

2 0, 712 1, 69 / B tm socio

= =
320
750 12.000
20
Ny tm = = =
( ) 400.539,47
750
20 750
20
63 , 14
750

2
2
2
= |
.
|

\
|
= |
.
|

\
|
=
N
n N
n
S
N V
2 400.539, 47 1.265,76 B tm

= = o 750 B B

=
Observemos que el lmite del error de estimacin es mucho mayor que el cometido utilizando
estimadores de razn.

4.2.2 Determinacin del tamao muestral
Tamao muestral mnimo para que la estimacin de la razn, la media y el total no supere una
cota de error de magnitud B
ND
N
n
r
r
+
=
2
2



69
donde para estimar:
la razn:
4
2 2
x
B
D

=
la media:
4
2
B
D =
el total:
2
2
4N
B
D =
Comentarios:

2
r
se estima utilizando una muestra previa (tamao ' n ):
2 2

r r
S = .
Si
x
es desconcocido,
2 2
x
x
=

Ejemplo 4.3 (Ejercicio 2, relacin tema 4, apartado (b))
Supongamos que queremos reducir el lmite para el error de estimacin (LEE) de la media a
0,25 tm/socio y el LEE del total no debe superar las 200 tm a cuntos socios se les debe tasar
su produccin antes de realizar una nueva estimacin?
Solucin
MEDIA:
2
2
2
2
750 0, 706
0, 25
0, 706 750
4
42, 6 43 socios
4
r
r
N
n
B
N


=
| |
+
|
\ .
= =
+

TOTAL:
2 2
2 2 2
2 2
2
750 0, 706
37, 7 38 socios
200
0, 706
4 4 4 750
r r
r r
N N
n
B B
N
N N



= = = =
| |
+ + +
|

\ .

Necesitamos al menos 43 socios para cumplir con ambos niveles de error.

4.3 Estimacin de regresin
El uso del estimador de razn es ms efectivo cuando la relacin entre las variables X e Y es
lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados).
En caso de relacin lineal que no pase por el origen de coordenadas es preferible utilizar
estimadores de regresin.
En el modelo lineal simple bX a Y + = , el mtodo de mnimos cuadrados permite estimar a y
b de la siguiente forma:
70
( )( )
( )
1
2 2
2
1

n
i i
xy xy
i
n
x x
i
i
y y x x
s S
b
s S
x x
a y bx
=
=

= = =


donde
( ) ( )
( )( ) ( )( )
2 2
2 2
1 1
1 1 1
1 1
;
1
1 1 1
1
n n
x i x i
i i
n n n
xy i i xy i i i i
i i i
S x x s x x
n n
S x x y y s x x y y x y x y
n n n
= =
= = =
= =

= = =





4.3.1 Estimacin de la media y el total poblacionales
ESTIMADOR DE LA MEDIA: ( )


yL x x x
a b y bx b y b x = + = + = +
VARIANZA ESTIMADA DE
yL
: ( )
|
.
|

\
|
=
N
n N
n
S
V
L
yL
2


siendo
2
L
S la varianza residual en el modelo lineal simple:
( )
( ) ( )
( )
2
2
2 2 2 2
2
1
1

1
2 2 2
n
xy
L i i y y xy
i
x
s
n n
S y y b x x s s r
n n s n
=
| |
= + = =
|
|

\ .



ESTIMADOR DEL TOTAL:
yL yL
N =
VARIANZA ESTIMADA DE
yL
: ( ) ( )
yL yL
V N V

2
=

Comentario. En este caso para estimar el total es necesario conocer el tamao de la poblacin
N. No se puede estimar como
x yL
b a

+ = ya que la recta de regresin no pasa por el punto


( )
y x
, .

Ejemplo 4.4 (Ejercicio 3, relacin tema 4, apartado (a))
Para un grupo de 1.000 pequeos establecimientos se desea realizar un estudio sobre las
ventas diarias. Se tiene informacin de que, por trmino medio, el gasto en publicidad es de 5
euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en
publicidad y ventas diarios. Los resultados son:
Gastos Ventas
3,7 120
4,3 140
4,1 135
71
5 150
5,5 160
3,8 120
8 160
5,1 150
5,7 125
6 130
0 80
7 150
5,4 150
4,4 120
5,5 140
5 150
5,9 150
6,6 170
Estime el total de ventas diarias y la media utilizando estimadores de regresin. Obtenga el
lmite para el error de estimacin.
Solucin
Denotamos (euros)" publicidad en diarios gastos " ; (euros)" diaria ventas " = = X Y
Tal y como se explic en la resolucin del ejemplo 4.2 obtenemos:
18 establecimientos 1.000 establecimientos 5
x
n N = = =
5, 0556 138, 889 x y = =
2
1, 6375 2, 6814
x x
s s = =
2 2 2
20, 314 412, 654 436, 928
1
y y y y
n
s s S s
n
= = = =


27, 7284
xy
s =
La relacin entre las variables es fuerte: 0, 8336
xy
r = .
( )
2

27, 7284

10, 341
2, 6814
138, 314 138.314
yL x
xy
x
yL yL yL
y b x
s
b
s
N


= +
= = =
= = =

( )
2 2 2
1
1 141, 6
2
L y xy
n
S S r
n

= =


( )
2

7, 73
L
yL
S N n
V
n N

| |
= =
|
\ .


( )

2 5, 56
yL
B V

= = 1.000 5, 56 5.560 B N B

= = =

4.3.2 Determinacin del tamao muestral
Tamao muestral mnimo necesario para que al estimar la media y el total poblacionales la
cota de error no supere la magnitud B
72
ND
N
n
L
L
+
=
2
2



donde para estimar:
la media:
4
2
B
D =
el total:
2
2
4N
B
D =
2
L
se estima utilizando una muestra previa (tamao ' n ):
2 2

L L
S =

Ejemplo 4.5 (Ejercicio 3, relacin tema 4, apartado (b))
Se quiere repetir el estudio anterior de forma que el error para la estimacin del total no supere
los 1.000 euros cul debe ser el tamao muestral?
Solucin
2
2 2
2
2 2
1000 141, 6
361, 6 362
1000
141, 6 1000
4 4 1000
L
L
N
n
B
N
N


= = =
| |
+ +
|

\ .
establecimientos.


4.4 Estimacin de diferencia
El uso del estimador de diferencia tiene un buen comportamiento (cota de error ms baja)
cuando la relacin entre las variables es lineal y la pendiente del modelo es uno.
( )
( ) y a x y y x x a y x d = + = + = =
Comnmente se emplea en procedimientos de auditora.

4.4.1 Estimacin de la media y el total poblacionales
ESTIMADOR DE LA MEDIA: ( ) d x y
x x yD
+ = + = x y d =
VARIANZA ESTIMADA DE
yD
: ( )
|
.
|

\
|
=
N
n N
n
S
V
D
yD
2


( ) ( ) ( )

= =

= +

=
n
i
i
n
i
i i D
d d
n
d x y
n
S
1
2
1
2
2
1
1
1
1
, donde
i i i
x y d = , por tanto
2
D
S es la
cuasivarianza de los
i
d .

ESTIMADOR DEL TOTAL:
yD yD
N =
73
VARIANZA ESTIMADA DE
YD
: ( ) ( )
yD yD
V N V

2
=

Ejemplo 4.6 (Ejercicio 4, relacin tema 4, apartado (a))
Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se
tiene informacin de que los ingresos medios diarios son de 500 euros. Se elige al azar una
muestra de 10 establecimientos y se toman datos de ingresos y gastos, obtenindose:
X=Ingresos Y=Gastos
470 405
650 585
710 650
300 240
475 410
505 435
610 550
380 320
540 480
520 460
Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo
aleatorio simple, estimadores de razn, regresin y diferencia. Obtenga el LEE en cada caso.
(Nota: en el enunciado de la relacin de problemas slo se pide mediante el estimador de
diferencia)
Solucin
Denotamos
"gasto diario (euros)"
"
"ingresos diarios (euros)
Y
X
=


Tal y como se explic en la resolucin del ejemplo 4.2 obtenemos:
2
2
2
10 establecimientos 200 establecimientos 500
516 453, 5
115, 797 13.409
115, 738 13.395, 3
14883, 7
13.396, 5
x
x x
y y
y
xy
n N
x y
s s
s s
S
s
= = =

= =

= =

= =


La relacin entre las variables es muy fuerte:
2
0, 99958 0, 99916
xy xy
r r = = .
MUESTREO ALEATORIO SIMPLE
2
2
y
14883, 7
453, 5 90.700
S

V( ) 1.413,94 B 2 V( ) 75,20 B 200 B =15.040,97
y
S
y Ny
N n
n N



=
= = = =
| |
= = = = =
|
\ .

74
ESTIMADORES DE RAZN
0, 879 200 100.000 87.900 439, 5
x x y x y x
y
r r r
x
= = = = = = = =
( )
2 2 2 2 2
1 1 1 1
1 1
2 227, 717
1 1
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .


( )
2

21, 63 9, 3
r
y
S N n
V B
n N

| |
= = =
|
\ .

=1.860 B N B

=
ESTIMADORES DE REGRESIN
( )
2

13.396, 5

0, 99907
13.409
437, 515 87.503
yL x
xy
x
yL yL yL
y b x
s
b
s
N


= +
= = =
= = =

( )
( )
2 2 2
2
1
1 14, 05
2

1, 33 2, 3104 462, 09
L y xy
L
yL
n
S S r
n
S N n
V B B NB
n N

= =

| |
= = = = =
|
\ .

ESTIMADORES DE DIFERENCIA

62, 5
437, 5 87.500
yD x
yD yD yD
d
d
N


= +
=
= = =

(con la calculadora hallamos
1 n


sobre las diferencias
i
d y lo elevamos al cuadrado)
( )
2
2
1
1
12, 5
1
n
D i
i
S d d
n
=
= =



( ) ( )
2

1,1875 2 2,179 435, 8899
D
yD yD
S N n
V B V B NB
n N


| |
= = = = = =
|
\ .


4.4.2 Determinacin del tamao muestral
Tamao muestral mnimo necesario para que la estimacin no supere un cota de error B al
estimar la media y el total poblacionales
ND
N
n
D
D
+
=
2
2





75
donde para estimar:
la media:
4
2
B
D =
el total:
2
2
4N
B
D =
2
D
se estima utilizando una muestra previa (tamao ' n ):
2 2

D D
S =

Ejemplo 4.7 (Ejercicio 4, relacin tema 4, apartado (b))
Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un
error como mximo de 300 euros al estimar el total cul debe ser el tamao muestral?
Solucin
2
2 2
2
2
200 12, 5
20 establecimientos
300
12, 5
4 4 200
D
D
N
n
B
N
N


= = =
+ +





EJERCICIOS RESUELTOS

1. (ejercicio 9, relacin tema 4) En una poblacin de 500 hogares, para la que es conocido
que el gasto total general durante un ao es de 15.000.000 , se quiere estimar el gasto
total en alimentacin durante un ao, para lo que se obtiene una muestra aleatoria simple
de 4 hogares que proporciona los siguientes valores anuales en :
Gasto en alimentacin 12.500 15.000 10.000 17.500
Gasto general 24.000 31.000 20.000 36.000
Antes de calcular el estimador, cree que es til utilizar esta informacin auxiliar?,
justifquese.
Estime con un estimador de razn el total de gasto en alimentacin mediante un intervalo
de confianza.
SOLUCIN (trabajaremos en cientos de euros)
i
x
i
y
2
i
x
2
i
y
i i
x y
240
310
200
360
125
150
100
175
57.600
96.100
40.000
129.600
15.625
22.500
10.000
30.625
30.000
46.500
20.000
63.000
1110 550 323.300 78.750 159.500
76
1
1
550
500 4 0, 4955 0, 4955 150.000 74.325
1110
n
i
i
y
x n
i
i
y
N n r r cientos de
x

=
=
= = = = = = = =


7.432.500 y =



( )
2
2 2 2 2
1 1 1 1
1 1 62, 2
2 20, 73
1 1 3
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + = =
|

\ .



2
( ) ( ) 1.285, 4667 2 ( ) 2.267, 568
r
y y
S
V N N n V
n
= = =


( ) 72.057, 432 ; 76.592, 568
y
en cientos de
Para expresarlo en hay que multiplicarlo por cien.

2. (Ejercicio 17, relacin tema 4) Un trabajador social quiere estimar la ratio
personas/habitacin en un determinado barrio. El trabajador social selecciona una muestra
aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el nmero de personas en
cada vivienda e y el nmero de habitaciones por vivienda. A partir de los datos
siguientes:
25 25 25
2 2
1 1 1
9,1; 2, 6; 2240; 169; 522
i i i i
i i i
x y x y x y
= = =
= = = = =


Estime la razn personas/habitacin en el barrio y establezca el lmite para el error de
estimacin con una confianza del 95%.
SOLUCIN (los papeles de las variables x e y deben permutarse en las expresiones
del formulario)
2
2 2 1
1
275 25 3, 5 . / . 2, 6 6, 76
n
i
i
y n
i
i
x
x
N n r pers hab y
y
y

=
=
= = = = = = =


( )
2
2 2 2 2
1 1 1 1
1 1
2 27, 34375
1 1
n n n n
r i i i i i i
i i i i
S x ry x r y r x y
n n
= = = =
| |
= = + =
|

\ .



2
2
1 ( )
( ) 0,1471 2 ( ) 0, 767
r
y
N n S
V r V r
N n

= = =

3. (Ejercicio 12, relacin tema 4) Se desea estimar el agua utilizada en la presente campaa
por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10
parcelas cuyo tamao y metros cbicos utilizados en riego aparecen en la siguiente tabla
3
m
600 1800 750 900 1100 1400 950 700 1000 720
Hectreas 50 150 60 70 100 120 80 60 90 60
77
Estime la media de
3
m /hectrea que utiliza la comunidad de regantes y la cota del error de
dicha estimacin.
SOLUCIN:
y = consumo de
3
m litros de agua, x = tamao de la parcela en hectreas

X Y x
2
y
2
xy
50 600 2500 360000 30000
150 1800 22500 3240000 270000
60 750 3600 562500 45000
70 900 4900 810000 63000
100 1100 10000 1210000 110000
120 1400 14400 1960000 168000
80 950 6400 902500 76000
60 700 3600 490000 42000
90 1000 8100 1000000 90000
60 720 3600 518400 43200
840 9920 79600 11053400 937200

3 1
1
9920
11' 81 /
840
n
i
i
n
i
i
y
r m hectarea
x
=
=
= = =


( )
2
2 2 2 2
1 1 1 1
1 1
2
1 1
n n n n
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .


( )
1
11053400 11102297' 56 22136664 2114' 84
9
= + =

840
84
10
x
x = = =

2
2 2
1 1 240 2114' 84
( ) 0' 02877
84 250 10
r
x
N n S
V r
N n

= = =

2 ( ) 0' 3392 V r =
4. (Ejercicio 1, relacin del tema 4) Se desea estimar el consumo mensual de una ciudad. Se
sabe que los ingresos en dicha ciudad, va declaracin de la renta, ascienden a 1.502.530
euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados
de renta y consumo se recogen en esta tabla.
Renta Consumo
1.702,44 1.204
1.339,56 1.000
981,06 800
2.537,04 1.800
1.519,85 1.200
3.080,19 2.600
78
1.502,53 1.080
1.702,87 1.240
1.402,36 1.000
1.803,04 1.400
2.053,46 1.484
3.005,06 2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razn. Obtenga el lmite para el error de estimacin.
SOLUCIN:
Denotemos por
" consumo mensual"
X "ingresos mensuales"
Y =
=

De la informacin muestral obtenemos

=
=
=
=
=
12
1
12
1
euros 46 , 629 . 22
euros 808 . 16
12
i
i
i
i
x
y
n

y como informacin auxiliar sabemos que 1.502.530
x
= euros.
Podemos comprobar que el coeficiente de correlacin lineal es alto ( 9677 , 0 = =
y x
xy
xy
s s
s
r ).
Esto junto con la informacin auxiliar nos permite utilizar muestreo con informacin
auxiliar, en concreto utilizaremos estimadores de razn.
12
1
1 2
1
0, 7 4 27
1 . 1 1 6. 0 0 2, 0 7
i
i
i
i
y x
y
r
x
r
=
=
= =
= =


2 2
2

( )
x r
Y
x
S N n
V
n N

| |
=
|
\ .

( )
12
i 1
No conocemos , pero en la ciudad hay muchos hogares, observando < 5%
i x
N x
=


( ) estimamos que < 5% 1
N n
n N
N

1.885, 79
x
x = =
( )
12 12 12 12
2 2 2 2 2
1 1 1 1
1 1
2 16.479, 7
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .



( ) 871.825.002, 67 2 ( ) 59.053, 37
Y Y
V B V = = =
79
5 (Ejercicio 10, relacin tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250
oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros)
570 721 650 650 569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime
el total de ingresos y el lmite para el error de estimacin.
SOLUCIN:
N=250, n=5, 12764
x
= , X=gastos, Y=ingresos
( ) con las funciones del modo SD de la calculadora :
2
632 4095, 5
D
d S = =

13396
yD x
d = + =

3349000 yD
yD
N = =

( )

2 2
2 2
( ) 50169875 2 ( ) 14166,14
D D
yD yD
N n S S
V N N N n V
N n n

= = = =



6. (Ejercicio 6, relacin del tema 4) Una cadena de electrodomsticos est interesada en
estimar el total de ganancias por las ventas de televisores al final de un periodo de tres
meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese
mismo periodo de tres meses correspondiente al ao anterior, ese total es de 128.200 .
Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena
resultando los datos de la siguiente tabla:
Oficinas Datos de 3 meses del ao anterior Datos de 3 meses del ao actual
1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
Usando un estimador de razn, estime el total de ganancias con un intervalo de confianza.
SOLUCIN:
N=123, n=5, 128200
x
= , X=del ao anterior, Y=del ao actual
( ) con las funciones del modo SD de la calculadora :

5 5
2
1 1
5 5
2
1 1
882 4410 4495700
924 4620 4961400
i i
i i
i i
i i
x x x
y y y
= =
= =
= = =
= = =





i i
x y
335500
561600
2400000
1050600
372000
5
1
4719700
i i
i
x y
=
=

80
1
1
1, 047619
n
i
i
n
i
i
y
y
r
x
x
=
=
= = =

134304, 76 y
x
r = =


( )
5 5 5 5
2 2 2 2 2
1 1 1 1
1 1
2 1640, 25
1 1
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .

( )

2
( ) 4761314, 071 2 ( ) 4364, 09
r
y y
S
V N N n V
n
= = =


( ) 129940, 67 , 138668, 85
y

7. (Como ejercicio 7, relacin del tema 4) Una agencia de publicidad est interesada en el
efecto de una nueva campaa de promocin regional sobre las ventas totales de un
producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452
tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales
son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a
la nueva campaa.
Tienda Ventas antes de
la campaa
Ventas
actuales
1 208 239
2 400 428
3 440 472
4 259 276
5 351 363
Usando los anteriores datos para estimar los parmetros necesarios, determine el tamao
de la muestra para estimar
Y
con un lmite para el error de estimacin de 2.000,
cuando se utiliza el estimador de razn.
SOLUCIN:
N=452, n=5, X=ventas antes, Y=ventas actuales
( ) con las funciones del modo SD de la calculadora :

5 5
2
1 1
5 5
2
1 1
331, 6 1658 587146
355, 6 1778 671034
i i
i i
i i
i i
x x x
y y y
= =
= =
= = =
= = =




5
1
5
1
1, 072376
i
i
i
i
y
y
r
x
x
=
=
= = =


i i
x y
49712
171200
207680
71484
127413
5
1
627489
i i
i
x y
=
=

81
( )
5 5 5 5
2 2 2 2 2
1 1 1 1
1 1
2 109, 4775
' 1 ' 1
r i i i i i i
i i i i
S y rx y r x r x y
n n
= = = =
| |
= = + =
|

\ .


2
2
4, 8947
4
B
D
N
= =

2
2
109, 4775 r
r
S = =
2
2
21, 3 22
r
r
N
n
ND

= =
+


82

5. Muestreo sistemtico.
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas.
5.2 Estimacin de la media, proporcin y total poblacionales.
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y peridicas.
5.4 Determinacin del tamao muestral.



5.1 Seleccin de una muestra sistemtica. Usos. Ventajas.
En el muestreo aleatorio simple, la seleccin de los elementos se efecta con total
aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran
los N elementos de la poblacin y despus se seleccionan al azar los n elementos que han de
formar la muestra. Esto, en general, complica el proceso de seleccin de la muestra.
En el muestreo sistemtico los elementos de la poblacin se enumeran, o se ordenan. Una
muestra sistemtica de 1 en k es la que se extrae de la siguiente forma:
1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k
elementos de la poblacin.
2. Despus se seleccionan cada k -simo elemento hasta conseguir una muestra de
tamao n .
En general, k se toma como el nmero entero menor o igual que el cociente
n
N
:
n
N
k
Nos podemos encontrar con las siguientes situaciones:
1.
n
N
k = entero. Entonces se obtienen exactamente n observaciones.
Por ejemplo si 100 = N y 5 = n , entonces 20 = k y an tomando la ultima
observacin del primer intervalo (20), obtenemos 5 observaciones: 20, 40,, 100.

2.
n
N
no es entero. Vemoslo con un ejemplo.
Por ejemplo si 103 = N y 5 = n , entonces 6 , 20 =
n
N
y tomamos 20 = k . Segn el
punto inicial nos podemos encontrar con estas situaciones:
a. Si elegimos, por ejemplo, el 2 como punto inicial, obtendramos:
2, 22, 42, 62, 82, ...
83
Al dividir la poblacin en 5 intervalos de 20 elementos, sobran 3. Si no hay
problema de coste podramos elegir tambin el 102 y la muestra sera de
tamao 6.
b. Si se elige, por ejemplo, la observacin 18 como la inicial obtendramos una
muestra de tamao 5:
18, 38, 58, 78, 98

3. N es desconocido. En este caso, la decisin sobre el valor de k se tomar de forma
que se asegure el nmero mnimo deseado de elementos de la muestra. N se estima
por defecto, as k ser menor de lo necesario y, por tanto, el tamao muestral ser
mayor o igual de lo requerido.

Ventajas del muestreo sistemtico frente al aleatorio simple:

En la prctica el muestreo sistemtico es ms fcil de llevar a cabo y est expuesto a
menos errores del encuestador. (En el m.a.s. se nos juntara el trabajo si dos nmeros
aleatorios fueran consecutivos o muy prximos).
Por ejemplo, sera difcil escoger una m.a.s. de 50 personas entre las que pasan por la
esquina de una calle, porque no se conoce el tamao poblacional N hasta que no pasen
todas las personas; entonces seleccionaramos n elementos al azar menores o iguales a N.
Pero s sera fcil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar
la muestra ( 50 = n )
Frecuentemente con igual tamao de muestra el muestreo sistemtico proporciona
ms informacin que el muestreo aleatorio simple. Esto se debe a que la muestra
sistemtica se extiende uniformemente a lo largo de toda la poblacin, mientras que en
el muestreo aleatorio simple puede ocurrir que un gran nmero de observaciones se
concentre en una zona y descuide otras.
Por ejemplo, supongamos que en una fbrica los primeros 500 tubos de escape se
fabrican correctamente y los ltimos 500 son defectuosos por un problema en la
maquinaria. Una muestra aleatoria simple podra seleccionar un gran nmero o incluso
todos del mismo grupo, dando una mala estimacin de la proporcin de defectuosos. El
muestreo sistemtico, en cambio, selecciona el mismo nmero de tubos de ambos
grupos, dando una estimacin mejor. En este caso, donde en cierta medida hay un
orden en la poblacin, el muestreo sistemtico es mejor que el m.a.s.

84
Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de
calidad dentro del proceso de fabricacin, los auditores cuando se enfrentan a largas listas de
apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en
movimiento.

5.2 Estimacin de la media, proporcin y el total poblacionales

ESTIMADOR DE LA MEDIA POBLACIONAL:
( 1)
1
1

n
sy i j k
j
y y
n

+
=
= =


VARIANZA ESTIMADA DE
sy
y : ( )
|
.
|

\
|
=
N
n N
n
S
y V
sy
2



Comentarios.
- Si se desconoce el tamao poblacional por su gran magnitud, entonces . 1

N
n N

- Cuando N no es mltiplo exacto de n , el estimador es sesgado.

Como se puede observar la varianza estimada del estimador de la media es igual que en el
muestreo aleatorio simple (vase 5.3 Comparacin con el muestreo aleatorio simple). Esto no
implica que las varianzas reales sean iguales:
( )
1
2

=
N
n N
n
y V

y ( ) ( ) | |

1 1
2
+ = n
n
y V
sy

donde = coeficiente de correlacin entre los elementos de una muestra sistemtica.


El tamao poblacional se desconoce en muchas situaciones prcticas, en las que se sugiere el
uso del muestreo sistemtico. Cuando N es conocida, podemos estimar el total poblacional.
ESTIMADOR DEL TOTAL POBLACIONAL:
sy
y N =
VARIANZA ESTIMADA DE : ( ) ( )
|
.
|

\
|
= =
N
n N
n
S
N y V N V
sy
2
2 2



Ejemplo 5.1 (Ejercicio 3, relacin tema 5)
Los funcionarios de un museo estn interesados en el nmero total de personas que visitaron
el lugar durante un periodo de 180 das cuando una costosa coleccin de antigedades estuvo
en exhibicin. Puesto que el control de visitantes en el museo cada da es muy costoso, los
85
funcionarios decidieron obtener estos datos cada diez das. La informacin de esta muestra
sistemtica de 1 en 10 se resume en esta tabla
Da N personas que visitan el museo
3 160
13 350
23 225

173 290

= =
= =
18
1
18
1
2
450 . 321 . 1 ; 868 . 4
i i
i i
y y
Use estos datos para estimar el nmero total de personas que visitaron el museo durante el
periodo especificado. Establezca un lmite para el error de estimacin.
Solucin
680 . 48
18
868 . 4
180 = = =
sy
y N visitantes
( )
( )
( )
2
2
2
2
S N n

V N
n N
N 180
4868
1.321.450
n
S 289, 79
n 1

V 469.461,18

| |
=
|
\ .
=
| |
|
|
\ .
= =

=

B 1.370, 34

=

Como en el muestreo aleatorio simple, las propiedades del estimador de la proporcin son
anlogas a las propiedades de la media muestral:
ESTIMADOR DE LA PROPORCIN POBLACIONAL:
( 1)
1
1
, 0, 1
n
sy i j k i
j
p y y
n
+
=
= =


VARIANZA ESTIMADA DE
sy
p : ( )
|
.
|

\
|

=
N
n N
n
q p
p V
sy sy
sy
1


Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio
simple. Esto no quiere decir que las varianzas reales lo sean.

Ejemplo 5.2 (Ejercicio 2 (a), relacin tema 5)
La Guardia Civil de Trfico est interesada en la proporcin de automovilistas que llevan el
permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un
conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporcin de
86
conductores que portan su licencia. Establezca un lmite para el error de estimacin. Suponga
que 2.800 autos pasan por el puesto de verificacin durante el periodo de muestreo.
Automvil Respuesta
1 1
8 1
15 0

2794 1

=
=
400
1
324
i
i
y
Solucin
81 , 0
400
324
= = =
sy sy
y p
( ) 0364 , 0 B 2 0,00033061
800 . 2
400 800 . 2
1 400
) 81 , 0 1 ( 81 , 0
1

= = |
.
|

\
|

= |
.
|

\
|

=
N
n N
n
q p
p V
sy sy
sy


Si la estratificacin de la poblacin fuese ventajosa, el muestreo sistemtico puede utilizarse
dentro de cada estrato en lugar del m.a. simple, aplicndose las frmulas del m.a. estratificado
anlogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento
del muestreo sistemtico.

5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y
peridicas
Veamos bajo qu condiciones la varianza estimada de los estimadores en el muestreo
sistemtico se puede suponer igual a la del m.a. simple.
Segn las expresiones
( )
1
2

=
N
n N
n
y V

y ( ) ( ) | |

1 1
2
+ = n
n
y V
sy

stas sern similares cuando 1
1
N n
N

y 0 , pero en otros casos no.



Distinguimos los siguientes casos:
A. Poblacin ordenada ( ) 0
Una poblacin es ordenada cuando los elementos que la constituyen estn ordenados
de acuerdo con los valores, crecientes o decrecientes, de una determinada
caracterstica. En este caso es preferible el uso del muestreo sistemtico, ya que la
muestra se extiende uniformemente a lo largo de la poblacin:
87
( ) ( ) y V y V
sy

Por ejemplo, en una lista de cuentas por cobrar que estn ordenadas de mayor a menor
cantidad, las estimaciones de una muestra sistemtica tendran en general una varianza
menor que las de una muestra aleatoria simple (es posible que sta ltima contenga
solo cantidades grandes o cantidades pequeas).
Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemtico
conseguimos una estimacin conservadora del error (mayor que el error real que
cometemos en el m. sistemtico).

B. Poblacin aleatoria ( ) 0
Se dice que una poblacin es aleatoria cuando sus elementos estn ordenados al azar.
En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo
sistemtico ya que
( ) ( ) y V y V
sy
.
Por ejemplo, en una lista de estudiantes por orden alfabtico, la estimacin de sus
calificaciones sera similar con ambos muestreos ya que las calificaciones no dependen
del apellido del estudiante.

C. Poblacin peridica ( ) 0
Una poblacin es peridica cuando los valores de la variable objeto de estudio tienen
una variacin cclica. En este caso es preferible el muestreo aleatorio simple dado que
( ) ( ) y V y V
sy
> .

Por ejemplo:
a. Supongamos que tenemos una lista en la que los nombres de mujeres y
hombres se alternan. Una muestra sistemtica con k par proporcionara solo
una lista de mujeres o de hombres.
b. Ventas diarias de un supermercado con 7 = k
Para evitar este problema, el investigador puede cambiar varias veces el punto de
inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la poblacin y
comportarse como una poblacin aleatoria, en cuyo caso el uso de las expresiones del
m.a.s. en el m. sistemtico estara justificado.


88
5.4 Determinacin del tamao muestral
El tamao muestral requerido para estimar la media poblacional con un lmite B para el error
de estimacin se obtiene despejando el tamao muestral de la ecuacin:
( )
2
sy
V y B =
Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones
del muestreo aleatorio simple. Lo anterior conduce a obtener muestras ms grandes de las
necesarias para poblaciones ordenadas y muestras ms pequeas para poblaciones peridicas
(si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no
tendremos problemas.

Tamao muestral requerido para estimar y con un lmite B para el error de estimacin
2
2
) 1 (

+
=
D N
N
n con
2
2
2
B
para estimar la media
4
D
B
para estimar el total
4N



Tamao muestral requerido para estimar p y con un lmite B para el error de estimacin
Npq
n
(N 1)D pq
=
+
con
2
2
2
B
para estimar p
4
D
B
para estimar el total
4N



Ejemplo 5.3 (Ejercicio 2 (b), relacin tema 5)
En un nuevo control, la Guardia Civil de Trfico espera que pasen unos 5.000 automviles por
el puesto de verificacin. Determine el tamao de muestra y k para estimar p con un error
inferior al 2%.
Solucin

0, 81 1 0,19 p q p = = =
( )
2 2
5.000 0,81 (1 0, 81)
1.176, 97 1.177
0, 02
( 1) (5.000 1) 0,81 (1 0, 81)
4 4
Npq
n automviles
B
N pq

= = =
| |
+ +
|
\ .

4, 25
N
k
n
=
89
Si tomramos k=5
5000
1000
5
n = = . Tomando k=4
5000
1250 1177
4
n = = .



EJERCICIOS RESUELTOS

1. (Ejercicio 7, relacin tema 5) La gerencia de una compaa privada con 2.000 empleados
est interesada en estimar la proporcin de empleados que favorecen una nueva poltica de
inversin. Una muestra sistemtica de 1 en 10 es obtenida de los empleados que salen del
edificio al final de un da de trabajo (las respuestas a favor se han representado como 1)
Empleado
muestreado
Respuesta
3 1
13 0
23 1

1993 1

200
1
110
i
i
y
=
=

Se quiere repetir el anterior estudio con un error de estimacin inferior al 5% (considerando


la muestra anterior como una muestra previa para estimar los parmetros necesarios). Qu
tipo de muestra sistemtica deber obtenerse? (indique n y k).
SOLUCIN

2
110 0, 05
2.000 0, 55 1 0, 45 0, 000625
200 4
N p q p D = = = = = = =
330, 7 331 6, 04 6
( 1)
Npq N
n k k
N D pq n
= = = =
+


2. (Ejercicio 8, relacin tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por
cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000
. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a
1.000.000 con una confianza del 95%. Para ello decide tomar una muestra sistemtica de
1 en k . Determine el valor de k.
SOLUCIN
2 2
2
2 2
21.000 1.000.000
1.000 21.000 27.562.500 250.000
4 4 1.000
N R D = = = = =


2
2
99, 39 100 10
( 1)
N N
n k
N D n

= = = =
+

90

3. (Ejercicio 5 (a), relacin tema 5) La tabla anexa muestra el nmero de nacimientos y la
tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis aos
seleccionados sistemticamente.
Ao Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719 1.973.576 4.047.295 26,0
1960 2.179.708 2.078.142 4.257.850 23,7
1965 1.927.054 1.833.304 3.760.358 19,4
1970 1.915.378 1.816.008 3.731.386 18,4
1975 1.613.135 1.531.063 3.144.198 14,6
1980 1.852.616 1.759.642 3.612.258 15,9
Estime el nmero medio de varones nacidos por ao para el periodo 1955-1980, y
establezca un lmite para el error de estimacin.
SOLUCIN
1
1 1
11.561.610 1.926.935
6
n
sy i
i
y y
n

=
= = = =


( )
( ) 957,85 4.860.693.

.871,20 37.913.412
aos 26

2
2
=
=
=
|
.
|

\
|
=
sy
sy
y V
S
N
N
n N
n
S
y V

139.437,35 B =

4. (Como ejercicio 1, relacin tema 5) La seccin de control de calidad de una empresa usa el
muestreo sistemtico para estimar la cantidad media de llenado en latas de 33cl que salen
de una lnea de produccin. Los datos de la tabla adjunta representan una muestra
sistemtica 1 en 300 de una produccin diaria de 1800 latas.
Cantidad de llenado en cl
33 32,5 33,5 33 32 31
Determine el tamao de la muestra y k para estimar el contenido medio de las latas con un
error de estimacin inferior a 0,42 cl, considerando la muestra anterior como una muestra
previa para estimar los parmetros necesarios.
SOLUCIN:
N=1800, n=6,
( ) con las funciones del modo SD de la calculadora :
2 2 2
' 1 ' 1
0, 8
n n
S S

= =
2
0, 0441
4
B
D = =
2
2
1800
17, 97 18 100
( 1) 18
N
n k
N D

= = = =
+

91
5. (Ejercicio 9, relacin tema 5) Los funcionarios de cierta sociedad profesional desean
determinar la proporcin de miembros que apoyan varias enmiendas propuestas en las
prcticas de arbitraje. Los funcionarios tomaron una muestra sistemtica de 1 en 10, a
partir de una lista en orden alfabtico de los 650 miembros registrados, obteniendo que 47
estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un
error de estimacin inferior al 5%. Considerando la muestra anterior como una muestra
previa para estimar los parmetros necesarios, qu tipo de muestra sistemtica deber
obtenerse? (indique n y k).
SOLUCIN:
N=650, n=65,

47
0, 7231 1 0, 7231 0, 2769
65
p q = = = =
2
0, 05 0, 000625
4
B
B D = = =
650
214, 8 215 3, 02 3
( 1) 215
Npq
n k k
N D pq
= = = =
+


92
6. Muestreo por conglomerados.
6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formacin de los conglomerados. Conglomerados y estratos.
6.3 Estimacin de la media, proporcin y total poblacionales.
6.4 Determinacin del tamao muestral.



6.1 Necesidad y ventajas del muestreo por conglomerados.
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo
es una coleccin (o conglomerado) de elementos.
El muestreo por conglomerados es til para obtener informacin en las siguientes situaciones:
Es complicado disponer de una lista de los elementos de la poblacin, mientras que es
fcil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase =
elemento, aulas = conglomerados)
El coste de obtencin de las observaciones es menor debido al agrupamiento de los
elementos.

6.2 Formacin de los conglomerados. Conglomerados y estratos.
Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos
dentro de un conglomerado presentan caractersticas similares, entonces tomar muchas
observaciones dentro de un conglomerado sera un trabajo no productivo. Sin embargo, si los
elementos de un conglomerado son diferentes entre s, una muestra con pocos conglomerados
recogera gran cantidad de informacin sobre un parmetro poblacional.
Ntese que los estratos deben ser tan homogneos como sea posible, pero un estrato debe
diferir tanto como se pueda de otro con respecto a la caracterstica que est siendo medida.
Los conglomerados, por otro lado, deben ser tan heterogneos dentro de ellos como sea
posible y un conglomerado debe ser muy similar a otro para que el muestreo por
conglomerados est indicado.
Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de
conglomerados.

6.3 Estimacin de la media, proporcin y total poblacionales.
Vamos a utilizar la siguiente notacin:
N = conglomerados en la poblacin.

n =conglomerados en la muestra.

93
i
m = elementos en el conglomerado i


i
y = suma de las observaciones en el conglomerado i

1
N
i
i
M m
=
= =

elementos en la poblacin (con frecuencia es desconocido)




1
n
i
i
m m
=
= =

elementos en la muestra

1
1
N
i
i
M m
N
=
= =

tamao medio de los conglomerados de la poblacin (con frecuencia es


desconocido).
1
1
n
i
i
m m
n
=
= =

tamao medio de los conglomerados de la muestra (se


utililza para estimar M .

(A) Estimacin de la media.
El estimador de la media poblacional es la media y ,
1
1
1
1
n
i n
i
i n
i
i
i
y
y y
m
m

=
=
=
= = =


La media y tiene la forma de un estimador de razn, por lo que la varianza estimada de y
toma la forma de la varianza de un estimador de razn.

2
2
1
( )
c
S N n
V y
N n
M

= donde
( )
2
2
1
1
1
n
c i i
i
S y ym
n
=
=



( M puede ser estimado por m, si se desconoce)
La varianza estimada es sesgada y sera un buen estimador de ( ) V y si n es grande ( 20 n ).
El sesgo desaparece cuando los tamaos de los conglomerados son iguales
(
1 2
...
N
m m m = = = )
Notas:
La expresin de

2
2
1
( )
c
S N n
V y
N n
M

= no se suele simplificar pues como ocurre en el
ejercicio 4, relacin del tema 6, a veces N no se conoce y en otras ocasiones como en
este ltimo ejemplo porque M es desconocido y M debe ser estimada por m.
94
Si la variable que estamos estudiando es dicotmica, hablaremos de la proporcin
poblacional p y de la proporcin muestral

p . En este caso al nmero total de elementos


en el conglomerado i que poseen la caracterstica de inters se nota como
i
a en lugar de
i
y como es habitual en variables numricas. As tendremos que
1
1
n
i
i
n
i
i
a
p y
m
=
=
= =


Salvo esta diferencia en la notacin, todo lo anteriormente expuesto para variables
numricas es vlido para variables dicotmicas.

(B) Estimacin del total.
De la relacin entre la media y el total poblacional
M

= se sigue que M = , siendo el


estimador del total poblacional
M y =


y la varianza estimada del mismo

2
2
( ) ( ) ( )
c
S
V M V y N N n
n
= =


(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque s al valor
del estimador del total)

(C) Estimacin del total cuando se desconoce el tamao de la poblacin.
Frecuentemente el nmero de elementos en la poblacin no es conocido en problemas donde
se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del
total M y =

, debemos construir un estimador del total que no dependa de M . La cantidad


1
1
n
i t
i
y y
n
=
=

, es el promedio de los totales de los conglomerados de la muestra y por tanto un
estimador insesgado del promedio de los N totales de los conglomerados de la poblacin. Por
el mismo razonamiento empleado en el muestreo aleatorio simple,
t
N y es un estimador
insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total
poblacional .


95
En resumen
t
t
N y =



2
2
( ) ( ) ( )
t
t
t
S
V N V y N N n
n
= =


donde

2
( )
t
t
S N n
V y
N n

= ,
( )
2
2
1
1
1
n
t i t
i
S y y
n
=
=




Si existe una gran variacin entre los tamaos de los conglomerados y adems los tamaos
estn altamente correlacionados con los totales de los conglomerados, la varianza de
t
N y es
generalmente mayor que la varianza de M y . Esto es debido a que el estimador
t
N y no usa la
informacin proporcionada por los tamaos de los conglomerados y por ello puede ser menos
preciso.
Cuando los tamaos de los conglomerados son iguales los dos estimadores del total coinciden,
adems el estimador de la media, y , es un estimador insesgado de la media poblacional, , y
tambin es insesgado el estimador de su varianza,

( ) V y (lo mismo se extiende al total).



Ejemplo 6.1 (como ejercicio 13, relacin tema 6, pero con menos datos) En una urbanizacin
ciudad se quiere estimar la proporcin de hogares interesados en contratar el sistema de
televisin digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas.
Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estara
interesada en contratar la televisin digital. Los datos de la encuesta se encuentran en la tabla:

Manzana N hogares en la manzana N hogares interesados
1 8 2
2 7 2
3 9 3
4 6 3
5 5 3
a) Estime la proporcin de hogares interesados en contratar el sistema de televisin
digital. Calcule el lmite para el error de estimacin.
b) Con un intervalo de confianza estime el nmero de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el nmero de hogares en la ciudad es
1500.

96
SOLUCIN
Aunque en un caso de variables dicotmicas como ste se suele usar en los textos la
notacin a
i
en lugar de y
i
, utilizaremos esta ltima para unificar la notacin a emplear en el
muestreo por conglomerados
i
m
i
y
2
i
m
2
i
y
i i
m y
8 2 64 4 16
7 2 49 4 14
9 3 81 9 27
6 3 36 9 18
5 3 25 9 15
35 13 255 35 90

a)
1
1
13
0, 3714 37,14%
35
n
i
i
n
i
i
y
p y p
m
=
=
= = = = =


( )
2
2
2 2
1 1 1 1
2 3, 3222
n n n n
i i i i i i
i i i i
y ym y y y m y m
= = = =
= + =

2 2
1 1 1
35 255 90
n n n
i i i i
i i i
y m y m
= = =
= = =


( )
2
2
1
1 3, 3222
0, 8306
1 4
n
c i i
i
S y ym
n
=
= = =



Ya que M es desconocido, M debe ser estimada por m
1
1 35
7 /
5
n
i
i
m m hogares manzana
n
=
= = =

2
2
1
( ) 0, 003305
c
S N n
V y
N n
M

= =

2 ( ) 0,115 11, 5% V y =

b)
1
1 13
2, 6
5
n
i t
i
y y
n
=
= = =

520 t
t
N y = =


( )
2
2
2
1 1 2 1
1
0, 3
1 1
n n n
i i i t
i i i
t
y y y y
n
S
n n
= = =
| |

|
\ .
= = =


2
( )
( ) 2.340
t
t
N N n S
V
n


= =

2 ( ) 96, 75 t V =

( ) 423, 25 , 616, 75

c)
557,14 M y = =


1500
7, 5
200
M = =

2
2
1
( ) 0, 0028795
c
S N n
V y
N n
M

= =
97

2
( ) ( ) 6478, 8 V M V y = =

2 ( ) 160, 98 V =

( ) 396,16 , 718,12

Como puede observarse, el lmite para el error de estimacin es ms pequeo en b) que en c),
debido a que los tamaos de los conglomerados no estn altamente correlacionados con los
totales de los conglomerados en este ejemplo (
2
0, 08
my
r = ). En otras palabras, los tamaos de
los conglomerados proporcionan poca informacin referente a los totales de los
conglomerados.

6.4 Determinacin del tamao muestral.
Supongamos que los conglomerados ya estn formados y vamos a seleccionar el nmero de
conglomerados n para conseguir un determinado lmite para el error de estimacin B
2
2
c
c
N
n
ND

=
+

donde
2
c
se estima mediante
( )
2
2
1
1
1
n
c i i
i
S y ym
n
=
=


de una muestra previa, siendo
2
2
4
B M
D = para la estimacin de la media y
2
2
4
B
D
N
= para la estimacin del total.
Habitualmente el tamao promedio de los conglomerados de la poblacin M no se conoce y
tiene que estimarse por el tamao medio m de los conglomerados de una muestra previa.

Cuando se utiliza
t
N y para estimar el total, el nmero de conglomerados en la muestra para
obtener un determinado lmite para el error de estimacin B viene dado por
2
2
t
t
N
n
ND

=
+

2
2
4
B
D
N
= y
2
t
se estima mediante
( )
2
2
1
1
1
n
t i t
i
S y y
n
=
=


de una muestra previa (o a partir
de una estimacin del rango de los valores de
i
y como

2
2
16
t
R
= ).

Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cmo
debe tomarse una nueva muestra para estimar la proporcin poblacional del apartado a) con un
lmite para el error de estimacin del 1%.

98
SOLUCIN
2
0, 8306
c
S =
1
1 35
7
5
n
i
i
M m m
n
=
= = =


2
2 2 2
0, 01 7
0, 001225
4 4
B M
D

= = =
2
2
154, 4 155
c
c
N
n
ND

= =
+




EJERCICIOS RESUELTOS

1. (Ejercicio 6, relacin tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio
de Cultura desea estimar el nmero de libros comprados cada mes en una localidad. Se
selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se
tiene una encuesta piloto en la cual se seleccion una muestra de 4 manzanas y se
entrevistaron a todas las familias, obtenindose los siguientes resultados:




Determine, usando los datos de la encuesta piloto, cuntas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimacin
inferior a 140 unidades.
SOLUCIN
i
m
i
y
2
i
m
2
i
y
i i
m y
10
8
11
7
13
9
15
8
100
64
121
49
169
81
225
64
130
72
165
56
36 45 334 539 423
2
1
2
1
6.200 700 1, 25 0, 01
4
n
i
i
n
i
i
y
B
M N y D
N
m
=
=
= = = = = =


( )
2
2
2 2 2 2
1 1 1 1
1 1
2 1,125
1 1
n n n n
c c i i i i i i
i i i i
S y ym y y m y m y
n n

= = = =
| |
= = + =
|

\ .


2
2
96, 92 97
c
c
N
n
ND

= =
+

manzana libros comprados cada mes por familia
1 1 2 1 0 3 2 1 0 1 2
2 1 0 2 2 0 0 1 3
3 2 1 1 1 1 0 2 1 2 2 2
4 1 1 0 2 1 0 3
99
2. (Ejercicio 2, relacin tema 6 pero con menos datos) Una industria est considerando la
revisin de su poltica de jubilacin y quiere estimar la proporcin de empleados que
apoyan la nueva poltica. La industria consta de 57 plantas. Se selecciona una muestra
aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas
a travs de un cuestionario. Los resultados se presentan en esta tabla:
Planta N empleados N empleados que apoyan la nueva poltica
1 51 42
2 62 53
3 49 40
4 73 45
5 101 63
a. Estime la proporcin de empleados en la industria que apoyan la nueva poltica de
jubilacin y establezca un lmite para el error de estimacin.
b. La industria modific su poltica de jubilacin despus de obtener los resultados de la
encuesta. Ahora se quiere estimar la proporcin de empleados a favor de la poltica
modificada Cuntas plantas deben ser muestreadas para tener un lmite del 5% para el
error de estimacin? Use los datos anteriores para aproximar los resultados de la nueva
encuesta.
SOLUCIN:
a) 57 5 N n = =
i
m
i
y
2
i
m
2
i
y
i i
m y
51
62
49
73
101
42
53
40
45
63
2601
3844
2401
5329
10201
1764
2809
1600
2025
3969
2142
3286
1960
3285
6363
336 243 24376 12167 17036
1
1
243
0, 7232 72, 32%
336
n
i
i
n
i
i
y
p p
m
=
=
= = = =

( )

2 2
2 2 2
1 1 1 1
1 1
2 68, 7
1 1
n n n n
c i i i i i i
i i i i
S y pm y p y m p m
n n
= = = =
| |
= = + =
|

\ .


2
2 2 336
4515,84
5
M m
| |
= =
|
\ .


2
2
1
( ) 0, 00278
c
S N n
V p
N n
M

= =

2 ( ) 0,1054 10, 54% V p =
b)
2
2 2
2 2
0, 05 4515, 84
2,8224
4 4
c c
B M
D S

= = =
2
2
17, 06 18
c
c
N
n
ND

= =
+


100
3. (Ejercicio 7, relacin tema 6) Un socilogo quiere estimar el ingreso medio por persona en
cierta ciudad pequea donde no existe una lista disponible de adultos residentes. Por esta
razn para el diseo de la encuesta utiliza muestreo por conglomerados. Se divide la
ciudad en bloques rectangulares y el socilogo decide que cada bloque rectangular va a ser
considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El
investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25
conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan
aleatoriamente 25 conglomerados y se realizan las entrevistas, obtenindose estos datos:
Conglomerado (i) N de residentes (m
i
)
Ingreso total por
conglomerado en (y
i
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
151 residentes 1329000
a) Estime el ingreso medio por persona en la ciudad y establezca un lmite para el error de
estimacin.
b) Estime el ingreso total de todos los residentes de la ciudad y el lmite para el error de
estimacin, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los
residentes de la ciudad mediante un intervalo de confianza.
101
NOTA: Repetir este ejemplo con todos los
i
m iguales (por ejemplo, 6
i
m i = ,
supongamos conocido 6 415 2.490 M = = ) y estime el total por los dos mtodos
estudiados
( )
t
t
M y N y = =

. Observe como coinciden las dos estimaciones as como
la varianza del estimador y el lmite para el error de estimacin.
d) Tomando los anteriores datos como una muestra previa, cmo debe tomarse la muestra en
una encuesta futura para estimar el ingreso promedio por persona con un lmite para el
error de estimacin de 500.
SOLUCIN:
a) (este ejemplo no se puede resolver con una calculadora de 10 dgitos de forma exacta
por la dificultad de trabajar con cantidades muy grandes)
1
1
1.329.000
8.801, 32 /
151
n
i
i
n
i
i
y
y residente
m

=
=
= = = =


( )
2
2
2 2
1 1 1 1
2
n n n n
i i i i i i
i i i i
y ym y y y m y m
= = = =
= +


2 2
1
96.000 ... 82.039.000.000
n
i
i
y
=
= + =


2 2
1
8 ... 1.047
n
i
i
m
=
= + =


( )
1
96.000 8 ... 8.403.000
n
i i
i
y m
=
= + =


( )
2
2
1
1 15.227.502.247
634.501.213, 40
1 24
n
c i i
i
S y ym
n
=
= = =



Ya que M es desconocido, M debe ser estimada por m
1
1 151
6, 04 /
25
n
i
i
m m residente bloque
n
=
= = =

2
2
1
( ) 653.785,19
c
S N n
V y
N n
M

= =

2 ( ) 1.617,14 V y =
b)
1
1 1.329.000
53160 /
25
n
i t
i
y y bloque
n
=
= = =

22.061.400 t
t
N y = =


102
( )
2
2
2 2
1 1 1
1 1
82.039.000.000 (1.329.000) 11.389.360.000
25
n n n
i i i t
i i i
y y y y
n
= = =
| |
= = =
|
\ .

( )
2
1
( )
( ) 3.072.279.860.000
1
n
i t
i
t
y y
N N n
V
n n

= =

2 ( ) 3.505.584, 04 t V =


c)
2500
415 25 6, 0241
415
N n M = = = = 22.003.311, 26 M y = =

2
2
2
1
634.501.213, 40 ( ) 657.240, 9482
c
c
S N n
S V y
N n
M

= = =

2
( ) ( ) 4.107.755.926.250 V M V y = =

2 ( ) 4.053.519, 92 V =


( ) 17.949.791, 34 , 26.056.831,18
Como puede observarse el lmite para el error de estimacin es ms pequeo en b) que en
c) debido a que los tamaos de los conglomerados no estn altamente correlacionados con
los totales de los conglomerados en este ejemplo (
2
0, 0919
my
r = ). En otras palabras, los
tamaos de los conglomerados proporcionan poca informacin referente a los totales de
los conglomerados.
d)
2
634.501.213, 40
c
S =
2
2 2 2
500 6, 04
2.280.100
4 4
B M
D

= = =

2
2
166, 58 167
c
c
N
n
ND

= =
+

4. (Ejercicio 10, relacin tema 6) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 10 de las 85 inscritas en el registro mercantil. El nmero de bajas en el ltimo
ao, el nmero de empleados y la respuesta de cada empresa sobre si utilizara los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
6 0 8 No
7 1 21 Si
8 0 4 No
9 4 35 No
10 6 92 Si
103
(a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. D el lmite
del error de estimacin.
(b) Estime la proporcin de empresas que usaran los servicios ofertados. D el lmite del
error de estimacin.
SOLUCIN:
a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde
no se conoce el nmero total de empleados para toda la poblacin, por tanto para estimar
el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales
las empresas.
i
y
( )
2
i t
y y
1
2
9
0
2
0
1
0
4
6
2.25
0.25
42.25
6.25
0.25
6.25
2.25
6.25
2.25
12.25
25 80.5
25
2.5 /
10
t
y bajas empresa = = 85 2.5 212.5 t bajas = =



2 2
80.5 85 10 8.94
8.94 ( ) 0.7892157 ( ) 85 ( ) 5702.08
9 85 10
t
t t t
S V y V V y
| |
= = = = = =
|
\ .

2 5702.08 151.024 B bajas

= =
b)

4
0.40 (40%)
10
p = =

85 10 0.4 0.6
( ) 0.02353
85 10 1
V p

= =

2 0.02353 0.3068 (30.68%) B = =



5. (Como ejercicio 3, relacin tema 6) Se disea una encuesta econmica para estimar la
cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares.
Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados;
los gastos totales se muestran en esta tabla:
Barrio N hogares Cantidad total gastada en servicios ()
1 55 2210
2 60 2390
3 63 2430
104
Estime la cantidad media de gastos en servicios por hogar en la ciudad y el lmite para el
error de estimacin.
SOLUCIN:
i i
m y
121550
143400
153090
1
418040
n
i i
i
m y
=
=

2
1 1
2
1 1
3600
60 3 60 178 10594
60
7030 16501100
n n
i i
i i
n n
i i
i i
N n M m m
y y
= =
= =
= = = = = =
= =



1
1
39, 49
n
i
i
n
i
i
y
y
m

=
=
= = =


( )
2 2
2 2 2
1 1 1 1
1 1
2 2612, 04
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n
= = = =
| |
= = + =
|

\ .




2
2
1
( ) 0, 23 2 ( ) 0, 96
c
N n S
V y V y
N n
M

= = =
6. (Como ejercicio 4, relacin del tema 6) En un proceso de control del volumen envasado
por una fbrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno
de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las
observaciones se presentan en la tabla adjunta:
Paquete n Volumen envasado en cl
1 33,5 32,5 31 34
2 32,5 32 33 32,5
3 30,5 33 33 33,5
Estime el volumen medio de los envases y la cota del error de estimacin.
SOLUCIN:
N=40, n=3,




( ) con las funciones del modo SD de la calculadora :
3 3
2
1 1
4 12 48
i i
i i
M m m m
= =
= = = =


i
m
i
y
i i
m y
4
4
4
131
130
130
524
520
520

3
1
1564
i i
i
m y
=
=


105
5 5
2
1 1
130, 33 391 50961
i i t
i i
y y y
= =
= = =

5
1
5
1
32, 5833
i
i t
i
i
y
y
y cl
m
m

=
=
= = = =


( )
3 3 3 3
2 2
2 2 2
1 1 1 1
1 1
2 0, 3333
1 1
c i i i i i i
i i i i
S y ym y y m y m y
n n
= = = =
| |
= = + =
|

\ .



2
2
1
( ) 0, 006423 2 ( ) 0,1603
c
S N n
V y V y cl
N n
M

= = =
7. (Como ejercicio 1, relacin del tema 6) Un fabricante de sierras quiere estimar el coste
medio de reparacin mensual para las sierras que ha vendido a ciertas industrias. El
fabricante no puede obtener un coste de reparacin para cada sierra, pero puede obtener la
cantidad total gastada en reparacin y el nmero de sierras que tiene cada industria.
Entonces decide usar muestreo por conglomerados, con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100
industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y
el nmero de sierras son:
Industria N sierras Costo total de reparacin
para el mes pasado ()
1 3 50
2 7 110
3 11 230
4 9 140
5 2 60
Estime el coste medio de reparacin por sierra para el mes pasado y el lmite para el error
de estimacin.
SOLUCIN: N=100, n=5,

( ) con las funciones del modo SD de la calculadora :

2
1 1
6, 4 32 264
n n
i i
i i
M m m m
= =
= = = =


i i
m y
150
770
2530
1260
120
1
4830
n
i i
i
m y
=
=

106
2
1 1
118 590 90700
n n
i i t
i i
y y y
= =
= = =

5
1
5
1
18, 4375
i
i t
i
i
y
y
y
m
m

=
=
= = = =


( )
2
2
2 2 2
1 1 1 1
1 1
2 584, 57
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n
= = = =
| |
= = + =
|

\ .



2
2
1
( ) 2, 7116 2 ( ) 3, 2934
c
S N n
V y V y
N n
M

= = =

8. (Como ejercicio 5, relacin del tema 6) Un peridico quiere estimar la proporcin de
votantes que apoyan a cierto candidato A, en una eleccin estatal. Ya que la seleccin y
entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se
utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una
muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El peridico quiere
hacer la estimacin el da de la eleccin, pero antes de que se haya hecho la cuenta final de
los votos. Es por eso que los reporteros son enviados a los lugares de votacin de cada
distrito en la muestra, para obtener la informacin pertinente directamente de los votantes.
Los resultados se muestran en esta tabla:
N votantes N votantes A
1290 680
1170 631
840 475
1620 935
1381 472
Estime la proporcin de votantes que apoyan al candidato A y el lmite para el error de
estimacin.

SOLUCIN:
N=495, n=5,





i i
m y
877200
738270
399000
1514700
651832
1
4181002
n
i i
i
m y
=
=

107
( ) con las funciones del modo SD de la calculadora :

2
1 1
2
1 1
1260, 2 6301 8270161
638, 6 3193 2183195
n n
i i
i i
n n
i i t
i i
M m m m
y y y
= =
= =
= = = =
= = =




( )
5
1
5
1
0, 506745 50, 67%
i
i t
i
i
y
y
p
m
m

=
=
= = = =


( )
2
2
2 2 2
1 1 1 1
1 1
2 17372, 505
1 1
n n n n
c i i i i i i
i i i i
S y ym y y m y m y
n n
= = = =
| |
= = + =
|

\ .



( )
2
2
1
( ) 0, 00216573 2 ( ) 0, 0930748 9, 31%
c
S N n
V p V y
N n
M

= = =



108
7. Estimacin del tamao de la poblacin.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimacin de la densidad y tamao de la poblacin.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.



7.1 Estimacin del tamao de la poblacin usando muestreo directo
En el muestreo directo se realizan los siguientes pasos:
1. Se selecciona una muestra aleatoria de tamao t , se marcan y se devuelven a la
poblacin.
2. Posteriormente se selecciona una muestra aleatoria de tamao n (tamao fijado de
antemano) de la misma poblacin y se observa cuntos de ellos estn marcados
( s =nmero de elementos marcados en esta 2 muestra)
Sea p = proporcin de elementos marcados en la poblacin,
N
t
p = ,
p
t
N = , pero p es
desconocido. Entonces estimamos p mediante la proporcin muestral:
n
s
p = = proporcin de elementos marcados en la 2 muestra
Por tanto,
ESTIMADOR DE N :
s
nt
n s
t
p
t
N = = =
/


|
|
.
|

\
|
=
=
aleatoria
constantes ,
s
t n

VARIANZA ESTIMADA DE N

: ( )
3
2
) (

s
s n n t
N V

=

Comentarios
s = nmero de elementos marcados en la 2 muestra, ha de ser mayor que 0 para que
las frmulas estn bien definidas. Si en la segunda muestra no aparece ningn
elemento marcado, se aumenta el tamao muestral.
N

no es un estimador insesgado de N :
| | N
nt
t N
N N N E

+ =
) (


Cuanto mayor sean n y t menor ser el sesgo
( ) N t
N
nt

.
109
N

tiende a sobreestimar el valor real de N .



Ejemplo 7.1 (Ejercicio 1, relacin tema 7)
Un club deportivo se interesa por el nmero de truchas de ro en un arroyo. Durante un
periodo de varios das se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsrvese
que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera
sido marcado se devolva inmediatamente. Varias semanas despus se atrap una muestra de
120 peces y se observ el nmero de peces marcados. Supongamos que este nmero fue de 27
en la segunda muestra. Estime el tamao total de la poblacin de truchas y d un lmite de
error de estimacin.
Solucin
120 100

444, 4
27
nt
N
s

= = =
( )
2 2
3 3
( ) 100 120(120 27)

5.669, 87
27
t n n s
V N
s

= = =
( )

2 150, 60 B V N = =

7.2 Estimacin del tamao de la poblacin usando muestreo inverso
La diferencia con el muestreo directo es que aqu el tamao de la segunda muestra no est
fijado (es aleatorio), lo que se fija es s = nmero de elementos marcados en la segunda
muestra.
Los pasos para realizar este mtodo son:
1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la
poblacin.
2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos
marcados (sea n el tamao final de dicha muestra).
ESTIMADOR DE N :
s
nt
n s
t
p
t
N = = =
/


|
|
.
|

\
|
=
=
aleatoria
constantes ,
n
s t

VARIANZA ESTIMADA DE N

: ( )
) 1 (
) (

2
2
+

=
s s
s n n t
N V

Comentario. N

es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos


de muestreo se prefiere el inverso.

110
Ejemplo 7.2 (Ejercicio 5, relacin tema 7)
Una zologa desea estimar el tamao de la poblacin de tortugas en determinada rea
geogrfica. Ella cree que el tamao de la poblacin est entre 500 y 1000; por lo que una
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes despus y decide continuar muestreando hasta
que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas.
Estime el tamao total de la poblacin de tortugas y establezca un lmite de error de
estimacin.
Solucin
160 100

1.066, 67
15
nt
N
s

= = =
( )
2 2
2 2
( ) 100 160(160 15)

64.444, 44
( 1) 15 (15 1)
t n n s
V N
s s

= = =
+ +

( )

2 507, 72 B V N = =

7.3.1 Estimacin de la densidad y del tamao de la poblacin usando muestreo por
cuadros
Con este mtodo se estudia el tamao de la poblacin contenida en un rea delimitada A
conocida. Los pasos a seguir son:
1. Dividir a la poblacin en N cuadros de igual rea a . Sea
i
m = nmero de elementos en el cuadro i -simo
2. Tomar una muestra de n cuadros entre los N existentes. Se observa el nmero total
de elementos que contiene la muestra:

=
=
n
i
i
m m
1

3. Calcular la densidad de elementos en la muestra (densidad muestral):
na
m
= =
muestra la de rea
muestra la en elementos n


4. La densidad poblacional es
n elementos en la poblacin
rea de la poblacin
M M
Na A
= = =
entonces A M = . Por tanto:
ESTIMADOR DE LA DENSIDAD:
na
m
=


111
VARIANZA ESTIMADA DE

:
na n a
m
V
1

2 2
= =
ESTIMADOR DEL TAMAO POBLACIONAL:
na
m
A A M = =


VARIANZA ESTIMADA DE M

:
2 2
2
2
)

n a
m A
V A M V = =

Ejemplo 7.3 (Ejercicio 3, prctica 7)
La polica de Madrid est interesada en conocer el nmero de aficionados que se reunieron en
torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede
conocer la cuanta de medios materiales y humanos (polica, proteccin civil, personal
sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el nmero de
aficionados se toma una fotografa area de la zona ocupada por stos, tras lo cual se traza
sobre ella una cuadrcula que divide el rea total en 300 cuadros de 10 metros de lado cada
uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por
ltimo se cuenta el nmero de aficionados que hay en cada uno de los cuadros seleccionados,
obtenindose los resultados de la tabla:
N del cuadro
Nmero de aficionados
en el cuadro
N del cuadro
Nmero de aficionados
en el cuadro
1
2
3
4
5
6
7
8
9
10
193
216
250
163
209
195
232
174
215
198
11
12
13
14
15
16
17
18
19
20
160
220
163
306
319
289
205
210
209
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo
de confianza.
b) Estime el nmero total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.


112
Solucin:
a) 10 10 100 a = =
4324

2,162
20 100
m
na
= = =

2,162

( ) 0, 001081 2 0, 001081 0, 066
2000
V B
na

= = = = =

2
2,162 (2, 096 , 2, 228) aficionados m =
b)
2
300 100 30.000 A m = =

30.000 2,162 64.860 M A aficionados = = = 30.000 0, 066 1.980 B AB

= = =
(62.880 , 66.840)

7.3.2 Muestreo en el espacio temporal
En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Vemoslo
con un ejemplo.
Ejemplo 7.4 (Ejercicio 7, relacin tema 7)
Se desea estimar el nmero total de personas que diariamente solicitan informacin en una
oficina turstica. Se observa que 114 personas solicitan informacin, durante 12 intervalos de
5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la
oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del
error de estimacin.
Solucin
8 = A horas= 480 minutos n =12 intervalos = a 5 minutos m =114 personas

114
1, 9 /
5 12
personas minuto = =

912
m
M A personas
na
= =
2
2 2

( ) 7.296 170,8
A m
V M B
a n
= = =

7.3.3 Cuadros cargados
En este tipo de muestreo tambin se divide a la poblacin en cuadros, pero el mtodo se utiliza
cuando despus de hecha la divisin son muchos los cuadros que no contienen elementos y
otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy
pequea.
Este tipo de muestreo se basa en la identificacin de la presencia o ausencia de elementos en
cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos
un elemento objeto de estudio.
113
Los pasos a seguir son:
1. Se divide a la poblacin en N cuadros de igual rea a .
2. Se toma una muestra de n cuadros entre los N existentes. Se observa el nmero total
de cuadros no cargados de la muestra, a este nmero de cuadros sin presencia de
elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero
ni n ( n y < < 0 ). Si una vez observada la muestra 0 = y n y = , ampliaremos el
tamao muestral
3. La densidad poblacional se estima como
1

ln
a
y
n

| |
=
|
\ .

y su varianza como
ny
y n
a
V

=
2
1
)



Dado que A M = obtenemos
ESTIMADOR DEL TAMAO POBLACIONAL: |
.
|

\
|
= =
n
y
a
A
A M ln


VARIANZA ESTIMADA DE M

:
ny
y n
a
A
M V

=
2
2
)



Ejemplo 7.5 (Ejercicio 4, prctica 7)
Se desea estimar el nmero total de autobuses que, entre las 6 y las 24 horas del domingo,
circulan por un determinado punto kilomtrico de una carretera. La observacin se realiza
mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio.
En 18 ocasiones, de las cuarenta que se estableci el control, no circul por el punto en
cuestin ningn autobs. Estimar el nmero total de autobuses que circularon entre las 6 y las
24 horas. Dar un lmite de error de estimacin.
Solucin
= A 24-6=18 horas=1.080 minutos n = 40 intervalos a =10 minutos
y =18 intervalos sin autobuses
1.080 18

ln ln 86, 24
10 40
A y
M
a n
| | | |
= = =
| |
\ . \ .

2 2
2 2
1.080 40 18

( ) 356, 4 37, 8
10 40 18
A n y
V M B
a ny

= = = =




114

EJERCICIOS RESUELTOS

1. (Ejercicio 6, relacin tema 7) En una plantacin de pinos de 200 acres, se va a estimar la
densidad de rboles que presentan hongos parsitos. Se toma una muestra de 10 cuadros
de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 rboles
infectados por cuadro.
a) Estime la densidad de rboles infectados y establezca un lmite de error de
estimacin.
b) Estime el total de rboles infectados en los 200 acres de la plantacin y
establezca un lmite de error de estimacin.
SOLUCIN:
a)
2, 8 10

5, 6 . /
10 0, 5
m
arb infectados acre
na


= = =

;
1 1

( ) 5, 6 1,12 2,1
10 0, 5
V B
na
= = = =


b)

200 5, 6 1.120; M A = = = 200 2,1 423, 32 B AB

= = =

2. (Como ejercicio 12, relacin tema 7) Se desea estimar el nmero de vehculos de un
modelo determinado que el mes prximo utilizarn el aparcamiento de Puerta Real.
Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de
duracin cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes
resultados:
Control Nmero de vehculos de ese
modelo que usan el
aparcamiento
1 0
2 1
3 2
4 0
5 3
Estime el nmero total de vehculos del modelo en estudio que utilizaron el aparcamiento.
D el lmite del error de estimacin.
SOLUCIN:

6
720 1 5 . 0 1 2 0 3 6 . 1.2 1.2 . /
5
m
A h a h n contr m veh m veh h
a
= = = = + + + + = = = = =

1.2 720 864 . M A veh = = =
115



( )

2
124416
A
V M
an

= = 2 124416 705.45 . B veh = =



3. (Como ejercicio 9, relacin tema 7) El hermano de un alumno de T.A.M. est pensando en
abrir una farmacia de 24 horas. Para saber si los ingresos compensaran los gastos de esta
inversin deciden observar un establecimiento similar. Este asiduo alumno de T.A.M.
conoce perfectamente que es una prdida de tiempo innecesaria observar el flujo de
clientes las 24 horas del da por lo que decide observar la afluencia de clientes en distintos
periodos de igual duracin, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
14:00-14:30
18:00-18:30
22:00-22:30
02:00-02:30
06:00-06:30
15
13
18
8
2
4
Estime el nmero de clientes diarios de la farmacia observada y el correspondiente lmite
para el error de estimacin.
SOLUCIN:
24 0.5 48 6 60 10 A h a h N n m m = = = = = =

480
m
M A A clientes
a
= = =

( )


( )
2 2
2
3840 2 123, 94
A A m
V M V M clientes
an a n

= = = =

4. (Como ejercicio 13, relacin tema 7) El ayuntamiento de Barcelona est interesado en
conocer el nmero de aficionados que acudieron al aeropuerto para vitorear al equipo
campen. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por
40 metros de ancho, en 100 cuadros de igual tamao y seleccionaron 20, observando que
el nmero de personas era 1.100.
Estime el nmero total de asistentes y el lmite para el error de estimacin.
SOLUCIN:
4000 40 100 20 1100 55 A a N n m m = = = = = =

5500
m
M A A
a
= = =

( )


( )
2 2
2
27500 2 331, 66
A A m
V M V M
an a n

= = = =

5. (Ejercicio 8, relacin tema 7) Un alumno de A.T.C. desea estimar el nmero de alumnos
que una determinada maana han ido a la Facultad. Para ello se basa en que dicho da una
conocida marca comercial ha repartido a primeras horas de la maana en la entrada de la
116
Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide
contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue
necesario contar hasta 382 alumnos.
Estime con un intervalo de confianza el nmero de alumnos que asistieron esa maana a la
Facultad.
SOLUCIN: muestreo inverso
500 382 100 t n s = = =

1910
t nt
N alumnos
s
p
= = =

( )

( )
2
2
( )
26664, 35643 2 326, 58
( 1)
t n n s
V N V N alumnos
s s

= = =
+

( ) 1910 326, 58


117
8. Indicadores estadsticos regionales.
8.1 Introduccin.
8.2 Medidas de desigualdad-concentracin regional.
8.2.1 Curva de Lorenz. ndice de Gini.
8.2.2 Coeficiente de Theil. ndice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersin regional.
8.4 Coeficiente de asociacin geogrfica de Florence.



8.1 Introduccin
Consideremos una poblacin dividida en N subpoblaciones (regiones o estratos). Los
objetivos de este captulo son:
o estudiar medidas de desigualdad o concentracin que indiquen si la magnitud total de
una variable econmica se encuentra repartida equitativamente entre las
subpoblaciones o, por el contrario, existen desequilibrios en su reparto.
o estudiar la asociacin que pudiera existir entre dos variables econmicas a causa de su
distribucin entre las distintas subpoblaciones (Coeficiente de asociacin geogrfica de
Florence).

8.2 Medidas de desigualdad-concentracin regional
En esta seccin se estudian medidas de desigualdad o concentracin que indican si la
magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el
contrario, existen desequilibrios en su reparto.
Son medidas que, a partir de la distribucin de frecuencias de la variable econmica bajo
estudio, realizan una representacin grfica mediante una curva poligonal (Curva de Lorenz),
o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (ndice
de Gini, coeficiente de Theil, ndice deTheil, desigualdad individual y colectiva).

8.2.1 Curva de Lorenz. ndice de Gini.
(Ambas medidas ya se estudiaron en Tcnicas Cuantitativas 1)
Recordaremos lo ms importante y lo ilustraremos con un ejemplo.
i
N son las frecuencias absolutas acumuladas.
i
i
N
p
N
= es la frecuencia relativa acumulada. ( N =nmero total de datos)
i
u =son los totales acumulados.
118
i
q =son los totales acumulados relativos.
La comparacin entre los valores
i
p y
i
q nos informa sobre la concentracin en el reparto.
Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo,
coincidiran para todos los i.

En caso de equidistribucin (
i i
p q i = ), la curva de Lorenz coincide con la bisectriz
del primer cuadrante.
En caso de concentracin mxima (todos los individuos reciben nada,
0, 1,..., 1
i
q i k = = , salvo uno que recibe todo, 1
k
q = ), la curva de Lorenz coincide
prcticamente con los catetos del tringulo determinado por los puntos (0,0), (1,0) y
(1,1).
Para cuantificar la posicin de la curva de Lorenz se define el ndice de Gini como
( )
1 1
1 1
1 1
1 1
1
k k
i i i
i i
G k k
i i
i i
p q q
I
p p

= =

= =

= =



0 1
G
I . Si hay equidistribucin 0
G
I = . Si hay concentracin mxima 1
G
I = .
Este ndice es invariante frente a cambios de escala pero no frente a cambios de origen.
No permite un anlisis desagregado como los ndices que estudiamos a continuacin.

Ejemplo 8.0
Supongamos un pas con 7 regiones. Tenemos datos sobre el valor aadido bruto (VAB) de
cada una de ellas (en u.m.):
Regiones
VAB
(u.m.)
R1 2460,5
R2 619,0
R3 613,2
R4 1150,0
R5 1865,0
R6 437,1
R7 661,9
Calcule el ndice de Gini y represente la curva de Lorenz.



119
VAB i
u
j
q
j
n

i
N
j
p
437,1 437,1 0,0560 1 1 0,1429
613,2 1050,3 0,1345 1 2 0,2857
619,0 1669,3 0,2138 1 3 0,4286
661,9 2331,2 0,2986 1 4 0,5714
1150,0 3481,2 0,4459 1 5 0,7143
1865,0 5346,2 0,6848 1 6 0,8571
2460,5 7806,7 1,0000 1 7 1,0000
7806,7 2,8337 7 4,0000
1
1
1
1
1, 8337
1 1 0, 3888
3
k
i
i
G k
i
i
q
I
p

=
= = =


0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000
p
q

8.2.2 Coeficiente de Theil. ndice de Theil.
El coeficiente de Theil se basa en la entropa o medida del desorden,
1
( ) ln
N
N i i
j
H x x x
=
=

,
para cuantificar el parecido o la diferencia entre s de los datos a analizar.
Supongamos una poblacin divida en N regiones o estratos distintos. Cada una de las
regiones aporta un valor de una variable econmica X, 0 X
Regiones
i
X
i
x
1
1
X
1
x


N
N
X
N
x

1
N
i
j
X
=

1
120
Donde
i
x =proporciones de la variable respecto del total=
1
i
N
i
i
X
X
=


El coeficiente de Theil es, por definicin,
1
ln ln
N
i i
i
T N x x
=
= +


Nota
Si algn 0
i
x = , por definicin tomamos ln 0
i i
x x = .
Ejemplo 8.1
Supongamos un pas con 7 regiones. Tenemos datos sobre el valor aadido bruto (VAB) de
cada una de ellas (en u.m.):
Regiones
i
X
VAB (u.m.) i
x ln
i i
x x
R1 2460,5 0,315 -0,364
R2 619,0 0,079 -0,201
R3 613,2 0,079 -0,200
R4 1150,0 0,147 -0,282
R5 1865,0 0,239 -0,342
R6 437,1 0,056 -0,161
R7 661,9 0,085 -0,210
7806,7 1 -1,760

el coeficiente de Theil es: ln 7 1, 760 0,1859 T = = .

Propiedades
1. Si existe equidistribucin entonces
1
ln ln
N
i i
i
x x N
=
=

y 0 T =
2. Si existe concentracin mxima entonces
1
ln 0
N
i i
j
x x
=
=

y ln T N =
3. 0 ln T N
(En el ejemplo 8.1, T es ms cercano a 0 que a ln7=1,946, por tanto, est ms cerca de
la equidistribucin que de la concentracin mxima).
4. El coeficiente de Theil permite un anlisis desagregado. Sea X =variable observada
en las N regiones y
1
,...,
N
x x = valores porcentuales (proporciones) en cada regin.
Supongamos que X se agrupa en k grupos:
1
,...,
k
G G , con
1
,...,
k
N N regiones en cada
uno de ellos:
1
k
g
g
N N
=
=

, , 1,...,
g
g i
i G
x x g k

= =

y ln ln
g
i i
g g
i G
g g
x x
T N
x x

| |
= +
|
|
\ .

.
Entonces
121
1 1
ln ln
k k
g
g g g
g g
g
x
T N x x T
N
= =
| |
= + +
|
|
\ .


donde
o
1
ln ln
k
g
g
g
g
x
N x
N
=
| |
+
|
|
\ .

representa la desigualdad entre grupos. Mide la disparidad


entre grupos teniendo en cuenta el tamao de cada grupo
g
N en relacin al peso
del grupo
g
x en la variable econmica observada.
o
1
k
g g
g
x T
=

representa la desigualdad dentro de los grupos. Es la media de los


coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo.

Ejemplo 8.2
Realicemos un anlisis desagregado con los datos del ejemplo 8.1. Supongamos que
dividimos las regiones en dos grupos:
Regiones
grupo 1 i
x
R2 0,079
R3 0,079
R6 0,056
R7 0,085

( )
1
1
0, 299
i g
i G
x x
=

= =


Regiones
grupo 2 i
x
R1 0,315
R4 0,147
R5 0,239

( )
2
2
0, 701
i g
i G
x x
=

= =


Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente
coeficiente de Theil:
ln ln
g
i i
g g
i G
g g
x x
T N
x x

| |
= +
|
|
\ .


donde
i
g
x
x
es el valor porcentual dentro del grupo.
122
Regiones
grupo 1 i
x
( ) 1
i
g
x
x
=

ln
i i
g g
x x
x x
| |
|
|
\ .

R2 0,079 0,264 -0,352
R3 0,079 0,264 -0,352
R6 0,056 0,187 -0,314
R7 0,085 0,284 -0,358

( 1) g
x
=
= 0,299
1 -1,375

1
ln 4 1, 375 0, 0113 T = =

Regiones
grupo 2 i
x
( ) 2
i
g
x
x
=

ln
i i
g g
x x
x x
| |
|
|
\ .

R1 0,315 0,449 -0,359
R4 0,147 0,210 -0,328
R5 0,239 0,341 -0,367

( 2) g
x
=
= 0,701
1 -1,054

2
ln3 1, 054 0, 0446 T = =
o Desigualdad entre grupos:
2
1
0, 299 0, 701
ln ln ln 7 0, 299ln 0, 701ln
4 3
g
g
g
g
x
N x
N
=
| |
| | | |
+ = + + =
|
| |
|
\ . \ .
\ .

1, 9459 0, 7755 1, 0192 0,1512 = =


o Desigualdad dentro de los grupos:
( ) ( )
2
1
0, 299 0, 0113 0, 701 0, 0446 0, 0346
g g
g
x T
=
= + =


de esta forma:
0,1512 0, 0346 0,1858 T = + =
En trminos relativos:
0,1512 0, 0346
0, 8138 0,1862 1
0,1858 0,1858 0,1858
T
= + = + =
De la desigualdad existente en las siete regiones, el 81,38% es debido a la desigualdad entre
grupos. Si tuvisemos que tomar medidas econmicas para disminuir, an ms, la
desigualdad, actuaramos en esa direccin, tratando de limar las diferencias entre los dos
grupos (esta es una de las ventajas del anlisis desagregado, permite determinar el origen de
las diferencias existentes entre las regiones).


123
ndice de Theil
1 1
ln ln ln
1
ln ln ln
N N
i i i i
i i
T THEIL
N x x x x
T
I I
N N N
= =
+
= = = = +


Es evidente que 0 1
THEIL
I , y este hecho facilita comparaciones. El 0 indica
equidistribucin y el 1 concentracin mxima.

Ejemplo 8.3
0,186
0, 0956
ln 7
THEIL
I = =
Reparto cercano a la equidistribucin.

8.2.3 Desigualdad individual y desigualdad colectiva
El objetivo en esta seccin es medir la diferencia de un individuo (una regin) con respecto al
colectivo.
Para una variable X , que solo toma valores positivos, se define la desigualdad individual de
la regin i-sima respecto al colectivo como:
1, 1,...,
i
i
i i
x X x
d i N
X X

= = =
Es una medida adimensional. Indica la proporcin en que el colectivo supera a la regin i-
sima
i
X x < la regin i-sima posee una desigualdad individual positiva
i
X x > la regin i-sima posee una desigualdad individual negativa
i
X x = la regin i-sima posee una desigualdad individual cero

Ejemplo 8.4
Regiones
i
X
VAB (u.m.) i
d
R1 2460,5 -0,547
R2 619 0,802
R3 613,2 0,819
R4 1150 -0,030
R5 1865 -0,402
R6 437,1 1,551
R7 661,9 0,685
7806,7 2,878
124
7806, 7
1115, 243
7
x = =

Si se agregan las desigualdades individuales, ponderadas cada una de ellas por la frecuencia
relativa de
i
X , se obtiene la desigualdad colectiva:
1
N
i i
i
D d f
=
=


D aumenta cuando en la poblacin existen mayores desequilibrios. Sin embargo, no existe
una cota superior para D ya que su mximo depende del tamao de la poblacin.

Ejemplo 8.5
Con los datos del ejemplo 8.4:
7 7
1 1
1 2, 878
0, 411
7 7
i i i
i i
D d f d
= =
= = = =


(Realmente, por si sola no dice nada, pero la podemos comparar con el reparto de otra
variable).

Esta medida permite un anlisis desagregado. Denotemos por:
N Nmero de elementos en la poblacin (regiones)
x Media de todos los elementos de la poblacin.
k Nmero de subpoblaciones o grupos.
g
N Nmero de elementos en el grupo , g 1,..., g k =
g
x Media del grupo g
g
g i
g i
i G
i
x X
D f
X

Desigualdad colectiva en el grupo g


g
g
g
x x
d
x

= Desigualdad individual del grupo g en relacin a todos los grupos (toda la


poblacin).

D, entonces, se puede calcular como suma de la desigualdad existente entre los grupos
considerados ms una media ponderada de las distintas desigualdades colectivas dentro de
cada grupo o subpoblacin:
1 1
1
k k
g
g g g
g g g
N
x
D d N D
N N x
= =
= +


125
o
1
1
k
g g
g
d N
N
=

Representa la desigualdad entre las subpoblaciones o grupos.


o
1
k
g
g
g g
N
x
D
N x
=

Representa la desigualdad dentro de las subpoblaciones o grupos.


Tiene en cuenta el tamao de cada grupo en relacin a la media del grupo.

Ejemplo 8.6
Regiones
grupo 1 VAB (u.m.)
1 i
i
x x
x


R2 619 -0,058
R3 613,2 -0,050
R6 437,1 0,333
R7 661,9 -0,120
2331,2 0,106
1
2331, 2
582,8
4
x = =
1 1
1 1
1
1 1
0,106 0, 0265
4 4
i i
i
i G i G
i i
x x x x
D f
x x


= = = =


1
1
1
1115, 243 582,8
0, 9136
582, 8
x x
d
x

= = =
Regiones
grupo 2 VAB (u.m.)
2 i
i
x x
x


R1 2460,5 -0,258
R4 1150 0,587
R5 1865 -0,021
5475,5 0,308
2
5475, 5
1825,167
3
x = =
2 2
2 2
2
1 1
0, 308 0,1027
3 3
i i
i
i G i G
i i
x x x x
D f
x x


= = = =


2
2
2
1115, 243 1825,167
0, 389
1825,167
x x
d
x

= = =

Resumiendo:
7806, 7
1115, 243
7
x = =


126
Grupos
g
N
g
x
g
D
g
d
g
g
g
N
D
x

g g
d N
1 4 582,8 0,0265 0,9136 0,000182 3,6544
2 3 1825,167 0,1027 -0,389 0,000169 -1,167
0,000351 2,4874
1 1115, 243
2, 4874 0, 000351 0, 355 0, 056 0, 411
7 7
D
| | | |
= + = + =
| |
\ . \ .

En trminos relativos,
0, 355 0, 056
0,8637 0,1363 1
0, 411 0, 411
+ = + =
La desigualdad es debida a la diferencia entre subpoblaciones o grupos.

8.3 Medidas de dispersin regional
En general, se puede utilizar cualquier medida de dispersin para estudiar las disparidades
entre distintas regiones (estudian hasta qu punto la situacin de las regiones puede ser
considerada homognea).
Las ms utilizadas son:
o Varianza: ( ) ( )
2
1
1
N
i
i
V X X x
N
=
=


o Varianza normalizada: ( ) ( )
2
2
( )
coef. de variacion de Pearson
V X
VN X
x
= =
Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o
polarizadas), les pueden corresponder una misma dispersin.

8.4 Coeficiente de asociacin geogrfica de Florence
Con este coeficiente se cuantifica la relacin que pueda existir entre dos variables X e Y ,
cuando se dispone de un valor de cada una de ellas en cada una de las N regiones
consideradas para el estudio.
Supuestos conocidos para cada una de las regiones el par ( ) ,
i i
X Y , entonces la participacin
de cada valor de la variable sobre el total es:
1
i
i N
i
i
X
x
X
=
=

e
1
i
i N
i
i
Y
y
Y
=
=


1 1
0 , 1
1
i i
N N
i i
i i
x y
x y
= =
| |
|
|
= =
|
\ .


El coeficiente de asociacin geogrfica de Florence es:
1
1
1
2
N
i i
i
F x y
=
=




127
Sus propiedades son:
1. 0 1 F
2. En situacin de igualdad, , 1,..., 1
i i
x y i N F = = = .
3. En situacin de desigualdad mxima 0. F =
4. A medida que aumenta la asociacin entre las variables, el coeficiente tambin
aumenta.
Ejemplo 8.7 (Ejercicio 1, Relacin Tema 8) Sabemos que en un ao el PIB a precios de
mercado de los siguientes pases fue:
PIB (u.m.)
Superficie (1000 km
2
)
Alemania 826,4 248,7
Blgica 104,5 30,5
Dinamarca 76,4 43,1
Espaa 216,2 504,8
Francia 674,8 544,0
Grecia 42,8 132,0
Holanda 165,3 41,2
Inglaterra 595,0 244,1
Irlanda 24,1 68,9
Italia 473,0 301,3
Luxemburgo 4,7 2,6
Portugal 27,3 92,1
Total 3230,5 2253,3
Determinar el ndice de asociacin geogrfica de Florence del PIB respecto a la extensin
superficial de cada pas.

PIB (u.m.)
Superficie (1000 km
2
) i
x
i
y
i i
x y
Alemania 826,4 248,7
0,2558 0,1104 0,1454
Blgica 104,5 30,5
0,0323 0,0135 0,0188
Dinamarca 76,4 43,1
0,0236 0,0191 0,0045
Espaa 216,2 504,8
0,0669 0,2240 0,1571
Francia 674,8 544
0,2089 0,2414 0,0325
Grecia 42,8 132
0,0132 0,0586 0,0453
Holanda 165,3 41,2
0,0512 0,0183 0,0329
Inglaterra 595 244,1
0,1842 0,1083 0,0759
Irlanda 24,1 68,9
0,0075 0,0306 0,0231
Italia 473 301,3
0,1464 0,1337 0,0127
Luxemburgo 4,7 2,6
0,0015 0,0012 0,0003
Portugal 27,3 92,1
0,0085 0,0409 0,0324
Total 3230,5 2253,3 1 1 0,5810

12
1
1 1
1 1 0, 5810 0, 7095
2 2
i i
i
F x y
=
| |
= = =
|
\ .


128


EJERCICIOS RESUELTOS

1. (ejercicio 3, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga el ndice de concentracin de Theil e interprete su valor.
Solucin:
regin
i
X
1
i
i N
i
i
X
x
X
=
=


ln
i
x ln
i i
x x
R1 80 0,3265 -1,1192 -0,3655
R2 15 0,0612 -2,7932 -0,1710
R3 100 0,4082 -0,8961 -0,3658
R4 50 0,2041 -1,5892 -0,3243
suma 245 1,0000 -1,2266

1
ln ln 0,1597
N
i i
i
T N x x
=
= + =

0,1152
ln
T THEIL
T
I I
N
= = =

2. (ejercicio 4, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga la desigualdad colectiva e interprete su valor.
Solucin:



61,25 x =
Regin i
X
1
i
i
x
d
X
=
R1 80 -0,2344
R2 15 3,0833
R3 100 -0,3875
R4 50 0,2250
suma 245 2,6865


1 1 1
1 1 2, 6865
0, 6716
4 4 4
N N N
i i i i
i i i
D d f d d
= = =
= = = = =



129
3. (ejercicio 5, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones de euros
en las 4 regiones de un determinado pas y el nmero de oficinas bancarias fue
REGIONES PIB OFICINAS
R1
R2
R3
R4
80
15
100
50
350
70
450
250
Obtenga el ndice de asociacin geogrfica de Florence del nmero de oficinas respecto al PIB
e interprete su valor.
Solucin:
regin
i
X
i
Y
1
i
i N
i
i
X
x
X
=
=


1
i
i N
i
i
Y
y
Y
=
=


i i
x y
R1 80 350 0,3265 0,3125 0,01403
R2 15 70 0,0612 0,0625 0,00128
R3 100 450 0,4082 0,4018 0,00638
R4 50 250 0,2041 0,2232 0,01913
suma 245 1120 1,0000 1,0000 0,0408

1
1
1 0, 97959
2
N
i i
i
F x y
=
= =



130
9. Medidas de localizacin espacial.
9.1 Introduccin.
9.2 Cocientes de localizacin y especializacin.
9.3 Coeficientes de localizacin sectorial.
9.4 Coeficientes de especializacin regional.
9.5 Coeficientes de diversificacin.



9.1 Introduccin
Las medidas de localizacin espacial son indicadores que miden la actividad de distintos
sectores econmicos en un conjunto de regiones en referencia a una variable econmica.
Consideremos un conjunto de L sectores repartidos en N regiones. Dispondremos de una
tabla de doble entrada con las regiones por filas y los sectores por columnas:

Regin/Sector
1
S
2
S

L
S
i
Y
i

1
R
11
Y
12
Y

1L
Y
1
Y
i

2
R
21
Y
22
Y

2L
Y
2
Y
i


N
R
1 N
Y
2 N
Y

NL
Y
N
Y
i
j
Y
i

1
Y
i

2
Y
i

L
Y
i
Y
siendo
ij
Y valor de la variable en la regin i del sector j, 1,..., ; 1,..., i N j L = =
1
L
i ij
j
Y Y
=
=
i
suma de los valores de todos los sectores en la regin i
1
N
j ij
i
Y Y
=
=
i
suma de los valores de todas las regiones en el sector j
1 1 1 1
N L N L
i j ij
i j i j
Y Y Y Y
= = = =
= = =
i i
suma de los valores de todas las regiones y todos los
sectores.


Ejemplo 9.1 (lo usaremos a lo largo de todo el tema)
Sea Y = VAB al coste de los factores (u.m.)

131
Regin/Sect Agricultura Industria Servicios Total (Reg)
R1 282 723,6 1.454,9 2.460,5
R2 31 294,6 287,6 613,2
R3 117,9 1.526,9 2.497,6 4.142,4
R4 145,8 390,5 42,7 579
Total (Sect) 576,7 2.935,6 4.282,8 7.795,1


9.2 Cocientes de localizacin y especializacin
ij
j
Y
Y

i
participacin de la regin i en el sector j (cocientes de los valores de la columna j
sobre su total)
i
Y
Y

i
participacin de la regin i en la poblacin (cocientes de los valores de la columna
marginal sobre su total)

ij
i
Y
Y

i
participacin del sector j en la regin i (cocientes de los valores de la fila i sobre su
total)
j
Y
Y

i
participacin del sector j en la poblacin (cocientes de los valores de la fila marginal
sobre su total)

Se define el cociente de localizacin regional del sector j en la regin i (cociente de
especializacin de la regin i en el sector j) como:
/ /
100 100
/ /
ij i ij j
ij
j i
Y Y Y Y
L
Y Y Y Y
= =
i i
i i

Interpretacin de la primera igualdad: Es la relacin que existe entre la participacin del
sector j en la regin i y la participacin del sector j en el total. (Localizacin del sector j).
Interpretacin de la segunda igualdad: Es la relacin que existe entre la participacin de la
regin i en el sector j y la participacin de la regin i en el total. (Especializacin de la
regin i)

Si 100:
ij
L <
o existe una menor actividad del sector j en la regin i que en toda la poblacin
o existe una menor participacin de la regin i en el sector j que en toda la poblacin
132
Si 100:
ij
L >
o existe una mayor actividad del sector j en la regin i que en toda la poblacin
o existe una mayor participacin de la regin i en el sector j que en toda la poblacin

Ejemplo 9.2
Con los datos del ejemplo 9.1.
13 3
13
1
/ 1.454, 9/ 4.282, 8
100 100 107, 64
/ 2.460, 5/ 7.795,1
Y Y
L
Y Y
= = =
i
i

El sector servicios est ms localizado en la R1 que en toda la poblacin la regin R1 est
ms especializada en servicios que en el conjunto de todas las actividades.
Los cocientes de localizacin (o especializacin) para estos datos son:
Regin/Sect Agricultura Industria Servicios
R1 154,916 78,091 107,623
R2 68,333 127,572 85,365
R3 38,471 97,878 109,740
R4 340,370 179,088 13,423
Por columnas se interpreta los cocientes de localizacin de los respectivos sectores: la
actividad agrcola est ms asentada en la R4, la industrial en la R4 y los servicios en la R3.
Por filas se interpreta los cocientes de especializacin de cada regin: La R1 est ms
especializada en agricultura, la R2 en industria, la R3 en servicios y la R4 en agricultura.
NOTA: Obsrvese los datos originales en el enunciado del ejemplo 9.1 comprese con los
anteriores comentarios y se entender que se refieren a la localizacin (o especializacin) en
trminos relativos.

9.3 Coeficientes de localizacin sectorial
Para cada sector se puede definir una medida que permite conocer su localizacin en el
conjunto de las regiones consideradas. Se trata de conocer si un sector concreto se distribuye
por igual en todas las regiones, si slo se encuentra localizado en una regin o si ocurre alguna
situacin intermedia, siempre en relacin al patrn global o medio (vase ejercicio resuelto 1).
El coeficiente de localizacin del sector j-simo se define como:
1
1
, 1,...,
2
N
ij
i
j
i
j
Y
Y
CL j L
Y Y
=
= =

i
i


Propiedades
1. 0 1
j
CL
133
2. 0
j
CL = si la participacin de la regin i en el sector j es igual a la participacin de la
regin i en el total, y eso ocurre en todas las regiones. Es decir, no existe concentracin
regional de la actividad j. El sector est presente en cada una de las regiones igual que
todos los sectores en conjunto (vase ejercicio resuelto 1).
3. 1
j
CL = si las diferencias entre los cocientes
ij
j
Y
Y
i
y
i
Y
Y
i
son altamente significativas, la
presencia del sector j en cada una de las regiones es completamente distinta de la
presencia de todos los sectores en conjunto (vase ejemplo 9.4).
Este coeficiente caracteriza al sector i dentro del marco regional, pero no implica una nota
definitoria en ninguna regin en especial.

Ejemplo 9.3
Calcule los coeficientes de localizacin sectorial para los siguientes datos (los mismos de los
ejemplos anteriores)
Agricultura Industria Servicios Total (Reg)
i
Y
Y
i

R1 282 723,6 1454,9 2460,5 0,316
R2 31 294,6 287,6 613,2 0,079
R3 117,9 1526,9 2497,6 4142,4 0,531
R4 145,8 390,5 42,7 579 0,074
Total (Sect) 576,7 2935,6 4282,8 7795,1 1

Agricultura Industria Servicios
1
1
i
Y
Y
i

1
1
i i
Y Y
Y Y

i
i

2
2
i
Y
Y
i

2
2
i i
Y Y
Y Y

i
i

3
3
i
Y
Y
i

3
3
i i
Y Y
Y Y

i
i

0,489 0,173 0,246 0,069 0,340 0,024
0,054 0,025 0,100 0,022 0,067 0,012
0,204 0,327 0,520 0,011 0,583 0,052
0,253 0,179 0,133 0,059 0,010 0,064
1 0,704 1 0,161 1 0,152

1
0, 704 0, 352
2
1
0,161 0, 0805
2
1
0,152 0, 076
2
Ag
Ind
Serv
CL
CL
CL
= =
= =
= =

Existe una cierta concentracin, aunque no muy alta en la agricultura. La concentracin es
dbil en servicios e industria.
134

Ejemplo 9.4
Calcule los coeficientes de localizacin sectorial para los siguientes datos
S1 S2
R1 0 1
R2 0 1
R3 1000 0

S1 S2
i
Y
i
/
i
Y Y
i

R1 0 1 1 0,001
R2 0 1 1 0,001
R3 1000 0 1000 0.998
j
Y
i
1000 2 Y=1002

/
ij j
Y Y
i
S1 S2
R1 0 0,5
R2 0 0,5
R3 1 0

ij
i
j
Y
Y
Y Y

i
i
S1 S2
R1 0,001 0,499
R2 0,001 0,499
R3 0,002 0,998

1 2
0, 002 0, 998 CL CL = =


9.4 Coeficientes de especializacin regional
Para cada regin se puede definir una medida que permita conocer su nivel de especializacin
en algn sector. Se trata de conocer si una regin concreta est especializada en alguna
actividad, en todas las actividades por igual o bien se da una situacin intermedia, siempre en
relacin al patrn global o medio (vase ejercicio resuelto 1).
Se define el coeficiente de especializacin de la regin i como:
135
1
1
, 1,...,
2
L
ij j
i
j
i
Y Y
CE i N
Y Y
=
= =

i
i

Propiedades
1. 0 1
i
CE
2. 0
i
CE = si en la regin i est presente cada sector en la misma proporcin que en el
conjunto de la poblacin.
3. 1
i
CE = cuando existe un alto grado de especializacin de la regin i. Situacin
anloga a la de 1
j
CL = pero referida a regiones en lugar de a sectores.
Ejemplo 9.5
Regin/Sect Agricultura Industria Servicios Total (Reg)
R1 282 723,6 1454,9 2460,5
R2 31 294,6 287,6 613,2
R3 117,9 1526,9 2497,6 4142,4
R4 145,8 390,5 42,7 579
Total (Sect) 576,7 2935,6 4282,8 7795,1
Agricultura Industria Servicios
j
Y
Y
i
0,074 0,377 0,549 1
1
1
j
Y
Y
i

0,115 0,294 0,591 1 R1
1
1
j j
Y Y
Y Y

i
i

0,041 0,083 0,042 0,165
2
2
j
Y
Y
i

0,051 0,480 0,469 1 R2
2
2
j j
Y Y
Y Y

i
i

0,023 0,104 0,080 0,208
3
3
j
Y
Y
i

0,028 0,369 0,603 1 R3
3
3
j j
Y Y
Y Y

i
i

0,046 0,008 0,054 0,107
4
4
j
Y
Y
i

0,252 0,674 0,074 1 R4
4
4
j j
Y Y
Y Y

i
i

0,178 0,298 0,476 0,951
136
1 2
3 4
1 1
0,165 0, 0825; 0, 208 0,104;
2 2
1 1
0,107 0, 0535; 0, 951 0, 4755
2 2
R R
R R
CE CE
CE CE
= = = =
= = = =

La regin ms especializada es la R4.

9.5 Coeficientes de diversificacin
Este coeficiente mide el grado de diversificacin de las actividades de una regin. El grado de
diversificacin mximo se alcanza cuando una magnitud econmica considerada se distribuye
uniformemente entre los distintos sectores.
Si una regin tiene un bajo coeficiente de diversificacin es porque su produccin se
concentra mucho en un determinado sector y por tanto dicha produccin est poco
diversificada. La diversificacin de una regin ser mnima cuando una sola actividad est
presente en ella.
Para la regin i-sima, la varianza correspondiente a los valores
1 2
, ,...,
i i iL
Y Y Y de la variable en
los L sectores
2
2 2
1 1
1 1
L L
i ij ij
j j
S Y Y
L L
= =
| |
=
|
\ .


podra considerarse una medida de tal diversificacin.
Si existe diversificacin mxima, es decir, todos los sectores tienen el mismo valor
( )
, 1,...,
ij
Y cte j L = = entonces
2 2
2 2 2
2
1 1 1 1
1 1
0
L L L L
i ij ij ij ij
j j j j
S Y Y L Y Y
L L
= = = =
| | | |
= = =
| |
\ . \ .


Teniendo en cuenta esto, el coeficiente de diversificacin de la regin i se define como:
2
2
1
2 2
1 1
, 1,...,
L
ij
j
i
i L L
ij ij
j j
Y
Y
CD i N
L Y L Y
=
= =
| |
|
\ .
= = =


i

y verifica
1
1
i
CD
L
, alcanzando
1
L
si la diversificacin es mnima y 1 si la diversificacin
es mxima.
Para normalizar este coeficiente entre cero y uno, se define
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .
.
137

Ejemplo 9.6
( )
2
3
2
1
1 3 2 2 2
2
1
1
2.460, 5
0, 742
3 282 723, 6 1.454, 9
3
ij
j
R
j
j
Y
CD
Y
=
=
| |
|
\ .
= = =
+ +


2 3 4
* * * *
1 2 3 4
0, 735; 0, 666; 0, 636
0, 61; 0, 6025; 0, 499; 0, 454
R R R
R R R R
CD CD CD
CD CD CD CD
= = =
= = = =

La menos diversificada es la regin R4.



EJERCICIOS RESUELTOS.

1. (ejercicio 4, relacin tema 9) En un pas, dividido administrativamente en tres regiones, el
sector industrial est constituido fundamentalmente por los siguientes subsectores:
Siderurgia, Construccin, Qumicas y Alimentacin. El nmero de trabajadores ocupados
en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles):
Regiones
I II III
Siderurgia 15 10 6
Construccin 165 110 66
Qumicas 30 20 12
Alimentacin 195 130 78
Calcule las diversas medidas de localizacin espacial e interprtelas, justificando y
apoyando los comentarios en los datos del enunciado.

Solucin:
(Notamos los distintos sectores y regiones de forma genrica para simplificar el aspecto de
las tablas.)
datos SECTOR
REGION S1 S2 S3 S4
R1 15 165 30 195
R2 10 110 20 130
R3 6 66 12 78


138
Participacin de las regiones en cada sector y en la poblacin total
SECTOR
REGION S1 S2 S3 S4 poblacin
R1 0,4839 0,4839 0,4839 0,4839 0,4839
R2 0,3226 0,3226 0,3226 0,3226 0,3226
R3 0,1935 0,1935 0,1935 0,1935 0,1935

Participacin de los sectores en cada regin y en la poblacin total
SECTOR
REGION S1 S2 S3 S4
R1 0,0370 0,4074 0,0741 0,4815
R2 0,0370 0,4074 0,0741 0,4815
R3 0,0370 0,4074 0,0741 0,4815
poblacin 0,0370 0,4074 0,0741 0,4815


Cocientes de localizacin y especializacin
ij
L
SECTOR
REGION S1 S2 S3 S4
R1 100,00 100,00 100,00 100,00
R2 100,00 100,00 100,00 100,00
R3 100,00 100,00 100,00 100,00

Coeficientes de localizacin sectorial
SECTOR
S1 S2 S3 S4
j
CL
0 0 0 0

Coeficientes de especializacin regional
REGION i
CE
R1 0
R2 0
R3 0

Coeficientes de diversificacin de cada regin
REGION i
CD
*
i
CD
R1 0,6178 0,49
R2 0,6178 0,49
R3 0,6178 0,49

2. (ejercicio 3, relacin tema 9) Se dispone de la siguiente informacin sobre nmero de
ocupados para algunas Comunidades Autnomas clasificados segn ciertas actividades:
Energa Alimentos Industrial textil
Andaluca 10.000 65.000 20.000
Castilla La Mancha 3.000 18.000 14.000
Castilla Len 19.000 30.000 8.000
Catalua 15.000 60.000 90.000
a) Obtenga los coeficientes de localizacin de las distintas actividades.
139
b) Calcule los coeficientes de especializacin para cada comunidad.
Solucin:
Notamos los distintos sectores y regiones de forma genrica para simplificar el aspecto de
las tablas.
datos SECTOR
REGION S1 S2 S3 Yi.
R1 10000 65000 20000 95000
R2 3000 18000 14000 35000
R3 19000 30000 8000 57000
R4 15000 60000 90000 165000
Y.j 47000 173000 132000 352000
Calculamos la participacin de las regiones en cada sector
ij
j
Y
Y
i
y la participacin en toda la
poblacin
i
Y
Y
i
en la siguiente tabla
participacin
regin SECTOR
REGION S1 S2 S3 poblacin
R1 0,2128 0,3757 0,1515 0,2699
R2 0,0638 0,1040 0,1061 0,0994
R3 0,4043 0,1734 0,0606 0,1619
R4 0,3191 0,3468 0,6818 0,4688
suma 1 1 1 1
Calculamos la participacin de los sectores en cada regin
ij
i
Y
Y
i
y la participacin en toda la
poblacin
j
Y
Y
i
en la siguiente tabla
participacin
sector SECTOR
REGION S1 S2 S3 suma
R1 0,1053 0,6842 0,2105 1
R2 0,0857 0,5143 0,4000 1
R3 0,3333 0,5263 0,1404 1
R4 0,0909 0,3636 0,5455 1
poblacin 0,1335 0,4915 0,3750 1
A partir de la tabla de participacin de las regiones calculamos las diferencias en valor
absoluto
ij
i
j
Y
Y
Y Y

i
i
en la siguiente tabla. La suma de cada columna dividida por dos nos da
el coeficiente de localizacin sectorial
1
1
, 1,...,
2
N
ij
i
j
i
j
Y
Y
CL j L
Y Y
=
= =

i
i

Coeficientes de localizacin sectorial
SECTOR
REGION S1 S2 S3
R1 0,0571 0,1058 0,1184
R2 0,0356 0,0046 0,0066
R3 0,2423 0,0115 0,1013
R4 0,1496 0,1219 0,2131
CLj 0,2423 0,1219 0,2197
140
A partir de la tabla de participacin de los sectores calculamos las diferencias en valor
absoluto
ij j
i
Y Y
Y Y

i
i
en la siguiente tabla. La suma de cada fila dividida por dos nos da el
coeficiente de especializacin regional
1
1
, 1,...,
2
L
ij j
i
j
i
Y Y
CE i N
Y Y
=
= =

i
i

Coeficientes de especializacin regional
SECTOR
REGION S1 S2 S3 CEi
R1 0,0283 0,1927 0,1645 0,192733
R2 0,0478 0,0228 0,025 0,047808
R3 0,1998 0,0348 0,2346 0,234649
R4 0,0426 0,1278 0,1705 0,170455


3. (ejercicio 5, relacin tema 9) El valor aadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un pas es:
Regin/Sector Agricultura Industria Servicios
Regin Norte 15 225 195
Regin Sur 6 90 78
Calcule los coeficientes de localizacin sectorial. Interprete los resultados
Solucin:
REG./SEC. S1 S2 S3 i
Y
i

R1 15 225 195 435
R2 6 90 78 174
j
Y
i

21 315 273 609

ij
j
Y
Y
i

S1 S2 S3
i
Y
Y
i

R1 0,7143 0,7143 0,7143 0,7143
R2 0,2857 0,2857 0,2857 0,2857
suma 1 1 1 1

ij
i
j
Y
Y
Y Y

i
i

S1 S2 S3
R1 0 0 0
R2 0 0 0
1
1
2
N
ij
i
j
i
j
Y
Y
CL
Y Y
=
=

i
i

0 0 0

La participacin de cada una de las regiones en el sector j, ( j , 0
j
CL = ) es igual a la
participacin de cada regin en el conjunto de sectores. Cada sector se localiza en igual
medida que todos ellos en conjunto.
141

4. (ejercicio 6, relacin tema 9) El valor aadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un pas es:
Regin/Sector Agricultura Industria Servicios
Regin Norte 60 225 150
Regin Sur 24 90 60
Calcule los coeficientes de especializacin regional. Interprete los resultados
Solucin:
REG./SEC. S1 S2 S3 i
Y
i

R1 60 225 150 435
R2 24 90 60 174
j
Y
i

84 315 210 609

ij
i
Y
Y
i

S1 S2 S3 suma
R1 0,1379 0,5172 0,3448 1
R2 0,1379 0,5172 0,3448 1
j
Y
Y
i

0,1379 0,5172 0,3448 1

ij j
i
Y Y
Y Y

i
i

S1 S2 S3
1
1
2
L
ij j
i
j
i
Y Y
CE
Y Y
=
=

i
i
R1 0 0 0 0
R2 0 0 0 0

La presencia de cada sector en la regin i, ( i , 0
i
CE = ) es igual a la presencia de cada
sector en el conjunto del pas (todas las regiones). Cada regin se especializa en la misma
medida que el conjunto del pas.

5. (ejercicio 7, relacin tema 9) El valor aadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un pas es:
Regin/Sector Agricultura Industria Servicios
Regin Norte 90 300 195
Regin Sur 36 120 78
Calcule los coeficientes de diversificacin normalizados. Interprete los resultados
Solucin:
REG./SEC. S1 S2 S3 i
Y
i

2
i
Y
i

R1 90 300 195 585 342225
R2 36 120 78 234 54756
142

2
ij
Y S1 S2 S3
2
1
L
ij
j
Y
=

2
2
1
i
i L
ij
j
Y
CD
L Y
=
=

i
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .
R1 8100 90000 38025 136125 0,838016529 0,75702479
R2 1296 14400 6084 21780 0,838016529 0,75702479


6. (ejercicio 8, relacin tema 9) El valor aadido bruto en 2005 a precios constantes del 2003
en millones de euros para las actividades que aparecen en la tabla en las dos regiones en
que se divide un pas es:
Regin/Sector Agricultura Industria Servicios
Regin Norte 90 0 0
Regin Sur 30 30 30
Calcule los coeficientes de diversificacin normalizados. Interprete los resultados
Solucin:
REG./SEC. S1 S2 S3 i
Y
i

2
i
Y
i

R1 90 0 0 90 8100
R2 30 30 30 90 8100

2
ij
Y S1 S2 S3
2
1
L
ij
j
Y
=

2
2
1
i
i L
ij
j
Y
CD
L Y
=
=

i
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .
R1 8100 0 0 8100 0,333333333 0
R2 900 900 900 2700 1 1

En la regin norte (R1) el grado de diversificacin es mnimo,
*
0
i
CD = , esto ocurre
cuando una sola actividad, (S1=agricultura), est presente en ella.
En la regin sur (R2) el grado de diversificacin es mximo,
*
1
i
CD = , esto ocurre cuando
la actividad de la regin se distribuye uniformemente entre los distintos sectores,
(S1=S2=S3=30).

143
10. Contrastes
2
de Pearson.
10.1 Contrastes
2
de bondad de ajuste.
10.2 Contrastes
2
de independencia.
10.3 Contrastes
2
de homogeneidad.



10.1 Contraste
2
de bondad de ajuste.
Este contraste se emplea para decidir si un conjunto de datos proviene de una distribucin de
probabilidad dada.
Sea una muestra aleatoria de tamao n procedente de una variable aleatoria (poblacin) X
dividida en k clases exhaustivas y mutuamente excluyentes: S
1
, S
2
, ..., S
k
El contraste a realizar es: H
0
: X sigue una distribucin de probabilidad conocida.
n
i
=n de observaciones en la clase i-sima.
E
i
=np
i
=n esperado de observaciones en la clase i-sima bajo H
0
.
Definimos el estadstico:
( )
2
2
1
k
i i
i i
n E
E


Para hallar el valor del anterior estadstico es aconsejable disponer los clculos en una tabla
como sigue:
n
i
| |
0 i i
p P x S bajo H =
i i
E np =
( )
2
i i
n E ( )
2
i i i
n E E
S
1
.
.
.
S
k
n
1
.
.
.
n
k

1
p
.
.
.
k
p
1
np
.
.
.
k
np
( )
2
1 1
n E
.
.
.
( )
2
k k
n E
( )
2
1 1 1
n E E
.
.
.
( )
2
k k k
n E E
n 1 n
2


Se puede demostrar que bajo H
0
,
2 2
1 k



(NOTA: Habr que restar un grado de libertad por cada parmetro de la poblacin estimado.
Vase ejemplo 10.3).
Si existe una concordancia perfecta entre las frecuencias que se observan y las que se
esperaban, el estadstico tendr un valor cero, y no se puede rechazar H
0
, tampoco se rechaza
144
si las diferencias son pequeas. Por otro lado, si el estadstico toma un valor grande es que hay
discrepancia entre unas y otras frecuencias y habr que rechazar H
0
.
Fijado un nivel de significacin , rechazamos H
0
si
2 2
1,1 k


>

Ejemplo 10.1 (ejercicio 1, relacin tema 10)
El gerente de una planta industrial pretende determinar si el nmero de empleados que asisten
al consultorio mdico de la planta se encuentra distribuido de forma equitativa durante los
cinco das de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas
completas de trabajo, se observaron los siguientes nmeros de empleados que asistieron al
consultorio:
Lunes Martes Mircoles Jueves Viernes
49 35 32 39 45
Existe alguna razn para creer que el nmero de empleados que asisten al consultorio
mdico, no se encuentra distribuido de forma equitativa durante los das de trabajo de la
semana?, ( 05 . 0 = ).
Solucin

H
0
:
1 2 3 4 5
1
( )
5
p p p p p distribucin discreta uniforme = = = = =
H
1
: las frecuencias no son todas iguales.

n
i

0 i
p bajo H
i i
E np =
( )
2
i i
n E ( )
2
i i i
n E E
L
M
X
J
V
49
35
32
39
45
1/5
1/5
1/5
1/5
1/5
40
40
40
40
40
81
25
64
1
25
2,025
0,625
1,6
0,025
0,625
200 1 200
2
4, 9 =
1

2
1,1 k


Acepto H
0
Rechazo H
0
145
2 2
1,1 4, 0'95
9, 49
k


= = (4,9<9,49) no existe razn para creer que el nmero de empleados que
acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana.

Condicin de validez del test.
Si los valores
i
E son pequeos,
2
puede hacerse grande sin razn. Este contraste es
apropiado siempre que 5
i
E i > . Si esto no ocurre tendramos que combinar clases vecinas,
pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la
distribucin del estadstico.

Ejemplo 10.2 (ejercicio 2, relacin tema 10)
En un cajero automtico se ha observado una baja utilizacin del mismo. Con el fin de
confirmar este hecho, se ha controlado el nmero de llegadas diarias al mismo, obtenindose
los siguientes resultados:
N llegadas al cajero N de das
0 21
1 18
2 7
3 3
4 ms 1
En base a esta informacin, existe alguna razn para creer que el nmero de llegadas diarias
es una variable de Poisson con parmetro 0,9? ( 0, 05 = )

Solucin
X=n de llegadas al cajero/da. H
0
: (0, 9) X P
En las tablas de la Poisson se buscan las probabilidades
| | | |
4
0,..., 3 4
i
p P X i i p P X = = = =

n
i

0 i
p bajo H
i i
E np =
0 X =
1 X =
2 X =
3 X =
4 X
21
18
7
3
1
0,4066
0,3659
0,1647
0,0494
0,0134
20,33
18,3
8,24
2,47<5
0,67<5
50 1 50


Se agrupan la segunda, tercera y cuarta clase
146
n
i

0 i
p bajo H
i i
E np =
( )
2
i i
n E ( )
2
i i i
n E E
0 X =
1 X =
2 X
21
18
11
0,4066
0,3659
0,2275
20,33
18,3
11,38
0,4489
0,09
0,1444
0,02208
0,004918
0,012689
50 1 50
2
0, 0397 =

2
3 1, 0'95
5, 99

= , luego acepto H
0
.
No podemos rechazar que los datos provengan de una distribucin de Poisson de parmetro
0,9. Esta conclusin nos permite afirmar que el cajero es muy poco utilizado ya que el n
medio de llegadas esperadas por da es menor de 1.

Hasta ahora se ha contrastado la hiptesis de que los datos estn generados por una
distribucin completamente conocida. Sin embargo, a veces sucede que queremos contrastar
la hiptesis de que los datos estn generados por alguna distribucin (p.e. Binomial, Poisson o
Normal), sin suponer que los parmetros de dicha distribucin son conocidos. En tales
circunstancias, los datos de que disponemos pueden utilizarse para estimar los parmetros
desconocidos, pero en el contraste los grados de libertad de la chi-cuadrado se reducirn en
una unidad por cada parmetro de la distribucin que tenga que ser estimado.

Ejemplo 10.3 (ejercicio 8, relacin tema 10)
Una muestra sobre el n de personas que diariamente requieren informacin de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson?
Solucin
X= personas que requieren diariamente informacin
73
2, 7 /
27
X personas da = = = H
0
: (2, 7) X P
n
i

0 i
p bajo H
i i
E np =
0 X =
1 X =
2 X =
3 X =
4 X =
5 X
2
4
5
8
5
3
0,0672
0,1815
0,2450
0,2205
0,1488
0,1370
1,8144<5
4,9005<5
6,615
5,9535
4.0176<5
3,699<5
27 1 27
147

n
i

0 i
p bajo H
i i
E np =
( )
2
i i i
n E E
1 X
2 X =
3 X =
4 X
6
5
8
8
0,2487
0,2450
0,2205
0,2858
6,7149
6,615
5,9535
7,7166
0,0761
0,3943
0,7035
0,0104
27 1 27
2
1,1843 =
2 2
4 1 1, 0'95 2, 0'95
5, 99

= = , (1,18<5,99) luego acepto H
0
.

10.2 Contraste
2
de independencia.
Con este contraste se desea estudiar si dos caractersticas (variables aleatorias) X e Y son
independientes. Para ello, las frecuencias absolutas de las parejas de datos muestrales se
recogen en una tabla de doble entrada denominada tabla de contingencia
X \ Y
1
B
2
B .
c
B
i
n


1
A
2
A
.
r
A
11
n
12
n .
1c
n
21
n
22
n .
2c
n
. . . .
1 r
n
2 r
n .
rc
n
1
n


2
n

.
r
n

j
n


1
n


2
n

.
c
n


n
ij
n = n de elementos de la muestra que pertenecen a la categora
i
A de X y
j
B de Y.
1
c
i ij
j
n n

=
=

= n de elementos que pertenecen a la categora


i
A de X.
1
r
j ij
i
n n

=
=

= n de elementos que pertenecen a la categora


j
B de Y.
n = n de elementos en la muestra.

El contraste a realizar es:
H
0
: X e Y son independientes.
H
1
: X e Y no son independientes.

Ejemplo 10.4 (ejercicio 9, relacin tema 10)
La siguiente tabla presenta el n de reclamaciones recibidas en una oficina de informacin al
consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del
reclamante
148
30 30 >
A
B
C
8
12
22
28
44
53
36
56
75
42 125 167
El contraste a realizar es:
H
0
: Tipo de producto y edad son independientes (no estn asociados).
H
1
: No son independientes (estn asociados).
Si H
0
fuera cierto:
ij
E = n esperado de observaciones en la fila i, columna j =
i j
n n
n


Razonemos con el ejemplo: En la columna 2 (>30) hay un total de
2
125 n

= observaciones,
bajo la hiptesis de independencia esas 125 observaciones se tienen que distribuir por filas
proporcionalmente al total de cada fila
A
B
C
36/167=0,215 (21,5%)
56/167=0,335 (33,5%)
75/167=0,449 (44,9%)
Luego esperaramos para los mayores de 30 aos

A

B

C
1250,215=125
36
167
=
1
2
n
n
n

=26,95
1250,335=125
56
167
=
2
2
n
n
n

=41,92
1250,449=125
75
167
=
3
2
n
n
n

=56,14

El estadstico para estos contrastes se define como:
( )
2
2
1 1
r c
ij ij
i j
ij
n E
E

= =


que tiene una distribucin
2 2
( 1)( 1) 0 r c
bajo H

.
Claramente, la hiptesis de independencia ser rechazada cuando las diferencias entre lo
observado y lo esperado sean grandes y por tanto el estadstico
2
tome valores grandes de
acuerdo a la distribucin que sigue. Se rechaza H
0
con un nivel de significacin si
2 2
( 1)( 1); 1 r c


>

Solucin (ejemplo 10.4)
En la siguiente tabla se ha colocado entre parntesis
ij
E
149
( )
ij ij
n E 30 30 >

A
B
C
8 (9,05)
12 (14,08)
22 (18,86)
28 (26,95)
44 (41,92)
53 (56,14)
36
56
75
42 125 167

( )
2
ij ij
ij
n E
E

30 30 >

A
B
C
0,1218
0,3073
0,5228
0,0409
0,1032
0,1756

1,27
( ) ( )
2 2
2
8 9, 05 53 56,14
... 1, 27
9, 05 56,14


= + + =
2 2
(3 1)(2 1); 1 0,05 2; 0,95
5, 99

= =
1,27<5,99 , luego acepto H
0
, no hay evidencia emprica para rechazar la hiptesis de
independencia.

Condicin de validez del test:
Al igual que en el anterior test de la chi-cuadrado, el contraste es vlido siempre que los
valores esperados sean mayores que 5, 5 ,
i j
ij
n n
E i j
n

= >
Si esto no ocurre, agruparemos dos o ms clases consecutivas, bien sean de las variables X o
de Y. Al agrupar las clases disminuye los grados de libertad. En todo caso los grados de
libertad tienen que ser mayores que 1.

Ejemplo 10.5 (ejercicio 10, relacin tema 10)
Se clasifican a los 150 empleados de una empresa segn su salario y su antigedad. Los
resultados aparecen en la siguiente tabla. Hay independencia entre los sueldos y la
antigedad? ( ( 0, 05) =
Sueldo\Antigedad <5 aos 5-10 10-20 >20 aos
i
n


0-500
500-1000
1000-2000
2000-3000
>3000
17
16
4
9
6
5
8
11
8
3
10
9
5
8
4
6
7
2
6
6
38
40
22
31
19
j
n

52 35 36 27 150


150
Solucin
i j
ij
n n
E
n

=
<5 aos 5-10 10-20 >20 aos
0-500
500-1000
1000-2000
2000-3000
>3000
13,17
13,87
7,627
10,75
6,587
8,867
9,333
5,133
7,233
4,433
9,12
9,6
5,28
7,44
4,56
6,84
7,2
3,96
5,58
3,42

Agrupamos las dos ltimas filas y las dos ltimas columnas.
( )
ij ij
n E
<5 aos 5-10 >10 aos
0-500
500-1000
1000-2000
>2000
17 (13,17)
16 (13,87)
4 (7,627)
15 (17,33)
5 (8,867)
8 (9,333)
11 (5,133)
11 (11,87)
16 (15,96)
16 (16,8)
7 (9,24)
24 (21)
( ) ( )
2 2
2
17 13,17 24 21
... 13,10
13,17 21


= + + =
2 2
(4 1)(3 1); 1 0,05 6; 0,95
12, 59

= =
Luego existen razones para pensar que sueldos y aos de antigedad no son independientes.

10.3 Contrastes
2
de homogeneidad.
En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal
que una tabla de contingencia pero en las que la situacin es diferente.
Supongamos que se toman c muestras aleatorias independientes de tamaos
1 2
, , ...,
c
n n n ,
respectivamente, de poblaciones
1
, ...,
c
B B diferentes. Despus cada una de las muestras se
clasifica de acuerdo a una caracterstica A con r categoras.
Los datos se expresan en una tabla como la que sigue:
POBLACIONES
1
B
2
B .
c
B
C
A
T
E
G
O
R
I
A
S

1
A
2
A
.
r
A
11
n
12
n .
1c
n
21
n
22
n .
2c
n
. . . .
1 r
n
2 r
n .
rc
n
1
n


2
n


.
r
n



1
n
2
n .
c
n
n
La tabla ahora no expresa el resultado de observaciones clasificadas segn 2 variables, sino
muestras independientes de c poblaciones.
151
El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones, es decir,
si todas estn igualmente distribuidas respecto a las categoras de A, o lo que es lo mismo, si
las c muestras proceden de la misma poblacin.

H
0
: Las c poblaciones son homogneas (se distribuyen igual)
El estadstico muestral es:
( )
2
2
1 1
r c
ij ij
i j
ij
n E
E

= =


que tiene una distribucin
2 2
( 1)( 1) 0 r c
bajo H

.
Se rechaza H
0
con un nivel de significacin si
2 2
( 1)( 1); 1 r c


>

Ejemplo 10.6 (ejercicio 11, relacin tema 10)
A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y
sus calificaciones fueron registradas como baja, media o alta, obtenindose:
Universidad A Universidad B
BAJA
MEDIA
ALTA
105
140
255
140
135
225
Contrastar la hiptesis de que la distribucin de calificaciones en las 2 universidades es la
misma (con 0, 01 = )
Solucin
( )
ij ij
n E
Universidad A Universidad B
BAJA
MEDIA
ALTA
105 (122,5)
140 (137,5)
255 (240)
140 (122,5)
135 (137,5)
225 (240)
245
275
480
500 500 1000
( ) ( )
2 2
2
105 122, 5 225 240
... 6, 966
122, 5 240


= + + =
2 2
(3 1)(2 1); 1 0,01 2; 0,99
9, 21

= =
Luego la distribucin de notas es la misma en las dos universidades.
(NOTA: Sin embargo al 5% se rechazara la hiptesis nula de que la distribucin de las notas
es la misma en las dos universidades,
2 2
(3 1)(2 1); 1 0,05 2; 0,95
5, 99

= = )

152
Al igual que en los anteriores contrastes de la chi-cuadrado, este test es vlido si
5 ,
i j
ij
n n
E i j
n

= > , en caso contrario se agrupan dos o ms clases de la variable A pero
nunca dos o ms muestras
j
B .



EJERCICIOS RESUELTOS

1. (ejercicio 3, relacin tema 10) La siguiente tabla proporciona el nmero de erratas por pgina
cometidas por una secretaria de una cierta empresa:
N erratas por pgina N pginas
0 832
1 203
2 383
3 525
4 532
5 408
6 273
7 139
8 45
9 27
10 10
11 ms 11
Contrastar a nivel 05 . 0 = si el nmero de erratas por pgina sigue una distribucin de
Poisson con parmetro 3.
Solucin
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


0 832 0,04979 168,6786 439995,3 2608,4834
1 203 0,14936 506,0358 91830,67 181,470719
2 383 0,22404 759,0536 141416,3 186,306125
3 525 0,22404 759,0536 54781,11 72,1702726
4 532 0,16803 569,2902 1390,561 2,44262314
5 408 0,10082 341,5741 4412,395 12,9178248
6 273 0,05041 170,7871 10447,48 61,1725646
7 139 0,0216 73,19446 4330,369 59,1625291
8 45 0,0081 27,44792 308,0754 11,2239988
9 27 0,0027 9,149307 318,6472 34,8274703
10 10 0,00081 2,744792 52,63804 19,1774227
11 ms 11 0,00029 0,990438 100,1913 101,15866
3388 1 3388
2
=
3350,51361

153
( 2, 99 x = , lo he calculado para confirmar que la hiptesis nula es lgica)
Tenemos que agrupar clases pues las frecuencias esperadas de las dos ltimas clases son
menores que 5.
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


0 832 0,04979 168,6786 439995,3 2608,4834
1 203 0,14936 506,0358 91830,67 181,470719
2 383 0,22404 759,0536 141416,3 186,306125
3 525 0,22404 759,0536 54781,11 72,1702726
4 532 0,16803 569,2902 1390,561 2,44262314
5 408 0,10082 341,5741 4412,395 12,9178248
6 273 0,05041 170,7871 10447,48 61,1725646
7 139 0,0216 73,19446 4330,369 59,1625291
8 45 0,0081 27,44792 308,0754 11,2239988
9 ms 48 0,0038 12,88454 1233,096 95,703534
3388 1 3388
2
=
3291,05359

2
9;0,95
16, 92 = . 3291,05359>16,92 luego se rechaza la hiptesis de que el nmero de erratas
por pgina sigue una distribucin de Poisson de media 3.
2. (ejercicio 12, relacin tema 10) Se observan durante 100 horas el nmero de llamadas
recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en
la siguiente tabla
Nmero de llamadas / hora Nmero de horas
0
1
2
3
4
5 o ms
6
13
20
22
16
23
Contraste la hiptesis de que el nmero de llamadas recibidas en una hora sigue una
distribucin de Poissson con media 3,4. ( 0,1 = )
Solucin
Contraste chi-2 de Pearson de bondad de ajuste
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


0 6 0,0334 3,34 7,0756 2,11844311
1 13 0,1135 11,35 2,7225 0,23986784
2 20 0,1929 19,29 0,5041 0,02613271
3 22 0,2186 21,86 0,0196 0,00089661
4 16 0,1858 18,58 6,6564 0,35825619
5 o ms 23 0,2558 25,58 6,6564 0,26021892
100 1 100
2
=
3,00381539

154
Como la frecuencia esperada es menor que 5 en la primera clase, se agrupa sta con la clase
contigua, obtenindose
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


1 o menos 19 0,1469 14,69 18,5761 1,2645405
2 20 0,1929 19,29 0,5041 0,02613271
3 22 0,2186 21,86 0,0196 0,00089661
4 16 0,1858 18,58 6,6564 0,35825619
5 o ms 23 0,2558 25,58 6,6564 0,26021892
100 1 100
2
=
1,91004494
Buscamos en las tablas
2 2
1,1 4, 0'90
7, 78
k


= = . Como 1,91<7,78 aceptamos la hiptesis nula
de que el nmero de llamadas recibidas en una hora sigue una distribucin de Poissson con
media 3,4.
3. (ejercicio 13, relacin tema 10) El colectivo de trabajadores de la banca de un pas quiere
conocer si existe dependencia entre el nivel de salarios que reciben y la antigedad en la
empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el
correspondiente cuestionario y obtienen la siguiente informacin:
Antigedad
Salarios
Menos de 5
aos
Entre 5 y 10
aos
Entre 10 y 15
aos
Ms de 15
aos
Bajos (<1.000)
Medios (1.000, 1.500)
Altos (>1.500)
36
64
50
16
34
50
14
20
16
34
82
84
Contrastar la independencia de los salarios con la antigedad al nivel de significacin del
10%.
Solucin
Notamos las distintas modalidades de forma genrica para simplificar el aspecto de las tablas.
X \ Y B1 B2 B3 B4 ni.
A1 36 16 14 34 100
A2 64 34 20 82 200
A3 50 50 16 84 200
n.j 150 100 50 200 500

En la siguiente tabla se calculan las frecuencias esperadas bajo la hiptesis nula de
independencia segn la conocida expresin
i j
ij
n n
E
n

=
X \ Y B1 B2 B3 B4
A1 30 20 10 40
A2 60 40 20 80
A3 60 40 20 80
155
Con las frecuencias observadas
ij
n de la primera tabla y las frecuencias esperadas
ij
E de la
anterior tabla se calcula
( )
2
ij ij
ij
n E
E

para cada elemento de la tabla, obtenindose:


X \ Y B1 B2 B3 B4
A1 1,2 0,8 1,6 0,9
A2 0,267 0,9 0 0,05
A3 1,667 2,5 0,8 0,2
La suma de todos los elementos de esta ltima tabla nos da el valor del estadstico chi-
cuadrado,
( )
2
2
1 1
10, 8833
r c
ij ij
i j
ij
n E
E

= =

= =

, que hay que compararlo con el valor


2 2
( 1)( 1); 1 2*3; 0,90
10, 6
r c


= = . Como
2 2
( 1)( 1); 1 r c


> , se rechazara la hiptesis nula de
independencia entre los salarios y la antigedad en la empresa.

4. (ejercicio 14, relacin tema 10) Una empresa exportadora de naranjas piensa en cambiar su
tipo de embalaje para el envo de sus ctricos al exterior, pero no sabe si utilizar cajas de
cartn, madera o plstico. Para decidirse y utilizando informacin de otras empresas
exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartn, 123
cajas de madera y 128 de plstico. En las fichas informativas de cada caja consta el nmero de
kilogramos que llegaron en mal estado a su destino en las distintas pocas del ao,
resumindose la informacin de la siguiente forma
Tipos de embalaje
Cartn Madera Plstico
Primavera
Verano
Otoo
12
27
103
8
52
63
6
65
57
Contrastar, al nivel de significacin del 5%, si los tres tipos de embalajes se comportan de la
misma forma en la conservacin de su contenido.
Solucin
Notamos las distintas modalidades de forma genrica para simplificar el aspecto de las tablas.

X \ Y B1 B2 B3 ni.
A1 12 8 6 26
A2 27 52 65 144
A3 103 63 57 223
n.j 142 123 128 393

En la siguiente tabla se calculan las frecuencias esperadas bajo la hiptesis nula de
independencia segn la conocida expresin
i j
ij
n n
E
n

=

156
X \ Y B1 B2 B3
A1 9,394 8,1374 8,4682
A2 52,03 45,069 46,901
A3 80,58 69,794 72,631
Con las frecuencias observadas
ij
n de la primera tabla y las frecuencias esperadas
ij
E de la
anterior tabla se calcula
( )
2
ij ij
ij
n E
E

para cada elemento de la tabla, obtenindose:


X \ Y B1 B2 B3
A1 0,723 0,0023 0,7194
A2 12,04 1,066 6,9846
A3 6,241 0,6613 3,364
La suma de todos los elementos de esta ltima tabla nos da el valor del estadstico chi-
cuadrado,
( )
2
2
1 1
31, 8
r c
ij ij
i j
ij
n E
E

= =

= =

, que hay que compararlo con el valor


2 2
( 1)( 1); 1 2*2 ; 0,95
9, 49
r c


= = . Como
2 2
( 1)( 1); 1 r c


> , se rechazara la hiptesis nula de un
comportamiento homogneo (igual) de los tres tipos de embalajes en la conservacin de
ctricos.
5. (ejercicio 15, relacin tema 10) En una empresa constructora se ha observado el nmero de
accidentes que ocurren durante 130 das, obtenindose la siguiente distribucin de
frecuencias:
Nmero de accidentes por da Nmero de das
0
1
2
3
4
69
42
15
4
0
130
Contraste la hiptesis de que el nmero de accidentes por da sigue una distribucin de
Poisson, utilizando un nivel de significacin del 1%.
Solucin
0, 646 x = , nos quedamos con un solo decimal para estimar

0, 6 = y buscar las
probabilidades
i
p bajo la hiptesis nula en las tablas de la distribucin de Poisson.
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


0 69 0,5488 71,3455 5,5014 0,0771
1 42 0,3293 42,8073 0,6517 0,0152
2 15 0,0988 12,8422 4,6561 0,3626
3 4 0,0198 2,5684 2,0494 0,7979
4 ms 0 0,0034 0,4365 0,1906 0,4365
130 1 130
2
=
1,6894
157
Tenemos que agrupar clases pues las frecuencias esperadas de las dos ltimas clases son
menores que 5.
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


0 69 0,5488 71,3455 5,5014 0,0771
1 42 0,3293 42,8073 0,6517 0,0152
2 ms 19 0,1219 15,8472 9,9403 0,6273
130 1 130
2
=
0,7196
2
1;0,99
6, 63 = . 0,72<6,63 luego aceptamos la hiptesis de que el nmero de accidentes por da
sigue una distribucin de Poisson. (Obsrvese que se ha restado un grado de libertad ms por
el parmetro de la distribucin de Poisson estimado)

6. (ejercicio 16, relacin tema 10) La siguiente tabla recoge la edad y el nmero de ausencias
laborales durante un ao de los empleados de un ayuntamiento:
Ausencias
Edad
0-5 5-10 Ms de 10
16-25
25-40
40-55
55-65
20
10
9
15
9
22
20
14
30
31
25
35
Contraste la independencia entre la edad y el nmero de ausencias con un nivel de
significacin del 1%.
Solucin
Edad \ Ausencias 0-5 5-10 Ms de 10 i
n


16-25 20 9 30 59
25-40 10 22 31 63
40-55 9 20 25 54
55-65 15 14 35 64
j
n


54 65 121 240

i j
ij
n n
E
n

=
0-5 5-10 Ms de 10
16-25 13,275 15,979 29,746
25-40 14,175 17,063 31,763
40-55 12,150 14,625 27,225
55-65 14,400 17,333 32,267

( )
2
ij ij
ij
n E
E

0-5 5-10 Ms de 10
16-25 3,407 3,048 0,002
25-40 1,230 1,429 0,018
40-55 0,817 1,975 0,182
55-65 0,025 0,641 0,232
158
( )
2
2
1 1
13, 006
r c
ij ij
i j
ij
n E
E

= =

= =


2 2
( 1)( 1); 1 2 3; 0,99
16, 81
r c


= =
Como
2 2
( 1)( 1); 1
( 13, 006) ( 16, 81)
r c


= < = , se acepta la hiptesis nula de que la edad y el
nmero de ausencias son independientes con un nivel de significacin del 1%.
Sin embargo
2 2
6; 0,95
( 13, 006) ( 12, 59) = > = , se rechazara la hiptesis nula de que el
nmero de ausencias es independiente de la edad con un nivel de significacin del 5%.
(Nota: utilizar este ejemplo para comentar la importancia e interpretacin del nivel de
significacin)

7. (Ejercicio 17, relacin tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en
relacin a tres tipos de vehculos, obtenindose
Sexo/Vehculo monovolumen deportivo todo terreno
hombres 250 275 225
mujeres 80 75 95
a) Es independiente la preferencia de vehculo del hecho de ser hombre o mujer?
b) En general, sin distinguir entre hombre y mujeres, existe un mismo grado de
preferencia entre los conductores por cada tipo de vehculo?
Solucin:
a)
Tabla de contingencia SEXO * VEHICULO
VEHICULO Total
MONOVOLUMEN DEPORTIVO
TODO
TERRENO
SEXO HOMBRE Recuento
250 275 225 750
Frecuencia
esperada
247,5 262,5 240,0 750,0
MUJER Recuento
80 75 95 250
Frecuencia
esperada
82,5 87,5 80,0 250,0
Total Recuento
330 350 320 1000
Frecuencia
esperada
330,0 350,0 320,0 1000,0
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
6,232(a) 2 ,044
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 80,00.

ij
n
monovolumen deportivo todo terreno i
n


hombres 250 275 225 750
mujeres 80 75 95 250
j
n


330 350 320 1000

159
i j
ij
n n
E
n

=
monovolumen deportivo todo terreno
hombres 247,5 262,5 240
mujeres 82,5 87,5 80

( )
2
ij ij
ij
n E
E


monovolumen deportivo todo terreno
hombres 0,025 0,595 0,938
mujeres 0,076 1,786 2,813

( )
2
2
1 1
6,233
r c
ij ij
i j
ij
n E
E

= =

= =

(la diferencia con SPSS es debida a redondeos)


2 2
(3 1)(2 1); 1 0,05 2; 0,95
5, 99

= =
2 2
(3 1)(2 1); 1 0,01 2; 0,99
9, 21

= =
Se rechaza la hiptesis nula de independencia con un nivel de significacin del 5% pero se
acepta es misma hiptesis nula con un nivel de significacin del 1%. Segn la salida del SPSS
la hiptesis nula se acepta para cualquier nivel de significacin menor del 4,4% y se rechaza
para niveles de significacin mayores al 4,4%.
b)
VEHICULO
N observado N esperado Residual
MONOVOLUMEN
330 333,3 -3,3
DEPORTIVO
350 333,3 16,7
TODO TERRENO
320 333,3 -13,3
Total
1000

Estadsticos de contraste
VEHICULO
Chi-cuadrado(a)
1,400
gl
2
Sig. asintt.
,497
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es
333,3.

i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


monovolumen 330 0,33333 333,3333 11,11111 0,03333333
deportivo 350 0,33333 333,3333 277,7778 0,83333333
Todo terreno 320 0,33333 333,3333 177,7778 0,53333333
1000 1 1000
2
=
1,4
2 2
1,1 2, 0'90
4, 60
k


= = Incluso con un nivel de significacin del 10% se acepta la hiptesis
nula de igual preferencia por cada tipo de vehculo. Segn la salida del SPSS la hiptesis nula
se acepta para cualquier nivel de significacin menor del 49,7%.
8. (Ejercicio 18, relacin tema 10) Se sabe que en un centro de Enseanza Primaria, el 62% de
los estudiantes de ltimo curso dejan de estudiar, el 37% pasan a formacin profesional y el
160
1% pasan a enseanza secundaria. Se toma una muestra de 80 de estos estudiantes que
finalizaron el ao pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formacin
profesional y nueve pasaron a enseanza secundaria. Concuerdan los datos muestrales con
los estadsticos de aos anteriores? ( 0, 05 = )
Solucin:
CLASES i
n
i
p
i i
E np =
LO DEJAN 54 0,62 49,6
FP 17 0,37 29,6
ESO 9 0,01 0,8
80 1 80
Tenemos que agrupar clases pues la frecuencia esperada de la ltima clase es menor que 5.
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


LO DEJAN 54 0,62 49,6 19,36 0,39032258
FP-ESO 26 0,38 30,4 19,36 0,63684211
80 1 80
2
=
1,02716469
2
1;0,95
3, 84 = . 1,027<3,84 luego se acepta la hiptesis de que los porcentajes de alumnos que
lo dejan y siguen estudiando son el 62% y 38% respectivamente.
9. (Ejercicio 23, relacin tema 10) La siguiente tabla muestra, para muestras independientes de
hombres y mujeres, cuntos de ellos ven la televisin menos de dos horas, de dos a cuatro y
ms de cuatro horas.
Horas de televisin por da
Menos de 2 horas De 2 a 4 horas Ms de 4 horas
Hombre 18 10 2
Mujer 17 13 8
Contrastar a nivel de significacin del 5% si el nmero de horas que ven la televisin se
distribuye de igual forma en hombres que en mujeres.
Solucin:
X \ Y Menos de 2 horas De 2 a 4 horas Ms de 4 horas
i
n
i

Hombre 18 10 2 30
Mujer 17 13 8 38
j
n
i

35 23 10
n=68
En la siguiente tabla se calculan las frecuencias esperadas bajo la hiptesis nula de
independencia segn la conocida expresin
i j
ij
n n
E
n

=
X \ Y Menos de 2 horas De 2 a 4 horas Ms de 4 horas
Hombre 15,4412 10,1471 4,4118
Mujer 19,5588 12,8529 5,5882
Juntamos las clases de 2 a 4 horas y ms de 4 horas para que todas las frecuencias esperadas
sean mayores que 5.
161
Frecuencias observadas Menos de 2 horas Ms de 2 horas
i
n
i

Hombre 18 12 30
Mujer 17 21 38
j
n
i

35 33
n=68

Frecuencias esperadas Menos de 2 horas Ms de 2 horas
Hombre 15,4412 14,5588
Mujer 19,5588 18,4412

Con las frecuencias observadas
ij
n y las frecuencias esperadas
ij
E de las anteriores tablas se
calcula
( )
2
ij ij
ij
n E
E

para cada elemento de la tabla, obtenindose:


( )
2
ij ij
ij
n E
E

Menos de 2 horas Ms de 2 horas


Hombre 0,424034 0,449733
Mujer 0,334763 0,355052

La suma de todos los elementos de esta ltima tabla nos da el valor del estadstico chi-
cuadrado,
( )
2
2
1 1
1,563581681
r c
ij ij
i j
ij
n E
E

= =

= =

, que hay que compararlo con el valor


2 2 2
( 1)( 1); 1 1 1; 0,95 1; 0,95
3, 84
r c


= = = . Como
2 2
( 1)( 1); 1 r c


< , se acepta la hiptesis nula de
que se distribuye de igual forma en hombres que en mujeres el nmero de horas que ven la
televisin.

162
11. Inferencia no paramtrica.
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
11.3 Contraste de Mann-Whitney.
11.4 Test de las rachas.
11.5 Test de los signos.
11.6 Test de Wilcoxon de los signos-rangos.



Los mtodos estadsticos de inferencia que no requieren el conocimiento de la distribucin de
la variable, es decir, los mtodos que son vlidos cualquiera que sea la distribucin que sigue
la poblacin, se conocen con el nombre de no paramtricos. Evidentemente, si no se conoce la
distribucin tampoco se pueden realizar inferencias sobre los parmetros, las hiptesis se
refieren a la posible forma de la distribucin, la aleatoriedad de la muestra, ...
Para la realizacin de tests no paramtricos se utilizan estadsticos cuya distribucin se puede
obtener para cualquiera que sea la distribucin de la poblacin que se desea estudiar.

11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
Es un test no paramtrico mediante el cual se contrasta la hiptesis nula de que los datos
observados en una muestra proceden de una poblacin con una distribucin de probabilidad,
F(x), dada de antemano (se corresponde con el test de ajuste de la
2
)
0
: ( ) ( ) H X F x conocida
El test K-S presupone que las distribuciones sean continuas; puede emplearse tambin,
sin embargo, con distribuciones discretas.
El test K-S es conveniente usarlo con muestras pequeas (detecta mejor las
desviaciones de la distribucin normal). El test
2
se comporta mejor con muestras
grandes, e incluso, en muestras pequeas no es posible aplicar el test
2
pues no se
verifican las condiciones de validez ( 5
i
E > ).

Suponemos que tenemos una muestra de tamao n.
1. Se ordenan los valores de la muestra de menor a mayor.
2. Se calcula la funcin de distribucin real bajo
0
H :
| |
0
( ) F x P X x =
3. Se calcula la funcin de distribucin emprica o muestral.
( )

n
n observaciones x
F x
n

=
163
4. Se calcula el estadstico experimental
( ) ( )
0
max
exp n
D F x F x =
5. Fijado el nivel de significacin y conocido el n de elementos en la muestra se
obtiene un valor crtico en la tabla A.14 que denotaremos D

. Se rechaza
0
H si
exp
D D

> .

Nota: Los valores crticos aproximados para tamaos grandes de la muestra son muy
conservativos cuando para ajustar una distribucin normal haya que estimar la media y la
varianza a partir de los valores muestrales.

Ejemplo 11.1. (ejercicio 7, relacin tema 11)
Con un nivel de significacin del 5%, contraste la hiptesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribucin normal de
media 14 y varianza 2,25.
Solucin
2
0
: ( ) ( 14; 2, 25) H F x N = = =
2
1
: ( ) ( 14; 2, 25) H F x N = =
Muestra
ordenada
i
n
i
N
| |
0
( ) F x P X x =
( )
n
F x
0
( ) ( )
n
F x F x
12
13
14
15
17
18
2
1
3
2
1
1
2
3
6
8
9
10
0,0912
0,2525
0,5
0,7475
0,977
0,9962
2/10=0,2
3/10=0,3
0,6
0,8
0,9
1
0,1088
0,0475
0,1
0.0525
0,077
0,0038
10 n =

| |
0
12 14
(12) 12 1, 3 0, 0912
2, 25
F P X P Z P Z
(

(
= = = =
(




| |
0
13 14
(13) 13 0, 6 0, 2525
2, 25
F P X P Z P Z
(

(
= = = =
(




...
164
| |
0
18 14
(18) 18 2, 6 0, 9962
2, 25
F P X P Z P Z
(

(
= = = =
(




Para n=10 y 0, 05 = el valor crtico D

para el test de bondad de ajuste de K-S es


D

=0,409.
( ) ( )
exp
0,1088 0, 409 D D

= < = luego no existen motivos para rechazar la


hiptesis nula.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Nota: Este grfico ilustra cmo calcula SPSS las diferencias entre las funciones de
distribucin muestral y bajo
0
H . Aunque en la prctica slo se calcula
0
( ) ( )
i n i
F x F x , en
distribuciones continuas habra que hallar tambin las diferencias
0 1
( ) ( )
i n i
F x F x
+
para
encontrar la mxima diferencia entre ambas funciones de distribucin.
Prueba de Kolmogorov-Smirnov para una muestra
ejercicio11_7
N
10
Media
14
Parmetros normales(a,b) Desviacin tpica
1,5
Absoluta
,200
Positiva
,1088
Diferencias ms extremas
Negativa
-,200
Z de Kolmogorov-Smirnov
,632
Sig. asintt. (bilateral)
,819
a La distribucin de contraste es la Normal.
b Especificado por el usuario


0,5-0,3=0,2
165
Ejemplo 11.2 (ejercicio 8, relacin tema 11)
Con nivel de significacin 5% contraste la hiptesis de que los siguientes valores muestrales
X
i
n
0,45
0,55
0,6
0,75
0,8
0,85
0,88
1
2
3
1
2
1
4
2
5
20 n =
proceden de la distribucin de probabilidad dada por
2
0
0 0
0 1
1 1
x
F x x
x


=
`

)

Solucin
X
i
n
i
N ( )
n
F x
0
( ) F x
0
( ) ( )
n
F x F x
0,45
0,55
0,6
0,75
0,8
0,85
0,88
1
2
3
1
2
1
4
2
5
2
5
6
8
9
13
15
20
2/20
5/20
6/20
8/20
9/20
13/20
15/20
1
2
0, 45 0, 2025 =
0,3025
0,36
0,5625
0,64
0,7225
0,7744
1
0.1025
0.0525
0,06
0,1625
0,19
0,0725
0,0244
0
20 n =
Para n=20 y 0, 05 = D

=0,294.
( ) ( )
exp
0,19 0, 294 D D

= < = luego acepto la hiptesis


nula.

11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma
poblacin o no.
Este test de homogeneidad de K-S es el test ms potente para comparar dos muestras
independientes desde el punto de vista de si proceden de una misma poblacin. Detecta todo
tipo de diferencias en las distribuciones, en particular diferencias en la tendencia central
(media, mediana), en la dispersin, en la asimetra y en el exceso, esto es, diferencias en las
funciones de distribucin.
El contraste se basa en el estudio de las diferencias entre las funciones de distribucin
empricas o muestrales de cada muestra.
166
Dadas dos muestras aleatorias e independientes, de tamaos n y m, cuyas funciones de
distribucin muestrales se designan por
1
( )
n
F x y
2
( )
m
F x , respectivamente, se pueden plantear
los siguientes contrastes:
Contraste bilateral:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`

)

Contrastes unilaterales:
0 0
1 1
: ( ) ( ) : ( ) ( )
(1) (2)
: ( ) ( ) : ( ) ( )
n m n m
n m n m
H F x F x H F x F x

H F x F x H F x F x
= =
` `
< >
) )

Pasos:
1. Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor.
2. Se calcula cada una de las dos funciones empricas (o funciones de distribucin
muestrales).
3. Se calcula la diferencia entre las dos funciones de distribucin muestrales.
Si
1 2
( ) ( )
n m
F x F x < , x , se plantea el test unilateral (1)
Si
1 2
( ) ( )
n m
F x F x > , x , se plantea el test unilateral (2)
Si las diferencias unas veces son positivas y otras negativas, se plantea el test bilateral.
En cualquier caso el estadstico experimental es:
1 2
exp
max ( ) ( )
n m
D F x F x =
4. Fijado el nivel de significacin y conocido el n de elementos en cada muestra, se
obtiene el valor crtico D

, distinguiendo si n m = o n m y si el test es unilateral o


bilateral. Se rechaza
0
H si
exp
D D

> . (Tablas A.18 y A.19)


Ejemplo 11.3 (ejercicio 9, relacin tema 11)
Con nivel de significacin de 5%, contraste la hiptesis de que los siguientes valores
muestrales proceden de una misma poblacin.
Muestra 1 2 4 2 3 5 6 7 8 9 3
Muestra 2 2 4 5 3 5 4 7 6 5 3

Solucin
En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. Se
construyen las dos funciones de distribucin empricas. Las diferencias unas veces son
positivas y otras negativas lo que invita a hacer un test bilateral.

167
Muestras
ordenadas
1
10
( ) F x
2
10
( ) F x
1 2
10 10
( ) ( ) F x F x
1 2
10 10
( ) ( ) F x F x
2
3
4
5
6
7
8
9
2/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
1/10
3/10
5/10
8/10
9/10
10/10
10/10
10/10
1/10
1/10
0
-2/10
-2/10
-2/10
-1/10
0
1/10
1/10
0
2/10
2/10
2/10
1/10
0
exp
2/10 0, 2 D = =
0, 05 = , n=m=10,
6
0, 6
10
D

= = ,
exp
D D

< , acepto la hiptesis nula de que las dos


muestras se han obtenido de la misma poblacin.

Ejemplo 11.4 (ejercicio 2, relacin tema 11)
Dos grupos de empleados de una empresa son sometidos a sendos programas de
entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0
a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados
obtenidos son
Grupo 1 50 83 45 63 72 56 65 47
66 35 14 57 90 25 15 74
Grupo 2 95 92 85 86 72 75 93 67
56 85 93 98 85 62 54 56
Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos mtodos producen la misma
distribucin de probabilidades sobre las puntuaciones resultantes. ( 05 . 0 = )
Solucin
Puntuacin
1
16
( ) F x
2
16
( ) F x
1 2 1 2
16 16 16 16
( ) ( ) ( ) ( ) F x F x F x F x =
14
15
25
35
45
47
50
54
56
57
62
63
65
66
1/16
2/16
3/16
4/16
5/16
6/16
7/16
7/16
8/16
9/16
9/16
10/16
11/16
12/16
0
0
0
0
0
0
0
1/16
3/16
3/16
4/16
4/16
4/16
4/16
1/16
2/16
3/16
4/16
5/16
6/16
7/16
6/16
5/16
6/16
5/16
6/16
7/16
8/16
168
67
72
74
75
83
85
86
90
92
93
95
98
12/16
13/16
14/16
14/16
15/16
15/16
15/16
1
1
1
1
1
5/16
6/16
6/16
7/16
7/16
10/16
11/16
11/16
12/16
14/16
15/16
16/16
7/16
7/16
8/16
7/16
8/16
5/16
4/16
5/16
4/16
2/16
1/16
0
1 2
16 16
( ) ( ) F x F x > lo que sugiere un contraste unilateral. 0, 05 = , n=m=16
6
16
D

= .
exp
D D

> (no provienen de la misma poblacin) los dos mtodos no son iguales. El grupo 2
arroja puntuaciones mayores, o lo que es lo mismo
1 2
16 16
( ) ( ) F x F x > .

11.3 Contraste de Mann-Whitney.
La prueba de Mann-Whitney tambin permite contrastar si dos muestras independientes, han
sido obtenidas de la misma poblacin. Pero este contraste no necesita conocer la
cuantificacin de los elementos de las muestras, solo es necesario disponer de un orden entre
dichos elementos.
El test de rangos U de Mann y Whitney es la contrapartida no paramtrica del test t para la
comparacin de las medias de dos distribuciones continuas (test paramtrico). Para muestras
pequeas el contraste de K-S es ms eficiente.

Tomamos dos muestras independientes de tamaos n y m donde suponemos que n m .
Se presupone que las distribuciones de las muestras que se han de comparar presentan la
misma forma.
El test U de Mann y Whitney examina la hiptesis alternativa. La probabilidad de que una
observacin obtenida al azar de la primera poblacin supere a una observacin aleatoria de la
segunda poblacin es distinta de
1
2


El test es sensible frente a diferencias de medianas, algo menos sensible frente a las
diferencias de asimetra, e insensible frente a las diferencias de varianzas.



169
Se pueden plantear los siguientes contrastes:
Contraste bilateral:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`

)

Contrastes unilaterales:
0 0
1 1
: ( ) ( ) : ( ) ( )
(1) (2)
: ( ) ( ) : ( ) ( )
n m n m
n m n m
H F x F x H F x F x

H F x F x H F x F x
= =
` `
< >
) )

Estos ltimos cuando se observe que los valores de una muestra son en general mayores o
menores que los de la otra. (Vase ejemplo 11.6)
Pasos:
1. Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor.
2. El valor del estadstico U (
0
U ) se obtiene mediante:
i
U = n de veces que una observacin de la muestra i precede a una observacin de
la muestra j, si coinciden dos valores tomamos 0.5, ( 1, 2 i = , 1, 2 j = , i j ).
O bien,
i
U = n de veces que una observacin de la muestra j es precedida por una
observacin de la muestra , si coinciden dos valores tomamos 0.5, ( 1, 2 i = ,
1, 2 j = , i j ).
Ejemplo
1 muestra 9 11 15 n=3
2 muestra 6 8 11 13 m=4

Muestras ordenadas 6 8 9 11 11 13 15
Procedente de: 2 2 1 1 2 2 1
1
0 0 1, 5 2 3, 5 U = + + + =
2
2 2, 5 4 8, 5 U = + + =
Ejemplo
1 muestra 3 4 2 n=3
2 muestra 6 7 8 9 m=4

Muestras ordenadas 2 3 4 6 7 8 9
Procedente de: 1 1 1 2 2 2 2

170
1
2
3 3 3 3 12
0 0 0 0
U
U
= + + + =
= + + =

Como podemos observar, si 2 muestras proceden de la misma poblacin, los datos
tienden a entremezclarse. En caso contrario, los
i
U toman valores extremos.
Otra forma de calcular los
i
U (aconsejable para muestras grandes) es as:
Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del
conjunto (si hay repeticiones de valores, se asigna el rango medio)
Ejemplo
Muestras ordenadas 6 8 9 11 11 13 15
Procedente de: 2 2 1 1 2 2 1
rangos 1 2 3 4,5 4,5 6 7
Sean
1
R y
2
R la suma de los rangos de la 1 y 2 muestra, entonces:
( )
1 1
2 2 2 1
( 1)
2
( 1)
2
n n
U nm R
m m
U nm R U nm U
+
= +
+
= + =

( )
1 1
3 4
3 4, 5 7 14, 5 3 4 14, 5 3, 5
2
R U

= + + = = + =
( )
2 2
4 5
1 2 4, 5 6 13, 5 3 4 13, 5 8, 5
2
R U

= + + + = = + =
El estadstico es:
0 1 2
min ( , ) U U U =
Nota: tambin lo podamos haber definido con el mximo.
3. Como hemos visto, si los datos no proceden de la misma poblacin, los
i
U toman
valores extremos y por tanto
0
U tomar un valor pequeo. Luego rechazamos la
hiptesis nula cuando
0
U tome valores pequeos, pero cmo de pequeos?
Distinguimos casos:
a) 20 40 n y m
Se rechazar la hiptesis nula cuando el valor U
0
sea igual o menor que el valor crtico
U

de las tablas 3.18 o 3.19 (nivel de significacin 5% = ). SPSS usa niveles de


significacin exactos, Dineen y Blakesley (1973).
b) En otro caso distinto al apartado a) se tendr en cuenta que para tamaos
muestrales suficientemente grandes ( 60 m n + > , segn algunos autores) se cumple la
excelente aproximacin.
171
( 1)
,
2 12
nm nm n m
U N
| |
+ +

|
|
\ .

Calculo
| |
0 0
/ p P U U H =
Para fijo, rechazo
0
H si ( ) ( )
2
p bilateral o p unilateral

.
Mann y Whitney consideran aceptable esta aproximacin siempre que los tamaos
muestrales no sean muy pequeos ( 8, 8 m n ). Nosotros utilizaremos las tablas 3.18
o 3.19 para los valores de m y n que aparecen en dichas tablas y esta aproximacin
normal cuando no aparezcan.

En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar
rangos medios) tiene una distribucin distinta (Sachs, Estadstica Aplicada, pag. 255).

Ejemplo 11.5 (ejercicio 4, relacin tema 11)
Para comparar la productividad de dos talleres de artesana pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de
un artculo concreto, el resultado se muestra a continuacin:
Taller 1 78 64 75 45 82
Taller 2 110 70 53 51
Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es
la misma ( 0.05) = .
Solucin
n=4 (taller 2) 20, m=5 (taller 1) 40
Muestras
ordenadas
rango Procede de:
45
51
53
64
70
75
78
82
110
1
2
3
4
5
6
7
8
9
1
2
2
1
2
1
1
1
2
( ) ( )
2 2 1 2
4 5
( 2) 2 3 5 9 19 4 5 19 11 4 5 9
2
T T T T
R taller U U U

= + + + = = + = = =
( )
0
min 11, 9 9 U = =
172
0
4, 5, 1 ( 3.19) ( 9) ( 1) n m U tabla U U

= = = = > = los dos talleres producen lo
mismo.

Ejemplo 11.6 (ejercicio 5, relacin tema 11)
Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un
equipo de expertos somete a observacin el comportamiento en el trabajo de 12 trabajadores
seleccionados al azar asignando a cada uno de ellos una puntuacin entre 0 y 100. Tras aplicar
los incentivos se realiza de nuevo la observacin sobre otros 12 trabajadores tambin
seleccionados al azar. El resultado de ambas fue
No incentivos 67 78 69 67 56 57 78 79 56 43 45 65
Incentivos 78 98 67 87 79 65 76 87 57 76 77 78
Realice el contraste utilizando la prueba de Mann-Whitney ( 0.05) = .
Solucin
Muestras
ordenadas
Incentivos rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
43
45
56
56
57
57
65
65
67
67
67
69
76
76
77
78
78
78
78
79
79
87
87
98
No
No
No
No
No
Si
No
Si
No
No
Si
No
Si
Si
Si
No
No
Si
Si
No
Si
Si
Si
si
1
2
3,5
3,5
5,5
5,5
7,5
7,5
10
10
10
12
13,5
13,5
15
17,5
17,5
17,5
17,5
20,5
20,5
22,5
22,5
24
12 m n = =
1 2 3, 5 3, 5 5, 5 7, 5 10 10 12 17, 5 17, 5 20, 5 110, 5
NO
R = + + + + + + + + + + + =
( )
12 13
12 12 110, 5 111, 5 144 111, 5 32, 5
2
NO SI
U U

= + = = =
173
0
min (111, 5; 32, 5) 32, 5 U = =
En primer lugar vamos a contrastar la hiptesis nula de que los incentivos no tienen efecto
sobre la produccin frente a la alternativa de que s lo tienen, es decir
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`

)

Para ello realizaremos un test bilateral ( 0.05 = , tabla 3.19)
37 U

= ;
0
( 32, 5) ( 37) U U

= < = rechazo la hiptesis nula, por tanto, los incentivos


tienen efectos sobre la produccin sin especificar en qu sentido.

En este caso que nos ocupa parece ms plausible contrastar
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`
>
)

Dado que suponemos que los incentivos van a tener un efecto positivo sobre la produccin, es
decir, los valores de la muestra con incentivos deberan ser mayores que los de la muestra sin
incentivos y por tanto la funcin de distribucin de la muestra con incentivos ( ) ( )
m
F x menor
que la funcin de distribucin de la muestra sin incentivos ( ) ( )
n
F x (Recurdese lo que ocurra
en el ejemplo 11.4 ). Para ello realizaremos un test unilateral ( 05 . 0 = , tabla 3.18)
42 U

= ;
0
( 32, 5) ( 42) U U

= < = rechazo la hiptesis nula, por tanto, los incentivos


tienen efectos positivos sobre la produccin.
Dado que un test bilateral con 0.05 = equivale a un test unilateral con 0.025 = y en ese
caso se haba rechazado la hiptesis nula, con mayor razn se rechaza en este ltimo test
unilateral con 0.05 0.025 = > .

Ejemplo 11.6b (ejercicio 5, relacin tema 11)
Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un
equipo de expertos somete a observacin el comportamiento en el trabajo de 25 trabajadores
seleccionados al azar asignando a cada uno de ellos una puntuacin entre 0 y 100. Tras aplicar
los incentivos se realiza de nuevo la observacin sobre otros 25 trabajadores tambin
seleccionados al azar. El resultado de ambas fue
72 83 74 71 60 60 82 84 61 48 50 70 71
No incentivos
67 78 69 67 56 57 78 79 56 43 45 65
84 99 73 94 85 70 80 93 63 80 84 85 88
Incentivos
78 98 67 87 79 65 76 87 57 76 77 78
174
Realice el contraste utilizando la prueba de Mann-Whitney ( 0.05) = .
Solucin

Muestras
ordenadas incentivos rango
1 43 NO 1
2 45 NO 2
3 48 NO 3
4 50 NO 4
5 56 NO 5.5
6 56 NO 5.5
7 57 NO 7.5
8 57 SI 7.5
9 60 NO 9.5
10 60 NO 9.5
11 61 NO 11
12 63 SI 12
13 65 NO 13.5
14 65 SI 13.5
15 67 NO 16
16 67 NO 16
17 67 SI 16
18 69 NO 18
19 70 NO 19.5
20 70 SI 19.5
21 71 NO 21.5
22 71 NO 21.5
23 72 NO 23
24 73 SI 24
25 74 NO 25
26 76 SI 26.5
27 76 SI 26.5
28 77 SI 28
29 78 NO 30.5
30 78 NO 30.5
31 78 SI 30.5
32 78 SI 30.5
33 79 NO 33.5
34 79 SI 33.5
35 80 SI 35.5
36 80 SI 35.5
37 82 NO 37
38 83 NO 38
39 84 NO 40
40 84 SI 40
41 84 SI 40
42 85 SI 42.5
43 85 SI 42.5
44 87 SI 44.5
45 87 SI 44.5
46 88 SI 46
47 93 SI 47
175
48 94 SI 48
49 98 SI 49
50 99 SI 50
25 n m = =
442 833
NO SI
R R = =
( ) ( )
25 26
25 25 442 508 25 25 508 117
2
NO SI
U U

= + = = =
0
min (508; 117) 117 U = =
( )
25 25 25 25 51
, 312, 5; 51, 54
2 12
U N N
| |

=
|
|
\ .

| | | |
0
117 312, 5
117 / 3, 79 0, 00007
51, 54
p P U H P Z P Z
(
= = = =
(


Basndonos en los comentarios del ejemplo anterior, procede realizar un contraste unilateral
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`
>
)

( ) ( ) 0, 00007 0, 05 p = = rechazo la hiptesis nula, por tanto, los incentivos tienen
efectos positivos sobre la produccin.


Tambin se hubiera rechazado la hiptesis nula con un contraste bilateral.
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`

)

( ) 0, 00007 0, 025
2
p
| |
= =
|
\ .
rechazo la hiptesis nula, por tanto, los incentivos tienen
efectos sobre la produccin.
117
312,5
0, 05 =
0.00007
176



11.4 Test de las rachas.
El test de las rachas es un test no paramtrico que sirve para verificar la independencia o
aleatoriedad del orden de los valores muestrales.
Una racha es una sucesin de smbolos idnticos, a los que preceden o siguen otros smbolos.
As, por ejemplo, la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda,
constituye R=4 rachas. No slo en el caso de datos alternativos sino tambin tratndose de
valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores
menores y rachas de valores mayores o iguales que la mediana.
Para un valor dado de n, un R pequeo es indicio de que las observaciones iguales aparecen en
forma aglomerada , mientras que un valor grande de R denota que las observaciones se
suceden de una forma regular. La hiptesis nula
0
H dice que el orden de los valores es casual,
esto es, que se trata de una muestra aleatoria, mientras que la hiptesis alternativa
A
H dice que
la muestra no es aleatoria; o sea, que los valores muestrales no son independientes entre s. En
el caso unilateral a la
0
H se le contrapone la hiptesis
1 A
H : efecto de aglomeracin, o bien
la
2 A
H : los valores se suceden de una forma regular
Los valores crticos
inferior u
r r = y
superior o
r r = correspondientes a
1 2
20 n y n (donde
1 2
n y n
representan el nmero de veces que aparecen los dos elementos alternativos respectivamente,
1 2
n n n + = ) pueden obtenerse de la tabla 4.40.
Para
1 2
20 n o n > el estadstico R se distribuye aproximadamente como una normal de media y
varianza
1 2
1 2
2
1
n n
n n
= +
+

( ) ( )
2 1 2 1 2 1 2
2
1 2 1 2
2 (2 )
1
n n n n n n
n n n n


=
+ +

( R z = + , donde z es normal tipificada).
117
312,5
2


0,025
2

=
0.00007
177

En el test bilateral se mantiene
0
H si
u o
r R r < < (para
1 2
20 n y n ) o
2 2
z z z

< < (para
1 2
20 n o n > ) y se rechaza en caso contrario. (Nota: utilizar
u o
r y r con lmites inferiores y
superiores del
2

)
En el test unilateral
0
H se rechaza frente a
1 A
H tan pronto como
u
R r (
1 2
20 n y n ) o
z z

(
1 2
20 n o n > ). Se rechaza frente a
2 A
H si
o
r R (
1 2
20 n y n ) o z z


(
1 2
20 n o n > ). (Nota: utilizar
u o
r y r con lmites inferiores y superiores del %)

Tambin puede utilizarse el test de rachas para verificar si dos muestras independientes de
tamao similar proceden o no de una misma poblacin (las
1 2
n n n + = observaciones se
ordenan en sentido creciente, indicando con dos smbolos a qu muestra pertenecen, si se
obtiene un valor pequeo de R, se rechaza la hiptesis nula de igualdad de poblaciones).

Ejemplo 11.7 (Ejercicio 14 , relacin tema 11)
Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21,
18, 21, 22 ( 0,10 = ).
Solucin
Me=19. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede
escribirse mmmMMMMMmMM. Esta serie, con
1
4( ) n m = ,
2
7( ) n M = y 4 R = es compatible
al 10% con la hiptesis de aleatoriedad pues
( ) ( ) ( ) 3 4 9
u o
r R r = < = < =
(NOTA: Si hubiramos considerado 19=m, entonces mmmmMmmMmMM ,
1
7( ) n m = ,
2
4( ) n M = y 6 R = . Concluyendo de igual modo la compatibilidad con la hiptesis de
aleatoriedad.
( ) ( ) ( ) 3 6 9
u o
r R r = < = < =
Con 0, 05 = , ( ) ( ) ( ) 2 4 6 p
u o
r R o r no hay lmite su erior = < = = , se aceptara la
hiptesis de aleatoriedad. )
Ejemplo 11.8 (Ejercicio 15, relacin tema 11)
Supngase dos muestras aleatorias independientes de tamaos
1 2
20, 20 n n = = que han
proporcionado el siguiente nmero de rachas 15 R = . Contraste la hiptesis nula de igualdad de
las poblaciones de procedencia. ( 0, 05 = )
178
Solucin
Este contraste equivale a la verificacin de la no aglomeracin de las observaciones
(nicamente un reducido nmero de rachas nos inducira a rechazar la hiptesis nula de
igualdad de poblaciones).
Es decir, un test de
1 A
H frente a
0
H , al nivel del 5%, unilateral, con ayuda de los extremos
crticos inferiores del 5% de la tabla 4.40. 15
u
r = y como para ( 15) ( 15)
u
R r = = se rechaza
la hiptesis nula a favor de
1 A
H , se acepta la hiptesis de aglomeracin, lo que en este
contexto implica que las muestras proceden de poblaciones distintas.
Como los tamaos de las muestras se encuentran en el lmite
1 2
20, 20 n n = = , vamos a
resolver el problema mediante la aproximacin normal
1 2
1 2
2
1 21
n n
n n
= + =
+

( ) ( )
2 1 2 1 2 1 2
2
1 2 1 2
2 (2 )
9, 7436 3,1215
1
n n n n n n
n n n n


= = =
+ +

15 21
1, 92215
3,1215
R
z


= = =
0,05
( 1, 92215) ( 1, 645) z z = = llegndose al mismo resultado, se rechazara la
hiptesis de que las poblaciones son iguales.

11.5 Test de los signos.
Es un test no paramtrico dedicado a contrastar si dos muestras dependientes (apareadas,
paralelas o ligadas) proceden de una misma distribucin. Resulta especialmente til cuando la
medicin cuantitativa no es posible.
Este es un test no paramtrico rpido que sirve para contrastar las mismas hiptesis que el test
de Wilcoxon que veremos a continuacin.
El nombre de este test se debe a que nicamente se consideran los signos de las diferencias
entre observaciones. Se presupone que la variable aleatoria es continua. Al contrario que en el
test de la t o en el de Wilcoxon, aqu no es necesario que todos los pares procedan de una
misma poblacin. Pueden pertenecer a poblaciones distintas en lo que se refiere, por ejemplo, a
edad o sexo, etc. Lo esencial es que los resultados de cada par sean independientes entre s.

La hiptesis nula del test de los signos es:
La media de las diferencias entre los pares ligados es igual a cero; se espera que
aproximadamente la mitad de las diferencias tendrn el signo + y la otra mitad el signo . Es
179
decir, con el test de los signos se contrasta la hiptesis de que la mediana de la distribucin de
las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero, dicho de otra
forma, elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo
es igual que la probabilidad de que el segundo supere al primero).

La tabla 4.4 contiene los extremos de confianza, se rechazar la hiptesis nula cuando haya
demasiadas (o demasiado pocas) diferencias del mismo signo, esto es, cuando se rebasen (por
exceso o por defecto) los valores indicados en la tabla 4.4.
Las diferencias nulas no se consideran; esto puede traer consigo una disminucin del tamao
muestral. La probabilidad de obtener un nmero determinado de signos ms o menos se deduce
de la distribucin binomial con
1
2
p q = = . A partir de la tabla de probabilidades binomiales
con
1
2
p q = = se han determinado los valores de la tabla 4.4.
En la tabla 4.5 aparece slo el extremo izquierdo (EI) de la regin de aceptacin de la hiptesis
nula. El extremo derecho (ED) puede obtenerse mediante la frmula 1 ED n EI = + .
Cuando no se disponga de tablas o cuando estas resulten insuficientes, y si las muestras de
diferencias no son demasiado pequeas ( ) 30 n -algunos autores consideran bueno a partir de
( ) 25 n - la frecuencia observada del signo menos abundante se aproxima mediante una
normal de media y varianza
2
n
np = =
2
4
n
npq = =

Ejemplo 11.9 (Ejercicio 16, relacin tema 11)
Supngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al
nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas.
Proceden las dos muestras ligadas de la misma poblacin?
Solucin
De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro
caso caen fuera de los lmites por lo que se rechaza la hiptesis nula y se acepta que ambas
muestras proceden de poblaciones distintas.

11.6 Test de Wilcoxon de los signos-rangos.
Los test ptimos para la comparacin de dos muestras dependientes (ligadas o paralelas) son:
el test de la t de Student, si la distribucin de las diferencias es normal, y el test de Wilcoxon
180
para diferencias entre pares, que utiliza signos y rangos, cuando las diferencias no siguen una
distribucin normal. Este ltimo test puede aplicarse tambin cuando los datos vengan dados
en forma de rangos. En comparacin con el test de la t, el test de Wilcoxon requiere muchos
menos clculos y es casi igual de potente en el caso de diferencias normalmente distribuidas.
Si el test lleva a rechazar
0
H significara que las dos muestras proceden de poblaciones con
distribuciones distintas.
Prescindiendo de los pares cuyos dos valores sean iguales, para los n pares de valores restantes
se formarn las diferencias entre las dos muestras paralelas
1 2 i i i
d x x =
A continuacin se ordenan los valores absolutos
i
d de menor a mayor, asignndoles rangos:
el menor de todos ellos tendr el rango 1, y el mayor tendr rango n. Caso de que se repitieran
valores, se asignaran a cada uno de ellos el rango medio (como se hizo con los empates en el
test de Mann-Whitney).
Junto a cada nmero de rango se anota si la diferencia correspondiente tiene signo positivo o
negativo. Se forma la suma de los nmeros de rango positivos ( R
+
) y la de los rangos
negativos ( R

), que se comprueban con la frmula


( 1)
2
n n
R R
+
+
+ =
Como estadstico se emplear la menor de las dos sumas de rangos

( )
min( , ) R R R
+
= . Se
rechazar la hiptesis nula cuando el valor obtenido

R se menor o igual que el valor crtico


indicado en la tabla 4.2.
Para 25 n > la distribucin de estadstico

R bajo la hiptesis nula es aproximadamente una


normal de media y varianza:
( 1)
4
n n

+
=
2
( 1)(2 1)
24
n n n

+ +
=
Ejemplo 11.10 (ejercicio 17, relacin tema 11)
Un bioqumico quiere comparar dos mtodos de determinacin de la concentracin de
testosterona en la orina. Sean A y B dichos mtodos. Para la comparacin, bilateral y al nivel
del 5%, dispone de 9 muestras de orina. No se sabe si la distribucin de los valores es normal.
Los valores vienen dados en miligramos contenidos en la orina de 24 horas.
Muestra n 1 2 3 4 5 6 7 8 9
A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47
B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51
181
Solucin
Muestra n 1 2 3 4 5 6 7 8 9
A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47
B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51
AB=
i
d 0,06 0,02 -0,13 0,09 0,10 -0,02 0,03 0 -0,04
Rango de los
i
d
5 1,5 8 6 7 1,5 3 4
22, 5 R
+
= (+) 5 (+) 1,5 (+) 6 (+) 7 (+) 3
13, 5 R

= (-) 8 (-) 1,5 (-) 4


comprobacin 22,5+13,5=36=8(8+1)/2
n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que

13, 5 3 R = > , por tanto no puede rechazarse la hiptesis nula.



EJERCICIOS RESUELTOS

1. (ejercicio 1, relacin tema 11) A continuacin se proporcionan los valores ordenados de
una muestra aleatoria del nmero de respuestas correctas para un determinado test: 852,
875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063.
En aos anteriores el nmero de respuestas correctas estaba representado, de forma
adecuada, por una N(985, 50). Con base en esta muestra, existe razn para creer que ha
ocurrido un cambio en la distribucin de respuestas correctas? ( 05 . 0 = )
SOLUCIN:
muestra
ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)|
852 1 1 -2,66 0,0039 0,0625 0,0586
875 1 2 -2,20 0,0139 0,1250 0,1111
910 1 3 -1,50 0,0668 0,1875 0,1207
933 1 4 -1,04 0,1492 0,2500 0,1008
957 1 5 -0,56 0,2877 0,3125 0,0248
963 1 6 -0,44 0,3300 0,3750 0,0450
981 1 7 -0,08 0,4681 0,4375 0,0306
998 1 8 0,26 0,6026 0,5000 0,1026
1007 1 9 0,44 0,6700 0,5625 0,1075
1010 1 10 0,50 0,6915 0,6250 0,0665
1015 1 11 0,60 0,7257 0,6875 0,0382
1018 1 12 0,66 0,7454 0,7500 0,0046
1023 1 13 0,76 0,7764 0,8125 0,0361
1035 1 14 1,00 0,8413 0,8750 0,0337
1048 1 15 1,26 0,8962 0,9375 0,0413
1063 1 16 1,56 0,9406 1,0000 0,0594
182
( ) ( )
exp
0,1207 0, 327 D D

= < = luego no existen motivos para rechazar la hiptesis nula.



2. (ejercicio 3, relacin tema 11) Contrastar a un nivel 1 . 0 = si los datos siguientes proceden
de una distribucin Normal con media 10.84 y desviacin tpica 3.5:
10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1
SOLUCIN:
muestra
ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)|
4,1 1 1 -1,93 0,0271 0,1000 0,0729
8 2 3 -0,81 0,2086 0,3000 0,0914
10,5 2 5 -0,10 0,4613 0,5000 0,0387
12,1 3 8 0,36 0,6406 0,8000 0,1594
15 1 9 1,19 0,8827 0,9000 0,0173
16 1 10 1,47 0,9298 1,0000 0,0702
0,1 10 0, 369 n D

= = = .
( ) ( )
exp
0,1594 0, 369 D D

= < = luego no existen


motivos para rechazar la hiptesis nula.

3. (ejercicio 10, relacin tema 11) La duracin en minutos de las 100 llamadas telefnicas
recibidas durante un da en una empresa de seguros de automviles se recoge en la
siguiente tabla
Duracin en minutos
i
x
Nmero de llamadas
i
n
menos de 10 15
10-20 17
20-30 26
30-40 18
40-50 13
50-60 11
Contraste, con un nivel de significacin del 5%, la hiptesis de que la duracin de las
llamadas recibidas sigue una distribucin Normal con media 30 minutos y desviacin tpica
10 minutos. Utilice los contrastes de bondad de ajuste
2
y de Kolmogorov-Smirnov.
SOLUCIN:
Para hallar las siguientes probabilidades, bajo la hiptesis nula, tipificamos la variable
(30, 10) X N transformndola en una variable (0, 1) Z N
| |
0
30 10 30
10 ( 2) 0, 0228
10 10
x
P x P F
(
= = =
(


| | | |
0 0
10 30 30 20 30
10 20 2 1 ( 1) ( 2) 0,1587 0, 0228 0,1359
10 10 10
x
P x P P z F F
(
< = < = < = = =
(

| |
0 0
20 30 30 30 30
20 30 (0) ( 1) 0, 5 0,1587 0, 3413
10 10 10
x
P x P F F
(
< = < = = =
(


| |
0 0
30 30 30 40 30
30 40 (1) (0) 0, 8413 0, 5 0, 3413
10 10 10
x
P x P F F
(
< = < = = =
(


183
| |
0 0
40 30 30 50 30
40 50 (2) (1) 0, 9772 0, 8413 0,1359
10 10 10
x
P x P F F
(
< = < = = =
(

| |
0
30 50 30
50 1 (2) 1 0, 9772 0, 0228
10 10
x
P x P F
(
> = > = = =
(



CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


menos de 10 15 0,0228 2,28 161,8 70,96
10-20 17 0,1359 13,59 11,6 0,85
20-30 26 0,3413 34,13 66,1 1,94
30-40 18 0,3413 34,13 260,2 7,62
40-50 13 0,1359 13,59 0,35 0,026
ms de 50 11 0,0228 2,28 76,04 33,35
100 1 100
2
=
114,7
Como las frecuencias esperadas son menores que 5 en la primera y ltima clase, se
agrupan stas con las clases contiguas, obtenindose
CLASES i
n
i
p
i i
E np = ( )
2
i i
n E
( )
2
i i
i
n E
E


Menos de 20 32 0,1587 15,87 260,2 16,4
20-30 26 0,3413 34,13 66,1 1,94
30-40 18 0,3413 34,13 260,2 7,62
Ms de 40 24 0,1587 15,87 66,1 4,17
100 1 100
2
=
30,13

Buscamos en las tablas
2 2
1,1 3, 0'95
7, 81
k


= = . Como 30,13>7,81 rechazamos la hiptesis
nula de que la duracin de las llamadas sigue una distribucin Normal con media 30 y
desviacin tpica 10.
Contraste de Kolmogorov-Smirnov para bondad de ajuste
muestra ordenada x i
n
i
N
z 0
( ) F x ( )
n
F x
0
| ( ) ( ) |
n
F x F x
0-10 10 15 15 -2,00 0,0228 0,15 0,1272
10-20 20 17 32 -1,00 0,1587 0,32 0,1613
20-30 30 26 58 0,00 0,5000 0,58 0,0800
30-40 40 18 76 1,00 0,8413 0,76 0,0813
40-50 50 13 89 2,00 0,9772 0,89 0,0872
50-60 60 11 100 3,00 0,9987 1 0,0013

( ) ( )
0
max 0,1613
exp n
D F x F x = =
Buscando en las tablas, para un contraste bilateral,
1, 3581
0,1358
100
T
D = =
Al igual que con el anterior procedimiento de contraste se rechaza
0
H dado que
exp T
D D >


4. (ejercicio 11, relacin tema 11) Las inversiones realizadas (en miles de ) por un grupo de
6 empresas en el mes pasado se recogen en la siguiente tabla:
184
Empresa E1 E2 E3 E4 E5 E6
Inversin 318 322 345 300 338 311
Puede considerarse que siguen una distribucin normal de media 320.000 de y
desviacin tpica 10.000 ? ( 0, 05 = )
SOLUCION:
muestra
ordenada i
n
i
N
x
z

=
0
( ) F x ( )
n
F x
0
| ( ) ( ) |
n
F x F x
300 1 1 -2,0000 0,0228 0,1667 0,1439
311 1 2 -0,9000 0,1841 0,3333 0,1493
318 1 3 -0,2000 0,4207 0,5 0,0793
322 1 4 0,2000 0,5793 0,6667 0,0874
338 1 5 1,8000 0,9641 0,8333 0,1307
345 1 6 2,5000 0,9938 1 0,0062

( ) ( )
0
max 0,1493
exp n
D F x F x = =
(0,05)
0, 519
T bilateral
D =
exp T
D D < por tanto se acepta la hiptesis de que las inversiones de las empresas siguen
una ley normal con la media y desviacin tpica indicadas.

5. (ejercicio 12, relacin tema 11) Se observa durante 15 das los litros de cerveza de una
determinada marca que se han vendido en un supermercado, obtenindose las siguientes
cantidades:
150 140 150 130 160
160 150 140 170 140
130 160 150 140 170
Contraste la hiptesis de que el nmero de litros vendidos se distribuye segn una ley
normal de media 150 litros y desviacin tpica 10 litros. ( 0,1 = ). Utilice el contraste de
bondad de ajuste de Kolmogorov-Smirnov.

SOLUCIN:
Muestra
ordenada
i
n
i
N
x
z

=
0
( ) F x ( )
n
F x
0
| ( ) ( ) |
n
F x F x
130 2 2 -2,00 0,0228 0,1333 0,1106
140 4 6 -1,00 0,1587 0,4000 0,2413
150 4 10 0,00 0,5000 0,6667 0,1667
160 3 13 1,00 0,8413 0,8667 0,0253
170 2 15 2,00 0,9772 1,0000 0,0228
| |
0
150 130 150
130 ( 2) 0, 0228
10 10
x
P x P F
(
= = =
(


| |
0
150 140 150
140 ( 1) 0,1587
10 10
x
P x P F
(
= = =
(


185
| |
0
150 150 150
150 (0) 0, 5
10 10
x
P x P F
(
= = =
(


| |
0
150 160 150
160 (1) 0, 8413
10 10
x
P x P F
(
= = =
(


| |
0
150 170 150
170 (2) 0, 9772
10 10
x
P x P F
(
= = =
(



( ) ( )
0
max 0, 2413
exp n
D F x F x = =
(0,10)
0, 304
T bilateral
D =
Dado que
exp T
D D < se acepta la hiptesis de que el nmero de litros vendidos se
distribuye segn una ley normal de media 150 litros y desviacin tpica 10 litros.

6. (ejercicio 13, relacin tema 11) Se ha observado la temperatura durante los das de una
semana en la recepcin de un hotel, obtenindose
23,3
17,6
16,4
20,9
23,8
23,3
24,0
Contraste con un nivel de significacin del 5% la hiptesis de que la muestra procede de
una poblacin normal con media 20 y desviacin tpica 2.
SOLUCION:
muestra ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)|
16,4 1 1 -1,8000 0,0359 0,1429 0,1069
17,6 1 2 -1,2000 0,1151 0,2857 0,1706
20,9 1 3 0,4500 0,6736 0,4286 0,2451
23,3 2 5 1,6500 0,9505 0,7143 0,2362
23,8 1 6 1,9000 0,9713 0,8571 0,1141
24 1 7 2,0000 0,9772 1 0,0228

| | | |
16.4 20
16.4 1.8 0.0359
2
P x P z P z
(
= = =
(


...
| | | |
24 20
24 2 0.9772
2
P x P z P z
(
= = =
(


exp
0, 2451 D =
(0,05)
7 0, 483
T bilateral
n D = =
exp T
D D < , por tanto se acepta la hiptesis
nula de que la muestra procede de una poblacin normal.

7. (ejercicio 22, relacin tema 11) Para comparar la productividad de dos talleres de artesana
pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la
186
cantidad de unidades producidas de un artculo concreto, el resultado se muestra a
continuacin:
Taller 1 70 60 70 40
Taller 2 110 70 50 50 70
Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos
talleres es la misma. ) 05 . 0 ( = .
SOLUCIN:
muestras
ordenadas
1
4
( ) F x
2
5
( ) F x
1 2
4 5
( ) ( ) F x F x
1 2
4 5
( ) ( ) F x F x
40 =0,25 0 0,2500 0,2500
50 =0,25 2/5=0,4 -0,1500 0,1500
60 2/4=0,5 2/5=0,4 0,1000 0,1000
70 1 4/5=0,8 0,2000 0,2000
110 1 1 0,0000 0,0000

1 2
4 5
1
max ( ) ( ) 0, 25
4
exp
D F x F x = = =
(0,05)
4
0,8
5
T bilateral
D = =
Se acepta que la productividad de los dos talleres de artesana es la misma dado que
exp T
D D <

8. (ejercicio 23, relacin tema 11) Se desea contrastar si determinados incentivos a la
productividad son efectivos. Para ello un equipo de expertos somete a observacin el
comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno
de ellos una puntuacin entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la
observacin sobre otros 5 trabajadores tambin seleccionados al azar. El resultado de
ambas fue
No incentivos 70 80 70 70 60
Incentivos 80 100 70 90 80
Realice un contraste de Kolmogorov-Smirnov. ( 05 . 0 = )
SOLUCIN:
muestras
ordenadas
1
5
( ) F x
2
5
( ) F x
1 2
5 5
( ) ( ) F x F x
1 2
5 5
( ) ( ) F x F x
60 1/5=0,2 0 1/5=0,2 1/5=0,2
70 4/5=0,8 1/5=0,2 3/5=0,6 3/5=0,6
80 1 3/5=0,6 2/5=0,4 2/5=0,4
90 1 4/5=0,8 1/5=0,2 1/5=0,2
100 1 1 0,0 0,0
1 2
5 5
3
max ( ) ( ) 0, 6
5
exp
D F x F x = = =
(0,05)
3
0, 6
5
T unilateral
D = =
187
Se acepta que los incentivos a la productividad no son efectivos dado que si
exp T unilateral
D D no se rechaza la hiptesis nula de que las dos poblaciones (con incentivos
y sin incentivos) tienen el mismo comportamiento.

9. (ejercicio 24, relacin tema 11) Se realiza una encuesta entre 7 familias de un barrio para
conocer la cantidad mensual (en euros) dedicada a las cuotas de utilizacin de
determinados programas de televisin pago por visin. Pasados tres meses se encuestan
otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hiptesis de
que la cantidad mensual dedicada al pago por visin no ha cambiado significativamente
(utilice el contraste de Kolmogorov-Smirnov, 0, 05 = ).
Primera encuesta 30 20 0 50 40 30 30
Tres meses despus 20 20 10 60 0 30 20
SOLUCIN:
muestras
ordenadas
1
7
( ) F x
2
7
( ) F x
1 2
7 7
( ) ( ) F x F x
1 2
7 7
( ) ( ) F x F x
0 1/7=0,1429 1/7=0,1429 0,0000 0,0000
10 1/7=0,1429 2/7=0,2857 -1/7=-0,1429 1/7=0,1429
20 2/7=0,2857 5/7=0,7143 -3/7=-0,4286 3/7=0,4286
30 5/7=0,7143 6/7=0,8571 -1/7=-0,1429 1/7=0,1429
40 6/7=0,8571
6/7=0,8571
0,0000 0,0000
50 1
6/7=0,8571
1/7=0,1429 1/7=0,1429
60 1 1 0,0000 0,0000
1 2
7 7
3
max ( ) ( ) =0,4286
7
exp
D F x F x = =
(0,05)
5
0, 7143
7
T bilateral
D = =
Se acepta la hiptesis de que la cantidad mensual dedicada al pago por visin no ha
cambiado dado que
exp T bilateral
D D <

188
189


















EJERCICIOS





190
2. Muestreo Aleatorio Simple


1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga
que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas
fue 1.040 y = y la varianza muestral (cuasivarianza) es S
2
=45.000
2
. Estime el
promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con
un intervalo de confianza al 95%.
Solucin: ( ) ( ) 1.040 20, 49 1.019, 51 , 1.060, 49 =
( ) ( ) 1.040.000 20.490 1.019.510 , 1.060.490 =
2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes
para estimar
La proporcin que votarn a un determinado representante de centro.
La proporcin de ellos que tienen algn tipo de trabajo.
Sean , ( 1,...,100)
i i
y z i = las respuestas del i-simo estudiante seleccionado ( 0
i
y =
cuando responden NO, 1
i
y = cuando responden SI, anlogamente para
i
z ).
Segn la muestra
100 100
1 1
70 25
i i
i i
y z
= =
= =


Usando los datos de la muestra, estime
1
p (proporcin de estudiantes que votarn a un
determinado representante)
2
p (proporcin y nmero de estudiantes con algn tipo de
trabajo) y los lmites para los errores de estimacin correspondientes.
Solucin

100 100
1 1
1 2
0, 70 (70%) 0, 25 (25%)
100 100
i i
i i
y z
p p
= =
= = = =



1 2
2 ( ) 0, 0868 (8, 68%) 2 ( ) 0, 0821 (8, 21%) V p V p = =

2 2
2
900 0, 25 225 2 ( ) 900 0, 0821 73, 89 N p V = = = = =


3. Encuentre el tamao de muestra necesario para estimar el valor total de 1.000 cuentas por
cobrar con un lmite para el error de estimacin de 10.000. Aunque no se cuenta con
datos anteriores para estimar la varianza poblacional pero se sabe que la mayora de las
cuentas caen dentro del intervalo (600, 1.400).
Solucin: 615, 62 616 n =
4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta
para determinar la proporcin de estudiantes que estn a favor de hacer exmenes en
191
sbado con un lmite para error de estimacin del 10%. La informacin previa disponible
indica que el 60% preferan los exmenes en sbado. Tambin se quiere estimar la
proporcin de estudiantes que apoyan al equipo decanal con un error mximo de
estimacin del 5%. Determinar el tamao muestral que se requiere para estimar ambas
proporciones con los lmites de error especificados.
Solucin: 354 04 , 353 = n
5. Un dentista est interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000
nios de escuela particip en el estudio. Los registros de un estudio anterior mostraron que
haba un promedio de 2,2 caries cada seis meses para el grupo. Despus de un ao de
iniciado el estudio, el dentista muestre 10 nios para determinar cunto haban
progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:
Nio
Nmero de caries
en seis meses
1 0
2 4
3 2
4 3
5 2
6 0
7 3
8 4
9 1
10 1
Se puede decir que la incidencia media de las caries ha disminuido?
Solucin: ( ) No 94 , 2 , 06 , 1 2 , 2
6. Un psiclogo desea estimar el tiempo de reaccin medio para un estmulo en 200
pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria
simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reaccin, con
los resultados siguientes: 1 , 2 = y segundos y 4 , 0 = S segundos. Estime la media poblacional
y establezca un lmite para el error de estimacin.
Solucin: 1697 , 0 ; 1 , 2 = = B
7. En un estudio sociolgico, realizado en una pequea ciudad, se hicieron llamadas
telefnicas para estimar la proporcin de hogares donde habita por lo menos una persona
mayor de 65 aos de edad. La ciudad tiene 621 hogares, segn la gua de telfonos ms
reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la gua. Al
terminar la investigacin de campo, de los 60 hogares muestreados, en 11 habita al menos
una persona mayor de 65 aos. Estime la proporcin poblacional y establezca un lmite
para el error de estimacin.
192
Solucin: 0958 , 0 ; 1833 , 0 = = B p
8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un
operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron
aleatoriamente 5 operadores y se les tom el tiempo. Los resultados obtenidos son los
siguientes:
Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3
Se puede aceptar la hiptesis de que el tiempo medio que necesitan los operarios del
taller para terminar dicha tarea es inferior a 6 minutos?
Solucin: ( ) . . : 3, 91min., 6, 61min. INTERV CONF Valores mayores e igual a 6 minutos
pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hiptesis.
9. Un investigador est interesado en estimar el nmero total de rboles mayores de un cierto
tamao especfico en una plantacin de 1.500 acres. Esta informacin se utiliza para
estimar el volumen total de madera en la plantacin. Una muestra aleatoria simple de 100
parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relacin con el
nmero de rboles de tamao grande. La media muestral para las 100 parcelas de 1 acre
fue 2 , 25 = y rboles, con una varianza muestral de 136
2
= S . Estime el nmero total de
rboles de tamao grande en la plantacin. Establezca un lmite para el error de
estimacin.
Solucin: 9408 , 379 . 3 ; 800 . 37 = = B
10. Usando los datos del ejercicio anterior, determine el tamao de muestra requerido para
estimar el nmero total de rboles grandes en la plantacin, con un lmite para el error de
estimacin de 1.500 rboles.
Solucin: 400 413 , 399 = n
11. Con objetivos benficos, una asociacin filantrpica ha solicitado firmas para una peticin
en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las
hojas se ha obtenido un nmero menor. Contando el nmero de firmas por hoja en una
muestra aleatoria de 50 hojas se han observado los siguientes resultados:
50 50
2
1 1
1.450; 54.496
i i
i i
Y Y
= =
= =


Cul sera la previsin ms optimista y ms pesimista en cuanto al nmero total de
firmas recogidas para la peticin?
Solucin: ( ) ( ) 20.300 3.040, 66 17.259, 34 , 23.340, 66 =
Previsin ms optimista: 23.340 ; previsin ms pesimista: 17.259
193
12. Una muestra aleatoria de 30 familias fue extrada de una zona de cierta ciudad que
contiene 14.848 familias. El nmero de personas por familia en la muestra obtenida fue el
siguiente:
5 6 3 3 2 3 3 3 4 4 3 2 7 4 3
5 4 4 3 3 4 3 3 1 2 4 3 4 2 4
Estimar el nmero total de personas en la zona, construyendo un intervalo de confianza al
95%.
Solucin: ( ) 04 , 104 . 58 , 09 , 842 . 44
13. Un hipermercado desea estimar la proporcin de compras que los clientes pagan con su
Tarjeta de Compras. Durante una semana observaron al azar 200 compras de las cuales
35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas con dicha tarjeta.
b) Cuantas compras deberan observarse para estimar, con un error inferior al 3%, la
proporcin de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Este mismo hipermercado desea estimar tambin el valor medio de las compras realizadas
con su Tarjeta de Compras. Basndose en los anteriores datos observa que el valor total
de las compras hechas con la tarjeta fue de 5.600 (siendo la cuasivarianza de los datos
625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimacin
asociado.
Solucin: a) ( ) 12,11%, 22, 89% p . b) 641, 6 642
pq
n
D
= =

.
c)
1
1 5600
160
35
n
i
i
y y
n
=
= = =

2 ( ) 8, 45 B V y = =
14. Entre todas las oficinas bancarias de una pequea ciudad se tienen concedidos 2000
prstamos hipotecarios. Existen razones para pensar que el prstamo hipotecario de menor
cuanta es de algo ms de 1200 euros, siendo de casi 11000 euros el de mayor cuanta.
cul es el tamao muestral necesario para estimar estos dos parmetros:
- la cuanta media de los prestamos cometiendo un error de estimacin menor de 400
euros y
- la proporcin de prstamos pendientes de amortizar ms de la mitad de la deuda
cometiendo un error mximo del 5%?
Solucin: 139, 65 140 333, 47 334 n n = =
194
15. Se desea estimar el salario medio entre los empleados de una empresa y la proporcin de
empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que
el salario est comprendido entre los 1500 y 1800 euros mensuales. Cul debe ser el
tamao muestral para que al estimar el salario medio la cota de error se site en 10 euros y
al estimar la proporcin de los que apoyan a la actual directiva el error mximo cometido
sea del 2%?
Solucin: 74,1 75 n = 105, 4 106 n =
16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en
el registro mercantil. El nmero de bajas en el ltimo ao, el nmero de empleados y la
respuesta de cada empresa sobre si utilizara los servicios de la empresa de trabajo
temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. Calcule
el lmite para el error de estimacin.
b) Estime el nmero de empresas que usaran los servicios ofertados. Calcule el
lmite para el error de estimacin.
Solucin: a)

70 2 ( ) 71, 2741 N y B V = = = =


b)

10 2 ( ) 10, 9545 N p B V = = = =


17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los ms de cien mil
habitantes de una ciudad para conocer su opinin sobre los nuevos impuestos municipales.
655 manifestaron su opinin desfavorable. Estime la proporcin de vecinos que estn en
contra de los nuevos impuestos y establezca el lmite para el error de estimacin. Se
puede afirmar que la mayora de los habitantes estn en contra?
Solucin: (62, 49%, 68, 51%) 50% ... p p si se puede afirmar >
18. El Centro de Estadstica desea estimar el salario medio de los trabajadores de los
invernaderos de una regin. Se decide clasificarlos en dos estratos, los que poseen contrato
fijo y los que tienen un contrato temporal. El salario de los contratos fijos est
comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos
temporales est comprendido entre 500 y 1.700 euros mensuales. Cul debe ser el tamao
muestral total y su asignacin para que se estime el salario medio de los contratos fijos con
195
un error inferior a 100 y el salario medio de los contratos temporales con un error inferior
a 120?
Solucin:
1
25 n =
2
25 n =
1 2
50 n n n = + =
19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el
valor medio de las compras por cliente.
VALOR en
33,5 32 52 43 40 41 45 42,5 39
a) Obtener un intervalo de confianza para el valor medio de las compras.
b) Podemos aceptar que la compra media es de 45?
c) Qu tamao muestral deberamos tomar para que el LEE sea de 2?
Solucin: a) ( ) ( ) 40, 89 3, 98 ; 40, 89 3, 98 36, 91; 44, 87 + =
b) No porque ( ) 45 36, 91; 44, 87 c) 35, 67 36 n compras =
20. En un estudio sociolgico, realizado en una pequea ciudad, se hicieron llamadas
telefnicas para estimar la proporcin de hogares donde habita por lo menos una persona
mayor de 65 aos de edad. La ciudad tiene 5000 hogares, segn la gua de telfonos ms
reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la gua. Al
terminar la investigacin de campo, de los 300 hogares muestreados, en 51 habita al
menos una persona mayor de 65 aos. Contraste la hiptesis de que en el 25% de los
hogares de esa ciudad habita al menos una persona mayor de 65 aos.
Solucin: ( ) ( ) 25% 17% 4, 21% 12, 79%, 21, 21% = luego se rechaza la hiptesis de
que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
aos.
21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km.
Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un
dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20
taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de
combustible por cada 100 Km se recoge en la siguiente tabla
Taxi n Consumo Taxi n Consumo Taxi n Consumo Taxi n Consumo
1 5,4 6 6,3 11 3,6 16 5,4
2 5,5 7 5,4 12 6,7 17 4,8
3 6,9 8 5 13 5,2 18 4,7
4 3,9 9 4,5 14 5,1 19 5,8
5 4,5 10 4,4 15 5,4 20 6,2
a) Estmese mediante un intervalo de confianza la proporcin de taxis con un
consumo inferior a 5,6 litros/100 Km.
b) Cuantos taxis deben observarse para estimar la anterior proporcin con un error
menor o igual que un 10%?
196
Solucin: (a) ( ) 55' 47%, 94' 53% (b) 66, 77 67 n =



3. Muestreo Aleatorio Estratificado


1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un
ao de un determinado producto en una comarca formada por cuatro municipios. Para
estimar de paso tambin el consumo en cada municipio decide usar muestreo estratificado
tomando cada municipio como un estrato. Se sabe que el 20% de la poblacin de la
comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el
25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y
obtener datos sobre el consumo anual de 20 hogares.
Dado que no tiene informacin previa respecto a las varianzas de los estratos y porque el
coste del muestreo es el mismo en cada municipio, aplica asignacin proporcional, la cual
conduce a
1
1
20 0, 20 4
N
n n
N
= = = de forma similar
2 3 4
6 5 5 n n n = = = .
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
Estrato 1 Estrato 2 Estrato 3 Estrato 4
470
510
500
550
490
500
470
520
550
500
540
480
500
470
470
450
560
460
440
580
2
1 1
507, 5 1091, 67 y S = =
2
2 2
505 750 y S = =
2
3 3
492 870 y S = =
2
4 4
498 4420 y S = =
Estime el consumo anual medio por hogar y fije un lmite para el error de estimacin.
Solucin:
4
1
500, 5
i
st i
i
N
y y
N
=
= =

2 ( ) 18, 79
st
V y =
2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al
por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es
complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio
de las facturas de la empresa (Nota para estimar el total necesitaramos conocer N). Una
muestra aleatoria simple present 70 facturas al por mayor y 30 al por menor. Los datos
197
son separados en facturas al por mayor y al por menor despus del muestreo, con los
siguientes resultados en :
Por mayor Por menor
Valor total facturas=36400
1 1 1
70 520 210 n y S = = =
Valor total facturas=8400
2 2 2
30 280 90 n y S = = =
Estime el valor medio de las facturas de la empresa, y fije un lmite para el error de
estimacin.
Solucin: 376; 28,14
st
y B = =
3. Una inspectora de control de calidad debe estimar la proporcin de circuitos integrados de
ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella
sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la
operacin de ensamble A y 40% de la operacin de ensamble B. En una muestra aleatoria
de 100 circuitos integrados resulta que 20 provienen de la operacin A y 80 de la
operacin B. De entre los circuitos integrados muestreados de la operacin A, 2 son
defectuosos. De entre las piezas muestreadas de la operacin B, 16 son defectuosas.
a) Considerando nicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporcin de los defectuosos en el lote, y establezca un
lmite para el error de estimacin.
b) Estratifique la muestra, despus de la seleccin, en circuitos integrados
provenientes de la operacin A y B, estime la proporcin de los defectuosos en
la poblacin, y fije un lmite para el error de estimacin.
c) Qu respuesta encuentra ms aceptable? Por qu?
Solucin:
a.

18
0,18 (18%)
100
p = =

( ) 2 ( ) 0, 0772 7, 72% V p =
b.

( )
1 1
1 2 16
0, 60 0, 40 0,14 14%
20 80
L L
i
i st i i
i i
N
p N p p
N N
= =
| | | |
= = = + =
| |
\ . \ .



( ) 2 ( ) 0, 0901 9, 01%
st
V p =
c) Aunque en el conjunto de la poblacin hay ms elementos que proceden de A (60%)
que de B (40%), la muestra global no representa adecuadamente este hecho,
predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el
apartado a. la estimacin est sesgada hacia el valor de B (

2
0, 20 p = ) frente al de A
198
(

1
0,10 p = ). En el apartado b. este hecho se corrige dando a

1
p y

2
p las
ponderaciones 0,60 y 0,40 respectivamente para estimar p.
4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30
en Sevilla. La direccin est considerando aadir un nuevo producto en el men. Para
contrastar la posible demanda de este producto, lo introdujo en el men de muestras
aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los ndice
1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las
desviaciones tpicas muestrales del nmero de pedidos de este producto recibidos por
restaurante en las tres ciudades durante una semana fueron:
1 1
2 2
3 3
21, 2 12
13, 3 11
26,1 9
y S
y S
y S
= =
= =
= =

a) Estimar el nmero medio de pedidos semanales por restaurante para los
restaurantes de la cadena. Dar un lmite del error de estimacin.
b) Determinar el tamao muestral y la asignacin para repetir el estudio anterior
cometiendo un error inferior a 3 pedidos.
Solucin:
a.
1
1 3834
19,17 /
200
L
i st i
i
y N y pedidos semana
N
=
= = =

2 ( ) 5, 02 /
st
V y pedidos semana =
b.
2
9
2, 25
4 4
B
D = = =
2
1
2 2
1
43, 52
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
= =
+


1 2 3
23, 31 24 14, 96 15 5, 24 6 45 n n n n = = = =
5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de
dos aos y 1.031 estudios universitarios de cuatro aos. Se recogieron de manera
independiente, una muestra aleatoria simple de 40 universidades con estudios de dos aos
y otra de 60 con estudios de 4 aos. Las medias muestrales y las desviaciones tpicas del
nmero de estudiantes matriculados el pasado ao en asignaturas de estadstica aparecen a
continuacin.
Carreras de 2 aos Carreras de 4 aos
Media 154,3 411,8
Desviacin tpica 87,3 219,9
199
a) Estimar el nmero total de estudiantes matriculados en asignaturas de estadsticas. Dar
un lmite de error de estimacin.
b) En el estudio del ejercicio anterior, se investig tambin en qu proporcin de las
universidades la asignatura de estadstica para economistas era impartida por
miembros del departamento de economa. En la muestra se hall que en 7 de las
universidades con carreras de dos aos y en 13 de las que tienen carreras de cuatro
aos suceda esto. Estimar la proporcin de universidades en las que esta asignatura es
impartida por profesores del departamento de economa. Dar un lmite de error de
estimacin.
Solucin: (a) 84 , 594 . 57 ; 731 . 480 = = B
st
(b) 0826 , 0 ; 2058 , 0 = = B p
st

6. Una compaa de autobuses est planeando una nueva ruta para dar servicio a cuatro
barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicit a los
miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5
(totalmente a favor) su opinin sobre el servicio propuesto. Los resultados se resumen en
la tabla adjunta:
Barrio
1 2 3 4
i
N
240 190 350 220
i
n
25 25 25 25
i
y
3,5 3,6 3,9 3,8
i
S
0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinin media de los hogares que dispondrn
del nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuntos
perteneceran al barrio 3. (Suponga iguales los costes de observacin)
Solucin: (a) 3, 725; 0,1973; (3, 5277 ; 3, 9223)
st
y B = = (b)
3
44, 82 45 n =
7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208
profesores titulares. Una reportera del peridico de los estudiantes quiere averiguar si los
profesores estn realmente en sus despachos durante las horas de tutoras. Decide
investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos
estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus
horas de tutoras. Se hall que 31 de los profesores ayudantes, 29 de los asociados y 34 de
los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza
para la proporcin de profesores que permanecen en sus despachos durante las horas de
tutoras.
Solucin: 0685 , 0 ; 7214 , 0 = = B p
st

200
8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compaa. La
poblacin se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
respectivamente. Basndose en una experiencia previa, se estima que las desviaciones
tpicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el
tamao muestral y la asignacin para estimar el valor medio de las facturas por cobrar
cometiendo un error de como mucho 5 euros.
Solucin: 55 , 80 ; 83 , 19 ; 31 , 22 ; 83 , 19 ; 59 , 18
4 3 2 1
= = = = = n n n n n
9. Un ayuntamiento est interesado en ampliar las instalaciones de un centro de atencin
diurna para nios. Se va a realizar una encuesta para estimar la proporcin de familias con
nios que utilizarn las instalaciones ampliadas. Las familias estn dividas en aquellas que
en la actualidad usan las instalaciones y las que an no la usan. Aproximadamente el 90%
de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas
instalaciones. Los costos por efectuar la observacin de un cliente actual es de 4 y de 8
para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la
actualidad utilizan las instalaciones y 145 que no lo hacen.
a) Encuentre el tamao muestral aproximado y la asignacin necesaria para estimar la
proporcin poblacional con un lmite de 0,05 para el error de estimacin.
b) Suponga que el costo total de muestreo se fija en 400 . Elija el tamao de la
muestra y la asignacin que minimiza la varianza del estimador para este costo fijo.
Solucin: (a)
1 2
47; 83; 130 n n n = = = (b) 61 ; 39 ; 22
2 1
= = = n n n
10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefaccin elctrica. Al
realizar una encuesta sobre el consumo de energa (en kilovatios-hora) se obtuvieron los
siguientes resultados:
Tipo Calefaccin N casas Media muestral Cuasivarianza muestral
Elctrica 24 972 202,396
No elctrica 36 463 96,721
a) Obtenga una estimacin del nmero medio de kilovatios-hora utilizado en la ciudad.
D un lmite para el error de estimacin.
b) Obtenga una estimacin del nmero medio de kilovatios-hora utilizado por las casas
que no tienen calefaccin elctrica. D un lmite para el error de estimacin.
Solucin: a. 701, 50
st
y = 2 2,19 2, 96 = b.
2
463 y = 2 2,17 2, 94 =
11. Un analista de la opinin pblica tiene un presupuesto de 20.000 euros para realizar una
encuesta sobre el nmero medio de coches por hogar. Se sabe que de los 10.000 hogares
de la ciudad, 9.000 tienen telfono. Las entrevistas por telfono cuestan 10 euros por
hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga
201
que las varianzas en los estratos con y sin telfono son iguales. Con el objetivo de
minimizar el lmite de error de estimacin Cuntos hogares deben ser entrevistados en
cada estrato si los hogares que cuentan con servicio telefnico son entrevistados por
telfono y los hogares sin telfono son entrevistados personalmente?
Solucin:
1 2 1 2
1677, 2 1677 107, 59 107 1784 n n n n n = = = + =
12. Se desea conocer el nmero de fines de semana que las familias de una gran ciudad salen
fuera de ella. Se sabe que el 425% de las familias tienen de 0 a 2 hijos, el 30% tienen de
3 a 5 hijos y el 275% tienen ms de 5 hijos. Se realiz un muestreo segn el nmero de
hijos y se pregunt a las familias sobre los fines de semana que pasan fuera, obtenindose
los siguientes datos:
Nmero de hijos
i
n

=
n
i
i
y
1
2
i
S
0-2 25 239 6076
3-5 19 174 6301
Mas de 5 16 78 7824
Estimar el nmero medio de fines de semana que las familias pasan fuera de la ciudad y
dar el lmite de error de estimacin. Omitir el corrector por poblacin finita. Solucin:
8,15
st
y = 2 1,107 2,1 =
13. En una poblacin compuesta por aproximadamente igual nmero de hombres que de
mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la
encuesta por telfono mediante una muestra aleatoria simple de 500 nmeros de telfono
del citado municipio. Despus de obtenidos los datos se observa que slo 100 de los
encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una
estratificacin despus de seleccionar la muestra obtenindose los siguientes datos
HOMBRES MUJERES
i
N 2.500 2.700
i
n 100 400
i
y
120 250
2
i
S
9.000 16.000
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado despus de seleccionar la muestra.
Solucin: 187, 5
st
y = 2 29,16 10, 8 =
14. En una poblacin compuesta por aproximadamente igual nmero de hombres que de
mujeres se desea estimar la proporcin de individuos que ven un determinado programa
de televisin. Se lleva a cabo la encuesta por telfono mediante una muestra aleatoria
simple de 300 nmeros de telfono. Despus de obtenidos los datos se observa que slo
202
50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo
una estratificacin despus de seleccionar la muestra obtenindose los siguientes datos
HOMBRES MUJERES
Encuestados 50 250
Ven el programa 12 130
Estime la proporcin de la poblacin que ven el programa de televisin y su cota de error,
mediante muestreo aleatorio estratificado despus de seleccionar la muestra.
Solucin:

0, 38 38%
st st
p p = =

2 ( ) 0, 0687 6, 87%
st
V p =
15. Una corporacin desea estimar el nmero total de horas perdidas debido a accidentes de
sus empleados, en un determinado mes. Ya que los obreros, tcnicos y administrativos
tienen diferentes tasas de accidentes, la corporacin decide usar muestreo estratificado,
formando con cada grupo un estrato. Datos de aos previos sugieren las cuasivarianzas
mostradas en la siguiente tabla para el nmero de horas perdidas por empleado en los tres
grupos, y de datos actuales se obtienen los tamaos de los estratos. No habiendo
diferencia entre los costes de observacin de cada grupo, determine la mejor asignacin
para una muestra de 40 empleados.
Obreros Tcnicos Administrativos
2
i
S 36 25 9
i
N
132 92 27
Solucin:
1 2 3
40 0, 5941 23, 8 24 40 0, 3451 13,8 14 40 0, 0608 2, 4 2 n n n = = = = = =
16. Se dispone de la siguiente informacin sobre tamaos poblacionales de los estratos, costes
de observacin y estimaciones de las proporciones
Tamao del estrato Coste de observacin Proporciones en %
ESTRATO 1 5000 9 90
ESTRATO 2 2000 25 55
ESTRATO 3 3000 16 70
Determine la mejor asignacin para una muestra de 200 observaciones.
Solucin:
1 2 3
200 0, 4795 95, 9 96 200 0,1909 38, 2 38 200 0, 3296 65, 9 66 n n n = = = = = =

17. En una ciudad se sabe que el 30% de los hogares tienen calefaccin elctrica. Al realizar
una encuesta sobre el consumo de energa (valor en euros de la factura bimensual) se
obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica 60 5730 200
No elctrica 40 2080 90
203
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D un
lmite para el error de estimacin.
Solucin:
2 2
1 1
1
65, 05
i
i st i i
i i
N
y N y y
N N
= =
= = =

2 ( ) 25,24
st
V y =
18. Para la comercializacin de un producto se le clasifica, atendiendo al calibre, en tres
categoras: pequea, mediana y grande. Un establecimiento dispone de 300 piezas
pequeas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto
almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las
categoras, resultando
Categora N de piezas Peso en gramos
Pequea 5 12, 14, 12, 15, 12
Mediana 6 16, 22, 24, 20, 20, 18
Grande 4 30, 33, 31, 34
Considerando los anteriores datos como una muestra previa, obtenga el nmero de
unidades que cada categora debe aportar a la muestra para que el error en la estimacin
del peso total no supere el medio kilo.
Solucin:
2
2
250.000
0, 0625
4 4.000.000
B
D
N
= = =
2
1
2 2
1
71, 66
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
= =
+


1 2 3
13, 79 14 45, 99 46 11, 87 12 72 n n n n = = = =
19. La produccin de piezas de una factora se realiza en dos mquinas. El 40% de las piezas
las produce la mquina A y el 60% restante la mquina B. Se les pas control de calidad a
200 piezas; 67 producidas por la mquina A y dos de ellas resultaron defectuosas; las 133
restantes procedan de la mquina B, siendo 6 de ellas defectuosas. Estime la proporcin
de piezas defectuosas de la factora y d el lmite del error de estimacin. Omita el
coeficiente corrector por poblacin finita.
Solucin: % 74 , 2 %; 9 , 3 = = B p
20. Una empresa especializada en seguros est pensando en ofrecer sus servicios a las
empresas de los polgonos industriales de una ciudad. Para ajustar sus tarifas desea
estimar el gasto de dichas empresas en pequeas reparaciones de mantenimiento (objeto
del seguro). Se clasifican las empresas en funcin de su tamao. El nmero de empresas
de cada tipo, el coste de obtencin de esta informacin en cada empresa as como los
valores mnimos, medios y mximos de un estudio similar hecho hace dos aos se
expresan en la siguiente tabla (los costes y gastos estn expresados en euros)
204
Tipo de
empresa
Nmero de
empresas
Costes de
observacin
Gastos de reparacin
Mnimo Media Mximo
A 100 16 400 500 600
B 500 9 240 300 360
C 700 4 70 100 130
Si la empresa de seguros dispone de hasta 600 para llevar a cabo la estimacin, cuntas
empresas de cada tipo tiene que observar para conseguir que sea mnimo el error de
estimacin asociado?
Solucin: ) 578 4 36 9 34 6 8 ( 78 ; 36 ; 34 ; 8
3 2 1
= + + = = = = x x x n n n n
21. En un centro escolar se quiere realizar una encuesta para conocer la proporcin de padres
que estaran dispuestos a participar en actividades. Se quiere estimar la proporcin de
padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se
decide estratificar segn la edad de los alumnos. A partir de la informacin proporcionada
por la siguiente tabla, obtener el nmero ptimo de padres que, de cada estrato, hay que
encuestar para que la proporcin de participacin de los padres con hijos de edades entre 6
y 8 aos sea estimada con un error menor o igual al 10%. (Suponemos que cada padre
tiene un solo hijo en el centro)
Aos Alumnos
matriculados
Porcentaje de participacin en aos
anteriores
Coste de encuestar a un
elemento
4-6 150 40% 4
6-8 130 30% 9
8-12 120 25% 16
12-14 100 20% 25
Sol. 21 65 , 20 ; 34 53 , 33 ; 52 27 , 51 ; 95 84 , 94 ; 3 , 200
4 3 2 1
= = = = = n n n n n 202 = n
22. El coste de transportar mercancas en avin depende del peso. Un determinado embarque
de una fbrica consista en las mquinas producidas por la citada fbrica a lo largo de las
dos ltimas semanas. Se decide estratificar basndose en las semanas, con el fin de
observar si existe variacin semanal en la cantidad producida. Las muestras aleatorias
simples de los pesos (en kilos) de las mquinas transportadas en el embarque, para las dos
semanas, mostraron las siguientes mediciones:
Semana A Semana B
58,3 59,2
60,4 60,1
59,3 59,6
58,7 59,2
59,1 58,8
59,6 60,5
205
a. Estimar el peso total del embarque de maquinaria, sabiendo que el nmero total de
mquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.
b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.
c. Determinar el tamao de la muestra y su asignacin, en el caso de que se quiera
estimar el peso total del embarque, con un lmite para el error de estimacin de 50
kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.
Considere las muestras anteriores como muestras previas para estimar los
parmetros necesarios.
Solucin: (a) 13 , 722 . 19 = (b) ) 56 ' 850 . 19 , 71 ' 593 . 19 (
(c) 67 32 30 , 31 ; 35 37 , 34 ; 67 , 65
2 1
= = = = n n n n
23. Una cadena de almacenes est interesada en estimar la proporcin de cuentas no cobradas.
La cadena est formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se
usa muestreo aleatorio estratificado, con cada tienda como un estrato.
Estrato I Estrato II Estrato III Estrato IV
N cuentas por cobrar
65
1
= N 42
2
= N 93
3
= N 25
4
= N
Tamao muestra
14
1
= n 9
2
= n 21
3
= n 6
4
= n
N cuentas no cobradas 4 2 8 1
a. Estime la proporcin de cuentas no cobradas para la cadena y fije un lmite para el
error de estimacin.
b. Utilice los datos anteriores para determinar la asignacin y el tamao de la muestra
necesarios para estimar la proporcin de cuentas no cobradas, con un lmite del
error de estimacin del 5%.
Solucin: (a) 1173 , 0 ; 30 , 0 = = B p
(b) 13 17 , 12 ; 59 98 , 58 ; 23 80 , 22 ; 39 35 , 38 ; 30 , 132
4 3 2 1
= = = = = n n n n n 134 = n
24. Una escuela desea estimar la calificacin media que puede obtener en el examen final de
matemticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos segn
el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el
presente curso, la distribucin de los alumnos segn el tipo de aprendizaje es 50 normal,
30 avanzado y 20 lento, la calificacin media de los estudiantes segn el tipo de
aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70
para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente.
Para actualizar esta informacin, se tom una muestra aleatoria de estudiantes, se les hizo
el examen final de matemticas y se obtuvieron las siguientes calificaciones (entre
parntesis, el tipo de aprendizaje de cada estudiante):
206
70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)
91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)
Se pide:
a. Estime la calificacin media en el examen final de matemticas. De una medida del
error de estimacin.
b. Qu ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados
de ambos mtodos de estimacin, as como determine la ganancia en precisin.
c. Se desea mejorar la estimacin de la nota media del examen final en matemticas,
teniendo en cuenta ms informacin. Usando estos resultados como muestra
previa, qu tamaos muestrales en cada estrato son necesarios para un error
mximo admisible de 2 puntos, utilizando asignacin proporcional.
d. Estime, con un intervalo de confianza, el nmero de estudiantes con aprendizaje
normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la
muestra, qu tamao de muestra sera necesario para que esta misma estimacin
tuviera un error mximo admisible de 10 estudiantes?
Solucin: (a) 78, 59; 3, 21 B = = (b) 25 , 4 ; 53 , 77 = = B
(c) 38 8 26 , 7 ; 11 89 , 10 ; 19 15 , 18 ; 31 , 36
3 2 1
= = = = = n n n n n
(d) 17 8 , 16 ); 69 , 43 , 87 , 11 ( = n
25. Se desea estimar el salario medio de los empleados de una empresa. Se decide
clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato
temporal. Los primeros son 143 y su salario vara entre 1500 y 2500 euros mensuales. Los
contratos temporales son 320 y su salario est comprendido entre 700 y 1800 euros
mensuales. Cul debe ser el tamao de la muestra y su asignacin para que al estimar el
salario medio mensual el error de estimacin sea inferior a 100 euros?
Solucin:
1 2
26, 91 7, 77 8 19,14 20 28 Neyman n n n n = = = =






207
4. Estimacin de Razn, Regresin y Diferencia


1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha
ciudad, va declaracin de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una
encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen
en esta tabla.
Renta Consumo
1.702,44 1.204
1.339,56 1.000
981,06 800
2.537,04 1.800
1.519,85 1.200
3.080,19 2.600
1.502,53 1.080
1.702,87 1.240
1.402,36 1.000
1.803,04 1.400
2.053,46 1.484
3.005,06 2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razn. De el LEE.
Solucin: 1.116.002, 07; 59.053, 37
y
B = =
2. Mediante una tasacin previa se desea estimar la produccin media y la produccin total
de los 750 socios de una cooperativa agrcola. Se sabe que el total de superficie plantada
es de 3.840 hectreas. Se realiz un sorteo entre los socios para elegir a 20 de ellos a los
que se les pregunt por la superficie plantada y se les tas su produccin. Los resultados
fueron:
Superficie Produccin
3,7 12
4,3 14
4,1 11
5 15
5,5 16
3,8 12
8 24
5,1 15
5,7 18
6 20
3 8
7 20
5,4 16
4,4 14
208
5,5 18
5 15
5,9 18
5,6 17
5 15
7,2 22
a) Estimar la produccin media y total mediante los estimadores de razn y m.a.s. Dar
sus respectivos LEE y compararlos.
b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del
total no debe superar las 200 toneladas a cuntos socios se les debe tasar su
produccin antes de realizar una nueva estimacin?
Solucin:
(a) : 15, 57 ; 0, 37 ; 11.680, 61 ; 278,14
y y
razn tm B tm tm B tm

= = = =
. . . : 16 ; 1, 69 ; 12.000 ; 1.265, 76 ma s y tm B tm tm B tm

= = = = =
(b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el mximo
n=43.
3. Para un grupo de 1.000 pequeos establecimientos se desea realizar un estudio sobre la
media y el total de ventas diarias. Se tiene informacin de que, por trmino medio, el
gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se
les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son:
Gastos Ventas
3,7 120
4,3 140
4,1 135
5 150
5,5 160
3,8 120
8 160
5,1 150
5,7 125
6 130
0 80
7 150
5,4 150
4,4 120
5,5 140
5 150
5,9 150
6,6 170
a) Estimar la media y el total de ventas diarias utilizando estimadores de
regresin. Dar LEE.
209
b) Se quiere repetir el estudio anterior de forma que la estimacin del total no
supere los 1.000 euros cul debe ser el tamao muestral?
Solucin: (a) 76 , 559 . 5 ; 38 , 314 . 138 ; 56 , 5 ; 31 , 138 = = = =

B B
yL yL

(b) 362 67 , 361 = n establecimientos
4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.
Se tiene informacin de que los ingresos medios diarios son de 500 euros. Se elige al azar
una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obtenindose:
Ingresos Gastos
470 405
650 585
710 650
300 240
475 410
505 435
610 550
380 320
540 480
520 460
a) Estime el gasto medio y el gasto total diario para los 200 establecimientos
utilizando muestreo aleatorio simple, estimadores de razn, regresin y
diferencia. Obtenga el LEE en cada caso.
b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y
cometiendo un error mximo de 300 euros al estimar el total cul debe ser el
tamao muestral?
Solucin: (a)
Muestreo aleatorio simple
453, 5 90.700

B 2 V( ) 75,20 B 200 B =15.040,97


y Ny

= = = =
= = =

Estimadores de razn
0, 879 87.900 439, 5
y x y x
y
r r r
x
= = = = = =
9, 3 B

= 1.860,46 B

=
Estimadores de regresin
437, 515 87.503
yL yL yL
N = = =
2, 3104 462, 09 B B NB

= = =
Estimadores de diferencia
437, 5 87.500
yD yD yD
N = = =
210
( )

2 2,179 435, 8899


yD
B V B NB

= = = =
(b) 20 establecimientos
5. Una encuesta de consumo fue realizada para determinar la razn de dinero gastado en
alimentos sobre el ingreso por ao, para las familias de una pequea comunidad. Una
muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se
presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1 25100 3800
2 32200 5100
3 29600 4200
4 35000 6200
5 34400 5800
6 26500 4100
7 28700 3900
8 28200 3600
9 34600 3800
10 32700 4100
11 31500 4500
12 30600 5100
13 27700 4200
14 28500 4000
Estime la razn poblacional, y establezca un lmite para el error de estimacin.
Solucin: 0102 , 0 ; 1467 , 0 = = B r
6. Una cadena de electrodomsticos est interesada en estimar el total de ganancias por las
ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de
ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses
correspondiente al ao anterior, ese total es de 128.200 . Una muestra aleatoria simple de
5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la
siguiente tabla:
Oficinas Datos de 3 meses del ao anterior Datos de 3 meses del ao actual
1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
a) Usando un estimador de razn, estime el total de ganancias con un intervalo de
confianza.
b) Utilizando un estimador de regresin y un estimador de diferencia, estime las
ganancias medias y establezca un lmite para el error de estimacin.
Solucin: a) ( ) 129940, 67 , 138668, 85
y

211
b) 1.094, 53; 40, 46
L
Y
B = = ; 1.084, 28; 41, 28
D
Y
B = = .
7. Una agencia de publicidad est interesada en el efecto de una nueva campaa de
promocin regional sobre las ventas totales de un producto en particular. Una muestra
aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se
vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo
actual de tres meses y para el periodo de tres meses previo a la nueva campaa.
Tienda Ventas antes de
la campaa
Ventas
actuales
Tienda Ventas antes de
la campaa
Ventas
Actuales
1 208 239 11 599 626
2 400 428 12 510 538
3 440 472 13 828 888
4 259 276 14 473 510
5 351 363 15 924 998
6 880 942 16 110 171
7 273 294 17 829 889
8 487 514 18 257 265
9 183 195 19 388 419
10 863 897 20 244 257
a. Use los siguientes datos para estimar el total de ventas para el periodo actual y
establezca un lmite para el error de estimacin. Supngase que las ventas totales
en el periodo previo a la campaa de promocin fueran de 216.256 . Use los tres
mtodos de estimacin con informacin auxiliar.
b. Determinar el tamao requerido de muestra para estimar
Y
con un lmite para el
error de estimacin igual a 2.000.
Solucin: (a) 83 , 073 . 3 ; 86 , 611 . 231 = = B
Y
; 85 , 950 . 2 ; 66 , 581 . 231 = = B
L
Y
;
01 , 849 . 3 ; 00 , 511 . 231 = = B
D
Y

(b) Razn: 45 56 , 44 = n ; Regresin: 42 38 , 41 = n ; Diferencia: 67 16 , 66 = n
8. El ingreso nacional para 1981 ser estimado con base en una muestra de 10 sectores
industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45
sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone
de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2
(en miles de millones). Los datos se presentan en la tabla adjunta:
Industria 1980 1981
Producto de fbricas textiles 13,6 14,5
Productos qumicos y relacionados 37,7 42,7
Madera aserrada y lea 15,2 15,1
Equipo elctrico y electrnico 48,4 53,6
Vehculos y equipo 19,6 25,4
Transporte y almacenaje 33,5 35,9
Banca 44,4 48,5
212
Bienes Races 198,3 221,2
Servicios de Salud 99,2 114,0
Servicios de Educacin 15,4 17,0
(a) Encuentre el estimador de razn del ingreso total de 1981, y establezca un lmite
para el error de estimacin.
(b) Encuentre el estimador de regresin del ingreso total de 1981, y establezca un
lmite para el error de estimacin.
(c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un
lmite para el error de estimacin.
(d) Cul de los tres mtodos es el ms apropiado en este caso?Por qu?
Solucin: (a) 95 , 45 ; 30 , 433 . 2 = = B
Y
(b) 64 , 48 ; 91 , 432 . 2 = = B
YL

(c) 07 , 180 ; 90 , 455 . 2 = = B
Y

9. En una poblacin de 500 hogares, para la que es conocido que el gasto total general
durante un ao es de 15.000.000 , se quiere estimar el gasto total en alimentacin durante
un ao, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona
los siguientes valores anuales en :
Gasto en alimentacin 12.500 15.000 10.000 17.500
Gasto general 24.000 31.000 20.000 36.000
Antes de calcular el estimador, cree que es til utilizar esta informacin auxiliar?,
justifquese. Estime con un estimador de razn el total de gasto en alimentacin mediante
un intervalo de confianza.
Solucin: ( ) 7.205.693 ; 7.659.172
y

10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una
agencia de seguros, en el presente mes, han sido (en euros)
570 721 650 650 569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros,
estime el total de ingresos y el lmite para el error de estimacin.
Solucin:

3349000 yD
yD
N = =

( )

2 2
2 2
( ) 50169875 2 ( ) 14166,14
D D
yD yD
N n S S
V N N N n V
N n n

= = = =


11. Se desea conocer las ventas medias (en euros / habitante) en este ao de un determinado
producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con
200 habitantes. Se sabe que las ventas medias en ese municipio el ao pasado fueron de
170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra
de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio
(expresado en euros), este ao (Y) y el ao pasado (X):
213
Pueblo A Pueblo B
x
i
y
i
x
i
y
i
204 210 137 150
143 160 189 200
82 75 119 125
256 280
a. Sin hacer distincin entre pueblos, estime las ventas medias para este ao
utilizando un estimador de razn. D un lmite para el error de estimacin.
b. Qu se obtiene si no se tiene en cuenta los datos del ao pasado pero si el
pueblo?
c. Qu se obtiene si no se tiene en cuenta los datos del ao pasado ni se hace
distincin entre pueblos?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solucin: (a) 69 , 5 ; 53 , 180 = = B (b) 81 , 53 ; 91 , 171 = = B (c) 53 , 49 ; 43 , 171 = = B
(d) La mejor estimacin es en la que se usa el estimador de razn, por la fuerte relacin
entre las variables. El muestreo estratificado se comporta mal porque los estratos no son
homogneos.
12. Se desea estimar el agua utilizada en la presente campaa por una comunidad de riego
constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamao y litros
utilizados en riego aparecen en la siguiente tabla
Litros 600 1800 750 900 1100 1400 950 700 1000 720
Hectreas 50 150 60 70 100 120 80 60 90 60
Estime la media de litros/hectrea que utiliza la comunidad de regantes y la cota del error
de dicha estimacin.
Solucin: 11'81 / r litros hectarea =

2 ( ) 0' 3392 V r =
13. Se est investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.
Los investigadores piensan que hay razones para creer que el comportamiento es diferente
dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observndose
el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de
un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:
6 ; 8 ; 10 ; 40 ; 60 ; 80
3 2 1 3 2 1
= = = = = = n n n N N N
Zona A Zona B Zona C
X Y X Y X Y
3,2 4,1 3,1 3,9 2,8 3,8
3,0 4,0 3,0 4,0 2,9 3,7
214
2,9 4,1 3,1 3,8 2,9 3,8
2,8 3,9 3,2 4,0 3,0 3,6
3,1 3,7 3,0 3,8 3,1 3,8
3,2 4,1 3,2 4,1 3,0 3,7
2,9 4,2 2,9 3,7
2,8 4,0 3,0 3,8
3,1 3,9
2,8 3,8
a. Estimar el peso medio estratificado de los conejos al principio y al final del
tratamiento. Dar una estimacin del error.
b. Si se le permite un error de estimacin de 0,01 para estimar el peso medio
estratificado al final del tratamiento, cules deben ser los nuevos tamaos
muestrales? Usar asignacin proporcional.
c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de
3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento
utilizando un estimador de razn. Dar el lmite de error de estimacin.
d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo
aleatorio simple. Comentar los resultados.
Solucin: (a) 0523 , 0 ; 8944 , 3 ; 0516 , 0 ; 0008 , 3 = = = = B B
y x

(b) 147 33 1 , 32 ; 49 15 , 48 ; 65 2 , 64 ; 4 , 144
3 2 1
= = = = = n n n n n
(c) 0793 , 0 ; 1467 , 4 = = B
y
(d) 0617 , 0 ; 8875 , 3 = = B
14. En una escuela de 560 alumnos, se desea estimar la calificacin media que puede
obtenerse en el examen final de matemticas en el curso 00/01. Se toma como informacin
auxiliar la calificacin de los mismos alumnos en el examen final de matemticas del
curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes
para los cuales se observ la nota del examen final en el curso 00/01 y la calificacin de
dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los
siguientes:
Nota curso
99/00
Nota curso
00/01
80 87
78 65
98 86
45 47
215
61 67
83 94
79 67
56 67
Estimar la calificacin media del curso 00/01 utilizando como informacin auxiliar la
calificacin obtenida en el curso 99/00 mediante un estimador de razn. Dar una
estimacin del error de muestreo.
Solucin: 45 , 7 ; 75 = = B
y

15. Un director de recursos forestales est interesado en estimar el nmero de abetos muertos
por una plaga en una zona de 300 hectreas. Usando una fotografa area, el director
divide la zona en 200 parcelas de hectrea y media. Se toma una muestra aleatoria de 10
parcelas. El nmero total de abetos muertos, obtenidos segn la cantidad en fotografa es
4200.
Parcela 1 2 3 4 5 6 7 8 9 10
Cantidad en fotografa 12 30 24 24 18 30 12 6 36 42
Cantidad en terreno 18 42 24 36 24 36 14 10 48 54
a. Estime la razn poblacional y obtenga su intervalo de confianza.
b. Estime el nmero total de abetos muertos en el rea de 300 hectreas y fije un
lmite para el error de estimacin.
c. Cul ha de ser el tamao de la muestra necesario para estimar el total de abetos
muertos, con un lmite de error de estimacin de 200 abetos?
Solucin: (a) ) 4097 ' 1 , 2057 ' 1 ( ; 3077 , 1 = r (b) 44 , 428 ; 31 , 492 . 5 = = B
y
) (c) 39 9 , 38 = n
16. De una poblacin de 40 hogares, para la que es conocido que el gasto total general durante
un periodo de un ao, en general, es de 12.000.000 um., se obtiene una muestra aleatoria
simple de tamao 4 que proporciona los siguientes valores anuales (en um):
Gasto en alimentacin 125000 150000 100000 175000
a. Estimar el gasto total en alimentacin para los 40 hogares mediante un intervalo de
confianza.
b. Supongamos que de esos 4 hogares tenemos tambin los valores anuales de su
gasto general (en um):
Gasto General 250000 300000 200000 350000
Antes de calcular otro estimador, obtendramos mejores resultados si
utilizamos esta informacin auxiliar?Por qu?
216
c. Estimar mediante un estimador de razn el total de gasto en alimentacin,
utilizando la informacin auxiliar del apartado b.
d. Corroborar la respuesta del apartado b indicando qu estimador es mejor, el del
apartado a o el del apartado c.
Solucin: (a) ) 744 . 724 . 6 , 255 . 275 . 4 ( (b) 1 = (c) 000 . 000 . 6 =
y
(d) 0 = B (lmite del error de
estimacin del apartado (c)
17. Un trabajador social quiere estimar la ratio personas/habitacin en un determinado barrio.
El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del
barrio. Sea x el nmero de personas en cada vivienda e y el nmero de habitaciones por
vivienda. A partir de los datos siguientes:
25 25 25
2 2
1 1 1
9,1 2, 6 2240 169 522
i i i i
i i i
x y x y x y
= = =
= = = = =


estime la razn personas/habitacin en el barrio y establezca el lmite para el error de
estimacin con una confianza del 95%.
Solucin: 3, 5 0, 767 r B = =
18. En una universidad se realiz una prueba de conocimientos matemticos antes del ingreso
a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la
variable calificacin final en clculo. Teniendo en cuenta que 291 eran chicos y las
calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,
a partir de los datos de la tabla siguiente, se pide:
CHICOS CHICAS
Examen previo Examen de clculo Examen previo Examen de clculo
39 65 57 92
43 78 47 89
21 52 28 73
64 82 75 98
34 56
52 75
a. Sin tener en cuenta el sexo, estima la calificacin media en el examen final de
clculo utilizando un estimador de razn. De una medida del error de estimacin.
b. Qu ocurre si no se tiene en cuenta la informacin auxiliar pero si el sexo?
c. Qu ocurre si no se tiene en cuenta la informacin auxiliar ni el sexo?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
217
Solucin: (a) 54 , 10 ; 97 , 80 = = B
y
(b) 5 , 9 ; 76 , 73 = = B (c) 46 , 9 ; 76 = = B



5. Muestreo Sistemtico


1. La seccin de control de calidad de una empresa usa el muestreo sistemtico para estimar
la cantidad media de llenado en latas de 12 onzas que sale de una lnea de produccin. Los
datos de la tabla adjunta representan una muestra sistemtica 1 en 50 de la produccin de
un da.
Cantidad de llenado (en onzas)
12,00 11,97 12,01 12,03 12,01 11,80
11,91 11,98 12,03 11,98 12,00 11,83
11,87 12,01 11,98 11,87 11,90 11,88
12,05 11,87 11,91 11,93 11,94 11,89
11,72 11,93 11,95 11,97 11,93 12,05
11,85 11,98 11,87 12,05 12,02 12,04
a. Estime , y establezca un lmite para el error de estimacin. Suponga que N=1.800.
b. Determinar el tamao de muestra requerido para estimar dentro de 0,01 unidades.
Solucin: (a) 0259 , 0 ; 94 , 11 = = B
sy
(b) 218 1 , 217 = n
2. La Guardia Civil de Trfico est interesada en la proporcin de automovilistas que llevan
el permiso de conducir. Se instala un puesto de control en una carretera nacional y se
detiene un conductor de cada siete.
a. Use los datos de la tabla adjunta para estimar la proporcin de conductores que portan
su licencia. Establezca un lmite para el error de estimacin. Suponga que 2.800 autos
pasan por el puesto de verificacin durante el periodo de muestreo.
Automvil Respuesta
1 1
8 1
15 0

2794 1

=
=
400
1
324
i
i
y
b. En un nuevo control, la Guardia Civil de Trfico espera que pasen unos 5.000
automviles por el puesto de verificacin. Determine el tamao de muestra y k para
estimar p con un error inferior al 2%.
218
Solucin: (a) 0364 , 0 ; 8100 , 0 = = B p
sy
(b) 1.176, 97 1177 4 n k = =
3. Los funcionarios de un museo estn interesados en el nmero total de personas que visitan
el lugar durante un periodo de 180 das cuando una costosa coleccin de antigedades est
en exhibicin. Puesto que el control de visitantes en el museo cada da es muy costosa, los
funcionarios deciden obtener estos datos cada dcimo da. La informacin de esta muestra
sistemtica de 1 en 10 se resume en esta tabla
Da N personas que visitan el museo
3 160
13 350
23 225

173 290

= =
= =
18
1
18
1
2
450 . 321 . 1 ; 868 . 4
i i
i i
y y
Use estos datos para estimar el nmero total de personas que visitan el museo durante el
periodo especfico. Establezca un lmite para el error de estimacin.
Solucin: 34 , 370 . 1 ; 48680 = = B
sy

4. Los funcionarios de cierta sociedad profesional desean determinar la proporcin de
miembros que apoyan varias enmiendas propuestas en las prcticas de arbitraje. Los
funcionarios toman una muestra sistemtica de 1 en 10, a partir de una lista en orden
alfabtico de los 650 miembros registrados. Sea 1 =
i
y si la i-sima persona muestreada
favorece los cambios propuestos e 0 =
i
y si se opone a los cambios. Use los siguientes
datos de la muestra para estimar la proporcin de miembros en favor de los cambios
propuestos. Establezca un lmite para el error de estimacin.
=
=
65
1
48
i
i
y
Solucin: 1042 , 0 ; 7385 , 0 = = B p
sy

5. La tabla anexa muestra el nmero de nacimientos y la tasa de natalidad por cada 1000
individuos para Estados Unidos durante seis aos seleccionados sistemticamente.
(a) Estime el nmero medio de varones nacidos por ao para el periodo 1955-1980, y
establezca un lmite para el error de estimacin.
(b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un
lmite para el error de estimacin.
(c) Cree usted que el muestreo sistemtico es mejor que el muestreo aleatorio simple
para los problemas de los apartados (a) y (b)?Por qu?


219
Ao Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad
1955 2.073.719 1.973.576 4.047.295 26,0
1960 2.179.708 2.078.142 4.257.850 23,7
1965 1.927.054 1.833.304 3.760.358 19,4
1970 1.915.378 1.816.008 3.731.386 18,4
1975 1.613.135 1.531.063 3.144.198 14,6
1980 1.852.616 1.759.642 3.612.258 15,9
Solucin: (a) 35 , 437 . 139 ; 935 . 926 . 1 = = B
sy
; (b) 17 , 3 ; 67 , 19 = = B
sy
;
(c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en
estudio estn ordenadas de forma decreciente.
6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000
personas) en Estados Unidos para una muestra sistemtica de los aos de 1900-1980.
Estime la tasa media anual de divorcios para tal periodo y establezca un lmite para el
error de estimacin. Es en este caso el muestreo sistemtico mejor o peor que el muestreo
aleatorio simple?Por qu?
Ao Tasa Ao Tasa
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0
Solucin: 57 , 0 ; 26 , 2 = = B
sy
. Mejor, se observa, en general, una tendencia creciente en
los datos de la muestra, aunque se rompa ese orden parcial en los aos 1945-1955.
7. La gerencia de una compaa privada con 2.000 empleados est interesada en estimar la
proporcin de empleados que favorecen una nueva poltica de inversin. Una muestra
sistemtica de 1 en 10 es obtenida de los empleados que salen del edificio al final de un da
de trabajo (las respuestas a favor se han representado como 1)
Empleado
muestreado
Respuesta
3 1
13 0
23 1

1993 1

200
1
110
i
i
y
=
=

220
Se quiere repetir el anterior estudio con un error de estimacin inferior al 5% (considerando
la muestra anterior como una muestra previa para estimar los parmetros necesarios). Qu
tipo de muestra sistemtica deber obtenerse? (indique n y k).
Solucin: 330, 7 331 6, 04 6 n k k = = =
8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El
valor de cada una de estas cuentas no suele superar los 21.000 . El auditor quiere estimar
el valor total de las deudas por cobrar con un error inferior a 1.000.000 con una
confianza del 95%. Para ello decide tomar una muestra sistemtica de 1 en k . Determine
el valor de k.
Solucin: 10 k =
9. Los funcionarios de cierta sociedad profesional desean determinar la proporcin de
miembros que apoyan varias enmiendas propuestas en las prcticas de arbitraje. Los
funcionarios tomaron una muestra sistemtica de 1 en 10, a partir de una lista en orden
alfabtico de los 650 miembros registrados, obteniendo que 47 estaban a favor de los
cambios propuestos. Se quiere repetir el estudio anterior con un error de estimacin
inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los
parmetros necesarios, qu tipo de muestra sistemtica deber obtenerse? (indique n y k).
Solucin:
625
214, 8 215 3, 02 3
( 1) 215
Npq
n k k
N D pq
= = = =
+




6. Muestreo por Conglomerados.


(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado nmero
de datos y resolver a mano, verificando la solucin con el ordenador, una versin con menos
datos)
1. Un fabricante de sierras quiere estimar el coste medio de reparacin mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparacin para cada sierra, pero puede obtener la cantidad total gastada en reparacin y el
nmero de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el nmero de sierras son:
221
Industria N sierras Costo total de reparacin
para el mes pasado ()
1 3 50
2 7 110
3 11 230
4 9 140
5 2 60
6 12 280
7 14 240
8 3 45
9 5 60
10 9 230
11 8 140
12 6 130
13 3 70
14 2 50
15 1 10
16 4 60
17 12 280
18 6 150
19 5 110
20 8 120
a. Estime el costo medio de reparacin por sierra para el mes pasado, y establezca un
lmite para el error de estimacin.
b. Estime la cantidad total gastada por las 96 industrias en la reparacin de sierras.
Establezca un lmite para el error de estimacin.
c. Despus de verificar sus registros de ventas, el fabricante se percata de que ha vendido
un total de 710 sierras a esas industrias. Usando esta informacin adicional, estime la
cantidad total gastada en reparacin de sierras por estas industrias, y establezca un
lmite para el error de estimacin.
Solucin: (a) 78 , 1 ; 73 , 19 = = B (b) 07 , 175 . 3 ; 312 . 12 = = B
(c) 78 , 110 . 1 ; 85 , 008 . 14 = = B
2. Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la
proporcin de empleados que apoyan la nueva poltica. La industria consiste en 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos
rpidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a travs de un
cuestionario. Los resultados se presentan en esta tabla:
Planta N empleados N empleados que apoyan la nueva poltica
1 51 42
2 62 53
222
3 49 40
4 73 45
5 101 63
6 48 31
7 65 38
8 49 30
9 73 54
10 61 45
11 58 51
12 52 29
13 65 46
14 49 37
15 55 42
a) Estime la proporcin de empleados en la industria que apoyan la nueva poltica de
jubilacin y establezca un lmite para el error de estimacin.
b) La industria modific su poltica de jubilacin despus de obtener los resultados de
la encuesta. Ahora se quiere estimar la proporcin de empleados a favor de la
poltica modificada Cuntas plantas deben ser muestreadas para tener un lmite del
2% para el error de estimacin? Use los datos anteriores para aproximar los
resultados de la nueva encuesta.
Solucin: (a) % 81 , 4 %; 91 , 70 = = B p ) (b) 48 6 , 47 = n
3. Se disea una encuesta econmica para estimar la cantidad media gastada en servicios
para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se
usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona
una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores
obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales
se muestran en esta tabla:
Barrio N hogares Cantidad total gastada en servicios ()
1 55 2210
2 60 2390
3 63 2430
4 58 2380
5 71 2760
6 78 3110
7 69 2780
8 58 2370
9 52 1990
10 71 2810
11 73 2930
12 64 2470
13 69 2830
14 58 2370
15 63 2390
16 75 2870
223
17 78 3210
18 51 2430
19 67 2730
20 70 2880
a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un
lmite para el error de estimacin.
b. En la encuesta anterior se desconoce el nmero de hogares en la ciudad. Estime la
cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un
lmite para el error de estimacin.
c. La encuesta econmica se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de
la ciudad, con un lmite de 5.000 para el error de estimacin. Use los datos anteriores
para encontrar el nmero aproximado de conglomerados que se necesitan para obtener
ese lmite.
Solucin: (a) 64 , 0 ; 17 , 40 = = B (b) 88 , 927 . 6 ; 020 . 157 = = B (c) 30 4 , 29 = n
4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas
en una fbrica. El cereal est en paquetes que contienen 12 cajas cada uno. El inspector
selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes
muestreados, con los resultados (en onzas) que se muestran:
Paquete Onzas de llenado
1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0
2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9
3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1
4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0
5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9
Estime el peso medio de llenado para las cajas empaquetadas por esta fbrica, y establezca
un lmite para el error de estimacin. Suponga que el nmero total de cajas empaquetadas
por la fbrica es lo suficientemente grande para que no se tome en cuenta la correccin por
poblacin finita.
Solucin: 0215 , 0 ; 0050 , 16 = = B
5. Un peridico quiere estimar la proporcin de votantes que apoyan a cierto candidato A en
una eleccin estatal. La seleccin y entrevista de una muestra aleatoria simple de votantes
registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se
selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que
tiene el estado. El peridico quiere hacer la estimacin el da de la eleccin, pero antes de
que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados
a los lugares de votacin de cada distrito en la muestra, para obtener la informacin
pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
224
N votantes N votantes A N votantes N votantes A N votantes N votantes A
1290 680 1893 1143 843 321
1170 631 1942 1187 1066 487
840 475 971 542 1171 596
1620 935 1143 973 1213 782
1381 472 2041 1541 1741 980
1492 820 2530 1679 983 693
1785 933 1567 982 1865 1033
2010 1171 1493 863 1888 987
974 542 1271 742 1947 872
832 457 1873 1010 2021 1093
1247 983 2142 1092 2001 1461
1896 1462 2380 1242 1493 1301
1943 873 1693 973 1783 1167
798 372 1661 652 1461 932
1020 621 1555 523 1237 481
1141 642 1492 831 1843 999
1820 975 1957 932
a. Estime la proporcin de votantes que apoyan al candidato A, y establezca un lmite
para el error de estimacin.
b. El peridico quiere realizar una encuesta similar durante la siguiente eleccin. Cmo
de grande debe ser la muestra para estimar la proporcin de votantes a favor de un
candidato similar con un lmite del 5% para el error de estimacin?
Solucin: 0307 , 0 ; 5701 , 0 = = B p (b) 21 1 , 20 = n
6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el
nmero de libros comprados cada mes en una localidad. Se selecciona una localidad con
6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la
cual se seleccion una muestra de 4 manzanas y se entrevistaron a todas las familias,
obtenindose los siguientes resultados:
manzana libros comprados cada mes por familia
1 1 2 1 0 3 2 1 0 1 2
2 1 0 2 2 0 0 1 3
3 2 1 1 1 1 0 2 1 2 2 2
4 1 1 0 2 1 0 3
Determine, usando los datos de la encuesta piloto, cuntas manzanas debe tener una nueva
muestra si se quiere estimar los libros comprados cada mes con un error de estimacin
inferior a 140 unidades.
Solucin: 96, 92 97 n =
7. Un socilogo quiere estimar el ingreso medio por persona en cierta ciudad pequea donde
no existe una lista disponible de adultos residentes. Por esta razn para el diseo de la
225
encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares
y el socilogo decide que cada bloque rectangular va a ser considerado como un
conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene
tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a
cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se
realizan las entrevistas, obtenindose estos datos:
Conglomerado (i) N de residentes (m
i
)
Ingreso total por
conglomerado en (y
i
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
41000
151 residentes 1329000
a) Estime el ingreso medio por persona en la ciudad y establezca un lmite para el error
de estimacin.
b) Estime el ingreso total de todos los residentes de la ciudad y el lmite para el error de
estimacin, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de
todos los residentes de la ciudad mediante un intervalo de confianza.
NOTA: Repetir este ejemplo con todos los
i
m iguales (por ejemplo, 6
i
m i = ,
supongamos conocido 6 415 2.490 M = = ) y estime el total por los dos mtodos
226
estudiados
( )
t
t
M y N y = =

. Observe como coinciden las dos estimaciones as como
la varianza del estimador y el lmite para el error de estimacin.
d) Tomando los anteriores datos como una muestra previa, cmo debe tomarse la
muestra en una encuesta futura para estimar el ingreso promedio por persona con un
lmite para el error de estimacin de 500.
Solucin: a)

8.801, 32 / 1.617,14 residente B = =


b) 22.061.400 3.505.584, 04 t B = =


c) ( ) 17.949.791, 34 , 26.056.831,18
d) 166, 58 167 n =
8. Un empresario quiere estimar el nmero de tubos de dentfrico usados por mes en una
comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria
simple de 4 bloques que proporciona los siguientes resultados:
Bloque tubos gastados por hogar
1 1 2 1 3 3 2 1 4
2 1 3 2 2 3 1 4 1 1
3 2 1 1 1 3 2 2
4 1 1 3 2 1 5 1 3
Estime de distintas formas el nmero total de tubos gastados, obtenga el lmite para el
error de estimacin en cada caso y comente los resultados.
Solucin: Muestreo por conglomerados 85 , 562 ; 8000 = = B Muestreo aleatorio simple
78 , 1077 ; 6400 = = B
9. En un proceso de control del volumen envasado por una fbrica de bebidas se eligen 5 de
los 40 paquetes que tiene la fbrica, cada uno de los cuales contiene 4 envases, y se mide
el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
Paquete n Volumen envasado en cm
3
1 33 32,5 31,7 34,2
2 32 32,6 33,8 32,5
3 30,9 33,1 33 33,4
4 34,1 33,1 32,5 33,2
5 32 32,1 32,6 33,6
Estime el volumen medio por envase y dar la cota de error de estimacin.
Solucin: 22 , 0 ; 80 , 32 = = B
10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas
en el registro mercantil. El nmero de bajas en el ltimo ao, el nmero de empleados y la
respuesta de cada empresa sobre si utilizara los servicios de la empresa de trabajo
temporal fueron los siguientes:
227
Empresa Bajas Empleados Respuesta
1 1 7 Si
2 2 15 No
3 9 85 Si
4 0 3 No
5 2 12 No
6 0 8 No
7 1 21 Si
8 0 4 No
9 4 35 No
10 6 92 Si
a. Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. D el
lmite del error de estimacin.
b. Estime la proporcin de empresas que usaran los servicios ofertados. D el
lmite del error de estimacin.
Solucin: (a) 02 , 151 ; 5 , 212 = = B (b) % 68 , 30 %; 40 = = B p
11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se
seleccionan 10 de ellos para su estudio. El nmero de microcircuitos defectuosos por
tablero fue
2 0 1 3 2 0 0 1 3 4
Estime la proporcin de microcircuitos defectuosos en la poblacin y establezca una cota
para el error de estimacin.
Solucin: 0674 , 0 ; 1333 , 0 = = B p
12. En una pequea ciudad se quiere estimar el nmero total de horas diarias que sus
residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del da por un
canal Digital. Dicha ciudad est dividida en 200 manzanas de viviendas. Se extrae una
muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si estn
conectados a Va Digital y cuntas horas ven el programa. Los datos de la encuesta se
encuentran en la siguiente tabla:
Manzana N hogares con
canal Digital
N total horas que
ven programa
1 8 13
2 7 13
3 9 14
4 6 13
5 5 0
6 9 10
7 6 6
228
8 8 14
9 9 16
10 6 4
a. Estimar el nmero total de horas que se ve el programa ``Gran Hermano'' a travs
de Canal Digital.
b. Obtener un intervalo de confianza para el nmero total de horas.
c. Determinar cuntas manzanas se deberan muestrear para estimar el total
poblacional, con un lmite para el error de estimacin de magnitud 20. Considere la
muestra anterior como una muestra previa para estimar los parmetros necesarios.
Solucin: (a) 2060 = ; (b) ) 70 , 2704 , 30 , 1415 ( (c) 197 4 , 196 = n
13. En una urbanizacin se quiere estimar la proporcin de hogares interesados en contratar el
sistema de televisin digital, para lo cual se considera la ciudad dividida en 200 manzanas
de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada
familia acerca de si estara interesada en contratar la televisin digital. Los datos de la
encuesta se encuentran en la tabla:
Manzana N hogares en la
manzana
N hogares
interesados
1 8 3
2 7 3
3 9 4
4 6 3
5 5 2
6 9 4
7 6 3
8 8 3
9 9 4
10 6 2
a. Estimar la proporcin de hogares interesados en contratar la televisin digital.
b. Obtenga un intervalo de confianza para la citada proporcin.
c. Determinar cuntas manzanas se deberan muestrear para estimar la proporcin
poblacional con un lmite para el error de estimacin del 1%. Considere la muestra
anterior como una muestra previa para estimar los parmetros necesarios.
Solucin: (a) 4247 , 0 = p (b) ) 4547 ' 0 , 3947 ' 0 ( (c) 65 28 , 64 = n
14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen
ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una
229
muestra aleatoria de 10 conglomerados, en los que el nmero de familias con ordenador
es:
2 1 5 3 0 1 4 3 5 0
Estimar la proporcin de familias que poseen ordenador y la varianza del estimador usado
para estimar dicha proporcin.
Solucin: 0143 , 0 ) (

; 48 , 0 = = p V p
15. Se desea conocer la proporcin de empleados de una empresa que no estn dispuestos a
trasladarse a una nueva planta de produccin. Realizada una encuesta a los empleados de 5
factoras elegidas al azar entre las 50 que tiene la empresa, los resultados han sido:
Factora N empleados Dispuestos
1 250 225
2 190 175
3 210 190
4 400 350
5 150 120
Estimar la proporcin de empleados que no estn dispuestos a trasladarse a la nueva
factora. Obtenga una estimacin de la varianza del estimador empleado.
Solucin: 0002 , 0 ) (

; 1167 , 0 = = p V p
16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada
una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno
determina el peso total de mariscos daados para cada una de las 5 cajas muestreadas. Los
datos son:
9 6 3 10 2
a. Estime el peso total de mariscos daados en el embarque y establezca un lmite
para el error de estimacin.
b. Determine el tamao de la muestra necesario para estimar el peso total de mariscos
daados en el embarque, con un lmite de error de 275.
Solucin: (a) 600; 308, 22 B = = (b) 6, 20 7 n =





230
7. Estimacin del Tamao de la Poblacin.


1. Un club deportivo se interesa por el nmero de truchas de ro en un arroyo. Durante un
periodo de varios das, sea atrapan 100 truchas, se marcan y se devuelven al arroyo.
Obsrvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado
en esos das, que ya haba sido marcado, se devolva inmediatamente. Varias semanas
despus se atrap una muestra de 120 peces y se observ el nmero de peces marcados.
Supongamos que este nmero fue de 27 en la segunda muestra. Estime el tamao total de
la poblacin de truchas y d un lmite de error de estimacin.
Solucin: 60 , 150 ; 4 , 444

= = B N
2. Ciertos bilogos de poblaciones salvajes desean estimar el tamao total de la poblacin de
codorniz comn en una seccin del sur de Florida. Se usa una serie de 50 trampas. En la
primera muestra se atrapan 320 codornices. Despus de ser capturadas, cada ave es
retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se
sueltan todas las aves. Varios meses despus se obtiene una segunda muestra de 515
codornices. Suponga que 91 de estos pjaros estn marcados. Estimar el tamao total de la
poblacin de codornices y dar un lmite de error de estimacin.
Solucin: 51 , 344 ; 99 , 1810

= = B N
3. Expertos en pesca estn interesados en estimar el nmero de salmones de una reserva. Se
atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes
despus se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la
segunda muestra. Estime el tamao de la poblacin total y establezca un lmite del error de
estimacin.
Solucin: 82 , 715 ; 72 , 867 . 10

= = B N
4. Los regentes de una ciudad estn preocupados por las molestias que causan las palomas
alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de
investigadores para que estime el nmero de palomas que ocupan el edificio. Con varias
trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes despus se
repite el proceso, usando 60 palomas, de las que 18 estn marcadas. Estimar el tamao
total de la poblacin de palomas y dar un lmite de error de estimacin.
Solucin: 88 , 78 ; 200

= = B N
5. Una zologa desea estimar el tamao de la poblacin de tortugas en determinada rea
geogrfica. Ella cree que el tamao de la poblacin est entre 500 y 1000; por lo que una
231
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes despus y decide continuar muestreando
hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15
marcadas. Estime el tamao total de la poblacin de tortugas y establezca un lmite de
error de estimacin.
Solucin: 72 , 507 ; 67 , 066 . 1

= = B N
6. En una plantacin de pinos de 200 acres, se va a estimar la densidad de rboles que
presentan hongos parsitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las
diez parcelas muestreadas tuvieron una media de 2,8 rboles infectados por cuadro.
a) Estime la densidad de rboles infectados y establezca un lmite de error de
estimacin.
b) Estime el total de rboles infectados en los 200 acres de la plantacin y
establezca un lmite de error de estimacin.
Solucin: (a) 1 , 2 ; 6 , 5

= = B (b) 32 , 423 ; 120 . 1

= = B M
7. Se desea estimar el nmero total de personas que diariamente solicitan informacin en una
oficina turstica. Se observa que 114 personas solicitan informacin, durante 12 intervalos
de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta
la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de
error de estimacin.
Solucin: 8 , 170 ; 912

= = B M
8. Un alumno de A.T.C. desea estimar el nmero de alumnos que una determinada maana
han ido a la Facultad. Para ello se basa en que dicho da una conocida marca comercial ha
repartido a primeras horas de la maana en la entrada de la Facultad 500 carpetas. En un
intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan
hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382
alumnos.
Estime con un intervalo de confianza el nmero de alumnos que asistieron esa maana a la
Facultad.
Solucin: muestreo inverso ( ) 1910 326, 58
9. El hermano de un alumno de T.A.M. est pensando en abrir una farmacia de 24 horas.
Para saber si los ingresos compensaran los gastos de esta inversin deciden observar un
establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M.
conoce perfectamente que es una prdida de tiempo innecesaria observar el flujo de
232
clientes las 24 horas del da por lo que decide observar de forma sistemtica media hora
cada 3 horas, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
13:00-13:30
16:00-16:30
19:00-19:30
22:00-22:30
01:00-01:30
04:00-04:30
07:00-07:30
35
20
19
30
25
9
12
18
Sabiendo que el gasto medio por cliente es de 20, estime los ingresos diarios de la
farmacia observada y el correspondiente lmite para el error de estimacin utilizando
diferentes mtodos.
Solucin: Muestreo por cuadros 76 , 110 . 3 ; 160 . 20 = = B Ingresos ; Muestreo aleatorio
simple 22 , 402 . 5 ; 160 . 20 = = B Ingresos
10. Se desea estimar el nmero total de palomas en la glorieta de una ciudad. Se capturan 80
palomas, se marcan y se devuelven a la poblacin. Se realiza una segunda muestra hasta
encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el
tamao total y el lmite de error de estimacin.
Solucin: 62 , 272 ; 800

= = B N
11. Se desea estimar el nmero total de pinginos en una determinada zona. Se obtiene una
muestra de tamao 60, se marcan y se devuelven a la poblacin. Al da siguiente se elige
otra muestra de tamao 400 y en ella se encuentran 12 marcados. Estimar el nmero total
de pinginos y dar la cota de error de estimacin.
Solucin: 25 , 137 . 1 ; 000 . 2

= = B N
12. Se desea estimar el nmero de vehculos de un modelo determinado que el mes prximo
utilizarn el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a
establecer 5 controles aleatorios de 1 hora de duracin cada uno. Transcurrido el mes, se
ha observado en los 5 controles los siguientes resultados:
Control Nmero de vehculos de ese
modelo que usan el aparcamiento
1 1
2 1
3 2
4 1
5 3
Estimar el nmero total de vehculos del modelo en estudio que utilizaron el aparcamiento.
233
Solucin: 59 , 814 ; 1152

= = B M
13. El ayuntamiento de Madrid est interesado en conocer el nmero de aficionados que
acudieron al aeropuerto a vitorear al equipo campen de la Champion League. Para ello,
dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho,
en 100 cuadros de igual tamao y seleccionaron 40, observando que el nmero de
personas era 2100.
a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de
confianza del 95%.
b. Estime el nmero total de asistentes, y fije un lmite para el error de
estimacin.
Solucin: (a) ) 6 , 1 , 4 , 1 ( (b) 229 13 , 229 ; 250 . 5

= = B M
14. Se toman peridicamente muestras del aire en un rea industrial de la ciudad. La densidad
de cierto tipo de partculas dainas es el parmetro de inters para el sector industrial. A
partir de 15 muestras de 1
3
cm , se obtuvo un promedio de 210 partculas/
3
cm . Estimar la
densidad de las partculas dainas en dicha zona, as como dar una estimacin del error de
dicha estimacin.
Solucin: 48 , 7 ; / 210

3
= = B cm part
15. Se desea conocer cuntas personas asistieron a la inauguracin del pabelln de Portugal en
la Expo de Lisboa. Se sabe que el pabelln tiene forma cuadrada de 35 metros de lado y se
traza una malla que divide el rea total en 100 cuadros de igual tamao. Se selecciona una
muestra aleatoria de 40 cuadros, observando que el nmero de personas es de 750.
a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de
confianza.
b. Estime el nmero total de asistentes a la inauguracin y fije un lmite para el error
de estimacin.
Solucin: (a) ) 6424 ' 1 , 4188 ' 1 ( ; 5306 , 1

= (b) 9 , 136 ; 1875

= = B M
16. Un equipo de eclogos quiere medir la efectividad de un frmaco para controlar el
crecimiento de la poblacin de palomas. Se quiere conocer el tamao de la poblacin de
este ao para compararlo con el del ao pasado. Se atrapa una muestra inicial de 600
palomas y se les da el frmaco, a la vez que se aprovecha para marcarlas en una pata. En
fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca.
a. Estime el tamao de la poblacin con un intervalo del 95% de confianza.
234
b. Para reducir el lmite de error de estimacin a la mitad, en qu proporcin deben
ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, se
deberan observar el doble de las cantidades anteriores, es decir, 200 y 96?, el
triple?, el cudruplo?,...
Solucin: (a) ( ) 989' 79, 1510' 21 (b) el cudruplo



8. Indicadores estadsticos regionales.


1. Sabemos que, en 1995, el PIB a precios de mercado de los siguientes pases fue:
PIB (u.m.)
Superficie (1000 km
2
)
Alemania 826,4 248,7
Blgica 104,5 30,5
Dinamarca 76,4 43,1
Espaa 216,2 504,8
Francia 674,8 544,0
Grecia 42,8 132,0
Holanda 165,3 41,2
Inglaterra 595,0 244,1
Irlanda 24,1 68,9
Italia 473,0 301,3
Luxemburgo 4,7 2,6
Portugal 27,3 92,1
Total 3230,5 2253,3
Determinar el ndice de asociacin geogrfica de Florence del PIB respecto a la extensin
superficial de cada pas.
Solucin: 0, 7095 F =
2. Se realiz un estudio sobre la economa de las provincias mediterraneas espaolas, cuyos
V.A.B. al coste de los factores en millones de pesetas en 1991 fueron:
V.A.B.
Catalua 2.876.920,7
Gerona 257.026,0
Barcelona 2.318.025,7
Tarragona 301.869,0
Baleares 358.450,3
Comunidad Valenciana 1.724.809,4
Castelln 205.160,3
Valencia 1.016.354,3
Alicante 503.294,8
Murcia 362.475,0
235
Andaluca 1.056.503,0
Almera 140.396,8
Granada 206.487,2
Mlaga 346.748,7
Cdiz 362.870,3
Total V.A.B. 6.379.158,4
Determinar:
a. El ndice de concentracin de Theil de la produccin de esta zona.
b. Qu parte de la desigualdad existente es responsabilidad de las diferencias
existentes entre las provincias de cada grupo?
Solucin: (a) 0,1604
T
I = (b) 68%
3. En el ao 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga el ndice de concentracin de Theil e interprete su valor.
Solucin:
1
ln ln 0,1597
N
j j
j
T N x x
=
= + =

0,1152
ln
T THEIL
T
I I
N
= = =
4. En el ao 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga la desigualdad colectiva e interprete su valor.
Solucin:
1 1 1
1 1 2, 6865
0, 6716
4 4 4
N N N
i i i i
i i i
D d f d d
= = =
= = = = =


5. En el ao 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un
determinado pas y el nmero de oficinas bancarias fue
REGIONES PIB OFICINAS
R1
R2
R3
R4
80
15
100
50
350
70
450
250
Obtenga el ndice de asociacin geogrfica de Florence del nmero de oficinas respecto al
PIB e interprete su valor.
236
Solucin:
1
1
1 0, 97959
2
N
j j
j
F x y
=
= =





9. Medidas de localizacin espacial.


1. En un pas, dividido administrativamente en cuatro regiones, el sector industrial est
constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construccin,
Qumicas, Papeleras y Alimentacin. El nmero de trabajadores ocupados en 1995 en los
diferentes subsectores y regiones era:
Regiones
I II III IV Total
Siderurgia 5 3 1 0 9
Construccin 10 8 7 12 37
Qumicas 0 1 5 3 9
Papeleras 4 7 10 3 24
Alimentacin 2 3 12 4 21
Total 21 22 35 22 100
Determinar:
a. Los cocientes de localizacin para cada industria en cada regin.
b. Los coeficientes de localizacin sectorial para cada industria.
c. Los coeficientes de especializacin para cada regin.
d. Los coeficientes de diversificacin regional.
Solucin: (a)
ij
L I II III IV
Siderurgia 2,65 1,52 0,32 0
Construccin 1,29 0,98 0,54 1,47
Qumicas 0 0,51 1,59 1,52
Papeleras 0,79 1,33 1,19 0,57
Alimentacin 0,45 0,65 1,63 0,87
(b)

i
CL
Siderurgia 0,46
Construccin 0,16
Qumicas 0,32
Papeleras 0,14
Alimentacin 0,22

237
(c)

j
CE
I 0,25
II 0,12
III 0,23
IV 0,22
(d)

j
CD
I 0,61
II 0,73
III 0,77
IV 0,54
2. Se dispone de la siguiente informacin sobre nmero de ocupados para algunas
Comunidades Autnomas clasificados segn ciertas actividades:
Energa Alimentos Industrial textil
Andaluca 10.000 65.000 20.000
Castilla La Mancha 3.000 18.000 14.000
Castilla Len 19.000 30.000 8.000
Catalua 15.000 60.000 90.000
a) Obtenga los coeficientes de localizacin de las distintas actividades.
b) Calcule los coeficientes de especializacin para cada comunidad.
Solucin:
a)
Coeficientes de localizacin sectorial
SECTOR
REGION S1 S2 S3
R1 0,0571 0,1058 0,1184
R2 0,0356 0,0046 0,0066
R3 0,2423 0,0115 0,1013
R4 0,1496 0,1219 0,2131
j
CL
0,2423 0,1219 0,2197
b)
Coeficientes de especializacin
regional
SECTOR
REGION S1 S2 S3 i
CE
R1 0,0283 0,1927 0,1645 0,192733
R2 0,0478 0,0228 0,025 0,047808
R3 0,1998 0,0348 0,2346 0,234649
R4 0,0426 0,1278 0,1705 0,170455

3. La distribucin de algunas especies animales en 4 areas geogrficas es la siguiente



238
Area/Especie Buitre Nutria Lince
I 15 8 60
II 12 9 40
III 16 7 10
IV 13 4 18
Obtener el coeficiente de diversificacin de estas especies en las distintas zonas.
Solucin: 0, 59; 0, 68; 0, 9; 0,8
I II III IV
CD CD CD CD = = = =
4. En un pas, dividido administrativamente en tres regiones, el sector industrial est
constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construccin,
Qumicas y Alimentacin. El nmero de trabajadores ocupados en 1995 en los diferentes
subsectores y regiones era (expresado en centenas de miles):
Regiones
I II III
Siderurgia 15 10 6
Construccin 165 110 66
Qumicas 30 20 12
Alimentacin 195 130 78
Calcule las diversas medidas de localizacin espacial e interprtelas, justificando y
apoyando los comentarios en los datos del enunciado.
Solucin:
(Notamos los distintos sectores y regiones de forma genrica para simplificar el aspecto de
las tablas.)

datos SECTOR
REGION S1 S2 S3 S4
R1 15 165 30 195
R2 10 110 20 130
R3 6 66 12 78

Participacin de las regiones en cada sector y en la poblacin total
SECTOR
REGION S1 S2 S3 S4 poblacin
R1 0,4839 0,4839 0,4839 0,4839 0,4839
R2 0,3226 0,3226 0,3226 0,3226 0,3226
R3 0,1935 0,1935 0,1935 0,1935 0,1935

Participacin de los sectores en cada regin y en la poblacin total
SECTOR
REGION S1 S2 S3 S4
R1 0,0370 0,4074 0,0741 0,4815
R2 0,0370 0,4074 0,0741 0,4815
R3 0,0370 0,4074 0,0741 0,4815
poblacin 0,0370 0,4074 0,0741 0,4815


239

Cocientes de localizacin y especializacin
ij
L
SECTOR
REGION S1 S2 S3 S4
R1 100,00 100,00 100,00 100,00
R2 100,00 100,00 100,00 100,00
R3 100,00 100,00 100,00 100,00

Coeficientes de localizacin sectorial
SECTOR
S1 S2 S3 S4
j
CL
0 0 0 0

Coeficientes de especializacin regional
REGION i
CE
R1 0
R2 0
R3 0

Coeficientes de diversificacin de cada regin
REGION i
CD
*
i
CD
R1 0,6178 0,49
R2 0,6178 0,49
R3 0,6178 0,49

5. El valor aadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un pas es:
Region/Sector Agricultura Industria Servicios
Regin Norte 15 225 195
Regin Sur 6 90 78
Calcule los coeficientes de localizacin sectorial. Interprete los resultados
Solucin: La participacin de cada una de las regiones en el sector j, ( j , 0
j
CL = ) es
igual a la participacin de cada regin en el conjunto de sectores. Cada sector se localiza
en igual medida que todos ellos en conjunto.
6. El valor aadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un pas es:
Region/Sector Agricultura Industria Servicios
Regin Norte 60 225 150
Regin Sur 24 90 60
Calcule los coeficientes de especializacin regional. Interprete los resultados
Solucin: La presencia de cada sector en la regin i, ( i , 0
i
CE = ) es igual a la presencia
de cada sector en el conjunto del pais (todas las regiones). Cada regin se especializa en la
misma medida que el conjunto del pais.
240
7. El valor aadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un pas es:
Region/Sector Agricultura Industria Servicios
Regin Norte 90 300 195
Regin Sur 36 120 78
Calcule los coeficientes de diversificacin normalizados. Interprete los resultados
Solucin:
2
ij
Y S1 S2 S3
2
1
L
ij
j
Y
=

2
2
1
i
i L
ij
j
Y
CD
L Y
=
=

i
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .
R1 8100 90000 38025 136125 0,838016529 0,75702479
R2 1296 14400 6084 21780 0,838016529 0,75702479

8. El valor aadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un pas es:
Region/Sector Agricultura Industria Servicios
Regin Norte 90 0 0
Regin Sur 30 30 30
Calcule los coeficientes de diversificacin normalizados. Interprete los resultados
Solucin: En la regin norte (R1) el grado de diversificacin es mnimo,
*
0
i
CD = , esto
ocurre cuando una sla actividad, (S1=agricultura), est presente en ella.
En la regin sur (R2) el grado de diversificacin es mximo,
*
1
i
CD = , esto ocurre cuando
la actividad de la regin se distribuye uniformemente entre los distintos sectores,
(S1=S2=S3=30).



10. Contrastes
2
de Pearson


1. El gerente de una planta industrial pretende determinar si el nmero de empleados que
asisten al consultorio mdico de la planta se encuentra distribuido de forma equitativa
durante los cinco das de trabajo de la semana. En base a una muestra aleatoria de cuatro
semanas completas de trabajo, se observaron los siguientes nmeros de empleados que
asistieron al consultorio:
Lunes Martes Mircoles Jueves Viernes
49 35 32 39 45
241
Existe alguna razn para creer que el nmero de empleados que asisten al consultorio
mdico, no se encuentra distribuido de forma equitativa durante los das de trabajo de la
semana?, ( 05 . 0 = ).
Solucin:
( ) ( )
2 2
exp 4; 0,95
4, 9 9, 49 . = < = No existe razn para creer que el nmero que
asisten al consultorio no se encuentra distribuido en forma equitativa.
2. En un cajero automtico se ha observado una baja utilizacin del mismo. Con el fin de
confirmar este hecho, se ha controlado el nmero de llegadas diarias al mismo,
obtenindose los siguientes resultados:
N llegadas al cajero N de das
0 21
1 18
2 7
3 3
4 ms 1
En base a esta informacin, existe alguna razn para creer que el nmero de llegadas
diarias es una variable de Poisson con parmetro 0,9? ( 0, 05 = )
Solucin:
( ) ( )
2 2
exp 2; 0,95
0, 04 5, 99 . = < = Se acepta la hiptesis de que los datos proceden
de una distribucin (0, 9) P .
3. La siguiente tabla proporciona el nmero de erratas por pgina cometidas por una
secretaria de una cierta empresa:
N erratas por pgina N pginas
0 832
1 203
2 383
3 525
4 532
5 408
6 273
7 139
8 45
9 27
10 10
11 ms 11
Contrastar a nivel 05 . 0 = si el nmero de erratas por pgina sigue una distribucin de
Poisson con parmetro 3.
Solucin:
( ) ( )
2 2
exp 9; 0,95
3291, 05 16, 92 . = > = Luego se rechaza la hiptesis de que el
nmero de erratas por pgina sigue una distribucin de Poisson con parmetro 3.
4. En la siguientes tabla estn los datos de 2764 personas clasificadas segn sus ingresos y el
tiempo trancurrido desde su ltima visita al mdico:
242
Ingresos/Visitas <7 meses 7 meses-1 ao >1 ao Total
Menos de 90.000 186 38 35 259
90.000-100.000 227 54 45 326
100.000-150.000 219 78 78 375
150.000-200.000 355 112 140 607
Ms de 200.000 653 285 259 1197
Total 1640 567 557 2764
Contrastar a un nivel 05 . 0 = si los ingresos y el tiempo transcurrido desde la ltima
consulta mdica son independientes.
Solucin: (Estadstico=47'90, Valor crtico=15'5). Se rechaza la hiptesis de que los
ingresos y el tiempo transcurrido desde la ltima consulta mdica son independientes.
5. En la siguiente tabla estn los datos de 56 personas clasificadas segn si fuman por la
noche y si tienen o no cancer de pulmon:
Si fuman No fuman Total
Si tienen cancer 20 16 36
No tienen cancer 6 14 20
Total 26 30 56
Contrastar a un nivel de 05 . 0 = si son independientes estos dos atributos.
Solucin: (Estadstico=3'38, Valor crtico=3'84). Se acepta la hiptesis de independencia.
6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se
observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se
obtienen los siguientes resultados:
A B
Hombres 20 15
Mujeres 25 30
Contrastar la hiptesis de que la marca comprada y el sexo del comprador son
independientes.
Solucin: (Estadstico=1'169, Valor crtico=3'84). Se acepta la hiptesis de que la marca
comprada y el sexo del comprador son independientes.
7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si haba
problemas de polucin en su ciudad. Los datos obtenidos se resumen en la siguiente tabla:
Barrio No Si A veces No lo sabe Total
A 5 31 2 2 40
B 10 21 4 5 40
C 11 20 7 2 40
Total 26 72 13 9 120
Contrastar a un nivel 05 . 0 = si son los tres barrios homogeneos respecto al conocimiento
de los problemas de polucin en su ciudad.
243
Solucin: (Estadstico=7,74, Valor crtico=9'49). Luego hay diferencias entre los tres
barrios respecto al conocimiento de los problemas de polucin.
8. Una muestra sobre el n de personas que diariamente requieren informacin de un
producto financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson? ( 5% = )
Solucin:
( ) ( )
2 2
exp 2; 0,95
1,18 5, 99 . = < = Luego se acepta que el n de personas que
requieren la mencionada informacin se distribuye segn una ley de Poisson.
9. La siguiente tabla presenta el n de reclamaciones recibidas en una oficina de informacin
al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del
reclamante
30 30 >
A
B
C
8
12
22
28
44
53
36
56
75
42 125 167
El contraste a realizar es:
H
0
: Tipo de producto y edad son independientes (no estn asociados).
H
1
: No son independientes (estn asociados).
Solucin:
( ) ( )
2 2
exp 2; 0,95
1, 27 5, 99 . = < = Luego no hay motivos para rechazar la hiptesis
de independencia.
10. Se clasifican a los 150 empleados de una empresa segn su salario y su antigedad. Los
resultados aparecen en la siguiente tabla. Hay independencia entre los sueldos y la
antigedad? ( 0, 05) =
Sueldo\Antigedad <5 aos 5-10 10-20 >20 aos
i
n


0-500
500-1000
1000-2000
2000-3000
>3000
17
16
4
9
6
5
8
11
8
3
10
9
5
8
4
6
7
2
6
6
38
40
22
31
19
j
n

52 35 36 27 150
Solucin:
( ) ( )
2 2
exp 6; 0,95
13,1 12, 59 . = > = Luego existen razones para pensar que los
sueldos y aos de antigedad NO son independientes.
244
11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen
y sus calificaciones fueron registradas como baja, media o alta, obtenindose:
Universidad A Universidad B
BAJA
MEDIA
ALTA
105
140
255
140
135
225
Contrastar la hiptesis de que la distribucin de calificaciones en las 2 universidades es la
misma (con 0, 01 = )
Solucin:
( ) ( )
2 2
exp 2; 0,99
6, 95 9, 21 . = < = La distribucin de las notas es la misma en las
dos universidades con un nivel de significacin del 1%. Observese que se llegara a la
conclusin opuesta con un nivel de significacin del 5%.
12. Se observan durante 100 horas el nmero de llamadas recibidas durante una hora en una
empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla
Nmero de llamadas / hora Nmero de horas
0
1
2
3
4
5 o ms
6
13
20
22
16
23
Contraste la hiptesis de que el nmero de llamadas recibidas en una hora sigue una
distribucin de Poissson con media 3,4. ( 0,1 = )
Solucin:
2 2
1,1 4, 0'90
7, 78
k


= = . Como
2
exp
( 1, 91) = <7,78 aceptamos la hiptesis nula
de que el nmero de llamadas recibidas en una hora sigue una distribucin de Poissson con
media 3,4.
13. El colectivo de trabajadores de la banca de un pas quiere conocer si existe dependencia
entre el nivel de salarios que reciben y la antigedad en la empresa. Para ello seleccionan
una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y
obtienen la siguiente informacin:
Antigedad
Salarios
Menos de 5
aos
Entre 5 y 10
aos
Entre 10 y 15
aos
Ms de 15
aos
Bajos (<1.000)
Medios (1.000, 1.500)
Altos (>1.500)
36
64
50
16
34
50
14
20
16
34
82
84
Contrastar la independencia de los salarios con la antigedad al nivel de significacin del
10%.
Solucin:
2 2
( 1)( 1); 1 2*3; 0,90
10, 6
r c


= = .
245
Como
2 2
( 1)( 1); 1
( 10, 8833) ( 10, 6)
r c


= > = , se rechazara la hiptesis nula de
independencia entre los salarios y la antigedad en la empresa.
14. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envo
de sus ctricos al exterior, pero no sabe si utilizar cajas de cartn, madera o plstico. Para
decidirse y utilizando informacin de otras empresas exportadoras, selecciona
aleatoriamente las fichas informativas de 142 cajas de cartn, 123 cajas de madera y 128
de plstico. En las fichas informativas de cada caja consta el nmero de kilogramos que
llegaron en mal estado a su destino en las distintas pocas del ao, resumindose la
informacin de la siguiente forma
Tipos de embalaje
Cartn Madera Plstico
Primavera
Verano
Otoo
12
27
103
8
52
63
6
65
57
Contrastar, al nivel de significacin del 5%, si los tres tipos de embalajes se comportan de
la misma forma en la conservacin de su contenido.
Solucin:
2 2
( 1)( 1); 1 2*2 ; 0,95
9, 49
r c


= = .
Como
2 2
( 1)( 1); 1
( 31, 8)
r c


= > , se rechazara la hiptesis nula de un comportamiento
homogneo (igual) de los tres tipos de embalajes en la conservacin de ctricos.
15. En una empresa constructora se ha observado el nmero de accidentes que ocurren durante
130 das, obtenindose la siguiente distribucin de frecuencias:

Nmero de accidentes por da Nmero de das
0
1
2
3
4
69
42
15
4
0
130
Contraste la hiptesis de que el nmero de accidentes por da sigue una distribucin de
Poisson, utilizando un nivel de significacin del 1%.
Solucin:
2
1;0,99
6, 63 = .
2
( 0,72) = <6,63 luego aceptamos la hiptesis de que el nmero
de accidentes por da sigue una distribucin de Poisson. (Obsrvese que se ha restado un
grado de libertad ms por el parmetro de la distribucin de Poisson estimado)
16. La siguiente tabla recoge la edad y el nmero de ausencias laborales durante un ao de los
empleados de un ayuntamiento:

246
Ausencias
Edad
0-5 5-10 Ms de 10
16-25
25-40
40-55
55-65
20
10
9
15
9
22
20
14
30
31
25
35
Contraste la independencia entre la edad y el nmero de ausencias con un nivel de
significacin del 1%.
Solucin:
( )
2
2
1 1
13, 006
r c
ij ij
i j
ij
n E
E

= =

= =


2 2
( 1)( 1); 1 2 3; 0,99
16, 81
r c


= =
Como
2 2
( 1)( 1); 1
( 13, 006) ( 16, 81)
r c


= < = , se acepta la hiptesis nula de que la edad y
el nmero de ausencias son independientes con un nivel de significacin del 1%.
Sin embargo
2 2
6; 0,95
( 13, 006) ( 12, 59) = > = , se rechazara la hiptesis nula de que el
nmero de ausencias es independiente de la edad con un nivel de significacin del 5%.
17. Se ha preguntado a 1000 conductores sobre su preferencia en relacin a tres tipos de
vehculos, obtenindose
Sexo/Vehculo monovolumen deportivo todo terreno
hombres 250 275 225
mujeres 80 75 95
c) Es independiente la preferencia de vehculo del hecho de ser hombre o mujer?
d) En general, sin distinguir entre hombre y mujeres, existe un mismo grado de
preferencia entre los conductores por cada tipo de vehculo?
Solucin: a)
( )
2
2
1 1
6,233
r c
ij ij
i j
ij
n E
E

= =

= =


2 2
(3 1)(2 1); 1 0,05 2; 0,95
5, 99

= =
2 2
(3 1)(2 1); 1 0,01 2; 0,99
9, 21

= =
Se rechaza la hiptesis nula de independencia con un nivel de significacin del 5% pero se
acepta esa misma hiptesis nula con un nivel de significacin del 1%.
b)
2 2 2
1,1 2, 0'90
1, 4 4, 60
k


= = = Incluso con un nivel de significacin del 10% se
acepta la hiptesis nula de igual preferencia por cada tipo de vehculo.
18. Se sabe que en un centro de Enseanza Primaria, el 62% de los estudiantes de ltimo curso
dejan de estudiar, el 37% pasan a formacin profesional y el 1% pasan a enseanza
secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el ao pasado.
De ellos, 54 dejaron de estudiar, 17 se pasaron a formacin profesional y nueve pasaron a
enseanza secundaria. Concuerdan los datos muestrales con los estadsticos de aos
anteriores? ( 0, 05 = )
247
Solucin:
2 2
1;0,95
1, 027 3, 84 = = . 1,027<3,84 luego se acepta la hiptesis de que los
porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38%
repectivamente.
19. En Estados Unidos se sabe que, histricamente, el 75% de los profesores de la
Universidad de Harvard que se presentan a decanos son americanos, el 24% son europeos
y el 1% de otros paises. De una muestra de 100 candidatos que se han presentado este ao,
70 eran americanos, 21 eran europeos y nueve de otros paises. Los candidatos de este ao
han seguido el mismo patrn que en aos anteriores? ( 0, 05 = )
Solucin:
2 2
1;0,95
1, 33 3, 84 = = . 1,333<3,84 luego se acepta la hiptesis de que los
porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente.
20. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que
realizan como muy tiles, el 36% como poco tiles y el 4% como nada tiles. Se toma una
muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 68
consideran que los cursos son muy tiles, 18 consideran que son pocos tiles y 14 que son
nada tiles. Contrastar la hiptesis de que los resultados obtenidos se corresponden con la
opinin personal del rector. ( 0, 05 = )
Solucin:
2 2
1;0,95
2, 67 3, 84 = = . 2,67<3,84 luego se acepta la hiptesis de que los
porcentajes de alumnos que consideran los cursos tiles y poco o nada tiles son el 60% y
40% repectivamente.
21. Se realiz una investigacin para estudiar la reaccin de las empresas ante las opiniones de
importantes auditores. La siguiente tabla muestra, para empresas que haban recibido una
opinin positiva, negativa o neutra de un auditor, cules cambiaron de auditor al ao
siguiente. Contrastar, a nivel del 1%, si el cambio de auditor por las empresas no depende
de la opinin que recibieron del auditor.
Opinin recibida
Positiva Negativa Neutra
Cambiaron auditor 141 227 23
No cambiaron auditor 991 8051 14
Solucin:
( )
2
2
1 1
224,223415
r c
ij ij
i j
ij
n E
E

= =

= =

, hay que compararlo con el valor


2 2 2
( 1)( 1); 1 1 1; 0,99 1; 0,99
6, 63
r c


= = = . Como
2 2
( 1)( 1); 1 r c


> , se rechazara la hiptesis
nula de independencia entre las opiniones de los auditores y la reaccin de las empresas.
248
22. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos, con edades
comprendidas entre los 16 y los 24 aos y de origen anglosajn o hispano, se les pregunt
cuanto alcohol consuman a lo largo de una semana. La siguiente tabla muestra los
resultados.
Nmero de botellas alcohol
0-1 2-4 Mas de 4
Anglosajn 19 45 3
Hispano 25 47 7
Contrastar, a nivel del 5% si el alcohol consumido depende del origen de los individuos.
Solucin:
( )
2
2
1 1
0,186078677
r c
ij ij
i j
ij
n E
E

= =

= =

, hay que compararlo con el valor


2 2 2
( 1)( 1); 1 1 1; 0,95 1; 0,95
3, 84
r c


= = = . Como
2 2
( 1)( 1); 1 r c


< , se acepta la hiptesis nula
de independencia entre el consumo de alcohol y el origen de los individuos.
23. La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuntos
de ellos ven la televisin menos de dos horas, de dos a cuatro y ms de cuatro horas.
Horas de televisin por da
Menos de 2 horas De 2 a 4 horas Ms de 4 horas
Hombre 18 10 2
Mujer 17 13 8
Contrastar a nivel de significacin del 5% si el nmero de horas que ven la televisin se
distribuye de igual forma en hombres que en mujeres.
Solucin:
( )
2
2
1 1
1,563581681
r c
ij ij
i j
ij
n E
E

= =

= =

, hay que compararlo con el valor


2 2 2
( 1)( 1); 1 1 1; 0,95 1; 0,95
3, 84
r c


= = = . Como
2 2
( 1)( 1); 1 r c


< , se acepta la hiptesis nula
de que se distribuye de igual forma en hombres que en mujeres el nmero de horas que
ven la televisin.



11. Contrastes no Paramtricos


1. A continuacin se proporcionan los valores ordenados de una muestra aleatoria del
nmero de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963,
981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063.
249
En aos anteriores el nmero de respuestas correctas estaba representado, de forma
adecuada, por una N(985, 50). Con base en esta muestra y usando el test de Kolmogorov-
Smirnov, existe razn para creer que ha ocurrido un cambio en la distribucin de
respuestas correctas? ( 05 . 0 = )
Solucin:
( ) ( )
exp
0,1207 0, 327 D D

= < = luego no existen motivos para rechazar que el


nmero de respuestas correctas est representado por una N(985, 50).
2. Dos grupos de empleados de una empresa son sometidos a sendos programas de
entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala
de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados
obtenidos son
Grupo 1 50 83 45 63 72 56 65 47
66 35 14 57 90 25 15 74
Grupo 2 95 92 85 86 72 75 93 67
56 85 93 98 85 62 54 56
Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos mtodos producen la
misma distribucin de probabilidades sobre las puntuaciones resultantes.( 05 . 0 = )
Solucin: La funcin de distribucin del primer grupo siempre es mayor que la del
segundo grupo,
1 2
16 16
( ) ( ) F x F x > , lo que sugiere un contraste unilateral. 0, 05 = , n=m=16
6
16
D

= .
exp
8 6
16 16
D D

| | | |
= > =
| |
\ . \ .
las dos muestras no provienen de la misma
poblacin, o lo que es lo mismo, los dos mtodos no son iguales. El grupo 2 arroja
puntuaciones mayores, lo que se refleja en que
1 2
16 16
( ) ( ) F x F x > .
3. Contrastar a un nivel 1 . 0 = si los datos siguientes proceden de una distribucin Normal
con media 10.84 y desviacin tpica 3.5:
10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1
Solucin: 0,1 10 0, 369 n D

= = = .
( ) ( )
exp
0,1594 0, 369 D D

= < = luego no
existen motivos para rechazar la hiptesis nula.
4. Para comparar la productividad de dos talleres de artesana pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas
de un artculo concreto, el resultado se muestra a continuacin:
Taller 1 78 64 75 45 82
Taller 2 110 70 53 51
250
Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos
talleres es la misma. ) 05 . 0 ( = .
Solucin:
( ) ( )
2 2 1 2
4 5
( 2) 2 3 5 9 19 4 5 19 11 4 5 9
2
T T T T
R taller U U U

= + + + = = + = = =
( ) min 11, 9 9 U = = 4, 5, 1 ( 3.19) ( 9) ( 1) n m U tabla U U

= = = = > =
los dos talleres producen lo mismo.
5. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello
un equipo de expertos somete a observacin el comportamiento en el trabajo de 12
trabajadores seleccionados al azar asignando a cada uno de ellos una puntuacin entre 0 y
100. Tras aplicar los incentivos se realiza de nuevo la observacin sobre otros 12
trabajadores tambin seleccionados al azar. El resultado de ambas fue
No incentivos 67 78 69 67 56 57 78 79 56 43 45 65
Incentivos 78 98 67 87 79 65 76 87 57 76 77 78
Realizar el contraste utilizando la prueba de Mann-Whitney.( 05 . 0 = )
Solucin:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`
>
)

1 2 3, 5 3, 5 5, 5 7, 5 10 10 12 17, 5 17, 5 20, 5 110, 5
NO
R = + + + + + + + + + + + =
( )
12 13
12 12 110, 5 111, 5 144 111, 5 32, 5
2
NO SI
U U

= + = = =
0
min (111, 5; 32, 5) 32, 5 U = =
42 U

= ;
0
( 32, 5) ( 42) U U

= < = rechazo la hiptesis nula, por tanto, los


incentivos tienen efectos positivos sobre la produccin.

Reptase el contraste suponiendo que se dispusiera de informacin para 25 trabajadores en
cada situacin y que los datos son los que se recogen en la siguiente tabla.
72 83 74 71 60 60 82 84 61 48 50 70 71
No incentivos
67 78 69 67 56 57 78 79 56 43 45 65
84 99 73 94 85 70 80 93 63 80 84 85 88
Incentivos
78 98 67 87 79 65 76 87 57 76 77 78
Solucin:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=
`
>
)

442 833
NO SI
R R = =
251
( ) ( )
25 26
25 25 442 508 25 25 508 117
2
NO SI
U U

= + = = =
0
min (508; 117) 117 U = =
( )
25 25 25 25 51
, 312, 5; 51, 54
2 12
U N N
| |

=
|
|
\ .

| | | |
0
117 312, 5
117 / 3, 79 0, 00007
51, 54
p P U H P Z P Z
(
= = = =
(


( ) ( ) 0, 00007 0, 05 p = = rechazo la hiptesis nula, por tanto, los incentivos tienen
efectos positivos sobre la produccin.
6. Para contrastar si un determinado curso de perfeccionamiento es efectivo, se somete a una
muestra de 11 trabajadores a dicho entrenamiento, controlando el tiempo medio empleado
en concluir determinada tarea, antes y despus del curso. Los resultados son los siguientes
Antes 12 15 9 16 13 17 12 14 8 10 11
Despus 8 15 10 10 11 15 13 12 9 9 7
Ha influido el curso en el tiempo empleado en concluir la tarea? ( 0.05) =
Solucin: Test de Wilcoxon de los signos-rangos:

47, 5 7, 5 7, 5 R R R
+
= = = . Segn
tabla
4.2 (unilateral, 5%) valor crtico: 10. 7,5<10 se acepta que el tiempo empleado en
concluir la tarea es menor despues del curso. (bilateral, 5%) valor crtico 8, 7,5<8 se
rechaza la hiptesis nula de que el tiempo en concluir la tarea antes y despus del curso es
el mismo.
Test de los signos: El nmero de diferencias negativas y positivas (3 y 7 respectivamente)
cae dentro de la regin de aceptacin
| |
2, 8 (vease tabla 4.4, bilateral 5%), se acepta la
hiptesis nula
de que el tiempo en concluir la tarea antes y despus del curso es el mismo.

7. Con un nivel de significacin del 5%, contraste la hiptesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribucin normal de
media 14 y varianza 2,25.
Solucin: Para n=10 y 0, 05 = el valor crtico D

para el test de bondad de ajuste de K-S


es D

=0,409.
( ) ( )
exp
0,1088 0, 409 D D

= < = luego no existen motivos para rechazar la


hiptesis nula.

8. Con nivel de significacin 5% contraste la hiptesis de que los siguientes valores
muestrales
252
X
i
n
0,45
0,55
0,6
0,75
0,8
0,85
0,88
1
2
3
1
2
1
4
2
5
20 n =
proceden de la distribucin de probabilidad dada por
2
0
0 0
0 1
1 1
x
F x x
x


=
`

)

Solucin: Para n=20 y 0, 05 = D

=0,294.
( ) ( )
exp
0,19 0, 294 D D

= < = luego acepto la


hiptesis nula.
9. Con nivel de significacin de 5%, usando el test de Kolmogorov-Smirnov, contraste la
hiptesis de que los siguientes valores muestrales proceden de una misma poblacin.
Muestra 1 2 4 2 3 5 6 7 8 9 3
Muestra 2 2 4 5 3 5 4 7 6 5 3
Solucin:
exp
2/10 0, 2 D = = 0, 05 = , n=m=10,
6
0, 6
10
D

= = ,
exp
D D

< , acepto la
hiptesis nula de que las dos muestras se han obtenido de la misma poblacin.
10. La duracin en minutos de las 100 llamadas telefnicas recibidas durante un da en una
empresa de seguros de automviles se recoge en la siguiente tabla
Duracin en minutos Nmero de llamadas
menos de 10 15
10-20 17
20-30 26
30-40 18
40-50 13
50-60 11
Contraste, con un nivel de significacin del 5%, la hiptesis de que la duracin de las
llamadas recibidas sigue una distribucin Normal con media 30 minutos y desviacin tpica
10 minutos. Utilice los contrastes de bondad de ajuste
2
y de Kolmogorov-Smirnov.
Solucin:
2 2
1,1 3, 0'95
7, 81
k


= = . Como
( )
2
30,13 = >7,81 rechazamos la hiptesis nula
de que la duracin de las llamadas sigue una distribucin Normal con media 30 y
desviacin tpica 10.
253
( ) ( )
0
max 0,1613
exp n
D F x F x = = . Buscando en las tablas, para un contraste bilateral,
1, 3581
0,1358
100
T
D = = . Al igual que con el anterior procedimiento de contraste se rechaza
0
H dado que
exp T
D D >
11. Las inversiones realizadas (en miles de ) por un grupo de 6 empresas en el mes pasado se
recogen en la siguiente tabla:
Empresa E1 E2 E3 E4 E5 E6
Inversin 318 322 345 300 338 311
Puede considerarse que siguen una distribucin normal de media 320.000 y desviacin
tpica 10.000 ? ( 0, 05 = )
Solucin: ( ) ( )
0
max 0,1493
exp n
D F x F x = =
(0,05)
0, 519
T bilateral
D = .
exp T
D D < por tanto
se acepta la hiptesis de que las inversiones de las empresas siguen una ley normal con la
media y desviacin tpica indicadas.
12. Se observa durante 15 das los litros de cerveza de una determinada marca que se han
vendido en un supermercado, obtenindose las siguientes cantidades:
150 140 150 130 160
160 150 140 170 140
130 160 150 140 170
Contraste la hiptesis de que el nmero de litros vendidos se distribuye segn una ley
normal de media 150 litros y desviacin tpica 10 litros. ( 0,1 = ). Utilice el contraste de
bondad de ajuste de Kolmogorov-Smirnov.
Solucin: ( ) ( )
0
max 0, 2413
exp n
D F x F x = =
(0,10)
0, 304
T bilateral
D =
Se acepta
0
H dado que
exp T
D D <
13. Se ha observado la temperatura durante los dias de una semana en la recepcin de un
hotel, obtenindose
23,3
17,6
16,4
20,9
23,8
23,3
24,0
Contraste con un nivel de significacin del 5% la hiptesis de que la muestra procede de
una poblacin normal con media 20 y desviacin tpica 2.
Solucin:
exp
0, 2451 D =
(0,05)
7 0, 483
T bilateral
n D = =
exp T
D D < , por tanto se acepta la
hiptesis nula de que la muestra procede de una poblacin normal.
254
14. Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19,
21, 18, 21, 22 ( 0,10 = )
Solucin: 4 R = es compatible al 10% con la hiptesis de aleatoriedad pues
( ) ( ) ( ) 3 4 9
u o
r R r = < = < =
15. Supngase dos muestras aleatorias independientes de tamaos
1 2
20, 20 n n = = que han
proporcionado el siguiente nmero de rachas 15 R = . Contraste la hiptesis nula de
igualdad de las poblaciones de procedencia. ( 0, 05 = )
Solucin: nicamente un reducido nmero de rachas nos inducira a rechazar la hiptesis
nula de igualdad de poblaciones. Es decir, un test al nivel del 5% unilateral. con ayuda de
los extremos crticos inferiores del 5% de la tabla 4.40. 15
u
r = y como para
( 15) ( 15)
u
R r = = se rechaza la hiptesis nula a favor de que las muestras proceden de
poblaciones distintas.
16. Supngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral,
al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2
negativas. Proceden las dos muestras ligadas de la misma poblacin?
Solucin: De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores
encontrados en nuestro caso caen fuera de los lmites por lo que se rechaza la hiptesis nula
y se acepta que ambas muestras proceden de poblaciones distintas.
17. Un bioqumico quiere comparar dos mtodos de determinacin de la concentracin de
testosterona en la orina. Sean A y B dichos mtodos. Para la comparacin, bilateral y al
nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribucin de los valores es
normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas.
(utilcese el test de Wilcoxon de los signos-rangos)
Muestra n 1 2 3 4 5 6 7 8 9
A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47
B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51
Solucin: n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2
se tiene que

13, 5 3 R = > , por tanto no puede rechazarse la hiptesis nula.


18. Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en
euros) dedicada a las cuotas de utilizacin de determinados programas de televisin pago
por visin. Pasados tres meses se repite la encuesta entre las mismas familias. Los
resultados aparecen en la siguiente tabla. Contraste la hiptesis de que la cantidad mensual
dedicada al pago por visin no ha cambiado significativamente (utilice los tests de los
signos y de Wilcoxon).
255
Familia n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78
Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82
Solucin: Test de Wilcoxon de los signos-rangos:

23, 5 54, 5 23, 5 R R R


+
= = = . Segn tabla
4.2 (bilateral, 5%) valor crtico: 13.
23,5>13 se acepta la hiptesis nula de que
la cantidad mensual dedicada al pago por
visin no ha cambiado.
Test de los signos: El nmero de diferencias negativas y positivas (9 y 3 respectivamente)
cae dentro de la regin de aceptacin
| | 3, 9 (vease tabla 4.4, bilateral 5%),
se acepta la
hiptesis nula de que
la cantidad mensual dedicada al pago por visin no ha cambiado.
19. Antes de realizar una campaa de publicidad, se realiza una encuesta a 200 personas a las
que se les solicita su opinin sobre un determinado producto financiero. Despus de
realizada la campaa, se realiza la misma pregunta a las mismas 200 personas. Los
resultados se recogen en la siguiente tabla
DESPUES DE LA CAMPAA
BUENA NO BUENA
BUENA 30 24 ANTES DE LA
CAMPAA NO BUENA 126 20
Utilice el test de los signos para contrastar la hiptesis nula de que no ha cambiado la
opinin que los encuestados tienen sobre el producto.
Solucin:
150
75
2 2
n
np = = = =
2
150
37, 5 6,124
4 4
n
npq = = = = =
24
8, 33 1, 645 ( 5%, 10%) unilateral bilateral

= < se rechaza la hiptesis nula de


que no ha cambiado la opinin que los encuestados tienen sobre el producto.

24
8, 33 1, 96 ( 2, 5%, 5%) unilateral bilateral

= < al mismo resultado se llega


con estos otros niveles de significacin.
Segn la tabla 4.5 para n=150=126+24, el extremo izquierdo para el test bilateral con
5% = es 63, como 24<63 se llega a la misma conclusin que antes (donde
63 1, 96 62, 99 = , es lo mismo comparar -8,33 con -1,96 que 24 con 63).
En este ejemplo parece ms adecuado el test unilateral dado que claramente predomina el
cambio de signo en la opinin en un sentido frente al opuesto.
20. Se encuestan 40 establecimientos para conocer los beneficios diarios, en euros, que se
obtienen con la venta de un determinado producto. Al cabo de tres meses se repite la
256
encuesta. Los resultados se recogen en la siguiente tabla. Contraste la hiptesis la
distribucin de los beneficios, al cabo de tres meses, sigue siendo la misma.
N de encuesta 1 muestra 2 muestra N de encuesta 1 muestra 2 muestra
1 16 17 21 24 25
2 20 24 22 16 19
3 8 12 23 17 15
4 9 6 24 27 24
5 27 24 25 17 17
6 12 15 26 41 32
7 35 28 27 35 32
8 25 25 28 45 41
9 15 17 29 12 0
10 30 21 30 23 23
11 16 30 31 15 19
12 32 31 32 34 30
13 21 21 33 21 21
14 23 26 34 19 19
15 19 21 35 0 14
16 32 32 36 24 29
17 27 32 37 33 47
18 16 14 38 12 20
19 21 21 39 19 19
20 34 30 40 21 21
Solucin: Test de Wilcoxon de los signos-rangos:

210, 5 254, 5 210, 5 R R R


+
= = = . Segn tabla
4.2 (bilateral, 5%) valor crtico: 137.
210,5>137 se acepta la hiptesis nula de que
la distribucin de los beneficios, al cabo de
tres meses, sigue siendo la misma.

Test de los signos: El nmero de diferencias negativas y positivas (16 y 14
respectivamente) cae dentro de la regin de aceptacin
| |
10, 20 (vease tabla 4.4, bilateral
5%),
se acepta la hiptesis nula de que
la distribucin de los beneficios, al cabo de tres
meses, sigue siendo la misma.
21. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov, Mann-Whitney y de
las rachas que las siguientes muestras proceden de la misma poblacin ( 0, 05) =
MUESTRA A MUESTRA B
10, 12, 8, 10, 15, 12, 11, 14, 15, 13, 15,
14, 16, 17, 23, 17, 14, 15, 14, 21, 20, 17
13, 10, 9, 15, 17, 14, 13, 12, 15,
12, 13, 12, 14, 14
Solucin: Test de Kolmogorov-Smirnov:
exp
0, 286 D =
1 2 (0,05)
22 14
1, 3581 0, 464
22 14
T bilateral
n y n grandes D
+
= =


exp T
D D < , por
tanto se acepta la hiptesis nula de que las dos muestras proceden de una misma
poblacin.
257
Test de Mann-Whitney:
0
453 213 108
A B
R R U = = =
( ) 93 3.19, 0, 05, 22, 14 U tabla m n

= = = =
0
U U

>
por tanto se acepta la hiptesis nula de que las dos muestras proceden de una misma
poblacin.
Test de las rachas:
Segn se ordenen los empates se obtienen 13 o 15 rachas. Utilizamos la aproximacin
normal con
1 2
1 2
2 2 14 22
1 1 18,1
14 22
n n
n n


= + = + =
+ +


( ) ( )
( )
( ) ( )
2 1 2 1 2 1 2
2 2
1 2 1 2
2 14 22 2 14 22 14 22
2 (2 )
7, 876543 2,81
1 14 22 14 22 1
n n n n n n
n n n n



= = = =
+ + + +

13
1,815 z

= =
0,05
( 1,815) ( 1, 645) z z = = por tanto se rechaza la hiptesis nula de que las dos
muestras proceden de una misma poblacin.
15
1.103 z

= =
0,05
( 1,103) ( 1, 645) z z = > = por tanto se acepta la hiptesis nula de que las dos
muestras proceden de una misma poblacin.
22. Para comparar la productividad de dos talleres de artesana pertenecientes a una misma
empresa, se obtuvo en sendas muestras de 4 y 5 meses, la cantidad de unidades producidas
de un artculo concreto, el resultado se muestra a continuacin:
Taller 1 70 60 70 40
Taller 2 110 70 50 50 70
Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos
talleres es la misma. ) 05 . 0 ( = .
Solucin:
1 2
4 5
1
max ( ) ( ) 0, 25
4
exp
D F x F x = = =
(0,05)
4
0,8
5
T bilateral
D = =
Se acepta que la productividad de los dos talleres de artesana es la misma dado que
exp T
D D <
23. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello
un equipo de expertos somete a observacin el comportamiento en el trabajo de 5
trabajadores seleccionados al azar asignando a cada uno de ellos una puntuacin entre 0 y
258
100. Tras aplicar los incentivos se realiza de nuevo la observacin sobre otros 5
trabajadores tambin seleccionados al azar. El resultado de ambas fue
No incentivos 70 80 70 70 60
Incentivos 80 100 70 90 80
Realice un contraste de Kolmogorov-Smirnov. ( 05 . 0 = )
Solucin:
1 2
5 5
3
max ( ) ( ) 0, 6
5
exp
D F x F x = = =
(0,05)
3
0, 6
5
T unilateral
D = =
Se acepta que los incentivos a la productividad no son efectivos dado que si
exp T unilateral
D D no se rechaza la hiptesis nula de que las dos poblaciones (con incentivos
y sin incentivos) tienen el mismo comportamiento.
24. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en
euros) dedicada a las cuotas de utilizacin de determinados programas de televisin pago
por visin. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en
la siguiente tabla. Contraste la hiptesis de que la cantidad mensual dedicada al pago por
visin no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov,
0, 05 = ).
Primera encuesta 30 20 0 50 40 30 30
Tres meses despus 20 20 10 60 0 30 20
Solucin:
1 2
7 7
3
max ( ) ( ) =0,4286
7
exp
D F x F x = =
(0,05)
5
0, 0, 7143
7
T bilateral
D = =
Se acepta la hiptesis de que la cantidad mensual dedicada al pago por visin no ha
cambiado dado que
exp T bilateral
D D < .

259

















PRE-PRCTICAS
260


INTRODUCCIN.


Sera deseable que el alumno construyera hojas de clculo como las del fichero PRCTICAS
partiendo de hojas en blanco. Dado el escaso nmero de horas de prcticas y para que dicho
tiempo se dedique a los aspectos ms relacionados con la asignatura, se han confeccionado
unas PRE-PRCTICAS donde la base de la plantilla como lneas, colores, etiquetas,...
permanece en las hojas y falta por completar aquellas expresiones que hemos considerado
ms interesantes.
Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone
conocido por el alumno, sencillamente se recuerda y aconseja sobre la forma de utilizarlo. Se
pretende as que el alumno conozca mejor cmo se han construido estas hojas para que haga
un uso correcto de ellas y, si fuera el caso, sea capaz de modificarlas y adaptarlas a nuevas
situaciones.

Al faltar el valor de determinadas celdas, otras que dependen de las anteriores aparecern con
mensajes de error de clculo. Esos errores de clculo se irn resolviendo a medida que se
vayan completando las primeras. Todas las celdas, salvo las que el alumno debe completar,
estn protegidas.

Una vez resuelta cada PRE-PRCTICA su contenido debe coincidir con la hoja
correspondiente del fichero PRCTICAS.


261
PRE-PRCTICA 1
Muestreo aleatorio simple en poblaciones infinitas

En esta pre-prctica completaremos todas las expresiones (celdas amarillas) del caso numrico
y aquellas del caso no numrico que son diferentes de las anteriores.

Las expresiones o funciones ms habituales estn en Excel y nos podemos referir a ellas
simplemente indicando su nombre. As para calcular la media aritmtica, en lugar de escribir
la expresin de la suma de las celdas donde estn los datos y dividir por el nmero datos,
usaremos la funcin PROMEDIO.
Para contar el nmero de datos de la muestra usaremos la funcin CONTAR y para hallar la
cuasivarianza utilizaremos VAR.
Todas las funciones de Excel van precedidas por el signo =. Cuando una funcin, como las
anteriores, se refiere a los datos contenidos en un rango de celdas (conjunto continuo de
celdas), indicaremos la primera y ltima celda separadas por dos puntos (p.e.,
=CONTAR(C21:C100)). Si el rango de celdas ocupa ms de una columna, se indicar la
primera celda de la primera columna y la ltima celda de la ltima columna.
Para completar las expresiones de las celdas C12, C13, C14, C15, C18, D11, D12 Y D18 nos
basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los
apuntes y en el formulario. Recordemos que debemos empezar siempre con el signo =, que las
operaciones aritmticas habituales estn representadas por los conocidos smbolos del teclado
262
+ , , * , / . Para la raz cuadrada utilizaremos la funcin RAIZ (p.e. =RAIZ(D11)) y para las
potencias el smbolo del acento circunflejo francs ^ (p.e., para elevar B3 al cuadrado:
=B3^2).

PRE-PRCTICA 2
Muestreo aleatorio simple en poblaciones finitas

El muestreo aleatorio simple en poblaciones finitas es anlogo en sus expresiones al caso
infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones
finitas que aparece en la expresin de la varianza del estimador de la media

2
-
( )
S N n
V y
n N
(
| |
=
| (
\ .

y la novedad de que no slo se puede estimar la media sino tambin el
total.

Utilizando las relaciones de la estimacin del total y su varianza con los correspondientes
valores para la media

( )
2
, ( ) ( ) N y V N V y = =

completaremos las celdas D10 y D12.
263
La varianza para el estimador de la media (y proporcin) en C12 (y E12) es anloga a la del
caso infinito salvo el coeficiente corrector para poblaciones finitas:

2
-
( )
S N n
V y
n N
| |
=
|
\ .
,


-
( )
1
pq N n
V p
n N
| |
=
|

\ .
.
En las celdas C18, D18, E18 y F18 calculamos el tamao de la muestra n segn las
expresiones que aparecen en el formulario. Debe decirse en este punto que debemos usar los
parntesis necesarios para que el orden de las operaciones sea el correcto.

2
2
( 1)
N
n
N D

=
+

2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=
( 1)
Npq
n
N D pq
=
+

2
( )
4
B
D proporcin =
2
2
( )
4
B
D total
N
=

Para facilitar la escritura en Excel de algunas expresiones del fichero PRCTICAS, stas se
han simplificado previamente y lo que aparece no es la trascripcin fiel de cmo estn en los
apuntes de clase y en el formulario.
La cota del error de estimacin y los extremos de los intervalos de confianza tienen en este
tipo de muestreo y en los que siguen la misma expresin que se ha visto para el muestreo
aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una
de las pre-prcticas.

PRE-PRCTICA 3
Muestreo aleatorio estratificado

Trabajaremos sobre el modelo de tres estratos, caso numrico. Los modelos de dos y cuatro
estratos as como el caso no numrico se han construido de forma anloga.
Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio
simple por lo que sern vlidas las expresiones construidas para este tipo de muestreo en la
pre-prctica anterior. Tambin sern tiles las funciones copiar y pegar para no tener que
repetir una por una todas las expresiones en cada uno de los estratos.
En primer lugar y para ilustrar lo ltimo dicho, observemos que en la pre-prctica aparece en
la parte superior (donde calculamos los estimadores y sus errores) slo las expresiones para el
primer estrato (segn el muestreo aleatorio simple). Si se observa se ver que dichas
expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). Anlogas
264
expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la
columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas
expresiones dos o ms veces, dependiendo del nmero de estratos, usaremos las acciones
copiar y pegar.

Marcaremos el rango de celdas que va de C9 a D15, seleccionaremos copiar, marcaremos el
rango E9:F15 (o slo la primera de las celdas, E9) y con la opcin pegar se copiarn las
expresiones del estrato 1 en el estrato 2 pero, como puede comprobarse, referidas a la columna
E en lugar de C. Repetiremos lo mismo para el estrato 3.
Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de
cada estrato pero no de la poblacin global (columnas I y J). Dadas las conocidas relaciones
entre la media y el total (trabajado en la pre-prctica anterior) nos vamos a centrar en la media
y concretamente en las expresiones que son diferentes de todo lo que hasta aqu se ha visto.
Para calcular en I8 el tamao total de la poblacin (igual en I9 para el tamao total de la
muestra) debemos sumar los correspondientes tamaos en cada estrato. Para eso se puede usar
el smbolo + o la funcin SUMA ( =C8+E8+G8 o =SUMA(C8:G8)). Cuando usemos la
funcin SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos
los dos puntos por punto y coma (por ejemplo, =A5+B15+F3 es igual a
=SUMA(A5;B15;F3)). Esto ltimo es lo que se ha hecho en las expresiones de I10 y I12 que
se podran igualmente haber escrito usando el smbolo + sencillamente.
265

Para facilitar la construccin de las expresiones correspondientes a las distintas asignaciones
se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en
esas sumatorias. Como las expresiones son las mismas para cada estrato, pero referidas a los
datos de cada uno, escribiremos primero las correspondientes al estrato 1 (C16, C17, C18 y
C19) y posteriormente como se hizo antes, las marcaremos, seleccionaremos copiar y
pegaremos en las celdas E16, E17, E18 y E19 para el segundo estrato y en G16, G17, G18 y
G19 para el tercero.

Dada la analoga de las expresiones para las distintas asignaciones en el caso de la media y
total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel), nos
centraremos en el caso de la media.
TAMAO
MUESTRAL

MEDIA y TOTAL







ASIGNACIN
PTIMA

1 1
2 2
1
( )
L L
i i
i i i
i i
i
L
i i
i
N
N c
c
error fijo B n
N D N

= =
=
=
+


1
1
( )
L
i i
i
i
L
i i i
i
N
C
c
coste fijo C n
N c

=
=
=


1
j j
j
j L
i i
i
i
N
c
N
c

=
=





ASIGNACIN DE
NEYMAN

2
1
2 2
1
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
=
+


1
j j
j L
i i
i
N
N

=
=





ASIGNACIN
PROPORCIONAL

2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N

=
=
=
+


j
j
N
N
=
266


D
2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=

De acuerdo a las expresiones de n para cada tipo de asignacin, confeccionaremos las celdas
I22, I23, I24 Y I25, a continuacin calcularemos los tamaos de las muestras de cada estrato
segn la expresin
i i
n n = en las correspondientes celdas de las columnas C, E y G. Los
coeficientes de asignacin son similares para cada estrato por lo que los escribiremos para el
estrato 1 en la columna C y lo copiaremos en los otros estratos.
Una novedad en relacin a las copias que se han hecho antes es que aparece el smbolo $
precediendo bien la letra o el nmero que definen la posicin de una celda. Este smbolo tiene
la propiedad de fijar el valor de la columna (letra) o fila (nmero) a la hora de hacer copias.
Como es conocido, cuando copiamos la expresin de una celda en otra, todas las letras y
nmeros relativos a la posicin de las celdas referenciadas en la expresin cambian avanzando
o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde
copiamos. Para que esto no sea as (cuando nos convenga, como el caso que nos ocupa de las
asignaciones) con el smbolo $ fijaremos las posiciones de las celdas que no queramos que
cambien en la copia.
Nota: se recuerda que el hecho de que aparezca el smbolo $ en la referencia a una celda no
cambia en absoluto su valor.
Segn las anteriores aclaraciones escribiremos
i i
n n = en las celdas C22, C23, C24 y C25
(observe que el valor de
i
es el mismo en C22 y C25, en ambos casos usamos la asignacin
ptima), y posteriormente lo copiaremos en E22, E23, E24 y E25 para el estrato 2 y en G22,
G23, G24 y G25 para el estrato 3.
En la siguiente pantalla se pueden observar algunos de los anteriores comentarios.
1 1
1
j j
j
L
i i
i
i
N
c
n n n
N
c

=
= =


$I22=n C19=
1 1
1
N
c

$C19+$E19+$G19=
3
1
i i
i
i
N
c


Los parntesis que aparecen en la expresin de la celda C22 y en otras
(=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el
orden adecuado.
267


PRE-PRCTICA 4
Estimadores de razn, regresin y diferencia

En esta pre-prctica estimaremos la razn R y la media utilizando estimadores de razn ,
regresin y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas
a partir de la media).

268
Los valores de los estimadores as como de sus varianzas se expresan fcilmente en las celdas
C12, C13, D12, D13, F12, F13, H12 y H13. Slo un detalle digno de mencin: debido a los
ceros que aparecen en las columnas E (
i
rx ), F (
2
( )
i i
y rx ), H (
i i i
d y x = ) e I (
2
i
d ) cuando se
opera sobre valores inexistentes de las columnas C y D, se tiene que utilizar en H12 la
expresin =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la
funcin PROMEDIO incluira a todos los ceros como datos, obteniendo un valor falso para
dicha media).

Por esta misma razn, al hallar las varianzas residuales C17 y H17 se han usado las
expresiones:
( )
2
2
1
1
1
n
r i i
i
S y rx
n
=
=


C17 =SUMA(F22:F100)/(C11-1)
( ) ( )
2
2
2 1
2 1 1
2 2
2 1
1 1
1 1
( )
1 1 1 1
n
i n n
i
i i
n
i i
i n n
i
D i i i i i i
i i
d
d d n
n
d
n
S y x d d d d y x
n n n n
=
= =
=
= =
| |
|
| |
|
|
| \ .

|
\ .
= + = = = =



En la anterior lnea aparecen distintas formas de escribir la cuasivarianza de las diferencias.
En las PRCTICAS hemos utilizado la ltima.
H17 =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1)
Nota: Mucho cuidado, no confunda
2
1
n
i
i
d
=

y
2
1
n
i
i
d
=
| |
|
\ .

.

Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados clculos de las
columnas E, F, H e I se hubiese utilizado la funcin =SI(condicin; accin si cierta; accin si
falsa), como veremos en la prctica 6. A pesar de esta posible solucin se ha dejado as esta
hoja de prcticas para que seamos conscientes del peligro de esos falsos ceros que aparecen
cuando se opera de esta forma.

La complicada expresin de la varianza residual para los estimadores de regresin (F17) se
ve facilitada porque su raz cuadrada (desviacin tpica residual) es la funcin de Excel
=ERROR.TIPICO.XY.
Nota: Cuidado al escribir los argumentos de esta funcin. En primer lugar se colocan las
celdas con los valores de la variable Y (D22:D100) y a continuacin despus del punto y
269
coma los valores de la variable X: =ERROR.TIPICO.XY(D22:D100;C22:C100). Hacerlo al
revs supondra calcular la desviacin tpica residual para la recta de regresin de X/Y

( )
x a by = +

que no es la recta utilizada en el modelo de los estimadores de regresin.

Si observamos el formulario, los tamaos muestrales (tanto para la media como para el total)
para conseguir un determinado error de estimacin mximo, son similares salvo que cada tipo
de estimador considera su varianza residual.
2 2 2
2 2 2
r L D
r L D
N N N
n n n
ND ND ND


= = =
+ + +

Basndonos en el anterior comentario y utilizando para copiar el smbolo $ donde sea
necesario, bastar con crear las expresiones D19 y E19 y copiarlas en F19, G19 y H19, I19.
A la hora de determinar el tamao muestral para estimar el total se ha tenido en cuenta la
siguiente simplificacin en las anteriores expresiones:
2 2
2
4 4
B B
ND N
N N
= = ,
por ejemplo E19 =($C8*C17)/(C17+((E18^2)/(4*$C8))).
La expresin C19 es algo distinta y no se puede copiar directamente de las anteriores
expresiones, es exactamente igual a D19 salvo el valor
2 2
4
x
B
D

= .

Para completar las columnas E, F, H e I, escribiremos las expresiones en las celdas E22, F22,
H22 e I22,
(E22=$C$12*C22, F22=(D22-E22)^2, H22=D22-C22, I22=H22^2)
posteriormente copiaremos desde E22 hasta E100 (colocando el ratn en la esquina inferior-
derecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F, H e I de igual
forma. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100
habr que fijar con el smbolo $ dicha celda (no es necesario fijar C anteponindole el $,
aunque aparece as en la prctica, basta con escribir C$12 puesto que al copiar no nos
movemos de columna, slo nos movemos de fila).

En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de
regresin. En G22 la calcularemos, segn nuestros apuntes, a partir de la covarianza y
varianza. En G23 aparece segn la funcin de Excel que nos da dicho valor. Con esta
coincidencia se quiere mostrar que en este caso, como en otros, puede haber distintas
alternativas para calcular un mismo valor.
270
G22 =COVAR(C22:C100;D22:D100)/VARP(C22:C100)
G23 =PENDIENTE(D22:D100;C22:C100)
Notas: La misma advertencia que se hizo con la funcin
=ERROR.TIPICO.XY(D22:D100;C22:C100) vale aqu. Las celdas en las que se encuentran
los valores de Y y de X deben aparecer en la funcin PENDIENTE en dicho orden pues si se
altera estaramos calculando la pendiente de la recta de regresin de X/Y. En algunas
funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que
aparezcan las celdas con los valores de X e Y es indiferente. Se sugiere escribir estas
funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo.
La funcin VARP es la varianza de los datos de la muestra mientras que la funcin VAR es la
cuasivarianza de la muestra.

PRE-PRCTICA 5
Muestreo sistemtico

Los clculos para este tipo de muestreo se basan en el muestreo aleatorio simple para
poblaciones finitas que ya se ha estudiado. La nica novedad que presenta respecto a ste es el
clculo de k, el cual se ilustra en la PRACTICA 5 RESUELTA.

271
PRE-PRCTICA 6
Muestreo por conglomerados

En esta pre-prctica haremos uso de la funcin =SI a la que hacamos referencia ms arriba
en la pre-prctica 4. Recordemos su formato,
=SI(condicin; accin si cierta; accin si falsa)

De las celdas cuya expresin vamos a completar en esta pre-prctica

C13, C19, D12 y D13 se construyen utilizando la anterior funcin =SI que nos permite
realizar dos clculos (o acciones) distintos dependiendo de una condicin. En nuestro caso
concreto la condicin va a ser el conocimiento o no del tamao de la poblacin M o lo que es
equivalente el conocimiento o no del tamao medio de los conglomerados de toda la
poblacin
M
M
N
= . Si el contenido de la celda C8 es vaco (C8=) se entender que no se
conoce M y se proceder de una manera (accin si cierta), en cambio si la celda C8 no est
vaca se utilizar dicha informacin y se proceder de otra forma (accin si falsa).
En C13 y C19 las dos formas de proceder consisten en usar 11 m C = o
8
9
C
M
C
=
(aparece
subrayado).
C13 =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))
272

En D12 y D13 (tambin en D14, D15 y D16) dejaremos la celda en blanco () si no tenemos
la informacin de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos
esa informacin, D12 =SI(C8="";"";C12*C8)

El resto de celdas de esta pre-prctica (C12, C17, D19, E12, E13, E17 y E19) se resuelven
fcilmente a partir de las correspondientes expresiones del formulario.
La funcin =SI se podra haber utilizado en el clculo de las celdas E23 a E100 y F23 a F100
para evitar la aparicin de ceros falsos como se anunci en la pre-prctica 4. En la celda
E23 escribiramos =SI(C23=;;C$12*C23) y copiaramos su contenido hasta la celda
E100. En la celda F23 escribiramos =SI(D23=;;(D23-E23)^2) y copiaramos su
273
contenido hasta la celda F100. Como puede comprobarse, de esta manera no aparecen ceros
falsos y los problemas que comentbamos en la pre-prctica 4.

PRE-PRCTICA 7
Estimacin del tamao de la poblacin

Utilizando las operaciones algebraicas bsicas, potencias y logaritmos neperianos (=LN) se
completan sin ningn tipo de nueva dificultad, a partir del formulario, las celdas C17, C18,
D17, D18, E17, E18, E23, E24, F17, F18, F23 y F24. La cota del error de estimacin y los
intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de
tipos de muestreo.


274
275


















PRCTICAS
276
INTRODUCCIN


Se han diseado unas hojas de clculo en Excel que permiten calcular todas las expresiones
sobre muestreo, indicadores estadsticos regionales y medidas de localizacin espacial que se
estudian en la asignatura.

Aunque el formato de cada hoja es distinto dependiendo de los clculos que en ella se
realizan, hay unas caractersticas comunes que vamos a describir en primer lugar:
Las celdas en las que debemos introducir los datos de la muestra son de color gris.
Las celdas en las que calculamos el valor de las expresiones (coeficientes, ndices,
estadsticos,...) son de color amarillo.
Las dems celdas de distintos colores (por motivos meramente estticos) se
corresponden con etiquetas para identificar los valores que aparecen en la hoja.
En la parte superior de cada hoja se calculan los estimadores y errores asociados
(adems de otros valores necesarios y relativos como los intervalos de confianza,...)
por debajo de estas filas y separadas por una o ms filas de color blanco se calcula el
tamao de la muestra (o muestras) necesario para que se pueda hacer la estimacin con
un error mximo fijado de antemano, COTA DEL ERROR DE ESTIMACION
DESEADA (o un coste total mximo, vase el muestreo estratificado)

Para evitar que involuntariamente alteremos las expresiones de estas hojas de clculo se ha
protegido el contenido de todas las celdas salvo las de introduccin de datos (celdas grises).
Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger /
Desproteger hoja o bien copiaremos la hoja del fichero original (PRACTICAS) en una
nueva hoja no protegida (se aconseja esta segunda opcin).

En el desarrollo de la asignatura se propone a los alumnos la realizacin de 9 prcticas con la
ayuda del fichero PRACTICAS.
Para que puedan comprobar la correcta resolucin de las mismas, se ofrecen resueltas en los
ficheros: PRACTICA 1 RESUELTA,.... Las hojas de estos ficheros estn protegidas para
evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen
previamente segn se indica en el prrafo anterior. Una vez resueltos los ejercicios que
aparecen en el enunciado de estas 9 prcticas (que se han seleccionado como representativos
de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos
problemas pueda de las relaciones de ejercicios, resueltos o no, que se le han facilitado.
277

Cuando se vaya a utilizar el fichero PRACTICAS, se debe borrar, antes de introducir los
datos del problema, el contenido de todas las celdas de datos (celdas grises), pues dejar datos
de ejercicios previos podra dar lugar a resultados errneos. Cuando se borren los datos de las
celdas grises aparecern errores de clculo en las celdas donde se evalan las expresiones
sobre dichos datos (#DIV/0!, #VALOR!, #NUM!, ..., dado que se evala la expresin
considerando cero el valor de las celdas vacas). Estos errores desaparecern en cuanto se
introduzcan los correspondientes nuevos datos. En las celdas donde permanezcan dichos
errores son expresiones que no se pueden calcular con la informacin de que disponemos y
por tanto no podemos conocer.

En algunas ocasiones ser necesario introducir la informacin del problema en celdas distintas
a las habituales (grises), para ello desprotegeremos previamente la hoja. Destacamos aqu, por
ser muy frecuente, el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y
muestreo estratificado en lugar de disponer de todos los datos que forman las muestras slo
tenemos la informacin resumida del tamao, media y varianza (en variables numricas) o del
tamao y proporcin (en variables dicotmicas), en ese caso en las correspondientes celdas
(marcadas con un color amarillo ms intenso) escribiremos dichos valores, quedando vacas
las celdas grises correspondientes a los datos muestrales.
(Nota: en la hoja Razn, regresin y diferencia se utilizan distintos tonos de amarillo slo
con fines estticos, no por los motivos indicados aqu para el muestreo aleatorio simple y
estratificado).

El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versin del
programa y de la configuracin de las barras de herramientas, zoom,..., de hecho en este
documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no
resta generalidad ni validez a los comentarios que se acompaan.

Para cada una de las prcticas que siguen se han elegido ejercicios representativos, algunos
estn resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los captulos. Sera
conveniente resolver todos ellos a mano antes de hacerlo con el ordenador, eso ayudar a una
mejor comprensin de cmo se ha construido la plantilla para la prctica y de la potencialidad
del ordenador para resolver este tipo de problemas.
Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que
se resuelven con la ayuda del ordenador y otros a mano, sino que todos los ejercicios que hay
278
en las relaciones de cada captulo se pueden resolver (salvo puntuales excepciones) de ambas
formas y deberan resolverse cmodamente una vez que se dominen estas prcticas tras
resolver los ejemplos que siguen.


Las prcticas 10 y 11 sobre contrastes de hiptesis no paramtricos se realizarn con la
ayuda del programa SPSS. Previo a estas prcticas se ofrece una Introduccin al SPSS
para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una
Guia breve de SPSS para aquellos otros que quieran profundizar ms en su uso.



279
PRCTICA 1

Muestreo Aleatorio Simple en poblaciones infinitas
(o con reemplazamiento)

1. Con objeto de estimar la media poblacional de dos poblaciones infinitas, realizamos
un muestreo aleatorio simple sobre ambas poblaciones, recogiendo en la primera una
muestra de tamao 36 y en la segunda una muestra de tamao 45
MUESTRA 1 MUESTRA 2
26,3
28,5
31,6
25,5
24,6
32,3
35,5
29
27,3
34,6
29,5
28,8
26,6
27,5
35,4
38
29
27
31,5
30,2
29,4
30,6
31,4
25
26
24
29,2
25,5
27,8
26
24
26
31,5
35,3
32,2
34,1
1
0
1
1
0
0
1
1
0
1
1
1
0
0
1
1
0
1
1
0
0
0
1
0
1
0
1
0
0
0
1
1
1
0
1
0
1
0
1
1
0
0
0
0
1
Obtenga en ambos casos:
a. La media muestral.
b. La cuasivarianza muestral.
c. Lmite para el error de estimacin (95% de confianza)
d. Intervalo de confianza para la media poblacional (nivel de confianza del 95%)
Solucin:
MUESTRA 1 MUESTRA 2
a) Media muestral
29, 35 y =

51,11% p =
b) Cuasivarianza muestral
2
1
13, 38
n
S

=
2
1
0, 2556
n
S

=
c) Lmite para el error de estimacin 1,22 0,1507
d) Intervalo de confianza (28,13 , 30,57) (36,04% , 66,18%)

Seleccionamos del fichero Excel PRACTICAS la hoja MAS infinito (Muestreo aleatorio
simple en poblaciones infinitas) y antes de nada, tal y como se aconseja en la
INTRODUCCIN A LAS PRCTICAS EN EXCEL debemos borrar toda la informacin
numrica que hubiera en las celdas grises. Este primer paso comn a todas las prcticas que
siguen no se repetir en la explicacin de cada una para no aumentar innecesariamente la
longitud del documento
280


Dado que los datos de la muestra 1 son numricos los escribiremos en la columna
correspondiente a Datos numricos (columna C) y la muestra 2 por ser dicotmica la
escribiremos en la columna D


Obtenindose la solucin del apartado a) en C10 y D10, del apartado b) en C11 y D11, del
apartado c) en C13 y D13, del apartado d) en C14, C15, D14 y D15.


281
2. Un hipermercado desea estimar la proporcin de compras que los clientes pagan con
su Tarjeta de Compras. Durante una semana observaron al azar 300 compras de las
cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas
con dicha tarjeta.
b) Cuantas compras deberan observarse para estimar, con un error inferior al
2%, la proporcin de compras pagadas con la tarjeta. (Consideren los
datos anteriores como una muestra previa)
c) Si no se tuviera ninguna informacin acerca de los clientes que utilizan la
tarjeta, cuntas compras deberamos observar para asegurar que la anterior
estimacin se realiza con un error inferior al 2%.
Solucin: a) (7,95%, 15,38%), b) n=1.030,61.031, c) n=2.500.
Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo ms intenso
(Herramientas/Proteger/Desproteger hoja...).

Puesto que se trata de una variable dicotmica trabajaremos sobre la columna D. Escribimos
en D9 el tamao de la muestra (300) y en D10 el valor de la proporcin muestral (=35/300)
282


Obtenindose en D14 y D15 la solucin al apartado a): (0,0795 , 0,1538).
Si deseamos ver el valor de una o varias celdas con ms decimales, seleccionaremos stas y
pulsaremos en el botn aumentar decimales de la barra de herramientas formato tantas
veces como decimales se quieran aadir. Anlogamente, con el botn disminuir decimales
redondearemos el resultado con un menor nmero de decimales. (Si la hoja est protegida no
nos permitir hacer este tipo de acciones).
283

En casi todas las hojas (MAS infinito, MAS finito, 2 Estratos, 3 Estratos, 4
Estratos, Razn, regresin y diferencia y Conglomerados) se ha adoptado un esquema
similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y
los errores de estimacin asociados (y clculos relacionados con los anteriores) en la parte
inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se
determina el tamao de la muestra para un lmite del error de estimacin fijado (deseado).
Para esta parte inferior de la plantilla se necesita como informacin, para realizar los clculos,
la cota del error de estimacin deseada y en el caso numrico la varianza muestral que puede
obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta Muestra o bien
a partir del rango (como veremos en el ejercicio 5 de la prctica 2). En el caso dicotmico la
varianza muestral depende de

p (proporcin muestral o estimacin de la proporcin) y este


es el valor que debemos incluir en la plantilla para obtener el tamao muestral,

p puede
obtenerse de una muestra previa que aparecera bajo la etiqueta Muestra, introducirse
directamente si se conoce su valor (como en el apartado b de este ejemplo,

35/ 300 p = ), o
bien, darle el valor 0.5 cuando no se tenga ninguna informacin acerca de su valor (como en el
apartado c).
NOTA: No debe confundirse el tamao muestral que aparece etiquetado en rosa que
corresponde al tamao de una muestra que hemos observado, que ya tenemos, del tamao
muestral que aparece etiquetado en naranja y que nos dice cmo debe ser la muestra que
debemos tomar, por tanto an no se tiene, para conseguir que las estimaciones tengan
284
como mximo un determinado error de estimacin. Asimismo no debemos confundir la
cota del error de estimacin etiquetada en rosa que se refiere al error asociado a una
estimacin hecha con la muestra que hemos observado y por tanto su valor no lo
decidimos nosotros, con la cota del error de estimacin etiquetada en naranja que la
fijamos de antemano.
Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 COTA DEL
ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solucin: n=1030,6

Por ltimo, para resolver el apartado c), dado que no se tiene informacin sobre la proporcin
de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167),
suponemos que ese valor es =0,50.

285
En las celdas D11, D12, D13, D14 y D15 aparecen errores en el clculo de dichas expresiones
debido a que entienden que el tamao muestral en D10 es cero, pero dichas celdas no afectan
al clculo de la expresin D18 donde aparece el tamao muestral necesario para que el error
de estimacin no supere el 2% (D17=0,02)
3. Este mismo hipermercado desea estimar tambin el valor medio de las compras
realizadas con su Tarjeta de Compras. Basndose en los anteriores datos observa
que el valor total de las compras hechas con la tarjeta fue de 4.500 (siendo la
cuasivarianza de los datos 615,15). Estmese el valor medio de las compras pagadas
con la tarjeta y el error de estimacin asociado.
Solucin:

128, 57 8, 38 B = =

Aunque en el mismo contexto que el ejercicio 2 de esta prctica, en este caso trabajamos con
una variable numrica donde el tamao de la muestra no es 300 sino 35 (clientes observados
que pagaron con la tarjeta).
En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos
mediante su media (la calculamos como la suma de las compras dividida entre el nmero de
ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja
de clculo para poder introducir directamente en las celdas color amarillo intenso los
anteriores valores que la hoja de clculo hubiese obtenido si le diramos los datos de la
muestra.

La estimacin de la media y el error de estimacin asociado pueden leerse en las celdas C10 y
C13.
286

PRCTICA 2

Muestreo Aleatorio Simple en poblaciones finitas.

Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de
poblaciones infinitas estudiado anteriormente y presenta anlogas posibilidades y/o
dificultades. Nos podemos encontrar con variables de tipo numrico (ejercicios 1, 2 y 3) y
dicotmicas (ejercicios 3 y 4). Situaciones en las que conocemos explcitamente los datos de
la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra
en su media, varianza y tamao muestrales (caso numrico, ejercicio 2) o en su proporcin y
tamao muestrales (caso dicotmico, ejercicio 4).
En cuanto a las diferencias entre un tipo de muestreo y otro, sealar que en el muestreo
aleatorio simple en poblaciones finitas tiene sentido la estimacin del total poblacional (como
sabemos, a partir de la media o de la proporcin) hecho que no se trata en el muestreo
aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las
estimaciones, errores de estimacin e intervalos de confianza, tanto en el caso numrico como
dicotmico, se han desdoblado para calcular los correspondientes valores relativos a la
estimacin de la media (o proporcin) y del total. Dado que nos enfrentamos a una poblacin
finita debemos introducir el valor finito del tamao de la poblacin en C8 o E8. Cuando
algunos valores (tamao poblacional, tamao muestral,..., datos muestrales) son comunes a la
estimacin de la media y del total se fusionan las celdas de las dos columnas para evitar
repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente
pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en
poblaciones finitas.

287

1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada
para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la
muestra para estas seis cuentas son los siguientes:
Dinero adeudado ()
35,50
32,00
43,00
41,00
44,00
42,50
a) Estime el total del dinero adeudado y establezca un lmite para el error de
estimacin.
b) Cuntas cuentas deberan observarse para estimar el total de deuda con un error
inferior a 200? (considere los anteriores datos como una muestra previa)
Solucin: a) 3966,6 =

2 ( ) 381, 02 V =

b) 18, 96 19 n =
En este sencillo ejercicio slo tenemos que borrar los datos de las celdas grises e introducir la
informacin del enunciado. No es necesario desproteger la hoja porque no se modifica
ninguna de las expresiones de las celdas amarillas.

288
Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el mximo error de
estimacin que deseamos en la celda D17 se obtiene el tamao muestral necesario en D18,
(si el error de estimacin se refiere a la media, ste debe introducirse en C17).
2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una
comunidad de regantes para estimar el promedio de consumo de agua diario (en m
3
)
durante un periodo estacional seco. La media y varianzas muestrales fueron
3
10, 31 y m = y
2 6
2, 25 s m = . Hay en total 750 regantes en la comunidad.
a) Estime el consumo medio diario de toda la comunidad y establezca un
lmite para el error de estimacin.
b) Estime con un intervalo de confianza la cantidad total de litros de agua
empleada diariamente.
Solucin: a)
3 3
10, 31 0, 41 y m B m = = , b) (7.425.090 litros , 8.039.910 litros).
En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que
desprotegerla para escribir en C9, C10 y C11 el tamao, la media y varianza muestrales,
adems de no olvidar el tamao de la poblacin en la celda C8. En C10 y C13 est la
respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores estn
expresados en m
3
y la respuesta la piden en litros por lo que se multiplicarn por 1000).

289
3. Para estimar el nmero de alumnos de un grupo de la asignatura Tcnicas para el
Anlisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los
15 alumnos de un grupo de prcticas de la asignatura. La respuesta se recoge en la
siguiente tabla
1-SI
2-SI
3-NO
4-SI
5-NO
6-NO
7-SI
8-SI
9-SI
10-NO
11-NO
12-NO
13-SI
14-SI
15-NO
a) Estime, mediante un intervalo de confianza, cuntos de los 150 alumnos
que hay en ese grupo tienen acceso en casa a Internet.
b) Le parece fiable la prediccin?.
c) A cuantos alumnos se tendra que preguntar para que la estimacin se
realizara con un error inferior a 10 alumnos.
Solucin: a) (42,05 , 117,95), b) No, el error es muy grande (37,95) y por tanto el
intervalo de confianza muy amplio, c) n=90,191.
Este ejercicio es un sencillo ejemplo de datos dicotmicos donde se conocen los valores de la
muestra, slo tenemos que introducirlos en la columna correspondiente, etiquetando como 1
aquella respuesta cuya proporcin o total queremos estimar (en este caso SI=1, NO=0).
Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en
la filas 14 y 15 la respuesta. El valor de la cota del error de estimacin del total que vemos en
F13=37,95 es importante si lo comparamos con la estimacin del total F10=80 (casi la mitad),
por lo que se concluye la poca fiabilidad de la estimacin. Escribiendo el mximo error de
estimacin que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el
tamao muestral necesario para conseguirlo.

290

4. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada
para determinar la proporcin de estudiantes que est a favor del cambio del sistema
semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente.
Estime la proporcin de estudiantes que est a favor del cambio y establezca un lmite
para el error de estimacin.
Solucin:

19, 44% 3, 74% p B = =


En este ejemplo de datos dicotmicos (como el anterior) no tenemos explcitamente la lista de
los 180 elementos observados pero conocemos el tamao (180) y la proporcin muestral
(35/180). Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y
E10 (=35/180)

apareciendo en E10 y E13 la respuesta.

NOTA: En ejemplos con datos dicotmicos donde se tenga la lista completa de los valores de
la muestra se puede optar por este procedimiento de resolucin que resulta a veces ms
cmodo. As por ejemplo, en el ejercicio anterior podramos haber contado los elementos de la
muestra n=15, el nmero de respuestas SI=8, desproteger la hoja de clculo y escribir en E9
(15) y en E10 (=8/15).
291


5. Encuentre el tamao de muestra necesario para estimar el valor total de 1.000
cuentas por cobrar con un lmite para el error de estimacin de 10.000. Aunque no
se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que
la mayora de las cuentas caen dentro del intervalo (600, 1.400).

NOTA: En la casilla C11 estimamos la varianza mediante
( )
2
2
2
1400 600
40.000
16 16
R


= =
(se utiliza que la desviacin tpica en variables normales es aproximadamente la cuarta
parte del rango o recorrido de los datos observados)
Solucin: 615, 62 616 n =

En primer lugar, sealar que se trata de un problema con datos numricos (valor de las
cuentas) y que estamos interesados en la estimacin del total. Segn se sugiere en la nota,
escribiremos en la celda C11 la expresin =((1400-600)^2)/16 ,o bien =(800^2)/16, que como
puede observarse vale 40000. En D17 introduciremos el mximo error de estimacin que
queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta
292



293
PRCTICA 3

Muestreo Aleatorio Estratificado.

En el fichero Excel de las prcticas de la asignatura hay tres hojas con las plantillas para los
clculos necesarios en el muestreo aleatorio estratificado de 2, 3 y 4 estratos, tanto para datos
numricos como dicotmicos. Para un mayor nmero de estratos se puede confeccionar la
plantilla fcilmente copiando las dos columnas de un estrato tantas veces como se quiera e
incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos
columnas de toda la poblacin donde se recopila la informacin del conjunto de todos los
estratos (vase las notas sobre las preprcticas).
El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los
estratos, por lo que en cada estrato (en la parte superior de la plantilla) se han copiado,
exactamente, las mismas expresiones que aparecen en el muestreo aleatorio simple. La
determinacin del tamao muestral y su asignacin (parte inferior de la plantilla) son mucho
ms complejas que en el muestreo aleatorio simple y no guardan relacin con l.
Al igual que el muestreo aleatorio simple, el muestreo aleatorio estratificado puede hacerse
sobre poblaciones finitas e infinitas. Nosotros hemos supuesto el modelo con tamaos
poblacionales de los estratos finitos (que aparecen en la fila 8), pero como veremos en algunos
ejemplos ( ejercicios 4 y 8) se puede aplicar tambin al caso de tamaos poblacionales
infinitos.
Para simplificar las expresiones de la parte inferior de la plantilla (determinacin del tamao
muestral y asignacin) se han hecho unos clculos previos en la banda blanca intermedia que
aparecen en un negro menos intenso y carecen de una interpretacin directa.

1. Se est interesado en determinar la audiencia de la publicidad televisiva en una
cadena local de un municipio, se decide realizar una encuesta por muestreo para
estimar el nmero de horas por semana que se ve la televisin en las viviendas del
municipio. ste est formado por tres barrios con diferentes perfiles socio-culturales
que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio
B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes
como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de
tamaos: 15 del barrio A, 6 del barrio B, y 9 del barrio C.
Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los
resultados, con mediciones del tiempo que se ve la televisin en horas por semana, se
294
muestran en la siguiente tabla:
BARRIO A BARRIO B BARRIO C
36
39
38
28
29
34
38
37
41
37
26
32
29
35
41
20
30
14
41
39
25

14
15
21
20
24
22
17
11
14

Estime el tiempo medio que se ve la televisin, en horas por semana, para:
a) Los hogares del barrio A.
b) Los hogares del barrio B.
c) Los hogares del barrio C.
d) Todos los hogares
Para todos los casos fije un lmite para el error de estimacin.
e) Qu tipo de asignacin se ha utilizado?
NOTA: Obsrvese que debido al tipo de asignacin utilizado,
st
y y = .
st
y aparece en la celda I10=28,23. y lo podemos calcular, por ejemplo en la celda B28,
escribiendo la funcin =PROMEDIO(C28:G100) que calcula la media aritmtica de
todos los datos incluidos en las tres muestras (columnas C, E y G), obtenindose
B28=28,23.
Debido a los traslados necesarios no cuesta lo mismo obtener una observacin en un
barrio que en otro. Se estima que el coste de una observacin del barrio A es de 1, 9
para el barrio B y 4 para el barrio C.
f) Cuntos hogares deberan entrevistarse para estimar el nmero medio de horas a
la semana que se ve la televisin en los hogares del municipio con un error
inferior a 1 hora. (Tmese los anteriores datos como una muestra previa para
estimar los parmetros necesarios).
NOTA: Para comprobar que la asignacin ptima y de Neyman coinciden cuando los
costes son iguales, escriba en las celdas C21, E21 y G21 el mismo valor para los tres
costes y observar que las filas 22 y 23 de la tabla (asignacin ptima y de Neyman)
coinciden.
g) Supngase que se tiene slo 600 para gastar en el estudio, determine el tamao
de la muestra y la asignacin que minimizan el error de estimacin. (Como en el
apartado anterior, tmese los datos de la tabla como una muestra previa para
estimar las varianzas de los estratos).
295
Solucin: a) 34, 67 2, 40
A
y B = = b) 28,17 8, 35
B
y B = =
c) 17, 56 2, 82
C
y B = = d) 28, 23 2, 22
st
y B = = e) proporcional
f)
1 2 3
n=124,88 n =79,71 80 n =23,39 24 n =21,78 22 n=80+24+22=126 . En
el caso de no querer sobrepasar un mximo error de estimacin siempre redondearemos
por exceso.
g)
1 2 3
n=198,56 n =126,74 126 n =37,19 37 n =34,63 34 n=126+37+34=197 .
Cuando no queramos superar un determinado presupuesto redondearemos por defecto,
hacindolo as : (1 126) (9 37) (4 34) 595 coste total = + + =
sin embargo: (1 127) (9 38) (4 35) 609 coste total = + + =
Estamos ante el caso ms sencillo de estratos con datos numricos donde slo tenemos que
introducir la informacin que tenemos en las celdas grises. No hace falta desproteger la hoja
3 Estratos salvo para los clculos del apartado e (motivo por el que lo resolveremos al final).
Para responder a los apartados a, b, c y d , escribiremos los tamaos poblacionales de los
estratos en la fila 8 y los valores de las muestras en las columnas C, E y G bajo las etiquetas
Muestra 1, Muestra 2 y Muestra 3.
NOTA: No olvide pulsar Enter despus de escribir el ltimo dato pues en caso contrario
la hoja de clculo no lee ste.
La estimacin para la media y su lmite para el error de estimacin en cada uno de los estratos
(barrios) pueden verse en C10, C13; E10, E13; G10, G13 y la estimacin para el conjunto de
todos los hogares de la poblacin en I10, I13.

296
Para contestar al apartado f, escribiremos los costes de observacin en C21, E21 y G21 y el
mximo error de estimacin que queremos cometer al estimar la media en I20 (si
pretendiramos estimar el total de horas con un determinado error utilizaramos la celda J20).
En las filas 22, 23 y 24 estn los tres tipos de asignacin estudiados. Nos fijaremos en los
valores que aparecen en las columnas correspondientes a la media de cada estrato y de la
poblacin porque ha sido sobre la estimacin de la media donde hemos impuesto la condicin
de que el error no supere 1 hora. A los valores que hay a la derecha de stos y que se refieren
al total no hay que prestarles atencin, se han calculado suponiendo que queremos estimar el
total con un error cero (celda J20 en blanco) y carecen de sentido, obsrvese que en el caso de
la asignacin ptima deberamos observar 453 elementos de un total de 420 que hay en toda
la poblacin, con la asignacin de Neyman habra que observar en el estrato 2 a 130
elementos, sin embargo slo hay 84 en ese estrato.
Hechas estas aclaraciones nos queda an la decisin de cul de las tres asignaciones debemos
tomar. Salvo que se pregunte por una asignacin concreta en el enunciado del ejercicio,
debemos utilizar siempre que se pueda la asignacin ptima, fila 22, pues como su nombre
indica es la mejor. Cuando no conozcamos los costes de observacin (brrese estos de la fila
21) no se podr obtener la asignacin ptima, la hoja de clculo nos dar errores de divisin
por cero.

297
En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un
presupuesto o coste total fijo, en este caso 600. Para ello utilizamos la asignacin ptima
para un coste total fijo, fila 25. La solucin la tenemos en la pantalla que aparece en la pgina
19 de este documento (celdas C25, E25, G25, I25). La celda B21 incluye dos etiquetas, la
primera COSTE DE UNA OBSERVACIN se refiere a lo que cuesta una observacin en
cada estrato y debemos escribirlo en C21, E21 y G21, la segunda etiqueta COSTE TOTAL
hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21.
La determinacin y asignacin de las muestras en los apartados f y g utilizan las estimaciones
de las varianzas de los datos en cada estrato (varianza muestral, fila 11) a partir de las
muestras previas de 15, 6 y 9 elementos que disponemos en los respectivos estratos, tal y
como se indica en el enunciado.
En el apartado e vamos a verificar que se ha utilizado la asignacin proporcional en la
muestra observada. Para comprobarlo hay que ver que
3 1 2
1 2 3
n n n n
N N N N
= = = o
equivalentemente
3 1 2
1 2 3
N N N N
n n n n
= = = . Para ello en cualesquiera tres celdas en blanco
calcularemos: =C8/C9, =E8/E9, =G8/G9 y observaremos que coinciden.
Nota: Para hacer esos clculos en esta hoja habr que desprotegerla. Si coinciden estos
tres valores no es necesario comprobar la igualdad con =I8/I9.
Consecuencia de haber utilizado la asignacin proporcional es que
st
y y = . Ese hecho se ha
comprobado calculando y en B28 y observando que coincide con
st
y en I10 (vase pantalla
de la pgina 19).
2. En el caso anterior, tambin se desea saber qu proporcin de hogares ven un
determinado programa, para decidir la conveniencia de insertar un anuncio en los
intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los
hogares de la muestra anterior se recoge a continuacin:
BARRIO A BARRIO B BARRIO C
SI
SI
NO
NO
SI
NO
SI
NO
SI
NO
SI
SI
NO
NO
NO
SI
NO
SI
SI
SI
SI

NO
SI
SI
NO
SI
SI
SI
SI
NO
a) Estime con un intervalo de confianza la proporcin de hogares del municipio
donde se ve el programa.
b) Cuntos hogares deberan entrevistarse si se quisiera hacer dicha estimacin con
un error inferior al 5%. (Supngase que se realiza la entrevista por telfono y el
298
coste de las observaciones es el mismo para todos los casos al no ser necesarios los
traslados. Tmese los anteriores datos como una muestra previa para estimar los
parmetros necesarios)
c) Respndase a la pregunta anterior pero suponiendo que no se tiene ninguna
informacin previa sobre la proporcin de hogares donde se ve el programa.
Solucin: a) (42,7% , 77,3%)
b)
1 2 3
n=188,98 n =101,29 102 n =30,27 31 n =57,42 58 n=102+31+58=191
c)
1 2 3
n=204,88 n =102,44 103 n =40,98 41 n =61,46 62 n=103+41+62=206
Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aqu
trabajamos con datos dicotmicos. Seleccionaremos en la hoja 3 Estratos la plantilla que
hay a la derecha para datos dicotmicos e introduciremos la informacin en las celdas grises
(no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0.
En el enunciado de este ejercicio no se repiten los tamaos poblacionales de los estratos
porque se sobreentiende que son los mismos al no cambiar de poblacin en estudio.

Tras introducir los datos, en S14 y S15 tenemos los extremos del intervalo de confianza
pedido en el apartado a.
Obsrvese que aunque se dice que los costes de observacin por telfono son los mismos,
stos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la
299
asignacin ptima. Pero sabemos, como se ha comprobado en la nota al apartado f del
ejercicio anterior, que las asignaciones ptima y de Neyman coinciden si los costes de
observacin son iguales (se conozcan o no). Se sugiere escribir unos costes de observacin
(los que se quieran) iguales para los tres estratos y comprobar que la asignacin ptima nos
dara los mismos valores que la asignacin de Neyman (M23, O23, Q23 y S23) que son la
solucin al apartado b.
Cuando, como en el apartado c, no se tienen datos previos para estimar la proporcin en cada
estrato y a partir de ella la varianza de los datos en cada estrato, suponemos que el valor de la
proporcin es 0,5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir
en M10, O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas
MUESTRA 1, MUESTRA 2 y MUESTRA3.

Al no introducir datos muestrales (por tanto, tamao muestral = 0) aparecen errores de clculo
en las filas 11, 12, 13, 14 y 15, pero esos valores no afectan a la determinacin del tamao
muestral que slo tiene en cuenta los tamaos de los estratos (fila 8) y la estimacin de la
proporcin (fila 10). Adems se observa que al ser la proporcin igual en los tres estratos y
por tanto la varianza de los estratos, las asignaciones de Neyman y proporcional coinciden y
son la solucin al apartado c.

300
3. Una multinacional desea obtener informacin acerca de la efectividad de una mquina
comercial. Se va a entrevistar por telfono a un nmero de jefes de divisin, para
pedirles que califiquen la maquina con base en una escala numrica. Las divisiones
estn localizadas en Norteamrica, Europa y Asia. Es por eso que se usa muestreo
estratificado. Los costes son mayores para las entrevistas de los jefes de divisin
localizados fuera de Norteamrica. La tabla siguiente proporciona los costes por
entrevista, varianzas aproximadas de las calificaciones y nmero de jefes de divisin
en cada zona.
Estrato I
(Norteamrica)
Estrato II
(Europa)
Estrato III
(Asia)
112
25 , 2
9 $
1
2
1
1
=
=
=
N
c

68
24 , 3
25 $
2
2
2
2
=
=
=
N
c

39
24 , 3
36 $
3
2
3
3
=
=
=
N
c

La multinacional quiere estimar la calificacin media con un error inferior a 1 punto.
Encuentre el tamao apropiado de la muestra que conduce a este error para el estimador y
su asignacin.
Solucin:
1 2 3
n=11,26 n =6,84 7 n =2,99 3 n =1,43 2 n=7+3+2=12
En la hoja 3 Estratos, tras borrar toda la informacin de las celdas grises, escribimos el valor
de los costes de observacin en la fila 21, las varianzas de los estratos en la fila 11 (hay que
desproteger la hoja) y los tamaos de los estratos en la fila 8. El mximo error de estimacin
que se quiere cometer al estimar la media se sustituye en I20. La solucin sera la asignacin
ptima (fila 22), valen los mismos comentarios hechos en el ejercicio 1, apartado f.

301
4. Una inspectora de control de calidad debe estimar la proporcin de circuitos integrados
de ordenador defectuosos que proceden de tres mquinas diferentes de produccin.
Ella sabe que de los circuitos integrados que van a ser inspeccionados, el 50%
proceden de la mquina A, el 30% de la mquina B y el 20% de la mquina C. En una
muestra aleatoria de 200 circuitos integrados, 80 provienen de la mquina A, 70 de la
B y 50 de la C. De los circuitos integrados muestreados: son defectuosos 10 de la
mquina A, de la B son defectuosos 6 y de la C son 5 defectuosos. Estratifique la
muestra en circuitos integrados provenientes de las mquinas A, B y C, estime la
proporcin de defectuosos en la poblacin y fije un lmite para el error de estimacin
(omita los coeficientes correctores para poblaciones finitas en todos los casos).

NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores
para poblaciones finitas
i i
i
N n
N

en la correspondiente hoja de clculo (tres estratos), lo que


equivale a hacerlos igual a 1. Tendramos que (por ejemplo en el estrato 1) borrar en las
frmulas de las celdas M12 y N12 las expresiones
8 9
8
i i
i
N n M M
N M

= (anlogamente
repetiramos para los estratos 2 y 3 en las celdas O12, P12, Q12 y R12) . Lo anterior se
puede resolver ms fcilmente dando a los valores
i
N en las celdas M8, O8 y Q8 valores
muy grandes de forma que 1
i i
i
N n
N

. Por otra parte dado que los valores


i
N no son
conocidos aunque s
i
N
N
(0,50, 0,30 y 0,20), debemos respetar dichas proporciones
(sugerencia M8=50.000.000, O8=30.000.000 y Q8=20.000.000).
Solucin:

10,82% 4, 56%
st
p B = =


Al no disponer de las observaciones muestrales sino de los tamaos de las muestras (
1
9 80 n M = = ,
2
9 70 n O = = ,
3
9 50 n Q = = ) y proporciones muestrales en cada estrato
( 10 10/ 80 M = , 10 6/ 70 O = , 10 5/ 50 Q = ), desprotegeremos la hoja y escribiremos esa
informacin en las filas 9 y 10. No se conocen los tamaos poblacionales de los estratos por lo
grandes que son estos (podemos considerarlos infinitos) pero s se conoce la relacin de estos
tamaos con el de toda la poblacin
3 1 2
100 50%, 100 30%, 100 20%
N N N
N N N
| |
= = =
|
\ .
.

302
Como se indicaba en la introduccin a la prctica 3, las plantillas para el muestreo aleatorio
estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas, pero
estas plantillas pueden utilizarse tambin para el caso de muestreo aleatorio estratificado con
tamaos poblacionales de los estratos infinitos (tan grandes que su tamao es desconocido).
La clave para hacerlo est en la anterior nota. La diferencia entre las expresiones del muestreo
aleatorio simple en poblaciones finitas e infinitas est en que en el primero aparece
multiplicando el coeficiente corrector para poblaciones finitas
N n
N

y en el segundo no (o lo
que es lo mismo, 1
N n
N

= ). As, borrando
i i
i
N n
N

de todas las expresiones o haciendo


1
i i
i
N n
N

= , habremos adaptado nuestras plantillas al caso de muestreo estratificado con


tamaos de los estratos infinitos. Dado que borrar y manipular sobre las expresiones escritas
puede provocar fcilmente errores, si no se hace con toda cautela, proponemos la segunda
alternativa como la forma ms segura de transformar las expresiones del muestreo aleatorio
simple finito en el caso infinito. Para ello en la fila 8 (TAMAO POBLACIONAL)
escribiremos valores muy grandes para los tamaos de los estratos (
i
N ) de forma que
1
i i
i
N n
N

, lo que equivale prcticamente a quitarlo de las expresiones donde aparece. Pero


con esto no acaba todo, no podemos escribir unos tamaos
i
N tan grandes como queramos a
nuestro antojo, dichos tamaos han de respetar la relacin entre los tamaos de los estratos, es
decir, los valores
i
N
N
que habitualmente vienen dados en porcentajes. En este ejercicio:
1
100 50%
N
N
= ,
2
100 30%
N
N
= ,
3
100 20%
N
N
= . Por ltimo, una forma sencilla de asignar
los tamaos a los estratos respetando dichos porcentajes consiste en aadir al porcentaje varios
ceros (el mismo en todos los estratos). En este caso para el estrato 1 hemos tomado 50
millones como tamao poblacional y anlogamente para los otros estratos:
1
M8=50.000.000 N = ,
2
O8=30.000.000 N = y
3
Q8=20.000.000 N =
303

La pequea diferencia entre la solucin del problema B=4,56% y el valor que aparece en la
anterior pantalla (S13=0,0457, es decir, 4,57%) es debido a que trabajamos con 1
i i
i
N n
N

y
no exactamente 1. Si se quiere una mejor aproximacin a la solucin debemos escribir
mayores valores en M8, O8 y Q8, lo que se consigue simplemente aadiendo ms ceros a
dichas cifras (ojo, el mismo nmero en todas!).


5. El Ministerio de Medio Ambiente quiere estimar el nmero total de hectreas
plantadas de rboles en las fincas de una comarca. Ya que el nmero de hectreas de
rboles vara considerablemente con respecto al tamao de la finca, decide estratificar
sobre la base del tamao de las fincas. Las 240 fincas de la comarca son clasificadas
en 4 categoras de acuerdo al tamao. Una muestra aleatoria estratificada de 40 fincas,
seleccionada mediante asignacin proporcional, dio como resultado el nmero de
hectreas plantadas de rboles que se muestra en la siguiente tabla:

304
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
86
1
= N 72
2
= N 52
3
= N 30
4
= N
14
1
= n 12
2
= n 9
3
= n 5
4
= n
97 67 125 155 142 256 167 655
42 125 67 96 310 440 220 540
25 92 256 47 495 510 780
105 86 310 236 320 396
27 43 220 352 196
45 59 142 190
53 21
a) Estime el nmero total de hectreas plantadas de rboles en las fincas de
la comarca y fije el lmite para el error de estimacin.
b) Este estudio se quiere hacer anualmente con un lmite para el error de
estimacin de 5.000 hectreas. Encuentre el tamao muestral y su
asignacin para garantizar dicho lmite de error si se usa la asignacin de
Neyman.
Solucin: a) 50505, 60 8663,12 B = =
b)
1 2 3 4
n=59,7 n =6,9 7 n =16,7 17 n =16,4 17 19, 7 20 n=7+17+17+20=61 n =

Este ejercicio es del mismo tipo que el ejercicio 1: datos numricos y conocemos las
observaciones muestrales, pero en este caso el nmero de estratos es 4. Salvo esa diferencia
(por lo que seleccionaremos en este caso la hoja 4 Estratos) no presenta ninguna dificultad
nueva a las encontradas en el ejercicio 1. Sin necesidad de desproteger la hoja, escribiremos
los tamaos poblacionales de los estratos en la fila 8 y las observaciones muestrales en las
columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaos de las
muestras pues la hoja de clculo los obtiene al contar las observaciones muestrales que se han
escrito debajo).
En L10 y L13 est la solucin al apartado a. Escribiendo en L20 el mximo error que se quiere
cometer al estimar el total de hectreas, se puede leer en la fila 23 (asignacin de Neyman,
dado que no tenemos informacin sobre costes para poder calcular la asignacin ptima) la
respuesta del apartado b (si queremos obtener la solucin con un decimal podemos utilizar el
botn disminuir decimales como se indic en el ejercicio 2 de la prctica 1). Recordemos,
dado que se va a estimar el total, que debemos leer de la fila 23 slo la informacin de las
celdas bajo las columnas TOTAL.
305


6. Para la comarca del ejercicio anterior, el gobierno tambin desea conocer la proporcin
de fincas que han sufrido algn incendio en los ltimos diez aos. Para ello, en la
misma muestra se pregunta sobre el referido asunto, obtenindose las siguientes
respuestas
Estrato I Estrato II Estrato III Estrato IV
0-200 ha. 201-400 ha. 401-600 ha. +600 ha.
86
1
= N 72
2
= N 52
3
= N 30
4
= N
14
1
= n 12
2
= n 9
3
= n 5
4
= n
NO NO SI NO NO NO NO NO
SI SI NO SI SI NO SI NO
NO NO NO NO NO NO NO
NO NO NO NO NO NO
SI SI NO NO SI
NO NO NO SI
NO NO
Estmese con un intervalo de confianza la proporcin de fincas de la comarca que han
sufrido algn incendio en los ltimos diez aos.
Solucin: (11,9% , 38,21%)
306
Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Seleccionaremos
en la hoja 4 Estratos la plantilla que hay a la derecha para datos dicotmicos e
introduciremos la informacin en las celdas grises (no es necesario desproteger la hoja)
codificando las respuestas SI como 1 y los NO como 0.


7. Una psicloga que est trabajando con un grupo de adultos con retraso mental, desea
estimar su tiempo medio de reaccin a un cierto estmulo. Ella considera que varones y
mujeres probablemente presentarn una diferencia en tiempos de reaccin, por lo que
desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En
estudios previos de este tipo de investigaciones se ha encontrado que los tiempos
presentan una amplitud de variacin de 5 a 20 segundos para varones y de 3 a 14
segundos para mujeres. Los costes del muestreo son los mismos en ambos estratos.
Usando la asignacin ptima, encuentre el tamao muestral necesario para estimar el
tiempo medio de reaccin para el grupo, con un lmite de error de un segundo.
Solucin:
1 2
28, 48 14, 96 15 13, 52 14 15 14 29 n n n n = = = = + =
N=96, N
1
=43, por tanto N
2
=53 .

Como en el ejercicio 5 de la prctica 2 estimaremos la varianza de los datos en cada
estrato a partir del rango o recorrido de los mismos. En el primer estrato escribiremos en la
307
celda C11
( )
2
2
2
20 5
14, 06
16 16
R


= = . Anlogamente en el estrato 2,
( )
2
2
14 3
E11= 7, 56
16 16
R

= = .
Como en el apartado b del ejercicio 2, los costes de observacin en cada estrato son los
mismos. Podemos optar por escribir el mismo coste de observacin en C21 y E21
(cualquier valor, por ejemplo aqu hemos considerado 1) y leer la solucin en las filas 22 y
23, o bien dejar esas celdas en blanco (C21 y E21) y tomar como solucin la asignacin de
Neyman en la fila 23 (la asignacin ptima en la fila 22 dara errores de clculo, divisin
por cero, en este caso)



8. Una verificacin de control de calidad estndar para bateras de automviles consiste
simplemente en registrar su peso. Un embarque particular de una fbrica consisti en
las bateras producidas en dos meses diferentes, con el mismo nmero de bateras
producidas en cada mes. El investigador decide estratificar con base en meses para el
muestreo de inspeccin a fin de observar la variacin mensual. Las muestras aleatorias
simples de los pesos de las bateras para los dos meses dieron las siguientes
mediciones (en libras):
308
Mes A Mes B
61,5 64,5
63,5 63,8
63,5 63,5
64,0 66,5
63,8 63,5
64,5 64,0
a) Estime el peso medio de las bateras del embarque (poblacin), y fije un
lmite para el error de estimacin. Descarte el coeficiente corrector para
poblaciones finitas.
b) El estndar de la fbrica para este tipo de bateras es de 69 libras.
Considera usted que el embarque cumple el estndar promedio?
c) Cree usted que la estratificacin del ejercicio anterior es deseable, o ser
suficiente con muestreo aleatorio simple?
Solucin: a) 63, 88 0, 63
st
y B = =
b) No, 69 no pertenece al intervalo (63,26 , 64,51)
c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendra
63, 88 0, 65 y B = = , que es muy similar a lo obtenido en a) (las medias coinciden por ser
la asignacin proporcional). Esta pequea diferencia entre los errores del muestreo
aleatorio simple y del estratificado se debe a que los estratos no estn formados por datos
ms homogneos que el conjunto de la poblacin, como puede verse al comparar sus
varianzas muestrales
2 2 2
1 2
1, 07 1, 30 1, 27 S S S = = = , por tanto no estara justificado
estratificar basndose en la produccin por meses.

La produccin de bateras no es conocida exactamente debido a su alto nmero, slo nos dice
el enunciado que la produccin es la misma en cada mes. Por tanto hemos de suponer los
tamaos de los estratos infinitos e iguales. Este hecho se confirma cuando en el apartado a se
sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. Este
problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron
vamos a resolver este otro.
As, daremos a los tamaos de los estratos en C8 y E8 valores elevados pero iguales
309

La solucin al apartado a se puede leer en G10 y G13. Para responder al apartado b nos
fijamos en los extremos del intervalo de confianza para la media (G14, G15), dado que el
valor 69 no est entre ambos concluimos que nuestros datos rechazan la afirmacin de que el
peso medio de la produccin de bateras examinada sea de 69 libras.

Para el apartado c juntaremos las muestras de los dos estratos en una nica muestra aleatoria
simple y la analizaremos con la ayuda de la hoja MAS infinito. Observamos que la
estimacin de la media tiene una cota de error de estimacin similar a la del apartado a
(analizando los datos segn un muestreo estratificado). Tal y como se indica en los
comentarios a la solucin del apartado c ms arriba, esto es debido a la falta de homogeneidad
de los datos dentro de cada estrato, hecho que se confirma comparando las varianzas de las
muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusin
de ambas (celda C11 de la siguiente pantalla).
310

311
PRCTICA 4

Estimadores de Razn, Regresin y Diferencia.

En esta plantilla slo tenemos que introducir los valores que aparecen en las celdas grises, no
tenemos que modificar ninguna expresin. No es necesario, por tanto, desproteger la hoja.
Se deber tener cuidado en no confundir los papeles de las variables X e Y cuyos datos
muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La
variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones
sobre la variable Y. Por consiguiente, una forma sencilla de establecer claramente el papel de
las variables es fijarnos en sobre qu variable debemos estimar el valor de su media y/o total
(variable Y).
Habitualmente slo nos darn el valor de la media poblacional de X o del total poblacional de
X, pero no ambos, dado que fcilmente se puede calcular uno a partir del otro
x
x x x
N
N


| |
= =
|
\ .
, en cualquier caso debemos completar el valor de los dos como se ha
hecho en la siguiente pantalla
8 15000
9 75
10 200
C
C
C
| |
= = =
|
\ .
y volveremos a ver en el ejercicio 1
de esta prctica.

312
Si se quiere realizar alguna de las estimaciones con un error de estimacin inferior a un
determinado valor B, escribiremos ste en la celda correspondiente de la fila 18. Para obtener
el tamao muestral necesario para conseguir dicho nivel de error tenemos que conocer
adems de ste (fila 18), el tamao poblacional (C8) y la varianza residual asociada al modelo
(fila 17), para estimar esta ltima necesitamos una muestra previa que debe aparecer en las
columnas C y D. Sin embargo, los valores de la media poblacional de X ( )
x
o del total
poblacional de X ( )
x
no son necesarios, salvo en el caso de que se quiera estimar la razn
(R) con un determinado error B, entonces escribiremos el valor de
x
o en su defecto x
(como en el ejercicio 2) en la celda C9.
Nota: El valor del coeficiente b de la recta de regresin se ha obtenido en G22 y G23
utilizando dos expresiones distintas. Con esto se quiere mostrar al alumno que ste y otros
valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas.

1. Los auditores frecuentemente estn interesados en comparar el valor intervenido de los
artculos con el valor asentado en el libro. Generalmente, los valores en el libro son
conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos
con una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse
para obtener una buena estimacin del valor intervenido total o medio para la
poblacin.
Supngase que una poblacin contiene 180 artculos inventariados con un valor
establecido en el libro de 13.320. Una muestra aleatoria simple de 10 artculos nos dio los
siguientes resultados:
Valor intervenido
i
y Valor en el libro
i
x
9
14
7
29
45
109
40
238
60
170
10
12
8
26
47
112
36
240
59
167
Estime el valor intervenido medio, mediante un estimador de razn, un estimador de
regresin y un estimador de diferencia. Obtenga el intervalo de confianza en cada caso.
Solucin: Estimador de razn (72,79 , 76,03).
313
Estimador de regresin (72,80 , 75,97).
Estimador de diferencia (72,86 , 75,94)

En el enunciado del ejercicio est indicado quien es cada variable. Si no lo fuera as,
utilizando la estrategia sugerida ms arriba de que Y es la variable sobre la que se quiere hacer
la estimacin, es claro que Y = valor intervenido y por tanto X = valor en el libro.
Conocemos C8=N=180 y C10= 13320
x
= , escribiremos tambin
13320
9
180
x
x
C
N

= = = ,
colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente
pantalla se lee la solucin en las columnas de la estimacin de la media, filas 15 y 16.


2. Una encuesta de consumo fue realizada para determinar la razn de dinero gastado en
alimentos sobre el ingreso por ao, para las familias de una pequea comunidad. Una
muestra aleatoria de 8 familias fue seleccionada de entre 100. Los datos de la muestra
se presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1 25100 3800
2 32200 5100
314
3 29600 4200
4 35000 6200
5 34400 5800
6 26500 4100
7 28700 3900
8 28200 3600
Estime la razn poblacional, y establezca un lmite para el error de estimacin.
Solucin: 0,1531; 0, 0118 r B = =
NOTA: Como no se conoce la media poblacional de X, debemos estimarla por su media
muestral, es decir, C9=PROMEDIO(C22:C100).
La nota anterior slo es aplicable para estimar la razn r, pues si utilizamos x en lugar de
x
cuando queremos estimar la media de la variable Y mediante un estimador de razn,
regresin o diferencia, obtendramos que

y yL yD
y = = = , es decir, estimaramos la
media de la variable Y slo mediante su media muestral y no estaramos utilizando
informacin auxiliar alguna. Si en el ejercicio 1 hacemos
B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que

y yL yD
y = = = (D12=F12=H12=B22)

Necesitamos conocer el valor de
x
(C9) y
x
(C10) cuando se quiere estimar la media o el
total, por cualquiera de los tres mtodos. Sin embargo, no es necesario el valor de
x
para
estimar la razn R, aunque si es preciso al menos estimarla con x si queremos obtener la cota
del error de estimacin asociado.
Al no conocer
x
en este ejemplo, escribiremos la media muestral de X
( )
=promedio(C22:C100) x en la celda C9.
315

Para identificar las variables X e Y recordemos que la razn se define como el cociente del total de
Y sobre el total de X. Por tanto, en este ejemplo donde se quiere estimar la razn o proporcin de
dinero gastado en alimentos en relacin al ingreso total por ao, Y = gasto en alimentos, X =
ingreso total.

En cuanto a la nota sobre no usar x en lugar de
x
cuando estimemos la media de Y, se
aclara con la siguiente pantalla.

316


Hemos escrito en C9 la media muestral de X
( )
=promedio(C22:C100) x en lugar de la media
poblacional de X
13320
180
x
x
N

| |
= =
|
\ .
. Se ha calculado en B22 la media muestral de Y
( )
=promedio(D22:D100) y para comprobar que si se utiliza x en lugar de
x
, la media de Y se
estimara, mediante los tres mtodos, sencillamente por y .
317
PRCTICA 5

Muestreo Sistemtico.

El muestreo sistemtico, bajo determinadas condiciones (muy generales), se comporta como el
muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de
estimacin. Debido a esto, tras razonar que nos encontramos bajo esas condiciones,
utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los
problemas de muestreo sistemtico.
1. La gerencia de una compaa privada est interesada en estimar la proporcin de
empleados que favorecen una nueva poltica de inversin. Una muestra sistemtica de
1 en 10 es obtenida de los empleados que salen del edificio al final de un da de
trabajo en particular. Use los datos de la tabla siguiente para estimar la proporcin a
favor de la nueva poltica, y establezca un lmite para el error de estimacin. Suponga
que hay un total de 2.000 empleados.
Empleado
muestreado
Respuesta
3 1
13 0
23 1

1993 1

=
=
200
1
132
i
i
y
Solucin:

66% 6, 37%
sy
p B = =


318
Dado que no conocemos explcitamente los 200 valores de la muestra (y aunque se conocieran
sera largo escribirlos) pero si conocemos la suma de ellos, =
=
200
1
132
i
i
y , introduciremos
directamente la estimacin de p en E10

132
200
p
| |
=
|
\ .
y el tamao muestral en E9 (para lo que es
preciso desproteger primero la hoja). El tamao muestral se obtiene dividiendo el tamao
poblacional N=2000 entre 10 (muestra sistemtica de 1 en 10) o sencillamente observando el
ndice superior de la sumatoria =
=
200
1
132
i
i
y .

2. Con los datos del ejercicio anterior, determine el tamao de muestra requerido para
estimar p, con un lmite para el error de estimacin del 4,8%. Qu tipo de muestra
sistemtica deber obtenerse?
Solucin: 326, 2 327 n = . Sera suficiente con tomar una muestra sistemtica de 1-en-6
donde
2000
333, 3 333 334
6
n o = = .

La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamao muestral
necesario, en la celda E18 (326,2), para que la estimacin de p no supere la cota B=0,048
(4,8%), pero no obtenemos directamente el valor de k que es slo caracterstico del muestreo
sistemtico.
El valor de k se puede obtener fcilmente calculando en cualquier celda en blanco el cociente
entre el tamao poblacional y el tamao muestral (por ejemplo,
8
22 6,13
18
N E
B
n E
= = = ) y
quedndonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente
como se ha hecho en
8
23 6
18
N E
B ENTERO ENTERO
n E
| | | |
= = =
| |
\ . \ .

319

320
PRCTICA 6

Muestreo por Conglomerados.

En esta plantilla utilizamos la funcin condicional SI para el clculo de expresiones que tienen
diferentes formas (o sencillamente no se pueden calcular) dependiendo de la informacin que
tengamos.
La funcin condicional SI cuya forma general es:
=SI(condicin; accin si la condicin es cierta; accin si la condicin es falsa)
la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la
media, si conocemos
8
9
C
M
C
= (tamaos medio de todos los conglomerados de la poblacin)
se har segn

2
2
1
( )
c
S N n
V y
N n
M

= , pero si no se conoce lo estimaremos mediante 11 m C =
(tamao medio de los conglomerados de la muestra). As, en la condicin preguntamos si la
celda C8 est vaca (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en
cuyo caso no es conocido
8
9
C
M
C
= y utilizaremos 11 m C = (accin si la condicin de no
conocer M es cierta) y utilizaremos el valor de
8
9
C
M
C
= cuando C8 contenga el valor de M,
es decir, no est vaca (accin cuando la condicin de C8 vaca sea falsa). Observe que las
dos acciones son iguales salvo esta diferencia que hemos subrayado.
=SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2)))

321
En C19, para la determinacin del tamao muestral, se ha hecho igual que en C13.
=SI(C8="";(C9*C17)/(C17+(C9*((C18*C11/2)^2)));(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2))))

En la parte inferior izquierda se ha calculado el coeficiente de correlacin lineal entre los
tamaos de los conglomerados y los totales por conglomerado para justificar la conveniencia
de estimar el total considerando el tamao de los conglomerados (TOTAL(M conocido),
columna D) o sin utilizar dicha informacin (columna E). Cuando esta correlacin es fuerte el
mtodo de estimacin del total en la columna D nos proporciona mejores estimaciones (con
menor error de estimacin). La anterior pantalla recoge una situacin donde la correlacin es
dbil (los mayores tamaos de los conglomerados no estn asociados con los mayores totales,
ni los menores con los menores) y como puede verse el mtodo de estimacin del total en la
columna D tiene un error asociado, 188218,94, mayor que el obtenido en la columna E,
184099,44. Lgicamente, cuando no podamos estimar el total por ambos mtodos, todos estos
comentarios sobran.

Tambin se ha utilizado la funcin SI en las expresiones de la estimacin del total cuando M
es conocido (columna D). Obviamente, stas no pueden calcularse cuando M es desconocido.
En este caso la accin cuando la condicin (no conocemos M=C8) es cierta es que no se
calcula nada (escribimos para dejar la celda vaca: abrir y cerrar comillas sin nada entre ellas)
y si conocemos M=C8 (la condicin es falsa) la accin es el clculo de la correspondiente
expresin (en D12 la estimacin del total y en D13, D14, D15 y D16 el resto de valores
asociados a dicha estimacin)
D12 =SI(C8=;;C12*C8)
En la anterior pantalla, donde M=1500, aparecen los valores para la estimacin del total
cuando M es conocido, sin embargo, en la siguiente donde C8 est en blanco (desconocemos
el tamao de la poblacin) dichas celdas estn vacas.
322


1. En una pequea ciudad se quiere estimar la proporcin de hogares interesados en
contratar el sistema de televisin digital, para lo cual se considera la ciudad dividida
en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se
interroga a cada familia acerca de si estara interesada en contratar la televisin
digital. Los datos de la encuesta se encuentran en la tabla:
Manzana N hogares en la manzana N hogares interesados
1 8 2
2 7 2
3 9 3
4 6 3
5 5 3
a) Estime la proporcin de hogares interesados en contratar el sistema de televisin
digital. Calcule el lmite para el error de estimacin.
b) Con un intervalo de confianza estime el nmero de hogares interesados en
contratar dicho sistema.
c) Responda al apartado b) suponiendo que el nmero de hogares en la ciudad es
1500.
d) Suponiendo que los datos de la tabla representan una muestra previa, cmo debe
tomarse una nueva muestra para estimar la proporcin poblacional del apartado a)
con un lmite para el error de estimacin del 1%.
323
Solucin: a)

37,14% 11, 5% p B = = b) (423,25 , 616,75) c) (396,16 , 718,12)


d) 154, 4 155 n =
NOTA: Repetir este ejemplo con todos los
i
m iguales (por ejemplo, 7
i
m i = ),
supongamos conocido 200 7 1400 M = = y estime el total por los dos mtodos
estudiados
( )
t
t
M y N y = =

. Observe como coinciden las dos estimaciones
D12=E12=520, as como la varianza del estimador D13=E13=2340 y el lmite para el
error de estimacin D14=E14=96,75.

En el muestreo por conglomerados no se distingue entre variables numricas y variables
dicotmicas. En ambos casos el total por conglomerado,
i
y , se calcula de igual forma,
bien sumando valores numricos o los ceros y unos de las variables dicotmicas. En este
ejercicio estamos ante un ejemplo de variable dicotmica donde las respuestas interesado
y no interesado se han codificado como 1 y 0, y posteriormente sumado para cada
manzana o conglomerado. Conocemos el nmero de manzanas o conglomerados en la
poblacin, N=200, pero no sabemos el nmero de elementos en la poblacin, M.
Se sustituyen los valores del nmero de hogares en la manzana en el tamao o nmero de
elementos en el conglomerado, columna C, y el nmero de hogares que han mostrado
inters, respuesta igual a 1, en el total o suma por conglomerado de la columna D. El
mximo error que se quiere cometer al estimar la media (proporcin en este caso) lo
escribiremos en tanto por uno en C18=0,01.
Las respuestas: al apartado a se lee en C12 y C14,
al apartado b en E15 y E16
y al apartado d en C19.
324

En el apartado c se supone conocido M=1500. Al sustituir dicho valor en C8 se calculan las
expresiones para la estimacin del total cuando M es conocido, columna D. No obstante, esta
estimacin es peor que la obtenida en el apartado b como muestra la cota del error de
estimacin en D14=160,98 y E14=96,75. Lo anterior puede justificarse en base a la dbil
relacin entre los tamaos y totales de los conglomerados, B27=0,083.

325
En la siguiente pantalla se comprueba la propiedad, que se recuerda en la nota, de
coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual
tamao.


2. El gerente de un peridico desea estimar el nmero medio de ejemplares comprados
cada semana por una familia de una localidad. Los 4000 hogares estn agrupados en
400 edificios. Se tiene una encuesta piloto en la cual se seleccion una muestra de 4
edificios y se entrevistaron a todas las familias de estos edificios, obtenindose los
siguientes resultados:
Edificio Peridicos comprados cada semana
por familia
1 1 2 1 3 3 2 1 4 1 1
2 1 3 2 2 4 4 1 1 2
3 2 1 1 1 1 3 2 1 2 1 1
4 1 1 3 2 1 5 3 3
a) Estime con la encuesta piloto el nmero medio de peridicos comprados
cada semana por las familias de la localidad y el error de estimacin
asociado.
b) Determine, usando los datos de la encuesta piloto, cuntos edificios debe
326
tener la nueva muestra si se quiere estimar el nmero medio de peridicos
comprados cada semana por familia, con un error de estimacin inferior a
0,20 unidades.
Solucin: a) 1, 95 0, 40 y B = = b) 15, 21 16 n =
En este ejemplo de muestreo por conglomerados nos dan explcitamente las observaciones
individuales de la muestra, habr que contar el nmero de elementos en cada conglomerado,
i
m , y hallar la suma de las observaciones en cada uno de ellos,
i
y . Para obtener el nmero de
observaciones en cada edificio o conglomerado contaremos el nmero de familias que se han
observado en cada edificio, 10 en el primero, ... Para calcular los totales
i
y podemos hacerlo
como se indica en la siguiente pantalla, de forma que posteriores comprobaciones,
correcciones de errores, ... pueden hacerse fcilmente editando el contenido de las celdas D23
y siguientes.

327
PRCTICA 7

Estimacin del tamao de la poblacin.


Las cuatro tcnicas que se incluyen en esta prctica tienen elementos comunes como los
correspondientes a la estimacin del tamao de la poblacin y otros, como la estimacin de la
densidad,, especficos de algunas de ellas. Se han marcado en negro las celdas cuyos
valores o expresiones no se utilizan en alguna de las tcnicas.

1. Se desea estimar la poblacin de avutardas en determinada regin. Para ello se
capturan 30 avutardas que se devuelven marcadas a la poblacin. En una segunda
muestra de 20 avutardas se observaron 5 marcadas. Estmese el nmero de avutardas
que viven en la regin y la precisin del estimador usado.
Solucin:

120 92, 95 N B = =

2. Se desea estimar la poblacin de ardillas en un parque. Para ello se capturan 50
ardillas que se devuelven al parque marcadas. Se toma una segunda muestra hasta
que se consigue encontrar 5 marcadas, para lo cual fue necesario capturar 70 de ellas.
Estime, usando un intervalo con el 95% de confianza, el nmero de ardillas que
viven en el parque.
Solucin: (149, 24 , 1.250, 76)

3. La polica de Madrid est interesada en conocer el nmero de aficionados que se
reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con
este dato se puede conocer la cuanta de medios materiales y humanos (polica,
proteccin civil, personal sanitario, etc.) necesaria para atender futuras
concentraciones. Para estimar el nmero de aficionados se toma una fotografa area
de la zona ocupada por stos, tras lo cual se traza sobre ella una cuadrcula que
divide el rea total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se
numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por ltimo se
cuenta el nmero de aficionados que hay en cada uno de los cuadros seleccionados,
obtenindose los resultados de la tabla:


328
N del cuadro
Nmero de aficionados
en el cuadro
N del cuadro
Nmero de aficionados
en el cuadro
1
2
3
4
5
6
7
8
9
10
193
216
250
163
209
195
232
174
215
198
11
12
13
14
15
16
17
18
19
20
160
220
163
306
319
289
205
210
209
198
a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de
confianza.
b) Estime el nmero total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.
Solucin: a)

2
2,16 (2,1 , 2, 23) aficionados m =
b)

64.860 (62.887, 29 , 66.832, 71) M aficionados =



4. Se desea estimar el nmero total de autobuses que, entre las 6 y las 24 horas del
domingo, circulan por un determinado punto kilomtrico de una carretera. La
observacin se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a
lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableci el
control, no circul por el punto en cuestin ningn autobs. Estimar el nmero total
de autobuses que circularon entre las 6 y las 24 horas. Dar un lmite de error de
estimacin.
Solucin:

86, 24 37, 8 M B = =

Con estos cuatro ejemplos se ilustran las cuatro tcnicas de estimacin del total que
estudiamos en este captulo.
En el primer y segundo ejercicios slo tenemos que identificar si se trata de muestreo directo o
inverso (dependiendo de si se ha fijado el tamao de la segunda muestra o sta se toma hasta
conseguir un nmero de elementos marcados). Es claro que el primer ejercicio se trata de un
caso de muestreo directo y el segundo de muestreo inverso.
329

En el muestreo por cuadros y por cuadros cargados se puede considerar una poblacin en una
superficie (ejercicio 3) o en un espacio temporal (ejercicio 4).

El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el nmero de
elementos observados en cada cuadro de la muestra. El rea total se calcula multiplicando 300
cuadros por el rea de cada uno (10x10), y el nmero total de elementos observados en la
muestra,
1
n
i
i
m m
=
=

, sumando los elementos observados en los 20 cuadros (como indica la


flecha en la anterior pantalla).

El ltimo ejercicio es un caso de muestreo por cuadros cargados, donde no es importante el
nmero de elementos en cada cuadro puesto que ste es en general cero o uno y muy raras
veces mayor a uno. As slo contaremos los cuadros con elementos (uno o ms), cuadros
cargados, y los cuadros sin elementos o cuadros no cargados. En este caso los cuadros en el
espacio temporal son sencillamente intervalos de tiempo.
Hay que tener cuidado en escribir el tamao del rea total y de cada cuadro en la misma
unidad de medida. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren
estimar los autobuses que circulan por un lugar se han expresado en minutos,
1080=(24-6)*60, al igual que los intervalos de tiempo controlados.
330
PRCTICA 8

Indicadores estadsticos regionales

En las plantillas de la hoja Indicadores estadsticos regionales se encuentran resueltos los
ejemplos 8.1 a 8.7 del captulo 8 del mismo nombre. La observacin de cmo se han resuelto
a mano en dicho captulo puede ayudar a comprender mejor cmo se ha construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresin (ni
desproteger la hoja), slo hay que escribir los datos del problema en las celdas grises (como
siempre, se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo
problema para evitar trabajar por error con otros datos).

1. (ejercicio 3, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga el ndice de concentracin de Theil e interprete su valor.
Solucin:
1
ln ln 0,1597
N
i i
i
T N x x
=
= + =

0,1152
ln
T THEIL
T
I I
N
= = =
Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el
coeficiente e ndice de Theil. Las diferencias entre los valores obtenidos a mano y con la hoja
de clculo son debidas slo a errores de redondeo en las operaciones.

331

2. (ejercicio 4, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas fue
REGIONES PIB
R1
R2
R3
R4
80
15
100
50
Obtenga la desigualdad colectiva e interprete su valor.
Solucin:

1 1 1
1 1 2, 6865
0, 6716
4 4 4
N N N
i i i i
i i i
D d f d d
= = =
= = = = =


Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la
desigualdad colectiva y en el margen derecho las desigualdades individuales.


3. (ejercicio 5, relacin tema 8) En el ao 2005 el PIB a precios de mercado en millones
de euros en las 4 regiones de un determinado pas y el nmero de oficinas bancarias
fue
REGIONES PIB OFICINAS
R1
R2
R3
R4
80
15
100
50
350
70
450
250
Obtenga el ndice de asociacin geogrfica de Florence del nmero de oficinas
respecto al PIB e interprete su valor.
332
Solucin:
1
1
1 0, 97959
2
N
i i
i
F x y
=
= =


Sustituyendo los valores de PIB y nmero de oficinas en las variables X e Y se obtiene a pie
de tabla el ndice de asociacin geogrfica de Florence. Obsrvese que es indiferente permutar
los valores de X e Y. En la siguiente pantalla se han cambiado los valores de X e Y en
relacin a como se resolvi este ejercicio al final del captulo 8, obtenindose el mismo
resultado.



333
PRCTICA 9

Medidas de localizacin espacial

En las plantillas de la hoja Medidas localizacin espacial se encuentran resueltos los
ejemplos 9.2, 9.3, 9.5 y 9.6 del captulo 9 del mismo nombre. La observacin de cmo se
han resuelto a mano en dicho captulo puede ayudar a comprender mejor cmo se ha
construido esta hoja.
Para resolver este tipo de problemas no es necesario modificar ninguna expresin (ni
desproteger la hoja), slo hay que escribir los datos del problema en las celdas grises de la
tabla DATOS que aparece en la parte superior de la hoja.

La hoja est preparada inicialmente para 10 sectores y 10 regiones pero puede fcilmente
ampliarse a cualquier nmero de la siguiente forma:
Se desprotege la hoja.
Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la
columna E y seleccionamos en el men Insertar/Columnas).

Se copia la columna de alguno de los 10 sectores iniciales en sta (siguiendo la
conocida secuencia marcar+copiar+pegar, copiaremos la columna D en la E). As, esta
nueva columna ya tendr todas las expresiones necesarias para los clculos
correspondientes (al copiar la columna se copian tanto las expresiones como los
valores de la tabla DATOS y la cabecera, en este ejemplo: S2; tendremos que
cambiar los datos y las etiquetas de la cabecera)
334

Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para ms de 11
sectores.
Un procedimiento anlogo nos permite ampliar la hoja para ms de 10 regiones. En este caso
se insertar una nueva fila (en cada una de las tablas) entre las regiones R1 y R10, y
copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla.
Esto ltimo tambin es aplicable a la prctica 8 para ampliar el nmero de regiones o grupos
de regiones.
1. (ejercicio 4, relacin tema 9) En un pas, dividido administrativamente en tres regiones,
el sector industrial est constituido fundamentalmente por los siguientes subsectores:
Siderurgia, Construccin, Qumicas y Alimentacin. El nmero de trabajadores ocupados
en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles):
Regiones
I II III
Siderurgia 15 10 6
Construccin 165 110 66
Qumicas 30 20 12
Alimentacin 195 130 78
Calcule las diversas medidas de localizacin espacial e interprtelas, justificando y apoyando
los comentarios en los datos del enunciado.

335
Solucin:
Cocientes de localizacin y
especializacin
ij
L
SECTOR
REGION S1 S2 S3 S4
R1 100,00 100,00 100,00 100,00
R2 100,00 100,00 100,00 100,00
R3 100,00 100,00 100,00 100,00
Coeficientes de localizacin
sectorial
SECTOR
S1 S2 S3 S4
j
CL
0 0 0 0

Coeficientes de especializacin regional
REGION i
CE
R1 0
R2 0
R3 0
Coeficientes de diversificacin
de cada regin
REGION i
CD
*
i
CD
R1 0,6178 0,49
R2 0,6178 0,49
R3 0,6178 0,49
Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los
sectores con las regiones pues las medidas que se obtienen no son simtricas en relacin a los
datos, es decir, cambian si colocamos las regiones en los sectores y stos en el lugar de las
otras.

Las distintas medidas de localizacin espacial pueden leerse en las tablas que hay bajo los
DATOS.
2. (ejercicio 3, relacin tema 9) Se dispone de la siguiente informacin sobre nmero de
ocupados para algunas Comunidades Autnomas clasificados segn ciertas actividades:
Energa Alimentos Industrial textil
Andaluca 10.000 65.000 20.000
Castilla La Mancha 3.000 18.000 14.000
Castilla Len 19.000 30.000 8.000
Catalua 15.000 60.000 90.000
a) Obtenga los coeficientes de localizacin de las distintas actividades.
336
b) Calcule los coeficientes de especializacin para cada comunidad.
Solucin:
Coeficientes de localizacin sectorial
SECTOR
S1 S2 S3
CLj 0,2423 0,1219 0,2197
Coeficientes de especializacin regional
REGION CEi
R1 0,192733
R2 0,047808
R3 0,234649
R4 0,170455
Colocando los datos del ejercicio en la tabla DATOS, igual que antes, se obtienen entre otros
los coeficientes pedidos.


337
INTRODUCCIN AL SPSS

1.- INTRODUCCIN

El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a
la realizacin de anlisis estadsticos aplicados a las ciencias sociales. Con ms de 30 aos de
existencia es, en la actualidad, el paquete estadstico con ms difusin a nivel mundial.

El SPSS implementa una gran variedad de temas estadsticos en los distintos mdulos del
programa. Nosotros utilizaremos solo el mdulo SPSS base.

En los siguientes apartados se hace una breve introduccin a los conceptos bsicos de este
programa. Para una mejor exposicin de los mismos puede consultarse la Gua breve de
SPSS o el Tutorial en el men de ayudas (?) muy recomendable esta ltima opcin.


1.1.- PASOS BSICOS EN EL ANLISIS

1. Introducir los datos en SPSS.
Es posible:
o Abrir un archivo creado anteriormente o
o Introducir nuevos datos (se ver ms adelante en 1.3- Editor de datos).
Los archivos de datos con formato SPSS tienen extensin *.sav. Para abrir un archivo de datos
de este formato, seleccione en el men principal: Archivo/Abrir/Datos. Por defecto, SPSS dar
una relacin de los archivos en su directorio con extensin *.sav. Busque y seleccione el
archivo que se desee abrir. Adems de los archivos con este formato, SPSS puede abrir
338
archivos de EXCEL, LOTUS 1-2-3, dBASE, sin necesidad de convertirlos a un formato
intermedio ni de introducir informacin sobre la definicin de los datos.
Desde aplicaciones como Microsoft Excel tambin puede leer los encabezados de las columnas
como nombres de variables. Para ello elija en los mens: Archivo/Abrir/Datos y seleccione
Excel(*.xls) en la lista desplegable Tipo

Tras seleccionar el fichero Excel que queremos abrir, aparecer el cuadro de dilogo Apertura
de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables
en la primera fila de la hoja de clculo (Leer nombres de variables de la primera fila de
datos), as como las casillas que se desean importar (Rango). En Excel 5 o posterior, tambin
se pueden especificar la Hoja de trabajo que se desea importar. Si los encabezados de las
columnas no cumplen las normas de denominacin de variables de SPSS, se convertirn en
nombres de variables vlidos y los encabezados originales de las columnas se guardarn como
etiquetas de variable (vase ms adelante en 1.3.-Editor de datos).

339

2. Seleccionar un procedimiento estadstico para analizar los datos con el sistema de mens.


3. Seleccionar las variables para el anlisis.
Las variables que podemos usar en cada procedimiento se muestran en un cuadro de dilogo
del que se seleccionan.


4. Ejecutar el procedimiento y ver resultados.
Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de
extensin *.spo. Los grficos se pueden modificar en la ventana del editor de grficos.
340


1.2.- ENTORNO DE TRABAJO

Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos:
Editor de datos. Es la ventana que se abre automticamente cuando se inicia una sesin de
SPSS. Muestra el contenido del archivo de datos actual. Con l, se pueden crear nuevos
archivos o modificar los ya existentes.
Visor de resultados. Todas las tablas, grficos y los resultados estadsticos se muestran en el
visor. Puede editar resultados y guardarlos. Esta ventana se abre automticamente la primera
vez que se ejecuta un procedimiento.
Adems de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que
configuran la apariencia general del SPSS:
Barra de ttulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos
utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar
y cerrar ventana.
341
Barra de mens. Recoge las denominaciones de los mens de SPSS a travs de los cuales se
pueden ejecutar todos los posibles comandos que proporciona el paquete.
Barra de herramientas. Proporciona un acceso rpido y fcil a las tareas ms comunes de cada
ventana de SPSS. El significado de cada icono puede verse situando el ratn sobre el propio
icono.
Barra de estado. Suministra informacin sobre el estado en que se encuentra SPSS.
Ejemplo 1.-
- Abrir archivo de datos Datos de empleados.sav
- Realizar el procedimiento:
Analizar/ Estadsticos Descriptivos/ Descriptivos con la variable Salario Actual
- Realizar lo mismo con la variable Meses desde el contrato.


1.3.- EDITOR DE DATOS

El editor de datos proporciona dos vistas:
Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las
funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de
clculo, sin embargo, existen algunas diferencias:
o Cada fila representa un caso u observacin (atencin en ejercicio 1).
o Las columnas son variables.
o Las casillas contienen valores numricos o de cadena. A diferencia de una hoja de
clculo, las casillas del editor de datos no pueden contener frmulas.
Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de
datos. Aqu:
o Las filas son variables.
o Las columnas son caractersticas de las variables.
342

Ejemplo 2.- Abrir vista de datos y vista de variables en el archivo de datos:
Datos de Empleados.sav.


Una vez que nos encontramos en la ventana Editor de datos podemos abrir un archivo de
datos creado con anterioridad (como vimos en 1.1.- Pasos bsicos en el anlisis) o crear un
nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso
es el de definir las variables que formarn el archivo. Para definir una variable se pueden
seguir dos procedimientos:
En vista de datos, haciendo doble clic con el botn izquierdo del ratn cuando el puntero del
mismo se encuentra situado en la palabra var del extremo superior de la columna o
Pulsando en la pestaa de vista de variables y escribiendo las especificaciones de la variable
cuyos datos vamos a introducir segn las indicaciones que siguen:

Para la especificacin del nombre de las variables se debe tener en cuenta:
El nombre debe comenzar por una letra. Los dems caracteres pueden ser letras, dgitos, puntos
o los smbolos @, #, _ o $.
Los nombres de variable no pueden terminar en punto.
Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las
variables creadas automticamente por algunos procedimientos).
La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler
a 64 caracteres en idiomas de un solo byte (por ejemplo, ingls, francs, alemn, espaol,
343
italiano, hebreo, ruso, griego, rabe, tailands) y a 32 caracteres en los idiomas de dos bytes
(por ejemplo, japons, chino, coreano).
No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, y *).
Cada nombre de variable debe ser nico; no se permiten duplicados.
Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras
reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
Los nombres de variable se pueden definir combinando de cualquier manera caracteres en
maysculas y en minsculas, esta distincin entre maysculas y minsculas se conserva en lo
que se refiere a la presentacin.
Cuando es necesario dividir los nombres largos de variable en varias lneas en los resultados,
SPSS intenta dividir las lneas aprovechando los subrayados, los puntos y los cambios de
minsculas a maysculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus
especificaciones:

Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botn tipo y luego los
puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos ms
usuales son numrico y cadena.

Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas
las variables nuevas son numricas. Se puede utilizar Tipo de variable para cambiar el tipo de
datos. El contenido del cuadro de dilogo Tipo de variable depende del tipo de datos
seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el nmero de
decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista
desplegable de ejemplos.
Los tipos de datos disponibles son los siguientes:
Numrico. Una variable cuyos valores son nmeros. Los valores se muestran en formato
numrico estndar. El Editor de datos acepta valores numricos en formato estndar o en
notacin cientfica.
Coma. Una variable numrica cuyos valores se muestran con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin comas, o bien en notacin cientfica. Los
valores no pueden contener comas a la derecha del indicador decimal.
344
Punto. Una variable numrica cuyos valores se muestran con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin puntos, o bien en notacin cientfica. Los
valores no pueden contener puntos a la derecha del indicador decimal.
Notacin cientfica. Una variable numrica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez. El Editor de datos acepta
para estas variables valores numricos con o sin el exponente. El exponente puede aparecer
precedido por una E o una D con un signo opcional, o bien slo por el signo (por ejemplo, 123,
1,23E2, 1,23D2, 1,23E+2 y 1,23+2).
Fecha. Una variable numrica cuyos valores se muestran en uno de los diferentes formatos de
fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo
para los valores de ao de dos dgitos est determinado por la configuracin de las opciones
(en el men Edicin, seleccione Opciones y, a continuacin, pulse en la pestaa Datos).
Dlar. Una variable numrica que se muestra con un signo dlar inicial ($), comas que
delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir
valores de datos con o sin el signo dlar inicial.
Moneda personalizada. Una variable numrica cuyos valores se muestran en uno de los
formatos de moneda personalizados que se hayan definido previamente en la pestaa Moneda
del cuadro de dilogo Edicin/Opciones. Los caracteres definidos en la moneda personalizada
no se pueden emplear en la introduccin de datos pero s se mostrarn en el Editor de datos.

345
Cadena. Una variable cuyos valores no son numricos y, por lo tanto, no se utilizan en los
clculos. Los valores pueden contener cualquier carcter siempre que no se exceda la longitud
definida. Las maysculas y las minsculas se consideran diferentes. Este tipo tambin se
conoce como variable alfanumrica.

Nivel de medida. Puede especificar el nivel de medida como Escala (datos numricos de una
escala de intervalo o de razn), Ordinal o Nominal. Los datos nominales y ordinales pueden ser
de cadena (alfanumricos) o numricos.
nominal. Una variable puede ser tratada como nominal cuando sus valores representan
categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la
compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el
cdigo postal o la confesin religiosa.
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan
categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un
servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables
ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las
puntuaciones de evaluacin de la preferencia.
escala. Una variable puede ser tratada como de escala cuando sus valores representan
categoras ordenadas con una mtrica con significado, por lo que son adecuadas las
comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos
y los ingresos en dlares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabtico de los valores de
cadena indica el orden correcto de las categoras. Por ejemplo, en una variable de cadena cuyos
valores sean bajo, medio, alto, se interpreta el orden de las categoras como alto, bajo, medio
(orden que no es el correcto). Por norma general, se puede indicar que es ms fiable utilizar
cdigos numricos para representar datos ordinales.
Anchura. Nmero de dgitos de los valores de esa variable.

346
Columnas. Anchura de las columnas. Se puede especificar un nmero de caracteres para el
ancho de la columna. Los anchos de columna tambin se pueden cambiar en la Vista de datos
pulsando y arrastrando los bordes de las columnas.
Los formatos de columna afectan slo a la presentacin de valores en el Editor de datos. Al
cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y
definido de un valor es ms ancho que la columna, aparecern asteriscos (*) en la ventana
Vista de datos.

Decimales. N de decimales de los datos.

Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud
(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener
espacios y caracteres reservados que no se admiten en los nombres de variable.

Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este
proceso es especialmente til si el archivo de datos utiliza cdigos numricos para representar
categoras que no son numricas (por ejemplo, cdigos 1 y 2 para hombre y mujer). Las
etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las
etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden
ocupar hasta 120 bytes. Las etiquetas de valor no estn disponibles para las variables de cadena
larga (variables de cadena de ms de 8 caracteres).

Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el
usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado
se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.
Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para
un tratamiento especial y se excluyen de la mayora de los clculos.
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el
archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el
usuario cada vez que se abre un archivo de datos.
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de
valores perdidos o un rango ms un valor de tipo discreto.
347
Slo pueden especificarse rangos para las variables numricas.
No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de
ms de ocho caracteres).
Se considera que son vlidos todos los valores de cadena, incluidos los valores vacos o nulos,
a no ser que se definan explcitamente como perdidos. Para definir como perdidos los valores
nulos o vacos de una variable de cadena, escriba un espacio en blanco en uno de los campos
debajo de la seleccin Valores perdidos discretos.
Alineacin. Alineacin de los datos (Izquierda, derecha o centro)


Una vez definidas las variables, para la introduccin de los datos (en la pestaa vista de datos)
habr que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos
valores, pulsando ENTER o movindonos con el cursor.

Tambin podemos modificar datos ya creados:
Insertar un nuevo caso entre los casos existentes.
Seleccionar en la vista de datos, cualquier casilla debajo de la posicin donde se desea insertar
el nuevo caso y
- Elija en la barra de mens: Datos/Insertar Caso o
- El correspondiente botn de la barra de herramientas o
- Con el botn derecho del ratn elija Insertar caso.

Insertar una nueva variable entre las variables existentes.
Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posicin donde se
desea insertar la nueva variable y
- Elegir los mens: Datos/Insertar variable o
- El correspondiente botn de la barra de herramientas o
- Con el botn derecho del ratn elija Insertar variable

Mover variables.
Si queremos mover una variable que est entre otras dos, en la vista de datos, podemos insertar
un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por
ltimo pegar en la nueva variable insertada.

348
Borrar algn caso o variable.
Seleccionar previamente en la vista de datos las filas, las columnas o el rea a borrar y pulsar
SUPR o Edicin/Borrar o con el botn derecho del ratn elegir Eliminar.

Ir a un caso en el editor de datos.
Elegir en la barra de mens: Edicin/Ir al caso e introducir el nmero de fila o con el
correspondiente botn de la barra de herramientas.

Para guardar un archivo de datos creado tendremos que seleccionar en la barra de mens
Archivo/Guardar como. Nos aparecer un cuadro de dilogo en el cual debemos indicar el
nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de
cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que
seleccionar Archivo/Guardar o con el correspondiente botn de la barra de herramientas y el
archivo se guardar con el mismo nombre y ubicacin que tena con anterioridad.

349
EJERCICIOS

1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado
producto en una semana determinada. La variable edad es cuantitativa y mostramos sus
valores, la variable sexo es cualitativa y utilizamos una variable numrica (escala nominal:
1, hombre; 2, mujer). Los datos son los siguientes:
Hombres 32 32 42 55 37 61 48 43
Mujeres 50 80 61 49 30 21 37 34
Se pide:
a. Crea un archivo con la definicin anterior de las variables y los datos y gurdalo con el
nombre Edad.sav
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores
Hombres 1 1 1 2 1 1 2 1
Mujeres 1 5 1 1 2 2 1 1
Sitala entre las variables anteriores.

2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas:
SEXO REGION DE
PROCEDENCIA
MESES COMO
REPRESENTANTE
INGRESOS
MENSUALES en
Hombre
Mujer
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Mujer
Hombre
Mujer
Mujer
Hombre
Hombre
Hombre
Andaluca (1)
Catalua (2)
Madrid (3)
Pas Valenciano (4)
Galicia (5)
Catalua (2)
Pas Vasco (6)
Andaluca (1)
Madrid (3)
Andaluca (1)
Pas Vasco (6)
Madrid (3)
Galicia (5)
Catalua (2)
Andaluca (1)
Galicia (5)
60
72
48
36
60
24
36
48
84
84
48
36
24
12
16
10
1950
1235
2251
3581
1500
2500
5890
3510
2456
2474
3000
2958
1354
1100
3581
2456

Se pide:
a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos
de la tabla anterior, definiendo las variables de forma adecuada.
b. Inserta una nueva variable que ser el estado civil de los representantes con los siguientes
valores.

350
soltero
soltero
casado
soltero
divorciado
casado
casado
casado
soltero
soltero
viudo
casado
casado
casado
soltero
soltero
c. Inserta un nuevo caso entre los existentes con estos valores:
SEXO REGION DE
PROCEDENCIA
MESES COMO
REPRESENTANTE
INGRESOS
MENSUALES en
ESTADO CIVIL
Hombre Catalua 48 1500 divorciado
d. Obtenga el nmero medio de meses como representante y los valores mximo, mnimo y
mediano de los ingresos.

3. Crear un archivo con los siguientes datos y llamarlo salarios.sav
SALARIOS EMPLEADOS
0-700
700-1000
1000-1500
1500-3000
ms de 3000
40
120
250
90
50

Nota: Introducir los valores de los salarios con cdigos numricos (por ejemplo, 1 a 5) y en
Vista de variables en la columna Valores etiquetarlos como 0-700,
Cuando se introducen las frecuencias de las observaciones de una variable hay que indicrselo
al SPSS. Seleccionaremos en la barra de mens Datos/Ponderar casos marcando en la
ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderacin
(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra
opcin es seleccionar el correspondiente icono de la barra de herramientas que representa a una
balanza.
351
PRCTICA 10

Contrastes no paramtricos para una muestra (SPSS)

1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
3. CONTRASTE DE LAS RACHAS

1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE
El contraste Chi-cuadrado para una muestra permite averiguar si la distribucin emprica de
una variable categrica (o numrica) se ajusta o no a una determinada distribucin terica. La
hiptesis nula de bondad de ajuste se pone a prueba utilizando un estadstico que compara las
frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (tericas
segn la hiptesis nula). La condicin para que el test sea vlido es que las frecuencias
esperadas en todas las categoras sean mayores que 5, el SPSS da por valido el test siempre y
cuando el nmero de frecuencias esperadas menores de 5 no superen el 20% del total de
frecuencias esperadas, aunque lo ms correcto es que todas las frecuencias esperadas sean
mayores que 5. En el caso de que haya frecuencias esperadas menores que 5 se proceder a
agrupar modalidades semejantes, para ello seleccionaremos en la barra de mens
Transformar/Recodificar en distinta variable y repetiremos el anlisis con la nueva variable
generada (vase ejemplo 3).
Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no
paramtricas/Chi-cuadrado.
La lista de variables del archivo de datos ofrece un listado de todas las variables. Para
contrastar la hiptesis de bondad de ajuste referida a una variable hay que trasladar esa
variable a la lista Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece
tantos contrastes como variables.

RECUADRO RANGO ESPERADO. En esta ventana es posible decidir qu rango de
valores deben tenerse en cuenta en el anlisis:
Obtener de los datos. Cada valor distinto de la variable se considera una categora
para el anlisis.
Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los
lmites especificados en los cuadros de texto Inferior y Superior. Los valores no
incluidos en esos lmites se excluyen del anlisis.

352
RECUADRO VALORES ESPERADOS. Las opciones de este recuadro sirven para hacer
explcitas las frecuencias esperadas con las que se desean comparar las observadas:
Todas las categoras iguales. Las frecuencias esperadas se obtienen dividiendo el
nmero total de casos vlidos entre el nmero de categoras de la variable.
Valores. Esta opcin permite definir frecuencias esperadas concretas. Los valores que
se introducen pueden ser porcentajes, probabilidades, frecuencias relativas o
frecuencias absolutas. El orden en el que se introducen los valores es muy importante,
pues la secuencia introducida se hace corresponder con las categoras de la variable
cuando stas se encuentran ordenadas de forma ascendente. Si se ha introducido como
una variable numrica con etiquetas, el orden es el de los valores numricos. Si se ha
introducido como un variable de cadena (alfanumrica) el orden es el alfabtico.

BOTN OPCIONES. Permite obtener algunos estadsticos descriptivos y decidir qu
tratamiento se desea dar a los valores perdidos.
Estadsticos. Las opciones de este recuadro permiten obtener algunos estadsticos
descriptivos:
o Descriptivos. Ofrece el nmero de casos vlidos, la media, la desviacin tpica,
el valor mnimo y el valor mximo.
o Cuartiles. Ofrece los centiles 25, 50 y 75.
Hay que sealar que estos estadsticos no siempre tendrn sentido, pues la prueba de
chi-cuadrado se utiliza generalmente con variables categricas (no numricas). Para
contrastar la hiptesis de bondad de ajuste con variables cuantitativas es preferible
utilizar el contraste de Kolmogorov-Smirnov.
Valores perdidos. Estas opciones permiten decidir qu tratamientos se desea dar a los
valores perdidos en el caso de que se haya seleccionado ms de una variable:
o Excluir casos segn prueba. Se excluyen de cada contraste los casos con
valor perdido en la variable que se est contrastando. Es la opcin por defecto.
o Excluir caso segn lista. Se excluyen de todos los contrastes solicitados los
casos con algn valor perdido en cualquiera de las variables seleccionadas.

Ejemplo 1 (Ejercicio 1, relacin Tema 10)
El gerente de una planta industrial pretende determinar si el nmero de empleados que asisten
al consultorio mdico de la planta se encuentra distribuido de forma equitativa durante los
cinco das de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas
353
completas de trabajo, se observaron los siguientes nmeros de empleados que asistieron al
consultorio:
Lunes Martes Mircoles Jueves Viernes
49 35 32 39 45
Existe alguna razn para creer que el nmero de empleados que asisten al consultorio
mdico, no se encuentra distribuido de forma equitativa durante los das de trabajo de la
semana?, ( 05 . 0 = ).
(FICHEROS DE DATOS: Ejercicio1_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio1F_T10.sav (datos agrupados, con frecuencias))

NOTA: Cuando se utilicen ficheros con frecuencias se deber indicar en que columna se
encuentran stas, seleccionando en primer lugar el icono que representa una balanza o bien en
los mens Datos/Ponderar casos..., despus en la ventana Ponderar casos marcaremos la
opcin Ponderar casos mediante y en la casilla Variable de ponderacin incluiremos el
nombre de la columna (variable) que contiene las frecuencias.


A continuacin seleccionaremos Analizar/Pruebas no paramtricas/Chi-cuadrado


354

Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste
(recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores
esperados marcaremos Todas las categoras iguales (aparece marcada por defecto).

Pulsaremos en Aceptar, obtenindose en el visor de resultados lo que sigue:

DiasSemana
N observado N esperado Residual
Lunes
49 40,0 9,0
Martes
35 40,0 -5,0
Mircoles
32 40,0 -8,0
Jueves
39 40,0 -1,0
Viernes
45 40,0 5,0
Total
200


355
Estadsticos de contraste
DiasSemana
Chi-
cuadrado(a)
4,900
gl
4
Sig. asintt.
,298
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es
40,0.

Dado que el p-valor (0.298) es mayor que 05 . 0 = , se mantiene la hiptesis nula de que el
nmero de visitas al consultorio mdico se distribuye de forma equitativa de lunes a viernes.

Ejemplo 2
Una compaa de gas afirma, basndose en experiencias anteriores, que al final del invierno
el 80% de las facturas ya han sido cobradas, un 10% se cobraran con pago aplazado a un mes,
un 6% se cobrar a dos meses y un 4% se cobrar a ms de dos meses. Al final del invierno
actual, la compaa selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas
ya cobradas, 49 cobradas a un mes, 30 a cobrar en dos meses y 34 a cobrar en un periodo
superior a los dos meses. Podemos concluir, a raz de los resultados, que la experiencia de
aos anteriores se ha vuelto a repetir este invierno?
(FICHERO DE DATOS: Ejemplo2F_T10.sav (datos agrupados, con frecuencias))
Seguiremos un procedimiento anlogo al del ejemplo 1 pero marcaremos en Valores
esperados la opcin Valores e introduciremos los porcentajes del modelo que indica el
enunciado en el orden 80, 10, 6 y 4 (segn el orden de los valores numricos que se han
utilizado para indicar cada categora)

356
El visor de resultados nos ofrece:
facturas
N observado N esperado Residual
ya cobradas
287 320,0 -33,0
se cobran a un mes
49 40,0 9,0
se cobran en dos meses
30 24,0 6,0
se cobran a ms de dos
meses
34 16,0 18,0
Total
400

Estadsticos de contraste
facturas
Chi-
cuadrado(a)
27,178
gl
3
Sig. asintt.
,000
a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es
16,0.

Como el p-valor (0.000) es menor que 0.05, se rechaza la hiptesis nula de que los datos
observados se ajustan a los datos esperados. Por tanto, la experiencia de aos anteriores no se
ha vuelto a repetir este invierno.

Ejemplo 3 (Ejercicio 8, relacin Tema 11)
Una muestra sobre el n de personas que diariamente requieren informacin de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson de parmetro 2, 7 = ? (utilice el contraste
2
)
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))

Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero
de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados, vamos
a introducir las probabilidades del modelo de la distribucin de Poisson.
Aunque en la muestra slo aparecen valores entre cero y cinco, en la distribucin de Poisson
se puede presentar cualquier valor entero mayor o igual a cero. Segn lo anterior
consideraremos inicialmente las modalidades: 0 personas, 1 persona, 2 personas, ..., 5 o ms
personas.

Consultando en la tabla de probabilidades de la distribucin de Poisson con 2, 7 =
obtenemos para las anteriores modalidades:
357
x p(x)
0
1
2
3
4
...
0,0672
0,1815
0,2450
0,2205
0,1488
...
La probabilidad, p(x5), se puede obtener sumando p(5)+p(6)+p(7)+... , hasta el ltimo valor
que aparezca en la columna de 2, 7 = con probabilidad distinta de cero, o bien, restando a 1
las probabilidades asociadas a x<5, 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1- 0,8630=0,1370.
(Introduciremos las probabilidas sin el cero de las unidades, pues slo acepta valores con 5
dgitos incluida la coma: ,0672 ... ,1370)

En el visor de resultados aparecer:
PersonasDia
N
observado
N
esperado Residual
,00
2 1,8 ,2
1,00
4 4,9 -,9
2,00
5 6,6 -1,6
3,00
8 6,0 2,0
4,00
5 4,0 1,0
5,00
3 3,7 -,7
Total
27
Estadsticos de contraste
PersonasDia
Chi-
cuadrado(a)
1,655
gl
5
Sig. asintt.
,895
a 4 casillas (66,7%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mnima es 1,8.

Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos
ltimas modalidades para que todas las frecuencias esperadas sean mayores que 5.
358
NOTA: La opcin de agrupar valores semejantes para que las frecuencias esperadas sean
mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de
independencia y homogeneidad.

Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable.
Seleccionamos como variable numrica PersonasDia y como variable de resultado
escribimos PersonasDiaB. En Valores antiguos y nuevos escribiremos la siguiente
recodificacin
Antiguo->Nuevo
0->1
1->1
2->2
3->3
4->4
5->4


(posteriormente, si se quiere, se etiquetarn los valores 1 como 1 o menos y 4 como 4 o ms).

Se repetir el contraste sobre la nueva variable PersonasDiaB, considerando las siguientes
modalidades y probalidades asociadas

359
x p(x)
1 o menos
2
3
4 o ms
0,2487=0,0672+0,1815
0,2450
0,2205
0,2858=0,1488+0,1370



Tras aceptar las selecciones de la anterior pantalla, en el visor de resultados observaremos:
PersonasDiaB

N
observado
N
esperado Residual
1 o menos
6 6,7 -,7
2,00
5 6,6 -1,6
3,00
8 6,0 2,0
4 o ms
8 7,7 ,3
Total
27
Estadsticos de contraste
PersonasDiaB
Chi-
cuadrado(a)
1,184
gl
3
Sig. asintt.
,757
a 0 casillas (,0%) tienen frecuencias esperadas
menores que 5. La frecuencia de casilla esperada
mnima es 6,0.

Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de
5 a 3 despus de agrupar modalidades.
Segn el nivel de significacin asociado al estadstico chi-cuadrado (0,757>>0,05) se
aceptara la hiptesis nula de que el nmero de personas que requieren la mencionada
informacin se distribuye segn una ley de Poisson de parmetro 2, 7 = .


360
2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE
Al igual que el contraste chi-cuadrado para una muestra, la prueba de Kolmogorov-Smirnov
es una prueba de bondad de ajuste: sirve para contrastar la hiptesis nula de que la
distribucin de una variable se ajusta a una determinada distribucin terica de probabilidad.
A diferencia del contraste Chi-cuadrado que fue diseada para evaluar ms bien el ajuste de
variables categricas, el contraste K-S para una muestra se usa slo para evaluar el ajuste de
variables cuantitativas.
Para contrastar la hiptesis nula de bondad de ajuste, la prueba K-S se basa en la comparacin
de dos funciones de distribucin: la emprica,
n
F , y la terica
0
F .
Para las distribuciones discretas (Poisson,...) se calculan las diferencias:
0
( ) ( )
i n i i
D F x F x =
Para las distribuciones continuas (Normal, Uniforme,...) se calculan las diferencias
*
0 0 1
( ) ( ) ( ) ( )
i n i i i n i i
D F x F x y D F x F x
+
= =
El estadstico del contraste Z se obtiene a partir de la diferencia ms grande en valor absoluto
y del tamao muestral n,
( )
*
max ,
i i i
Z n D D = , obtenindose la significacin asinttica
bilateral a partir de la frmula de Smirnov:
( )
( ) ( )
2
2
9 25 1,233701
4 9 16 2
0 0, 27 1
2, 506628
0, 27 1 1 ( )
1 3,1 2
3,1 0
Z
Z
Si Z p
Si Z p Q Q Q Q e
Z
Si Z p Q Q Q Q Q e
Si Z p

=
= + + =
= + =
=

Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona
Analizar/Pruebas no paramtricas/K-S de 1 muestra.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numrico. Para contrastar la hiptesis de bondad de ajuste referida a una variable se traslada a
la lista Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece un contraste
por cada variable seleccionada.

RECUADRO DISTRIBUCIN DEL CONTRASTE. Las opciones de este recuadro
permiten elegir la distribucin terica a la cual se desea ajustar la distribucin de la variable
seleccionada: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse ms de una).
Los parmetros en las diferentes distribuciones se estiman a partir de los datos.
BOTN OPCIONES. Conduce a un subcuadro de dilogo idntico al del contraste de chi-
cuadrado.
361
Ejemplo 4 (Ejercicio 8, relacin Tema 11)
Una muestra sobre el n de personas que diariamente requieren informacin de un producto
financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
Se puede aceptar que el n de personas que requieren la mencionada informacin se
distribuye segn una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov)
(FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramtricas/K-S de 1 muestra.


En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos
PersonasDia, pulsando Aceptar en el visor de resultados aparecer:
362
Prueba de Kolmogorov-Smirnov para una muestra
PersonasDia
N
27
Parmetro de Poisson(a,b)
Media
2,7037
Absoluta
,085
Positiva
,057
Diferencias ms extremas
Negativa
-,085
Z de Kolmogorov-Smirnov
,443
Sig. asintt. (bilateral)
,989
a La distribucin de contraste es la de Poisson.
b Se han calculado a partir de los datos.

Como el p-valor (0,989) es mayor que 0,05 se acepta la hiptesis de que el nmero de
personas que requieren informacin se distribuye como una Poisson (de parmetro 2,7).

Ejemplo 5 (Ejercicio 7, relacin Tema 11)
Con un nivel de significacin del 5%, contraste la hiptesis de que los siguientes valores
muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribucin normal de
media 14 y varianza 2,25 (desviacin tpica 1,5).
(FICHERO DE DATOS: Ejercicio7_T11.sav (datos sin agrupar, sin frecuencias))
El SPSS toma por defecto como valores de la media y de la desviacin tpica para la hiptesis
nula los de la muestra (14,4 y 1,955).
Prueba de Kolmogorov-Smirnov para una muestra

N
10
Media
14,4000
Parmetros normales(a,b) Desviacin tpica
1,95505
Absoluta
,181
Positiva
,181
Diferencias ms extremas
Negativa
-,119
Z de Kolmogorov-Smirnov
,573
Sig. asintt. (bilateral)
,898
a La distribucin de contraste es la Normal.
b Se han calculado a partir de los datos.

Si queremos que la media y desviacin tpica tomen en la hiptesis nula unos valores
concretos, como en este ejemplo, debemos seleccionar Pegar en la ventana de opciones del
contraste de Kolmogorov-Smirnov para una muestra. Nos aparecern los comandos de SPSS
que siguen:
NPAR TESTS
/K-S(NORMAL)= DATOS
/MISSING ANALYSIS.
363

A continuacin del comando NORMAL escribiremos una coma seguida del valor de la media
seguida de otra coma y del valor de la desviacin tpica. Si la media o desviacin tpica
tuvieran decimales se usar el punto decimal (nunca la coma). Una vez modificado quedar
como:
NPAR TESTS
/K-S(NORMAL,14,1.5)= DATOS
/MISSING ANALYSIS.
En esta misma ventana donde se ha hecho la modificacin seleccionamos Ejecutar/Todo y
obtendremos el resultado del contraste.
Prueba de Kolmogorov-Smirnov para una muestra

N
10
Media
14
Parmetros normales(a,b) Desviacin tpica
1,5
Absoluta
,200
Positiva
,109
Diferencias ms extremas
Negativa
-,200
Z de Kolmogorov-Smirnov
,632
Sig. asintt. (bilateral)
,819
a La distribucin de contraste es la Normal.
b Especificado por el usuario

Como el p-valor (0,819) es mayor que 0,05 se acepta la hiptesis de que la muestra procede de
una distribucin Normal de media 14 y varianza 2,25.


364
3. CONTRASTE DE LAS RACHAS
La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones
es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son
independientes entre s. Esta prueba permite detectar si el nmero de rachas observado en una
determinada muestra de tamao n es lo suficientemente grande o lo suficientemente pequeo
como para poder rechazar la hiptesis de aleatoriedad en las observaciones.
Para obtener el nmero de rachas de un conjunto de observaciones es necesario que stas estn
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotmica). Si no
lo estn, se deber utilizar algn criterio (media, mediana, moda, etc.) para hacer que lo estn.
Una vez clasificadas las observaciones en dos grupos, el SPSS utiliza una tipificacin del
nmero de rachas cuya distribucin es una N(0,1). El SPSS ofrece el nivel crtico bilateral.
Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramtricas/Rachas.
La lista de variables del archivo de datos ofrece un listado de todas las variables con formato
numrico. Para contrastar la hiptesis de aleatoriedad o independencia referida a una variable
se traslada esa variable a la lista Contrastar variables. Si se selecciona ms de una variable,
el SPSS ofrece un contraste por cada variable seleccionada.

RECUADRO PUNTO DE CORTE. Para obtener el nmero de rachas es necesario que las
observaciones estn claramente clasificadas en dos grupos. Si no lo estn, debe utilizarse
algn criterio para hacer que lo estn. Pueden usarse como criterio de dicotomizacin la
mediana, la moda, la media o cualquier valor. En ese caso, los valores ms pequeos que el
punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el
punto de corte pasan a formar parte del segundo grupo. Si se desea contrastar la hiptesis de
independencia referida a una variable categrica o de cadena puede utilizarse en punto de
corte la opcin Personalizado. Si la variable es, por ejemplo, dicotmica, con cdigos 0 y 1,
puede utilizarse como punto de corte el valor 0.5 (o cualquier nmero comprendido entre 0 y
1), de modo que los casos con cdigo 0 pasen a formar parte del primer grupo y los casos con
valor 1 pasen a formar parte del segundo grupo. Para convertir las variables de cadena en
variables numricas (para poder aplicar este contraste) utilice el procedimiento
Recodificacin automtica, disponible en el men Transformar.

BOTN OPCIONES. Igual que en los contrastes anteriores.


365
Ejemplo 6. (Ejercicio 14, relacin Tema 11)
Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21,
18, 21, 22 ( 0,10 = ).
(FICHERO DE DATOS: Ejercico14_T11.sav (datos sin agrupar, sin frecuencias))
Seleccionamos Analizar/Pruebas no paramtricas/Rachas.
En el enunciado no se indica que se tome como punto de corte un valor en especial. Hemos
tomado la mediana que es el valor marcado por defecto.


Prueba de rachas
ejemplo_rachas
Valor de prueba(a)
19,00
Casos < Valor de prueba
4
Casos >= Valor de prueba
7
Casos en total
11
Nmero de rachas
4
Z
-1,102
Sig. asintt. (bilateral)
,270
a Mediana

Como el p-valor (0,270) es mayor que 0,10 se acepta la hiptesis nula de aleatoriedad de la
muestra.
366
PRCTICA 11

Contrastes no paramtricos: Tablas de contingencia y contrastes para dos
muestras independientes (SPSS)

1.- TABLAS DE CONTINGENCIA. CHI-CUADRADO. INDEPENDENCIA Y
HOMOGENEIDAD.
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. PRUEBA DE
KOLMOGOROV-SMIRNOV. PRUEBA U DE MANN-WHITNEY

1.- TABLAS DE CONTINGENCIA
Cuando se trabaja con dos variables categricas, los datos suelen organizarse en tablas de
doble entrada en las que cada entrada representa un criterio de clasificacin o variable
categrica. Como resultado de esta clasificacin, las frecuencias aparecen organizadas en
casillas que contienen informacin sobre la relacin existente entre ambos criterios. A estas
tablas de frecuencias se les llama tablas de contingencias.
El procedimiento de tablas de contingencias permite obtener no solo las tablas, adems
incluye estadsticos y medidas de asociacin que proporcionan la informacin necesaria para
estudiar las posibles pautas de asociacin existentes entre las variables que conforman la tabla.
Para utilizar este procedimiento seleccionamos en el men Analizar la opcin Estadsticos
Descriptivos/ Tablas de contingencias. La lista de variables del archivo de datos muestra todas
las variables numricas y de cadena corta del archivo de datos. Para obtener una tabla de
contingencia se traslada una variable a la lista filas y otra a la lista columna.
Las opciones disponibles son:
Mostrar los grficos de barras agrupadas. Activando esta opcin el visor de
resultados muestra un grfico de barras agrupadas con las categoras de la variable fila
en el eje de abscisas y las categoras de la variable columna anidadas dentro de las
categoras de la variable fila. Cada barra del diagrama, por tanto, representa una casilla
y su altura viene dada por la frecuencia de la correspondiente casilla.
Suprimir tablas. Esta opcin puede activarse si no se desea obtener ninguna tabla de
contingencias. Esto tendra sentido si nicamente interesara obtener un grfico de
barras o alguno de los estadsticos o medidas de asociacin disponibles en el
procedimiento Tablas de contingencias.


367
BOTN ESTADSTICOS
El grado de relacin existente entre dos variables categricas no puede ser establecido
simplemente observando las frecuencias de una tabla de contingencias. Incluso aunque la tabla
recoja las frecuencias porcentuales en lugar de las absolutas, la simple observacin de las
frecuencias no puede conducir a una conclusin definitiva. Para determinar si dos variables se
encuentran relacionadas debe utilizarse una medida de asociacin, preferiblemente
acompaada de su correspondiente prueba de significacin. Una de las opciones disponibles
es Chi-cuadrado.

CHI-CUADRADO
La opcin Chi-cuadrado proporciona un estadstico que permite contrastar la hiptesis de que
los dos criterios de clasificacin utilizados (las dos variables categricas) son independientes.
Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables
fueran independientes. Si los datos son compatibles con la hiptesis de independencia, la
probabilidad asociada al estadstico Chi-cuadrado (el p-valor) ser alta (mayor 0.05). Si esa
probabilidad es pequea (menor que 0.05), se considera que los datos son incompatibles con
la hiptesis de independencia y se concluir que las variables estudiadas est relacionadas.
Para que el estadstico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas
no sean demasiado pequeas. Suele asumirse que, si existen frecuencias esperadas menores de
5, stas no deben superar el 20% del total de frecuencias esperadas, aunque lo ms correcto es
que todas las frecuencias esperadas sean mayores que 5. El SPSS muestra en una nota a pie de
tabla un mensaje indicando el valor de la frecuencia esperada ms pequea; si existe alguna
casilla con frecuencia esperada menor que 5, la nota a pie de tabla tambin informa acerca del
porcentaje que stas representan sobre el total de casillas de la tabla. En el caso de que ese
porcentaje supere el 20%, el estadstico debe interpretarse con cautela o mejor proceder a
agrupar filas y/o columnas de la tabla. Para ello seleccionaremos en la barra de mens
Transformar/Recodificar en distinta variable y repetiremos el anlisis con la nueva variable
generada.

BOTN CASILLAS
Las casillas o celdas de una tabla de contingencias pueden contener informacin muy variada,
en concreto: frecuencias observadas, frecuencias esperadas, varios tipos de porcentajes y
residuos brutos y tipificados. Parte de esta informacin es esencial para poder interpretar
apropiadamente las pautas de asociacin presentes en una tabla despus de que se rechace la
hiptesis de independencia.
368
Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias
absolutas:
Observadas. Nmero de casos resultantes de la clasificacin.
Esperadas. Nmero de casos que debera haber en cada casilla si las variables
utilizadas fueran independientes.
Recuadro Porcentajes. Es posible seleccionar uno o ms de las siguientes frecuencias
porcentuales:
Fila. Porcentaje que la frecuencia observada de una casilla representa respecto
al total marginal de su fila.
Columna. Porcentaje que la frecuencia observada de una casilla representa
respecto al total marginal de su columna.
Total. Porcentaje que la frecuencia observada de una casilla representa
respecto al nmero total de casos de la tabla.
Recuadro Residuos. Los residuos son las diferencias existentes entre las frecuencias
observadas y esperadas de una casilla. Son especialmente tiles para averiguar en qu
grado se desvan de la hiptesis de independencia las frecuencias de cada casilla;
consecuentemente, son tiles para interpretar las pautas de asociacin presentes en la
tabla. Es posible seleccionar una o ms de las siguientes opciones:
No tipificados. Diferencia entre la frecuencia observada y la esperada.
Tipificados. Residuo no tipificado dividido por la raz cuadrada de su
correspondiente frecuencia esperada. Su valor esperado es 0 pero su desviacin
tpica es menor que 1, lo cual hace que no puedan interpretarse como
puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada
casilla contribuye al valor del estadstico chi-cuadrado. De hecho, sumando los
cuadrados de los residuos tipificados se obtiene el valor del estadstico chi-
cuadrado. Los residuos tipificados son iguales a
( ) ( )
2
ij ij ij ij
ij ij
n E n E
E E

=
Tipificados corregidos. Estos residuos se distribuyen normalmente con media
0 y desviacin tpica 1. Su utilidad radica en que, puesto que se distribuye
como N(0,1), son fcilmente interpretables: utilizando un nivel de confianza
0.95, puede afirmarse que los residuos mayores de 1.96 delatan casillas con
ms casos de los que debera haber en esa casilla si las variables estudiadas
fueran independientes; mientras que los residuos menores de -1.96 delatan
369
casillas con menos casos de los que cabra esperar bajo la condicin de
independencia.

BOTN FORMATO
Controla algunos detalles relacionados con el aspecto de las tablas de contingencias
generadas.
Recuadro Orden de filas. Permite controlar el orden en el que aparecen las categoras
de la variable fila:
Ascendente. Muestra las categoras de la variable fila ordenadas de menor
a mayor. Es la opcin por defecto.
Descendente. Muestra las categoras de la variable fila ordenadas de mayor
a menor.

Ejemplo 1 (ejercicio 10, relacin tema 10)
Se clasifican a los 150 empleados de una empresa segn su salario y su antigedad. Los
resultados aparecen en la siguiente tabla. Hay independencia entre los sueldos y la
antigedad? ( ( 0, 05) =
Salario\Antigedad <5 aos 5-10 10-20 >20 aos
i
n


0-500
500-1000
1000-2000
2000-3000
>3000
17
16
4
9
6
5
8
11
8
3
10
9
5
8
4
6
7
2
6
6
38
40
22
31
19
j
n

52 35 36 27 150
(FICHEROS DE DATOS: Ejercicio10_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio10F_T10.sav (datos agrupados, con frecuencias))

Recordemos que cuando se utilizan ficheros con frecuencias se deber indicar en que
columna se encuentran stas, seleccionando en primer lugar el icono que representa una
balanza o bien en los mens Datos/Ponderar casos..., despus en la ventana Ponderar casos
marcaremos la opcin Ponderar casos mediante y en la casilla Variable de ponderacin
incluiremos el nombre de la columna (variable) que contiene las frecuencias.

Seleccionamos Analizar/Estadsticos Descriptivos/Tablas de contingencia
370

En situaciones reales, inicialmente no se dispone de los datos agrupados y ordenados en una
tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un
formato de dos columnas como aparece en estas pantallas. Por ello vamos a pedir que estos
datos los represente en una tabla de contigencia (no marcaremos la opcin Suprimir tablas)
con los Salarios por filas y la Antigedad por columnas.

371
En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de
contingencia, en este ejemplo marcaremos Frecuencias observadas (aparece como recuento
en la tabla), Frecuencias esperadas y Residuos tipificados corregidos.

En Estadsticos seleccionaremos el estadstico Chi-cuadrado de Pearson para estudiar la
independencia entre Salario y Antigedad.


Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen:
La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos tipificados corregidos
372
Tabla de contingencia Salario * Antiguedad
Antiguedad Total

menos de 5
aos 5-10 aos 10-20 aos
ms de 20
aos
Salario 0-500 Recuento
17 5 10 6 38
Frecuencia esperada
13,2 8,9 9,1 6,8 38,0
Residuos corregidos
1,5 -1,7 ,4 -,4
500-1000 Recuento
16 8 9 7 40
Frecuencia esperada
13,9 9,3 9,6 7,2 40,0
Residuos corregidos
,8 -,6 -,3 -,1
1000-2000 Recuento
4 11 5 2 22
Frecuencia esperada
7,6 5,1 5,3 4,0 22,0
Residuos corregidos
-1,8 3,2 -,2 -1,2
2000-3000 Recuento
9 8 8 6 31
Frecuencia esperada
10,7 7,2 7,4 5,6 31,0
Residuos corregidos
-,7 ,4 ,3 ,2
Ms de 3000 Recuento
6 3 4 6 19
Frecuencia esperada
6,6 4,4 4,6 3,4 19,0
Residuos corregidos
-,3 -,8 -,3 1,6
Total Recuento
52 35 36 27 150
Frecuencia esperada
52,0 35,0 36,0 27,0 150,0

La prueba Chi-cuadrado de independencia
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
15,932(a) 12 ,194
Razn de verosimilitudes 14,781 12 ,254
Asociacin lineal por lineal
1,888 1 ,169
N de casos vlidos
150
a 4 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 3,42.


Ms 3000 2000-3000 1000-2000 500-1000 0-500
Salario
20
15
10
5
0
R
e
c
u
e
n
t
o
Grfico de barras
Ms de 20 aos
10-20 aos
5-10 aos
< 5 aos
Aos_Antiguedad

373

Segn el p-valor (0.194) se aceptara la hiptesis de independencia. Sin embargo, el residuo
corregido para un salario (1000-2000) y una antigedad (5-10) es 3.2 que no est comprendido
entre -1.96 y 1.96, es decir, se escapa de la hiptesis de independencia al 5% de significacin.
Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 ltimas filas y las dos
ltimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean
mayores que 5.

Recordemos que la opcin de agrupar valores semejantes para que las frecuencias esperadas
sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y
homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para
una muestra (como vimos en el ejemplo 3 de la prctica 10).

Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta
variable. Seleccionamos como variable numrica Salario y como variable de resultado
escribimos SalarioB. En Valores antiguos y nuevos escribiremos la siguiente recodificacin
Antiguo->Nuevo
1->1
2->2
3->3
4->4
5->4
(posteriormente, si se quiere, se etiquetaran los valores 1, 2 y 3 como en Salario y el nuevo
valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Ms de 2000).
Repetiremos el mismo proceso con la variable Antigedad. Seleccionamos como variable
numrica Antiguedad y como variable de resultado escribimos AntiguedadB. (Nota: En la
ventana Var. numrica->Var. de resultado hay que eliminar primero Salario->SalarioB, pues
si no lo hacemos se aplicar tambin a ese par de variables la recodificacin que queremos
hacer en la pareja Antigedad->AntiguedadB). En Valores antiguos y nuevos escribiremos la
siguiente recodificacin
Antiguo->Nuevo
1->1
2->2
3->3
4->3
(posteriormente, si se quiere, se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo
valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como ms de 10 aos).
Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros
Ejercicio10_T10.sav y Ejercicio10F_T10.sav) obteniendo:
374
Tabla de contingencia SueldoB * AntiguedadB
AntiguedadB

menos de 5
aos 5-10 aos
mas de 10
aos
Total
Recuento
17 5 16 38
Frecuencia esperada
13,2 8,9 16,0 38,0
0-500
Residuos corregidos
1,5 -1,7 ,0
Recuento
16 8 16 40
Frecuencia esperada
13,9 9,3 16,8 40,0
500-1000
Residuos corregidos
,8 -,6 -,3
Recuento
4 11 7 22
Frecuencia esperada
7,6 5,1 9,2 22,0
1000-2000
Residuos corregidos
-1,8 3,2 -1,0
Recuento
15 11 24 50
Frecuencia esperada
17,3 11,7 21,0 50,0
SueldoB
ms de 2000
Residuos corregidos
-,8 -,3 1,1
Recuento
52 35 63 150
Total
Frecuencia esperada
52,0 35,0 63,0 150,0
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
13,108(a) 6 ,041
Razn de verosimilitudes 12,069 6 ,060
Asociacin lineal por lineal
1,537 1 ,215
N de casos vlidos
150
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 5,13.

Segn el p-valor (0.041) se rechazara la hiptesis de independencia a un nivel de
significacin del 5% (0,05), contrariamente a la conclusin obtenida antes de agrupar las
frecuencias esperadas menores que 5.

Ejemplo 2 (Ejercicio 11, relacin Tema 10)
A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y
sus calificaciones fueron registradas como baja, media o alta, obtenindose:
Universidad A Universidad B
BAJA
MEDIA
ALTA
105
140
255
140
135
225
Contrastar la hiptesis de que la distribucin de calificaciones en las 2 universidades es la
misma (con 0, 01 = )
(FICHEROS DE DATOS: Ejercicio11_T10.sav (datos sin agrupar, sin frecuencias).
Ejercicio11F_T10.sav (datos agrupados, con frecuencias))

La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los
residuos corregidos, es la siguiente:
375
Tabla de contingencia Nota * Universidad
Universidad

A B
Total
Recuento
105 140 245
Frecuencia esperada
122,5 122,5 245,0
Baja
Residuos corregidos
-2,6 2,6
Recuento
140 135 275
Frecuencia esperada
137,5 137,5 275,0
Media
Residuos corregidos
,4 -,4
Recuento
255 225 480
Frecuencia esperada
240,0 240,0 480,0
Nota
Alta
Residuos corregidos
1,9 -1,9
Recuento
500 500 1000
Total
Frecuencia esperada
500,0 500,0 1000,0

Se puede observar como los residuos corregidos de las casillas Nota baja se salen del
intervalo (-1.96, 1.96). Existe una desproporcin significativa a favor de la Universidad B
(residuo corregido 2.6 frente a -2.6) lo que significa que hay una proporcin de alumnos de la
universidad A menor de la esperada con notas bajas. En la prueba chi-cuadrado se obtiene:
Pruebas de chi-cuadrado
Valor gl
Sig. asinttica
(bilateral)
Chi-cuadrado de Pearson
6,966(a) 2 ,031
Razn de verosimilitudes 6,984 2 ,030
N de casos vlidos
1000
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 122,50.

El p-valor menor de 0.05 (0.031) nos lleva a rechazar la hiptesis de homogeneidad con un
nivel de significacin del 5% pero a aceptarla con un nivel de significacin del 1% como
aparece en el enunciado del ejercicio.
Alta Media Baja
Nota
300
250
200
150
100
50
0
R
e
c
u
e
n
t
o
Grfico de barras
B
A
Universidad



376
2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES
Este procedimiento contiene varias pruebas no paramtricas, todas ellas diseadas para
analizar datos provenientes de diseos con una variable independiente categrica (con dos
niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos
ordinal (en la cual interesa comparar los dos grupos o muestras).
El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos
muestras, la prueba U de Mann-Whitney, la prueba de reacciones extremas de Moses y la
prueba de las rachas de Wald-Wolfowitz. Para obtener cualquiera de estas pruebas:
Se selecciona la opcin Pruebas no paramtricas/Dos muestras independientes del men
Analizar. La lista de variables del archivo de datos ofrece un listado de todas las variables con
formato numrico. Para obtener cualquiera de las pruebas no paramtricas incluidas en el
procedimiento (puede seleccionarse ms de una simultneamente):
Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista
Contrastar variables. Si se selecciona ms de una variable, el SPSS ofrece un
contraste por cada variable seleccionada.
Seleccionar la variable que define los grupos (muestras) que interesa comparar y
trasladarla al cuadro Variable de agrupacin.
Pulsar el botn Definir grupos para acceder al subcuadro de dilogo que permite
indicar cules son los dos cdigos de la variable de agrupacin que corresponden a los
grupos que interesa comparar.
En el recuadro Tipo de prueba, marcar la opcin u opciones correspondientes a las
pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten
contrastar la misma hiptesis.
El botn opciones conduce a un cuadro de dilogo que permite obtener algunos estadsticos
descriptivos y controlar el tratamiento de los valores perdidos.

PRUEBA DE KOLMOGOROV-SMIRNOV
Esta prueba sirve para contrastar la hiptesis de que dos muestras proceden de la misma
poblacin. Para ello compara las funciones de distribucin empricas de ambas muestras,
( ) ( )
n m
F x y F x .
Se calculan las diferencias ( ) ( )
i n i m i
D F x F x = . El estadstico del contraste Z se obtiene a
partir de la diferencia ms grande en valor absoluto y de los tamaos muestrales n y m,
377
( )
max
i i
nm
Z D
n m
=
+
, obtenindose la significacin asinttica bilateral a partir de la frmula
de Smirnov:
( )
( ) ( )
2
2
9 25 1,233701
4 9 16 2
0 0, 27 1
2, 506628
0, 27 1 1 ( )
1 3,1 2
3,1 0
Z
Z
Si Z p
Si Z p Q Q Q Q e
Z
Si Z p Q Q Q Q Q e
Si Z p

=
= + + =
= + =
=

Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia
central, simetra, variabilidad,

Ejemplo 3 (Ejercicio 9, relacin Tema 11)
Con nivel de significacin de 5%, contraste la hiptesis de que los siguientes valores
muestrales proceden de una misma poblacin.
Muestra 1 2 4 2 3 5 6 7 8 9 3
Muestra 2 2 4 5 3 5 4 7 6 5 3
(FICHERO DE DATOS: Ejercicio9_T11.sav)
Al tratarse de muestras independientes, aparecern todos los datos de ambas muestras en la
misma columna (Puntuacin) y en la columna Muestras con los cdigos 1 y 2 distinguiremos
a qu muestra pertenece cada puntuacin.
Seleccionaremos Analizar/Pruebas no paramtricas/Dos muestras independientes del men
Analizar.

378
En la ventana que aparecer, seleccionaremos Puntuaciones para Contrastar variables y
Muestras para Variable de agrupacin. En Definir grupos indicaremos que la primera muestra
tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de
Kolmogorov-Smirnov.

En el visor de resultados se obtiene:
Estadsticos de contraste(a)
Valores
Absoluta
,200
Positiva
,100
Diferencias ms extremas
Negativa
-,200
Z de Kolmogorov-Smirnov
,447
Sig. asintt. (bilateral)
,988
a Variable de agrupacin: Muestra

Dado que la significacin asinttica (0.988) es mayor que 0.05 se acepta la hiptesis de que
ambas muestras proceden de la misma poblacin.

PRUEBA U DE MANN-WHITNEY
Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se
cumplen los supuestos en los que se basa la prueba (normalidad), o cuando no es apropiado
utilizar la prueba T porque el nivel de medida de los datos es ordinal. Este test es sensible a las
diferencias de medianas, algo sensible frente a las diferencias de asimetra e insensible frente a
las diferencias de varianzas. Es fiable en la comparacin de dos promedios poblacionales
cuando ambas distribuciones tienen la misma forma.
379
Con muestras pequeas el SPSS ofrece el nivel crtico bilateral exacto del estadstico U, el
cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales
que U.
Con muestras grandes, el SPSS ofrece una tipificacin del estadstico U denominada Z, que se
distribuye aproximadamente como una N(0,1). El nivel crtico bilateral se obtiene
multiplicando por dos la probabilidad de obtener valores menores o iguales a Z.

Ejemplo 4 (Ejercicio 9, relacin Tema 11)
Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney.
Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann-
Whitney en Tipo de prueba


Segn el visor de resultados:
Estadsticos de contraste(b)
Valores
U de Mann-Whitney
46,500
W de Wilcoxon
101,500
Z
-,268
Sig. asintt. (bilateral)
,789
Sig. exacta [2*(Sig.
unilateral)]
,796(a)
a No corregidos para los empates.
b Variable de agrupacin: Muestra

Al ser las muestras pequeas observamos la significacin exacta (0.796). sta es mayor que
0.05, concluimos que ambas muestras proceden de la misma poblacin.
380

Nota: Segn Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de
8 8 m y n . Hay autores que consideran m y n grandes cuando 60 m n + . En nuestro
ejemplo n=10, m=10 y la significacin exacta y asinttica son muy prximas.
381










FORMULARIOS
Y
TABLAS ESTADSTICAS
382
383
MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS
(O CON REEMPLAZAMIENTO)




MEDIA


PROPORCION


ESTIMADOR

1
1
n
i
i
y y
n
=
=



1
1
, 0, 1
n
i i
i
p y y
n
=
= =






CUASIVARIANZA
MUESTRAL


( )
2
2
1
1
1
n
i
i
S y y
n
=
=




2
2 1
2 1
1
n
i
n
i
i
i
y
y
n
S
n
=
=
| |
|
\ .




( )

2
2
1
1
1 1
n
i
i
n pq
S y y
n n
=
= =





1 q p =

VARIANZA DEL
ESTIMADOR

2 2
( ) ( )
S
V y V y
n n

= =



( ) ( )
1
pq pq
V p V p
n n
= =




LIMITE DEL ERROR DE
ESTIMACIN = B

2 ( ) 2
S
V y
n
=




2 ( ) 2
1
pq
V p
n
=



INTERVALO DE
CONFIANZA

2 , 2
S S
y y
n n
| |
+
|
\ .



2 , 2
1 1
pq pq
p p
n n
| |
|
+
|
\ .





TAMAO MUESTRAL

2
2 ( ) 2 V y B
n

= =

2 2 2
2
,
4
4
B
n D
B D

= = =

2 ( ) 2
pq
V p B
n
= =

2
2
,
4
4
pq pq B
n D
B D
= = =


384
MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS
SIN REEMPLAZAMIENTO



MEDIA
TOTAL


PROPORCION
TOTAL



ESTIMADOR

1
1
n
i
i
y y
n
=
=



1
n
i
i
N
N y y
n

=
= =

1
1
, 0, 1
n
i i
i
p y y
n
=
= =

N p =





VARIANZA DEL
ESTIMADOR

2
( )
S N n
V y
n N

=


2
2
( ) ( ) ( ) ( )
S
V V N y N V y N N n
n
= = =





( )
1
pq N n
V p
n N





2
( ) ( ) ( ) ( )
1
pq
V V N p N V p N N n
n
= = =



LIMITE DEL ERROR
DE ESTIMACIN = B

2 ( ) V y


2 ( ) 2 ( ) V N V y =





2 ( ) V p


2 ( ) 2 ( ) V N V p =





INTERVALO DE
CONFIANZA


2 ( ) , 2 ( ) ( ) y V y y V y +


2 ( ) , 2 ( ) ( ) V V + =



2 ( ) , 2 ( ) ( ) ( ) ( ) N y V y N y V y = +



2 ( ) , 2 ( ) ( ) p V p p V p +


2 ( ) , 2 ( ) ( ) V V + =



2 ( ) , 2 ( ) ( ) ( ) ( ) N p V p N p V p = +





TAMAO MUESTRAL

2
2
( 1)
N
n
N D

=
+


2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=



( 1)
Npq
n
N D pq
=
+


2
( )
4
B
D proporcion =
2
2
( )
4
B
D total
N
=



385

MUESTREO ALEATORIO ESTRATIFICADO




MEDIA
TOTAL


PROPORCION
TOTAL



ESTIMADOR

1
1
L
i st i
i
y N y
N
=
=



1
L
st
i st i
i
N y N y
=
= =





1
1
L
i st i
i
p N p
N
=
=




1
L
st
i st i
i
N p N p
=
= =







VARIANZA DEL
ESTIMADOR


2
2
1
1
( ) ( )
L
i st i
i
V y N V y
N
=
= =



2
2
2
1
1
L
i i i
i
i i i
S N n
N
N n N
=

=






2
2 2
1
( ) ( )
L
i i i
st
i st
i i i
S N n
V N V y N
n N

= =





2
2
1
1
( ) ( )
L
i st i
i
V p N V p
N
=
= =




2
2
1
1
1
L
i i i i
i
i i i
p q N n
N
N n N
=







2 2
1
( ) ( )
1
L
i i i i
st
i st
i i i
p q N n
V N V p N
n N

= =







TAMAO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL


FORMULACIN
GENERAL

2 2
1
2 2
1
L
i i
i i
L
i i
i
N
n
N D N

=
=
=
+




2
1
2
1
L
i i i
i i
L
i i i
i
N p q
n
N D N p q

=
=
=
+





386
MUESTREO ALEATORIO ESTRATIFICADO

TAMAO
MUESTRAL
MEDIA
TOTAL
PROPORCION
TOTAL







ASIGNACIN
PTIMA


1 1
2 2
1
( )
L L
i i
i i i
i i
i
L
i i
i
N
N c
c
error fijo B n
N D N

= =
=
=
+


1
1
( )
L
i i
i
i
L
i i i
i
N
C
c
coste fijo C n
N c

=
=
=



1
j j
j
j L
i i
i
i
N
c
N
c

=
=




1 1
2
1
L L
i i
i i i i i
i i i
L
i i i
i
p q
N p q c N
c
n
N D N p q
= =
=
=
+



1
1
L
i i
i
i i
L
i i i i
i
p q
C N
c
n
N p q c
=
=
=



1
j j
j
j
j
L
i i
i
i i
p q
N
c
p q
N
c

=
=







ASIGNACIN DE
NEYMAN


2
1
2 2
1
( )
L
i i
i
L
i i
i
N
n
N D N

=
=
=
+



1
j j
j L
i i
i
N
N

=
=




2
1
2
1
( )
L
i i i
i
L
i i i
i
N p q
n
N D N p q
=
=
=
+



1
j j j
j L
i i i
i
N p q
N p q

=
=






ASIGNACIN
PROPORCIONAL


2
1
2
1
1
L
i i
i
L
i i
i
N
n
ND N
N

=
=
=
+



j
j
N
N
=


1
1
1
L
i i i
i
L
i i i
i
N p q
n
ND N p q
N
=
=
=
+



j
j
N
N
=



D
2
( )
4
B
D media =
2
2
( )
4
B
D total
N
=
2
( )
4
B
D proporcion =
2
2
( )
4
B
D total
N
=
387
ESTIMACIN DE RAZN



RAZN


MEDIA
TOTAL




ESTIMADOR

1
1
n
i
i
n
i
i
y
y
r
x
x
=
=
= =

y x
r =


y
x
r =




VARIANZA RESIDUAL



( )
2
2
1
1
1
n
r i i
i
S y rx
n
=
=







VARIANZA DEL
ESTIMADOR





2
2
1
( )
r
x
N n S
V r
N n

=



2
2
( ) ( )
r
y x
N n S
V V r
N n


= =



2
2 2
( ) ( )
r
y
x
N n S
V V r N
N n


= =









DETERMINACIN DEL
TAMAO MUESTRAL

2
2
2
2
r
r
r
r
N
n S de una muestra previa
ND

= =
+



2 2
( )
4
x
B
D para estimar R

=

2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =










388
ESTIMACIN DE REGRESIN

MEDIA
TOTAL



VARIANZA, COVARIANZA
Y COEF. DE
CORRELACIN
MUESTRALES


( ) ( )
2 2
2 2 2 2
1 1
1 1
( 1)
1
n n
x i x i x x
i i
S x x s x x n S ns
n n
= =
= = =




( )( ) ( )( )
1 1 1
1 1 1
1
n n n
xy i i xy i i i i
i i i
S x x y y s x x y y x y x y
n n n
= = =
= = =



2 2
2
2 2 2 2
xy xy
xy
x y x y
S s
r
S S s s
= =




ESTIMADOR

( )( )
( )
1
2 2
2
1
( )
n
i i
xy xy
i
yL x n
x x
i
i
x x y y
S s
y b x b
S s
x x

=
=

= + = = =

yL
yL
N =





VARIANZA RESIDUAL

ERROR TPICO DE
ESTIMACIN

( ) ( )
( )
2
2
2 2 2 2
2
1
1
( ) 1
2 2 2
n
xy
L i i y y xy
i
x
s
n n
S y y b x x s s r
n n s n
=
| |
= + = =
|
|

\ .



2
L L
S S =




VARIANZA DEL
ESTIMADOR


2
( )
L
yL
N n S
V
N n


=


2
( ) ( ) yL
yL
V N V =






DETERMINACIN DEL
TAMAO MUESTRAL

2
2
2
2
L
L
L
L
N
n S de una muestra previa
ND

= =
+


2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =

389
ESTIMACIN DE DIFERENCIA


MEDIA
TOTAL




ESTIMADOR



( )
yD x x
y x d d y x = + = + =


yD
yD
N =





VARIANZA RESIDUAL


( ) ( )
2 2
2
1 1
1 1
( )
1 1
n n
D i i i i i i
i i
S y x d d d d y x
n n
= =
= + = =







VARIANZA DEL ESTIMADOR


2
( )
D
yD
N n S
V
N n


=



2
( ) ( ) yD
yD
V N V =






DETERMINACIN DEL
TAMAO MUESTRAL


2
2
2
2
D
D
D
D
N
n S de una muestra previa
ND

= =
+



2 2
2
( ) ( )
4 4
y y
B B
D para estimar D para estimar
N
= =



390
MUESTREO POR CONGLOMERADOS


MEDIA o PROPORCIN
TOTAL (M conocido)


TOTAL




NOTACIN


conglomerados en la poblacin N = conglomerados en la muestra n =

i
elementos en el conglomerado i m =
i
suma de las observaciones del conglomerado i y =
1
N
i
i
elementos en la poblacin M m
=
= =


1
n
i
i
elementos en la muestra m m
=
= =


1
1
N
i
i
tamao medio de los conglomerados de la poblacin M m
N
=
= =



1
1
n
i
i
tamao medio de los conglomerados de la muestra m m
n
=
= =





ESTIMADOR

1
1
n
i
i
n
i
i
y
y
m

=
=
= =



M y =





1
1
n
i t
i
y y
n
=
=




t
t
N y =






VARIANZA
DEL
ESTIMADOR

( )
2
2
1
1
1
n
c i i
i
S y ym
n
=
=

2
2
1
( )
c
S N n
V y
N n
M

=


2
2
( ) ( ) ( )
c
S
V M V y N N n
n
= =





( )
2
2
1
1
1
n
t i t
i
S y y
n
=
=

2
( )
t
t
S N n
V y
N n

=


2
2
( ) ( ) ( )
t
t
t
S
V N V y N N n
n
= =






TAMAO
MUESTRAL

2
2
2
2
c
c
c
c
de una muestra previa
N
n S
ND

= =
+


2
2
( )
4
B M
D media =
2
2
( )
4
B
D total
N
=

2
2
2
2
t
t
t
t
de una muestra previa
N
n S
ND

= =
+


2
2
( )
4
B
D total
N
=





391
ESTIMACIN DEL TAMAO DE LA POBLACIN





MUESTREO DIRECTO


MUESTREO INVERSO

NOTACIN

elementos marcados t =
total de elementos en la muestra de recaptura n =
elementos marcados en la muestra de recaptura s =


ESTIMADOR

t nt
N
s
p
= =

t nt
N
s
p
= =




PROPIEDADES DEL
ESTIMADOR

( )
( ) N N t
E N N
nt

= +


( )
2
3
( ) t n n s
V N
s

=

( )
E N N =


( )
2
2
( )
( 1)
t n n s
V N
s s

=
+






















392
ESTIMACIN DEL TAMAO DE LA POBLACIN





MUESTREO POR CUADROS




DENSIDAD


TOTAL


NOTACIN


rea total A =
rea de cada cuadro a =
nmero de cuadros en la muestra n =
nmero medio de elementos por cuadro en la muestra m =


ESTIMADOR

m
a
=



M A =

VARIANZA DEL
ESTIMADOR



( )

V
an

=



( )

( )

2
2
A
V M A V
an

= =

CUADROS CARGADOS




DENSIDAD


TOTAL


NOTACIN


rea total A =
rea de cada cuadro a =
nmero de cuadros en la muestra n =
y = nmero total de cuadros no cargados


ESTIMADOR

1
ln
y
a n

| |
=
|
\ .




ln
A y
M A
a n

| |
= =
|
\ .


VARIANZA DEL
ESTIMADOR



( )
2
1 n y
V
a ny


=



( )

( )
2
2
2
A n y
V M A V
a ny


= =

393
INDICADORES ESTADSTICOS REGIONALES

Medidas de desigualdad-concentracin regional:
j
x = valores porcentuales (proporciones) de la variable respecto del total=
1
j
N
j
j
X
X
=


Coeficiente de Theil
1
ln ln
N
j j
j
T N x x
=
= +


Propiedad de agregacin:
1 1
ln ln
k k
g
g g g
g g
g
x
T N x x T
N
= =
| |
= + +
|
|
\ .


1
k
g
g
N N
=
=


g
g j
j G
x x

=

ln ln
g
j j
g g
j G
g g
x x
T N
x x

| |
= +
|
|
\ .


ndice de Theil:
1 1
ln ln ln
1
ln ln ln
N N
j j j j
j j
T THEIL
N x x x x
T
I I
N N N
= =
+
= = = = +


Desigualdad individual: 1
i
i
i i
x X x
d
X X

= =
Desigualdad colectiva:
1
N
i i
i
D d f
=
=


Propiedad de agregacin:
1 1
1
k k
g
g g g
g g
g
N
x
D d N D
N N x
= =
= +


g
g j
g j
j G
j
x X
D f
X

=


g
g
g
x x
d
x

=

Medidas de dispersin regional:
Varianza: ( ) ( )
2
1
1
N
j
j
V X X x
N
=
=


Varianza normalizada: ( )
2
( ) V X
VN X
x
=

Coeficiente de asociacin geogrfica de Florence :
1
1
1
2
N
j j
j
F x y
=
=


394
MEDIDAS DE LOCALIZACIN ESPACIAL
ij
j
Y
Y

i
participacin de la regin i en el sector j
i
Y
Y

i
participacin de la regin i en la poblacin
ij
i
Y
Y

i
participacin del sector j en la regin i
ij
i
Y
Y

i
participacin del sector j en la regin i

Cociente de localizacin regional del sector j en la regin i (cociente de especializacin de
la regin i en el sector j) :
/ /
100 100
/ /
ij i ij j
ij
j i
Y Y Y Y
L
Y Y Y Y
= =
i i
i i

Coeficiente de localizacin sectorial (del sector j-simo):
1
1
2
N
ij
i
j
i
j
Y
Y
CL
Y Y
=
=

i
i

Coeficiente de especializacin regional (de la regin i-sima):
1
1
2
L
ij j
i
j
i
Y Y
CE
Y Y
=
=

i
i

Coeficiente de diversificacin (de la regin i-sima):
2
2
1
2 2
1 1
L
ij
j
i
i L L
ij ij
j j
Y
Y
CD
L Y L Y
=
= =
| |
|
\ .
= =


i

Coeficiente de diversificacin normalizado:
*
1
1
i i
L
CD CD
L L
| |
=
|

\ .


395
Contrastes
2
de Pearson
n
i
=n de observaciones en la clase i.
E
i
=np
i
=n esperado de
observaciones en la clase i bajo H
0
.
( )
2
2
1
k
i i
i i
n E
E


ij
n = n de elementos en la categora
i
A de X
y
j
B de Y.
1
c
i ij
j
n n

=
=

= n de elementos en la categora
i
A de X.
1
r
j ij
i
n n

=
=

= n de elementos en la categora
j
B de Y.
n = n de elementos en la muestra.
i j
ij
n n
E
n

=
( )
2
2
1 1
r c
ij ij
i j ij
n E
E

= =


ij
n = n de elementos en la categora
i
A de X,
de la poblacin
j
B .
1
c
i ij
j
n n

=
=

= n de elementos en la categora
i
A de X.
1
r
j ij
i
n n

=
=

= n de elementos en la poblacin
j
B .
n = n de elementos en la muestra.
i j
ij
n n
E
n

=
( )
2
2
1 1
r c
ij ij
i j ij
n E
E

= =


0
H : X F(x)
H
0
: X e Y son independientes. H
0
: Las c poblaciones son homogneas
(se distribuyen igual)
: ( ). ( ) ( )
1
H X G x G x F x
H
1
: X e Y no son independientes. H
1:
Las c poblaciones no se distribuyen igual
2 2
1,1 0 k
rechazamos H si



>
2 2
( 1)( 1); 1 o r c
rechazamos H si



>
2 2
( 1)( 1); 1 o r c
rechazamos H si



>


396
Contrastes de Kolmogorov-Smirnov (muestras independientes).
| |
0
( ) F x P X x =
( )

n
n observaciones x
F x
n

=
( ) ( )
0
max
exp n
D F x F x =
( )
1

n
muestra
n observaciones x
F x
n

=

( )
2

m
muestra
n observaciones x
F x
m

=

exp
max ( ) ( )
n m
D F x F x =
0
H : X F(x)
: ( ). ( ) ( )
1
H X G x G x F x
Contraste bilateral:
0
1
: ( ) ( )
: ( ) ( )
n m
n m
H F x F x
H F x F x
=

`

)

Contrastes unilaterales:
0 0
1 1
: ( ) ( ) : ( ) ( )
(1) (2)
: ( ) ( ) : ( ) ( )
n m n m
n m n m
H F x F x H F x F x

H F x F x H F x F x
= =

` `
< >
) )

( .14)
0 exp
rechazamos H si D D tabla A

>
distinguiendo si n m = o n m y si el test es unilateral o bilateral. Se rechaza
0
H si
exp
D D

> . (Tablas A.18 y A.19)




397
Contraste de Mann-Whitney (muestras independientes).

0
. ( ) ( )
n m
H Las dos muestras proceden de la misma poblacin F x F x = =
1
. ( ) ( )
n m
H Las muestras proceden de
poblaciones distintas F x F x
=

1
( ) ( )
(
).
n m
H F x F x
La muestra de tamao n toma valores
mayores que la muestra de tamao m
= <
20 40
( 3.17 3.20)
n y m
tablas a

( )
60
(0,1)
n m
z N
+ >

2
nm
=
2
( 1)
12
nm n m

+ +
=
0
0
U
z

=
0
2
Se rechaza H si p

muestras de
tamaos n y m
n m
0 1 2
min ( , ) U U U =
1 1
( 1)
2
n n
U nm R
+
= +
2 2
( 1)
2
m m
U nm R
+
= +
0 0
( )
Se rechaza H si U U
U valor crtico para el test unilateral

0
Se rechaza H si p
0
Se rechaza H si p
| |
0
p P z z =
0 0
( )
Se rechaza H si U U
U valor crtico para el test bilateral

0 0
( )
Se rechaza H si U U
U valor crtico para el test unilateral

1
( ) ( )
(
).
n m
H F x F x
La muestra de tamao n toma valores
menores que la muestra de tamao m
= >

398
Test de las rachas (aleatoriedad, muestras independientes).

0
( ) H El orden de los valores de la muestra es aleatorio casual =
0
H Las dos muestras proceden
de la misma poblacin
=
( )
A
H El orden de los valores de la
muestra NO es aleatorio casual
=
1
( )
A
H Efecto de aglomeracin
pocas rachas
=
2
.
( )
A
H Los valores se
suceden de forma regular
muchas rachas
=
1
.
( )
A
H Las dos muestras proceden
de poblaciones distintas
pocas rachas
=
1 2
20
( 4.40)
n y n
tabla

( )
1 2
20
(0,1)
n o n
N
>
1 2
1 2
2
1
n n
n n
= +
+
( ) ( )
2 1 2 1 2 1 2
2
1 2 1 2
2 (2 )
1
n n n n n n
n n n n


=
+ +
R
z

=
0
(
%)
2
u o
Se mantiene H si r R r
lmites inferiores y superiores
del

< <
0
(
u
Se mantiene H si r R
lmites inferiores del %)
<
0
(
o
Se mantiene H si R r
lmites superiores del %)
<
0
(
u
Se mantiene H si r R
lmites inferiores del %)
<
0
2 2
Se mantiene H si z z z

< <
0
Se mantiene H si z z

<
0
Se mantiene H si z z

<
0
Se mantiene H si z z

<








399
Test de los signos (muestras dependientes).






0 1 2
: . ( ) ( ) H La mediana de las diferencias es cero Las dos muestras proceden de la misma distribucin F x F x =
1
1 2
:
. ( ) ( )
H Las dos muestras proceden
de distribuciones distintas F x F x
100
( 4.4)
n
tabla

101 1000
( 4.5)
n
tabla

( )
30
(0,1)
n
N

0
1 2
, ,
i i i
Se rechaza H cuando hay demasiadas diferencias de un signo y por tanto muy pocas del signo contrario
d x x d diferencias de signo positivo d diferencias de signo negativo
+
= = =
2
2 4
n n
= =
{ }
0
, Se acepta H si EI d d ED
+

1
1 2
:
.
( ) ( ) ( 1
2).
H Las dos muestras proceden
de distribuciones distintas
F x F x La muestra toma
valores mayores que la muestra
<
1
1 2
:
.
( ) ( ) ( 1
2).
H Las dos muestras proceden
de distribuciones distintas
F x F x La muestra toma
valores menores que la muestra
>
{ }
0
, Se acepta H si d ED EI d
+

{ }
0
, Se acepta H si d ED EI d
+

{ }
0
2 2
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si z z z z
+

{ }
0
, Se acepta H si EI d d ED
+

d
z

+
+

=
d
z


=
d
z

+
+

=
d
z


=
{ }
0
, Se acepta H si d ED EI d
+
{ }
0
, Se acepta H si d ED EI d
+


400
Test de Wilcoxon de los signos-rangos (muestras dependientes).





( )
65
4.2
n
tabla

( )
25
(0,1)
n
N
>

1 2
( 1)
min( , )
2
i i i i
n n
d x x ordenar d de menor a mayor R y R verificar R R R R R
+ + +
+
= + = =
0
:
0
H La distribucin de las diferencias es simtrica alrededor de su mediana 0 Las dos muestras proceden de la misma distribucin.
H : f(+d)= f(-d) F(+d)+F(-d)=1


0
( ) Se rechaza H si R R R valor crtico para el test
1
: . H Las dos muestras proceden de distribuciones distintas

( )( )
2
1 2 1
( 1)
4 24
n n n
R n n
z

+ +
+
= = =
0
2
( ) Se rechaza H si z z test bilateral


0
( ) Se rechaza H si z z test unilateral