Está en la página 1de 414

DPTO.

MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA
UNIVERSIDAD DE GRANADA

AMPLIACIÓN
DE
TÉCNICAS CUANTITATIVAS
TEORÍA, EJERCICIOS Y PRÁCTICAS

1

2

INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . .

6

APUNTES:
1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . .
1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . .
1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .

11
11
12
13
13
15
16
16
16
17

2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas
aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . .
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . .
2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . .
2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23
23
24
25
27
30

3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . .
3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . .
3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38
38
39
42
43
43
44
44
50
52

4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .
4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . .
4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . .

63
63
64
65
68
69
70
71
72
72
74

18
19
19

3

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . .
5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

75
82
82
84
86

5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .

88

Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . .
6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . .
6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . .
6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92
92
92
92
97
98

7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . .
7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . .
7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . .
7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

108
108
109

8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . .
8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . .
8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . .
8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . .
8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . .
8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

117
117
117
117
119
123
126
126
128

9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . .
9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . .
9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . .
9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

130
130
131
132
134
136
137

10. Contrastes χ 2 de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.1 Contrastes χ 2 de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . .
10.2 Contrastes χ 2 de independencia. . . . . . . . . . . . . . . . . . . . . . . .
10.3 Contrastes χ 2 de homogeneidad. . . . . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

143

110
112
112
114

143
147
150
152

11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . .
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . .
11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . .
11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . .
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

162
162
165
168
176
178
179
181

EJERCICIOS:
Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

190
196
207
217
220
230
234
236
240
248

PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

259

PRÁCTICAS:
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

276
279
286
293
311
317
320
327
330
333
337
351
366

FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . .

381

5

INFORMACIÓN GENERAL
Licenciatura: Economía
Carácter: Obligatoria
Créditos: 4,5
Periodo lectivo: Segundo curso. Segundo cuatrimestre.
Departamento: Métodos Cuantitativos para la Economía y la Empresa

Objetivos de la Asignatura:
o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos
en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e
inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e
informáticas necesarias para poder abordar la resolución de supuestos prácticos.
o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de
los conceptos, la capacidad de elección del método en la resolución de los problemas
prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo
Excel y el paquete estadístico SPSS, así como la interpretación de los resultados.
o Una hora de clase a la semana será en el aula de informática donde se utilizarán los
programas Excel y SPSS.

Sistema de Evaluación:
• En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos
pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con
ordenador (valorada como máximo en el 40% de la calificación), siendo necesario
superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la
asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas
las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha
información se facilitará por internet y/o en la fotocopiadora del centro. También se
permite el uso de calculadora no programable en la prueba escrita.
• Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria
oficial de Junio. La superación de este examen o parte del mismo eximirá de la
realización de todo el examen final (escrito y ordenador) o de alguna de las partes en
esa convocatoria.

6

TEMARIO
1. Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.
2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de
estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.
3. Muestreo aleatorio estratificado.
3.1 Selección de una muestra aleatoria estratificada.
3.2 Estimación de la media, proporción y total poblacionales.
3.3 Determinación del tamaño muestral.
3.4 Asignación de la muestra.
3.4.1 Asignación óptima.
3.4.2 Asignación de Neyman.
3.4.3 Asignación proporcional.
3.5 Estratificación después de seleccionar la muestra.
4. Muestreo con información auxiliar.
4.1 Introducción.
4.2 Estimación de razón.
4.2.1 Estimación de la media y total poblacionales.
4.2.2 Determinación del tamaño muestral.
4.3 Estimación de regresión.
4.3.1 Estimación de la media y total poblacionales.
4.3.2 Determinación del tamaño muestral.
4.4 Estimación de diferencia.
4.4.1 Estimación de la media y total poblacionales.
4.4.2 Determinación del tamaño muestral.
5. Muestreo sistemático.
5.1 Selección de una muestra sistemática. Usos. Ventajas.
5.2 Estimación de la media, proporción y total poblacionales.
5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y periódicas.
7

5.4 Determinación del tamaño muestral.
6. Muestreo por conglomerados.
6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formación de los conglomerados. Conglomerados y estratos.
6.3 Estimación de la media, proporción y total poblacionales.
6.4 Determinación del tamaño muestral.
7. Estimación del tamaño de la población.
7.1 Muestreo directo.
7.2 Muestreo inverso.
7.3 Muestreo por cuadros.
7.3.1 Estimación de la densidad y tamaño de la población.
7.3.2 Muestreo por cuadros en el espacio temporal.
7.3.3 Cuadros cargados.
8. Indicadores estadísticos regionales.
8.1 Introducción.
8.2 Medidas de desigualdad-concentración regional.
8.2.1 Curva de Lorenz. Índice de Gini.
8.2.2 Coeficiente de Theil. Índice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersión regional.
8.4 Coeficiente de asociación geográfica de Florence.
9. Medidas de localización espacial.
9.1 Introducción.
9.2 Cocientes de localización y especialización.
9.3 Coeficientes de localización sectorial.
9.4 Coeficientes de especialización regional.
9.5 Coeficientes de diversificación.
10. Contrastes χ 2 de Pearson.
10.1 Contrastes χ 2 de bondad de ajuste.
10.2 Contrastes χ 2 de independencia.
10.3 Contrastes χ 2 de homogeneidad.
11. Inferencia no paramétrica.
11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.
11.2 Contraste de Kolmogorov-Smirnov para 2 muestras.
11.3 Contraste de Mann-Whitney.
11.4 Test de las rachas.
11.5 Test de los signos.
11.6 Test de Wilcoxon de los signos-rangos.

8

Técnicas Cuantitativas para el Análisis Regional.S. SACHS. despacho.. R. Ed. correo electrónico. y CALLEJÓN. Ed. CASAS SÁNCHEZ.. (1999). Madrid.G. A. S. MANZANO.a. MARTÍN-GUZMÁN. A. 9 . (2004). Información en la WEB: En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a los alumnos sobre: ¾ Profesores que imparten la asignatura. ¾ Programa de la asignatura ¾ Bibliografía ¾ Apuntes de clase ¾ Relaciones de ejercicios ¾ Prácticas de ordenador ¾ Sistema de evaluación ¾ Fechas de exámenes ¾ Calificaciones ¾ Revisión de exámenes ¾ Cualquier otra información que los profesores consideren importante. ROJAS. J. Ariel.BIBLIOGRAFÍA SCHEAFFER.J. International Thomson Editores. F. S.. L. Editorial Universidad de Granada.M. Elementos de muestreo. (2006). horario de tutorías. (1993). MENDENHALL. AC. J. V.. W. y FERNÁNDEZ. Inferencia Estadística para Economía y Administración de Empresas. LOHR. Manual para Encuestadores. Estadística Aplicada. y OTT.. J. (1978).L. F. J. Curso básico de estadística económica. P. Muestreo: Diseño y Análisis. (1996). Centro de Estudios Ramón Areces. y MARTÍN PLIEGO. Ed. International Thomson Editores. (1996). PALACIOS. Labor s. L.

10 .

1. Elementos del problema de muestreo.
1.1 Definiciones básicas.
1.2 Selección de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Métodos de recolección de datos.
1.5 Diseño del cuestionario.
1.6 Planificación de la encuesta.
1.7 Razones para el uso del muestreo.

El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base
en la información contenida en una muestra representativa.
La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de
nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad
comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones
sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente
tomadas sobre la base de la información de encuestas por muestreo.
1.1 Definiciones básicas
En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas
nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra
perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las
características de toda la población. Una buena muestra reproduce las características de interés
que existen en la población de la manera más cercana posible.
Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas
que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se
quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes
que apoyarán a un determinado candidato
Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro
ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no
al candidato.
La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe
contener:
ƒ

una descripción de los elementos que serán incluidos, y

ƒ

una especificación de las mediciones que se van a considerar.
11

Una muestra es un subconjunto de la población.
El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir
información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un
candidato en una votación, la información disponible para el muestreo puede ser el censo de
residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona
muestreada es un votante censado o no.
La población muestreada es la colección de todos los elementos posibles que podrían
seleccionarse para la muestra.
Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que
cubren la población completa.
Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los
teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las
familias sirven como unidades de muestreo y los elementos son los individuos que viven en
una familia.
El marco de muestreo es la lista de las unidades de muestreo.
Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos
los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan
inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin
embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño
como para permitir que se hagan inferencias acerca de la población basándose en una muestra
obtenida del marco.
1.2 Selección de la muestra
Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se
puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de
información contenida en una muestra se controla por medio del número de datos muestrales y
por el método usado para seleccionar los datos muestrales.
Veamos algunos métodos:
1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo.
Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de
tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base
de otros diseños de muestreo.
2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se
pueden dividir en grupos con diferentes opiniones sobre un determinado candidato.
Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se
12

divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria
simple de cada grupo. A la muestra resultante se le llama muestra aleatoria
estratificada.
3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que
componen una población se reúnen en unidades de muestreo de mayor tamaño,
llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar
de votantes individuales. En este caso las familias forman los conglomerados y los
miembros de las familias son las unidades de muestreo.
4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como
sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al
comienzo de una lista de la población y luego se selecciona cada un número fijo de
posiciones el resto de elementos.
1.3 Fuentes de error
1.3.1 Errores de muestreo
El error de muestreo es el que surge al considerar una muestra y no examinar toda la
población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso
de la muestra.
Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de
una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la
audiencia televisiva una determinada noche, la intención de voto de una región,....
Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello
es preferible utilizar un subconjunto pequeño de la población, la muestra.
Denotando por θˆ a un estimador de la característica θ , definimos el error de estimación como
error de estimación = θˆ - θ
Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el
estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso
ocurre con una determinada probabilidad
P  θˆ − θ ≤ B  = 1 − α

,0 < α <1

donde
 Límite para el Error de Estimación (LEE) con nivel de confianza 1 − α

B = Cota para el error de estimación con nivel de confianza 1-α
 Error de estimación máximo con nivel de confianza 1-α

13

A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador:

(

)

1. θˆ es un estimador insesgado de θ y tiene una distribución Normal θˆ → N (θ , σ θˆ ) .
Dado que θˆ − θ → N (0, σ θˆ ), entonces
P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B 


 B
B
= P −
≤ Z ≤  = 1− α
σ θˆ 
 σ θˆ

donde Z =

θ −θ
B
→ N (0,1) . Por tanto,
= z α (podemos obtenerlo en una tabla de
1−
σθ
σ θˆ
2

probabilidades de la N(0,1)) y el límite del error de estimación es B = z

1−

α

σ θˆ . Como

2

se puede observar, el límite del error de estimación dependerá del nivel de confianza y
de la desviación típica del estimador (esto último dependerá de la variabilidad de la
muestra y del tipo de muestreo).
Tomando una confianza del 95% el límite del error de estimación será:

B = z 0,975σ θˆ = 1,96σ θˆ ≅ 2σ θˆ . Entonces
P  θˆ − θ ≤ 2σ θˆ  = 0,95

Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la
desviación típica del estimador. (En muchos textos se denomina error típico a la
desviación típica del estimador)
2. θˆ es un estimador insesgado de θ con desviación típica (error típico) σ θˆ .

Por la desigualdad de Tchebyshev:

()

1
P  θˆ − E θˆ ≤ kσ θˆ  ≥ 1 − 2


k

, k ≥1

Dado que el estimador es insesgado y tomando k = 2 ,
1
P  θˆ − θ < 2σ θˆ  ≥ 1 − 2 = 0, 75


2
Luego, con una confianza mayor del 75%, el límite del error de estimación es dos
veces la desviación típica del estimador.
Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador
con una confianza del 95% si el estimador tiene distribución Normal y con una confianza
14

mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30,
los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud
del Teorema central del límite.
La expresión P  θˆ − θ ≤ B  = 1 − α tiene una segunda lectura. Dado que


P  θˆ − θ ≤ B  = P  − B ≤ θˆ − θ ≤ B  = P θˆ − B ≤ θ ≤ θˆ + B  = 1 − α

(

el verdadero valor del parámetro se encuentra entre los extremos del intervalo θˆ − B, θˆ + B

)

con una confianza de 1 − α .
1.3.2 Errores de no muestreo

Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se
llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa
encuesta puede ser despreciable en comparación con los errores que no son de muestreo.
Los errores de no muestreo más comunes son:
1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no
está en la población muestreada. Una muestra así obtenida no es representativa de la
población objetivo.
2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren
del valor verdadero. La obtención de respuestas precisas en las encuestas es
fundamental pero esto a veces no se consigue por diversos motivos:
-

A veces, las personas no dicen la verdad.

-

Las personas no siempre comprenden las preguntas.

-

Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera
equivocada.

-

La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas
obtenidas.

3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la
muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección.
Puede ocurrir que las personas que respondan no representen a la población bajo
estudio.
Los errores de no muestreo pueden controlarse con las siguientes acciones:
1. Reentrevistas.
15

2. Recompensas e incentivos.
3. Entrevistadores adiestrados.
4. Verificación de datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.4 Métodos de recolección de datos

También el método de recolección de datos es fundamental en la reducción de los errores de
no muestreo. Destacamos como métodos más habituales:
(A) Entrevista personal.
(B) Entrevista por teléfono.
(C) Cuestionarios autoaplicados.
(D) Observación directa.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.5 Diseño del cuestionario

Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo
que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son
los siguientes:
-

Decidir lo que se quiere descubrir.

-

Verificar las preguntas antes de realizar la encuesta.

-

Elaborar las preguntas de manera sencilla y clara.

-

Prestar atención al orden de las preguntas.

-

Decida si desea utilizar preguntas abiertas o cerradas.

-

Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.

-

Utilice preguntas de opción forzosa.

(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.6 Planificación de la encuesta

Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse
en cuenta en la planificación de una encuesta:
1. Establecer objetivos.
2. Población objetivo.
16

3. El marco.
4. Diseño del muestreo.
5. Método de recolección de datos.
6. Instrumentos de recolección de datos.
7. Selección y preparación de investigadores de campo.
8. Prueba piloto.
9. Organización del trabajo de campo.
10. Organización de la administración de datos.
11. Análisis de los datos.
(Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
1.7 Razones para el uso del muestreo

Entre otras muchas razones, destacamos:
(a) Evitar la destrucción de la población. En algunos casos, una unidad de observación
debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la
población. Por ejemplo el muestreo en el control de calidad.
(b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se
pueden publicar de una manera programada. Por ejemplo las elecciones.
(c) Economía y precisión. El muestreo puede proporcionar información fiable con costes
mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus
respectivas muestras son, con frecuencia, más precisas que las basadas en un censo,
pues los investigadores pueden tener más cuidado al reunir los datos. Un censo
completo necesita, por lo regular, de una gran organización administrativa e implica a
muchas personas en la recolección de los datos. Con tal complejidad administrativa y
la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores
en la elaboración del censo. En una muestra, se puede dedicar más atención a la
calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no
contestan la encuesta.

17

2. Muestreo aleatorio simple.
2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación.
2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
2.2.3 Determinación del tamaño muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimación de la media, proporción y total poblacionales.
2.3.2 Determinación del tamaño muestral.

2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias.

Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así
seleccionada se le llama muestra aleatoria simple.
En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da
lugar a variables aleatorias independientes e idénticamente distribuidas.
El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus
distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla
la hipótesis de independencia.
Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior
distinción es irrelevante.
En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más
información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin
reemplazamiento.
En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser
seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la
muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un
sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo
aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras
tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más,
estas tablas de números aleatorios son sustituidas por la generación de números aleatorios
mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números
aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso
contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan
sencillo. Una alternativa a la formación de una lista numerada para la selección mediante
números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según
18

. independientes e idénticamente distribuidas (i. Otros tipos de muestreo que se utilizan con cierta frecuencia son: ƒ Muestreo causal. tomamos una muestra que respete esos tamaños..d.este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra.. varianza y proporción muestrales: Propiedades.i. y . Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo). respetando el tamaño relativo de los grupos que la integran. EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA. las dos siguientes (07) la calle del distrito. las dos siguientes (10) el número de la calle. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica. (Observaciones en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos conducen a variables i.. µ. la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números aleatorios. seleccionamos una muestra que consideramos representativa de la población. 19 . Como estimador de la media de la población. la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta. usamos nuestro criterio para seleccionar aleatoriamente la muestra.1 Media. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres. 2.) 2. se utiliza la media muestral. sobretodo si la entrevista es por teléfono. Supongamos que la característica en estudio de la población está representada por la variable Y (con media µ y varianza σ2). Veamos cómo se aplicaría este método con un sencillo ejemplo: Se ha seleccionado el número aleatorio 11071032.). Yn.2 Muestreo aleatorio simple en poblaciones infinitas.d. Error de estimación.2. ƒ Muestreo por cuotas (o representativo). las dos primeras cifras (11) indican el distrito de la ciudad. una muestra aleatoria simple de tamaño n estará representada por n variables: Y1.i. así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página.

.. Yn son dicotómicas. la proporción muestral.. como media muestral que es. σ 2 ) y−µ σ n 20 σ 2 conocida → N (0. S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 que también tiene la propiedad de ser insesgado E (S2 ) = σ 2 de forma que la varianza de la media muestral se estima de forma insesgada por V ( y) = S2 n Cuando las variables Y. . deberíamos evaluar también su bondad. sólo toman dos valores (0 y 1)..1) . donde q=1-p. Yn. tiene las mismas propiedades mencionadas antes..y= 1 n ∑ yi n i =1 Un valor aislado y del estimador revela poco acerca de la media poblacional. Y1. Así. 1 Este estimador. Y1. su media µ representa una proporción y se nota como p y el estimador de la misma... por p p= 1 n ∑ yi . n i =1 yi = 0. aparte de las mencionadas. si Y → N ( µ . Como antes. La varianza de la población es en este caso σ 2 = pq . el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a S2 = n pq n −1 Si conocemos más características de las variables aleatorias Y. se utiliza la cuasivarianza muestral. conoceremos más propiedades de la media muestral. Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza ( ) ( ) E y =µ V y = σ2 n Como estimador de la varianza de la población. σ 2 . S 2 .

p) . siendo válido lo que sigue también para las otras)     y−µ ≤ 1.1) S n (en la práctica. por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada. o dicotómicas. σ 2 ) σ 2 desconocida y−µ → tn −1 ≈ N (0. si el tamaño de la muestra es suficientemente grande. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores.si Y → N ( µ .96  = 0. donde µ = p p− p ≈ pq n p− p n pq n −1 n = p− p → N (0. p ) sigue o se puede aproximar. para n>30) un caso particular del anterior es cuando Y → B(1. por una distribución normal. La primera: σ σ  σ    P  −2 ≤ y−µ ≤2  = 0.1) y= p (en la práctica.96≈2 De las probabilidades anteriores se puede hacer dos lecturas.96 ≤ σ     n o en un caso más general     y−µ P  − Zα ≤ ≤ Zα  = 1 − α σ 2 2     n α=nivel de significación 1-α=nivel de confianza Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1.95 n n n   21 .1) S n (en la práctica.95 P  −1. para n>30) pq n −1 Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas. para n > 30) si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞ y−µ σ ≈ n y−µ → N (0.95 ⇒ P  y − µ ≤ 2  = 0. y .

95 n n  expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre σ σ   entre los extremos del intervalo  y − 2 . y el verdadero valor del parámetro que se quiere estimar. y − µ = error de estimación o diferencia entre la estimación que hacemos.75. .En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0. a la media muestral para k=2 se obtiene σ  1  P y−µ ≤ 2  ≥ 1 − 4 = 0. 75 n  resultado parecido al que obteníamos anteriormente σ   P y−µ ≤ 2  = 0.y+2 . En la práctica se estima por 2 S . y . µ. n La segunda lectura: σ σ   Py −2 ≤ µ ≤ y+2  = 0. En ese caso la desigualdad de Tchebychev nos da la respuesta. con una confianza del 95%. n>30. es el máximo error de estimación que se puede estar cometiendo. entonces P  X − µ ≤ kσ  ≥ 1 − 1 k2 Aplicando lo anterior.95= nivel de confianza del 95%. 2 σ n = cota o límite para el error de estimación. Pero qué ocurre si no es así. en particular. La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y varianza V ( X ) = σ 2 .95 n  salvo que en este caso lo más que podemos asegurar es que la probabilidad de que y−µ ≤2 22 σ n es mayor de 0. n n  Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande.

2 Estimación puntual. Intervalos de confianza. Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado. hacemos una estimación puntual. por ejemplo. (ejercicio 13. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza). teniendo en cuenta que σ 2 = pq n= pq . hablamos de intervalo de confianza. Lo anterior equivale a comprobar si  µ0 ∈  y − 2  S S  . En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación. La cantidad de información necesaria para conseguir lo anterior depende del tamaño de la muestra según la siguiente expresión 4 σ2 n = B2 ⇒ n = σ2 B2 4 = σ2 D . D= B2 4 El caso de la proporción es análogo al de la media. Por ejemplo.2. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. relación tema 2) Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es S S   . D D= B2 4 Ejemplo 2.y+2  y−2  n n  En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un determinado valor. Contrastes de hipótesis. se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del 5%.3 Determinación del tamaño muestral.2.2. rechazándose en caso contrario.1. 23 . 2.y+2  n n en cuyo caso se aceptaría la hipótesis nula. 2 σ n = B . utilizando muestras grandes.

d. Solución: a) p= 1 n 35 = 0.8571 n 35 1 n 5600 yi = = 160€ ∑ n i =1 35 B = 2 V ( y ) = 8. con un error inferior al 3%. 6 ≈ 642 D c) B = 0. tiene N elementos. 45€ „ 2. 000726 n −1 p ∈ (12.825 V ( p) = pq = 0.i. 0539 b) B = 0.5 n= pq = 1111.600€ (siendo la cuasivarianza de los datos 625).89% ) B = 2 V ( p ) = 0. 000225 4 p = q = 0. 03 B2 D= = 0. Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5. 000225 4 n= pq = 641.175 yi = ∑ n i =1 200 n = 200 q = 1 − 0.b) ¿Cuantas compras deberían observarse para estimar.11% . d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Suponemos que la población es finita. la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta. 03 D= B2 = 0. cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. y además que la muestra se selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo aleatorio simple en poblaciones infinitas con variables i.) 24 .1 ≈ 1112 D d) n = 35 S 2 = 625 V ( y) = y= S 2 625 = = 17.175 = 0. 22.3 Muestreo aleatorio simple en poblaciones finitas.

µ. sólo se puede asegurar que este nivel es mayor de un 75%. pero si 20  N −n N se supone suficientemente grande el c. (A) Estimación de la media poblacional. En muchos casos N no está claramente definido o se desconoce.p.96≈2. proporción y total poblacionales.  N   N −n En la práctica el coeficiente c.f.1 Estimación de la media.  V ( y ) =  .  N  Para calcular el límite para el error de estimación .   ≅ 1.p. se omite.2.f. Para estimar la media poblacional. suele despreciarse si   ≥ 0. con un 95% de confianza.p. se habla de un nivel de confianza del 95% cuando trabajamos con el coeficiente 1. salvo el coeficiente n    N −n   que se denomina coeficiente corrector para poblaciones finitas (c. según la desigualdad de Tchevychev. 25 .). Igual que en el caso de poblaciones infinitas.f.3. se utiliza la media muestral 1 n ∑ yi n i =1 Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra µ=y= ( ) E y =µ ( ) V y = σ2  N −n   n  N −1  En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población E (S2 ) = N σ2 N −1  N −1 2  E S  =σ2 N   De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por 2  N −1 2  1  N − n  S  N − n  V y = S   =     N  n  N −1  n  N  ( )  S2  expresión igual a la del caso de poblaciones infinitas.95 o lo que es equivalente  N  si n ≤ 1 N = 5% N . Pero en algunos casos. se halla 2 V ( y ) .

510 . (ejercicio 1. relación tema 2) Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. 49 ) τ = N y = 1000 ×1040 = 1.490 ) = (1.060. Para estimar el total poblacional. dado que µ = τ =Ny= N n τ N ⇒ τ = N µ utilizaremos el estimador n y .2. Suponga que existen 1.000 cuentas de las cuales se examinan 300. para no repetirnos más. La media muestral de las cuentas fue y = 1. dado que se trata de una media usaremos la media muestral que tiene la siguiente notación en este caso 26 .060. 49 = 20.040€ y la varianza muestral (“cuasivarianza”) es S2=45. omitiéndose.040. Ejemplo 2.493. Para estimar la proporción poblacional p . el límite para el error de estimación con una confianza del 95% está dado por 2 V (τ ) .9) (1. En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo.000€2.490 ) „ (C) Estimación de la proporción poblacional. 1.019.51 . 1. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1. Valiendo comentarios análogos a los hechos anteriormente.490€ (valor exacto 20.000 ∓ 20. la referencia al límite para el error de estimación.040 ∓ 20. ∑ i =1 i Para hallar su varianza. recordemos las propiedades de la varianza V (kX ) = k 2V ( X ) V ( X + Y ) = V ( X ) + V (Y ) ( X e Y incorreladas) Varianza estimada de τ V (τ ) = V ( N y ) = N 2 V ( y ) = N 2 S2 N − n S2 = N ( N − n) n N n Como en el caso de la media.040. 49 ) = (1. 49€ (1.019. τ.000€ 2 V (τ ) = N 2 V ( y ) = 1000 × 20. Solución: V ( y) = Sn2−1 N − n 45000 1000 − 300 = = 105 300 1000 n N 2 V ( y ) = 2 105 = 20.(B) Estimación del total poblacional.000 cuentas abiertas con un intervalo de confianza al 95%.

teniendo en cuenta que S 2 = V ( p) = yi = 0. 0821 = 73. 25 = 225 p2 = z ∑ i =1 i 100 V ( p2 ) = = 0. 68%) τ 2 = N p 2 = 900 × 0. es igual a n −1 S2 N − n pq N − n = n N n −1 N Para estimar el total poblacional de una variable dicotómica usamos V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) τ =Np pq n −1 2 V (τ ) = N 2 V ( p ) Ejemplo 2. 100 yi = 70 ∑ Según la muestra i =1 100 z = 25 ∑ i =1 i Usando los datos de la muestra. relación tema 2) Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro.. (ejercicio 2. 0821 (8. 0018855 n −1 N 2 V ( p1 ) = 0. zi responden NO...2 Determinación del tamaño muestral.89 „ 2.3.. El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B 27 . estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes.3. 21%) 2 V (τ 2 ) = 900 × 0. yi = 1 cuando responden SI. 0868 (8. 1 n pq . 70 (70%) p1 q1 N − n = 0.1 n ∑ yi . n i =1 p= su varianza estimada. 0016835 n −1 N 2 V ( p 2 ) = 0. 25 (25%) p2 q2 N − n = 0. análogamente para zi ). • La proporción de ellos que tienen algún tipo de trabajo. (i = 1.100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando Sean yi . Solución: 100 p1 = V ( p1 ) = y ∑ i =1 i 100 100 = 0.

28 . p ) .( ) 2 V ( y) = B ⇔ V y = V ( y) = σ2 N −n n N −1 =D ⇒ n= B2 =D 4 Nσ 2 ( N − 1) D + σ 2 Para estimar el total poblacional con un límite para el error de estimación B.  aunque la estimación insesgada de σ es N   Si no se dispone de información previa para estimar la varianza podemos usar que en variables normales el rango de la muestra es aproximadamente cuatro veces su desviación típica σ≅ R 4 ⇔ σ2 ≅ R2 16 La proporción poblacional p es la media µ de una variable dicotómica ( B (1.4. Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 . relación tema 2) Encuentre el tamaño de muestra necesario para estimar el valor total de 1. Ejemplo 2.400). V ( X ) = pq ). 1. obteniéndose n= Npq ( N − 1) D + pq D= B2 4 ( proporcion) D= B2 4N 2 (total ) En la práctica p se desconoce. (ejercicio 3. N −1 2   2 S . Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600. luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq.000€. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares.000 cuentas por cobrar con un límite para el error de estimación de 10. suponiendo p = 1 se obtiene un tamaño muestral conservador (mayor que el 2 requerido para obtener la cota del error de estimación prefijada). Si no se cuenta con información anterior. E ( X ) = p . se llega a la misma expresión de n pero con D = B2 4N 2 En la práctica la varianza poblacional σ 2 es desconocida. dado que 2 V (τ ) = N 2 V ( y ) = B .

9%) n −1 N 353 3.50 × 0.50 × 0. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%.000 Nσ 2 n= = 615. 04 ≈ 354 ( N − 1) D2 + p2 q2 (2. 05 ≈ 94 ( N − 1) D1 + p1q1 (2.50 = = 353.000 × 0. 000625) + (0.000 − 354 =2 = 0.000 o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor 29 . 40) p2 = proporción de estudiantes que apoyan al equipo decanal. 05) 2 = = 0.000 × 0. 000625 4 4 Np2 q2 3.0002 D= = = 25 4 N 2 4 ×1. Ejemplo 2.999 × 0. 0489 (≅ 4.50) para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de p1 disminuiría (con un 95% de confianza) hasta: 2 V ( p1 ) = 2 p1 q1 N − n 0. 60 × 0. D2 = n2 = B22 (0.999 × 0. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. 62 ≈ 616 ( N − 1) D + σ 2 „ Si se realizan dos preguntas (o más) a cada elemento de la muestra.0002 4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40.10) 2 = = 0. 60 × 0. relación tema 2) Los alumnos de TAM de una facultad con 3.5. D1 = n1 = B12 (0.Solución: B2 10. Solución: p1 = proporción de estudiantes que prefieren los exámenes en sábado.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. 0025 4 4 Np1q1 3. se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites. 0025) + (0. (ejercicio 4. 40 3. 40 = = 93. 60 × 0.

91. relación tema 2) Se han entrevistado 1. 02445 = 0.89 ) + . (Ejercicio 19.89 − 3.) la probabilidad comprendida entre (-4. + 39 = 40. VALOR en € 33.87 ) b) No.98) = ( 36.5 32 52 43 40 41 45 42.5 − 40.09 . elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. relación tema 2) Se selecciona una m..Zα 2 V ( p1 ) = 0.89 € 9 ( ) 1 2 2 ( 33. 44. prácticamente del 100%. 09 2 2 buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel. es decir. 67 9 −1 ( ) V y = S2 = 3. „ EJERCICIOS RESUELTOS 1.. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación.963 n ( ) B = 2 V y = 3.98 .s.a.89 ) = 35.87 ) σ2 S 2 35. 67 c) n = 2 ≅ 2 = = 35. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a) µ = y = S2 = 33.5 39 a) Obtener un intervalo de confianza para el valor medio de las compras... de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. porque 45 ∉ ( 36.09) se obtiene 0.98 € ( 40. + ( 39 − 40. 67 ≈ 36 compras B B 1 4 4 2..10 ⇒ Zα = 4. (Ejercicio 17.. 40. ¿Se puede afirmar que la mayoría de los habitantes están en contra? 30 .000 vecinos. .5 + .89 + 3.91.10 ⇒ Zα 0.99995684. 44. 4.

400 1202 4 4 n = n1 + n2 = 50 4. 655 ⇒ 1. 65. relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios.5% + 3. (Ejercicio 18. 655 × (1 − 0. relación tema 2) El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. 01% (65. Se decide clasificarlos en dos estratos. los que poseen contrato fijo y los que tienen un contrato temporal.SOLUCIÓN: 655 = 0. 0002262012 n −1 999 2 V ( p ) = 0. 49% . 01% .200=1000 1. (Ejercicio 14.200 n1 = n2 = σ 12 D1 σ 22 D2 = σ 12 = σ 22 2 1 B 4 2 2 B 4 = = Ri ≈ σi 4 250 300 σ i2 62.500 90. 68.500 62.200 y 2. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN: Ri 2.200 euros mensuales.200-1. 01%) = (62. 49% . 655) = = 0. El salario de los contratos fijos está comprendido entre los 1.700-500=1.000 1002 4 4 90.000 = = 25 14. 68.000 p= V ( p) = p = 65.000 90. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros. 0301 ⇒ 3.000 62.51%) ⇒ p > 50% ⇒ sí se puede afirmar que la mayoría de los habitantes están en contra 3.700 euros mensuales.5% pq 0.5% − 3.500 = = 25 10. el salario de los contratos temporales está comprendido entre 500 y 1. siendo de casi 11000 31 .51%) p ∈ (62.

(Ejercicio 15. 000625 4 4 Npq n= = 333.000 R = 11. 5.500 = 300 ⇒ σ ≅ D= R = 75 σ 2 ≅ 5625 4 B 2 102 = = 25 4 4 Nσ 2 n= = 74.euros el de mayor cuantía. 0001 4 4 . 47 ≈ 334 ( N − 1) D + pq D= p = q = 0.052 = = 0.1 ≈ 75 ( N − 1) D + σ 2 D= 32 B 2 0.800 − 1.800 ⇒ σ ≅ D= n= R = 2450 σ 2 ≅ 6. n = 334 . ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: N = 110 R = 1. relación tema 2) Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva.022 = = 0. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: N = 2.5 Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334.500 4 B 2 4002 = = 40. 65 ≈ 140 ( N − 1) D + σ 2 B 2 0.002. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales.200 = 9.000 4 4 Nσ 2 = 139.000 − 1.

p = q = 0. 2741 Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. (Ejercicio 21.8 ⇒ τ = N y = 70 5 S2 12. SOLUCIÓN: a) N = 25 n=5 14 y = = 2.9545 7. relación tema 2) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. en 600 taxis se monta un dispositivo para disminuirlo. (Ejercicio 16. El número de bajas en el último año. Calcule el límite para el error de estimación. Véase ejercicio 10 de la relación del capítulo 6) b) p= 2 = 0. Calcule el límite para el error de estimación.5 n= Npq = 105. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. 24 = 25 × 20 = 30 n −1 4 B = 2 V (τ ) = 10.6 litros cada 100 Km. 4 ⇒ τ = N p = 10 5 V (τ ) = N ( N − n) pq 0. Pasado cierto tiempo se 33 . 7 = 25 × 20 = 1270 V (τ ) = N ( N − n) n 5 B = 2 V (τ ) = 71. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. relación tema 2) El consumo medio de combustible de los taxis de una ciudad es 5. 4 ≈ 106 ( N − 1) D + pq 6. b) Estime el número de empresas que usarían los servicios ofertados. Puesto que se considera que el consumo es demasiado elevado.

3 11 3.7 17 4.5 10 4.4 20 6.1 19 5.6 16 5. 0 '9453) b) B = 0 '10 D= ( 0 '10 ) n= 4 ( 55'47% .4 6 6.00 41. por tanto p= 15 = 0 '75 20 V ( p) = pq N − n 0 '75 × 0 '25 580 = = 0 '00954 n −1 N 19 600 2 V ( p) = 0 '1953 ( 0 '75 − 0 '1953 . Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35.2 18 4.toma una muestra aleatoria de 20 taxis.7 4 3. (ejercicio 1.4 2 5.6 litros/100 Km.50 Estime el total del dinero adeudado y establezca un límite para el error de estimación.9 9 4.00 42. elegidos entre los 600 que colocaron el dispositivo. 94 '53% ) 2 = 0 '0025 Npq 600 × 0 '75 × 0 '25 = = 66 '77 ≈ 67 ( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 ' 25 ) 8.4 15 5. 34 .8 3 6.5 14 5.00 43.9 8 5 13 5.8 5 4. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.5 7 5.00 44. 0 '75 + 0 '1953) = ( 0 '5547 .4 12 6. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km. práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas.50 32. El consumo en litros de combustible por cada 100 Km.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.

1667 = 2 100(100 − 6) = 381.50 −  = 23. 02 n 6 Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común.6 6 2 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2  n  yi  ∑ n yi2 −  i =1  ∑ 1 2382  n = i =1 =  9556.50 32.00 41.00 44.1667 5 6  n −1 2 V (τ ) = 2 N ( N − n) S2 23.00 1806. según la guía de teléfonos más reciente. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.25 35.00 42.00 43. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.00 1681. relación tema 2) En un estudio sociológico.25 1024.00 ∑ y = 9556. (Ejercicio 16. Al terminar la investigación de campo. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n = sx = desviación típica σ n − 1 = Sx de forma inmediata.50 n n y = 238. 35 . La ciudad tiene 5000 hogares.00 1849. de los 300 hogares muestreados. en 51 habita al menos una persona mayor de 65 años. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía.SOLUCIÓN: yi yi2 1260.50 ∑ i =1 i i =1 τ =Ny= 2 i N n n y = ∑ i =1 i 100 238=3966. realizado en una pequeña ciudad.00 1936. σ n − 1 = S x = cuasidesviación típica 9.

una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo.563 S2 N − n = 0. 4556 2 V ( y ) = 1. (Ejercicio 11.3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: (con las funciones del modo SD de la calculadora) N=45. 0421 300 n −1 N 25% ∉ (17% ∓ 4. por tanto no V ( y) = podemos aceptar esa hipótesis. relación tema 2) Con objetivos benéficos. CONF .SOLUCIÓN: N=5000. El taller tiene 45 operadores. 21% ) = (12. 6.450.) n N Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza. 61 min . 79%. 00044359197 2 V ( p) = 0. ∑ Y i =1 i i i =1 2 = 54. n=5 y= 1 n ∑ yi = 5.1 7.2 5.8 5. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1.35 INTERV . Los resultados obtenidos son los siguientes: Tiempo(minutos) 4.17 q = 1 − p = 0. 11.91 min . 26 n i =1 S2 = ( 1 n ∑ yi − y n − 1 i =1 ) 2 = 2. n=300 p= 51 pq N − n = 0. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. relación tema 2) El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700.83 V ( p) = = 0.9 3. n=50 2 y= 36 1 n 1450 yi = = 29 ∑ 50 n i =1  n  yi  ∑ n yi2 −  i =1  ∑ n S 2 = i =1 = 254 n −1 . (Ejercicio 8. 21.. 10.: ( 3. 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.

previsión más pesimista: 17.259. 66 ) Previsión más optimista: 23.34 . 23.340 .400 n B = 2 V (τ ) = 3.340.τ = N y = 20.040.040. 66 ) = (17.300 ∓ 3.311. 66 ( 20.300 V (τ ) = N ( N − n) S2 = 2.259 37 .

Asignación de la muestra.3 3.4. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: ƒ A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste (en tiempo y/o dinero) de la muestra.3. 3. proporción y total poblacionales.1 Selección de una muestra aleatoria estratificada. 3.2 Asignación de Neyman. Estimación de la media.4. 3. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra.1 Asignación óptima. 3. a la derecha para la muestra): L = número de estratos N = tamaño de la población n = tamaño de la muestra N i = tamaño del estrato ni = tamaño de la muestra del estrato i L L N = ∑ Ni n = ∑ ni µi = media poblacional del estrato i y i = media muestral del estrato i i =1 τ i = total poblacional del estrato i 38 i =1 . llamados estratos.2 3.5 Estratificación después de seleccionar la muestra. Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población.1 3. este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección.3 Asignación proporcional. y la selección posterior de una muestra aleatoria simple en cada estrato.4 Selección de una muestra aleatoria estratificada. 3.4. ƒ Además de las estimaciones para toda la población. Muestreo aleatorio estratificado. 3. Determinación del tamaño muestral.

σ i2 = varianza poblacional del estrato i Si2 = varianza muestral del estrato i pi = proporción poblacional del estrato i p i = proporción muestral del estrato i ci = coste de una observación del estrato i 3. Estimador de la proporción poblacional p p st = 1 N L ∑N i =1 i pi Varianza estimada de p st 1 L 2 1 L 2 p i q i N i − ni ( ) N V p Ni = ∑ i ∑ i N 2 i =1 N 2 i =1 ni − 1 N i Estimador del total poblacional τ V ( p st ) = L τ st = N p st = ∑ Ni p i i =1 39 . En cada estrato se ha realizado un muestreo aleatorio simple. proporción y total poblacionales.A.S.) Varianza estimada de y st 1 L 2 1 L 2 Si2 N i − ni ( ) N V y Ni = ∑ i i N2 ∑ N 2 i =1 ni N i i =1 (se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2) V ( y st ) = Varianza estimada de τ st Si2 N i − ni V (τ st ) = N V ( y st ) = ∑ N ni N i i =1 L 2 2 i En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación vistas en el capítulo anterior. parece razonable estimar τ = ∑ τ i por i =1 L τ i =1 N τ st = ∑ N i y i y la media poblacional µ = mediante y st = 1 N L N y ∑ i =1 i i y st ≠ y en general ( y = media muestral de las n observaciones) NOTA: τ st ≠ τ en general ( τ = N y = estimador del total según un M.2 Estimación de la media. sabemos que en cada estrato L N i y i es un estimador insesgado del total τ i .

Varianza estimada de τ st L V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 p i q i N i − ni ni − 1 N i Ejemplo 3. Hay 210 hogares en el barrio A. 24 S 22 = 112. se muestran en la siguiente tabla: BARRIO A 26 34 36 32 38 39 29 37 38 35 41 28 41 37 29 BARRIO B 25 20 30 14 41 39 BARRIO C 22 14 17 15 11 21 14 20 24 Estime el tiempo medio que se ve la televisión.1. con mediciones del tiempo que se ve la televisión en horas por semana. (Ejercicio 1. Los resultados. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas.56 h / s S12 = 23.17 h / s y 3 = 17.57 S32 = 19. 23 S 2 = 92. 6 del barrio B. práctica 3) Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio. Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato y1 = 34. b) Los hogares del barrio B. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. 28 y = 28. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. para: a) Los hogares del barrio A. en horas por semana. 67 horas / semana y 2 = 28. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A. 74 A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420 n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30 40 . c) Los hogares del barrio C. y 9 del barrio C. 84 en el barrio B y 126 en el barrio C.

00748 ∑ N 2 i =1 ni − 1 N i y el intervalo de confianza expresado en porcentajes es V ( p st ) = 2 V ( p st ) = 0.99 n3 N 3 2 V ( y 3 ) = 2. 40 h / s S22 N 2 − n2 = 17. también se desea saber qué proporción de hogares ven un determinado programa. para decidir la conveniencia de insertar un anuncio en los intermedios del mismo.173 41 . 22 h / s „ Ejemplo 3. 4667 15 p2 = 5 = 0.35 h / s V ( y3 ) = S32 N 3 − n3 = 1. 23 h / s N i =1 y la varianza de este estimador la podemos calcular basándonos en las varianzas de los y st = estimadores de la media en cada estrato mediante V ( y st ) = 1 N2 3 N V ( y ) = 1. si se prefiere.8333 6 p3 = 6 = 0. 44 n1 N1 V ( y2 ) = 2 V ( y1 ) = 2.2. 60 N i =1 la varianza y error de estimación asociados son p st = 1 3 2 p i q i N i − ni Ni = 0. 24 ∑ i =1 2 i i o. (Ejercicio 2.82 h / s Para el conjunto de todos los hogares el estimador de la media es 1 3 ∑ Ni yi = 28. utilizando 1 3 2 Si2 N i − ni Ni ∑ N 2 i =1 ni N i el error para la estimación de la media para todos los hogares está dado por V ( y st ) = 2 V ( y st ) = 2. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato p1 = 7 = 0. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO SI SI NO SI SI SI NO SI SI SI SI SI SI NO NO NO NO NO SI NO SI NO SI SI NO NO SI Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa.V ( y1 ) = S12 N1 − n1 = 1. 6667 9 La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 1 3 ∑ Ni pi = 0. práctica 3) En el caso anterior. 42 n2 N 2 2 V ( y 2 ) = 8.

4 4N 2 . N i2σ i2 ∑ L n= i =1 ωi L N 2D + ∑ N iσ i2 i =1 2 B D= 4 B2 y la misma expresión vale para el total tomando D = .3 Determinación del tamaño muestral. teniendo en cuenta que en este caso particular σ i2 = pi qi L n= N i2 pi qi ∑ω i =1 i L N 2D + ∑ N i pi qi i =1 D= 42 B2 B2 (para estimar p) y la misma expresión vale para el total tomando D = . 7%.S. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas. para resolver la anterior ecuación).( 60% ∓ 17. El tamaño muestral para conseguir un límite para el error de estimación de la media. Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más adelante) . para lo cual se pueden usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las observaciones dentro de cada estrato.. 77.3% ) „ 3. ..A. B. viene L 1 dado por 2 V ( y st ) = B donde V ( y st ) = 2 N N ∑ 2 i i =1 σ i2 Ni − ni ni N i − 1 . En el caso de variables dicotómicas se obtiene una expresión similar. 4N 2 Al igual que en el M. No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos la relación entre los ni y n . sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B (aproximado porque se hacen algunas modificaciones como N i − 1 ≅ N i .3% ) = ( 42.

La asignación que minimiza el coste para un límite para el error de estimación fijado se denomina asignación óptima y está dada por N jσ j cj ωj = L ∑ i =1 N iσ i ci sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación óptima L n= L N i σ i ci ∑ Ni σ i ci ∑ i =1 i =1 L N 2D + ∑ N iσ i2 i =1 En el caso dicotómico las anteriores expresiones toman los valores p jq j cj Nj ωj = L ∑N i =1 L n= N ∑ i =1 i L N ∑ pi qi ci i pi qi ci i =1 i pi qi ci L N 2D + ∑ N i pi qi i =1 En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste fijo de obtención de la muestra. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos. • El coste de obtener una observación en cada estrato. en este caso la asignación óptima también es la respuesta y la elección de n viene dada por 43 .4 Asignación de la muestra. 3. pequeño error de estimación) al menor coste posible.4.3. • La variabilidad de las observaciones en cada estrato. El mejor esquema de asignación está influido por: • El número total de elementos en cada estrato. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto.1 Asignación óptima.

sencillamente porque no se conocen. 3. las expresiones de la asignación óptima se simplifican y transforman en: Caso numérico N jσ j ωj = L ∑Nσ i i =1 i (∑ N σ ) 2 L n= i i =1 i L N D+∑ N iσ i2 2 i =1 Caso dicotómico ωj = N j p jq j L ∑N i =1 (∑ N L n= i =1 i i pi qi ) 2 pi qi L N 2D + ∑ N i pi qi i =1 A este tipo de asignación se le denomina de Neyman. 3. Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las expresiones de la asignación óptima se simplifican y reducen a 44 . Cuando los costes de observación de cada estrato son los mismos. que como acabamos de decir coincide con la asignación óptima cuando los costes de observación son iguales en todos los estratos.4.4. Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún cuando los costes de observación no son idénticos.2 Asignación de Neyman.3). Análogamente para el caso dicotómico sustituyendo σ i = pi qi .n= L Nσ C ∑ i i ci i =1 L Nσ ∑ i i =1 ci i donde C representa el coste total de obtención de la muestra (véase ejemplo 3. a veces.3 Asignación proporcional.

50 ⇒ n2 = 20 45 .Caso numérico Nj ωj = N L n= Nσ ∑ i i =1 ND + 1 N 2 i L Nσ ∑ i i =1 2 i Caso dicotómico Nj ωj = N L n= N pq ∑ i i =1 ND + 1 N i i L N pq ∑ i =1 i i i La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato.90 ⇒ n2 = 90 2ª estimación: n = 40 ω1 = 0.50 ⇒ n1 = 20 ω2 = 0.10 ⇒ n1 = 10 ω2 = 0. En la práctica se usa la asignación proporcional cuando se observan varias variables porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos distintas asignaciones para cada variable que se mide. En la asignación óptima y en la de Neyman los ωi dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: n = 100 ω1 = 0. en muchos casos. por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral de toda la muestra. estaremos utilizando estimadores. Aclarémoslo con un ejemplo. Cuando se toma más de una medición en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. y st = y (análogamente para p st y el total). Con la asignación proporcional y tomando como n el máximo de los valores encontrados para cada estimación. con un límite para el error mucho más pequeño que el establecido.

determine el tamaño de la muestra y la asignación que minimizan el error de estimación. 9€ para el barrio B y 4€ para el barrio C. práctica 3) Continuando con el ejemplo 3. 28 . se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. 70 ⇒ n2 = 28 tomando como n el máximo de los dos (o de los k si hay k variables que se observan). (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). En la asignación proporcional no ocurre lo anterior pues los ω j = Nj N son iguales para todas las variables al no depender de sus varianzas.30 ⇒ n1 = 30 ω2 = 0. b) Según los datos anteriores estimaremos las varianzas de cada estrato por 2 σ 1 = S12 = 23. Ejemplo 3.3 (Ejercicio 1.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro.56 2 σ 3 = S32 = 19.3 30 420 luego la asignación utilizada ha sido la proporcional. 2 30 420 9 126 = = 0. c) Supóngase que se tiene sólo 600€ para gastar en el estudio.30 ⇒ n1 = 12 ω2 = 0.Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. 70 ⇒ n2 = 70 2ª estimación: n = 40 ω1 = 0. (Como en el apartado anterior. tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Solución: a) Podemos comprobar que se cumple que 15 210 = = 0. 24 46 2 σ 2 = S22 = 112. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. Se estima que el coste de una observación del barrio A es de 1€.5 30 420 ni N i = n N ∀i 6 84 = = 0. así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: n = 100 ω1 = 0.

89 ( 4202 × 0. 75 ≈ 126 n2 = 0. 71 ≈ 80 ω2 = 0. „ 47 .1744n = 34. 0679 = 198. 25 4 4 3 n= Nσ ∑ i =1 i Ni σ i ci 3 ∑ ci i i =1 3 N 2D + ∑ N iσ i2 = 4792.72 B2 1 = = 0.6094 4.368 297.4436 1012.368 2673.1873n = 37. 0216 A partir de n se obtienen los ni = ωi n según la asignación óptima. 4436 × 1586. 4436 y los tamaños de la muestra en cada estrato están dados por la asignación óptima n1 = 0. 78 ≈ 22 n = 80 + 24 + 22 = 126 c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio n= 3 Nσ 600∑ i i ci i =1 3 Nσ ∑ i =1 i i ci = 600 × 1586.D= Ni σi ci Niσ i ci N iσ i ci 210 84 126 420 4.5688 1106.28 16764.04 2429.39 ≈ 24 ω3 = 0. 0579 = 124. 63 ≈ 34 o bien resolviendo la ecuación c1n1 + c2 n2 + c3 n3 = 600 donde ni = ωi n c1ω1n + c2ω2 n + c3ω3 n = 600 n= 600 600 = = 198.19 ≈ 37 n = 126 + 37 + 34 = 197 n3 = 0. 25) + 16764.6267 1586. 72 i =1 N1σ 1 c ω1 = 3 1 = 0.5068 4792.4 9455.3909 1 3 2 1012. 6383 N iσ i ∑ ci i =1 n1 = nω1 = 79.57 c1ω1 + c2ω2 + c3ω3 3.57 4792.1873 n2 = nω2 = 23. 6383n = 126.0579 N iσ i2 4880.0632 276.8208 10.1744 n3 = nω3 = 21.

6685 27.3955 195.98 ≈ 41 420 n = 103 + 41 + 62 = 206 48 105 420 n3 = 61.Ejemplo 3.5 0.4 (Ejercicio 2. 052 D= = = 0.1667 0.98 pi qi 104.5 0.7669 31.9342 104. 4699 n3 = 57.3075 59. 29 ≈ 102 195.878 210 = 102.5 105 L n= n1 = 204.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. 000625) + 91.4667 0.9342 i =1 n1 = nω1 = n N1 p1q1 3 ∑N i =1 i análogamente n2 = 30.5 0. 000625 4 4 (∑ N 3 n= i i =1 ) 2 pi qi 3 N 2D + ∑ N i pi qi = 195.3333 52. 27 ≈ 31 = 188. práctica 3) Continuando con el ejemplo 3. 439 ≈ 103 análogamente n2 = 40.5 21 31. 000625) + = 204. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.5 N i pi qi 52.2671 11.5 qi 0.5333 0. 42 ≈ 58 ⇒ n = 102 + 31 + 58 = 191 b) Ni 210 84 126 420 pi 0.98 ( 4202 × 0. 46992 = 188.8333 0.4699 B 2 0. Solución: a) Ni pi qi N i pi qi N i pi qi 210 84 126 420 0. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados.9986 91. 7669 = 101.6667 0. 46 ≈ 62 „ .878 N pq ∑ i =1 1 ND + N i i i L N pq ∑ i =1 i i i = 105 ( 420 × 0.5 0.

30 N N3 = 0.5 S12 = 1091. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). la cual conduce a N1 = 20 × 0. 20 N 4 4 i =1 i =1 ∑ Ni yi = ∑ N2 = 0. n1 = n Estrato 1 470 510 500 550 y1 = 507.El muestreo estratificado no siempre conduce a un estimador con menor error de estimación. efectivamente y= 1 20 10010 yi = = 500. el 30% en el municipio 2. Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo. 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . 25 N Ni y i = ( 0. aplica asignación proporcional. 25 × 498 ) = 500. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio. en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores.5 ) + ( 0. relación tema 3) Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. 67 Estrato 2 490 500 470 520 550 500 y 2 = 505 S 22 = 750 Estrato 3 540 480 500 470 470 Estrato 4 450 560 460 440 580 y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Se sabe que el 20% de la población de la comarca vive en el municipio 1.5 (Ejercicio 1. Este problema queda bien ilustrado con el siguiente ejemplo. el 25% en el municipio 3 y el 25% restante en el municipio 4. 20 × 507. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato.30 × 505 ) + ( 0. esto suele ocurrir cuando los estratos no incluyen datos homogéneos. Solución: y st = 1 N N1 = 0. Ejemplo 3. 25 × 492 ) + ( 0.5€ N Obsérvese que cuando se utiliza la asignación proporcional y st = y . 25 N N4 = 0.5€ ∑ 20 n i =1 49 .

25  = 88. entonces el estimador de la media es y= 1 20 ∑ yi = 500.f. 04 20 n N 2 V ( y ) = 17.e. 202  +  0. los mismos 20 de la tabla anterior.): S n2−1 = 1520.p.p. 79 € Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares. 79 = = 76. 67      2 750  2 870  2 4420  =  0. esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio.f. en cada estrato iguales a la unidad 1 V ( y st ) = 2 N 4 2  Ni Si2 N i − ni N i2 Si2 = = N  ∑ ∑ ∑ 2 ni N i ni i =1  N i =1 i =1 N 4 2 i 2  Si2  =  ni 1091. ya que varían de una muestra a otra aunque n sea fijo. colocando los hogares pequeños en un estrato. Supóngase una muestra aleatoria simple de n personas para una encuesta. 50 .5 € n i =1 que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente.. podemos usar y st siempre que Ni sea conocido para todo i. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares. 44 € Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple.En la siguiente expresión consideramos los c.5 Estratificación después de seleccionar la muestra. 29 4 6   5   5     2 V ( y st ) = 18. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p. „ 3. pero la varianza estimada y error de estimación asociados toman los valores (se omite el c. 25  +  0. los medianos en otro. Entonces en lugar de usar y para estimar µ . estratos según sexo y entrevista telefónica).. esto es. 79 V ( y) = Sn2−1 N − n 1520. Luego esto no es una muestra aleatoria estratificada en su pleno sentido. . La muestra puede ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. N Obsérvese que en esta situación los ni son aleatorios.30  +  0.

pero si Ni es conocido y ni ≥ 20 ∀i . Ejemplo 3. 70 × 52) = 65. entonces este método de estratificar después de la N selección es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. N este método no debe usarse. 70 = +      = 159.30).30 0. Si Ni se desconoce o no se puede tener una buena aproximación de su valor. Dé un límite para el error de estimación.60=60/100) está muy alejada de la proporción verdadera (0. 51 . 225 60 40 n     i  2 V ( y st ) =25.24€ „ A veces este método de estimación se utiliza para ajustar por no respuesta. y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. entonces la proporción de varones en la muestra va a ser pequeña. y1 = y st = 1 N 5730 = 95. 05€ N 2 N i2 ∑ i =1 2 Si2 Ni − ni N2 S2 N − n = ∑ i2 i i i ni N i ni N i i =1 N omitiendo el coeficiente corrector por poblaciones finitas se tiene 2  Ni N i2 Si2 ( ) = = V y st ∑ 2  ∑ ni i =1  N i =1 N 2 2 2 2  Si2   2 200  2 90  0.6 (Ejercicio 17. relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica.5€ 60 2 2 i =1 i =1 ∑ Ni y i = ∑ V ( y st ) = 1 N2 y2 = 2080 = 52€ 40 Ni y i = (0. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0. es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Además el procedimiento se justifica pues tanto n1 como n2 superan 20. si muchos de quienes no respondieron a una muestra aleatoria simple son varones. Por ejemplo.30 × 95.5) + (0.

45 2 i . Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad.10€ 60 + 40 100 EJERCICIOS RESUELTOS 1.806 245. Dé un límite para el error de estimación.408 86. y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: y= 5730 + 2080 7810 = = 78.96 52 N i − ni Ni Si2 N i − ni N ni N i 193. se sabe que 164 de ellas tienen calefacción eléctrica. 45 = = 2.s. en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza m.118 245. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202.721 a.396 96.19 ni N i 3502 2 2. Dé un límite para el error de estimación.721 y st = V ( y st ) = Ni y i 1 N2 1 N L L ∑N y i i =1 N i2 ∑ i =1 159.526 = 701.925. Ni 164 186 350 ni 24 36 Si2 yi 972 463 202. relación tema 3) De una ciudad con 350 casas. b.699.526 i = 0. SOLUCIÓN: a.19 = 2.32 268.a.624.624.50 350 Si2 N i − ni 268.13 74. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. (Ejercicio 10.854 0.396 No eléctrica 36 463 96.Así.

784.81× 0. 9. Suponga que las varianzas en los estratos con y sin teléfono son iguales.000 9.784.809n = 11. y 2 = 463 V ( y2 ) = S 22 N 2 − n2 96.624=0.028. 624 = 1784.9397 = 1677.05/3.000 euros para realizar una encuesta sobre el número medio de coches por hogar.846.8 = n 11.000 hogares de la ciudad.000 10. 53 . 2 ≈ 1677 n2 = nω2 = 1. (Ejercicio 11.460.028.0603 3.17 n2 N 2 36 186 2 2.028.846.05 182.574/3.937.477.624=0.000 ci = L Nσ C ∑ i ci i =1 L Nσ ∑ i i =1 ci 10 30 = ci L N Cσ ∑ i ci i =1 L σ∑ N i ci i =1 = L N C∑ i ci i =1 L N ∑ i =1 i ci = 20.000 × 3. 206n = 20.000 = 1. 721 186 − 36 = = 2.000 1.81 33.624 33. 726 ωi Ni ci N i ci 2.000 c1ω1n + c2ω2 n = 20.784.81× 0.574 28.028.397n + 1.726 1.9397 5. 206 Y a partir de n se obtienen n1 y n2 como antes.17 = 2.0000 n1 = nω1 = 1.226 182.59 ≈ 107 n = n1 + n2 = 1784 O bien c1n1 + c2 n2 = 20. relación tema 3) Un analista de la opinión pública tiene un presupuesto de 20.937.b. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: n= L Nσ C ∑ i i ci i =1 L Nσ ∑ i =1 i i Ni 9.5 2. 0603 = 107.000 tienen teléfono.94 2. Se sabe que de los 10. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado.000 20.

(Ejercicio 12. 275 × 4.2 0.30 × 9.30  +  0.16 19 y3 = 78 = 4. 77    2 63. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3.5 3.107 = 2.87 ) = 8.87 16 Ni y i = ( 0.9 1. (Ejercicio 6.16 ) + ( 0. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera.9 3.1 4. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos. SOLUCIÓN: y1 = y st = Si 1 N 239 = 9. el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. 425 × 9. 01   2 78. relación tema 3) Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella.107 25   19   16   2 1. (Suponga iguales los costes de observación) 54 .15 N N i − ni 1 = 1 ⇒ V ( y st ) = 2 Ni N L N i2 ∑ i =1 Si2 N i − ni 1 = 2 ni N i N L N i2 ∑ i =1 2 2 L L Si2 N2 S2  N i  Si = ∑ i2 i = ∑ =   ni i =1 N ni i =1  N  ni 60. relación tema 3) Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios.7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. determine cuántos pertenecerían al barrio 3.3.6 3. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto.56 ) + ( 0. 4252  +  0. b) Si se asigna la muestra de 100 hogares de la mejor forma. 24  =  0. Omitir el corrector por población finita.8 S i 0.56 25 L L i =1 i =1 ∑ Ni y i = ∑ y2 = 174 = 9. 275  = 1.8 0. obteniéndose los siguientes datos: Número de hijos ni n ∑ yi S i2 i =1 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación.

el coste de obtención de esta información en cada empresa así como los valores mínimos. medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación. 725 i =1 B = 2 V ( y st ) = 0. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. relación tema 3) Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Usamos que R≈4σ y por tanto estimamos que σ ≈ Ni ci 100 16 500 9 700 4 600 = 16n1 + 9n2 + 4n3 ci 4 3 2 ( ni = ωin ) Ri σi R . 7) i = 100 × 0.SOLUCIÓN: a) L N = ∑ N i = 1000 y st = i =1 1 N L ∑ Ni y i =3. 2) + (220 × 0. 4482 = 44.82 ≈ 45 5. 3.8) + (190 × 0.5277 . Se clasifican las empresas en función de su tamaño.1973 b) n3 = nω3 = 100 N 3σ 3 = 100 4 ∑Nσ i =1 i V ( y st ) = 1 N2 L N i2 ∑ i =1 Si2 N i − ni = 0. El número de empresas de cada tipo.9223) 350 × 1. 2 = (240 × 0. (Ejercicio 20.9) + (350 × 1. ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación óptima. 00973 ni N i µ ∈ ( 3. 4 N iσ i ci ωi 600-400 50 360-240 30 130-70 15 1250 0’1087 5000 0’4348 5250 0’4565 11500 1 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n 55 .

relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión.n = 600/7’4784 = 80’231 n1 = ω1n = 8’72 ≈ 8 n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36 C = (16×8) + (9×34) + (4×36) = 578 < 600 pero C’ = (16×9) + (9×35) + (4×37) = 607 > 600 6.96 0.000 L ∑N y i =1 i i = N i − ni Ni 0. (Ejercicio 13.16 = 10.200 Si2 N i − ni 788. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni HOMBRES 2.000 975.8 7.200 100 400 500 Si2 yi 120 250 Ni y i 9.500 2.000 248.460 N = = 29.000.5 5.000 16. SOLUCIÓN: Ni ni 2. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio.2002 ni N i i =1 L 2 i 2 29. Se lleva a cabo la encuesta por teléfono mediante 56 .500 MUJERES 2.000 y st = 1 V ( y st ) = 2 N 1 N 300. relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio.85185 N i2 Si2 N i − ni ni N i 540.399.460 975.460 788.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error.16 ∑ 5.000 = 187.700 ni 100 400 yi 120 250 9.000 16.000 675.700 5. (Ejercicio 14.399. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres.399.

52 ) = 0.87% 8. 0687 ⇒ 6. Ya que los obreros. y de datos actuales se obtienen los tamaños de los estratos.52 q i = 1 − p i 250 Ni p i = ( 0. la corporación decide usar muestreo estratificado. 0011812146 49 249     L N i2 ∑ L N i2 ∑ 2 V ( p st ) = 0.52 × 0. determine la mejor asignación para una muestra de 40 empleados.una muestra aleatoria simple de 300 números de teléfono. Obreros Técnicos Administrativos Si2 36 25 9 Ni 132 92 27 57 . Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. 24 50 p1 = p st = 1 N L ∑N i =1 L i pi = ∑ i =1 1 N2 130 = 0. mediante muestreo aleatorio estratificado después de seleccionar la muestra. relación tema 3) Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados. 76    2 0. 48  =  0.50  = 0. 24 × 0.50 × 0. técnicos y administrativos tienen diferentes tasas de accidentes.50 × 0. 24 ) + ( 0. No habiendo diferencia entre los costes de observación de cada grupo. en un determinado mes.502  +  0. formando con cada grupo un estrato. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error.38 ⇒ p st = 38% N Si V ( p st ) = p2 = N i − ni =1 ⇒ Ni p i q i N i − ni 1 = 2 ni − 1 N i N 2 L L pi qi N2 p q  Ni  pi qi = ∑ i2 i i = ∑ =   ni − 1 i =1 N ni − 1 i =1  N  ni − 1 i =1 i =1 0. (Ejercicio 15. SOLUCIÓN: 12 = 0.

042.3451 = 13. Se les pasó control de calidad a 200 piezas.695 1.3296 = 65.5941 = 23.8 ≈ 14 L ∑Nσ i i =1 460 i n3 = 40 × 0. relación tema 3) Se dispone de la siguiente información sobre tamaños poblacionales de los estratos.3296 1. Omita el coeficiente corrector por población finita.9 ≈ 66 n = 200 10. 695 343. relación tema 3) La producción de piezas de una factoría se realiza en dos máquinas.1909 1.000 4 0.000 3 0. 58 .5941 460 = 0. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación. 695 1 p jq j n1 = 200 × 0.90 0.45826 343.042.000 5 0. SOLUCIÓN: Ni ci pi qi pi qi ωi Ni pi qi ci 5. 0608 27 3 81 1. 4795 = 0.70 0.695 Donde se ha aplicado la asignación óptima: Nj ωj = L ∑N i =1 i 1. 4795 = 95. (Ejercicio 19.SOLUCIÓN: Ni 132 σ i ≈ Si 6 Niσ i 792 ωi 792 1. 0608 = 2.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 92 5 N jσ j ωj = n1 = 40 × 0.10 0.55 0. las 133 restantes procedían de la máquina B.30 0.8 ≈ 24 n2 = 40 × 0.042. (Ejercicio 16.1909 = 38.3451 1. 2 ≈ 38 pi qi ci n3 = 200 × 0.3 500 500 2. 4 ≈ 2 n = 40 9.4975 199 199 3.333 1.333 = 0. 695 = 0. costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones.9 ≈ 96 cj n2 = 200 × 0. 67 producidas por la máquina A y dos de ellas resultaron defectuosas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B.45 0.333 81 = 0.042. siendo 6 de ellas defectuosas. 695 = 0.

60 ) + ( 0.74% ) 11.402 × N 2 × 0.000441) + ( 0.000441) + ( 0.000326 1 ( ( 0. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B.602 × N 2 × 0.85 2 0.039 N ( ) ( ( 3. 00267 19 79 1 V ( p st ) = 2 N L 2 i 2 V ( p st ) = 0. Un establecimiento dispone de 300 piezas pequeñas. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías.045 pi qi ni − 1 0.40 × N × 0.155 N 20   80   (15.40 × N 0.402 × 0.1625 × 0. De entre los circuitos integrados muestreados de la operación A.103 (10. 500 medianas y 200 piezas grandes.3% ) 12. 40 ) = 0. 3 son defectuosos.030 ) + ( 0.030 6/133=0.000326 ) = 0.40 × 0. (Ejercicio 18.9% ) ) 1 0.000188 V p = ( ) B = 2 0. Estime la proporción de los defectuosos en la población.030 ) + ( 0.SOLUCIÓN: p= Estrato Ni ni pi A B 0.000326 ) = 2 ( N = ( 0. 40  = 0. SOLUCIÓN p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ Ni 3   13   p i =  0. relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble.045) ) = 0.602 × 0.000441 0. relación tema 3) Para la comercialización de un producto se le clasifica. 13 son defectuosas. (Como ejercicio 3.15 × 0. De entre las piezas muestreadas de la operación B. atendiendo al calibre. y fije un límite para el error de estimación. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. en tres categorías: pequeña. mediana y grande.8375 = ( 0.5% ) 2 L L  Ni  pi qi p i q i N i − ni N i2 p i q i N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1 2 0. 60  +  0.60 × N × 0.60 × 0. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. resultando 59 .000188 = 0.60 × N N 67 133 200 2/67=0.045) ) = ( ( 0.0274 ( 2.

4142 S12 = 2 16.14 600 4000 666. 18 S 2 = 2.99 ≈ 46 11.3333 N = 1000 424. 20. 66ωi L i =1 = 71. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. 33.26 1414. 66 2 i 13. 15. 34 S32 = 3. relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. 14.3333 σi S3 = 1. 24.000 D= = = 0.Categoría Nº de piezas Peso en gramos Pequeña 5 12.4142 2. 20. obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo.8257 2 8 3. De entre las piezas muestreadas de la operación B. 60 .2 365. 20. 12. 34 Considerando los anteriores datos como una muestra previa.000.1925 0. 12 S1 = 1. 79 ≈ 14 45. a. 0625 2 4N 4.87 ≈ 12 n = 72 2 i L i N D+∑ N iσ 2 i 0.000 ni = 71. 12. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. 24. 31. 15.8257 σ 2 i Niσ i N iσ ωj = 2 i N jσ j ∑Nσ i =1 300 500 200 1. y establezca un límite para el error de estimación. 20. (Ejercicio 3. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. 33.6418 0. 14.1657 L B2 250. De entre los circuitos integrados muestreados de la operación A. 22. 12 Mediana 6 16. 31.8284 1.6 5266. 16 son defectuosas.66 n= 1 (∑ N σ ) i =1 i 13. estime la proporción de los defectuosos en el lote.66 2203.8284 S22 = 8 30. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados. 2 son defectuosos. SOLUCIÓN: Ni Peso en gramos (con las funciones del modo SD de la calculadora) 12. 22. 18 Grande 4 30.

después de la selección. 40  = 0. p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ 1 V ( p st ) = 2 N Ni 2   16   p i =  0. 72% ) (14% ) 2 L L  Ni  pi qi p i q i N i − ni N i2 p i q i N = ∑2 = ∑ = ∑   ni − 1 N i i =1 i =1 N ni − 1 i =1  N  ni − 1 = ( 0. y fije un límite para el error de estimación. 0772 = 0. lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid. En el apartado b. relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en Madrid. en circuitos integrados provenientes de la operación A y B. predominando los elementos de B (80) frente a los de A (20).80 + ( 0. respectivamente. 20 ) frente al de A ( p1 = 0. Barcelona y Sevilla. las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21.1 S3 = 9 a. 60 ) L 2 2 i 0.14 N 20   80   ( 7.10 ). 70 en Barcelona y 30 en Sevilla. 2 S1 = 12 y2 = 13. 2 y 3 para designar Madrid. 60  +  0.60 y 0. la muestra global no representa adecuadamente este hecho. Dar un límite del error de estimación. 01% ) c. 40 ) = 0.b. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. 20 × 0. Usando los índice 1. (Ejercicio 4.90 2 0. p = pq 18 = 0. la estimación esté sesgada hacia el valor de B ( p 2 = 0. Estratifique la muestra. 001491 2 V ( p ) = 0. c. 14.18 (18%) V ( p ) = n −1 100 b. 61 . esto ocasiona que en el apartado a. estime la proporción de los defectuosos en la población. 0901 ( 9. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%).10 × 0. 5 de Barcelona y 5 de Sevilla. este hecho se corrige dando a p1 y p 2 las ponderaciones 0.40 respectivamente para estimar p. La dirección está considerando añadir un nuevo producto en el menú.3 S 2 = 11 y3 = 26. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a. 00203 19 79 2 V ( p st ) = 0. Para contrastar la posible demanda de este producto.

5357 0. Ni σi σ 2 i Niσ i N iσ ωj = 2 i N jσ j ∑Nσ i =1 100 70 30 12 11 9 144 121 81 N = 200 1200 770 270 14400 8470 2430 2240 25300 n= 2 i L i =1 62 i N D+∑ N iσ 2 i 1 (∑ N σ ) i =1 i 0. 25 4 4 ni = 43. SOLUCIÓN: a.b. 2965 ni N i 2 V ( y st ) = 5. y st = V ( y st ) = 1 N L ∑N y i i =1 1 N2 L i N ∑ i =1 2 i = 3834 = 19.17 pedidos / semana 200 Si2 N i − ni = 6.52 2 i 23.1205 L B2 9 D= = = 2. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos.96 ≈ 15 5.3438 0. 02 pedidos / semana b.52ωi L = 43. 24 ≈ 6 n = 45 .31 ≈ 24 14.

4 Estimación de diferencia. 4.. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que de una de las variables se tenga..2 Estimación de razón.4. Observemos que esto se puede llevar a cabo sin necesidad de conocer el número de empleados de la empresa.2. y1 ). 4. 4. Esta circunstancia es importante cuando se pretende estimar el total sin conocer el número de elementos de la población y sí el valor total de la variable que proporciona la información auxiliar Denotemos por Y → Variable bajo estudio X → Variable que proporciona la información auxiliar Y supongamos que tenemos una muestra constituida por n pares: (x1 . „ Dependiendo de la relación entre las variables X e Y utilizaremos: • Estimadores de razón ( y = bx ) 63 . ( x n . por termino medio.4.2 Determinación del tamaño muestral. 4.2 Determinación del tamaño muestral. Aquí suponemos que el muestreo que se emplea es el aleatorio simple Ejemplo 4. 4.1 Estimación de la media y total poblacionales. 4. para estimar la media o el total de la otra variable.1 Introducción.2.3 Estimación de regresión. se puede estimar el valor total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas de dichos empleados.3. Ya que existe una fuerte relación entre renta y ahorro. Muestreo con información auxiliar.1 Introducción. 4..4. 4.2 Determinación del tamaño muestral. 4. si se estima que. 4. Por ejemplo. Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar. el ahorro total se estima igual a la décima parte del total de la renta..1 Estimación de la media y total poblacionales.1 Estimación de la media y total poblacionales.3.1. y n ) A través de los datos muestrales se puede estimar la relación existente entre ambas variables. como puede ser la media o el total poblacional. 4. el 10% de la renta se dedica al ahorro y si se conoce la renta total.

entonces para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R = r ): τˆy = rτ x µˆ y = r µ x Puesto que la razón R es el cociente entre las medias poblacionales. tomando una muestra aleatoria simple: ( y1 .2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y . x1 ). podemos estimar R tomando el cociente entre las medias muestrales: • • 64 ESTIMADOR DE LA RAZÓN: VARIANZA ESTIMADA DE r : 1 n yi y n∑ i =1 r= = = x 1 n ∑ xi n i =1 n ∑y i =1 n i ∑x i =1 i 1 n 1 S2  N − n  2 2 Vˆ (r ) = 2 r  S = .. Puesto que τ y = Nµ y y τ x = Nµ x . ∑ ( yi − rxi ) r n − 1 i =1 µ x n  N  . x n ) . ( y n . se define la razón como el cociente: R= τy τx Es decir.• Estimadores de regresión ( y = a + bx ) • Estimadores de diferencia ( y = a + x ) Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una fuerte relación lineal positiva ( rxy > 1 ). 2 4.. si se conocen los valores de la media y el total de la variable X ... la proporción del total de Y respecto del total de X . obtenemos R= µY µX De estas definiciones se deduce que τ y = Rτ x µ y = Rµ x Por tanto.

Sin embargo. aún conociendo el tamaño de la población. • A la hora de obtener Vˆ (τˆ y ) . es decir que N −n ≥ 0. si µ x es desconocida y no podemos utilizar la relación anterior entonces µ x ≅ x .1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal. Se sabe que el total de superficie plantada es de 65 .a. conociendo dos de esos elementos se puede calcular el tercero. apartado (a)) Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola.2. cuando existe una fuerte correlación entre las variables se comporta mejor el muestreo con información auxiliar (τˆ y = rτ x ) que el m. para estimar µˆ y necesitamos conocer el verdadero valor de µ x .2 (Ejercicio 2. en este contexto se nota b = r dado su significado ) ESTIMADOR DE LA MEDIA: µˆ y = rµ x • VARIANZA ESTIMADA DE µˆ y : S r2  N − n  2 ˆ ˆ V (µˆ y ) = µ x V (r ) =   n  N  • ESTIMADOR DEL TOTAL: τˆ y = rτ x • Observemos que no es necesario conocer el tamaño de la población N.4. pasa por el origen. ( y = bx. • A la hora de estimar el total. relación tema 4. Ejemplo 4. (Véase ejercicio resuelto 4) N • De la relación µ x = τx N . • VARIANZA ESTIMADA DE τˆ y : τ x2 S r2  N − n  2 ˆ ˆ ˆ V (τ y ) = τ x V (r ) = 2   µx n  N  Comentarios sobre el uso de estos estimadores: • Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es más de 20 veces el tamaño de la muestra).s (τˆ = Ny ) . • Son estimadores sesgados. donde X es la variable explicativa e Y la explicada. entonces N N −n ≅ 1 .95 .

ha)" xi yi xi2 yi2 xi yi 3.6 64 576 192 26.6 36 400 120 9 64 24 49 400 140 29.01 225 76.3 14 4.4 4.5 3.1 5 5. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción.1 5.16 256 86.7 12 4. Los resultados fueron: Superficie Producción 3.5 16 3. Solución 66 Y = " producción (toneladas.6 17 5 15 7.4 5.5 32.4 14 5.8 12 8 24 5.5 18 5 15 5.4 19. tm)" X = "superficie plantada (hectáreas.3.a.4 18.7 4.7 18 6 20 3 8 7 20 5.81 121 45. calcule sus respectivos límites para el error de estimación y compárelos.3 4.36 196 61.5 12 14 11 15 16 12 24 15 18 20 8 20 16 14 18 13.840 hectáreas.s.6 30.1 25 225 75 30.7 6 3 7 5.25 324 99 .8 8 5.49 196 60.25 256 88 14.2 16.1 11 5 15 5.69 144 44.4 16 4.49 324 102.9 18 5..2 22 Estime la producción media y total mediante los estimadores de razón y m.1 15 5.44 144 45.

2 2 1 n 2 581.96 xi − x = − 5.96 i =1 1 n 105. 2 x − x y − y = xi yi − x y = − ( 5. 4304 = 1.84 484 158. 2 i =1 n ∑ xi2 = 581.2 105.9 5. s ) x y y cuasidesviaciones típicas ( S x . 728   información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón. S y ) . Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. a partir de las varianzas se tiene: S x2 = n 2 20 sx = 1.2 31. Por otra parte. 4304 ∑ 20 n i =1 2 1 n 2 5398 yi − y = − 162 = 13.196 × 3.4 581. 26 × 16 ) = 4.2 Del enunciado y de la tabla anterior obtenemos n = 20 n ∑ xi = 105.81 324 106.35 ∑ ∑ i i n i =1 n i =1 20 Si queremos calcular las cuasivarianzas. 67 . Esto junto con la   sx s y 1.5057 n −1 19 S y2 = n 2 20 s y = 13.96 5398 1770.36 289 95. 6316 n −1 19 y hallando las raíces cuadradas obtenemos las desviaciones (s .2 25 225 75 51.35 La relación entre las variables es alta  rxy = xy = = 0. σ n − 1 = S x = cuasidesviación típica   s 4.9756  .9 ∑ n i =1 20 ) 1 n 1 n 1770. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n = sx = desviación típica σ n − 1 = S x de forma inmediata. dado el contexto.2 TOTALES 15 18 17 15 22 320 25 225 75 34. 262 = 1. es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm).9 = 14.840 ha N = 750 socios )( i =1 sx2 = s 2y = ( 1 n ∑ xi − x n i =1 ( 1 n ∑ yi − y n i =1 ) 2 ) = 2 = n n ∑ yi2 = 5398 ∑x y i =1 i =1 i i = 1770. 2 xi = = 5.6 5 7. 26 ∑ 20 n i =1 y= 1 n 320 ∑ yi = 20 = 16 n i =1 ( n ∑ yi = 320 x= sxy = τ x = 3.5 5.

712 20  750  n  N  ( ) Bµ = 2 0.2. 75 µ x n  N  n  N  ⇒ Bτ = 2 Vˆ (τˆy ) = 278.37 tm/socio 2 τ x2 Sr2  N − n  2 Sr  N − n  ˆ ˆ V (τ y ) = 2 =N   = 19.12 ha / socio x N 750 µˆ y = r µ x = 3. 042 tm/ha 105.57 tm/socio 2 Sr = 20 1 20 1  20 2 2 20 2 2 2 − = + − y rx y r x r xi yi ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 S2  N − n  Vˆ ( µˆ y ) = r   = 0. 63  750 − 20  ˆ V y =  =   = 0. 042 × 3. 47 = 1. 712 = 1.5 tm (no coinciden los dos procedimientos por los errores de redondeo en el valor de Bµ ). 2 i τˆy = rτ x = 3. 042 × 5. la media y el total no supere una cota de error de magnitud B n= 68 Nσ r2 σ r2 + ND . 706  Bµ = 2 Vˆ ( µˆ y ) = 0.680.265.20 r= ∑y i =1 20 i ∑x i =1 = 320 = 3.326. 04 tm o Bτ = 750 × Bµ = 750 × 0. 69 tm / socio τˆ = Ny = 750 320 = 12.47 20  750  n  N  Bτ = 2 400.37 = 277.63  750 − 20  ˆ ˆ V (τ ) = N   = 750   = 400.539.539. 6 tm τ 3840 µ = x= = 5. 4. 0344 n  N  ⇒   =0.840 = 11.2 „ Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón. A continuación lo estimaremos utilizando muestro aleatorio simple.12 = 15. 320 y= = 16 tm / socio 20 S 2  N − n  14.76 tm o Bτ = 750 × Bµ Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando estimadores de razón.000 tm 20 2 2 S  N −n 2 14.

3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). relación tema 4. En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. 706 +  750 ×  4   Nσ r2 750 × 0.6 ≅ 43 socios  0. µˆ x2 = x 2 Ejemplo 4.25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución Nσ r2 MEDIA: n = σ r2 + N Nσ r2 TOTAL: n = σ r2 + N B2 4N 2 2 B 4 = = 750 × 0.donde para estimar: • • • la razón: B 2 µ x2 D= 4 la media: B2 D= 4 el total: B2 D= 4N 2 Comentarios: • σ r2 se estima utilizando una muestra previa (tamaño n' ): σˆ r2 = S r2 . En el modelo lineal simple Y = a + bX .3 (Ejercicio 2. „ 4. 7 ≅ 38 socios 2 B  2002  2 σr + 0. 706 = 42. el método de mínimos cuadrados permite estimar a y b de la siguiente forma: 69 . • Si µ x es desconcocido. 252  0. 706 +   4N  4 × 750  Necesitamos al menos 43 socios para cumplir con ambos niveles de error. apartado (b)) Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a 0. 706 = = 37.

Los resultados son: Gastos Ventas 3. apartado (a)) Para un grupo de 1. Se tiene información de que.n sxy S xy bˆ = 2 = 2 = sx Sx ∑ ( y − y )( x − x ) i i =1 i n ∑(x − x ) i =1 2 i ˆ aˆ = y − bx donde 4. En este caso para estimar el total es necesario conocer el tamaño de la población N. el gasto en publicidad es de 5 euros.τ y ) .7 120 4.3 140 4. ∑ n i =1 S xy = 1 n ∑ ( xi − x )( yi − y ) n − 1 i =1 sxy = 1 n 1 n x − x y − y = ( )( ) ∑ i ∑ xi yi − x y i n i =1 n i =1 Estimación de la media y el total poblacionales ˆ + bˆµ = y + bˆ ( µ − x ) µˆ yL = aˆ + bˆµ x = y − bx x x • ESTIMADOR DE LA MEDIA: • S2  N −n VARIANZA ESTIMADA DE µˆ yL : Vˆ (µˆ yL ) = L   n  N  siendo S L2 la varianza residual en el modelo lineal simple: ( ( 1 n S = ∑ yi − y + bˆ ( xi − x ) n − 2 i =1 2 L )) 2 2 n  2 sxy =  sy − 2 n − 2  sx  n 2 s y (1 − rxy2 )  = 2 n −  • ESTIMADOR DEL TOTAL: τˆ yL = Nµˆ yL • VARIANZA ESTIMADA DE τˆyL : Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL ) Comentario.4 (Ejercicio 3. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. No se puede estimar como τˆ yL = aˆ + bˆτ x ya que la recta de regresión no pasa por el punto (τ x .1 S x2 = 1 n 2 ( xi − x ) ∑ n − 1 i =1 sx2 = 1 n 2 ( xi − x ) .3. Ejemplo 4. por término medio. relación tema 4.000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias.1 135 70 .

8 120 8 160 5.5 140 5 150 5. 7284 ↓ bˆ = xy2 = = 10.2 obtenemos: n = 18 establecimientos N = 1.5 150 5.314€ S L2 = n −1 2 S y (1 − rxy2 ) = 141.928 n −1 sxy = 27.889€ sx = 1. 6375 ⇒ sx2 = 2. Solución Denotamos Y = " ventas diaria (euros)".5 160 3. 73 n  N  Bτ = N × Bµ = 1.000 × 5.8336 . 6814 sx µˆ yL = 138. 6814 n 2 s y = 20. ( µˆ yL = y + bˆ µ x − x ) s 27.56 τˆyL = N µˆ yL = 138.7 125 6 130 0 80 7 150 5.9 150 6.341 2.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere la magnitud B 71 .4 120 5.6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión. 7284 La relación entre las variables es fuerte: rxy = 0. 654 S y2 = s y = 436.56 = 5.4 150 4.314 ⇒ s y2 = 412. X = " gastos diarios en publicidad (euros)" Tal y como se explicó en la resolución del ejemplo 4. 6 n−2 Bµ = 2 Vˆ ( µˆ yL ) = 5. 0556€ y = 138.3.314€ S2  N − n  Vˆ ( µˆ yL ) = L   = 7.000 establecimientos µ x = 5€ x = 5.560€ „ 4.1 150 5. Obtenga el límite para el error de estimación.

apartado (b)) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1. 6 = 361.1 Estimación de la media y el total poblacionales µˆ yD = y + (µ x − x ) = µ x + d • ESTIMADOR DE LA MEDIA: • S2  N −n VARIANZA ESTIMADA DE µˆ yD : Vˆ (µˆ yD ) = D   n  N  d = y−x 2 2 1 n 1 n ( ( ) ) ( y − x + d = d i − d ) . 6 ≅ 362 establecimientos.4. relación tema 4.000 euros ¿cuál debe ser el tamaño muestral? Solución n= Nσ L2 σ L2 + N 2 B 4N 2 = 1000 ×141. S D2 = • 72 ESTIMADOR DEL TOTAL: τˆ yD = Nµˆ yD . donde d i = y i − xi . 4.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno.5 (Ejercicio 3. (y = a+ x ó y = y + ( x − x) a = y − x = d ) Comúnmente se emplea en procedimientos de auditoría.n= Nσ L2 σ L2 + ND donde para estimar: • la media: D = • el total: D= B2 4 B2 4N 2 σ L2 se estima utilizando una muestra previa (tamaño n' ): σˆ L2 = S L2 Ejemplo 4.  10002  141. 6 +  1000  4 × 10002   „ 4. por tanto S D2 es la ∑ ∑ i i n − 1 i =1 n − 1 i =1 cuasivarianza de los di .

• VARIANZA ESTIMADA DE τˆYD : Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD ) Ejemplo 4. relación tema 4.413.99916 .94 V(   n N  ˆ µˆ ) = 75.20€ Bµ = 2 V( Bτ = 200 × Bµ =15.97€ 73 .5€ 2 y τˆ = Ny = 90.2 obtenemos: N = 200 establecimientos n = 10 establecimientos  x = 516€ y = 453.6 (Ejercicio 4.3 ⇒  y  S 2 = 14883. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos. apartado (a)) Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.99958 µ x = 500€ rxy2 = 0.409 ⇒   s = 115. 797 sx2 = 13. MUESTREO ALEATORIO SIMPLE S y2 = 14883.5 La relación entre las variables es muy fuerte: rxy = 0.700€ ˆ µˆ ) = S  N − n  = 1. 7 µˆ = y = 453. obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple.5€   sx = 115. (Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de diferencia) Solución Y = "gasto diario (euros)" Denotamos  "  X = "ingresos diarios (euros) Tal y como se explicó en la resolución del ejemplo 4. Obtenga el LEE en cada caso. 7  y  sxy = 13. estimadores de razón.040. 738 s y2 = 13. Se tiene información de que los ingresos medios diarios son de 500 euros. regresión y diferencia.395.396.

8899 4.000 τˆy = rτ x = 87.500€ (con la calculadora hallamos σ n −1 sobre las diferencias di y lo elevamos al cuadrado) ( 1 n S = ∑ di − d n − 1 i =1 2 D S2  N − n  Vˆ ( µˆ yD ) = D   = 1.99907 13. 09€ ESTIMADORES DE DIFERENCIA µˆ yD = µ x + d µˆ yD ↓ d = −62.5 Bµ = 2 Vˆ ( µˆ yD ) = 2.179 Bτ = NBµ = 435.503€ n −1 2 S y (1 − rxy2 ) = 14.4.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales n= 74 Nσ D2 σ D2 + ND „ .515€ τˆyL = N µˆ yL = 87.396. 63 n  N  ⇒   = 227.879 x 2 Sr = τ x = 200µ x = 100.900€ µˆ y = r µ x = 439.33 n  N  S L2 = Bµ = 2. 05 n−2 S2  N − n  Vˆ ( µˆ yL ) = L  ⇒  = 1.860€ ESTIMADORES DE REGRESIÓN ( µˆ yL = y + bˆ µ x − x ) s 13.5 = 437.5 ↓ bˆ = xy2 = = 0.5€ n 1 n 1  n 2 2 n 2 2 y rx y r x r xi yi − = + − 2 ( ) ∑ i i n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 S2  N − n  Vˆ ( µˆ y ) = r   = 21.1875 n  N  ) 2 = 12.409 sx µˆ yL = 437. 717  Bµ = 9.5€ τˆyD = N µˆ yD = 87.ESTIMADORES DE RAZÓN r= y = 0.3€ Bτ = N × Bµ =1.3104€ Bτ = NBµ = 462.

justifíquese.500 75 .000 €.000 10.000 1110 550 323. para la que es conocido que el gasto total general durante un año es de 15. para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12. ¿cree que es útil utilizar esta información auxiliar?.donde para estimar: • • B2 la media: D = 4 el total: B2 D= 4N 2 σ D2 se estima utilizando una muestra previa (tamaño n' ): σˆ D2 = S D2 Ejemplo 4.300 78.5 n= = = 20 establecimientos 2 B 3002 2 σD + N 12. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza.500 46.625 30. relación tema 4) En una población de 500 hogares. SOLUCIÓN (trabajaremos en cientos de euros) xi yi xi yi xi2 yi2 240 125 57.000 20. relación tema 4.100 22. apartado (b)) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución Nσ D2 200 × 12.600 15.5 + 4N 2 4 × 200 „ EJERCICIOS RESUELTOS 1.500 200 100 40.7 (Ejercicio 4. se quiere estimar el gasto total en alimentación durante un año.750 159.000 310 150 96.000 31.600 30.625 63.000 Antes de calcular el estimador.500 Gasto general 24.000.000 360 175 129.000 17.500 15.000 36.000 20. (ejercicio 9.000 10.

25 ∑x y i =1 i i = 522 Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%.1471 µy N n 2 V (r ) = 0. relación tema 4) Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.432. 4955 τ y = rτ x = 0. (Ejercicio 17./ hab. 76 y i n 1 n 1  n 2 2 n 2  xi + r ∑ yi − 2r ∑ xi yi  = 27. 25 ∑y i =1 2 i = 169. relación tema 4) Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas.568 ) en cientos de € Para expresarlo en € hay que multiplicarlo por cien. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla 76 m3 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 . Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda.285. 25 ∑x y = 2. A partir de los datos siguientes: x = 9. 62 = 6. i =1 2 i = 2240. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) n N = 275 n = 25 r = ∑x i =1 n ∑y i =1 2 S r2 = i = 2 x = 3.34375 ( xi − ryi ) = ∑ ∑  n − 1 i =1 n − 1  i =1 i =1 i =1  1 ( N − n) S r2 V (r ) = 2 = 0.n N = 500 n = 4 r = ∑y i =1 n i ∑x i =1 = 550 = 0. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. 73 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  3 n − 1 i =1 n − 1  i =1 i =1 i =1  2 r Sr2 = 1. 6. µ y2 ≅ y = 2.057.5 pers.592. 4667 2 V (τ y ) = 2.500 € 2 n 1 n 1  n 2 2 n 2  62.568 V (τ y ) = N ( N − n) n τ y ∈ ( 72. 432 . 2 2 S = y r x r xi yi  = + − = 20.267. 767 3.000 = 74. 4955 × 150. (Ejercicio 12.1.325 cientos de € 1110 i τ y = 7. 76. 2.

339.502.530 euros mensuales.537.44 1.200 3.56 1.000 981. (Ejercicio 1.600 77 .204 1.080.06 800 2. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla.Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. relación del tema 4) Se desea estimar el consumo mensual de una ciudad. SOLUCIÓN: y = consumo de m3 litros de agua. Se sabe que los ingresos en dicha ciudad. vía declaración de la renta.19 2.800 1.519.04 1. ascienden a 1.702. Renta Consumo 1.85 1. X x = tamaño de la parcela en hectáreas x2 Y 50 150 60 70 100 120 80 60 90 60 840 600 1800 750 900 1100 1400 950 700 1000 720 9920 2500 22500 3600 4900 10000 14400 6400 3600 8100 3600 79600 y2 360000 3240000 562500 810000 1210000 1960000 902500 490000 1000000 518400 11053400 xy 30000 270000 45000 63000 110000 168000 76000 42000 90000 43200 937200 n r= y ∑ i =1 n i x ∑ i =1 = 9920 = 11'81 m3 / hectarea 840 i n 1 n 1  n 2 2 n 2  2 y + r x − r xi yi  = 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i  n − 1 i =1 n − 1  i =1 i =1 i =1  1 = (11053400 + 11102297 '56 − 22136664 ) = 2114 '84 9 S r2 = 840 = 84 10 1 N − n Sr2 1 240 2114 '84 V (r ) = 2 = 2 = 0 '02877 µ x N n 84 250 10 µx = x = 2 V (r ) = 0 '3392 4.

87 1. Obtenga el límite para el error de estimación.06 2.1.1 1 6 .04 1.002.479. 0 7 € τ2 S  N −n Vˆ (τˆY ) = x2 r  µ x n  N  2 ↓ No conocemos N .0 0 2 .808 euros i = 22.629. 7427 τˆ y = r τ x = 1 .400 2. 7  B = 2 Vˆ (τˆY ) = 59.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón.803.37€ i x .36 1.502.825. observando 12 ∑ x < ( 5% τ ) i =1 N −n ≅1 N ↓ estimamos que n < ( 5% N ) ⇒ ↓ µ x = x = 1.080 1.702. pero en la ciudad hay muchos hogares. Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar. en concreto utilizaremos estimadores de razón. s xy Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy = sx s y = 0.053.402.9677 ). SOLUCIÓN: Denotemos por Y = " consumo mensual" X = "ingresos mensuales" De la información muestral obtenemos n = 12 12 ∑y i =1 i = 16.530 euros.000 1. 12 r = ∑ yi ∑ xi i =1 12 i =1 = 0.46 1.005. 67 78 ⇒   = 16.484 3.240 1. 79€ 2 ↓ Sr = 12 1 12 1  12 2 2 12 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n − 1  ∑ ∑ ∑ i i n − 1 i =1 i =1 i =1 i =1 Vˆ (τˆY ) = 871.53 1.502.46 euros 12 ∑x i =1 y como información auxiliar sabemos que τ x = 1.053.885.

5 τ yD = N µ yD = 3349000 € N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n 2 V (τ yD ) = 14166.5 (Ejercicio 10. SOLUCIÓN: N=123. X=del año anterior.200 €. τ x = 128200 € . Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior. SOLUCIÓN: N=250. en el presente mes. n=5. en 5 de las 250 oficinas que tiene abiertas una agencia de seguros. (Ejercicio 6. estime el total de ingresos y el límite para el error de estimación. han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros. ese total es de 128. n=5. X=gastos. µ x = 12764 . relación del tema 4) Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Y=del año actual (con las funciones del modo SD de la calculadora) : x = 882 5 ∑ xi = 4410 i =1 y = 924 5 ∑y i =1 i = 4620 xi yi 335500 561600 2400000 1050600 372000 5 ∑ xi2 = 4495700 i =1 5 ∑y i =1 2 i = 4961400 5 ∑x y i =1 i i = 4719700 79 . estime el total de ganancias con un intervalo de confianza. Y=ingresos (con las funciones del modo SD de la calculadora) : µ yD = µ x + d = 13396 € V (τ yD ) = N 2 d = 632 S D2 = 4095. relación tema 4) Las diferencias entre ingresos y gastos. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón.14 € 6.

047619 x τ y = rτ x = 134304.000€. Y=ventas actuales (con las funciones del modo SD de la calculadora) : x = 331. 76 € i i =1 Sr = = 5 1 5 1  5 2 2 5 2 2 y r x r xi yi + − 2 ( yi − rxi ) = ∑ ∑ ∑ ∑ i i n − 1 i =1 n − 1  i =1 i =1 i =1 V (τ y ) = N ( N − n ) Sr2 = 4761314. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. X=ventas antes. n’=5. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. 6 5 ∑ xi = 1658 i =1 y = 355. 67 . determine el tamaño de la muestra para estimar τˆY con un límite para el error de estimación de 2.n r= y ∑ i i =1 n x ∑ 2 y = 1. relación del tema 4) Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. 25  2 V (τ y ) = 4364. 072376 x i =1 i i = 627489 . 138668.85 ) 7. cuando se utiliza el estimador de razón. SOLUCIÓN: N=452. Tienda Ventas antes de Ventas la campaña actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios. 071 n   = 1640. 6 5 ∑y i =1 i = 1778 xi yi 49712 171200 207680 71484 127413 5 ∑ xi2 = 587146 i =1 5 ∑y i =1 2 i = 671034 5 ∑x y 5 r= yi ∑ i =1 5 x ∑ i =1 80 i = y = 1. (Como ejercicio 7. 09 τ y ∈ (129940.

2 Sr = D= 5 1 5 1  5 2 2 5 2 2 y rx y r x r xi yi − = + − 2 ∑ ( i i ) n '− 1  ∑ ∑ ∑ i i n '− 1 i =1 i =1 i =1 i =1   = 109.8947 σ r = Sr2 = 109.3 ≈ 22 ND + σ r2 81 . 4775  2 B2 = 4. 4775 2 4N n= Nσ r2 = 21.

..3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas. Esto. 2. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. 5. n Por ejemplo si N = 100 y n = 5 . Usos. complica el proceso de selección de la muestra. o se ordenan. aleatorias y periódicas.5. Muestreo sistemático. 100º.…. Ventajas. por ejemplo.1 Selección de una muestra sistemática. k = N entero. Según el n punto inicial nos podemos encontrar con estas situaciones: a.4 Determinación del tamaño muestral. entonces N = 20. 5. entonces k = 20 y aún tomando la ultima observación del primer intervalo (20º). 2.. obtenemos 5 observaciones: 20º. N no es entero. 82º. Ventajas. k se toma como el número entero menor o igual que el cociente k≤ N : n N n Nos podemos encontrar con las siguientes situaciones: 1. En el muestreo aleatorio simple. 22º. 82 . 40º. obtendríamos: 2º. proporción y total poblacionales.1 Selección de una muestra sistemática. todas las muestras posibles son igualmente probables y. 5. Usos. la selección de los elementos se efectúa con total aleatoriedad. para ello. el 2º como punto inicial. Veámoslo con un ejemplo. 5. se enumeran los N elementos de la población y después se seleccionan al azar los n elementos que han de formar la muestra. 62º. Si elegimos. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . n Por ejemplo si N = 103 y n = 5 .2 Estimación de la media. Entonces se obtienen exactamente n observaciones. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k elementos de la población. En el muestreo sistemático los elementos de la población se enumeran. 5. en general. 42º.6 y tomamos k = 20 . En general.

por tanto. Por ejemplo. por ejemplo. Si se elige. coger 1 de cada 20 personas que pasen hasta completar la muestra ( n = 50 ) • Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. Por ejemplo. la observación 18º como la inicial obtendríamos una muestra de tamaño 5: 18º. N es desconocido. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población. porque no se conoce el tamaño poblacional N hasta que no pasen todas las personas. dando una estimación mejor.a. En este caso. por ejemplo.s. sería difícil escoger una m. donde en cierta medida hay un orden en la población.a. la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. b. mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una zona y descuide otras. sobran 3.s. (En el m. Pero sí sería fácil. así k será menor de lo necesario y. el muestreo sistemático es mejor que el m. El muestreo sistemático. N se estima por defecto.Al dividir la población en 5 intervalos de 20 elementos. dando una mala estimación de la proporción de defectuosos. selecciona el mismo número de tubos de ambos grupos.s. el tamaño muestral será mayor o igual de lo requerido.a. En este caso. 83 . 78º. de 50 personas entre las que pasan por la esquina de una calle. 38º. 98º 3. en cambio. Ventajas del muestreo sistemático frente al aleatorio simple: • En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. Si no hay problema de coste podríamos elegir también el 102º y la muestra sería de tamaño 6. entonces seleccionaríamos n elementos al azar menores o iguales a N. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo. se nos juntaría el trabajo si dos números aleatorios fueran consecutivos o muy próximos). supongamos que en una fábrica los primeros 500 tubos de escape se fabrican correctamente y los últimos 500 son defectuosos por un problema en la maquinaria. 58º.

5. N −n ≅ 1. • ESTIMADOR DEL TOTAL POBLACIONAL: τˆ = Ny sy • VARIANZA ESTIMADA DE τˆ : S2  N −n Vˆ (τˆ ) = N 2Vˆ ( y sy ) = N 2   n  N  Ejemplo 5. los 84 .3 Comparación con el muestreo aleatorio simple). entonces - Cuando N no es múltiplo exacto de n . en las que se sugiere el uso del muestreo sistemático.Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de calidad dentro del proceso de fabricación. los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. N Como se puede observar la varianza estimada del estimador de la media es igual que en el muestreo aleatorio simple (véase 5. relación tema 5) Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. El tamaño poblacional se desconoce en muchas situaciones prácticas.1 (Ejercicio 3.2 Estimación de la media. - Si se desconoce el tamaño poblacional por su gran magnitud. el estimador es sesgado. Puesto que el control de visitantes en el museo cada día es muy costoso. Cuando N es conocida. Esto no implica que las varianzas reales sean iguales: V (y) = σ2 N −n n N −1 y V ( y sy ) = σ2 n [1 + (n − 1)ρ ] donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática. podemos estimar el total poblacional. proporción y el total poblacionales 1 n ∑ yi+( j −1) k n j =1 • ESTIMADOR DE LA MEDIA POBLACIONAL: µˆ = ysy = • VARIANZA ESTIMADA DE y sy : S2  N −n Vˆ ( y sy ) =   n  N  Comentarios.

Esto no quiere decir que las varianzas reales lo sean.321.321.370. yi = 0. Ejemplo 5. Use los datos de la tabla adjunta para estimar la proporción de 85 . Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. 79 ↓ S2 =  n −1 ˆ V (τˆ ) = 469.2 (Ejercicio 2 (a). Establezca un límite para el error de estimación. que las varianzas estimadas son iguales a las del muestreo aleatorio simple.868. relación tema 5) La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir.450 −    n  = 289.868 = 48. 2 ∑ y i = 1.funcionarios decidieron obtener estos datos cada diez días. de nuevo.680 visitantes 18 2 2 S  N−n ˆ ˆ V (τ ) = N   n  N  ↓ N = 180 2  4868 )  ( 1.18 Bτ = 1.34   Como en el muestreo aleatorio simple.450 Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 18 i =1 i =1 ∑ y i = 4.461. 1 pˆ sy qˆ sy  N − n    n −1  N  Notemos. las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: • ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy = • VARIANZA ESTIMADA DE pˆ sy : 1 n ∑ yi+( j −1)k n j =1 Vˆ ( pˆ sy ) = . Solución τˆ = Ny sy = 180 4.

3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas. aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del m. En este caso es preferible el uso del muestreo sistemático.81(1 − 0. N −1 Distinguimos los siguientes casos: A.a. Población ordenada (ρ ≤ 0 ) Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo con los valores. estratificado análogamente a como se han utilizado las del m. el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del m.0364 400 − 1  2.a.000330612 ⇒ B = 0.81 400 pˆ sy qˆ sy  N − n  0. Suponga que 2.81)  2. ya que la muestra se extiende uniformemente a lo largo de la población: 86 .800  n −1  N    Si la estratificación de la población fuese ventajosa. de una determinada característica. simple para aproximar el comportamiento del muestreo sistemático.conductores que portan su licencia. 5. crecientes o decrecientes.800 autos pasan por el puesto de verificación durante el periodo de muestreo. simple. simple. Según las expresiones V (y) = σ2 N −n n N −1 éstas serán similares cuando σ V (y ) = [1 + (n − 1)ρ ] n 2 y sy N −n ≅ 1 y ρ ≅ 0 .a.a. Automóvil 1 8 15 Respuesta 1 1 0 2794 1 400 ∑ y i = 324 i =1 Solución pˆ sy = y sy = Vˆ ( pˆ sy ) = 324 = 0. aplicándose las fórmulas del m. Establezca un límite para el error de estimación. pero en otros casos no.800 − 400   =   = 0.

Población periódica (ρ ≥ 0 ) Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. en el m.s. Ventas diarias de un supermercado con k = 7 Para evitar este problema. sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el m. Por ejemplo. en cuyo caso el uso de las expresiones del m. las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). el investigador puede cambiar varias veces el punto de inicio aleatorio. en el m. C. En este caso es preferible el muestreo aleatorio simple dado que V ( y sy ) > V ( y ) . Población aleatoria (ρ ≅ 0 ) Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. Por ejemplo: a. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad. la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante.s. B. 87 . en una lista de estudiantes por orden alfabético. b. sistemático estaría justificado. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que V ( y sy ) ≅ V ( y ) .a. sistemático).a. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Al utilizar las varianzas estimadas de los estimadores del m.V ( y sy ) ≤ V ( y ) Por ejemplo.

19 5. Lo anterior conduce a obtener muestras más grandes de las necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio).81) Npq = = 1. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%.5.81 n= q = 1 − p = 0. relación tema 5) En un nuevo control. Solución p = 0.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene despejando el tamaño muestral de la ecuación: 2 V ( ysy ) = B Dado que el valor real de la varianza del estimador no es conocido. la Guardia Civil de Tráfico espera que pasen unos 5.81) ) 4 4   k≤ 88 N = 4.81× (1 − 0. 25 n . En poblaciones aleatorias no tendremos problemas. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación n=  B2  4 para estimar la media  con D =   B2  para estimar el total  4N 2 Nσ 2 ( N − 1) D + σ 2 Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación n=  B2 para estimar p  4  con D =   2  B para estimar el total  4N 2 Npq (N − 1)D + pq Ejemplo 5.81× (1 − 0.3 (Ejercicio 2 (b).177 automóviles 2 B  0.97 ≅ 1.176.000 × 0. 022  ( N − 1) + pq  (5.000 − 1)  + ( 0. usaremos las expresiones del muestreo aleatorio simple.000 automóviles por el puesto de verificación.

El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.0002 Nσ 2 N n= = 99. 45 D = = 0. 5 4   EJERCICIOS RESUELTOS 1. (Ejercicio 7.000 cuentas por cobrar de una empresa. SOLUCIÓN 110 0. (Ejercicio 8.000 R = 21.0002 = = = 250.500 D 42 4 × 1.000 € con una confianza del 95%.000 €.Si tomáramos k=5 ⇒ n = 5000 5000 = 1000 .000.000 σ 2 ≅ 89 .000 27.0002 1.39 ≈ 100 k = = 10 2 ( N − 1) D + σ n N = 1. Para ello decide tomar una muestra sistemática de 1 en k . El valor de cada una de estas cuentas no suele superar los 21. 7 ≈ 331 k ≤ = 6.000. relación tema 5) La gerencia de una compañía privada con 2. 052 N = 2.562. 000625 200 4 Npq N n= = 330. 04 ⇒ k = 6 ( N − 1) D + pq n 2.000 p = = 0.55 q = 1 − p = 0. relación tema 5) Un auditor se enfrenta a una larga lista de 1. SOLUCIÓN 21. Tomando k=4 ⇒ n = = 1250 ≥ 1177 .000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Determine el valor de k. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑y i =1 i = 110 Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios).

613.850 23.386 18.063 3.852.610 = 1.97 ≈ 18 ( N − 1) D + σ 2 k= σ 2 = Sn2'−1 1800 = 100 18 .935 n i =1 6 S2  N −n Vˆ ( y sy ) =   n  N  ↓ N = 26 años ↓ S 2 = 37.915.760.4 1975 1.957.612.Masculinos Nac.257.642 3.5 33.295 26.833.6 1980 1.Femeninos Total de Nac. Año Nac. 0441 4 n= Nσ 2 = 17.078.85 B = 139. n’=6. considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios.304 3. relación tema 5) La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente.5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0.531.3.42 cl.816.054 1.135 1. (Como ejercicio 1.708 2.198 14.4 1970 1.693.927.378 1.8 D= 90 B2 = 0. SOLUCIÓN: N=1800.179.0 1960 2.008 3. (con las funciones del modo SD de la calculadora) : S n2' −1 = 0. SOLUCIÓN 1 n 1 µˆ = ysy = ∑ yi = 11.561.20 Vˆ ( y sy ) = 4.731. y establezca un límite para el error de estimación. (Ejercicio 5 (a).35 4. relación tema 5) La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción.358 19.9 Estime el número medio de varones nacidos por año para el periodo 1955-1980.913.073.759. Natalidad 1955 2.047.719 1.7 1965 1.616 1.412.437. Cantidad de llenado en cl 33 32.860.576 4.871.258 15.926.144.142 4.973. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas.

Los funcionarios tomaron una muestra sistemática de 1 en 10. 02 215 k =3 91 . a partir de una lista en orden alfabético de los 650 miembros registrados. 2769 B2 D= = 0. 000625 4 Npq = 214. 7231 65 q = 1 − 0. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). n’=65. 7231 = 0. relación tema 5) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. 05 n= 47 = 0.5. SOLUCIÓN: N=650. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. (Ejercicio 9.8 ≈ 215 ( N − 1) D + pq k≤ 650 = 3. obteniendo que 47 estaban a favor de los cambios propuestos. p = B = 0.

2 Formación de los conglomerados. 92 . Conglomerados y estratos. Lo primero que debemos hacer es especificar los conglomerados apropiados. 6. n = conglomerados en la muestra. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. por otro lado. Muestreo por conglomerados. proporción y total poblacionales. Si los elementos dentro de un conglomerado presentan características similares. se selecciona una muestra aleatoria simple de conglomerados. mientras que es fácil lograr un marco que liste los conglomerados. Formación de los conglomerados. Estimación de la media. Nótese que los estratos deben ser tan homogéneos como sea posible.6.4 Necesidad y ventajas del muestreo por conglomerados. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: ƒ Es complicado disponer de una lista de los elementos de la población.1 Necesidad y ventajas del muestreo por conglomerados.2 6. Vamos a utilizar la siguiente notación: N = conglomerados en la población. pero un estrato debe diferir tanto como se pueda de otro con respecto a la característica que está siendo medida. Determinación del tamaño muestral. 6.3 6. proporción y total poblacionales. deben ser tan heterogéneos dentro de ellos como sea posible y un conglomerado debe ser muy similar a otro para que el muestreo por conglomerados esté indicado. Conglomerados y estratos. (Alumnos que asisten a clase = elemento. si los elementos de un conglomerado son diferentes entre sí. Sin embargo.1 6.3 Estimación de la media. Una vez especificados los conglomerados. una muestra con pocos conglomerados recogería gran cantidad de información sobre un parámetro poblacional. 6. entonces tomar muchas observaciones dentro de un conglomerado sería un trabajo no productivo. 6. Los conglomerados. aulas = conglomerados) ƒ El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos.

V ( y) = 1 N − n Sc2 2 N n M donde Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 ( M puede ser estimado por m . = mN ) Notas: • La expresión de V ( y ) = 1 N − n Sc2 no se suele simplificar pues como ocurre en el 2 N n M ejercicio 4. n 1 n µ = y = ∑ yi = m i =1 ∑y i =1 n i ∑m i =1 i La media y tiene la forma de un estimador de razón. a veces N no se conoce y en otras ocasiones como en este último ejemplo porque M es desconocido y M debe ser estimada por m .mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i N M = ∑ mi = elementos en la población (con frecuencia es desconocido) i =1 n m = ∑m i = elementos en la muestra i =1 1 N mi = tamaño medio de los conglomerados de la población (con frecuencia es ∑ N i =1 desconocido). (A) Estimación de la media. relación del tema 6. 1 n m = ∑m i = tamaño medio de los conglomerados de la muestra (se n i =1 M= utililza para estimar M . El estimador de la media poblacional µ es la media y . si se desconoce) La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ). El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( m1 = m2 = ... 93 . por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón.

En ese caso no podemos utilizar el estimador del total τ = M y . aunque sí al valor del estimador del total) (C) Estimación del total cuando se desconoce el tamaño de la población. N y t es un estimador insesgado de la suma de los totales de todos los conglomerados. debemos construir un estimador del total que no dependa de M . La cantidad yt = 1 n ∑ yi . todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas.• Si la variable que estamos estudiando es dicotómica. (B) Estimación del total. De la relación entre la media y el total poblacional µ = τ M se sigue que τ = M µ . Así tendremos que n p= y= ∑a i =1 n i ∑m i =1 i Salvo esta diferencia en la notación. Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. es el promedio de los totales de los conglomerados de la muestra y por tanto un n i =1 estimador insesgado del promedio de los N totales de los conglomerados de la población. 94 . siendo el estimador del total poblacional τ τ =My y la varianza estimada del mismo V (τ ) = M 2 V ( y ) = N ( N − n) Sc2 n (sea cual sea el valor de M no afecta a la varianza ni al error del estimador. En este caso al número total de elementos en el conglomerado i que poseen la característica de interés se nota como ai en lugar de yi como es habitual en variables numéricas. Por el mismo razonamiento empleado en el muestreo aleatorio simple. hablaremos de la proporción poblacional p y de la proporción muestral p . o equivalentemente del total poblacional τ .

µ . c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. Ejemplo 6. y . es un estimador insesgado de la media poblacional. 95 . relación tema 6. además el estimador de la media. Calcule el límite para el error de estimación. Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden.1 (como ejercicio 13. la varianza de N y t es generalmente mayor que la varianza de M y . St2 = donde V ( y t ) = ∑ yi − y t n − 1 i =1 N n ( ) 2 Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados. V ( y ) (lo mismo se extiende al total). Esto es debido a que el estimador N y t no usa la información proporcionada por los tamaños de los conglomerados y por ello puede ser menos preciso. y también es insesgado el estimador de su varianza. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital.En resumen τ t = N yt St2 V (τ t ) = N V ( y t ) = N ( N − n) n 2 1 n N − n St2 . pero con menos datos) En una urbanización ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital.

3222 ∑ i =1 n ym ∑ i i =1 i 2 i = 90 3.115 τ t = N y t = 520 2 1 n  y yi  − ∑ ∑  n  i =1  = i =1 = 0.3 n −1 n 11. 25 . 003305 2 N n M yt = b) 1 n 13 yi = = 2.5 200 V ( y) = 1 N − n Sc2 = 0. 75 ) 2 V (τ t ) = 96. 616. M debe ser estimada por m m= 1 n 35 m i = = 7 hogares / manzana ∑ n i =1 5 V ( y) = 1 N − n Sc2 = 0. 6 ∑ n i =1 5 (y − y ) ∑ n S = 2 t i =1 i t n −1 2 2 V ( y ) = 0.8306 4 Ya que M es desconocido.SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación ai en lugar de yi .5% 2 i V (τ t ) = N ( N − n) St2 = 2.340 n ( 423.3222 = 0. utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados mi yi mi2 yi2 mi yi 8 7 9 6 5 35 2 2 3 3 3 13 64 49 81 36 25 255 4 4 9 9 9 35 16 14 27 18 15 90 n p= y= a) ∑y i i =1 n ∑m ( ∑ yi − ymi i =1 n ) 2 Sc2 = n i =1 i =1 m = 255 ∑ 2 i i =1 n = ∑ yi2 − 2 y ∑ yi mi + y n y = 35 ∑ 13 = 0. 75 c) τ = M y = 557.3714 35 2 i i =1 ( p = 37. 0028795 2 N n M .14% i i =1 n = 1 n ∑ yi − ymi n − 1 i =1 ) 2 = 2 n m = 3.14 96 M= 1500 = 7.

08 ).V (τ ) = M 2 V ( y ) = 6478. cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 6. 4N 2 Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B n= donde σ c2 se estima mediante Sc2 = B2 M D= 4 Nσ c2 ND + σ c2 ( 1 n ∑ yi − ymi n − 1 i =1 2 para la estimación de la media y D = ) 2 de una muestra previa. 16 Ejemplo 6.16 .98 ( 396. los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados.12 ) Como puede observarse. siendo B2 para la estimación del total. Cuando se utiliza N y t para estimar el total. el límite para el error de estimación es más pequeño en b) que en c).2 Suponiendo que los datos del ejemplo 6.8 2 V (τ ) = 160.4 Determinación del tamaño muestral.1 representan una muestra previa. 718. debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0. 97 . el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por n= D= Nσ t2 ND + σ t2 1 n B2 2 2 S = y σ se estima mediante ∑ yi − y t t t n − 1 i =1 4N 2 ( 2 ) 2 de una estimación del rango de los valores de yi como σ t = de una muestra previa (o a partir R2 ). En otras palabras.

92 ≈ 97 ND + σ c2 . Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias. SOLUCIÓN mi yi 10 8 11 7 36 13 9 15 8 45 mi2 yi2 mi yi 100 169 130 64 81 72 121 225 165 49 64 56 334 539 423 n M = 6.SOLUCIÓN 2 B2 M 0. 4 ≈ 155 ND + σ c2 EJERCICIOS RESUELTOS 1. 01 4N 2 i n n 2 1  n 2  2 y y m y mi yi  = 1. 25 D = B2 = 0.125 + − 2 ∑ ∑ ∑ i i  n − 1  i =1 i =1 i =1  Nσ c2 = 96. 001225 D= 4 4 1 n 35 M ≅ m = ∑m i = =7 n i =1 5 S = 0. 012 × 7 2 = = 0.8306 2 c n= Nσ c2 = 154. obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine. usando los datos de la encuesta piloto. Se selecciona una localidad con 6. el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad.200 N = 700 y= ∑y i =1 n ∑m i =1 σ c2 ≅ Sc2 = ( 1 n ∑ yi − ymi n − 1 i =1 ) n= 98 2 = i = 1. (Ejercicio 6.200 hogares agrupados en 700 manzanas de viviendas. relación tema 6) Con motivo del cuarto centenario del Quijote. cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades.

La industria modificó su política de jubilación después de obtener los resultados de la encuesta. 06 ≈ 18 n= ND + σ c2 99 .2. (Ejercicio 2. relación tema 6 pero con menos datos) Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política.84 = = 2.32% 336 i n 2 n 1  n 2  y p y m p mi2  = 68.1054 ⇒ 10. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. b. 052 × 4515. La industria consta de 57 plantas. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario.84  5  1 N − n Sc2 = 0. 00278 V ( p) = 2 N n M b) 2 2 2 V ( p) = 0. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. SOLUCIÓN: a) N = 57 n=5 mi yi 51 62 49 73 101 336 42 53 40 45 63 243 mi2 2601 3844 2401 5329 10201 24376 yi2 1764 2809 1600 2025 3969 12167 mi yi 2142 3286 1960 3285 6363 17036 n p= ∑y i =1 n ∑m i =1 Sc2 = ( 1 n ∑ yi − pmi n − 1 i =1 ) 2 = i = 243 = 0.54% 2 B2 M 0. 7 − + 2 ∑ ∑ ∑ i i i  n − 1  i =1 i =1 i =1  2  336  M ≈m =  = 4515.8224 D= 4 4 σ ≈S 2 c 2 c Nσ c2 = 17. 7232 ⇒ p = 72. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación.

Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas. suponiendo que M es desconocido. Los conglomerados son numerados del 1 al 415. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación. relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. (Ejercicio 7.500 residentes en la ciudad. c) Suponiendo que existen 2. 100 . Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados.3.

000 × 8 ) + .000 ∑ i =1 1.000 + .061. M debe ser estimada por m m= 1 n 151 m i = = 6. 40 24 Ya que M es desconocido.000 = 8.227....32 € / residente 151 i i =1 n = 2 n 2 i i =1 2 i i n i =1 2 i + ...000.785.801.000 yi = = 53160 € / bloque ∑ n i =1 25 τ t = N y t = 22.400 € 101 . = 82.047 n y m = ( 96.213.403.617. Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación.14€ b) yt = 1 n 1.329.501. mi = 6 ∀i . = 1.247 = 634.NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo. 04 residente / bloque ∑ n i =1 25 V ( y) = 1 N − n Sc2 = 653. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta por la dificultad de trabajar con cantidades muy grandes) n µ=y= ∑y i i =1 n ∑m ( ∑ yi − ymi i =1 n y − 2 y∑ y m + y ∑ m ) = ∑ i =1 2 i n m =8 ∑ 2 i i =1 2 n 2 y = 96. d) Tomando los anteriores datos como una muestra previa.000 ∑ i =1 i Sc2 = i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = 15. cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€.039..490 ) y estime el total por los dos métodos ( ) estudiados τ = M y τ t = N y t .329.502. supongamos conocido M = 6 × 415 = 2.19 2 N n M 2 V ( y ) = 1. = 8.

34€ . 26.000.250 2 V (τ ) = 4.18€ ) Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( rmy2 = 0.791.949.072.100 D= 4 4 Nσ c2 = 166.329.831. d) 2 S = 634.755. relación tema 6) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo.213. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. 042 = = 2.056.039.000 = ∑ 25 n  i =1  i =1 n 2 i (y − y ) N ( N − n) ∑ n V (τ t ) = i i =1 2 t n −1 n 2 V (τ t ) = 3.053.000) 2 = 11.280.92 (17.926.360. (Ejercicio 10. 26€ 1 N − n Sc2 = 657. 0919 ).505. En otras palabras.311. 04 € = 3.240.279.584.107.000 − (1. 40 2 c B2 M 5002 × 6. El número de bajas en el último año.501.213. 40 V ( y) = τ = M y = 22.58 ≈ 167 n= ND + σ c2 4.389.003. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si 102 .519.9482 2 N n M V (τ ) = M 2 V ( y ) = 4.000 c) N = 415 n = 25 M= 2500 = 6.860. 0241 415 Sc2 = 634.501.(y − y ) ∑ n i =1 i 2 t 2 1 n 1  y − ∑ yi  = 82. los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados.

68%) 5.25 2.02353 = 0. (b) Estime la proporción de empresas que usarían los servicios ofertados. (Como ejercicio 3.94 ⇒ V ( y t ) =  = 0.25 0.6 = 0.25 80.08  9 85 10   yt = Bτ = 2 5702.94 St2 = = 8.5  85 − 10  8.02353 85 10 − 1 B = 2 0.25 6.5 i 2 t 25 τ t = 85 × 2.25 6.5 bajas / empresa 10 80.4 × 0. SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población.25 0.5 bajas = 2. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados.(a) Estime el número de bajas en el último año en las empresas del pueblo. por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 103 .5 = 212.40 (40%) 10 85 − 10 0. Dé el límite del error de estimación. yi (y − y ) 1 2 9 0 2 0 1 0 4 6 25 2. Dé el límite del error de estimación.7892157 ⇒ V (τ t ) = 852 V ( y t ) = 5702.600 hogares.25 6.3068 (30.024 bajas b) p= V ( p) = 4 = 0.25 42.25 12.25 2. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. relación tema 6) Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3.08 = 151.

5 33 33 33. 49 € i n n 2 1  n 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1   = 2612.5 32 33 32.5 3 30. 96 € 2 N n M 6.Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. SOLUCIÓN: N=40. n=3.5 31 34 2 32. relación del tema 6) En un proceso de control del volumen envasado V ( y) = por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora. y se mide el volumen que cada envase contiene.5 Estime el volumen medio de los envases y la cota del error de estimación.04  1 N − n Sc2 = 0. cada uno de los cuales contiene 4 envases.5 32. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33. 23 2 V ( y ) = 0. mi 4 4 4 yi 131 130 130 mi yi 524 520 520 3 ∑m y i i =1 (con las funciones del modo SD de la calculadora) : M =m=4 3 ∑m i =1 104 i = 12 3 ∑m i =1 2 i = 48 i = 1564 . SOLUCIÓN: mi yi 121550 143400 153090 n ∑m y i =1 N = 60 n=3 n i =1 i = 418040 i n 3600 = 60 60 M= ∑y i n ∑y = 7030 i =1 ∑ mi = 178 i =1 n ∑m i =1 2 i = 10594 = 16501100 2 i n y=µ= y ∑ i =1 n ∑ m i =1 2 Sc = ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = i = 39. (Como ejercicio 4.

(Como ejercicio 1. mi yi 150 770 2530 1260 120 n ∑m y i =1 i i = 4830 (con las funciones del modo SD de la calculadora) : M = m = 6. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio.3333  2 V ( y ) = 0. relación del tema 6) Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias.5 5 ∑ yi = 391 y t = 130.1603 cl 7. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación.5833 cl m i ( 1 3 ∑ yi − ymi n − 1 i =1 ) 2 = 3 3 2 1  3 2 2 + − y y m y mi yi 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 0. 006423 V ( y) = 2 N n M   = 0. SOLUCIÓN: N=100. con cada industria como un conglomerado. 4 n ∑ mi = 32 i =1 n ∑m i =1 2 i = 264 105 . pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados. n=5. El fabricante no puede obtener un coste de reparación para cada sierra.33 ∑y i =1 2 i i =1 = 50961 5 y=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 32.

n=5. mi yi 877200 738270 399000 1514700 651832 n ∑m y i =1 106 i i = 4181002 . Los resultados se muestran en esta tabla: Nº votantes Nº votantes A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. Se selecciona una muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere hacer la estimación el día de la elección. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra. 4375 € m i ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 = n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 2. (Como ejercicio 5.n n ∑ yi = 590 y t = 118 ∑y i =1 2 i i =1 = 90700 5 y=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 18. pero antes de que se haya hecho la cuenta final de los votos. 2934 € 8. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa. para obtener la información pertinente directamente de los votantes.57  2 V ( y ) = 3. con distritos como conglomerados. SOLUCIÓN: N=495. se utiliza muestreo por conglomerados. relación del tema 6) Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A. 7116 V ( y) = 2 N n M   = 584. en una elección estatal.

00216573 2 N n M 2 V ( y ) = 0.(con las funciones del modo SD de la calculadora) : n ∑ mi = 6301 M = m = 1260. 6 i =1 i = 3193 n ∑m i =1 n ∑y i =1 = 8270161 2 i 2 i = 2183195 5 p=µ= y ∑ i =1 5 ∑ m i =1 2 Sc = i = yt = 0.506745 m i ( 1 n ∑ yi − ymi n − 1 i =1 V ( p) = ( 50.505  ( 9.31% ) 107 . 0930748   = 17372. 2 i =1 n ∑y y t = 638. 67% ) ) 2 = n n 2 1  n 2 2 y y m y mi yi + − 2 ∑ i ∑ ∑ i n − 1  i =1 i =1 i =1 1 N − n Sc2 = 0.

7. 7. se aumenta el tamaño muestral. ha de ser mayor que 0 para que las fórmulas estén bien definidas.3 Cuadros cargados. 7. ƒ Nˆ no es un estimador insesgado de N : [ ] (N − t) E Nˆ = N + N ≠N nt Cuanto mayor sean n y t menor será el sesgo N 108 (N − t) .3. 2.1 Muestreo directo. p = t t . 7. 7. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de antemano) de la misma población y se observa cuántos de ellos están marcados ( s =número de elementos marcados en esta 2ª muestra) Sea p = proporción de elementos marcados en la población. pero p es N p desconocido.3 Muestreo por cuadros.2 Muestreo inverso. Se selecciona una muestra aleatoria de tamaño t . Si en la segunda muestra no aparece ningún elemento marcado. N= . 7. nt .1 Estimación de la densidad y tamaño de la población.3. Estimación del tamaño de la población. t = constantes     s = aleatoria  ( ) Comentarios ƒ s = número de elementos marcados en la 2ª muestra. • ESTIMADOR DE N : t t nt = Nˆ = = pˆ s / n s • VARIANZA ESTIMADA DE Nˆ : t 2 n( n − s ) Vˆ Nˆ = s3  n.2 Muestreo por cuadros en el espacio temporal. 7. se marcan y se devuelven a la población. 7. Entonces estimamos p mediante la proporción muestral: pˆ = s = proporción de elementos marcados en la 2ª muestra n Por tanto.1 Estimación del tamaño de la población usando muestreo directo En el muestreo directo se realizan los siguientes pasos: 1.3.

se marcan y se devuelven a la población. Nˆ es un estimador insesgado de N .87 V N = s3 273 ( ) ( ) B = 2 Vˆ Nˆ = 150. Durante un periodo de varios días se atrapan 100 truchas. si se pueden aplicar ambos tipos de muestreo se prefiere el inverso. Ejemplo 7.2 Estimación del tamaño de la población usando muestreo inverso La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está fijado (es aleatorio). 2. 109 . Los pasos para realizar este método son: 1. relación tema 7) Un club deportivo se interesa por el número de truchas de río en un arroyo. Supongamos que este número fue de 27 en la segunda muestra. ya que cualquier pez atrapado que ya hubiera sido marcado se devolvía inmediatamente. se marcan y se devuelven al arroyo. por ello. 60   7. Solución nt 120 ×100 = 444. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos marcados (sea n el tamaño final de dicha muestra). Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados.ƒ Nˆ tiende a sobreestimar el valor real de N . Se selecciona una muestra inicial de t elementos. • ESTIMADOR DE N : t t nt = Nˆ = = pˆ s / n s • VARIANZA ESTIMADA DE Nˆ : t 2 n( n − s ) Vˆ Nˆ = 2 s ( s + 1)  t . Obsérvese que la muestra representa 100 peces diferentes.669.1 (Ejercicio 1. lo que se fija es s = número de elementos marcados en la segunda muestra. 4 Nˆ = = s 27 t 2 n(n − s ) 1002 × 120(120 − 27) ˆ ˆ = = 5. s = constantes     n = aleatoria  ( ) Comentario.

Ejemplo 7.2 (Ejercicio 5, relación tema 7)

Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área
geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta
que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas.
Estime el tamaño total de la población de tortugas y establezca un límite de error de
estimación.
Solución

nt 160 ×100
= 1.066, 67
Nˆ = =
15
s
t 2 n(n − s ) 1002 ×160(160 − 15)
ˆ
ˆ
V N = 2
=
= 64.444, 44
152 (15 + 1)
s ( s + 1)

( )

( )

B = 2 Vˆ Nˆ = 507, 72

 

7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por
cuadros

Con este método se estudia el tamaño de la población contenida en un área delimitada A
conocida. Los pasos a seguir son:
1. Dividir a la población en N cuadros de igual área a . Sea
mi = número de elementos en el cuadro i -ésimo

2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total
de elementos que contiene la muestra:
n

m = ∑ mi
i =1

3. Calcular la densidad de elementos en la muestra (densidad muestral):

λˆ =

nº elementos en la muestra m
=
área de la muestra
na

4. La densidad poblacional es

λ=

nº elementos en la población M M
=
=
área de la población
Na A

entonces M = Aλ . Por tanto:

110

ESTIMADOR DE LA DENSIDAD:

λˆ =

m
na

VARIANZA ESTIMADA DE λˆ :

m
1
Vˆ (λˆ ) = 2 2 = λˆ
na
a n

ESTIMADOR DEL TAMAÑO POBLACIONAL:

m
Mˆ = Aλˆ = A
na

VARIANZA ESTIMADA DE Mˆ :

A2 m
Vˆ ( Mˆ ) = A 2Vˆ (λˆ ) = 2 2
a n

Ejemplo 7.3 (Ejercicio 3, práctica 7)

La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en
torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede
conocer la cuantía de medios materiales y humanos (policía, protección civil, personal
sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de
aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza
sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada
uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por
último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados,
obteniéndose los resultados de la tabla:
Nº del cuadro

Número de aficionados
en el cuadro

Nº del cuadro

Número de aficionados
en el cuadro

1

193

11

160

2

216

12

220

3

250

13

163

4

163

14

306

5

209

15

319

6

195

16

289

7

232

17

205

8

174

18

210

9

215

19

209

10

198

20

198

a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo
de confianza.
b) Estime el número total de aficionados concentrados en la plaza de Neptuno y
obtenga su intervalo de confianza.

111

Solución:
a) a = 10 × 10 = 100

λˆ =

m
4324
=
= 2,162
na 20 ×100

λˆ 2,162
Vˆ (λˆ ) =
=
= 0, 001081 ⇒ B = 2 0, 001081 = 0, 066
na 2000
λ = 2,162 aficionados m 2

(2, 096 , 2, 228)

b) A = 300 × 100 = 30.000 m 2

Mˆ = Aλˆ = 30.000 × 2,162 = 64.860 aficionados

B = ABλ = 30.000 × 0, 066 = 1.980

(62.880 , 66.840)

 

7.3.2 Muestreo en el espacio temporal

En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo
con un ejemplo.
Ejemplo 7.4 (Ejercicio 7, relación tema 7)

Se desea estimar el número total de personas que diariamente solicitan información en una
oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de
5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la
oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del
error de estimación.
Solución
A = 8 horas= 480 minutos

λ=

n =12 intervalos

114
= 1,9 personas / minuto
5 × 12

A2 m
Vˆ ( Mˆ ) = 2 2 = 7.296 ⇒ B = 170,8
an

a = 5 minutos

m =114 personas

m
Mˆ = A
= 912 personas
na
 

7.3.3 Cuadros cargados

En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza
cuando después de hecha la división son muchos los cuadros que no contienen elementos y
otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy
pequeña.
Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en
cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos
un elemento objeto de estudio.
112

Los pasos a seguir son:

1. Se divide a la población en N cuadros de igual área a .
2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total
de cuadros no cargados de la muestra, a este número de cuadros sin presencia de
elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero
ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el
tamaño muestral
3. La densidad poblacional se estima como
1

 y

λˆ = − ln  
a n
y su varianza como
1 n− y
Vˆ (λˆ ) = 2
a ny
Dado que M = Aλ obtenemos

ESTIMADOR DEL TAMAÑO POBLACIONAL:

A  y
Mˆ = Aλˆ = − ln 
a n

VARIANZA ESTIMADA DE Mˆ :

A2 n − y
Vˆ ( Mˆ ) = 2
a ny

Ejemplo 7.5 (Ejercicio 4, práctica 7)

Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo,
circulan por un determinado punto kilométrico de una carretera. La observación se realiza
mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio.
En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en
cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las
24 horas. Dar un límite de error de estimación.
Solución

A = 24-6=18 horas=1.080 minutos
y =18 intervalos sin autobuses

n = 40 intervalos

a =10 minutos

A  y
1.080  18 
ln   = 86, 24
Mˆ = − ln   = −
10
a n
 40 

A2 n − y 1.0802 40 − 18
Vˆ ( M ) = 2
=
= 356, 4 ⇒ B = 37,8
102 40 ⋅18
a ny

 

113

EJERCICIOS RESUELTOS
1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la
densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros
de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles
infectados por cuadro.
a) Estime la densidad de árboles infectados y establezca un límite de error de
estimación.
b) Estime el total de árboles infectados en los 200 acres de la plantación y
establezca un límite de error de estimación.
SOLUCIÓN:

m 2,8 × 10
=
= 5, 6 arb. infectados / acre ;
a) λˆ =
na 10 × 0,5

1
1
Vˆ (λˆ ) = λˆ
= 5, 6
= 1,12 ⇒ B = 2,1
na
10 × 0,5
b) Mˆ = Aλˆ = 200 × 5, 6 = 1.120;

B = ABλ = 200 × 2,1 = 423,32

2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un
modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real.
Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de
duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes
resultados:
Control

Número de vehículos de ese
modelo que usan el
aparcamiento
1
0
2
1
3
2
4
0
5
3
Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.
Dé el límite del error de estimación.
SOLUCIÓN:
A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m =

M = λ A = 1.2 × 720 = 864 veh.

114

6
m
= 1.2 λ = = 1.2 veh./ h
5
a

( )

V M =

A2 λ
= 124416
an

B = 2 124416 = 705.45 veh.

3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en
abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta
inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M.
conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de
clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos
periodos de igual duración, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
15
14:00-14:30
13
18:00-18:30
18
22:00-22:30
8
02:00-02:30
2
06:00-06:30
4
Estime el número de clientes diarios de la farmacia observada y el correspondiente límite
para el error de estimación.
SOLUCIÓN:

A = 24h a = 0.5h N = 48 n = 6 m = 60 m = 10
M = λA =

( )

m
A 2 λ A2 m
A = 480 clientes V M =
= 2 = 3840
a
an
an

( )

2 V M = 123,94 clientes

4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en
conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo
campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por
40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que
el número de personas era 1.100.
Estime el número total de asistentes y el límite para el error de estimación.
SOLUCIÓN:

A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55
M = λA =

m
A = 5500
a

( )

V M =

A 2 λ A2 m
= 2 = 27500
an
an

( )

2 V M = 331, 66

5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos
que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una
conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la
115

Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide
contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue
necesario contar hasta 382 alumnos.
Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la
Facultad.
SOLUCIÓN: muestreo inverso

t = 500 n = 382 s = 100
N=

t
p

( )

=

V N =

nt
= 1910 alumnos
s
t 2 n( n − s )
= 26664,35643
s 2 ( s + 1)

(1910 ∓ 326,58 )

116

( )

2 V N = 326,58 alumnos

8. Indicadores estadísticos regionales.
8.1 Introducción.
8.2 Medidas de desigualdad-concentración regional.
8.2.1 Curva de Lorenz. Índice de Gini.
8.2.2 Coeficiente de Theil. Índice de Theil.
8.2.3 Desigualdad individual y colectiva.
8.3 Medidas de dispersión regional.
8.4 Coeficiente de asociación geográfica de Florence.

8.1 Introducción

Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los
objetivos de este capítulo son:
o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de

una

variable

económica

se

encuentra

repartida

equitativamente

entre

las

subpoblaciones o, por el contrario, existen desequilibrios en su reparto.
o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su

distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de
Florence).
8.2 Medidas de desigualdad-concentración regional

En esta sección se estudian medidas de desigualdad o concentración que indican si la
magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el
contrario, existen desequilibrios en su reparto.
Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo
estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz),
o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice
de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva).
8.2.1 Curva de Lorenz. Índice de Gini.

(Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1)
Recordaremos lo más importante y lo ilustraremos con un ejemplo.
N i son las frecuencias absolutas acumuladas.
pi =

Ni
es la frecuencia relativa acumulada. ( N =número total de datos)
N

ui =son los totales acumulados.

117

2 R4 1150. • Este índice es invariante frente a cambios de escala pero no frente a cambios de origen. La comparación entre los valores pi y qi nos informa sobre la concentración en el reparto..): VAB Regiones (u.0) y (1. la curva de Lorenz coincide con la bisectriz del primer cuadrante.m. 118 . Si hay equidistribución I G = 0 . Ejemplo 8. Si hay concentración máxima I G = 1 . Si el reparto fuese equitativo.) R1 2460. la curva de Lorenz coincide prácticamente con los catetos del triángulo determinado por los puntos (0. salvo uno que recibe todo. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u. k − 1 . • No permite un análisis desagregado como los índices que estudiamos a continuación.1). i = 1.0 R5 1865. coincidirían para todos los i..9 Calcule el índice de Gini y represente la curva de Lorenz.1 R7 661. qk = 1 ). • En caso de concentración máxima (todos los individuos reciben nada. • Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como k −1 IG = ∑ ( pi − qi ) i =1 k −1 ∑p i =1 k −1 = 1− i ∑q i =1 k −1 i ∑p i =1 i • 0 ≤ I G ≤ 1 . Estos valores se representan mediante la curva de Lorenz.qi =son los totales acumulados relativos.m.0 R3 613.0 Supongamos un país con 7 regiones. (1..0).5 R2 619. qi = 0.0 R6 437.. • En caso de equidistribución ( pi = qi ∀i ).

8337 pj Ni 1 1 1 1 1 1 1 7 1 2 3 4 5 6 7 0.5 7806.1 1050.4286 0.8337 = 0.2 619.1429 0.9 0.2 5346.9 1150. j =1 para cuantificar el parecido o la diferencia entre sí de los datos a analizar.3 1669.2.5714 0.0 2460.5714 0.3 0.VAB 437.2 3481.2986 0.0000 2.0000 4.8 0.7 qj ui 437.7 q 0.8571 1.6848 1.0 661.0 1865.0560 0.7143 0.5 0.4459 0.2857 0.2 7806. Índice de Theil.1 0 0 0.3888 3 i 1 0.2 Coeficiente de Theil.7 nj 0. X ≥ 0 Regiones Xi xi 1 X1 x1 N XN xN N ∑X j =1 i 1 119 .4 0.2857 0.1 613.4286 0.2 0.1429 0. H N ( x) = −∑ xi ln xi . Supongamos una población divida en N regiones o estratos distintos.0000 p 8. Cada una de las regiones aporta un valor de una variable económica X.3 2331.8571 1.6 0.2138 0.7143 0.1345 0.0000 k −1 IG = 1 − ∑q i =1 k −1 i ∑p i =1 = 1− 1. N El coeficiente de Theil se basa en la entropía o medida del desorden.

): Xi Regiones VAB (u.200 -0. por definición. T = ln N + ∑ xi ln xi i =1 Nota Si algún xi = 0 .946.) R1 2460. N k regiones en cada uno de ellos: k ∑N g =1 Entonces 120 g = N ..056 0. Si existe equidistribución entonces −∑ xi ln xi = ln N y T = 0 i =1 N 2.. por definición tomamos xi ln xi = 0 . xg  xg  .161 -0.201 -0..2 R4 1150.760 el coeficiente de Theil es: T = ln 7 − 1.m..079 0.1 Supongamos un país con 7 regiones..364 -0. Supongamos que X se agrupa en k grupos: G1 .. Gk . con N1 .. T es más cercano a 0 que a ln7=1.1 R7 661.1.. por tanto..9 7806.282 -0. Sea X = variable observada en las N regiones y x1 .0 R5 1865. xg = ∑x.239 0. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u. k y Tg = ln N g + ∑ i∈Gg xi  xi  ln   .. El coeficiente de Theil permite un análisis desagregado. Ejemplo 8.m.. xN = valores porcentuales (proporciones) en cada región. 0 ≤ T ≤ ln N (En el ejemplo 8. está más cerca de la equidistribución que de la concentración máxima).342 -0..147 0.210 -1. 760 = 0..079 0.   Propiedades N 1.Donde xi = proporciones de la variable respecto del total= Xi N ∑X i =1 i N El coeficiente de Theil es.5 R2 619.1859 .7 xi xi ln xi 0.0 R6 437.. Si existe concentración máxima entonces −∑ xi ln xi = 0 y T = ln N j =1 3.0 R3 613.. 4..315 0. i∈Gg i g = 1.085 1 -0.

315 0.239 = ∑ xi =0. k o ∑x T g =1 g g representa la desigualdad dentro de los grupos. Mide la disparidad  entre grupos teniendo en cuenta el tamaño de cada grupo N g en relación al peso del grupo xg en la variable económica observada.056 0.079 0. 299 i∈G1 xi x( g = 2) 0.k  x T = ln N + ∑ xg ln  g N g =1  g  k  + ∑ xg Tg  g =1 donde o k  x ln N + ∑ xg ln  g N g =1  g   representa la desigualdad entre grupos. Es la media de los coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo. xg 121 . Supongamos que dividimos las regiones en dos grupos: Regiones grupo 1 R2 R3 R6 R7 xi x( g =1) Regiones grupo 2 R1 R4 R5 0.147 0. Ejemplo 8.2 Realicemos un análisis desagregado con los datos del ejemplo 8. 701 i∈G2 Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente coeficiente de Theil: Tg = ln N g + ∑ i∈Gg donde xi  xi  ln   xg  xg  xi es el valor porcentual dentro del grupo.079 0.1.085 = ∑ xi =0.

0113 xi Regiones grupo 2 R1 R4 R5 xi x( g = 2) 0. 0346 de esta forma: T = 0.xi Regiones grupo 1 R2 R3 R6 R7 xi x( g =1) 0.1862 = 1 0.9459 − 0. 0446 o Desigualdad entre grupos: 2  x   0.239 x( g = 2) = 0.085 x( g =1) = 0.1858 0.375 T1 = ln 4 − 1. 0113) + 0. 0346 = + = 0.38% es debido a la desigualdad entre grupos. 0192 = 0.358 1 -1.187 0.315 0. 122   .079 0. la desigualdad.210 0. 0346 = 0.147 0.264 0.359 -0. 299   0.284 xi  xi  ln   xg  xg  -0.079 0.1512 + 0.1858 0.701 0.264 0.1512 0. 701  ln N + ∑ xg ln  g  = ln 7 + 0.449 0.056 0. 299 ( 0. tratando de limar las diferencias entre los dos grupos (esta es una de las ventajas del análisis desagregado.328 -0. 054 = 0.8138 + 0.352 -0.375 = 0. 7755 − 1. 701ln  =    4   3  g =1  Ng  = 1. 701( 0.1512 o Desigualdad dentro de los grupos: 2 ∑x T g =1 g g = 0.1858 En términos relativos: T 0. 0446 ) = 0.367 1 -1. permite determinar el origen de las diferencias existentes entre las regiones).341 xi  xi  ln   xg  xg  -0. aún más. el 81.314 -0.054 T2 = ln 3 − 1. actuaríamos en esa dirección. 299 ln   + 0. Si tuviésemos que tomar medidas económicas para disminuir.352 -0.299 0.1858 De la desigualdad existente en las siete regiones.

2 1150 1865 437. y este hecho facilita comparaciones.5 619 613.. se define la desigualdad individual de la región i-ésima respecto al colectivo como: di = x − Xi x = − 1. Indica la proporción en que el colectivo supera a la región iésima X i < x ⇔ la región i-ésima posee una desigualdad individual positiva X i > x ⇔ la región i-ésima posee una desigualdad individual negativa X i = x ⇔ la región i-ésima posee una desigualdad individual cero Ejemplo 8.547 0. Ejemplo 8.9 7806. Para una variable X .7 di -0. i = 1. 0956 ln 7 Reparto cercano a la equidistribución.1 661.551 0..m. El 0 indica equidistribución y el 1 concentración máxima.3 ITHEIL = 0.4 Regiones R1 R2 R3 R4 R5 R6 R7 Xi VAB (u.2.819 -0.) 2460. que solo toma valores positivos.186 = 0.402 1.685 2..030 -0.878 123 .3 Desigualdad individual y desigualdad colectiva El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al colectivo..Índice de Theil N IT = ITHEIL T = = ln N ln N + ∑ xi ln xi i =1 ln N N = 1+ ∑ x ln x i i =1 i ln N Es evidente que 0 ≤ ITHEIL ≤ 1 .802 0.   8. N Xi Xi Es una medida adimensional.

por si sola no dice nada.... Ejemplo 8. D . Sin embargo.   Esta medida permite un análisis desagregado. se obtiene la desigualdad colectiva: N D = ∑ di fi i =1 D aumenta cuando en la población existen mayores desequilibrios. k → Número de subpoblaciones o grupos.5 Con los datos del ejemplo 8.. no existe una cota superior para D ya que su máximo depende del tamaño de la población. 7 = 1115.4: 7 D = ∑ di fi = i =1 1 7 2. Denotemos por: N → Número de elementos en la población (regiones) x → Media de todos los elementos de la población. 411 ∑ 7 i =1 7 (Realmente. 243 7   Si se agregan las desigualdades individuales. ponderadas cada una de ellas por la frecuencia relativa de X i . k xg → Media del grupo g Dg = dg = ∑ xg − X i i∈Gg x − xg xg Xi fi → Desigualdad colectiva en el grupo g → Desigualdad individual del grupo g en relación a todos los grupos (toda la población). pero la podemos comparar con el reparto de otra variable). se puede calcular como suma de la desigualdad existente entre los grupos considerados más una media ponderada de las distintas desigualdades colectivas dentro de cada grupo o subpoblación: D= 124 1 N k ∑d g =1 g Ng + x N k ∑D g =1 g Ng xg .878 di = = 0.x= 7806. N g → Número de elementos en el grupo g . g = 1. entonces.

8 x1 Regiones grupo 2 R1 R4 R5 x2 = VAB (u.1 N o x N o k ∑d g =1 g N g → Representa la desigualdad entre las subpoblaciones o grupos. 0265 xi 4 i∈G1 xi 4 x − x1 1115.167 = = −0.021 0.9136 582.2 x1 − xi xi x2 − xi 1 x −x 1 f i = ∑ 2 i = 0.389 1825.8 = = 0.5 1150 1865 5475. 7 = 1115.258 0.) 2460.058 -0.1 661.m.8 4 D1 = ∑ d1 = VAB (u. 243 − 582.167 3 D2 = ∑ i∈G2 d2 = -0. k ∑D g =1 g Ng xg → Representa la desigualdad dentro de las subpoblaciones o grupos.6 Regiones grupo 1 R2 R3 R6 R7 x1 = i∈G1 x1 − xi 1 x −x 1 fi = ∑ 1 i = 0.120 0.333 -0.1027 xi 3 i∈G2 xi 3 x − x2 1115.5 = 1825.2 437. Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo.167 x2 Resumiendo: x= 7806.308 5475. Ejemplo 8.5 x2 − xi xi -0.050 0.106 2331.587 -0.106 = 0. 243 7 125 . 2 = 582. 243 − 1825.308 = 0.) 619 613.9 2331.m.

056 = 0. se puede utilizar cualquier medida de dispersión para estudiar las disparidades entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser considerada homogénea). 000351 = 0. de variacion de Pearson ) 2 x Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o polarizadas).355 + 0. Las más utilizadas son: o Varianza: V ( X ) = 1 N N ∑( X i =1 i − x) 2 o Varianza normalizada: VN ( X ) = V (X ) 2 = ( coef. les pueden corresponder una misma dispersión.355 0. entonces la participación de cada valor de la variable sobre el total es: xi = Xi e yi = N ∑X i =1 i Yi N ∑Y i =1 i  0 ≤ xi .000169 0. 411 D =  2.167 Dg dg 0. Yi ) .1027 0.3 Medidas de dispersión regional En general.0265 0.1363 = 1 0.389 Dg Ng xg dg Ng 0.4 Coeficiente de asociación geográfica de Florence Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y . 411 En términos relativos. La desigualdad es debida a la diferencia entre subpoblaciones o grupos. cuando se dispone de un valor de cada una de ellas en cada una de las N regiones consideradas para el estudio.Grupos 1 2 Ng xg 4 3 582.167 2.9136 -0.4874 1   1115. 243  0.8 1825.8637 + 0. yi ≤ 1   N  N  ∑ xi = ∑ yi = 1   i =1  i =1  El coeficiente de asociación geográfica de Florence es: F = 1 − 126 1 N ∑ xi − yi 2 i =1 .000182 0.   8. 4874  +  7 7    0.000351 3. 8. Supuestos conocidos para cada una de las regiones el par ( X i . 411 0.6544 -1. 056 + = 0.

N ⇒ F = 1 .1 España 216.1 Irlanda 24.4 248.7 (Ejercicio 1.1464 0.9 Italia 473.) Superficie (1000 km 2 ) Alemania 826.5 2253.0 Holanda 165. 0 ≤ F ≤ 1 2.8 132.1083 0.5810 Dinamarca Holanda Portugal Total F = 1− 1 12 1  xi − yi = 1 −  0.2 504. el coeficiente también aumenta.0135 0.5 30.7 Bélgica 104.0183 0.0 Grecia 42.0188 76.2558 0.3 41.8 132 0.1571 Francia 674. PIB (u.2240 0..) 2 Superficie (1000 km ) xi yi xi − yi Alemania 826.7 2.0236 0.3 92.5 Dinamarca 76.3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país..7 2. En situación de igualdad.5 30.1 Total 3230. Ejemplo 8.2 0.7 0. xi = yi ..0306 0.6 Portugal 27..1 0.3 0.5 2253. 7095 ∑ 2 i =1 2    127 .2 504.4 248.8 0. Relación Tema 8) Sabemos que en un año el PIB a precios de mercado de los siguientes países fue: PIB (u.0191 0.1337 0.5 0.1 0.4 43. A medida que aumenta la asociación entre las variables. i = 1.0329 Inglaterra 595 244.1 68.0512 0.1 3230.0075 0.0 301.0325 Grecia 42.0409 1 0.0127 Luxemburgo 4.3 0.8 544 0.0015 0.3 92.0132 0. 4.2089 0.2414 0.0759 Irlanda 24. 3.0085 1 0.1104 0.1842 0.2 Inglaterra 595.6 0.3 Luxemburgo 4.0045 España 216.0586 0.0669 0.1 68.0003 27.Sus propiedades son: 1.m.8 Francia 674.0453 165. En situación de desigualdad máxima ⇒ F = 0.0324 0.9 0.0 244.1454 Bélgica 104.5810  = 0.3 41.4 43.0323 0.0231 Italia 473 301.m.0012 0.8 544.

1710 -0.5892 IT = ITHEIL = i =1 xi ln xi -0.1192 -2.2041 1. (ejercicio 3.0000 N T = ln N + ∑ xi ln xi = 0.3265 0.3658 -0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: xi = Xi región Xi N ∑X i =1 R1 R2 R3 R4 suma 80 15 100 50 245 ln xi i 0.3655 -0. Solución: x = 61.2250 2.8961 -1.0833 -0.7932 -0.4082 0.6865 1 1 N 2.25 Región R1 R2 R3 R4 suma N N i =1 i =1 D = ∑ di fi = ∑ di 128 di = Xi 80 15 100 50 245 x −1 Xi -0.1152 ln N 2.2344 3. 6865 = ∑ di = = 0. 6716 4 4 i =1 4 .3875 0.EJERCICIOS RESUELTOS 1.3243 -1.0612 0.1597 -1. (ejercicio 4. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor.2266 T = 0.

3125 0.00638 0.2041 1.0000 Yi N ∑Y i =1 i 0.01403 0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 80 350 R1 15 70 R2 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. (ejercicio 5.0625 0.3265 0.01913 0.4018 0.0000 xi − yi 0.0612 0.4082 0.00128 0.97959 2 i =1 129 .3.0408 1 N ∑ xi − yi = 0. Solución: región Xi xi = Yi Xi ∑X i =1 R1 R2 R3 R4 suma F = 1− 80 15 100 50 245 350 70 450 250 1120 yi = N i 0.2232 1.

2 9. Coeficientes de especialización regional. 9. Coeficientes de diversificación.1 9.m.. Coeficientes de localización sectorial. i = 1.. j = 1... Medidas de localización espacial.4 9.1 (lo usaremos a lo largo de todo el tema) Sea Y = VAB al coste de los factores (u. Dispondremos de una tabla de doble entrada con las regiones por filas y los sectores por columnas: Región/Sector S1 S2 SL Yi i R1 Y11 Y12 Y1L Y1i R2 Y21 Y22 Y2 L Y2 i RN YN 1 YN 2 YNL YN i Yi j Yi1 Yi 2 Yi L Y siendo Yij → valor de la variable en la región i del sector j... Ejemplo 9. 9.) 130 .1 Introducción Las medidas de localización espacial son indicadores que miden la actividad de distintos sectores económicos en un conjunto de regiones en referencia a una variable económica.. Consideremos un conjunto de L sectores repartidos en N regiones. N .3 9.5 Introducción.9. L L Yi i = ∑ Yij → suma de los valores de todos los sectores en la región i j =1 N Yi j = ∑ Yij → suma de los valores de todas las regiones en el sector j i =1 N L N L i =1 j =1 i =1 j =1 Y = ∑ Yi i = ∑ Yi j = ∑∑ Yij → suma de los valores de todas las regiones y todos los sectores. Cocientes de localización y especialización..

8 Total (Reg) 2.5 613.9 R4 145.526.6 2.8 Total (Sect) 576.9 390.6 1.2 Cocientes de localización y especialización Yij Yi j → participación de la región i en el sector j (cocientes de los valores de la columna j sobre su total) Yi i → participación de la región i en la población (cocientes de los valores de la columna Y marginal sobre su total) Yij Yi i → participación del sector j en la región i (cocientes de los valores de la fila i sobre su total) Yi j Y → participación del sector j en la población (cocientes de los valores de la fila marginal sobre su total) Se define el cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) como: Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Interpretación de la primera igualdad: Es la relación que existe entre la participación del sector j en la región i y la participación del sector j en el total.497.935.2 4.Región/Sect Agricultura R1 282 R2 31 R3 117.6 Servicios 1. (Especialización de la región i) Si Lij < 100 : o existe una menor actividad del sector j en la región i que en toda la población ó o existe una menor participación de la región i en el sector j que en toda la población 131 . Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la región i en el sector j y la participación de la región i en el total.1   9.6 294.5 2.454.795.7 4.142.460.9 287.7 Industria 723.4 579 7.282.6 42. (Localización del sector j).

.282. 64 2.623 85.   9.460. 0 ≤ CL j ≤ 1 132 1 N Yij Yi i ∑ − .5 / 7.1 compárese con los anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en términos relativos.8 100 = 100 = 107. El coeficiente de localización del sector j-ésimo se define como: CL j = Propiedades 1.1 Y1i / Y El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está más especializada en servicios que en el conjunto de todas las actividades.740 13. L .878 R4 340. NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9.471 97.916 78. Por filas se interpreta los cocientes de especialización de cada región: La R1 está más especializada en agricultura. la industrial en la R4 y los servicios en la R3.. la R3 en servicios y la R4 en agricultura.088 Por columnas se interpreta los cocientes de localización Servicios 107. siempre en relación al patrón global o medio (véase ejercicio resuelto 1). la R2 en industria. 2 i =1 Yi j Y j = 1.370 179.9 / 4.1.423 de los respectivos sectores: la actividad agrícola está más asentada en la R4.3 Coeficientes de localización sectorial Para cada sector se puede definir una medida que permite conocer su localización en el conjunto de las regiones consideradas. Los cocientes de localización (o especialización) para estos datos son: Región/Sect Agricultura Industria R1 154.2 Con los datos del ejemplo 9.795.572 R3 38.. si sólo se encuentra localizado en una región o si ocurre alguna situación intermedia. L13 = Y13 / Yi3 1.454.Si Lij > 100 : o existe una mayor actividad del sector j en la región i que en toda la población ó o existe una mayor participación de la región i en el sector j que en toda la población Ejemplo 9. Se trata de conocer si un sector concreto se distribuye por igual en todas las regiones..091 R2 68.333 127.365 109.

022 0.5 613.024 0. El sector está presente en cada una de las regiones igual que todos los sectores en conjunto (véase ejercicio resuelto 1).583 0.352 2 1 CLInd = 0. 704 = 0.8 Industria Yi 2 Yi i Yi 2 − Yi 2 Y Yi 2 0. aunque no muy alta en la agricultura.6 2497.6 R2 31 294.340 0.133 1 0.6 R3 117.011 0. Este coeficiente caracteriza al sector i dentro del marco regional.054 0.489 0.9 1526. y eso ocurre en todas las regiones.327 0. pero no implica una nota definitoria en ninguna región en especial.704 Servicios 1454.100 0. CL j = 0 si la participación de la región i en el sector j es igual a la participación de la región i en el total. Es decir.052 0.9 287.1 Yi i Y 0.161 Total (Reg) 2460. la Y presencia del sector j en cada una de las regiones es completamente distinta de la presencia de todos los sectores en conjunto (véase ejemplo 9. La concentración es débil en servicios e industria. 0805 2 1 CLServ = 0. no existe concentración regional de la actividad j.179 0.253 1 0.246 0.520 0.059 0.2 4142.152 = 0.   133 .069 0.067 0.025 0.531 0.4).152 1 CLAg = 0.9 R4 145.173 0.079 0.316 0. 3.5 Total (Sect) 576.7 2935.4 579 7795.2. 076 2 Existe una cierta concentración.161 = 0. Ejemplo 9.6 Agricultura Yi1 Yi i Yi1 − Yi1 Y Yi1 0.6 42.012 0.064 0.074 1 Servicios Yi 3 Yi i Yi 3 − Yi 3 Y Yi3 0.204 0.7 4282.8 390.3 Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los ejemplos anteriores) Agricultura Industria R1 282 723. CL j = 1 si las diferencias entre los cocientes Yij Yi j y Yi i son altamente significativas.010 1 0.

4 Coeficientes de especialización regional Para cada región se puede definir una medida que permita conocer su nivel de especialización en algún sector.5 R3 1 0 S1 S2 R1 0.499 R3 0. en todas las actividades por igual o bien se da una situación intermedia. siempre en relación al patrón global o medio (véase ejercicio resuelto 1). 002 CL2 = 0.499 R2 0.4 Calcule los coeficientes de localización sectorial para los siguientes datos S1 S2 R1 0 1 R2 0 1 R3 1000 0 S1 S2 Yi i Yi i / Y R1 0 1 1 0.001 R3 1000 0 1000 0. Se trata de conocer si una región concreta está especializada en alguna actividad.998 Yi j 1000 2 Y=1002 Yij / Yi j S1 S2 R1 0 0.001 0.5 R2 0 0.002 0.998 9.001 0.001 R2 0 1 1 0.998 Yij Yi j − Yi i Y CL1 = 0.Ejemplo 9. Se define el coeficiente de especialización de la región i como: 134 .

5 2935.951 R1 R2 R3 R4 135 .5 613.083 0.252 0.008 0.8 Servicios Total (Reg) 2460.369 0.115 0.165 0.208 0.469 1 0.051 0.074 1 0.028 0.480 0.377 0.178 0.6 Industria Servicios 1454.6 294.. CEi = 1 cuando existe un alto grado de especialización de la región i.074 0.9 390. 3.1 0. Situación análoga a la de CL j = 1 pero referida a regiones en lugar de a sectores.549 1 0.9 R4 145.107 0.8 Total (Sect) 576. CEi = 0 si en la región i está presente cada sector en la misma proporción que en el conjunto de la población.603 1 0.. 0 ≤ CEi ≤ 1 2..080 0.042 0.674 0.046 0.591 1 0.7 Agricultura Yi j Y Y1 j Y1i Y1 j − Y1i Yi j Y Y2 j Y2 i Y2 j Y2 i − Yi j Y Y3 j Y3i Y3 j Y3i − Yi j Y Y4 j Y4 i Y4 j Y4 i − Yi j Y Industria 723.6 2497.6 1526.CEi = 1 L Yij Yi j ∑ − . N 2 j =1 Yi i Y Propiedades 1.2 4142.7 4282.104 0.5 Región/Sect Agricultura R1 282 R2 31 R3 117.023 0..298 0.6 42.4 579 7795. i = 1.054 0.294 0.9 287.041 0. Ejemplo 9.476 0.

.. L ) entonces = cte. 0535.. 4755 2 2 La región más especializada es la R4.. L 2 2 L∑ Yij L ∑ Yij j =1 y verifica i = 1. Yi 2 . el coeficiente de diversificación de la región i se define como: 2  L   ∑ Yij  Yi i2 j =1   = L CDi = .165 = 0. 0825. se define CDi* = 136 L  1  CDi −  . 2 L  L  1 L 1 L  S = 0 ⇒ ∑ Yij2 = 2  ∑ Yij  ⇒ L ∑ Yij2 =  ∑ Yij  L j =1 L  j =1  j =1  j =1  2 2 i Teniendo en cuenta esto.. YiL de la variable en los L sectores 1 L  1 L S = ∑ Yij2 −  ∑ Yij  L j =1  L j =1  2 2 i podría considerarse una medida de tal diversificación. alcanzando si la diversificación es mínima y 1 si la diversificación L L es máxima. 208 = 0.. La diversificación de una región será mínima cuando una sola actividad esté presente en ella.. El grado de diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye uniformemente entre los distintos sectores. Si una región tiene un bajo coeficiente de diversificación es porque su producción se concentra mucho en un determinado sector y por tanto dicha producción está poco diversificada. Para la región i-ésima. CER2 = 0. 2 2 1 1 CER3 = 0.. todos los sectores tienen el mismo valor (Y ij j = 1.951 = 0. L −1  L .107 = 0. la varianza correspondiente a los valores Yi1 ..1 1 CER1 = 0.. Si existe diversificación máxima. CER4 = 0.104. es decir.. Para normalizar este coeficiente entre cero y uno.   9..5 Coeficientes de diversificación Este coeficiente mide el grado de diversificación de las actividades de una región. N j =1 1 1 ≤ CDi ≤ 1 .

(ejercicio 4. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas. Químicas y Alimentación. 1.) datos REGION R1 R2 R3 S1 15 10 6 SECTOR S2 S3 165 30 110 20 66 12 S4 195 130 78 137 . justificando y apoyando los comentarios en los datos del enunciado. 735. Construcción. 6025.52 j =1 CDR1 =  3  = = 0. 6 1. 742 2 2 2 3 282 723. 61. CDR 4 = 0. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia. CDR* 3 = 0.460.9 + + 2 ( ) 3∑ Y1 j j =1 CDR 2 = 0. 666. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones Siderurgia I II III 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas.454. 499. CDR 3 = 0.6 2  3   ∑ Yij  2. 636 CDR*1 = 0. relación tema 9) En un país. CDR* 2 = 0. CDR* 4 = 0. dividido administrativamente en tres regiones. 454 La menos diversificada es la región R4.   EJERCICIOS RESUELTOS.Ejemplo 9.

4074 0.4839 0.6178 0.000 65.000 14.3226 0.0370 0.3226 0.1935 SECTOR S2 S3 0.0370 0. relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.00 100.000 90.00 100.000 18.4074 0.4815 0.00 100.6178 0.000 Cataluña 15.Participación de las regiones en cada sector y en la población total REGION R1 R2 R3 S1 0.0370 S4 0. (ejercicio 3.3226 0.000 Castilla La Mancha 3.00 S4 100.000 60.00 100.49 0.3226 0.49   2.4815 Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3 S1 100.00 100.00 100.00 S2 100.000 Castilla León 19.4074 0.49 0.4815 0.00 100.1935 0.4074 0.4839 0.00 100.6178 0.00 Coeficientes de localización sectorial SECTOR S2 S3 S1 CL j 0 0 S4 0 0 Coeficientes de especialización regional CEi REGION R1 R2 R3 0 0 0 Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3 0.00 S3 100. 138 .1935 Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población SECTOR S2 S3 0.4839 0.000 30.4839 0.000 a) Obtenga los coeficientes de localización de las distintas actividades.0741 0.1935 S4 población 0.0741 S1 0.000 8.4839 0.000 20.0741 0.0741 0.3226 0.1935 0.0370 0.4815 0.

6818 0.1619 R4 0..2128 0.0606 0.0638 0.. L 0.1404 R4 0.3468 0.2423 0.1335 0.4000 R3 0.1515 0.0046 0.3636 0.4043 0.0994 R3 0.3757 0.2423 0.1053 0.1040 0.6842 0. La suma de cada columna dividida por dos nos da Yi j Y el coeficiente de localización sectorial CL j = REGION R1 R2 R3 R4 CLj 1 N Yij Yi i ∑ − .1219 j = 1.0857 0.2131 0.0909 0.1061 0.1219 0.. 65000 20000 95000 18000 14000 35000 30000 8000 57000 60000 90000 165000 173000 132000 352000 Calculamos la participación de las regiones en cada sector población Yij Yi j y la participación en toda la Yi i en la siguiente tabla Y participación región SECTOR REGION S1 S2 S3 población R1 0.4688 suma 1 1 1 1 Calculamos la participación de los sectores en cada región población Yi j Y Yij Yi i y la participación en toda la en la siguiente tabla participación sector SECTOR REGION S1 S2 S3 suma R1 0.0356 0.3333 0.j S1 10000 3000 19000 15000 47000 SECTOR S2 S3 Yi.5143 0..0571 0.0066 0.1734 0.4915 0.2197 139 .5455 población 0.b) Calcule los coeficientes de especialización para cada comunidad.5263 0. Solución: Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.1184 0.0115 0.3750 1 1 1 1 1 A partir de la tabla de participación de las regiones calculamos las diferencias en valor Y Y absoluto ij − i i en la siguiente tabla.2105 R2 0.1496 0. datos REGION R1 R2 R3 R4 Y.1058 0.1013 0.2699 R2 0.3191 0. 2 i =1 Yi j Y Coeficientes de localización sectorial SECTOR S1 S2 S3 0.

( ∀j .0426 0. i = 1.192733 0.2857 1 S3 0 0 0 0 0 0 0 0 0 La participación de cada una de las regiones en el sector j. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial.0283 0.7143 0.2857 0..2857 1 1 1 R1 R2 suma Yij Yi j − Yi i Y R1 R2 CL j = Yi i Y 1 N Yij Yi i ∑ − 2 i =1 Yi j Y S1 S2 0.1998 0.7143 0./SEC. (ejercicio 5.A partir de la tabla de participación de los sectores calculamos las diferencias en valor Y Y absoluto ij − i j en la siguiente tabla.047808 0.1645 R2 0.0228 0.. N 2 j =1 Yi i Y Coeficientes de especialización regional SECTOR REGION S1 S2 S3 R1 0.170455   3. 140 ..1278 0..234649 0.1927 0. La suma de cada fila dividida por dos nos da el Yi i Y coeficiente de especialización regional CEi = 1 L Yij Yi j ∑ − .2346 R4 0. R1 R2 Yi j S1 15 6 S2 225 90 S3 195 78 21 315 273 Yi i 435 174 609 Yij Yi j S1 S2 S3 0.7143 0. Interprete los resultados Solución: REG. CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores.2857 0.0348 0.7143 0.1705 CEi 0.025 R3 0. Cada sector se localiza en igual medida que todos ellos en conjunto.0478 0.

5.1379 0.5172 0.4. Cada región se especializa en la misma medida que el conjunto del país. Interprete los resultados Solución: REG. (ejercicio 7.5172 0.3448 0.5172 0. ( ∀i ./SEC. (ejercicio 6. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados.1379 0.1379 0. CEi = 0 ) es igual a la presencia de cada sector en el conjunto del país (todas las regiones). Interprete los resultados Solución: REG. R1 R2 Yi j S1 60 24 S2 225 90 S3 150 60 84 315 210 Yi i 435 174 609 Yij Yi i S1 S2 S3 0.3448 Yi j Y R1 R2 1 CEi = S1 S2 0 0 S3 0 0 1 L Yij Yi j ∑ − 2 j =1 Yi i Y 0 0 0 0 La presencia de cada sector en la región i.3448 R1 R2 suma 1 1 Yi j Y Yij Yi i − 0./SEC. R1 R2 S1 90 36 S2 300 120 S3 195 78 Yi i2 Yi i 585 234 342225 54756 141 .

838016529 L  1  CDi −  L −1  L 0. 142 . (S1=agricultura). esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores. En la región sur (R2) el grado de diversificación es máximo.75702479 0. (ejercicio 8./SEC. R1 R2 2 ij Y R1 R2 S1 90 30 S2 0 30 0 30 90 90 L S1 S2 S3 ∑Y j =1 8100 900 0 900 0 900 Yi i2 Yi i S3 2 ij 8100 2700 CDi = 8100 8100 Yi i2 L L∑ Y j =1 2 ij CDi* = 0. CDi* = 0 . relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados.75702479 6. (S1=S2=S3=30). CDi* = 1 . está presente en ella. esto ocurre cuando una sola actividad.333333333 1 L  1  CDi −  L −1  L 0 1 En la región norte (R1) el grado de diversificación es mínimo.Yij2 R1 R2 L S1 S2 S3 ∑Y j =1 8100 1296 90000 14400 2 ij CDi = Yi i2 L L∑ Y j =1 38025 136125 6084 21780 2 ij CDi* = 0.838016529 0. Interprete los resultados Solución: REG.

10. ni=nº de observaciones en la clase i-ésima. Si existe una concordancia perfecta entre las frecuencias que se observan y las que se esperaban. . .1 Contraste χ 2 de bondad de ajuste. tampoco se rechaza 143 . . Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de probabilidad dada.1 Contrastes χ de bondad de ajuste. . Sk El contraste a realizar es: H0: X sigue una distribución de probabilidad conocida. Ei=npi=nº esperado de observaciones en la clase i-ésima bajo H0. . . Véase ejemplo 10. 10. S2. Sk nk pk npk ( nk − Ek ) n 1 n 2 ( nk − Ek ) 2 Ek χ2 Se puede demostrar que bajo H0. . χ 2 → χ k2−1 (NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado.. el estadístico tendrá un valor cero.. Contrastes χ2 de Pearson. . . .3 Contrastes χ 2 de homogeneidad. .2 Contrastes χ 2 de independencia. y no se puede rechazar H0. . . .3).. . . 2 10. 10. Definimos el estadístico: k χ =∑ 2 i =1 ( n − Ei ) i 2 Ei Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla como sigue: ni pi = P [ x ∈ Si ] bajo H 0 Ei = npi ( ni − Ei ) 2 ( ni − Ei ) 2 Ei S1 n1 p1 np1 ( n1 − E1 ) 2 ( n1 − E1 ) 2 E1 .10. Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X dividida en k clases exhaustivas y mutuamente excluyentes: S1. . .

H0: p1 = p2 = p3 = p4 = p5 = pi bajo H 0 1/5 1/5 1/5 1/5 1/5 1 Ei = npi ( ni − Ei ) 40 40 40 40 40 200 81 25 64 1 25 2 ( ni − Ei ) 2 Ei 2. Solución ni L M X J V 144 49 35 32 39 45 200 1 (distribución discreta uniforme) 5 H1: las frecuencias no son todas iguales.9 .025 0. si el estadístico toma un valor grande es que hay discrepancia entre unas y otras frecuencias y habrá que rechazar H0.6 0. rechazamos H0 si χ 2 > χ k2−1. se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico.625 1.025 0. ( α = 0.625 χ 2 = 4. Fijado un nivel de significación α .1 (ejercicio 1. relación tema 10) ▼ El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?.si las diferencias son pequeñas.05 ).1−α Ejemplo 10.1−α Acepto H0 Rechazo H0 1−α α χ k2−1. Por otro lado. En base a una muestra aleatoria de cuatro semanas completas de trabajo.

Con el fin de confirmar este hecho. Si los valores Ei son pequeños.24 2.47<5 0.2 (ejercicio 2.9) En las tablas de la Poisson se buscan las probabilidades pi = P [ X = i ] i = 0.67<5 ≅ 50 Se agrupan la segunda.1647 0.33 18..0134 1 Ei = npi 20. H0: X → P (0.χ k2−1. Ejemplo 10.2 0'95 = 9. pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la distribución del estadístico.1−α = χ 4. ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0. χ 2 puede hacerse grande sin razón. ▄ Condición de validez del test.9<9.3 8. Este contraste es apropiado siempre que Ei > 5 ∀i ..4066 0. obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información. se ha controlado el número de llegadas diarias al mismo. Si esto no ocurre tendríamos que combinar clases vecinas. tercera y cuarta clase 145 .49) no existe razón para creer que el número de empleados que acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana. relación tema 10) ▼ En un cajero automático se ha observado una baja utilización del mismo. 05 ) Solución X=nº de llegadas al cajero/día. 49 (4.0494 0..9? ( α = 0.3659 0..3 ni X =0 X =1 X =2 X =3 X ≥4 pi 21 18 7 3 1 50 p4 = P [ X ≥ 4] bajo H 0 0.

004918 0.9535 4. 2.2450 0.9005<5 6. 1. 0. 3. relación tema 10) ▼ Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3.e. 7 personas / día = λ 27 ni X X X X X X 146 =0 =1 =2 =3 =4 ≥5 pi bajo H 0 H0: X → P (2. luego acepto H0. 1. 2. sin suponer que los parámetros de dicha distribución son conocidos. Poisson o Normal). Binomial. 5.99 .1815 0. 1. 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? Solución X= personas que requieren diariamente información X= 73 = 2.0176<5 3.2275 20. 5. 4. 5. 0'95 = 5.3 (ejercicio 8. 2. 3. 2.9. 4. 2.33 18.1444 21 18 11 0. 3. ▄ Hasta ahora se ha contrastado la hipótesis de que los datos están generados por una distribución completamente conocida.09 0. pero en el contraste los grados de libertad de la chi-cuadrado se reducirán en una unidad por cada parámetro de la distribución que tenga que ser estimado.699<5 27 1 27 . 0. 3. 3. 3. En tales circunstancias. 7) Ei = npi 2 4 5 8 5 3 0. Ejemplo 10.0672 0. 4.02208 0.615 5. 0397 χ 32−1.1488 0. Sin embargo.012689 χ 2 = 0. Esta conclusión nos permite afirmar que el cajero es muy poco utilizado ya que el nº medio de llegadas esperadas por día es menor de 1. 3.4066 0.38 50 1 ≅ 50 2 ( ni − Ei ) 2 Ei 0.1370 1. No podemos rechazar que los datos provengan de una distribución de Poisson de parámetro 0. 4.4489 0. a veces sucede que queremos contrastar la hipótesis de que los datos están generados por alguna distribución (p.pi ni X =0 X =1 X ≥2 bajo H 0 Ei = npi ( ni − Ei ) 0.2205 0.8144<5 4. 4. los datos de que disponemos pueden utilizarse para estimar los parámetros desconocidos.3 11.3659 0.

(1.3943 0.7149 6.4 (ejercicio 9. clasificadas por tipo de producto reclamado (A.1843 χ 42−1−1. .0104 27 1 27 χ 2 = 1.2450 0. . ▄ 10.0761 0. nij = nº de elementos de la muestra que pertenecen a la categoría Ai de X y B j de Y. n• c n . Con este contraste se desea estudiar si dos características (variables aleatorias) X e Y son independientes. 0'95 = χ 2. n1c n1• A2 n21 n22 .2 0'95 = 5.7035 0.2858 6.99 . las frecuencias absolutas de las parejas de datos muestrales se recogen en una tabla de doble entrada denominada tabla de contingencia X\Y B1 B2 . j =1 r n• j = ∑ n ij = nº de elementos que pertenecen a la categoría B j de Y.2 Contraste χ 2 de independencia. C) y por la edad del reclamante 147 .99) luego acepto H0. n2c n2• .18<5.ni X ≤1 X =2 X =3 X ≥4 pi bajo H 0 Ei = npi ( ni − Ei ) 2 Ei 6 5 8 8 0.615 5. B.7166 0. El contraste a realizar es: H0 : X e Y son independientes. Ejemplo 10.2205 0.2487 0. nrc nr • n• j n•1 n•2 . Para ello. . c ni• = ∑ n ij = nº de elementos que pertenecen a la categoría Ai de X.9535 7. Bc ni• A1 n11 n12 . i =1 n = nº de elementos en la muestra. H1 : X e Y no son independientes. . Ar nr1 nr 2 . relación tema 10) ▼ La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor.

5%) B 56/167=0. Claramente. H1 : No son independientes (están asociados).335 (33. la hipótesis de independencia será rechazada cuando las diferencias entre lo observado y lo esperado sean grandes y por tanto el estadístico χ 2 tome valores grandes de acuerdo a la distribución que sigue.4) En la siguiente tabla se ha colocado entre paréntesis Eij 148 ▼ . bajo la hipótesis de independencia esas 125 observaciones se tienen que distribuir por filas proporcionalmente al total de cada fila A 36/167=0.14 n 167 ▄ El estadístico para estos contrastes se define como: χ 2 (n = ∑ ∑ r c i =1 j =1 que tiene una distribución χ 2 → χ (2r −1)( c −1) ij − Eij ) 2 Eij bajo H 0 .449 (44. Si H0 fuera cierto: Eij = nº esperado de observaciones en la fila i.1−α Solución (ejemplo 10.95 167 n B 125× 0. columna j = ni• n• j n Razonemos con el ejemplo: En la columna 2 (>30) hay un total de n•2 = 125 observaciones.449=125 n 75 = n•2 3• =56.9%) Luego esperaríamos para los mayores de 30 años A 125× 0.215=125 36 n = n•2 1• =26.92 167 n C 125 × 0. Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1).335=125 56 n = n•2 2• =41.5%) C 75/167=0.≤ 30 8 12 22 42 A B C > 30 28 44 53 125 36 56 75 167 El contraste a realizar es: H0 : Tipo de producto y edad son independientes (no están asociados).215 (21.

Ejemplo 10.99 .1756 1.1−0.95 = 5. En todo caso los grados de libertad tienen que ser mayores que 1. ∀j Si esto no ocurre.86) 42 − Eij ) 28 (26.5 (ejercicio 10.05 = χ 2.5228 0. 05) Sueldo\Antigüedad <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 n• j 17 16 4 9 6 52 5 8 11 8 3 35 10 9 5 8 4 36 6 7 2 6 6 27 ni• 38 40 22 31 19 150 149 .1218 0. 05) 9.14 = 1.3073 0.08) 22 (18. Los resultados aparecen en la siguiente tabla.14) 75 125 167 2 Eij A B C ≤ 30 > 30 0. bien sean de las variables X o de Y.2 0. Al agrupar las clases disminuye los grados de libertad. luego acepto H0.nij ( Eij ) ≤ 30 A B C (n ij > 30 8 (9. no hay evidencia empírica para rechazar la hipótesis de independencia.92) 56 53 (56. + ( 53 − 56. 27 χ (32 −1)(2−1)..27<5. ▄ Condición de validez del test: Al igual que en el anterior test de la chi-cuadrado.14 ) 2 56.05) 12 (14.1032 0. 05 2 + . el contraste es válido siempre que los valores esperados sean mayores que 5. Eij = ni• n• j n > 5 ∀i. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0.95) 36 44 (41. agruparemos dos o más clases consecutivas..0409 0.99 1. relación tema 10) ▼ Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad.27 χ2 = (8 − 9.

▄ 10..17 13.627 10.05 = χ 6. .17) 16 (13.28 7.627) 15 (17. nr1 nr 2 .433 9. sino muestras independientes de c poblaciones. n2c n2• . n2 .Solución Eij = ni• n• j n 0-500 500-1000 1000-2000 2000-3000 >3000 <5 años 5-10 10-20 >20 años 13.44 4.17 ) χ = 2 2 13.75 6.58 3. Bc diferentes. Ar La tabla ahora no expresa el resultado de observaciones clasificadas según 2 variables. + 21 2 = 13. En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal que una tabla de contingencia pero en las que la situación es diferente.24) 24 (21) ij 0-500 500-1000 1000-2000 >2000 (17 − 13.2 0.587 8..17 ( 24 − 21) + .. Los datos se expresan en una tabla como la que sigue: CATEGORIAS POBLACIONES B1 B2 . Supongamos que se toman c muestras aleatorias independientes de tamaños n1 . de poblaciones B1 . .56 6.8) 7 (9..87) 4 (7.84 7.87) 16 (15.. Bc A1 n11 n12 .96) 16 (16. .33) 5 (8. nrc nr • n1 n2 .333 5.96 5.333) 11 (5. nc .133 7.3 Contrastes χ 2 de homogeneidad.12 9. . nij (E ) <5 años 5-10 >10 años 17 (13.233 4.2 3. .6 5. Después cada una de las muestras se clasifica de acuerdo a una característica A con r categorías.133) 11 (11.95 = 12. n1c n1• A2 n21 n22 ..87 7.867) 8 (9.. respectivamente.867 9. 150 . nc n . .1−0.42 Agrupamos las dos últimas filas y las dos últimas columnas.59 Luego existen razones para pensar que sueldos y años de antigüedad no son independientes.10 χ (42 −1)(3−1)..

5 2 ( 225 − 240 ) + . media o alta.01 = χ 2.6 (ejercicio 11. Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1). obteniéndose: Universidad A Universidad B 140 BAJA 105 135 MEDIA 140 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0.1−0.5) 135 (137.1−0. + 245 275 480 1000 2 240 = 6.1−α Ejemplo 10.99 = 9.95 = 5. (NOTA: Sin embargo al 5% se rechazaría la hipótesis nula de que la distribución de las notas es la misma en las dos universidades. relación tema 10) ▼ A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja. si todas están igualmente distribuidas respecto a las categorías de A.El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones.. o lo que es lo mismo.5) 225 (240) 500 (105 − 122. es decir.5) 140 (137.2 0..5) 255 (240) 500 140 (122.99 ) ▄ 151 .966 χ (32 −1)(2−1). χ (32 −1)(2−1).5 ) χ = 2 122. 01 ) Solución nij (E ) ij BAJA MEDIA ALTA Universidad A Universidad B 105 (122.05 = χ 2.2 0. si las c muestras proceden de la misma población. H0 : Las c poblaciones son homogéneas (se distribuyen igual) El estadístico muestral es: χ 2 (n = ∑ ∑ r c i =1 j =1 que tiene una distribución χ 2 → χ (2r −1)( c −1) ij − Eij ) 2 Eij bajo H 0 . 21 Luego la distribución de notas es la misma en las dos universidades.

4834 181.14936 0.3 91830.744792 0.2902 341. Solución CLASES 0 1 2 3 4 5 6 7 8 9 10 11 ó más 152 ( ni − Ei ) 2 pi Ei = npi 832 203 383 525 532 408 273 139 45 27 10 11 0.00081 0.9178248 61.1913 3388 1 3388 χ2 = ni ( ni − Ei ) 2 Ei 2608.7871 73.22404 0.0358 759.3 54781.67 141416.00029 168.15866 3350.369 308.1725646 59.11 1390.63804 100.22404 0.1702726 2.44262314 12.0216 0.470719 186.6472 52.5741 170.561 4412. ∀j .8274703 19.19446 27.05041 0.10082 0.04979 0.149307 2.51361 .990438 439995.2239988 34. (ejercicio 3.16803 0.44792 9.0081 0.0027 0.0754 318. en caso contrario se agrupan dos o más clases de la variable A pero nunca dos o más muestras B j .395 10447. relación tema 10) La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0.1774227 101.1625291 11.0536 569.6786 506.Al igual que en los anteriores contrastes de la chi-cuadrado.306125 72. este test es válido si Eij = ni• n• j n > 5 ∀i.0536 759.48 4330. EJERCICIOS RESUELTOS 1.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3.

19446 27.14936 0. 2.88454 439995.2558 25.( x = 2.703534 3291. (ejercicio 12.561 4412.67 141416.11844311 0.0.35825619 0.95 = 16.1858 18.1929 19.1725646 59.48 4330.44792 12.0754 1233.00089661 0.10082 0. relación tema 10) Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. 3291.0334 3.6786 506. lo he calculado para confirmar que la hipótesis nula es lógica) Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5.05359>16.5741 170.7225 0.99 .395 10447.9178248 61.05359 2 χ 9.1702726 2.0196 0.7871 73.0216 0.0756 2.22404 0.58 6.6564 0.306125 72.00381539 153 .4.1 ) Solución Contraste chi-2 de Pearson de bondad de ajuste CLASES 0 1 2 3 4 5 o más Ei = npi ( ni − Ei ) 2 ( ni − Ei ) 2 ni pi 6 13 20 22 16 23 0. ( α = 0.2902 341.86 0.1135 11.0536 569.1625291 11.44262314 12.096 3388 1 3388 χ2 = ni ( ni − Ei ) 2 Ei 2608.22404 0.0536 759.6564 0.34 7.23986784 0.29 0.92 luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson de media 3.02613271 0.92 .3 54781.26021892 100 1 100 χ 2 Ei = 3.4834 181.2186 21.3 91830.58 6.11 1390. CLASES 0 1 2 3 4 5 6 7 8 9 ó más ( ni − Ei ) 2 pi Ei = npi 832 203 383 525 532 408 273 139 45 48 0.05041 0.0038 168.470719 186.369 308.04979 0.35 2. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3.16803 0.5041 0.0081 0.0358 759.2239988 95.

5761 1.58 6.Como la frecuencia esperada es menor que 5 en la primera clase.5041 0.26021892 100 Buscamos en las tablas χ ( ni − Ei ) Ei = npi 2 2 k −1.78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3.500€) Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%.29 0.1−α 1 =χ 2 4. X\Y B1 A1 A2 A3 n.1929 19.86 0.91<7.000€) 16 36 82 20 34 Medios (1.2558 25. 0'90 χ 100 2 Ei = 1.1469 14.j B2 36 64 50 150 B3 B4 16 34 50 100 14 20 16 50 ni.6564 0. le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15 Más de 15 Salarios años años años años 34 14 Bajos (<1.2186 21. obteniéndose CLASES 1 o menos 2 3 4 5 o más ( ni − Ei ) 2 ni pi 19 20 22 16 23 0.6564 0.02613271 0.2645405 0. 78 .0196 0.4. se agrupa ésta con la clase contigua.00089661 0. Para ello seleccionan una muestra aleatoria de 500 trabajadores. 34 82 84 200 100 200 200 500 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = X\Y A1 A2 A3 154 B1 ni• n• j n B2 30 60 60 B3 20 40 40 B4 10 20 20 40 80 80 .500€) 64 84 16 50 50 Altos (>1.000€. 3. relación tema 10) El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa.69 18.91004494 = 7.1858 18. Como 1.35825619 0. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. 1. (ejercicio 13.58 6.

9 0 0.267 0.j B1 12 27 103 142 B2 B3 8 52 63 123 ni. resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar. se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. 4. (ejercicio 14. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año. pero no sabe si utilizar cajas de cartón. χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 10. X\Y A1 A2 A3 n. Para decidirse y utilizando información de otras empresas exportadoras.667 2. selecciona aleatoriamente las fichas informativas de 142 cajas de cartón. 123 cajas de madera y 128 de plástico. 0.8 1.1−α .2 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado. al nivel de significación del 5%. relación tema 10) Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior. obteniéndose: B1 B2 B3 B4 1.Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) 2 Eij X\Y A1 A2 A3 para cada elemento de la tabla. si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. 6 65 57 128 26 144 223 393 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de n n independencia según la conocida expresión Eij = i• • j n 155 .90 = 10. Como χ > χ ( r −1)( c −1).5 0.8 0.6 0.8833 .2 0. madera o plástico.05 1. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. que hay que compararlo con el valor 2 2 2 χ (2r −1)( c −1). 6 .9 0.1−α = χ 2*3 .

364 A1 A2 A3 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado.3626 0.1374 45.58 A1 A2 A3 B2 8. relación tema 10) En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días.4682 46.241 0.5488 0.6613 3. 0.3293 0. que hay que compararlo con el valor 2 2 2 χ (2r −1)( c −1).0988 0.4365 5.066 6.5684 0.7194 12.0152 0.6561 2. se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos.03 80.794 B3 8. 646 .901 72. 49 . nos quedamos con un solo decimal para estimar λ = 0.3455 42. CLASES 0 1 2 3 4 ó más 156 ( ni − Ei ) 2 ( ni − Ei ) 2 pi Ei = npi 69 42 15 4 0 0.0494 0. 6 y buscar las probabilidades pi bajo la hipótesis nula en las tablas de la distribución de Poisson.0023 0. 5.394 52.4365 130 1 130 χ2 = 1. utilizando un nivel de significación del 1%.8422 2.1906 0.8073 12. obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4 Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson.7979 0.0034 71. Solución x = 0.95 = 9.9846 6.0198 0.04 1. χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) Eij 2 = 31.1−α = χ 2*2 .5014 0.1−α .723 0. Como χ > χ ( r −1)( c −1).069 69. (ejercicio 15.6517 4.6894 ni Ei .631 Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) 2 Eij para cada elemento de la tabla.8 .X\Y B1 9. obteniéndose: X\Y B1 B2 B3 0.0771 0.

175 12. CLASES 0 1 2 ó más χ 2 1.150 14.72<6.400 15.275 14.0152 0.763 27.5014 0.625 17.641 0. Solución Edad \ Ausencias 16-25 25-40 40-55 55-65 0-5 20 10 9 15 5-10 9 22 20 14 Más de 10 30 31 25 35 n• j 54 65 121 Eij = ni• n• j n 16-25 25-40 40-55 55-65 (n ij − Eij ) Eij 16-25 25-40 40-55 55-65 0-5 5-10 Más de 10 13.3455 42.025 3.8472 5.63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson.225 32.975 0.182 0.002 0.048 1.9403 0.267 0-5 5-10 Más de 10 3.230 0.5488 0.6273 130 1 130 χ2 = 0.817 0.6517 9.0. (ejercicio 16. 0.Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 6.018 0.7196 ni Ei = 6.333 29. relación tema 10) La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: Ausencias 0-5 5-10 Más de 10 Edad 30 20 9 16-25 31 10 22 25-40 25 20 40-55 9 35 14 55-65 15 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%.3293 0.99 ( ni − Ei ) 2 ( ni − Ei ) 2 pi Ei = npi 69 42 19 0.407 1. 63 .232 ni• 59 63 54 64 240 2 157 .746 31.0771 0.429 1.063 14.1219 71.8073 15.979 17.

2 0. 006) < ( χ (2r −1)( c −1). Sin embargo ( χ 2 = 13. asintótica (bilateral) . nij hombres mujeres n• j 158 monovolumen deportivo todo terreno ni• 250 80 275 75 225 95 750 250 330 350 320 1000 .81 = 13.0%) tienen una frecuencia esperada inferior a 5. 006) > ( χ 6. ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) Tabla de contingencia SEXO * VEHICULO VEHICULO SEXO HOMBRE Recuento MUJER Frecuencia esperada Recuento MONOVOLUMEN 250 DEPORTIVO 275 247.1−α = 16.00.0 1000. La frecuencia mínima esperada es 80.59) .0 Frecuencia esperada Recuento Total Frecuencia esperada Pruebas de chi-cuadrado Chi-cuadrado de Pearson Total TODO TERRENO 225 Valor 6.0 250. se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%.5 240.0 750. 0.5 87.044 a 0 casillas (. obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? b) En general.232(a) gl 2 750 Sig. 006 Como ( χ 2 = 13. se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%.95 = 12.1−α = χ 22×3 .0 350.5 262.0 80 75 95 250 82.χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) 2 Eij χ (2r −1)( c −1).0 330 350 320 1000 330. relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos.81) .99 = 16. (Ejercicio 17. (Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de significación) 7.0 320.5 80. sin distinguir entre hombre y mujeres.

.99 χ (32 −1)(2−1). b) VEHICULO MONOVOLUMEN N observado 330 N esperado 333. 21 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta es misma hipótesis nula con un nivel de significación del 1%.4% y se rechaza para niveles de significación mayores al 4.33333 333.3333 350 0.076 (n = ∑ ∑ r 262.938 2. La frecuencia de casilla esperada mínima es 333. el 62% de los estudiantes de último curso dejan de estudiar.0%) tienen frecuencias esperadas menores que 5.2 0. ni monovolumen deportivo Todo terreno 330 0.595 1.83333333 0.400 gl 2 Sig.01 = χ 2.95 = 5.11111 277.7778 χ2 = ( ni − Ei ) 2 Ei 0. (Ejercicio 18. el 37% pasan a formación profesional y el 159 .4%. 8.3 DEPORTIVO TODO TERRENO Total 1000 Estadísticos de contraste Chi-cuadrado(a) VEHICULO 1. 0'90 Ei = npi pi 1 1000 ( ni − Ei ) 2 11.3 16.7%.3333 320 0.025 0.05 = χ 2.33333 333. 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo.3.5 monovolumen deportivo hombres mujeres χ 0.1−0.5 240 80 2 Eij 2 todo terreno c ij i =1 j =1 − Eij ) todo terreno 0.1−α =χ 2 2.5 82.813 2 Eij = 6.7 320 333.5 87.233 (la diferencia con SPSS es debida a redondeos) χ (32 −1)(2−1).1−0.3 Residual -3. relación tema 10) Se sabe que en un centro de Enseñanza Primaria.3 350 333.3 -13.7778 177. asintót.3333 1000 χ 2 k −1.4 = 4.497 a 0 casillas (.99 = 9. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 49.2 0.03333333 0.Eij = ni• n• j monovolumen deportivo n hombres mujeres (n ij − Eij ) 247.53333333 1.786 0.33333 333. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 4.

de dos a cuatro y más de cuatro horas.8 80 Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5. 05 ) Solución: ni CLASES LO DEJAN FP ESO Ei = npi pi 54 17 9 80 0. (Ejercicio 23.6 29. 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. 54 dejaron de estudiar. Solución: X\Y Menos de 2 horas De 2 a 4 horas Más de 4 horas ni i Hombre Mujer ni j 18 17 10 13 2 8 30 38 35 23 10 n=68 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = ni• n• j n Menos de 2 horas De 2 a 4 horas Más de 4 horas X\Y Hombre 4. 1.6 30. cuántos de ellos ven la televisión menos de dos horas. 160 . Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado.02716469 = 3. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0.36 80 1 80 χ2 = ( ni − Ei ) 2 Ei 0.027<3.6 0.01 1 49.4 19.84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% respectivamente.0. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres.36 19.62 0. relación tema 10) La siguiente tabla muestra. CLASES LO DEJAN FP-ESO χ 2 1.37 0. para muestras independientes de hombres y mujeres.38 49.4118 15.5588 12.5882 Juntamos las clases de 2 a 4 horas y más de 4 horas para que todas las frecuencias esperadas sean mayores que 5.1% pasan a enseñanza secundaria.62 0.8529 5. 9.4412 10.63684211 1.1471 Mujer 19.84 .39032258 0. De ellos.95 ni Ei = npi pi ( ni − Ei ) 2 54 26 0.

424034 0.84 .5588 n=68 Más de 2 horas 14.Frecuencias observadas Menos de 2 horas Más de 2 horas ni i Hombre Mujer ni j 18 17 12 21 30 38 35 33 Frecuencias esperadas Menos de 2 horas Hombre Mujer 15.95 = χ1.449733 0.4412 Con las frecuencias observadas nij y las frecuencias esperadas Eij de las anteriores tablas se (n calcula ij − Eij ) 2 para cada elemento de la tabla.95 = 3. 0. obteniéndose: Eij (n − Eij ) ij 2 Menos de 2 horas Eij Hombre Mujer 0.1−α = χ12×1. se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión.1−α . que hay que compararlo con el valor χ (2r −1)( c −1). 161 . Como χ 2 < χ (2r −1)( c −1).563581681 .4412 19.334763 Más de 2 horas 0.5588 18.2 0.355052 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado. χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 1.

11. Para la realización de tests no paramétricos se utilizan estadísticos cuya distribución se puede obtener para cualquiera que sea la distribución de la población que se desea estudiar.11. Los métodos estadísticos de inferencia que no requieren el conocimiento de la distribución de la variable. los métodos que son válidos cualquiera que sea la distribución que sigue la población. • El test K-S es conveniente usarlo con muestras pequeñas (detecta mejor las desviaciones de la distribución normal). la aleatoriedad de la muestra. Test de los signos. Se calcula la función de distribución real bajo H 0 : F0 ( x) = P [ X ≤ x ] 3.4 11. Test de Wilcoxon de los signos-rangos. Es un test no paramétrico mediante el cual se contrasta la hipótesis nula de que los datos observados en una muestra proceden de una población con una distribución de probabilidad.. 11. Suponemos que tenemos una muestra de tamaño n. sin embargo. Se ordenan los valores de la muestra de menor a mayor. Evidentemente. es decir.1 11. e incluso. Contraste de Kolmogorov-Smirnov para 2 muestras. con distribuciones discretas. Se calcula la función de distribución empírica o muestral.3 11. Fn ( x ) = 162 nº observaciones ≤ x n . si no se conoce la distribución tampoco se pueden realizar inferencias sobre los parámetros. Contraste de Mann-Whitney. puede emplearse también. en muestras pequeñas no es posible aplicar el test χ 2 pues no se verifican las condiciones de validez ( Ei > 5 ).5 11. Inferencia no paramétrica. 1. las hipótesis se refieren a la posible forma de la distribución.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste.6 Contraste de Kolmogorov-Smirnov de bondad de ajuste.. se conocen con el nombre de no paramétricos. F(x). El test χ 2 se comporta mejor con muestras grandes. 2. dada de antemano (se corresponde con el test de ajuste de la χ 2 ) H 0 : X → F ( x) (conocida ) • El test K-S presupone que las distribuciones sean continuas.2 11. . Test de las rachas.

25) Muestra ordenada 12 ni Ni F0 ( x) = P [ X ≤ x ] Fn ( x) F0 ( x) − Fn ( x) 2 2 0. 17.0525 17 1 9 0.7475 0.6 0.3 0.5 0.077 18 1 10 0.2525 3/10=0. 13. 163 . 18. 15.14 que denotaremos Dα . 2525 2. σ 2 = 2. Solución H 0 : F ( x) = N ( µ = 14. 15.0475 14 3 6 0. 0912 2.4. 25   .3 = 0.. Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy conservativos cuando para ajustar una distribución normal haya que estimar la media y la varianza a partir de los valores muestrales. contraste la hipótesis de que los siguientes valores muestrales 12.0912 2/10=0. relación tema 11) ▼ Con un nivel de significación del 5%. 14. 6  = 0.1 15 2 8 0.977 0. 25    13 − 14  F0 (13) = P [ X ≤ 13] = P  Z ≤  = P  Z ≤ −0. proceden de una distribución normal de media 14 y varianza 2. 14.9 0. σ 2 = 2. 25) H1 : F ( x) ≠ N ( µ = 14. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se obtiene un valor crítico en la tabla A.1088 13 1 3 0.9962 1 0. 12. Se rechaza H 0 si Dexp > Dα .1.0038 n = 10  12 − 14  F0 (12) = P [ X ≤ 12] = P  Z ≤  = P  Z ≤ −1. 14.25.2 0. (ejercicio 7. Se calcula el estadístico experimental Dexp = max F0 ( x ) − Fn ( x ) 5..8 0. Ejemplo 11.

(bilateral) . 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0. Aunque en la práctica sólo se calcula F0 ( xi ) − Fn ( xi ) .9 0.7 0.3 0. (D exp = 0.4 0.1 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de distribución muestral y bajo H 0 .6 0. 25   Para n=10 y α = 0.409.8 0.1088 ) < ( Dα = 0.3=0.632 Sig.1088 Negativa -.9962 2.5 Z de Kolmogorov-Smirnov . 6  = 0. en distribuciones continuas habría que hallar también las diferencias F0 ( xi +1 ) − Fn ( xi ) para encontrar la máxima diferencia entre ambas funciones de distribución. b Especificado por el usuario 164 14 Parámetros normales(a.819 a La distribución de contraste es la Normal. ▄ 1 0.5-0.2 0.5 0.b) 23 . 18 − 14  F0 (18) = P [ X ≤ 18] = P  Z ≤  = P  Z ≤ 2.200 Positiva . Prueba de Kolmogorov-Smirnov para una muestra ejercicio11_7 10 N Media Desviación típica Diferencias más extremas Absoluta .2 0.200 1. 409 ) luego no existen motivos para rechazar la hipótesis nula. asintót.

36 0.55 0. mediana). relación tema 11) ▼ Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales X ni 0.06 0.64 0.2 (ejercicio 8.7225 0.2 Contraste de Kolmogorov-Smirnov para 2 muestras.1625 0.6 0. ▄ 11.88 1 2 3 1 2 1 4 2 5 2 5 6 8 9 13 15 20 2/20 5/20 6/20 8/20 9/20 13/20 15/20 1 0.45 2 0.7744 1 0. 294 ) luego acepto la hipótesis nula.85 2 0.45 0.0244 0 n = 20 Para n=20 y α = 0. 2025 0.0525 0.8 4 0. 05 Dα =0.6 2 0.75 1 0. Este test de homogeneidad de K-S es el test más potente para comparar dos muestras independientes desde el punto de vista de si proceden de una misma población.0725 0.55 3 1 0. en la asimetría y en el exceso.19 0.19 ) < ( Dα = 0. Detecta todo tipo de diferencias en las distribuciones.85 0.88 1 5 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1 x≤0   0 ≤ x ≤ 1 x ≥ 1  Solución X ni Ni Fn ( x) F0 ( x) Fn ( x) − F0 ( x) 0.5625 0.8 0. El contraste se basa en el estudio de las diferencias entre las funciones de distribución empíricas o muestrales de cada muestra. en la dispersión. Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma población o no.294.1025 0. 165 . en particular diferencias en la tendencia central (media. esto es.Ejemplo 11. 45 = 0.3025 0. (D exp 2 = 0. diferencias en las funciones de distribución.75 0.

Dadas dos muestras aleatorias e independientes. 2. (Tablas A.19) Ejemplo 11. Se rechaza H 0 si Dexp > Dα . Muestra 1 Muestra 2 2 2 4 4 2 5 3 3 5 5 6 4 7 7 8 6 9 5 3 3 Solución En primer lugar se ordenan de menor a mayor todas las observaciones muestrales.3 (ejercicio 9. de tamaños n y m. 3.18 y A. En cualquier caso el estadístico experimental es: Dexp = max Fn1 ( x) − Fm2 ( x) 4. se obtiene el valor crítico Dα . 166 . Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor. Si Fn1 ( x) < Fm2 ( x) . respectivamente. se plantea el test unilateral (2) Si las diferencias unas veces son positivas y otras negativas. relación tema 11) ▼ Con nivel de significación de 5%. se plantea el test bilateral. distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. ∀x . cuyas funciones de distribución muestrales se designan por Fn1 ( x) y Fm2 ( x) . Las diferencias unas veces son positivas y otras negativas lo que invita a hacer un test bilateral. Se construyen las dos funciones de distribución empíricas. Se calcula cada una de las dos funciones empíricas (o funciones de distribución muestrales). Se calcula la diferencia entre las dos funciones de distribución muestrales. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra. se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  Pasos: 1. ∀x . se plantea el test unilateral (1) Si Fn1 ( x) > Fm2 ( x) . contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población.

10 Dexp < Dα .Dexp Muestras ordenadas 2 3 4 5 6 7 8 9 = 2 /10 = 0. acepto la hipótesis nula de que las dos muestras se han obtenido de la misma población. siendo evaluada posteriormente. ▄ Ejemplo 11. n=m=10. Dα = 6 = 0. 6 . mediante un test que valora en una escala de 0 a 100. la mejora que se produce en el rendimiento de cada trabajador. 2 F101 ( x) F102 ( x) F101 ( x) − F102 ( x) F101 ( x) − F102 ( x) 2/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 1/10 3/10 5/10 8/10 9/10 10/10 10/10 10/10 1/10 1/10 0 -2/10 -2/10 -2/10 -1/10 0 1/10 1/10 0 2/10 2/10 2/10 1/10 0 α = 0. si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar. utilizando el test de Kolmogorov-Smirnov. ( α = 0. 05 . relación tema 11) ▼ Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento.05 ) Solución Puntuación F161 ( x) F162 ( x) F161 ( x) − F162 ( x) = F161 ( x) − F162 ( x) 14 15 25 35 45 47 50 54 56 57 62 63 65 66 1/16 2/16 3/16 4/16 5/16 6/16 7/16 7/16 8/16 9/16 9/16 10/16 11/16 12/16 0 0 0 0 0 0 0 1/16 3/16 3/16 4/16 4/16 4/16 4/16 1/16 2/16 3/16 4/16 5/16 6/16 7/16 6/16 5/16 6/16 5/16 6/16 7/16 8/16 167 .4 (ejercicio 2.

La prueba de Mann-Whitney también permite contrastar si dos muestras independientes. 05 . ▄ 11. o lo que es lo mismo F161 ( x) > F162 ( x) . n=m=16 Dα = 6 . Pero este contraste no necesita conocer la cuantificación de los elementos de las muestras. El test U de Mann y Whitney examina la hipótesis alternativa. e insensible frente a las diferencias de varianzas.67 72 74 75 83 85 86 90 92 93 95 98 5/16 6/16 6/16 7/16 7/16 10/16 11/16 11/16 12/16 14/16 15/16 16/16 12/16 13/16 14/16 14/16 15/16 15/16 15/16 1 1 1 1 1 7/16 7/16 8/16 7/16 8/16 5/16 4/16 5/16 4/16 2/16 1/16 0 F161 ( x) > F162 ( x) lo que sugiere un contraste unilateral. Se presupone que las distribuciones de las muestras que se han de comparar presentan la misma forma.3 Contraste de Mann-Whitney. solo es necesario disponer de un orden entre dichos elementos. Tomamos dos muestras independientes de tamaños n y m donde suponemos que n ≤ m . 168 . Para muestras pequeñas el contraste de K-S es más eficiente. han sido obtenidas de la misma población. “La probabilidad de que una observación obtenida al azar de la primera población supere a una observación aleatoria de la segunda población es distinta de 1 ” 2 El test es sensible frente a diferencias de medianas. α = 0. 16 Dexp > Dα (no provienen de la misma población) los dos métodos no son iguales. El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la comparación de las medias de dos distribuciones continuas (test paramétrico). El grupo 2 arroja puntuaciones mayores. algo menos sensible frente a las diferencias de asimetría.

( i = 1. 2 . si coinciden dos valores tomamos 0. j = 1. 2 . Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor. ( i = 1.5 + 4 = 8.5 + 2 = 3. Ejemplo 1º muestra 9 11 15 n=3 2º muestra 6 m=4 Muestras ordenadas 8 11 13 6 8 9 11 11 13 15 Procedente de: 2º 2º 1º 1º 2º 2º 1º U1 = 0 + 0 + 1.5. (Véase ejemplo 11. 2 . j = 1.Se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1) H : F ( x ) < F ( x ) m  1 n   H 0 : Fn ( x) = Fm ( x)    (2) H : F ( x ) > F ( x ) m  1 n  ó Estos últimos cuando se observe que los valores de una muestra son en general mayores o menores que los de la otra. i ≠ j ).5 U 2 = 2 + 2. si coinciden dos valores tomamos 0.5 Ejemplo 1º muestra 3 4 2 2º muestra 6 7 8 Muestras ordenadas Procedente de: 2 n=3 9 m=4 3 4 6 7 1º 1º 1º 2º 2º 8 9 2º 2º 169 . El valor del estadístico U ( U 0 ) se obtiene mediante: Ui = nº de veces que una observación de la muestra i precede a una observación de la muestra j. Ui = nº de veces que una observación de la muestra j es precedida por una observación de la muestra . O bien. 2 .6) Pasos: 1.5. 2. i ≠ j ).

18 o 3. Como hemos visto. b) En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños muestrales suficientemente grandes ( m + n > 60 . U 2 ) Nota: también lo podíamos haber definido con el máximo. entonces: n(n + 1) − R1 2 m(m + 1) U 2 = nm + − R2 2 U1 = nm + (ó U 2 = nm − U1 ) R1 = 3 + 4.5 ⇒ U1 = ( 3 × 4 ) + 3× 4 − 14.5 + 6 = 13.5 + 7 = 14. 170 . SPSS usa niveles de significación exactos.5 = 3.5 = 8.5 2 El estadístico es: U 0 = min (U1 . pero ¿cómo de pequeños? Distinguimos casos: a) n ≤ 20 y m ≤ 40 Se rechazará la hipótesis nula cuando el valor U0 sea igual o menor que el valor crítico Uα de las tablas 3. 3. si 2 muestras proceden de la misma población. según algunos autores) se cumple la excelente aproximación.5 ⇒ U 2 = ( 3 × 4 ) + 4×5 − 13.U1 = 3 + 3 + 3 + 3 = 12 U2 = 0 + 0 + 0 = 0 Como podemos observar.5 2 R2 = 1 + 2 + 4.5 6 7 Sean R1 y R2 la suma de los rangos de la 1º y 2º muestra. los U i toman valores extremos y por tanto U 0 tomará un valor pequeño. si los datos no proceden de la misma población. Luego rechazamos la hipótesis nula cuando U 0 tome valores pequeños. En caso contrario. Otra forma de calcular los U i (aconsejable para muestras grandes) es así: Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del conjunto (si hay repeticiones de valores.5 4.19 (nivel de significación α = 5% ). se asigna el rango medio) Ejemplo Muestras ordenadas Procedente de: 6 8 9 11 11 13 15 2º 2º 1º 1º rangos 2º 2º 1º 1 2 3 4. los datos tienden a entremezclarse. Dineen y Blakesley (1973). los U i toman valores extremos.

9 ) = 9 1 2 3 4 5 6 7 8 9 171 . relación tema 11) ▼ Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa. pag. m=5 (taller 1) ≤ 40 Muestras ordenadas 45 51 53 64 70 75 78 82 110 rango Procede de: 1º 2º 2º 1º 2º 1º 1º 1º 2º 4×5 RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 U 0 = min (11. se obtuvo en sendas muestras de 5 y 4 meses. nm nm(n + m + 1)  U → N  .05) . comprobar si la productividad en los dos talleres es la misma (α = 0.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación normal cuando no aparezcan. el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 Utilizando el contraste de Mann-Whitney.5 (ejercicio 4. n ≥ 8 ). Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños muestrales no sean muy pequeños ( m ≥ 8. En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar rangos medios) tiene una distribución distinta (Sachs. Ejemplo 11. 255). Solución n=4 (taller 2) ≤ 20. rechazo H 0 si p ≤ α 2 (bilateral ) o p ≤ α (unilateral ) .  12  2  Calculo p = P [U ≤ U 0 / H 0 ] Para α fijo. Nosotros utilizaremos las tablas 3. la cantidad de unidades producidas de un artículo concreto. Estadística Aplicada.18 o 3.

relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos.5 15 17.5 17. m = 5.5 17.5 + 20. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100.19) (U 0 = 9) > (U α = 1) ⇒ los dos talleres producen lo mismo.5 17.5 24 RNO = 1 + 2 + 3.5 = 111.5 = 32.5 7.5 + 3.5 22.5 20. ▄ Ejemplo 11.5 22.5 = 110.5 + 10 + 10 + 12 + 17. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar.5 7.5 3.5 U NO = (12 × 12 ) + 172 12 ×13 − 110.5 + 17.n = 4.5 5. Solución 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Muestras ordenadas 43 45 56 56 57 57 65 65 67 67 67 69 76 76 77 78 78 78 78 79 79 87 87 98 Incentivos No No No No No Si No Si No No Si No Si Si Si No No Si Si No Si Si Si si m = n = 12 rango 1 2 3.5 13.5 + 5.5 20. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.5 2 .5 + 7.5 ⇒ U SI = 144 − 111. U α = 1 (tabla 3.6 (ejercicio 5.5 5.5 10 10 10 12 13.05) .

relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100.025 y en ese caso se había rechazado la hipótesis nula. por tanto. es decir  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Para ello realizaremos un test bilateral ( α = 0. tabla 3. (U 0 = 32.05 > 0. tabla 3. con mayor razón se rechaza en este último test unilateral con α = 0.4 ).05 . los incentivos tienen efectos positivos sobre la producción.19) U α = 37 .05 .05 equivale a un test unilateral con α = 0.5) = 32. los incentivos tienen efectos sobre la producción –sin especificar en qué sentido.5) < (U α = 37) ⇒ rechazo la hipótesis nula.025 .5 En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto sobre la producción frente a la alternativa de que sí lo tienen. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también seleccionados al azar. los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin incentivos y por tanto la función de distribución de la muestra con incentivos ( Fm ( x) ) menor que la función de distribución de la muestra sin incentivos ( Fn ( x) ) (Recuérdese lo que ocurría en el ejemplo 11.6b (ejercicio 5. por tanto.18) U α = 42 . Dado que un test bilateral con α = 0. (U 0 = 32. es decir.U 0 = min (111. Para ello realizaremos un test unilateral ( α = 0. ▄ Ejemplo 11. 32. En este caso que nos ocupa parece más plausible contrastar  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción. El resultado de ambas fue No incentivos Incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78 173 .5) < (U α = 42) ⇒ rechazo la hipótesis nula.5.

5 33.5 7.5 35.5 35.5 44.5 19.5 42.5 21.5 44.5 16 16 16 18 19.5 28 30.5 7.5 46 47 .5 21. Solución 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 174 Muestras ordenadas 43 45 48 50 56 56 57 57 60 60 61 63 65 65 67 67 67 69 70 70 71 71 72 73 74 76 76 77 78 78 78 78 79 79 80 80 82 83 84 84 84 85 85 87 87 88 93 incentivos NO NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO SI NO NO NO SI NO SI SI SI NO NO SI SI NO SI SI SI NO NO NO SI SI SI SI SI SI SI SI rango 1 2 3 4 5.5 26.5 30.5 11 12 13.5 9.5 5.5 30.5 9.05) .5 13.5 37 38 40 40 40 42.5 23 24 25 26.Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.5 33.5 30.

54 ) 12  2  117 − 312. 175 . 51.00007 También se hubiera rechazado la hipótesis nula con un contraste bilateral. por tanto.5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3. 79] = 0. 00007 ) ≤ (α = 0.54   Basándonos en los comentarios del ejemplo anterior. los incentivos tienen 2  efectos sobre la producción. por tanto. α = 0.5 0. 025  ⇒ rechazo la hipótesis nula.5.  = N ( 312.48 49 50 94 98 99 SI SI SI n = m = 25 48 49 50 RNO = 442 RSI = 833 U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508. 00007 ) ≤  α  = 0. los incentivos tienen efectos positivos sobre la producción. 05) ⇒ rechazo la hipótesis nula.117) = 117  25 × 25 25 × 25 × 51  U → N  . 05 117 312. procede realizar un contraste unilateral  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  ( p = 0.  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  ( p = 0. 00007 51.

mientras que un valor grande de R denota que las observaciones se suceden de una forma regular. Para un valor dado de n. la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda. o sea.025 2 α 117 2 312.40. por ejemplo. mientras que la hipótesis alternativa H A dice que la muestra no es aleatoria.00007 ▄ 11. donde z es normal tipificada). que los valores muestrales no son independientes entre sí. Así. un R pequeño es indicio de que las observaciones iguales aparecen en forma aglomerada . constituye R=4 rachas. No sólo en el caso de datos alternativos sino también tratándose de valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores menores y rachas de valores mayores o iguales que la mediana.α =0. El test de las rachas es un test no paramétrico que sirve para verificar la independencia o aleatoriedad del orden de los valores muestrales. 176 σ2 = 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 . que se trata de una muestra aleatoria. o bien la H A 2 : “los valores se suceden de una forma regular” Los valores críticos rinferior = ru y rsuperior = ro correspondientes a n1 y n2 ≤ 20 (donde n1 y n2 representan el número de veces que aparecen los dos elementos alternativos respectivamente. La hipótesis nula H 0 dice que el orden de los valores es casual. n1 + n2 = n ) pueden obtenerse de la tabla 4. Una racha es una sucesión de símbolos idénticos. a los que preceden o siguen otros símbolos. esto es. En el caso unilateral a la H 0 se le contrapone la hipótesis H A1 : “efecto de aglomeración”.5 0.4 Test de las rachas. Para n1 o n2 > 20 el estadístico R se distribuye aproximadamente como una normal de media y varianza µ= 2n1n2 +1 n1 + n2 ( R = µ + zσ .

20. Se rechaza frente a H A 2 si ro ≤ R ( n1 y n2 ≤ 20 ) o zα ≤ z ( n1 o n2 > 20 ). entonces mmmmMmmMmMM . se rechaza la hipótesis nula de igualdad de poblaciones). 18. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede escribirse mmmMMMMMmMM. relación tema 11) ▼ Supóngase dos muestras aleatorias independientes de tamaños n1 = 20.7 (Ejercicio 14 . 19. 18. n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( ru = 2 ) < ( R = 4 o 6 ) ( ro = no hay límite su p erior ) . 05 ) 177 . se aceptaría la hipótesis de aleatoriedad.10 ). 17. 19. indicando con dos símbolos a qué muestra pertenecen. 22 ( α = 0. Esta serie.En el test bilateral se mantiene H 0 si ru < R < ro (para n1 y n2 ≤ 20 ) o − zα < z < zα (para 2 2 n1 o n2 > 20 ) y se rechaza en caso contrario. (Nota: utilizar ru y ro con límites inferiores y superiores del α 2 ) En el test unilateral H 0 se rechaza frente a H A1 tan pronto como R ≤ ru ( n1 y n2 ≤ 20 ) o z ≤ − zα ( n1 o n2 > 20 ). 21. 19. ( α = 0. Solución Me=19. 05 . ( ru = 3) < ( R = 6 ) < ( ro = 9 ) Con α = 0. (Nota: utilizar ru y ro con límites inferiores y superiores del α %) También puede utilizarse el test de rachas para verificar si dos muestras independientes de tamaño similar proceden o no de una misma población (las n1 + n2 = n observaciones se ordenan en sentido creciente. ) ▄ Ejemplo 11. con n1 = 4(m) . si se obtiene un valor pequeño de R. relación tema 11) ▼ Se desea verificar la aleatoriedad de la siguiente serie de valores 18. Concluyendo de igual modo la compatibilidad con la hipótesis de aleatoriedad. Ejemplo 11. n1 = 7(m) . n2 = 7( M ) y R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) (NOTA: Si hubiéramos considerado 19=m. n2 = 4( M ) y R = 6 .8 (Ejercicio 15. 21.

40.92215 3. Se presupone que la variable aleatoria es continua. Pueden pertenecer a poblaciones distintas en lo que se refiere. La hipótesis nula del test de los signos es: La media de las diferencias entre los pares ligados es igual a cero. se espera que aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . 7436 σ = 3. a edad o sexo. paralelas o ligadas) proceden de una misma distribución. por ejemplo. ▄ 11.1215 ( z = −1. Lo esencial es que los resultados de cada par sean independientes entre sí. Es 178 . vamos a resolver el problema mediante la aproximación normal µ= 2n1n2 + 1 = 21 n1 + n2 σ2 = z= 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 R−µ σ = = 9.1215 15 − 21 = −1. Al contrario que en el test de la t o en el de Wilcoxon. Como los tamaños de las muestras se encuentran en el límite n1 = 20. con ayuda de los extremos críticos inferiores del 5% de la tabla 4. Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test de Wilcoxon que veremos a continuación. unilateral. se acepta la hipótesis de aglomeración. 645) ⇒ llegándose al mismo resultado. Resulta especialmente útil cuando la medición cuantitativa no es posible. Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas. n2 = 20 . Es decir.05 = −1. lo que en este contexto implica que las muestras proceden de poblaciones distintas.Solución Este contraste equivale a la verificación de la no aglomeración de las observaciones (únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones).5 Test de los signos. un test de H A1 frente a H 0 .92215) ≤ (− z0. etc. El nombre de este test se debe a que únicamente se consideran los signos de las diferencias entre observaciones. se rechazaría la hipótesis de que las poblaciones son iguales. aquí no es necesario que todos los pares procedan de una misma población. al nivel del 5%. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de H A1 .

al nivel del 5%. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. ¿Proceden las dos muestras ligadas de la misma población? Solución De la tabla 4.4. esto es. La probabilidad de obtener un número determinado de signos más o menos se deduce de la distribución binomial con p = q = con p = q = 1 . La tabla 4. Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son: el test de la t de Student. Cuando no se disponga de tablas o cuando estas resulten insuficientes. relación tema 11) n 4 ▼ Supóngase que analizamos 15 pares de valores mediante el test de los signos. A partir de la tabla de probabilidades binomiales 2 1 se han determinado los valores de la tabla 4. ▄ 11. de ellas 11 positivas y 2 negativas. cuando se rebasen (por exceso o por defecto) los valores indicados en la tabla 4. Las diferencias nulas no se consideran.decir.4 contiene los extremos de confianza. El extremo derecho (ED) puede obtenerse mediante la fórmula ED = n − EI + 1 . esto puede traer consigo una disminución del tamaño muestral.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis nula. si la distribución de las diferencias es normal. y si las muestras de diferencias no son demasiado pequeñas ( n ≥ 30 ) -algunos autores consideran bueno a partir de ( n ≥ 25 ) - la frecuencia observada del signo menos abundante se aproxima mediante una normal de media y varianza µ = np = n 2 σ 2 = npq = Ejemplo 11. dicho de otra forma.6 Test de Wilcoxon de los signos-rangos. caso bilateral. y el test de Wilcoxon 179 . se rechazará la hipótesis nula cuando haya demasiadas (o demasiado pocas) diferencias del mismo signo. 2 En la tabla 4. elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo es igual que la probabilidad de que el segundo supere al primero).9 (Ejercicio 16. con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero. Obtenemos 2 diferencias nulas y 13 no nulas.4.4 obtenemos para n=13 los extremos 3 y 10.

2.00 0.para diferencias entre pares. que se comprueban con la fórmula R+ + R− = n(n + 1) 2 ( ) Como estadístico se empleará la menor de las dos sumas de rangos R = min( R+ .61 0. bilateral y al nivel del 5%. cuando las diferencias no siguen una distribución normal.85 0.47 B (mg/muestra) 0. se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el test de Mann-Whitney).94 0. Se forma la suma de los números de rango positivos ( R+ ) y la de los rangos negativos ( R− ). Para la comparación. asignándoles rangos: el menor de todos ellos tendrá el rango 1. Se rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico indicado en la tabla 4.41 1. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. No se sabe si la distribución de los valores es normal.52 0. Sean A y B dichos métodos.52 0. Caso de que se repitieran valores. que utiliza signos y rangos.36 0. R− ) . el test de Wilcoxon requiere muchos menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas. y el mayor tendrá rango n.10 (ejercicio 17. Para n > 25 la distribución de estadístico R bajo la hipótesis nula es aproximadamente una normal de media y varianza: µ= n(n + 1) 4 σ2 = n(n + 1)(2n + 1) 24 Ejemplo 11.87 0. dispone de 9 muestras de orina.70 0.39 0. Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o negativo.84 0. Si el test lleva a rechazar H 0 significaría que las dos muestras proceden de poblaciones con distribuciones distintas.47 1. Prescindiendo de los pares cuyos dos valores sean iguales. En comparación con el test de la t. Este último test puede aplicarse también cuando los datos vengan dados en forma de rangos. Muestra nº 180 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0.33 0.02 0. para los n pares de valores restantes se formarán las diferencias entre las dos muestras paralelas di = xi1 − xi 2 A continuación se ordenan los valores absolutos d i de menor a mayor. relación tema 11) ▼ Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina.51 .46 0.

4375 0. 1015.60 0.00 0.02 -0.0413 0.0668 0.36 0. por tanto no puede rechazarse la hipótesis nula.47 B (mg/muestra) 0.Solución Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0.0337 0.66 0.7764 0.2500 0.4681 0. 1063.13 0.00 1.50 -1.02 0.5 (-) 4 22.8413 0. Con base en esta muestra.26 0.5 > 3 .0039 0.5+13.56 Fo(x) 0. relación tema 11) A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852.3300 0.1492 0.26 1.3750 0.84 0.39 0.51 A − B= di 0.50 0.94 0.8962 0.0046 0.5 R− = 13.6026 0.0000 |Fo(x)-Fn(x)| 0.56 -0.5 3 (+) 6 (+) 7 Rango de los d i R+ = 22.5000 0.0625 0.1111 0.33 0.0382 0.0248 0.66 -2.8125 0.1207 0.02 0. ▄ EJERCICIOS RESUELTOS 1. 1007.0450 0.6700 0. 1018.3125 0.7257 0.09 0. 50).5 8 6 7 1.2877 0.20 -1.06 0. 910.1075 0.08 0. Buscando en la tabla 4.87 0.6250 0.1008 0.5=36=8(8+1)/2 n=8.47 1.0306 0.6875 0.04 5 1.1026 0.05 ) SOLUCIÓN: muestra ordenada 852 875 910 933 957 963 981 998 1007 1010 1015 1018 1023 1035 1048 1063 ni Ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 z -2.0586 0. 981.9375 1.61 0.41 1.70 0.7500 0. 1010.04 -0. ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.0594 181 .52 0.9406 Fn(x) 0. 1035.6915 0.44 0.03 0 -0. 998. 1048.10 -0.52 0.5 (+) 5 (+) 1. pues hay una pareja donde la diferencia es cero.1250 0. 1023.85 0.1875 0.2 se tiene que R = 13.46 0. (ejercicio 1.44 -0. por una N(985.5 (-) 8 comprobación 4 (+) 3 (-) 1. de forma adecuada. 933.0665 0.0139 0.0361 0.76 1. En años anteriores el número de respuestas correctas estaba representado. 875.7454 0.8750 0. 963.5625 0. 957.

5 8 15 12.5 16 12. relación tema 11) Contrastar a un nivel α = 0.5: 10.5 12. ( Dexp = 0.19 1.9298 Fn(x) |Fo(x)-Fn(x)| 0. la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos.1 si los datos siguientes proceden de una distribución Normal con media 10.1 15 16 ni Ni 1 2 2 3 1 1 1 3 5 8 9 10 z -1. 2.10 0.36 1.0914 0.9000 0. relación tema 11) La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos Número de llamadas xi ni menos de 10 10-20 20-30 30-40 40-50 50-60 15 17 26 18 13 11 Contraste.1587 − 0.5 = 0.5 − 0. 3.1 n = 10 ⇒ Dα = 0.5000 0.8000 0.6406 0.0702 α = 0.8827 0.0729 0.47 Fo(x) 0.1594 ) < ( Dα = 0.3413 10 10  x − 30 40 − 30  ≤ = F0 (1) − F0 (0) = 0.0173 1. 10) transformándola en una variable Z → N (0.1 4.0387 0.1 8 10. 0228 = 0. con un nivel de significación del 5%.1594 0.1359 10 10   10  20 − 30 P [ 20 < x ≤ 30] = P  <  10  30 − 30 P [30 < x ≤ 40] = P  <  10 182 x − 30 30 − 30  ≤ = F0 (0) − F0 (−1) = 0.81 -0.369 ) luego no existen motivos para rechazar la hipótesis nula.327 ) luego no existen motivos para rechazar la hipótesis nula. 1)  x − 30 10 − 30  P [ x ≤ 10] = P  ≤ = F0 (−2) = 0.0000 0.1 8 10.93 -0.4613 0.1207 ) < ( Dα = 0.1 SOLUCIÓN: muestra ordenada 4. bajo la hipótesis nula.3413 10 10  .0271 0. SOLUCIÓN: Para hallar las siguientes probabilidades.2086 0. (ejercicio 3. (ejercicio 10.1 12. tipificamos la variable X → N (30.1587 = 0.84 y desviación típica 3. 0228 10   10 10 − 30 x − 30 20 − 30  P [10 < x ≤ 20] = P  < ≤ = P [ −2 < z ≤ −1] = F0 (−1) − F0 (−2) = 0.1000 0.(D exp = 0.369 .3000 0.8413 − 0. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov.

87 34.1359 0.8413 = 0.6 66.35 114.2 0'95 = 7.3413 0. Contraste de Kolmogorov-Smirnov para bondad de ajuste muestra ordenada 0-10 10-20 20-30 30-40 40-50 50-60 ni x 10 20 30 40 50 60 15 17 26 18 13 11 Ni z F0 ( x) 15 32 58 76 89 100 -2.5000 0.76 0.62 0.96 0.32 0. Como 30. 40 − 30 x − 30 50 − 30  P [ 40 < x ≤ 50] = P  < ≤ = F0 (2) − F0 (1) = 0. se agrupan éstas con las clases contiguas.0813 0.13>7.85 1.13 Buscamos en las tablas χ k2−1.35 76.81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10.3413 0.0228 0.1 260.8 11.0800 0.13 34.17 30.3581 = 0.87 260.00 0.59 2.89 1 0.1613 0.81 .026 33. (ejercicio 11.13 15.15 0. obteniéndose CLASES Menos de 20 20-30 30-40 Más de 40 ni Ei = npi pi ( ni − Ei ) 2 32 26 18 24 0. DT = 4.1587 15.0228 2.00 2.1359 0.13 34.1272 0.9772 = 0. para un contraste bilateral.94 7.00 3.9987 Fn ( x) | F0 ( x) − Fn ( x) | 0.00 0.7 Como las frecuencias esperadas son menores que 5 en la primera y última clase.00 1.8413 0.3413 0. 0228 10   10 CLASES menos de 10 10-20 20-30 30-40 40-50 más de 50 ni Ei = npi pi ( ni − Ei ) 2 15 17 26 18 13 11 0.3413 0.1359 10 10   10  x − 30 50 − 30  P [ x > 50] = P  > = 1 − F0 (2) = 1 − 0.94 7.13 13.9772 − 0.28 13.2 0.0013 Dexp = max F0 ( x ) − Fn ( x ) = 0.9772 0.2 66.1−α = χ 3.1 260.28 161.1613 1.1587 0.00 -1.2 66.0872 0.4 1.58 0.04 100 1 100 χ2 = ( ni − Ei ) 2 Ei 70.0228 0.62 4.1 100 1 100 χ2 = ( ni − Ei ) 2 Ei 16.1587 0.1358 100 Al igual que con el anterior procedimiento de contraste se rechaza H 0 dado que Dexp > DT Buscando en las tablas.59 34. relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: 183 .

1493 DT (0.1841 0.0062 Dexp = max F0 ( x ) − Fn ( x ) = 0. SOLUCIÓN: Muestra ordenada 130 140 150 160 170 ni Ni 2 4 4 3 2 2 6 10 13 15 z= x−µ σ -2. Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov.1 ).1439 0.1667 0.8413 0.00 1.4000 0.5 0. 5. relación tema 11) Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado.9641 0.5000 0.6667 0.0228 0.1333 0.0228 0.0228 .1587 0.0874 0.000 de € y desviación típica 10.1307 0.5793 0.0793 0. (ejercicio 12.1587 10   10 184 Fn ( x) 0.9938 0.519 Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas.5000 | F0 ( x) − Fn ( x) | 0.2000 0.00 0.00 F0 ( x) 0.3333 0.9000 -0. 05 ) SOLUCION: muestra ordenada 300 311 318 322 338 345 ni z= Ni 1 1 1 1 1 1 1 2 3 4 5 6 x−µ σ F0 ( x) Fn ( x) 0.00 2.00 -1.0000 -0.1493 0.0253 0.2000 1.1106 0.Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 €? ( α = 0. 0228 10   10  x − 150 140 − 150  P [ x ≤ 140] = P  ≤ = F0 (−1) = 0.8667 1.6667 0. obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros.8000 2.0000 | F0 ( x) − Fn ( x) | 0.05)bilateral = 0.9772  x − 150 130 − 150  P [ x ≤ 130] = P  ≤ = F0 (−2) = 0.8333 1 -2.1667 0. ( α = 0.4207 0.2413 0.

SOLUCION: muestra ordenada 16.05) bilateral = 0.1706 0.9 23.9º 23..2000 0.0359 2  .8413 10   10  x − 150 170 − 150  P [ x ≤ 170] = P  ≤ = F0 (2) = 0.6500 1.4500 1. por tanto se acepta la hipótesis nula de que la muestra procede de una población normal.9505 0.10)bilateral = 0.8 24 ni 1 1 1 2 1 1 Ni 1 2 3 5 6 7 z -1.6 20. (ejercicio 22.4] = P  z ≤  = P [ z ≤ −1.1069 0. 483 Dexp < DT .4 17. 24 − 20   P [ x ≤ 24] = P  z ≤ = P [ z ≤ 2] = 0.6736 0.9713 0. 2413 Dado que Dexp < DT DT (0. relación tema 11) Se ha observado la temperatura durante los días de una semana en la recepción de un hotel.9772 10   10 Dexp = max F0 ( x ) − Fn ( x ) = 0. x − 150 150 − 150  P [ x ≤ 150] = P  ≤ = F0 (0) = 0.. relación tema 11) Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa.0228  16. (ejercicio 13.9772 2   Dexp = 0. la 185 .6º 16.8000 -1.8º 23.9772 Fn(x) |Fo(x)-Fn(x)| 0.3º 17.3 23.0000 Fo(x) 0. se obtuvo en sendas muestras de 4 y 5 meses.8] = 0.5 10   10  x − 150 160 − 150  P [ x ≤ 160] = P  ≤ = F0 (1) = 0.0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º.304 se acepta la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros.4286 0.2451 0.7143 0.4 − 20  P [ x ≤ 16.4º 20.1429 0.3º 24. 6.9000 2. obteniéndose 23.1141 1 0. 7.0359 0. 2451 n = 7 DT (0.2362 0.8571 0.2857 0.1151 0.

2 0.6 2/5=0.0000 0.6 2/5=0.2 0.4 1/5=0. el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. 25 4 0.05)unilateral = 3 = 0. 6 5 F51 ( x) − F52 ( x) 1/5=0. relación tema 11) Se desea contrastar si determinados incentivos a la productividad son efectivos.4 70 1 4/5=0.4 1/5=0.05) .2500 -0. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. El resultado de ambas fue No incentivos 70 80 Incentivos 70 70 60 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. ( α = 0.2500 0.0 DT (0.25 2/5=0. (ejercicio 23.2 3/5=0.25 0 50 ¼=0.8 1/5=0.6 90 1 4/5=0.0 . (α = 0. 6 5 1/5=0.4 60 2/4=0.1000 0.8 100 1 1 Dexp = max F51 ( x) − F52 ( x) = 186 3 = 0.05 ) SOLUCIÓN: muestras ordenadas F51 ( x) F51 ( x) − F52 ( x) F52 ( x) 60 1/5=0.2000 0.cantidad de unidades producidas de un artículo concreto. SOLUCIÓN: muestras ordenadas F41 ( x) 40 ¼=0.8 110 1 1 Dexp = max F41 ( x) − F52 ( x) = F41 ( x) − F52 ( x) F41 ( x) − F52 ( x) F52 ( x) 1 = 0.0000 4 = 0. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar.1500 0.1500 0.2 80 1 3/5=0.5 2/5=0.2 3/5=0.8 5 DT (0.1000 0.05)bilateral = Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 8.2 0 70 4/5=0.2000 0.

Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. (ejercicio 24.0000 1/7=0.1429 0.0000 1/7=0.7143 6/7=0. α = 0.0000 5 = 0. Los resultados aparecen en la siguiente tabla.1429 0.2857 5/7=0.1429 2/7=0.1429 3/7=0. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov.4286 -1/7=-0.8571 1 Dexp = max F71 ( x) − F72 ( x) = 3 =0.0000 -1/7=-0.1429 0. 05 ). relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”.8571 1 1 1/7=0.1429 1/7=0. 9. Pasados tres meses se encuestan otras 7 familias.1429 0.05)bilateral = F71 ( x) − F72 ( x) 0.1429 2/7=0.0000 1/7=0.4286 1/7=0.2857 5/7=0.1429 -3/7=-0.0000 DT (0. 7143 7 Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral 187 .4286 7 0.8571 6/7=0.8571 6/7=0.7143 6/7=0. Primera encuesta 30 20 0 50 40 30 30 Tres meses después 20 20 10 60 0 30 20 SOLUCIÓN: muestras ordenadas 0 10 20 30 40 50 60 F71 ( x) − F72 ( x) F71 ( x) F72 ( x) 1/7=0.

188 .

EJERCICIOS 189 .

000 cuentas por cobrar con un límite para el error de estimación de 10. zi (i = 1.51 . 100 Solución p1 = y ∑ i =1 i 100 100 = 0. 70 (70%) p2 = z ∑ i =1 i 100 = 0. 49 ) τ ∈ (1.100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando responden NO.019.019.000€. La media muestral de las cuentas fue y = 1. 0821 = 73. 1.510 .060. Encuentre el tamaño de muestra necesario para estimar el valor total de 1. Solución: µ ∈ (1. 62 ≈ 616 4. Sean yi . 68%) 2 V ( p 2 ) = 0.000 cuentas de las cuales se examinan 300.000 cuentas abiertas con un intervalo de confianza al 95%. 0868 (8. 0821 (8. análogamente para zi ).. Suponga que existen 1.400).040€ y la varianza muestral (“cuasivarianza”) es S2=45. 1.000€2. • La proporción de ellos que tienen algún tipo de trabajo. 49 ) = (1.2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro. 21%) τ 2 = N p 2 = 900 × 0. 25 = 225 2 V (τ 2 ) = 900 × 0. yi = 1 cuando responden SI. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.. 1. Los alumnos de TAM de una facultad con 3. Muestreo Aleatorio Simple 1.000 ∓ 20. 25 (25%) 2 V ( p1 ) = 0. Según la muestra 100 100 yi = 70 ∑ z = 25 ∑ i =1 i =1 i Usando los datos de la muestra.490 ) = (1.. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes.040 ∓ 20.89 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer exámenes en 190 .490 ) 2.040. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600.. Solución: n = 615.060.

La información previa disponible indica que el 60% preferían los exámenes en sábado. Usando los datos de la siguiente tabla: Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Niño Solución: 2. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.1 segundos y S = 0. 191 . Un dentista está interesado en la efectividad de una nueva pasta dental.1697 7.04 ≅ 354 5. Un grupo de 1. En un estudio sociológico.4 segundos. Determinar el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Los registros de un estudio anterior mostraron que había un promedio de 2.000 niños de escuela participó en el estudio. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error máximo de estimación del 5%. el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. La ciudad tiene 621 hogares. Solución: µˆ = 2. Solución: n = 353. Después de un año de iniciado el estudio. y fueron medidos sus tiempos de reacción.1. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos.2 ∈ (1. Estime la media poblacional y establezca un límite para el error de estimación. 2. Estime la proporción poblacional y establezca un límite para el error de estimación.sábado con un límite para error de estimación del 10%.2 caries cada seis meses para el grupo. Al terminar la investigación de campo.06. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. realizado en una pequeña ciudad.94) ⇒ No 6. Una muestra aleatoria simple de 20 pacientes fue seleccionada. con los resultados siguientes: y = 2. según la guía de teléfonos más reciente. de los 60 hogares muestreados. B = 0. en 11 habita al menos una persona mayor de 65 años.

Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor.1 7.450. 6. Establezca un límite para el error de estimación.413 ≅ 400 11.. CONF .340 .2 5.259.: ( 3. Esta información se utiliza para estimar el volumen total de madera en la plantación.259 192 . y cada parcela fue examinada en relación con el número de árboles de tamaño grande.9 3.2 árboles.379. 61 min . Estime el número total de árboles de tamaño grande en la plantación. con un límite para el error de estimación de 1. determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación. Usando los datos del ejercicio anterior.3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? Solución: INTERV .300 ∓ 3. Solución: τˆ = 37. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1.500 árboles. 23. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1. Con objetivos benéficos. B = 3. La media muestral para las 100 parcelas de 1 acre fue y = 25. con una varianza muestral de S 2 = 136 .496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? Solución: ( 20. previsión más pesimista: 17. El taller tiene 45 operadores.8 5. 66 ) Previsión más optimista: 23. 66 ) = (17. por tanto no podemos aceptar esa hipótesis. ∑ Y i =1 i i =1 i 2 = 54.340.800.0958 8.9408 10. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Solución: n = 399.500 acres.34 . El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. 9. una asociación filantrópica ha solicitado firmas para una petición en 700 hojas.Solución: pˆ = 0. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada.1833. B = 0.91 min . Los resultados obtenidos son los siguientes: Tiempo(minutos) 4.) Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza.040.

a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. construyendo un intervalo de confianza al 95%. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios.89% ) . Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5. 58. 6 ≈ 642 . Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros.09. Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado.842. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.600€ (siendo la cuasivarianza de los datos 625).848 familias. la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. siendo de casi 11000 euros el de mayor cuantía. 65 ≈ 140 n = 333. 45€ ∑ 35 n i =1 14. 47 ≈ 334 193 .11% .104. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. 22. Solución: a) p ∈ (12.12.04 ) 13. con un error inferior al 3%. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona. D 1 n 5600 yi = = 160€ B = 2 V ( y ) = 8. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? Solución: n = 139. b) n = c) y = pq = 641. b) ¿Cuantas compras deberían observarse para estimar. Solución: (44.

4 ≈ 106 16.. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales.200 euros mensuales. 18. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo.000 vecinos.1 ≈ 75 n = 105..9545 17. Se decide clasificarlos en dos estratos. Solución: a) τ = N y = 70 B = 2 V (τ ) = 71.200 y 2. 68. El salario de los contratos fijos está comprendido entre los 1. 655 manifestaron su opinión desfavorable. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con 194 . los que poseen contrato fijo y los que tienen un contrato temporal.15. elegidos aleatoriamente de entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. 2741 b) τ = N p = 10 B = 2 V (τ ) = 10. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. 49% . b) Estime el número de empresas que usarían los servicios ofertados. ¿Se puede afirmar que la mayoría de los habitantes están en contra? Solución: p ∈ (62. Se han entrevistado 1. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? Solución: n = 74. Calcule el límite para el error de estimación. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva.51%) ⇒ p > 50% ⇒ si se puede afirmar .

79%.1 19 5.6 litros cada 100 Km. VALOR en € 33. realizado en una pequeña ciudad. En un estudio sociológico. 67 ≈ 36 compras 20. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? 195 .4 2 5.98 .5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. 40.9 9 4.un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50 19.87 ) c) n = 35. 44.s.7 17 4.6 16 5. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? Solución: a) ( 40.7 4 3. 21% ) = (12.8 3 6. El consumo en litros de combustible por cada 100 Km se recoge en la siguiente tabla Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5. Puesto que se considera que el consumo es demasiado elevado. en 51 habita al menos una persona mayor de 65 años. de los 300 hogares muestreados. Se selecciona una m.3 11 3.a. en 600 taxis se monta un dispositivo para disminuirlo. 44. 21.89 + 3. según la guía de teléfonos más reciente. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis.5 7 5. elegidos entre los 600 que colocaron el dispositivo.6 litros/100 Km.4 12 6.2 18 4. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.89 − 3.91. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente.98 ) = ( 36. 21.8 5 4. La ciudad tiene 5000 hogares. 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.4 20 6.5 10 4. Al terminar la investigación de campo.87 ) b) No porque 45 ∉ ( 36.91.5 14 5. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.4 15 5. El consumo medio de combustible de los taxis de una ciudad es 5.4 6 6. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Solución: 25% ∉ (17% ∓ 4.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.9 8 5 13 5.5 32 52 43 40 41 45 42.

5€ N 2 V ( y st ) = 18. la cual conduce a N1 = 20 × 0. Los datos 196 . Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). 4 Solución: y st = ∑ i =1 Ni y i = 500. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. n1 = n Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550 490 500 470 520 550 500 y 2 = 505 S 22 = 750 540 480 500 470 470 450 560 460 440 580 y1 = 507. Se sabe que el 20% de la población de la comarca vive en el municipio 1. 94 '53% ) (b) n = 66. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. el 30% en el municipio 2. Muestreo Aleatorio Estratificado 1. Sin embargo. 79 € 2. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares.5 S12 = 1091. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). aplica asignación proporcional. el 25% en el municipio 3 y el 25% restante en el municipio 4. 77 ≅ 67 3. 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . 67 y 3 = 492 S32 = 870 y 4 = 498 S 42 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio.Solución: (a) ( 55' 47%. identificar las facturas individuales sin consultar un archivo es complicado.

De entre las piezas muestreadas de la operación B.14€ 3. B = 28. a) Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados. p = 18 = 0.son separados en facturas al por mayor y al por menor después del muestreo.14 N 20   80   2 V ( p st ) = 0. la estimación esté sesgada hacia el valor de B ( p 2 = 0. esto ocasiona que en el apartado a. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. 16 son defectuosas. en circuitos integrados provenientes de la operación A y B. c) ¿Qué respuesta encuentra más aceptable? ¿Por qué? Solución: a. 0772 ( 7. predominando los elementos de B (80) frente a los de A (20). 40  = 0.18 (18%) 100 b. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A. 01% ) c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%). 60  +  0. estime la proporción de los defectuosos en el lote. 2 son defectuosos. estime la proporción de los defectuosos en la población. la muestra global no representa adecuadamente este hecho. y fije un límite para el error de estimación. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. 20 ) frente al de A 197 . 72% ) Ni 2   16   p i =  0. y establezca un límite para el error de estimación. y fije un límite para el error de estimación. b) Estratifique la muestra. después de la selección. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. con los siguientes resultados en €: Por mayor Por menor Valor total facturas=36400€ Valor total facturas=8400€ n1 = 70 y1 = 520€ S1 = 210€ n2 = 30 y 2 = 280€ S 2 = 90€ Estime el valor medio de las facturas de la empresa. p st = 1 N L L i =1 i =1 ∑ Ni pi = ∑ 2 V ( p) = 0. 0901 (14% ) ( 9. Solución: yst = 376€.

70 en Barcelona y 30 en Sevilla. b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos.1 S3 = 9 a) Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena.395 universidades de Estados Unidos. 2 y 3 para designar Madrid.8 Desviación típica 87. 5 de Barcelona y 5 de Sevilla. 4.96 ≈ 15 = 43. y st = L 1 N ∑N y i =1 i i = 3834 = 19.31 ≈ 24 n2 = 14. Una cadena de restaurantes tiene 100 establecimientos en Madrid.3 S 2 = 11 y3 = 26. Solución: a. De las 1. Dar un límite del error de estimación. 24 ≈ 6 n = 45 5.60 y 0. 25 4 4 n= i =1 i i L N D+∑ N iσ 2 i =1 n1 = 23.17 pedidos / semana 200 2 V ( y st ) = 5.10 ). Barcelona y Sevilla. En el apartado b.52 2 i n3 = 5. este hecho se corrige dando a p1 y p 2 las ponderaciones 0.031 estudios universitarios de cuatro años. una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años.9 . lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid. 2 S1 = 12 y2 = 13.( p1 = 0. Carreras de 2 años Carreras de 4 años 198 Media 154. Para contrastar la posible demanda de este producto.3 411. La dirección está considerando añadir un nuevo producto en el menú. respectivamente. Se recogieron de manera independiente. D = 2 B 9 = = 2. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. 364 imparten estudios universitarios de dos años y 1. 02 pedidos / semana (∑ N σ ) 2 L b. las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21. Usando los índice 1.3 219.40 respectivamente para estimar p.

Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. (3. Solución: (a) τˆst = 480.8 0. B = 57.731.7214.5 3.82 ≈ 45 7. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. Una universidad tiene 152 profesores ayudantes. se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía.2 0. Se halló que 31 de los profesores ayudantes. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía.2058. (Suponga iguales los costes de observación) Solución: (a) yst = 3.9223) (b) n3 = 44.7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio.5277 . Dar un límite de error de estimación. b) En el estudio del ejercicio anterior. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto.0685 199 .9 3. 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos.84 (b) pˆ st = 0.a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas.1973. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3. 3. B = 0. determine cuántos pertenecerían al barrio 3.9 1. b) Si se asigna la muestra de 100 hogares de la mejor forma.8 S i 0.6 3. B = 0.0826 6. Dar un límite de error de estimación. 725. 40 asociados y 50 titulares. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios.594. Decide investigar muestras de 40 profesores ayudantes. Solución: pˆ st = 0. 127 profesores asociados y 208 profesores titulares. B = 0.

Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. 400. 9. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Dé un límite para el error de estimación.000 tienen teléfono.94 11.17 = 2. respectivamente. 300 y 200 facturas.396 No eléctrica 36 463 96. y 2 = 463 2 2. n3 = 22. n2 = 19.05 para el error de estimación. Basándose en una experiencia previa. Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo. Suponga 200 . b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica.96 b.83. Solución: (a) n1 = 47. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. n2 = 39. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202. Solución: a. De una ciudad con 350 casas. Dé un límite para el error de estimación. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0. La población se divide en cuatro estratos que contienen 500. n4 = 19. se estima que las desviaciones típicas en estos estratos son de 15. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. b) Suponga que el costo total de muestreo se fija en 400 € .000 hogares de la ciudad. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. n2 = 83. n = 80. respectivamente.721 a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía.000 euros para realizar una encuesta sobre el número medio de coches por hogar.19 = 2. y st = 701.31. Solución: n1 = 18.55 9.50 2 2. Se sabe que de los 10. Un analista de la opinión pública tiene un presupuesto de 20. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. 30 y 40 euros.59. n = 130 (b) n1 = 22. se sabe que 164 de ellas tienen calefacción eléctrica. 20.8. n = 61 10.83.

59 ≈ 107 n = n1 + n2 = 1784 12. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera.000 16.que las varianzas en los estratos con y sin teléfono son iguales.500 MUJERES 2. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni HOMBRES 2. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? n1 = 1677. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen Solución: fuera de ella. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono.8 14. Después de obtenidos los datos se observa que sólo 201 .1 13. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres.107 = 2. Omitir el corrector por población finita.16 = 10.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error. Solución: y st = 187.15 2 1.700 ni 100 400 yi 120 250 9. Solución: y st = 8. obteniéndose los siguientes datos: Número de hijos ni n ∑ yi S i2 i =1 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. 2 ≈ 1677 n2 = 107. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio.5 2 29.

3451 = 13.9 ≈ 96 n2 = 200 × 0. 2 ≈ 38 n3 = 200 × 0. No habiendo diferencia entre los costes de observación de cada grupo. Ya que los obreros. formando con cada grupo un estrato. en un determinado mes.38 ⇒ p st = 38% 2 V ( p st ) = 0. la corporación decide usar muestreo estratificado.9 ≈ 66 17. 4795 = 95. costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones.5941 = 23. Solución: p st = 0.8 ≈ 24 n2 = 40 × 0. mediante muestreo aleatorio estratificado después de seleccionar la muestra.3296 = 65. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 202 . En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos. 0608 = 2.1909 = 38. 0687 ⇒ 6.87% 15. y de datos actuales se obtienen los tamaños de los estratos. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados. Obreros Técnicos Administrativos Si2 36 25 9 Ni 132 92 27 Solución: n1 = 40 × 0. 4 ≈ 2 16.50 de los encuestados fueron hombres y el resto mujeres. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos.8 ≈ 14 n3 = 40 × 0. técnicos y administrativos tienen diferentes tasas de accidentes. Solución: n1 = 200 × 0. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error. determine la mejor asignación para una muestra de 40 empleados.

20. 15. en tres categorías: pequeña. Omita el coeficiente corrector por población finita. obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. 31. 12. 34 Considerando los anteriores datos como una muestra previa.9%. Estime la proporción de piezas defectuosas de la factoría y dé el límite del error de estimación. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías. 12 Mediana 6 16. Un establecimiento dispone de 300 piezas pequeñas. 14. 24. Dé un límite para el error de estimación. atendiendo al calibre. el coste de obtención de esta información en cada empresa así como los valores mínimos. Solución: pˆ = 3. 500 medianas y 200 piezas grandes.000. Se les pasó control de calidad a 200 piezas. siendo 6 de ellas defectuosas. 79 ≈ 14 n2 = 45. Para ajustar sus tarifas desea estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto del seguro).Obtenga una estimación del valor medio de la factura de electricidad en la ciudad.24€ 18. 18 Grande 4 30. 22. 05€ i =1 2 V ( y st ) = 25. 33. El número de empresas de cada tipo.99 ≈ 46 n3 = 11. medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) 203 .87 ≈ 12 n = 72 19. La producción de piezas de una factoría se realiza en dos máquinas.74% 20. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. 67 producidas por la máquina A y dos de ellas resultaron defectuosas. 0625 2 4N 4. 20. Para la comercialización de un producto se le clasifica. 66 2 i n1 = 13.000 = = 0. Solución: (∑ N σ ) 2 L D= B2 250. B = 2. resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Se clasifican las empresas en función de su tamaño.000 n= i =1 i L i N D+∑ N iσ 2 i =1 = 71. mediana y grande. las 133 restantes procedían de la máquina B. Solución: y st = 1 N 2 2 Ni ∑N y =∑ N i =1 i i y i = 65.

El coste de transportar mercancías en avión depende del peso. n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€) 21. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. n3 = 33.84 ≅ 95. de cada estrato.3 59. para las dos semanas.65 ≅ 21 ⇒ n = 202 22. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque. A partir de la información proporcionada por la siguiente tabla.Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación.7 59.1 59.3. Se decide estratificar basándose en las semanas.5 . n1 = 94. mostraron las siguientes mediciones: Semana A Semana B 204 58.6 58. obtener el número óptimo de padres que.53 ≅ 34. n 2 = 34. con el fin de observar si existe variación semanal en la cantidad producida. (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados 150 130 120 100 Porcentaje de participación en años anteriores 40% 30% 25% 20% Coste de encuestar a un elemento 4 9 16 25 4-6 6-8 8-12 12-14 Sol. hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. n 2 = 51. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas.3 59.6 60. ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? Solución: n1 = 8.27 ≅ 52.8 59.2 59.2 60. n3 = 36.4 60. n 4 = 20. n = 200.1 58.

80 ≅ 23.30. c. n 2 = 31. con unas cuasivarianzas de 80. n1 = 34. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas.a. Solución: (a) τˆ = 19.98 ≅ 59. Estimar el peso total del embarque de maquinaria. 30 y 40 respectivamente.30. la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal.67. Solución: (a) pˆ = 0. sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.30 ≅ 32 ⇒ n = 67 23.17 ≅ 13 ⇒ n = 134 24. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar N 1 = 65 N 2 = 42 N 3 = 93 N 4 = 25 Tamaño muestra n1 = 14 n2 = 9 n3 = 21 n4 = 6 2 8 1 Nº cuentas no cobradas 4 a. n3 = 58. se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis. Se usa muestreo aleatorio estratificado. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación.850'56) (c) n = 65.593'71.35 ≅ 39. con un límite del error de estimación del 5%. en el caso de que se quiera estimar el peso total del embarque. la distribución de los alumnos según el tipo de aprendizaje es 50 normal.13 (b) (19.722.1173 (b) n = 132. siendo el coste de muestreo igual para todos. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. n 4 = 12. b. el tipo de aprendizaje de cada estudiante): 205 . Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. b.37 ≅ 35. A=Avanzado. con un límite para el error de estimación de 50 kg. En el presente curso. clasificado como N=Normal. se tomó una muestra aleatoria de estudiantes. n1 = 38. L=Lento. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Para actualizar esta información. con cada tienda como un estrato. Determinar el tamaño de la muestra y su asignación. 89 para el avanzado y 70 para el lento. 30 avanzado y 20 lento. La cadena está formada por 4 almacenes. B = 0. n 2 = 22. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje. 19.

70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a.69). utilizando asignación proporcional. De una medida del error de estimación.15 ≅ 19.87. B = 4. B = 3. n3 = 7.91 206 n1 = 7. Estime. Usando estos resultados como muestra previa. ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) µˆ = 78. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos. con un intervalo de confianza. teniendo en cuenta más información.8 ≅ 17 25.25 (c) n = 36. Se desea mejorar la estimación de la nota media del examen final en matemáticas. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales.53. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Se desea estimar el salario medio de los empleados de una empresa.31. b. c.26 ≅ 8 ⇒ n = 38 (d) (11. n1 = 18.59.14 ≅ 20 ⇒ n = 28 . ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: Neyman n = 26. n 2 = 10. el número de estudiantes con aprendizaje normal que han superado los 80 puntos. d.89 ≅ 11. Estime la calificación media en el examen final de matemáticas. 21 (b) µˆ = 77. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación. Si se pudiera planificar de nuevo la muestra. n = 16. 43. así como determine la ganancia en precisión. 77 ≅ 8 n2 = 19.

Se sabe que el total de superficie plantada es de 3.04 1. ascienden a 1.053.44 1.200 3. 07€.5 16 3. Solución: τˆy = 1.053. Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola.4 16 4.000 1.800 1.502.002.702.600 1.56 1.87 1.339. De el LEE.4 14 207 .502.4.402.000 981.116.537. vía declaración de la renta. Se sabe que los ingresos en dicha ciudad. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción.37€ 2.53 1.46 1. Regresión y Diferencia 1.204 1.7 18 6 20 3 8 7 20 5. Los resultados fueron: Superficie Producción 3.530 euros mensuales.06 800 2.702.240 1.005.1 15 5. Se desea estimar el consumo mensual de una ciudad. Estimación de Razón.519.7 12 4.840 hectáreas.3 14 4.080. Renta Consumo 1.8 12 8 24 5.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón.19 2.36 1.1 11 5 15 5.803.484 3.06 2. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla.85 1.04 1.080 1. B = 59.400 2.

: µˆ = y = 16 tm. Bµ = 1. Bµ = 0. b) Supongamos que queremos reducir el LEE de la media a 0.4 150 4.3 140 4.57 tm.s.1 135 5 150 5.2 22 a) Estimar la producción media y total mediante los estimadores de razón y m. 38 socios para estimar el total. Dar LEE.8 120 8 160 5. τˆy = 11.5 140 5 150 5.5.9 18 5.a.5 18 5 15 5.1 150 5.7 120 4.a. 76 tm (b) 43 socios para estimar la media. Los resultados son: Gastos Ventas 3.6 17 5 15 7. 3.14 tm m. τˆ = 12. Bτ = 278.37 tm. Bτ = 1. Para un grupo de 1. se toma el máximo n=43. el gasto en publicidad es de 5 euros.000 pequeños establecimientos se desea realizar un estudio sobre la media y el total de ventas diarias.680.s.000 tm. por término medio. 61 tm. 208 . Se elige al azar una muestra de 18 establecimientos y se les toma dato de su gasto en publicidad diaria y sus ventas diarias. 69 tm.9 150 6.7 125 6 130 0 80 7 150 5.5 160 3.265. Se tiene información de que.6 170 a) Estimar la media y el total de ventas diarias utilizando estimadores de regresión. Dar sus respectivos LEE y compararlos.25 toneladas y el LEE del total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución: (a) razón : µˆ y = 15.4 120 5.

860. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos. Bτ = 5.31€.3104€ τˆyL = N µˆ yL = 87.67 ≅ 362 establecimientos 4. b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución: (a) Muestreo aleatorio simple µˆ = y = 453.56€.38€.559.879 x Bµ = 9. B µ = 5.314. Se tiene información de que los ingresos medios diarios son de 500 euros.5€ Bτ = 1.97€ Estimadores de razón r= y = 0. obteniéndose: Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 a) Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple.500€ 209 .b) Se quiere repetir el estudio anterior de forma que la estimación del total no supere los 1.900€ µˆ y = r µ x = 439. estimadores de razón.040. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.5€ τˆ = Ny = 90.000 euros ¿cuál debe ser el tamaño muestral? Solución: (a) µˆ yL = 138.515€ Bµ = 2. 09€ Estimadores de diferencia µˆ yD = 437.3€ τˆy = rτ x = 87. regresión y diferencia. Obtenga el LEE en cada caso.46€ Estimadores de regresión µˆ yL = 437.503€ Bτ = NBµ = 462.5€ τˆyD = N µˆ yD = 87.700€ ˆ µˆ ) = 75.76€ (b) n = 361. τˆ yL = 138.20€ Bµ = 2 V( Bτ = 200 × Bµ =15.

ese total es de 128. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. estime el total de ganancias con un intervalo de confianza.1467.200 €. Solución: a) τ y ∈ (129940. B = 0. Solución: r = 0. 67 . 138668.85 ) 210 . Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 a) Usando un estimador de razón.Bµ = 2 Vˆ ( µˆ yD ) = 2. y establezca un límite para el error de estimación.179 Bτ = NBµ = 435. estime las ganancias medias y establezca un límite para el error de estimación. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior.0102 6.8899 (b) 20 establecimientos 5. para las familias de una pequeña comunidad. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. b) Utilizando un estimador de regresión y un estimador de diferencia.

Diferencia: n = 66. τˆYD = 231. Los datos se presentan en la tabla adjunta: Industria Producto de fábricas textiles Productos químicos y relacionados Madera aserrada y leña Equipo eléctrico y electrónico Vehículos y equipo Transporte y almacenaje Banca 1980 13. τˆYL = 231.38 ≅ 42 .5 211 . Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas la campaña actuales la campaña Actuales 1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257 a. 28 .094.56 ≅ 45 . 28.66.4 35. B = 41.2 48.511.53. B = 3. Regresión: n = 41.4 19.b) µˆYL = 1. 7.256 €. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el error de estimación igual a 2.2 (en miles de millones). b.1 53.7 15.084.85 .611. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. 46 .581.950.4 1981 14. Solución: (a) τˆY = 231.6 25. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular.174. Una muestra aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. µˆYD = 1. Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2. Supóngase que las ventas totales en el periodo previo a la campaña de promoción fueran de 216. B = 3.000€. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes.00.5 44. B = 2. B = 40.5 42.6 33.86.83 .073.9 48.16 ≅ 67 8.01 (b) Razón: n = 44.7 15. Use los tres métodos de estimación con información auxiliar.6 37. Use los siguientes datos para estimar el total de ventas para el periodo actual y establezca un límite para el error de estimación.849.

En una población de 500 hogares.90. B = 45.000 Antes de calcular el estimador.000 31.000 17. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros). se quiere estimar el gasto total en alimentación durante un año. justifíquese.95 (b) τˆYL = 2.500 15.30.000 €.000 10.Bienes Raíces 198. para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.07 9.91.2 Servicios de Educación 15.205.0 17. para la que es conocido que el gasto total general durante un año es de 15. (c) Encuentre el estimador de diferencia del ingreso total de 1981. en el presente mes.432. en 5 de las 250 oficinas que tiene abiertas una agencia de seguros.3 Servicios de Salud 99.455. y establezca un límite para el error de estimación. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza.000 36. este año (Y) y el año pasado (X): 212 .500 Gasto general 24.172€ ) 10. 7. Solución: τ y ∈ ( 7.000 20. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) τˆY = 2.64 (c) τˆY = 2.000. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante.693€ .4 (a) Encuentre el estimador de razón del ingreso total de 221. han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros. estime el total de ingresos y el límite para el error de estimación.659. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes.433. y establezca un límite para el error de estimación.14 € 11.0 1981. Solución: τ yD = N µ yD = 3349000 € V (τ yD ) = N 2 N − n S D2 S2 = N ( N − n ) D = 50169875 € 2 N n n 2 V (τ yD ) = 14166.2 114. Las diferencias entre ingresos y gastos. B = 48. ¿cree que es útil utilizar esta información auxiliar?. (b) Encuentre el estimador de regresión del ingreso total de 1981. y establezca un límite para el error de estimación. B = 180.

Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. Solución: r = 11'81 litros / hectarea 2 V (r ) = 0 '3392 13. B = 49. n 2 = 8. n1 = 10. estime las ventas medias para este año utilizando un estimador de razón.53.1 3.69 (b) µˆ = 171.53 (d) La mejor estimación es en la que se usa el estimador de razón. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas.9 3.0 2. Compare los estimadores que se obtienen en cada caso justificadamente.91. n3 = 6 Zona A Zona B Zona C X Y X Y X Y 3. por la fuerte relación entre las variables. N 3 = 40. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. B = 53. b.0 3. 12. Por este motivo. Se seleccionan al azar 10 parcelas cuyo tamaño y litros utilizados en riego aparecen en la siguiente tabla Litros 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. B = 5.1 3.0 4. Solución: (a) µˆ = 180. Sin hacer distinción entre pueblos.81 (c) µˆ = 171.8 3. Se obtuvieron los siguientes resultados: N1 = 80. deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y).9 2. Dé un límite para el error de estimación. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.43.7 213 .8 3. N 2 = 60.0 4.2 4.

0 3.1 3.4.2 2. c.1 3.01 para estimar el peso medio estratificado al final del tratamiento.8 3.8 2.0516.0 3.0008. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. Dar el límite de error de estimación.1467.15 ≅ 49.2 4.9 3.1 3.8 a.8 3.9 4.8 3.8944. B = 0. n3 = 32.1 3. n1 = 64.1 ≅ 33 ⇒ n = 147 (c) µˆ y = 4. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. n 2 = 48. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3.0 3.7 2.0793 (d) µˆ = 3.9 2.7 3.9 3.2 4. b.0 3.0617 14.8 3.8 4.8875.1 3.8 3.9 3.9 4. En una escuela de 560 alumnos. se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01.2. ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación proporcional. Comentar los resultados. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Dar una estimación del error.0 3.8 2.2 ≅ 65.2 kilogramos. Si se le permite un error de estimación de 0. µˆ y = 3. estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón.6 3. Solución: (a) µˆ x = 3. B = 0.7 2. Los resultados fueron los siguientes: 214 Nota curso 99/00 Nota curso 00/01 80 87 78 65 98 86 45 47 .2 4.1 3. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75. d. B = 0.0523 (b) n = 144. B = 0.1 3.0 3.

Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador.. Parcela 1 2 3 4 5 6 7 8 Cantidad en fotografía 12 30 24 24 18 30 12 6 Cantidad en terreno 9 10 36 42 18 42 24 36 24 36 14 10 48 54 a. De una población de 40 hogares.44 ) (c) n = 38. se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. el director divide la zona en 200 parcelas de hectárea y media. B = 428.31. Se toma una muestra aleatoria de 10 parcelas. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. con un límite de error de estimación de 200 abetos? Solución: (a) r = 1.000 um. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. obtenidos según la cantidad en fotografía es 4200. ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? 215 . 1'4097) (b) τˆ y = 5.9 ≅ 39 16.000. Usando una fotografía aérea. b. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. b.492.61 67 83 94 79 67 56 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón.45 15. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos. es de 12. en general. para la que es conocido que el gasto total general durante un periodo de un año. B = 7. Solución: µˆ y = 75.3077. El número total de abetos muertos. Estime la razón poblacional y obtenga su intervalo de confianza. Dar una estimación del error de muestreo. c. (1'2057.

¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio.000.255. a partir de los datos de la tabla siguiente.5 B = 0. Corroborar la respuesta del apartado b indicando qué estimador es mejor.744) (b) ρ = 1 (c) τˆ y = 6. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Solución: (a) (4. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Solución: r = 3. 216 .767 18. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. 6. A partir de los datos siguientes: x = 9. Sin tener en cuenta el sexo. Estimar mediante un estimador de razón el total de gasto en alimentación. b. d. se pide: CHICOS CHICAS Examen previo Examen de cálculo Examen previo Examen de cálculo 39 65 57 92 43 78 47 89 21 52 28 73 64 82 75 98 34 56 52 75 a. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas.1 y = 2. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. utilizando la información auxiliar del apartado b. De una medida del error de estimación.000 (d) B = 0 (límite del error de estimación del apartado (c) 17.6 25 ∑ xi2 = 2240 i =1 25 ∑ yi2 = 169 i =1 25 xi yi = 522 ∑ i =1 estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%.c. Compare los estimadores que se obtienen en cada caso justificadamente.724. estima la calificación media en el examen final de cálculo utilizando un estimador de razón.275. el del apartado a o el del apartado c.

y establezca un límite para el error de estimación.03 12.00 11.98 12.90 11.46 5.0259 (b) n = 217. Establezca un límite para el error de estimación. Suponga que 2.98 12. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete.87 12.800 autos pasan por el puesto de verificación durante el periodo de muestreo.85 11.01 11.97.98 11.80 11.87 12.89 11. B = 9. Cantidad de llenado (en onzas) 12. la Guardia Civil de Tráfico espera que pasen unos 5.83 11.91 11. b.800.54 (b) µˆ = 73. Suponga que N=1.01 11.88 12.1 ≅ 218 2.05 11.76.000 automóviles por el puesto de verificación.95 11.04 a.05 12.94. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Determinar el tamaño de muestra requerido para estimar µ dentro de 0.97 12.91 11.93 11.94 11.05 11. B = 0. Solución: (a) µˆ sy = 11. Estime µ .5 (c) µˆ = 76. Muestreo Sistemático 1. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia.98 11. Automóvil 1 8 15 Respuesta 1 1 0 2794 1 400 ∑ y i = 324 i =1 b. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día. a.72 11.93 12.87 11. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción.01 unidades.03 11.93 11. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. B = 10. B = 9. En un nuevo control.02 12.87 11.01 12.00 11. 217 .Solución: (a) µˆ y = 80.97 11.

La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente.370. los funcionarios deciden obtener estos datos cada décimo día.Solución: (a) pˆ sy = 0. B = 1. Establezca un límite para el error de estimación. B = 0. Sea y i = 1 si la i-ésima persona muestreada favorece los cambios propuestos e y i = 0 si se opone a los cambios.450 Use estos datos para estimar el número total de personas que visitan el museo durante el periodo específico.176.97 ≅ 1177 k = 4 3.1042 5. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 18 i =1 i =1 ∑ y i = 4.321. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. y establezca un límite para el error de estimación. 65 ∑ y i = 48 i =1 Solución: pˆ sy = 0. a partir de una lista en orden alfabético de los 650 miembros registrados. B = 0. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está en exhibición. Solución: τˆ sy = 48680.7385. y establezca un límite para el error de estimación.868. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980.34 4. Establezca un límite para el error de estimación. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? 218 . Puesto que el control de visitantes en el museo cada día es muy costosa. Los funcionarios toman una muestra sistemática de 1 en 10.8100.0364 (b) n = 1. 2 ∑ y i = 1.

850 23.616 1.144. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. B = 3.0 1960 2.927.3 1915 1.142 4. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Solución: µˆ sy Año Tasa Año Tasa 1900 0.17 . se observa.612.5 1970 3. una tendencia creciente en los datos de la muestra.Masculinos Nac.915.437.4 1975 1.5 1905 0.258 15. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑y i =1 i = 110 219 .2 1920 1.760.9 1955 2.8 1935 1.2 1940 2.078.731.935.179. 6.Año Nac.063 3. La gerencia de una compañía privada con 2.7 1945 3.816.6 1975 4.047.642 3. Natalidad 1955 2. Mejor.0 1960 2. (c) Si.7 1965 1.9 Solución: (a) µˆ sy = 1.719 1.304 3. (b) µˆ sy = 19.0 = 2.378 1.6 1910 0.852.67.613.Femeninos Total de Nac.7 1980 5. B = 139.073. 7. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión.35 .26.759. B = 0.708 2.6 1980 1.5 1930 1.973.8 1950 2.6 1965 2. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación.926.4 1970 1.257. en general.198 14.054 1.135 1.833.358 19.5 1925 1.386 18.576 4.295 26. aunque se rompa ese orden parcial en los años 1945-1955.57 .531.008 3.

(Se recomienda realizar con el ordenador los ejercicios 1. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Muestreo por Conglomerados. verificando la solución con el ordenador. 5 y 7 dado el elevado número de datos y resolver a mano. El valor de cada una de estas cuentas no suele superar los 21. ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Entonces decide usar muestreo por conglomerados.8 ≈ 215 ( N − 1) D + pq k≤ 625 = 3. Los funcionarios tomaron una muestra sistemática de 1 en 10. a partir de una lista en orden alfabético de los 650 miembros registrados. 2. El fabricante no puede obtener un coste de reparación para cada sierra. pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria.000 €. Para ello decide tomar una muestra sistemática de 1 en k .000. Solución: k = 10 9. obteniendo que 47 estaban a favor de los cambios propuestos. una versión con menos datos) 1. Solución: n = Npq = 214. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. Los datos sobre coste total de reparaciones por industria y el número de sierras son: 220 . El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1. Solución: n = 330. 04 ⇒ k = 6 8. 3. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios.000 cuentas por cobrar de una empresa. ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Un auditor se enfrenta a una larga lista de 1.000 € con una confianza del 95%. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. 7 ≈ 331 k = 6. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. con cada industria como un conglomerado. 02 215 k =3 6. Determine el valor de k.Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios).

B = 1. Usando esta información adicional. con cada planta como un conglomerado. B = 1. y establezca un límite para el error de estimación. Ya que los resultados deber ser obtenidos rápidamente y con poco dinero.312.110. La industria consiste en 87 plantas separadas localizadas en todo Estados Unidos.85. la industria decide usar muestreo por conglomerados. Solución: (a) µˆ = 19. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política.73.07 (c) τˆ = 14. Establezca un límite para el error de estimación.008. Se selecciona una muestra aleatoria simple de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. y establezca un límite para el error de estimación. el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. b.175. estime la cantidad total gastada en reparación de sierras por estas industrias. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras.78 2. B = 3. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 221 . c. Después de verificar sus registros de ventas. Estime el costo medio de reparación por sierra para el mes pasado.78 (b) τˆ = 12.Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a.

Ya que no se encuentra disponible una lista de hogares. B = 4. Solución: (a) pˆ = 70.91%. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados.81% ) (b) n = 47. se usa muestreo por conglomerados.3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 a) Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60.6 ≅ 48 3. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 222 . Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 2% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. con barrios formando los conglomerados. b) La industria modificó su política de jubilación después de obtener los resultados de la encuesta.

B = 0. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica.9 15. Solución: (a) µˆ = 40.0 15.9 16.1 16.9 15.1 16.1 15.9 16.2 15.1 15.0 15. c. con un límite de 5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal.4 ≅ 30 4. b.7 16. En la encuesta anterior se desconoce el número de hogares en la ciudad.3 15. y establezca un límite para el error de estimación.1 15.020.0 2 15.1 15.0 16.1 15.1 16.9 3 16.0 16. B = 0.0 16. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita.9 16.9 15. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad.8 16. Los resultados se muestran en esta tabla: 223 .0215 5. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados.8 16.2 16.0 15.8 16.0 15.1 16.9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica.8 16. El cereal está en paquetes que contienen 12 cajas cada uno. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite.1 16.8 15. pero antes de que se haya hecho la cuenta final de los votos.0 16.9 16.3 15.0 16.3 15.927.1 15. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar.1 4 15. con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado.0 16.2 15. para obtener la información pertinente directamente de los votantes.0 5 16.8 16. B = 6.8 16.17 78 3210 18 51 2430 19 67 2730 20 70 2880 a.88 (c) n = 29.1 15.64 (b) τˆ = 157.000€ para el error de estimación.3 16. El periódico quiere hacer la estimación el día de la elección.9 16.9 16.1 16.0 15. Solución: µˆ = 16.1 16. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados.2 16.9 16.17. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra.9 16.9 16.2 16.0050.7 16.

Solución: n = 96.92 ≈ 97 7. usando los datos de la encuesta piloto. El periódico quiere realizar una encuesta similar durante la siguiente elección. B = 0. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: pˆ = 0.200 hogares agrupados en 700 manzanas de viviendas. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes.0307 (b) n = 20. y establezca un límite para el error de estimación. Con motivo del cuarto centenario del Quijote. cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades.5701. obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias. Por esta razón para el diseño de la 224 . b.Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Se selecciona una localidad con 6.1 ≅ 21 6. el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Estime la proporción de votantes que apoyan al candidato A.

obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas.500 residentes en la ciudad. suponiendo que M es desconocido.490 ) y estime el total por los dos métodos 225 . c) Suponiendo que existen 2. supongamos conocido M = 6 × 415 = 2. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. mi = 6 ∀i .encuesta utiliza muestreo por conglomerados. NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo. Los conglomerados son numerados del 1 al 415.

B = 0. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados.( ) estudiados τ = M y τ t = N y t . Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo.14€ b) τ t = 22.791.400 € B = 3.7 34.5 31.801.6 Estime el volumen medio por envase y dar la cota de error de estimación.34€ .2 5 32 32. Solución: Muestreo por conglomerados τˆ = 8000. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica.5 3 30. Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación.2 2 32 32. cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. Solución: a) µ = 8.1 32. d) Tomando los anteriores datos como una muestra previa. 26.949. obtenga el límite para el error de estimación en cada caso y comente los resultados. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: 226 . El número de bajas en el último año. 04 € c) (17. Solución: µˆ = 32.584.056.1 33.6 33.85 Muestreo aleatorio simple τˆ = 6400. B = 1077.617.061.1 32.80.5 33.1 33 33. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil.831. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cm3 1 33 32.32 € / residente B = 1.9 33.505.18€ ) d) n = 166.6 33.8 32.78 9.22 10. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una comunidad de 4000 hogares divididos en 400 bloques. cada uno de los cuales contiene 4 envases.4 4 34. y se mide el volumen que cada envase contiene.58 ≈ 167 8. B = 562.

Empresa 1 2 3 4 5 6 7 8 9 10 a. Estime el número de Bajas Empleados Respuesta 1 7 Si 2 15 No 9 85 Si 0 3 No 2 12 No 0 8 No 1 21 Si 0 4 No 4 35 No 6 92 Si bajas en el último año en las empresas del pueblo. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital Nº total horas que ven programa 1 8 13 2 7 13 3 9 14 4 6 13 5 5 0 6 9 10 7 6 6 227 .68% 11. Dicha ciudad está dividida en 200 manzanas de viviendas. b. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación.02 (b) pˆ = 40%. B = 0. Dé el límite del error de estimación.0674 12. Dé el límite del error de estimación. Estime la proporción de empresas que usarían los servicios ofertados. Solución: pˆ = 0. Solución: (a) τˆ = 212.5. y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio.1333. Se extrae una muestra aleatoria simple de 10 manzanas. B = 151. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano''. emitido las 24 horas del día por un canal Digital. Cierto tipo de tableros posee 12 microcircuitos cada uno. B = 30.

Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital. 2704. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital.30. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la Nº hogares manzana interesados 1 8 3 2 7 3 3 9 4 4 6 3 5 5 2 6 9 4 7 6 3 8 8 3 9 9 4 10 6 2 a. b. Obtenga un intervalo de confianza para la citada proporción.4 ≅ 197 13.4247 (b) (0'3947. y se elige una 228 . (b) (1415.28 ≅ 65 14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Estimar la proporción de hogares interesados en contratar la televisión digital. Obtener un intervalo de confianza para el número total de horas. c. con un límite para el error de estimación de magnitud 20. 0'4547) (c) n = 64.8 8 14 9 9 16 10 6 4 a. Se consideran 1000 conglomerados de 5 familias cada uno. Solución: (a) pˆ = 0. b. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Determinar cuántas manzanas se deberían muestrear para estimar la proporción poblacional con un límite para el error de estimación del 1%. c. Solución: (a) τˆ = 2060 . Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios.70) (c) n = 196. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas.

Solución: (a) τˆ = 600. en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción.0002 16. Solución: pˆ = 0. B = 308.muestra aleatoria de 10 conglomerados. b. los resultados han sido: Factoría Nº empleados Dispuestos 1 250 225 2 190 175 3 210 190 4 400 350 5 150 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa. Los datos son: 9 6 3 10 2 a. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Solución: pˆ = 0.48. 20 ≅ 7 229 .1167. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas.0143 15. Un gran embarque de mariscos congelados es empaquetado en cajas. Obtenga una estimación de la varianza del estimador empleado. Vˆ ( pˆ ) = 0. 22 (b) n = 6. conteniendo cada una 24 paquetes de 5 kilos. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. Hay 100 cajas en el embarque. Vˆ ( pˆ ) = 0. con un límite de error de 275. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque.

Cada uno es marcado y soltado. B = 150. Después de ser capturadas. Solución: Nˆ = 10. se devolvía inmediatamente. sea atrapan 100 truchas. Se usa una serie de 50 trampas. Estimación del Tamaño de la Población. Obsérvese que la muestra representa 100 peces diferentes. B = 715. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Estime el tamaño de la población total y establezca un límite del error de estimación.82 4. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Solución: Nˆ = 200. Los regentes de una ciudad están preocupados por las molestias que causan las palomas alrededor del ayuntamiento. se marcan y se sueltan.51 3. Durante un periodo de varios días. Con varias trampas se captura una muestra de 60 palomas. Supongamos que este número fue de 27 en la segunda muestra. Estimar el tamaño total de la población de codornices y dar un límite de error de estimación. Un club deportivo se interesa por el número de truchas de río en un arroyo. A fin de cuantificar el problema contratan un equipo de investigadores para que estime el número de palomas que ocupan el edificio.88 5. por lo que una 230 . Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Un mes después se repite el proceso. de las que 18 están marcadas.4. ya que cualquier pez atrapado en esos días.7. Un mes después se atrapa una segunda muestra de 2562. En la primera muestra se atrapan 320 codornices. Solución: Nˆ = 444. Luego se sueltan todas las aves. Supongamos que 678 tienen marcas en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Se atrapa una muestra aleatoria de 2876 salmones. Ella cree que el tamaño de la población está entre 500 y 1000.867. que ya había sido marcado. 1. Suponga que 91 de estos pájaros están marcados. Solución: Nˆ = 1810. usando 60 palomas.60 2. B = 78. cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda.72.99. Varios meses después se obtiene una segunda muestra de 515 codornices. B = 344. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. se marcan y se devuelven al arroyo. Estimar el tamaño total de la población de palomas y dar un límite de error de estimación.

Se observa que 114 personas solicitan información.muestra inicial de 100 parece ser suficiente.5 acres cada uno. Las 100 tortugas son capturadas.1 (b) Mˆ = 1.A. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar para estimar los ingresos diarios. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad.8 8. El hermano de un alumno de T.32 7.A. Estimar el total de personas que visitan la oficina diariamente y dar la cota de error de estimación.6. B = 507. marcadas y liberadas. para lo que fue necesario contar hasta 382 alumnos. Un alumno de A. repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Este asiduo alumno de T. durante 12 intervalos de 5 minutos cada uno. B = 423. Solución: Mˆ = 912. Solución: (a) λˆ = 5.066. En una plantación de pinos de 200 acres. se va a estimar la densidad de árboles que presentan hongos parásitos.C. Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se toma una muestra de 10 cuadros de 0. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas.M.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de 231 . B = 170. Solución: muestreo inverso (1910 ∓ 326. Las diez parcelas muestreadas tuvieron una media de 2.8 árboles infectados por cuadro. B = 2. decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. Atrapa 160 tortugas antes de obtener las 15 marcadas.120. sentado en un banco del pasillo. En un intercambio de clase. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad.67.72 6. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas.58 ) 9. está pensando en abrir una farmacia de 24 horas.T. Solución: Nˆ = 1.

Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Solución: Nˆ = 2. Solución: Muestreo por cuadros Ingresos = 20.137.76 . Se capturan 80 palomas. Estimar el tamaño total y el límite de error de estimación.clientes las 24 horas del día por lo que decide observar de forma sistemática media hora cada 3 horas.160.25 12. B = 1. B = 272. se han tenido que capturar para ello 300 aves. Se realiza una segunda muestra hasta encontrar 30 palomas marcadas. Transcurrido el mes.62 11. se marcan y se devuelven a la población.000. estime los ingresos diarios de la farmacia observada y el correspondiente límite para el error de estimación utilizando diferentes métodos. se marcan y se devuelven a la población. se ha observado en los 5 controles los siguientes resultados: Control Número de vehículos de ese modelo que usan el aparcamiento 1 1 2 1 3 2 4 1 5 3 Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.402. Solución: Nˆ = 800. B = 3. Muestreo aleatorio simple Ingresos = 20.22 10. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno.110. Se desea estimar el número total de palomas en la glorieta de una ciudad. Al día siguiente se elige otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Se desea estimar el número total de pingüinos en una determinada zona.160. obteniendo los datos de la siguiente tabla clientes 35 10:00-10:30 20 13:00-13:30 19 16:00-16:30 30 19:00-19:30 25 22:00-22:30 9 01:00-01:30 12 04:00-04:30 18 07:00-07:30 Sabiendo que el gasto medio por cliente es de 20∈. 232 . Se obtiene una muestra de tamaño 60. Estimar el número total de pingüinos y dar la cota de error de estimación. B = 5.

de dimensiones 100 metros de largo por 35 metros de ancho. Se selecciona una muestra aleatoria de 40 cuadros. Se quiere conocer el tamaño de la población de este año para compararlo con el del año pasado. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se traza una malla que divide el área total en 100 cuadros de igual tamaño. b. Estime el número total de asistentes a la inauguración y fije un límite para el error de estimación.13 ≅ 229 14. B = 7. Solución: λˆ = 210 part / cm 3 .59 13. B = 229. Se toman periódicamente muestras del aire en un área industrial de la ciudad. a. B = 814.48 15. 1. se obtuvo un promedio de 210 partículas/ cm 3 .Solución: Mˆ = 1152. Solución: (a) λˆ = 1. dividieron la sala de espera. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. La densidad de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. B = 136. y fije un límite para el error de estimación. Estime el número total de asistentes. Para ello. 1'6424) (b) Mˆ = 1875.4. a la vez que se aprovecha para marcarlas en una pata. así como dar una estimación del error de dicha estimación. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de confianza del 95%. (1'4188. Estimar la densidad de las partículas dañinas en dicha zona. b. 233 .5306. en 100 cuadros de igual tamaño y seleccionaron 40. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en la Expo de Lisboa. Se atrapa una muestra inicial de 600 palomas y se les da el fármaco. Solución: (a) (1. observando que el número de personas es de 750. a. Estime el tamaño de la población con un intervalo del 95% de confianza. En fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el crecimiento de la población de palomas. a.250. A partir de 15 muestras de 1 cm 3 . Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de confianza.6) (b) Mˆ = 5. observando que el número de personas era 2100.9 16.

7 Gerona 257.2 Inglaterra 595.8 544.A.B. al coste de los factores en millones de pesetas en 1991 fueron: V.869.025.m.b.4 248. en 1995. 1.5 30..876.920.318. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas. 200 y 96?.8 132.B. ¿en qué proporción deben ser mayores las cantidades 100 y 48 observadas en la segunda muestra?.3 Valencia 1.7 Tarragona 301.3 Comunidad Valenciana 1.0 Barcelona 2. Sabemos que. 1510 ' 21) (b) el cuádruplo 8.0 244.7 Bélgica 104.809.) Superficie (1000 km 2 ) Alemania 826.7 2.1 España 216..A..354.026.294. ¿el triple?.0 Baleares 358.450.0 301.0 234 . 7095 2. ¿se deberían observar el doble de las cantidades anteriores.3 Luxemburgo 4.3 41.9 Italia 473.2 504. es decir.4 43. cuyos V.160. Solución: (a) ( 989 '79.5 Dinamarca 76.3 Alicante 503. Solución: F = 0. el PIB a precios de mercado de los siguientes países fue: PIB (u.724.3 92.475.0 Holanda 165.8 Murcia 362. Para reducir el límite de error de estimación a la mitad.4 Castellón 205.1 Total 3230. ¿el cuádruplo?. Cataluña 2.8 Francia 674.3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país.6 Portugal 27.016.1 68.0 Grecia 42.1 Irlanda 24.5 2253. Indicadores estadísticos regionales.

El índice de concentración de Theil de la producción de esta zona. 235 . b.1597 j =1 IT = ITHEIL = T = 0.396.2 346. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga el índice de concentración de Theil e interprete su valor.056. 6865 = ∑ di = = 0. 6716 4 4 i =1 4 5.0 140. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga la desigualdad colectiva e interprete su valor.3 6.487.1152 ln N 4. Solución: N N i =1 i =1 D = ∑ di fi = ∑ di 1 1 N 2.503. Solución: N T = ln N + ∑ x j ln x j = 0. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 350 80 R1 70 15 R2 450 100 R3 250 50 R4 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.158.870.7 362.1604 (b) 68% 3. 1.B. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias existentes entre las provincias de cada grupo? Solución: (a) IT = 0.748.4 Determinar: a.8 206.Andalucía Almería Granada Málaga Cádiz Total V.379.A.

El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era: I Siderurgia 5 Construcción 10 Químicas 0 Papeleras 4 Alimentación 2 Total 21 Regiones II III 3 1 8 7 1 5 7 10 3 12 22 35 IV Total 0 9 12 37 3 9 3 24 4 21 22 100 Determinar: a. Los coeficientes de especialización para cada región. En un país. d. Químicas.87 (b) CLi Siderurgia 0.51 1.47 1. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia.22 236 .33 0.52 0. b. Papeleras y Alimentación. Construcción.57 0. Los coeficientes de diversificación regional. Los cocientes de localización para cada industria en cada región.54 1.29 0 0.46 Construcción 0.19 1. Solución: (a) Lij I II III IV Siderurgia Construcción Químicas Papeleras Alimentación 2.98 0.32 0. c.52 0.32 Papeleras 0.65 1.59 1.79 0.63 0 1. 1.65 0.45 1.14 Alimentación 0. Los coeficientes de localización sectorial para cada industria.Solución: F = 1− 1 N ∑ x j − y j = 0.97959 2 j =1 9.16 Químicas 0. Medidas de localización espacial. dividido administrativamente en cuatro regiones.

(c)
CE j
I
II
III
IV

0,25
0,12
0,23
0,22

(d)
CD j
I
0,61
II 0,73
III 0,77
IV 0,54
2. Se dispone de la siguiente información sobre número de ocupados para algunas
Comunidades Autónomas clasificados según ciertas actividades:
Energía Alimentos Industrial textil
Andalucía
10.000
65.000
20.000
Castilla La Mancha
3.000
18.000
14.000
Castilla León
19.000
30.000
8.000
Cataluña
15.000
60.000
90.000
a) Obtenga los coeficientes de localización de las distintas actividades.
b) Calcule los coeficientes de especialización para cada comunidad.
Solución:
a)
Coeficientes de localización sectorial
SECTOR
REGION S1
S2
S3
R1
0,0571 0,1058 0,1184
R2
0,0356 0,0046 0,0066
R3
0,2423 0,0115 0,1013
R4
0,1496 0,1219 0,2131

CL j

0,2423

0,1219

0,2197

b)
Coeficientes de especialización
regional
SECTOR

CEi
REGION S1
S2
S3
R1
0,0283 0,1927 0,1645 0,192733
R2
0,0478 0,0228
0,025 0,047808
R3
0,1998 0,0348 0,2346 0,234649
R4
0,0426 0,1278 0,1705 0,170455
3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente

237

Area/Especie Buitre Nutria Lince
I
15
8
60
II
12
9
40
III
16
7
10
IV
13
4
18
Obtener el coeficiente de diversificación de estas especies en las distintas zonas.
Solución: CDI = 0,59; CDII = 0, 68; CDIII = 0,9; CDIV = 0,8

4. En un país, dividido administrativamente en tres regiones, el sector industrial está
constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción,
Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes
subsectores y regiones era (expresado en centenas de miles):
Regiones
I
II III
Siderurgia
15 10 6
Construcción 165 110 66
Químicas
30 20 12
Alimentación 195 130 78
Calcule las diversas medidas de localización espacial e interprételas, justificando y
apoyando los comentarios en los datos del enunciado.
Solución:

(Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de
las tablas.)
datos
REGION
R1
R2
R3

S1
15
10
6

SECTOR
S2
S3
165
30
110
20
66
12

S4
195
130
78

Participación de las regiones en cada sector y en la población total
SECTOR
REGION
R1
R2
R3

S1
0,4839
0,3226
0,1935

S2
0,4839
0,3226
0,1935

S3
0,4839
0,3226
0,1935

S4
población
0,4839
0,4839
0,3226
0,3226
0,1935
0,1935

Participación de los sectores en cada región y en la población total
REGION
R1
R2
R3
población

238

S1
0,0370
0,0370
0,0370
0,0370

SECTOR
S2
S3
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741
0,4074
0,0741

S4
0,4815
0,4815
0,4815
0,4815

Cocientes de localización y especialización
Lij
SECTOR
REGION
R1
R2
R3

S1
100,00
100,00
100,00

S2
100,00
100,00
100,00

S3
100,00
100,00
100,00

S4
100,00
100,00
100,00

Coeficientes de localización sectorial
SECTOR
S2
S3

S1

CL j

0

0

S4
0

0

Coeficientes de especialización regional
CEi
REGION
R1
R2
R3

0
0
0

Coeficientes de diversificación de cada región
CDi
CDi*
REGION
R1
R2
R3

0,6178
0,6178
0,6178

0,49
0,49
0,49

5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
15
225
195
Región Sur
6
90
78
Calcule los coeficientes de localización sectorial. Interprete los resultados
Solución: La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es

igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza
en igual medida que todos ellos en conjunto.
6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
60
225
150
Región Sur
24
90
60
Calcule los coeficientes de especialización regional. Interprete los resultados
Solución: La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia

de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la
misma medida que el conjunto del pais.
239

7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
90
300
195
Región Sur
36
120
78
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución:
Yij2

L

S1

S2

S3

∑Y
j =1

2
ij

CDi =

Yi i2
L

L∑ Y
j =1

R1
R2

8100
1296

90000
14400

38025 136125
6084 21780

2
ij

CDi* =

0,838016529
0,838016529

L 
1
 CDi − 
L −1 
L
0,75702479
0,75702479

8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las
actividades que aparecen en la tabla en las dos regiones en que se divide un país es:
Region/Sector Agricultura Industria Servicios
Región Norte
90
0
0
Región Sur
30
30
30
Calcule los coeficientes de diversificación normalizados. Interprete los resultados
Solución: En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto

ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella.
En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando
la actividad de la región se distribuye uniformemente entre los distintos sectores,
(S1=S2=S3=30).

10. Contrastes χ 2 de Pearson

1. El gerente de una planta industrial pretende determinar si el número de empleados que
asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa
durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro
semanas completas de trabajo, se observaron los siguientes números de empleados que
asistieron al consultorio:
Lunes Martes Miércoles Jueves Viernes
49
240

35

32

39

45

¿Existe alguna razón para creer que el número de empleados que asisten al consultorio
médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la
semana?, ( α = 0.05 ).
2
Solución: ( χ exp
= 4,9 ) < ( χ 4;2 0,95 = 9, 49 ) . No existe razón para creer que el número que

asisten al consultorio no se encuentra distribuido en forma equitativa.
2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de
confirmar este hecho, se ha controlado el número de llegadas diarias al mismo,
obteniéndose los siguientes resultados:
Nº llegadas al cajero Nº de días
0
21
1
18
2
7
3
3
4 ó más
1
En base a esta información, ¿existe alguna razón para creer que el número de llegadas
diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 )
2
Solución: ( χ exp
= 0, 04 ) < ( χ 2;2 0,95 = 5,99 ) . Se acepta la hipótesis de que los datos proceden

de una distribución P (0,9) .
3. La siguiente tabla proporciona el número de erratas por página cometidas por una
secretaria de una cierta empresa:
Nº erratas por página Nº páginas
0
832
1
203
2
383
3
525
4
532
5
408
6
273
7
139
8
45
9
27
10
10
11 ó más
11
Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de
Poisson con parámetro 3.
Solución:

2
exp

= 3291, 05 ) > ( χ 9;2 0,95 = 16,92 ) . Luego se rechaza la hipótesis de que el

número de erratas por página sigue una distribución de Poisson con parámetro 3.
4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el
tiempo trancurrido desde su última visita al médico:
241

Ingresos/Visitas <7 meses 7 meses-1 año >1 año Total
Menos de 90.000
186
38
35
259
90.000-100.000
227
54
45
326
100.000-150.000
219
78
78
375
150.000-200.000
355
112
140
607
Más de 200.000
653
285
259 1197
Total
1640
567
557 2764
Contrastar a un nivel α = 0.05 si los ingresos y el tiempo transcurrido desde la última
consulta médica son independientes.
Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los

ingresos y el tiempo transcurrido desde la última consulta médica son independientes.
5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la
noche y si tienen o no cancer de pulmon:
Si fuman No fuman Total
Si tienen cancer
20
16
36
No tienen cancer
6
14
20
Total
26
30
56
Contrastar a un nivel de α = 0.05 si son independientes estos dos atributos.
Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia.

6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se
observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se
obtienen los siguientes resultados:
A B
Hombres 20 15
Mujeres 25 30
Contrastar la hipótesis de que la marca comprada y el sexo del comprador son
independientes.
Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca

comprada y el sexo del comprador son independientes.
7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había
problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla:
Barrio
A
B
C
Total

No Si A veces No lo sabe Total
5 31
2
2
40
10 21
4
5
40
11 20
7
2
40
26 72
13
9
120
Contrastar a un nivel α = 0.05 si son los tres barrios homogeneos respecto al conocimiento
de los problemas de polución en su ciudad.

242

Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres

barrios respecto al conocimiento de los problemas de polución.
8. Una muestra sobre el nº de personas que diariamente requieren información de un
producto financiero ofrece el siguiente resultado:
3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1
¿Se puede aceptar que el nº de personas que requieren la mencionada información se
distribuye según una ley de Poisson? ( α = 5% )

Solución:

2
exp

= 1,18 ) < ( χ 2;2 0,95 = 5,99 ) . Luego se acepta que el nº de personas que

requieren la mencionada información se distribuye según una ley de Poisson.
9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información
al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del
reclamante
A
B
C

≤ 30
8
12
22
42

> 30
28
44
53
125

36
56
75
167

El contraste a realizar es:
H0 : Tipo de producto y edad son independientes (no están asociados).
H1 : No son independientes (están asociados).
2
Solución: ( χ exp
= 1, 27 ) < ( χ 2;2 0,95 = 5,99 ) . Luego no hay motivos para rechazar la hipótesis

de independencia.
10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los
resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la
antigüedad? (α = 0, 05)
Sueldo\Antigüedad

<5 años

5-10

10-20

>20 años

0-500
500-1000
1000-2000
2000-3000
>3000
n• j

17
16
4
9
6
52

5
8
11
8
3
35

10
9
5
8
4
36

6
7
2
6
6
27

ni•
38
40
22
31
19
150

2
Solución: ( χ exp
= 13,1) > ( χ 6;2 0,95 = 12,59 ) . Luego existen razones para pensar que los

sueldos y años de antigüedad NO son independientes.
243

11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen
y sus calificaciones fueron registradas como baja, media o alta, obteniéndose:
Universidad A
Universidad B
140
105
BAJA
135
140
MEDIA
225
255
ALTA
Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la
misma (con α = 0, 01 )
2
= 6,95 ) < ( χ 2;2 0,99 = 9, 21) . La distribución de las notas es la misma en las
Solución: ( χ exp

dos universidades con un nivel de significación del 1%. Observese que se llegaría a la
conclusión opuesta con un nivel de significación del 5%.
12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una
empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla
Número de llamadas / hora
Número de horas
6
0
13
1
20
2
22
3
16
4
23
5 o más
Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una
distribución de Poissson con media 3,4. ( α = 0,1 )
2
Solución: χ k2−1,1−α = χ 4,2 0'90 = 7, 78 . Como ( χ exp
= 1,91) <7,78 aceptamos la hipótesis nula

de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con
media 3,4.
13. El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia
entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan
una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y
obtienen la siguiente información:
Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15
Más de 15
Salarios
años
años
años
años
34
14
16
36
Bajos (<1.000€)
82
20
34
64
Medios (1.000€, 1.500€)
84
16
50
50
Altos (>1.500€)
Contrastar la independencia de los salarios con la antigüedad al nivel de significación del
10%.
2
Solución: χ (2r −1)( c −1);1−α = χ 2*3
; 0,90 = 10, 6 .

244

si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. selecciona aleatoriamente las fichas informativas de 142 cajas de cartón.99 = 6.1−α . 15. resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar.72) <6. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año. 49 . 2 Solución: χ (2r −1)( c −1). 0. obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día 0 1 2 3 ≥4 Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. 6) . La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: 245 .1−α = χ 2*2 . 63 . pero no sabe si utilizar cajas de cartón. 14.0.95 = 9.8) > χ (2r −1)( c −1). Como ( χ 2 = 31.63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. utilizando un nivel de significación del 1%. ( χ 2 = 0.8833) > ( χ (2r −1)( c −1). (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 16. se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa.Como ( χ 2 = 10. al nivel de significación del 5%. madera o plástico. En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días. Para decidirse y utilizando información de otras empresas exportadoras. 123 cajas de madera y 128 de plástico.1−α = 10. 2 Solución: χ1. se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos.

95 = 12. el 62% de los estudiantes de último curso dejan de estudiar.233 χ (32 −1)(2−1). 4 χ k2−1.1−0.2 0. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0. 18. Se sabe que en un centro de Enseñanza Primaria. 0. el 37% pasan a formación profesional y el 1% pasan a enseñanza secundaria.1−α = 16.99 − Eij ) Eij 2 = 6. De ellos. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. b) χ 2 = 1. 006) > ( χ 6.Ausencias 0-5 5-10 Más de 10 Edad 30 9 20 16-25 31 22 10 25-40 25 20 9 40-55 35 14 15 55-65 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%. Solución: χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) Eij 2 = 13.95 = 5.1−α = χ 22×3 .05 = χ 2.81) . sin distinguir entre hombre y mujeres. 17. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos. 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo.81 Como ( χ 2 = 13. ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) χ 2 (n = ∑ ∑ r c ij i =1 j =1 χ (32 −1)(2−1). obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? d) En general. 54 dejaron de estudiar.2 0'90 = 4. 05 ) 246 . se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. 006) < ( χ (2r −1)( c −1).1−0. 006 χ (2r −1)( c −1).99 = 9. Sin embargo ( χ 2 = 13.99 = 16. 21 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta esa misma hipótesis nula con un nivel de significación del 1%.2 0.2 0.1−α = χ 2.01 = χ 2.59) . 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria.

21. 05 ) 2 Solución: χ 2 = 1. hay que compararlo con el valor χ (2r −1)( c −1). el 24% son europeos y el 1% de otros paises. Se toma una muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 18 consideran que son pocos útiles y 14 que son nada útiles. negativa o neutra de un auditor. si el cambio de auditor por las empresas no depende de la opinión que recibieron del auditor.2 Solución: χ 2 = 1.84 luego se acepta la hipótesis de que los porcentajes de alumnos que consideran los cursos útiles y poco o nada útiles son el 60% y 40% repectivamente.67<3. 1. De una muestra de 100 candidatos que se han presentado este año. 2.84 . a nivel del 1%.84 luego se acepta la hipótesis de que los porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente. históricamente. Se realizó una investigación para estudiar la reacción de las empresas ante las opiniones de importantes auditores.2 0. Como χ 2 > χ (2r −1)( c −1).027<3.33 χ1. el 36% como poco útiles y el 4% como nada útiles. ¿Los candidatos de este año han seguido el mismo patrón que en años anteriores? ( α = 0. 67 χ1. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que realizan como muy útiles. ( α = 0.84 .0. La siguiente tabla muestra.95 = 3. 70 eran americanos. cuáles cambiaron de auditor al año siguiente.0. Opinión recibida Positiva Negativa Neutra Cambiaron auditor 141 227 23 No cambiaron auditor 991 8051 14 Solución: χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 224. 027 χ1.333<3. 20. 63 .84 . 247 .99 = χ1.95 = 3. se rechazaría la hipótesis nula de independencia entre las opiniones de los auditores y la reacción de las empresas.223415 . Contrastar.99 = 6.1−α . En Estados Unidos se sabe que. 68 consideran que los cursos son muy útiles. Contrastar la hipótesis de que los resultados obtenidos se corresponden con la opinión personal del rector. 05 ) 2 Solución: χ 2 = 2.1−α = χ12×1.95 = 3. 19.84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% repectivamente. 0. 1. para empresas que habían recibido una opinión positiva. 21 eran europeos y nueve de otros paises. el 75% de los profesores de la Universidad de Harvard que se presentan a decanos son americanos.0.

1−α = χ12×1.95 = χ1. 11. 248 .2 0. 1023. 1007. de dos a cuatro y más de cuatro horas. Como χ 2 < χ (2r −1)( c −1). cuántos de ellos ven la televisión menos de dos horas. 998. Contrastes no Paramétricos 1. Número de botellas alcohol 0-1 2-4 Mas de 4 Anglosajón 19 45 3 Hispano 25 47 7 Contrastar. 0. Solución: χ 2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) Eij 2 = 1. 1015. Solución: χ 2 (n = ∑ ∑ r c ij i =1 j =1 − Eij ) 2 = 0.186078677 . 1018. 963. 0. para muestras independientes de hombres y mujeres. 957. La siguiente tabla muestra.84 . 981.22. 23. se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. 875. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos. hay que compararlo con el valor χ (2r −1)( c −1). a nivel del 5% si el alcohol consumido depende del origen de los individuos. 1035.1−α . 1048. Como χ 2 < χ (2r −1)( c −1).95 = 3. se acepta la hipótesis nula de independencia entre el consumo de alcohol y el origen de los individuos.84 . La siguiente tabla muestra los resultados. 1010. 910. hay que compararlo con el valor Eij χ (2r −1)( c −1). se les preguntó cuanto alcohol consumían a lo largo de una semana.563581681 .2 0. A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852. con edades comprendidas entre los 16 y los 24 años y de origen anglosajón o hispano.1−α = χ12×1.95 = 3.95 = χ1. 933.1−α . 1063.

 Dexp =  >  Dα =  ⇒ las dos muestras no provienen de la misma 16  16   16  población. El grupo 2 arroja puntuaciones mayores.1 Solución: α = 0.05 ) Solución: ( Dexp = 0.369 ) luego no existen motivos para rechazar la hipótesis nula. Con base en esta muestra y usando el test de KolmogorovSmirnov. F161 ( x) > F162 ( x) .1 8 10. por una N(985. 3. si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. Contrastar a un nivel α = 0. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar.1 si los datos siguientes proceden de una distribución Normal con media 10. ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.05 ) Solución: La función de distribución del primer grupo siempre es mayor que la del segundo grupo. lo que se refleja en que F161 ( x) > F162 ( x) . se obtuvo en sendas muestras de 5 y 4 meses. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa.1 4. n=m=16 Dα = 6  8  6 . la mejora que se produce en el rendimiento de cada trabajador. el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 249 .( α = 0.84 y desviación típica 3. o lo que es lo mismo. Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento.5 16 12.1594 ) < ( Dα = 0.1207 ) < ( Dα = 0.1 n = 10 ⇒ Dα = 0.1 12. de forma adecuada. los dos métodos no son iguales. la cantidad de unidades producidas de un artículo concreto. 4.5 8 15 12.En años anteriores el número de respuestas correctas estaba representado.327 ) luego no existen motivos para rechazar que el número de respuestas correctas está representado por una N(985.369 . utilizando el test de Kolmogorov-Smirnov. mediante un test que valora en una escala de 0 a 100.5: 10. lo que sugiere un contraste unilateral. ( Dexp = 0. α = 0. 05 . 50). 50). siendo evaluada posteriormente. 2.

los incentivos tienen efectos positivos sobre la producción. 32.5 = 32. comprobar si la productividad en los dos talleres es la misma.5) = 32. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar.5 = 110.05 )  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 1 + 2 + 3. 9 ) = 9 4×5 − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 n = 4.5 + 7. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. No incentivos Incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 442 RSI = 833 250 .5. (α = 0. U α = 1 (tabla 3.05) . (U 0 = 32. Solución: RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + U = min (11.5 U NO = (12 × 12 ) + 12 ×13 − 110. Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en cada situación y que los datos son los que se recogen en la siguiente tabla. por tanto. Se desea contrastar si determinados incentivos a la productividad son efectivos.5 + 5.5 + 20.19) (U = 9) > (Uα = 1) ⇒ los dos talleres producen lo mismo.5 ⇒ U SI = 144 − 111.5 U α = 42 .5 = 111. m = 5. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realizar el contraste utilizando la prueba de Mann-Whitney.Utilizando el contraste de Mann-Whitney.( α = 0.5 2 U 0 = min (111.5 + 17.5 + 10 + 10 + 12 + 17.5 + 3. 5.5) < (U α = 42) ⇒ rechazo la hipótesis nula.

51.  = N ( 312. 8. 14. Para contrastar si un determinado curso de perfeccionamiento es efectivo. 13.409. 05) ⇒ rechazo la hipótesis nula. 5%) valor crítico: 10.5 R− = 7.5<8 se rechaza la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo. 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0. 7. (bilateral. por tanto.5 . Con un nivel de significación del 5%. 7. proceden de una distribución normal de media 14 y varianza 2.4. 15.54   ( p = 0. 00007 51. 18.5. ( Dexp = 0. Según tabla 4. 14. controlando el tiempo medio empleado en concluir determinada tarea. 15. bilateral 5%).5<10 se acepta que el tiempo empleado en concluir la tarea es menor despues del curso.54 ) 12  2  117 − 312. Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales 251 .5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3. 6.117) = 117  25 × 25 25 × 25 × 51  U → N  . Los resultados son los siguientes Antes 12 15 9 16 13 17 12 14 8 10 11 Después 8 15 10 10 11 15 13 12 9 9 7 ¿Ha influido el curso en el tiempo empleado en concluir la tarea? (α = 0.5 R = 7.1088 ) < ( Dα = 0. contraste la hipótesis de que los siguientes valores muestrales 12. Test de los signos: El número de diferencias negativas y positivas (3 y 7 respectivamente) cae dentro de la región de aceptación [ 2. 12.U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508.05) Solución: Test de Wilcoxon de los signos-rangos: R+ = 47. 7. los incentivos tienen efectos positivos sobre la producción. 5%) valor crítico 8. Solución: Para n=10 y α = 0. se somete a una muestra de 11 trabajadores a dicho entrenamiento. 14. 409 ) luego no existen motivos para rechazar la hipótesis nula. 00007 ) ≤ (α = 0.25. 79] = 0. antes y después del curso. se acepta la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo.2 (unilateral. 8] (vease tabla 4. 17.

6 . 05 . 294 ) luego acepto la hipótesis nula.55 1 0. La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos menos de 10 10-20 20-30 30-40 40-50 50-60 Número de llamadas 15 17 26 18 13 11 Contraste. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov. la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos.81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. Con nivel de significación de 5%. Como ( χ 2 = 30. con un nivel de significación del 5%.6 2 0. contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 Muestra 2 Solución: Dexp 2 2 4 4 2 5 3 3 5 5 6 4 7 7 8 9 3 6 5 3 6 = 2 /10 = 0.294.85 2 0.1−α = χ 3. 9. usando el test de Kolmogorov-Smirnov. ( Dexp = 0.19 ) < ( Dα = 0.13) >7. n=m=10.81 .75 1 0. Dexp < Dα .X ni 2 0. Solución: χ k2−1. 10. Dα = = 0.2 0'95 = 7. 252 .45 3 0.8 4 0. 05 Dα =0. acepto la 10 hipótesis nula de que las dos muestras se han obtenido de la misma población.88 5 1 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1 x≤0   0 ≤ x ≤ 1 x ≥ 1  Solución: Para n=20 y α = 0. 2 α = 0.

1493 DT (0.0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas.05) bilateral = 0.1 ).4º 20. Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.9º 23. 05 ) Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0.6º 16. para un contraste bilateral.1613 . Buscando en las tablas. Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0. Al igual que con el anterior procedimiento de contraste se rechaza 100 H 0 dado que Dexp > DT 11.3º 24. Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov.304 Se acepta H 0 dado que Dexp < DT 13. por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. DT = 1. Solución: Dexp = 0.000 €? ( α = 0.3º 17. 253 .1358 . ( α = 0.Dexp = max F0 ( x ) − Fn ( x ) = 0. obteniéndose 23. Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado. 483 Dexp < DT . 12.10)bilateral = 0.8º 23.3581 = 0. 2451 n = 7 DT (0.000 € y desviación típica 10. Se ha observado la temperatura durante los dias de una semana en la recepción de un hotel. 2413 DT (0.519 .05)bilateral = 0.

Se desea verificar la aleatoriedad de la siguiente serie de valores 18. Buscando en la tabla 4.52 0. Es decir.52 0. 22 ( α = 0. ¿Proceden las dos muestras ligadas de la misma población? Solución: De la tabla 4. ( α = 0.02 0.39 0. de ellas 11 positivas y 2 negativas. 21. pues hay una pareja donde la diferencia es cero.2 se tiene que R = 13. Obtenemos 2 diferencias nulas y 13 no nulas. Contraste la hipótesis nula de igualdad de las poblaciones de procedencia.94 0.61 0.40. 18. un test al nivel del 5% unilateral. 19. 17. 18. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de que las muestras proceden de poblaciones distintas.4 obtenemos para n=13 los extremos 3 y 10.87 0. Supóngase que analizamos 15 pares de valores mediante el test de los signos.47 B (mg/muestra) 0.00 0.41 1.33 0. 19. Los resultados aparecen en la siguiente tabla. Supóngase dos muestras aleatorias independientes de tamaños n1 = 20. bilateral y al nivel del 5%. Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. por tanto no puede rechazarse la hipótesis nula. con ayuda de los extremos críticos inferiores del 5% de la tabla 4. al nivel del 5%. 21.85 0.51 Solución: n=8.84 0.70 0. 05 ) Solución: Únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice los tests de los signos y de Wilcoxon). 20. Sean A y B dichos métodos. 19. caso bilateral.5 > 3 . Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”.10 ) Solución: R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) 15. n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . Pasados tres meses se repite la encuesta entre las mismas familias. Para la comparación. Los valores vienen dados en miligramos contenidos en la orina de 24 horas.14. (utilícese el test de Wilcoxon de los signos-rangos) Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0.36 0. 254 . No se sabe si la distribución de los valores es normal.46 0. 18.47 1. 16. dispone de 9 muestras de orina. 17.

5 R− = 54.33 < −1. se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. que se obtienen con la venta de un determinado producto. 645 (unilateral 5%. Según tabla 4.5%. En este ejemplo parece más adecuado el test unilateral dado que claramente predomina el cambio de signo en la opinión en un sentido frente al opuesto.5 para n=150=126+24.5 .96 que 24 con 63). Se encuestan 40 establecimientos para conocer los beneficios diarios.96 (unilateral 2. bilateral 5%) al mismo resultado se llega con estos otros niveles de significación.99 . el extremo izquierdo para el test bilateral con α = 5% es 63. es lo mismo comparar -8. Test de los signos: El número de diferencias negativas y positivas (9 y 3 respectivamente) cae dentro de la región de aceptación [3. 5%) valor crítico: 13.5 R = 23. Antes de realizar una campaña de publicidad.5 ⇒ σ = 6. 9] (vease tabla 4. Solución: µ = np = 24 − µ σ n 150 = = 75 2 2 σ 2 = npq = n 150 = = 37.124 4 4 = −8.5>13 se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado.96σ = 62.33 con -1.4. Los resultados se recogen en la siguiente tabla DESPUES DE LA CAMPAÑA BUENA NO BUENA ANTES DE LA BUENA 30 24 CAMPAÑA NO BUENA 126 20 Utilice el test de los signos para contrastar la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. como 24<63 se llega a la misma conclusión que antes (donde 63 ≅ µ − 1.2 (bilateral. bilateral 5%).Familia nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78 Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82 Solución: Test de Wilcoxon de los signos-rangos: R+ = 23. Después de realizada la campaña.33 < −1. bilateral 10%) se rechaza la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. 24 − µ σ = −8. en euros. 19. 23. se realiza una encuesta a 200 personas a las que se les solicita su opinión sobre un determinado producto financiero. Según la tabla 4. 20. se realiza la misma pregunta a las mismas 200 personas. Al cabo de tres meses se repite la 255 .

13. 14.5 .5 R− = 254. 21.4. sigue siendo la misma.2 (bilateral. 15. 12. 10. 210.5 R = 210. 13. 286 n1 y n2 grandes DT (0. 464 22 ×14 Dexp < DT . 23. 14. 17. 11. al cabo de tres meses. Nº de encuesta 1ª muestra 2ª muestra Nº de encuesta 1 16 17 21 2 20 24 22 3 8 12 23 4 9 6 24 5 27 24 25 6 12 15 26 7 35 28 27 8 25 25 28 9 15 17 29 10 30 21 30 11 16 30 31 12 32 31 32 13 21 21 33 14 23 26 34 15 19 21 35 16 32 32 36 17 27 32 37 18 16 14 38 19 21 21 39 20 34 30 40 Solución: Test de Wilcoxon de los signos-rangos: 1ª muestra 24 16 17 27 17 41 35 45 12 23 15 34 21 19 0 24 33 12 19 21 2ª muestra 25 19 15 24 17 32 32 41 0 23 19 30 21 19 14 29 47 20 19 21 R+ = 210. 5%) valor crítico: 137. 14. bilateral 5%). 15. Contraste la hipótesis “la distribución de los beneficios. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov. 14.encuesta. Mann-Whitney y de las rachas que las siguientes muestras proceden de la misma población (α = 0. 14. 15. sigue siendo la misma. 17. 8.05)bilateral = 22 + 14 1. 15. 13. 21. 17. se acepta la hipótesis nula de que la distribución de los beneficios. 10. 20] (vease tabla 4. sigue siendo la misma”. 12. 17 12. 12. Según tabla 4. 256 .3581 = 0. 15. Test de los signos: El número de diferencias negativas y positivas (16 y 14 respectivamente) cae dentro de la región de aceptación [10. 20. 12. 15. al cabo de tres meses. por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 16. 05) MUESTRA A MUESTRA B 10. 14. 13.5>137 se acepta la hipótesis nula de que la distribución de los beneficios. 14 Solución: Test de Kolmogorov-Smirnov: Dexp = 0. 9. Los resultados se recogen en la siguiente tabla. al cabo de tres meses.

815 ( z = −1. 645) ⇒ por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. la cantidad de unidades producidas de un artículo concreto. 22. el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma.05 = −1. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa. α = 0.05) . Se desea contrastar si determinados incentivos a la productividad son efectivos.19.815) ≤ (− z0.103) > (− z0. n = 14 ) U 0 > Uα por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población.8 5 Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 23. 25 4 DT (0. (α = 0.05 = −1. 645) ⇒ por tanto se rechaza la hipótesis nula de que las dos muestras proceden de una misma población.Test de Mann-Whitney: RA = 453 RB = 213 U 0 = 108 U α = 93 ( tabla 3. Utilizamos la aproximación normal con µ= σ2 = z= 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 13 − µ σ = 2n1n2 2 × 14 × 22 +1 = + 1 = 18. Test de las rachas: Según se ordenen los empates se obtienen 13 o 15 rachas.05)bilateral = 4 = 0. Solución: Dexp = max F41 ( x) − F52 ( x) = 1 = 0.81 = −1.103 ( z = −1. m = 22. se obtuvo en sendas muestras de 4 y 5 meses.876543 ⇒ σ = 2. z= 15 − µ σ = −1.1 n1 + n2 14 + 22 2 ×14 × 22 ( 2 × 14 × 22 − 14 − 22 ) (14 + 22 ) (14 + 22 − 1) 2 = 7. 05. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 257 .

100. Pasados tres meses se encuestan otras 7 familias. Primera encuesta Tres meses después 30 20 Solución: Dexp = max F71 ( x) − F72 ( x) = 20 20 0 10 3 =0.05)unilateral = 3 = 0. 7143 7 Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral . 24. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. α = 0. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”.05)bilateral 30 20 5 = = 0. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov. 05 ). El resultado de ambas fue No incentivos 70 80 70 70 60 Incentivos 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. 258 .05 ) Solución: Dexp = max F51 ( x) − F52 ( x) = 3 = 0. 6 5 DT (0. 6 5 Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento.4286 7 50 60 40 0 30 30 DT (0. Los resultados aparecen en la siguiente tabla. 0. ( α = 0.

PRE-PRÁCTICAS 259 .

permanece en las hojas y falta por completar aquellas expresiones que hemos considerado más interesantes. etiquetas. colores. Al faltar el valor de determinadas celdas. Dado el escaso número de horas de prácticas y para que dicho tiempo se dedique a los aspectos más relacionados con la asignatura. 260 . Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone conocido por el alumno.. Sería deseable que el alumno construyera hojas de cálculo como las del fichero PRÁCTICAS partiendo de hojas en blanco. otras que dependen de las anteriores aparecerán con mensajes de error de cálculo. están protegidas. Se pretende así que el alumno conozca mejor cómo se han construido estas hojas para que haga un uso correcto de ellas y. Una vez resuelta cada PRE-PRÁCTICA su contenido debe coincidir con la hoja correspondiente del fichero PRÁCTICAS.. Esos errores de cálculo se irán resolviendo a medida que se vayan completando las primeras. salvo las que el alumno debe completar. sencillamente se recuerda y aconseja sobre la forma de utilizarlo. si fuera el caso. sea capaz de modificarlas y adaptarlas a nuevas situaciones.INTRODUCCIÓN. se han confeccionado unas PRE-PRÁCTICAS donde la base de la plantilla como líneas. Todas las celdas..

C13. Todas las funciones de Excel van precedidas por el signo =.. C18. que las operaciones aritméticas habituales están representadas por los conocidos símbolos del teclado 261 . Para contar el número de datos de la muestra usaremos la función CONTAR y para hallar la cuasivarianza utilizaremos VAR. C15. usaremos la función PROMEDIO. Para completar las expresiones de las celdas C12.PRE-PRÁCTICA 1 Muestreo aleatorio simple en poblaciones infinitas En esta pre-práctica completaremos todas las expresiones (celdas amarillas) del caso numérico y aquellas del caso no numérico que son diferentes de las anteriores. se indicará la primera celda de la primera columna y la última celda de la última columna. Recordemos que debemos empezar siempre con el signo =. en lugar de escribir la expresión de la suma de las celdas donde están los datos y dividir por el número datos. indicaremos la primera y última celda separadas por dos puntos (p. =CONTAR(C21:C100)). D12 Y D18 nos basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los apuntes y en el formulario. Cuando una función. Las expresiones o funciones más habituales están en Excel y nos podemos referir a ellas simplemente indicando su nombre. Así para calcular la media aritmética. se refiere a los datos contenidos en un rango de celdas (conjunto continuo de celdas). C14. D11. como las anteriores.e. Si el rango de celdas ocupa más de una columna.

e. =RAIZ(D11)) y para las potencias el símbolo del acento circunflejo francés ^ (p. − . * .+ . V (τ ) = N 2 V ( y ) completaremos las celdas D10 y D12. Para la raíz cuadrada utilizaremos la función RAIZ (p. / . para elevar B3 al cuadrado: =B3^2).n  V ( y ) =   y la novedad de que no sólo se puede estimar la media sino también el  n  N    total. Utilizando las relaciones de la estimación del total y su varianza con los correspondientes ( ) valores para la media τ = N y . PRE-PRÁCTICA 2 Muestreo aleatorio simple en poblaciones finitas El muestreo aleatorio simple en poblaciones finitas es análogo en sus expresiones al caso infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones finitas que aparece en la expresión de la varianza del estimador de la media  S 2  N .. 262 .e.

n   . observemos que en la pre-práctica aparece en la parte superior (donde calculamos los estimadores y sus errores) sólo las expresiones para el primer estrato (según el muestreo aleatorio simple). La cota del error de estimación y los extremos de los intervalos de confianza tienen en este tipo de muestreo y en los que siguen la misma expresión que se ha visto para el muestreo aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una de las pre-prácticas. caso numérico. También serán útiles las funciones copiar y pegar para no tener que repetir una por una todas las expresiones en cada uno de los estratos.La varianza para el estimador de la media (y proporción) en C12 (y E12) es análoga a la del S2  N . Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio simple por lo que serán válidas las expresiones construidas para este tipo de muestreo en la pre-práctica anterior. éstas se han simplificado previamente y lo que aparece no es la trascripción fiel de cómo están en los apuntes de clase y en el formulario. n  N  caso infinito salvo el coeficiente corrector para poblaciones finitas: V ( p) = pq  N . En primer lugar y para ilustrar lo último dicho. Debe decirse en este punto que debemos usar los paréntesis necesarios para que el orden de las operaciones sea el correcto. E18 y F18 calculamos el tamaño de la muestra n según las expresiones que aparecen en el formulario. Los modelos de dos y cuatro estratos así como el caso no numérico se han construido de forma análoga. Si se observa se verá que dichas expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). n= Nσ 2 ( N − 1) D + σ 2 D= B2 4 (media) D= B2 4N 2 (total ) n= Npq ( N − 1) D + pq D= B2 4 ( proporción) D= B2 4N 2 (total ) Para facilitar la escritura en Excel de algunas expresiones del fichero PRÁCTICAS.n  V ( y) =  . D18. n −1 N  En las celdas C18. Análogas 263 . PRE-PRÁCTICA 3 Muestreo aleatorio estratificado Trabajaremos sobre el modelo de tres estratos.

=A5+B15+F3 es igual a =SUMA(A5. Cuando usemos la función SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos los dos puntos por punto y coma (por ejemplo. Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de cada estrato pero no de la población global (columnas I y J). Para evitar la tediosa tarea de rescribir cada una de esas expresiones dos o más veces. referidas a la columna E en lugar de C.expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la columna G para el estrato 3. marcaremos el rango E9:F15 (o sólo la primera de las celdas. Dadas las conocidas relaciones entre la media y el total (trabajado en la pre-práctica anterior) nos vamos a centrar en la media y concretamente en las expresiones que son diferentes de todo lo que hasta aquí se ha visto. Repetiremos lo mismo para el estrato 3. seleccionaremos copiar.B15. 264 . usaremos las acciones copiar y pegar. E9) y con la opción pegar se copiarán las expresiones del estrato 1 en el estrato 2 pero. Para calcular en I8 el tamaño total de la población (igual en I9 para el tamaño total de la muestra) debemos sumar los correspondientes tamaños en cada estrato. dependiendo del número de estratos. como puede comprobarse.F3)). Marcaremos el rango de celdas que va de C9 a D15. Esto último es lo que se ha hecho en las expresiones de I10 y I12 que se podrían igualmente haber escrito usando el símbolo + sencillamente. Para eso se puede usar el símbolo + o la función SUMA ( =C8+E8+G8 o =SUMA(C8:G8)).

nos centraremos en el caso de la media. seleccionaremos copiar y pegaremos en las celdas E16. E18 y E19 para el segundo estrato y en G16. G17. C18 y C19) y posteriormente como se hizo antes. pero referidas a los datos de cada uno. Dada la analogía de las expresiones para las distintas asignaciones en el caso de la media y total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel). C17. Como las expresiones son las mismas para cada estrato. escribiremos primero las correspondientes al estrato 1 (C16. las marcaremos.Para facilitar la construcción de las expresiones correspondientes a las distintas asignaciones se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en esas sumatorias. G18 y G19 para el tercero. E17. TAMAÑO MUESTRAL MEDIA y TOTAL L (error fijo B ) n = Nσ ∑ i i =1 L Ni σ i ci ∑ ci i i =1 L N 2D + ∑ N iσ i2 i =1 Nσ C ∑ i i ci i =1 L ASIGNACIÓN ÓPTIMA (coste fijo C ) n = L Nσ ∑ i i =1 i ci N jσ j cj ωj = L ∑ i =1 N iσ i ci (∑ N σ ) 2 L n= ASIGNACIÓN DE i i =1 i L N 2D + ∑ N iσ i2 i =1 NEYMAN ωj = N jσ j L ∑Nσ i i =1 L n= ASIGNACIÓN PROPORCIONAL Nσ ∑ i =1 i i 2 i 1 L N iσ i2 ∑ N i =1 N ωj = j N ND + 265 .

en ambos casos usamos la asignación óptima). C23. N jσ j n1 = nω1 = n cj L ∑ i =1 $I22=n Los paréntesis C19= que aparecen en N iσ i ci N1σ 1 c1 la 3 $C19+$E19+$G19= ∑ i =1 expresión de la celda C22 N iσ i ci y en otras (=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el orden adecuado. I23. G24 y G25 para el estrato 3. cuando copiamos la expresión de una celda en otra. todas las letras y números relativos a la posición de las celdas referenciadas en la expresión cambian avanzando o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde copiamos. Para que esto no sea así (cuando nos convenga. Nota: se recuerda que el hecho de que aparezca el símbolo $ en la referencia a una celda no cambia en absoluto su valor. E24 y E25 para el estrato 2 y en G22. 266 . G23. Una novedad en relación a las copias que se han hecho antes es que aparece el símbolo $ precediendo bien la letra o el número que definen la posición de una celda. I24 Y I25. Como es conocido. a continuación calcularemos los tamaños de las muestras de cada estrato según la expresión ni = nωi en las correspondientes celdas de las columnas C. Según las anteriores aclaraciones escribiremos ni = nωi en las celdas C22. confeccionaremos las celdas I22. C24 y C25 (observe que el valor de ωi es el mismo en C22 y C25. E y G. Este símbolo tiene la propiedad de fijar el valor de la columna (letra) o fila (número) a la hora de hacer copias. Los coeficientes de asignación son similares para cada estrato por lo que los escribiremos para el estrato 1 en la columna C y lo copiaremos en los otros estratos.B2 D= (media ) 4 B2 D= (total ) 4N 2 D De acuerdo a las expresiones de n para cada tipo de asignación. En la siguiente pantalla se pueden observar algunos de los anteriores comentarios. y posteriormente lo copiaremos en E22. E23. como el caso que nos ocupa de las asignaciones) con el símbolo $ fijaremos las posiciones de las celdas que no queramos que cambien en la copia.

regresión y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas a partir de la media). 267 . regresión y diferencia En esta pre-práctica estimaremos la razón R y la media utilizando estimadores de razón .PRE-PRÁCTICA 4 Estimadores de razón.

La complicada expresión de la “varianza residual” para los estimadores de regresión (F17) se ve facilitada porque su raíz cuadrada (“desviación típica residual”) es la función de Excel =ERROR. acción si falsa). D12. C13. al hallar las “varianzas residuales” C17 y H17 se han usado las expresiones: S r2 = S D2 = 1 n 2 ( yi − rxi ) ∑ n − 1 i =1 ( 1 n ∑ yi − ( xi + d ) n − 1 i =1 ) 2 = C17 ⇒ ( 1 n ∑ di − d n − 1 i =1 ) 2 =SUMA(F22:F100)/(C11-1)  n  di  2 n  ∑  n  i  di2 − n  i =1  ∑ ∑d n  n  i =1 di2 −  i =1  ∑   n   = i =1 = n −1 n −1 2 di = yi − xi En la anterior línea aparecen distintas formas de escribir la cuasivarianza de las diferencias. F ( ( yi − rxi ) 2 ).TIPICO. A pesar de esta posible solución se ha dejado así esta hoja de prácticas para que seamos conscientes del peligro de esos “falsos” ceros que aparecen cuando se opera de esta forma. obteniendo un valor falso para dicha media). H12 y H13.Los valores de los estimadores así como de sus varianzas se expresan fácilmente en las celdas C12. acción si cierta. Por esta misma razón.XY. Nota: Cuidado al escribir los argumentos de esta función. H ( di = yi − xi ) e I ( di2 ) cuando se opera sobre valores inexistentes de las columnas C y D. se tiene que utilizar en H12 la expresión =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la función PROMEDIO incluiría a todos los ceros como datos. F12. F13. no confunda ∑ d y  ∑ di  . H e I se hubiese utilizado la función =SI(condición. F. Sólo un detalle digno de mención: debido a los ceros que aparecen en las columnas E ( rxi ). En las PRÁCTICAS hemos utilizado la última. D13. H17 ⇒ =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1) 2  n  Nota: Mucho cuidado. i =1  i =1  n 2 i Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados cálculos de las columnas E. como veremos en la práctica 6. En primer lugar se colocan las celdas con los valores de la variable Y (D22:D100) y a continuación después del punto y 268 .

basta con escribir C$12 puesto que al copiar no nos movemos de columna. 4N 2 4N =($C8*C17)/(C17+((E18^2)/(4*$C8))). Si observamos el formulario. En G23 aparece según la función de Excel que nos da dicho valor.TIPICO. puede haber distintas alternativas para calcular un mismo valor. En G22 la calcularemos. son similares salvo que cada tipo de estimador considera su “varianza residual”. Nσ r2 n= ND + σ r2 Nσ L2 n= ND + σ L2 Nσ D2 n= ND + σ D2 Basándonos en el anterior comentario y utilizando para copiar el símbolo $ donde sea necesario. I19. escribiremos las expresiones en las celdas E22. Con esta coincidencia se quiere mostrar que en este caso. H22=D22-C22. sólo nos movemos de fila). Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100 habrá que fijar con el símbolo $ dicha celda (no es necesario fijar C anteponiéndole el $. según nuestros apuntes. los tamaños muestrales (tanto para la media como para el total) para conseguir un determinado error de estimación máximo. En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de regresión. F22. La expresión C19 es algo distinta y no se puede copiar directamente de las anteriores expresiones. como en otros. G19 y H19. A la hora de determinar el tamaño muestral para estimar el total se ha tenido en cuenta la siguiente simplificación en las anteriores expresiones: ND = N por ejemplo E19 ⇒ B2 B2 = . H e I. 269 . F22=(D22-E22)^2. 4 Para completar las columnas E.coma los valores de la variable X: =ERROR. F. I22=H22^2) posteriormente copiaremos desde E22 hasta E100 (colocando el ratón en la esquina inferiorderecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F.C22:C100). bastará con crear las expresiones D19 y E19 y copiarlas en F19. (E22=$C$12*C22. Hacerlo al revés supondría calcular la desviación típica residual para la recta de regresión de X/Y ( x = a + by ) que no es la recta utilizada en el modelo de los estimadores de regresión. es exactamente igual a D19 salvo el valor D = B 2 µ x2 . aunque aparece así en la práctica.XY(D22:D100. H22 e I22. H e I de igual forma. a partir de la covarianza y varianza.

TIPICO.G22 ⇒ =COVAR(C22:C100. el cual se ilustra en la PRACTICA 5 RESUELTA. La función VARP es la varianza de los datos de la muestra mientras que la función VAR es la cuasivarianza de la muestra.C22:C100) Notas: La misma advertencia que se hizo con la función =ERROR. Se sugiere escribir estas funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo. Las celdas en las que se encuentran los valores de Y y de X deben aparecer en la función PENDIENTE en dicho orden pues si se altera estaríamos calculando la pendiente de la recta de regresión de X/Y.D22:D100)/VARP(C22:C100) G23 ⇒ =PENDIENTE(D22:D100. La única novedad que presenta respecto a éste es el cálculo de k.C22:C100) vale aquí.XY(D22:D100. PRE-PRÁCTICA 5 Muestreo sistemático Los cálculos para este tipo de muestreo se basan en el muestreo aleatorio simple para poblaciones finitas que ya se ha estudiado. En algunas funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que aparezcan las celdas con los valores de X e Y es indiferente. 270 .

(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 271 . C13 ⇒ =SI(C8="". C19.PRE-PRÁCTICA 6 Muestreo por conglomerados En esta pre-práctica haremos uso de la función “=SI” a la que hacíamos referencia más arriba en la pre-práctica 4.(C9-C10)*C17/(C10*C9*(C11^2)). Si el contenido de la celda C8 es vacío (C8=“”) se entenderá que no se N conoce M y se procederá de una manera (acción si cierta). acción si cierta. D12 y D13 se construyen utilizando la anterior función “=SI” que nos permite realizar dos cálculos (o acciones) distintos dependiendo de una condición. En C13 y C19 las dos formas de proceder consisten en usar m = C11 o M = C8 (aparece C9 subrayado). =SI(condición. en cambio si la celda C8 no está vacía se utilizará dicha información y se procederá de otra forma (acción si falsa). Recordemos su formato. En nuestro caso concreto la condición va a ser el conocimiento o no del tamaño de la población M o lo que es equivalente el conocimiento o no del tamaño medio de los conglomerados de toda la población M = M . acción si falsa) De las celdas cuya expresión vamos a completar en esta pre-práctica C13.

(D23-E23)^2) y copiaríamos su 272 . D19. E17 y E19) se resuelven fácilmente a partir de las correspondientes expresiones del formulario. E12. C17."". La función =SI se podría haber utilizado en el cálculo de las celdas E23 a E100 y F23 a F100 para evitar la aparición de ceros “falsos” como se anunció en la pre-práctica 4. D15 y D16) dejaremos la celda en blanco (“”) si no tenemos la información de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos esa información. E13.C12*C8) El resto de celdas de esta pre-práctica (C12. D12 ⇒ =SI(C8="".C$12*C23) y copiaríamos su contenido hasta la celda E100.“”.En D12 y D13 (también en D14.“”. En la celda E23 escribiríamos =SI(C23=“”. En la celda F23 escribiríamos =SI(D23=“”.

E18. F23 y F24. F17. de esta manera no aparecen ceros “falsos” y los problemas que comentábamos en la pre-práctica 4. PRE-PRÁCTICA 7 Estimación del tamaño de la población Utilizando las operaciones algebraicas básicas. 273 . Como puede comprobarse. potencias y logaritmos neperianos (=LN) se completan sin ningún tipo de nueva dificultad. E24. La cota del error de estimación y los intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de tipos de muestreo.contenido hasta la celda F100. C18. las celdas C17. F18. E17. D18. E23. D17. a partir del formulario.

274 .

PRÁCTICAS 275 .

‰ Las celdas en las que calculamos el valor de las expresiones (coeficientes. En el desarrollo de la asignatura se propone a los alumnos la realización de 9 prácticas con la ayuda del fichero “PRACTICAS”. índices. que se le han facilitado. Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger / Desproteger hoja o bien copiaremos la hoja del fichero original (“PRACTICAS”) en una nueva hoja no protegida (se aconseja esta segunda opción).. ‰ En la parte superior de cada hoja se calculan los estimadores y errores asociados (además de otros valores necesarios y relativos como los intervalos de confianza. estadísticos. resueltos o no.. Una vez resueltos los ejercicios que aparecen en el enunciado de estas 9 prácticas (que se han seleccionado como representativos de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos problemas pueda de las relaciones de ejercicios.... Aunque el formato de cada hoja es distinto dependiendo de los cálculos que en ella se realizan..) por debajo de estas filas y separadas por una o más filas de color blanco se calcula el tamaño de la muestra (o muestras) necesario para que se pueda hacer la estimación con un error máximo fijado de antemano. Las hojas de estos ficheros están protegidas para evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen previamente según se indica en el párrafo anterior.. indicadores estadísticos regionales y medidas de localización espacial que se estudian en la asignatura.) son de color amarillo. hay unas características comunes que vamos a describir en primer lugar: ‰ Las celdas en las que debemos introducir los datos de la muestra son de color gris.INTRODUCCIÓN Se han diseñado unas hojas de cálculo en Excel que permiten calcular todas las expresiones sobre muestreo.. “COTA DEL ERROR DE ESTIMACION DESEADA” (o un coste total máximo. véase el muestreo estratificado) Para evitar que involuntariamente alteremos las expresiones de estas hojas de cálculo se ha protegido el contenido de todas las celdas salvo las de introducción de datos (celdas grises).. ‰ Las demás celdas de distintos colores (por motivos meramente estéticos) se corresponden con etiquetas para identificar los valores que aparecen en la hoja. 276 . Para que puedan comprobar la correcta resolución de las mismas.. se ofrecen resueltas en los ficheros: “PRACTICA 1 RESUELTA”.

el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y muestreo estratificado en lugar de disponer de todos los datos que forman las muestras sólo tenemos la información resumida del tamaño. #¡NUM!. eso ayudará a una mejor comprensión de cómo se ha construido la plantilla para la práctica y de la potencialidad del ordenador para resolver este tipo de problemas. dado que se evalúa la expresión considerando cero el valor de las celdas vacías). zoom. el contenido de todas las celdas de datos (celdas grises). sino que todos los ejercicios que hay 277 .Cuando se vaya a utilizar el fichero “PRACTICAS”. algunos están resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los capítulos.. Estos errores desaparecerán en cuanto se introduzcan los correspondientes nuevos datos. Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que se resuelven con la ayuda del ordenador y otros a mano. para ello desprotegeremos previamente la hoja. no por los motivos indicados aquí para el muestreo aleatorio simple y estratificado).. En las celdas donde permanezcan dichos errores son expresiones que no se pueden calcular con la información de que disponemos y por tanto no podemos conocer. de hecho en este documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no resta generalidad ni validez a los comentarios que se acompañan. se debe borrar. media y varianza (en variables numéricas) o del tamaño y proporción (en variables dicotómicas). En algunas ocasiones será necesario introducir la información del problema en celdas distintas a las habituales (grises). en ese caso en las correspondientes celdas (marcadas con un color amarillo más intenso) escribiremos dichos valores. #¡VALOR!.. por ser muy frecuente. Destacamos aquí. antes de introducir los datos del problema.... Para cada una de las prácticas que siguen se han elegido ejercicios representativos. Cuando se borren los datos de las celdas grises aparecerán errores de cálculo en las celdas donde se evalúan las expresiones sobre dichos datos (#¡DIV/0!. pues dejar datos de ejercicios previos podría dar lugar a resultados erróneos. quedando vacías las celdas grises correspondientes a los datos muestrales. . (Nota: en la hoja Razón. El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versión del programa y de la configuración de las barras de herramientas.. Sería conveniente resolver todos ellos a mano antes de hacerlo con el ordenador. regresión y diferencia se utilizan distintos tonos de amarillo sólo con fines estéticos.

Previo a estas prácticas se ofrece una “Introducción al SPSS” para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una “Guia breve de SPSS” para aquellos otros que quieran profundizar más en su uso. 278 .en las relaciones de cada capítulo se pueden resolver (salvo puntuales excepciones) de ambas formas y deberían resolverse cómodamente una vez que se dominen estas prácticas tras resolver los ejemplos que siguen. Las prácticas 10 y 11 sobre contrastes de hipótesis no paramétricos se realizarán con la ayuda del programa SPSS.

PRÁCTICA 1 Muestreo Aleatorio Simple en poblaciones infinitas (o con reemplazamiento) 1.38 1. recogiendo en la primera una muestra de tamaño 36 y en la segunda una muestra de tamaño 45 26. b.5 35.18%) 2 n −1 p = 51. 30. La cuasivarianza muestral. 66.5 27.5 34. Este primer paso común a todas las prácticas que siguen no se repetirá en la explicación de cada una para no aumentar innecesariamente la longitud del documento 279 .57) Sn2−1 = 0.2 29.6 30.2 27 25.5 25 35.8 30.4 28.11% Seleccionamos del fichero Excel “PRACTICAS” la hoja “MAS infinito” (Muestreo aleatorio simple en poblaciones infinitas) y antes de nada.22 (28.6 26.5 29.3 32.5 24.6 25. Con objeto de estimar la media poblacional de dos poblaciones infinitas.3 MUESTRA 1 31.5 29 27.3 28.1507 (36. La media muestral. tal y como se aconseja en la “INTRODUCCIÓN A LAS PRÁCTICAS EN EXCEL” debemos borrar toda la información numérica que hubiera en las celdas grises.1 1 0 1 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 MUESTRA 2 0 1 0 0 0 0 1 0 1 1 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 0 1 Obtenga en ambos casos: a. c.3 35.5 31.04% .13 .6 32.2 34. realizamos un muestreo aleatorio simple sobre ambas poblaciones.35 MUESTRA 2 S = 13. Límite para el error de estimación (95% de confianza) d.8 26 24 26 31. 2556 0.4 27. Intervalo de confianza para la media poblacional (nivel de confianza del 95%) Solución: a) Media muestral b) Cuasivarianza muestral c) Límite para el error de estimación d) Intervalo de confianza MUESTRA 1 y = 29.6 31.4 26 38 24 29 29.

Dado que los datos de la muestra 1 son numéricos los escribiremos en la columna correspondiente a “Datos numéricos” (columna C) y la muestra 2 por ser dicotómica la escribiremos en la columna D Obteniéndose la solución del apartado a) en C10 y D10. del apartado b) en C11 y D11. 280 . del apartado d) en C14. del apartado c) en C13 y D13. D14 y D15. C15.

500.. Durante una semana observaron al azar 300 compras de las cuales 35 fueron pagadas con la tarjeta. Escribimos en D9 el tamaño de la muestra (300) y en D10 el valor de la proporción muestral (=35/300) 281 .031.2. cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 2%.6≈1. b) n=1. con un error inferior al 2%. c) n=2. la proporción de compras pagadas con la tarjeta.95%.38%).. Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo más intenso (Herramientas/Proteger/Desproteger hoja.030. b) Cuantas compras deberían observarse para estimar.). (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta. 15. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Puesto que se trata de una variable dicotómica trabajaremos sobre la columna D. Solución: a) (7. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.

Obteniéndose en D14 y D15 la solución al apartado a): (0,0795 , 0,1538).
Si deseamos ver el valor de una o varias celdas con más decimales, seleccionaremos éstas y
pulsaremos en el botón “aumentar decimales” de la barra de herramientas “formato” tantas
veces como decimales se quieran añadir. Análogamente, con el botón “disminuir decimales”
redondearemos el resultado con un menor número de decimales. (Si la hoja está protegida no
nos permitirá hacer este tipo de acciones).
282

En casi todas las hojas (“MAS infinito”, “MAS finito”, “2 Estratos”, “3 Estratos”, “4
Estratos”, “Razón, regresión y diferencia” y “Conglomerados”) se ha adoptado un esquema
similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y
los errores de estimación asociados (y cálculos relacionados con los anteriores) en la parte

inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se
determina el tamaño de la muestra para un límite del error de estimación fijado (deseado).
Para esta parte inferior de la plantilla se necesita como información, para realizar los cálculos,
la cota del error de estimación deseada y en el caso numérico la varianza muestral que puede
obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta “Muestra” o bien
a partir del rango (como veremos en el ejercicio 5 de la práctica 2). En el caso dicotómico la
varianza muestral depende de p (proporción muestral o estimación de la proporción) y este
es el valor que debemos incluir en la plantilla para obtener el tamaño muestral, p puede
obtenerse de una muestra previa que aparecería bajo la etiqueta “Muestra”, introducirse
directamente si se conoce su valor (como en el apartado b de este ejemplo, p = 35 / 300 ), o
bien, darle el valor 0.5 cuando no se tenga ninguna información acerca de su valor (como en el
apartado c).
NOTA: No debe confundirse el tamaño muestral que aparece etiquetado en rosa que
corresponde al tamaño de una muestra que hemos observado, que ya tenemos, del tamaño
muestral que aparece etiquetado en naranja y que nos dice cómo debe ser la muestra que

debemos tomar, por tanto aún no se tiene, para conseguir que las estimaciones tengan
283

como máximo un determinado error de estimación. Asimismo no debemos confundir la
cota del error de estimación etiquetada en rosa que se refiere al error asociado a una

estimación hecha con la muestra que hemos observado y por tanto su valor no lo
decidimos nosotros, con la cota del error de estimación etiquetada en naranja que la
fijamos de antemano.
Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 “COTA DEL
ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solución: n=1030,6

Por último, para resolver el apartado c), dado que no se tiene información sobre la proporción
de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167),
suponemos que ese valor es ½=0,50.

284

En las celdas D11, D12, D13, D14 y D15 aparecen errores en el cálculo de dichas expresiones
debido a que entienden que el tamaño muestral en D10 es cero, pero dichas celdas no afectan
al cálculo de la expresión D18 donde aparece el tamaño muestral necesario para que el error
de estimación no supere el 2% (D17=0,02)
3. Este mismo hipermercado desea estimar también el valor medio de las compras
realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa
que el valor total de las compras hechas con la tarjeta fue de 4.500€ (siendo la
cuasivarianza de los datos 615,15). Estímese el valor medio de las compras pagadas
con la tarjeta y el error de estimación asociado.
Solución: µ = 128,57 B = 8,38

Aunque en el mismo contexto que el ejercicio 2 de esta práctica, en este caso trabajamos con
una variable numérica donde el tamaño de la muestra no es 300 sino 35 (clientes observados
que pagaron con la tarjeta).
En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos
mediante su media (la calculamos como la suma de las compras dividida entre el número de
ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja
de cálculo para poder introducir directamente en las celdas color amarillo intenso los
anteriores valores que la hoja de cálculo hubiese obtenido si le diéramos los datos de la
muestra.

La estimación de la media y el error de estimación asociado pueden leerse en las celdas C10 y
C13.
285

PRÁCTICA 2
Muestreo Aleatorio Simple en poblaciones finitas.
Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de
poblaciones infinitas estudiado anteriormente y presenta análogas posibilidades y/o
dificultades. Nos podemos encontrar con variables de tipo numérico (ejercicios 1, 2 y 3) y
dicotómicas (ejercicios 3 y 4). Situaciones en las que conocemos explícitamente los datos de
la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra
en su media, varianza y tamaño muestrales (caso numérico, ejercicio 2) o en su proporción y
tamaño muestrales (caso dicotómico, ejercicio 4).
En cuanto a las diferencias entre un tipo de muestreo y otro, señalar que en el muestreo
aleatorio simple en poblaciones finitas tiene sentido la estimación del total poblacional (como
sabemos, a partir de la media o de la proporción) hecho que no se trata en el muestreo
aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las
estimaciones, errores de estimación e intervalos de confianza, tanto en el caso numérico como
dicotómico, se han desdoblado para calcular los correspondientes valores relativos a la
estimación de la media (o proporción) y del total. Dado que nos enfrentamos a una población
finita debemos introducir el valor finito del tamaño de la población en C8 o E8. Cuando
algunos valores (tamaño poblacional, tamaño muestral,..., datos muestrales) son comunes a la
estimación de la media y del total se fusionan las celdas de las dos columnas para evitar
repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente
pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en
poblaciones finitas.

286

1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada
para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la
muestra para estas seis cuentas son los siguientes:
Dinero adeudado (€)
35,50
32,00
43,00
41,00
44,00
42,50
a) Estime el total del dinero adeudado y establezca un límite para el error de
estimación.
b) ¿Cuántas cuentas deberían observarse para estimar el total de deuda con un error
inferior a 200€? (considere los anteriores datos como una muestra previa)
Solución: a) τ = 3966,6

2 V (τ ) = 381, 02

b) n = 18,96 ≈ 19

En este sencillo ejercicio sólo tenemos que borrar los datos de las celdas grises e introducir la
información del enunciado. No es necesario desproteger la hoja porque no se modifica
ninguna de las expresiones de las celdas amarillas.

287

Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el máximo error de
estimación que deseamos en la celda D17 se obtiene el tamaño muestral necesario en D18,
(si el error de estimación se refiere a la media, éste debe introducirse en C17).
2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una
comunidad de regantes para estimar el promedio de consumo de agua diario (en m3)
durante un periodo estacional seco. La media y varianzas muestrales fueron
y = 10,31 m3 y s 2 = 2, 25 m6 . Hay en total 750 regantes en la comunidad.
a) Estime el consumo medio diario de toda la comunidad y establezca un
límite para el error de estimación.
b) Estime con un intervalo de confianza la cantidad total de litros de agua
empleada diariamente.
Solución: a) y = 10,31m3

B = 0, 41m3 , b) (7.425.090 litros , 8.039.910 litros).

En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que
desprotegerla para escribir en C9, C10 y C11 el tamaño, la media y varianza muestrales,
además de no olvidar el tamaño de la población en la celda C8. En C10 y C13 está la
respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores están
expresados en m3 y la respuesta la piden en litros por lo que se multiplicarán por 1000).

288

3. Para estimar el número de alumnos de un grupo de la asignatura Técnicas para el
Análisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los
15 alumnos de un grupo de prácticas de la asignatura. La respuesta se recoge en la
siguiente tabla
1-SI
2-SI
3-NO
4-SI
5-NO

6-NO
7-SI
8-SI
9-SI
10-NO

11-NO
12-NO
13-SI
14-SI
15-NO

a) Estime, mediante un intervalo de confianza, cuántos de los 150 alumnos
que hay en ese grupo tienen acceso en casa a Internet.
b) ¿Le parece fiable la predicción?.
c) A cuantos alumnos se tendría que preguntar para que la estimación se
realizara con un error inferior a 10 alumnos.
Solución: a) (42,05 , 117,95),

b) No, el error es muy grande (37,95) y por tanto el

intervalo de confianza muy amplio, c) n=90,1≈91.
Este ejercicio es un sencillo ejemplo de datos dicotómicos donde se conocen los valores de la
muestra, sólo tenemos que introducirlos en la columna correspondiente, etiquetando como 1
aquella respuesta cuya proporción o total queremos estimar (en este caso SI=1, NO=0).
Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en
la filas 14 y 15 la respuesta. El valor de la cota del error de estimación del total que vemos en
F13=37,95 es importante si lo comparamos con la estimación del total F10=80 (casi la mitad),
por lo que se concluye la poca fiabilidad de la estimación. Escribiendo el máximo error de
estimación que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el
tamaño muestral necesario para conseguirlo.

289

Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y E10 (=35/180) apareciendo en E10 y E13 la respuesta. 290 . en el ejercicio anterior podríamos haber contado los elementos de la muestra n=15. el número de respuestas SI=8. Treinta y cinco de los estudiantes respondieron afirmativamente. NOTA: En ejemplos con datos dicotómicos donde se tenga la lista completa de los valores de la muestra se puede optar por este procedimiento de resolución que resulta a veces más cómodo. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada para determinar la proporción de estudiantes que está a favor del cambio del sistema semestral al anual.4. desproteger la hoja de cálculo y escribir en E9 (15) y en E10 (=8/15). 74% En este ejemplo de datos dicotómicos (como el anterior) no tenemos explícitamente la lista de los 180 elementos observados pero conocemos el tamaño (180) y la proporción muestral (35/180). Así por ejemplo. Estime la proporción de estudiantes que está a favor del cambio y establezca un límite para el error de estimación. Solución: p = 19. 44% B = 3.

000€.000 cuentas por cobrar con un límite para el error de estimación de 10. Encuentre el tamaño de muestra necesario para estimar el valor total de 1. señalar que se trata de un problema con datos numéricos (valor de las cuentas) y que estamos interesados en la estimación del total. 62 ≈ 616 En primer lugar. escribiremos en la celda C11 la expresión =((1400-600)^2)/16 .400).o bien =(800^2)/16. NOTA: En la casilla C11 estimamos la varianza mediante R 2 (1400 − 600 ) σ ≅ = = 40. En D17 introduciremos el máximo error de estimación que queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta 291 . Según se sugiere en la nota. que como puede observarse vale 40000.5.000 16 16 2 2 (se utiliza que la desviación típica en variables normales es aproximadamente la cuarta parte del rango o recorrido de los datos observados) Solución: n = 615. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600. 1.

292 .

el muestreo aleatorio estratificado puede hacerse sobre poblaciones finitas e infinitas. 84 en el barrio B y 126 en el barrio C. por lo que en cada estrato (en la parte superior de la plantilla) se han copiado. 3 y 4 estratos. Nosotros hemos supuesto el modelo con tamaños poblacionales de los estratos finitos (que aparecen en la fila 8). El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los estratos. En el fichero Excel de las prácticas de la asignatura hay tres hojas con las plantillas para los cálculos necesarios en el muestreo aleatorio estratificado de 2. Para simplificar las expresiones de la parte inferior de la plantilla (determinación del tamaño muestral y asignación) se han hecho unos cálculos previos en la banda blanca intermedia que aparecen en un negro menos intenso y carecen de una interpretación directa. Al igual que el muestreo aleatorio simple. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A. Para un mayor número de estratos se puede confeccionar la plantilla fácilmente copiando las dos columnas de un estrato tantas veces como se quiera e incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos columnas de toda la población donde se recopila la información del conjunto de todos los estratos (véase las notas sobre las preprácticas). pero como veremos en algunos ejemplos ( ejercicios 4 y 8) se puede aplicar también al caso de tamaños poblacionales infinitos. se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. tanto para datos numéricos como dicotómicos. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva.PRÁCTICA 3 Muestreo Aleatorio Estratificado. 1. Hay 210 hogares en el barrio A. Los resultados. y 9 del barrio C. La determinación del tamaño muestral y su asignación (parte inferior de la plantilla) son mucho más complejas que en el muestreo aleatorio simple y no guardan relación con él. las mismas expresiones que aparecen en el muestreo aleatorio simple. exactamente. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. con mediciones del tiempo que se ve la televisión en horas por semana. se 293 . Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio. 6 del barrio B.

escriba en las celdas C21. obteniéndose B28=28.23. y st = y . E21 y G21 el mismo valor para los tres costes y observará que las filas 22 y 23 de la tabla (asignación óptima y de Neyman) coinciden. y st aparece en la celda I10=28. Se estima que el coste de una observación del barrio A es de 1€. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios).23. 294 . c) Los hogares del barrio C. e) ¿Qué tipo de asignación se ha utilizado? NOTA: Obsérvese que debido al tipo de asignación utilizado. escribiendo la función =PROMEDIO(C28:G100) que calcula la media aritmética de todos los datos incluidos en las tres muestras (columnas C. Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. g) Supóngase que se tiene sólo 600€ para gastar en el estudio. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. b) Los hogares del barrio B. (Como en el apartado anterior. f) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. E y G).muestran en la siguiente tabla: BARRIO A 36 34 26 39 38 32 38 37 29 28 41 35 29 37 41 BARRIO B 20 25 30 14 41 39 BARRIO C 14 22 15 17 21 11 20 14 24 Estime el tiempo medio que se ve la televisión. tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). en horas por semana. para: a) Los hogares del barrio A. NOTA: Para comprobar que la asignación óptima y de Neyman coinciden cuando los costes son iguales. determine el tamaño de la muestra y la asignación que minimizan el error de estimación. 9€ para el barrio B y 4€ para el barrio C. y lo podemos calcular. por ejemplo en la celda B28.

Solución: a) y A = 34.74 ≈ 126 n 2 =37. E y G bajo las etiquetas “Muestra 1”.35 d) y st = 28. C13. G13 y la estimación para el conjunto de todos los hogares de la población en I10.19 ≈ 37 n 3 =34. g) n=198. 40 c) y C = 17.56 B = 2. No hace falta desproteger la hoja “3 Estratos” salvo para los cálculos del apartado e (motivo por el que lo resolveremos al final).88 n1 =79. haciéndolo así : coste total = (1× 126) + (9 × 37) + (4 × 34) = 595€ sin embargo: coste total = (1×127) + (9 × 38) + (4 × 35) = 609€ Estamos ante el caso más sencillo de estratos con datos numéricos donde sólo tenemos que introducir la información que tenemos en las celdas grises.17 B = 8. En el caso de no querer sobrepasar un máximo error de estimación siempre redondearemos por exceso. 22 e) proporcional f) n=124.63 ≈ 34 n=126+37+34=197 . La estimación para la media y su límite para el error de estimación en cada uno de los estratos (barrios) pueden verse en C10. Para responder a los apartados a. E10.39 ≈ 24 n 3 =21. 295 . E13. G10. b. NOTA: No olvide pulsar “Enter” después de escribir el último dato pues en caso contrario la hoja de cálculo no lee éste.78 ≈ 22 n=80+24+22=126 . “Muestra 2” y “Muestra 3”.71 ≈ 80 n 2 =23. c y d . 67 B = 2. 23 B = 2.56 n1 =126. I13. Cuando no queramos superar un determinado presupuesto redondearemos por defecto.82 b) y B = 28. escribiremos los tamaños poblacionales de los estratos en la fila 8 y los valores de las muestras en las columnas C.

obsérvese que en el caso de la asignación óptima deberíamos observar 453 elementos de un total de 420 que hay en toda la población. E21 y G21 y el máximo error de estimación que queremos cometer al estimar la media en I20 (si pretendiéramos estimar el total de horas con un determinado error utilizaríamos la celda J20). Salvo que se pregunte por una asignación concreta en el enunciado del ejercicio. sin embargo sólo hay 84 en ese estrato. Hechas estas aclaraciones nos queda aún la decisión de cuál de las tres asignaciones debemos tomar. 296 . se han calculado suponiendo que queremos estimar el total con un error cero (celda J20 en blanco) y carecen de sentido. A los valores que hay a la derecha de éstos y que se refieren al total no hay que prestarles atención. 23 y 24 están los tres tipos de asignación estudiados. En las filas 22. fila 22. con la asignación de Neyman habría que observar en el estrato 2 a 130 elementos.Para contestar al apartado f. Cuando no conozcamos los costes de observación (bórrese estos de la fila 21) no se podrá obtener la asignación óptima. la hoja de cálculo nos dará errores de división por cero. Nos fijaremos en los valores que aparecen en las columnas correspondientes a la media de cada estrato y de la población porque ha sido sobre la estimación de la media donde hemos impuesto la condición de que el error no supere 1 hora. pues como su nombre indica es la mejor. debemos utilizar siempre que se pueda la asignación óptima. escribiremos los costes de observación en C21.

también se desea saber qué proporción de hogares ven un determinado programa. En el apartado e vamos a verificar que se ha utilizado la asignación proporcional en la muestra observada. 6 y 9 elementos que disponemos en los respectivos estratos. La celda B21 incluye dos etiquetas. la segunda etiqueta “COSTE TOTAL” hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21. 2. equivalentemente Para comprobarlo hay que ver que n1 n n n = 2 = 3 = N1 N 2 N 3 N o N1 N 2 N 3 N = = = . En el caso anterior. b) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. en este caso 600€. Consecuencia de haber utilizado la asignación proporcional es que y st = y . la primera “COSTE DE UNA OBSERVACIÓN” se refiere a lo que cuesta una observación en cada estrato y debemos escribirlo en C21. Para ello en cualesquiera tres celdas en blanco n1 n2 n3 n calcularemos: =C8/C9. tal y como se indica en el enunciado. La solución la tenemos en la pantalla que aparece en la página 19 de este documento (celdas C25. Si coinciden estos tres valores no es necesario comprobar la igualdad con =I8/I9. E25. fila 11) a partir de las muestras previas de 15. La determinación y asignación de las muestras en los apartados f y g utilizan las estimaciones de las varianzas de los datos en cada estrato (varianza muestral. (Supóngase que se realiza la entrevista por teléfono y el 297 . =G8/G9 y observaremos que coinciden. I25). fila 25. para decidir la conveniencia de insertar un anuncio en los intermedios del mismo.En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un presupuesto o coste total fijo. =E8/E9. Ese hecho se ha comprobado calculando y en B28 y observando que coincide con y st en I10 (véase pantalla de la página 19). La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI NO SI SI SI NO SI SI SI SI NO SI SI NO NO NO SI SI SI NO SI NO SI NO NO SI NO NO SI SI a) Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. Para ello utilizamos la asignación óptima para un coste total fijo. E21 y G21. Nota: Para hacer esos cálculos en esta hoja habrá que desprotegerla. G25.

Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) c) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.3%) b) n=188.46 ≈ 62 n=103+41+62=206 Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aquí trabajamos con datos dicotómicos.98 ≈ 41 n 3 =61. Seleccionaremos en la hoja “3 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0.98 n1 =101. 77. Tras introducir los datos.44 ≈ 103 n 2 =40. Solución: a) (42. éstos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la 298 .42 ≈ 58 n=102+31+58=191 c) n=204.27 ≈ 31 n 3 =57.29 ≈ 102 n 2 =30. En el enunciado de este ejercicio no se repiten los tamaños poblacionales de los estratos porque se sobreentiende que son los mismos al no cambiar de población en estudio.88 n1 =102.coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Obsérvese que aunque se dice que los costes de observación por teléfono son los mismos.7% . en S14 y S15 tenemos los extremos del intervalo de confianza pedido en el apartado a.

“MUESTRA 2” y “MUESTRA3”. suponemos que el valor de la proporción es 0. pero esos valores no afectan a la determinación del tamaño muestral que sólo tiene en cuenta los tamaños de los estratos (fila 8) y la estimación de la proporción (fila 10). como se ha comprobado en la nota al apartado f del ejercicio anterior. tamaño muestral = 0) aparecen errores de cálculo en las filas 11. Se sugiere escribir unos costes de observación (los que se quieran) iguales para los tres estratos y comprobar que la asignación óptima nos daría los mismos valores que la asignación de Neyman (M23. 12. no se tienen datos previos para estimar la proporción en cada estrato y a partir de ella la varianza de los datos en cada estrato. 14 y 15.asignación óptima. que las asignaciones óptima y de Neyman coinciden si los costes de observación son iguales (se conozcan o no). O23. Además se observa que al ser la proporción igual en los tres estratos y por tanto la varianza de los estratos. O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas “MUESTRA 1”. Cuando. Pero sabemos.5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir en M10. 299 . las asignaciones de Neyman y proporcional coinciden y son la solución al apartado c. Q23 y S23) que son la solución al apartado b. Al no introducir datos muestrales (por tanto. como en el apartado c. 13.

tras borrar toda la información de las celdas grises. 300 . Encuentre el tamaño apropiado de la muestra que conduce a este error para el estimador y su asignación. para pedirles que califiquen la maquina con base en una escala numérica.24 = 2.3. Solución: n=11. La tabla siguiente proporciona los costes por entrevista. Los costes son mayores para las entrevistas de los jefes de división localizados fuera de Norteamérica. las varianzas de los estratos en la fila 11 (hay que desproteger la hoja) y los tamaños de los estratos en la fila 8. apartado f. Es por eso que se usa muestreo estratificado.25 N1 = 112 = 3. Europa y Asia. La solución sería la asignación óptima (fila 22). varianzas aproximadas de las calificaciones y número de jefes de división en cada zona.43 ≈ 2 n=7+3+2=12 En la hoja “3 Estratos”. Una multinacional desea obtener información acerca de la efectividad de una máquina comercial. valen los mismos comentarios hechos en el ejercicio 1. Se va a entrevistar por teléfono a un número de jefes de división.26 n1 =6. El máximo error de estimación que se quiere cometer al estimar la media se sustituye en I20.24 N 2 = 68 N 3 = 39 La multinacional quiere estimar la calificación media con un error inferior a 1 punto.84 ≈ 7 n 2 =2.99 ≈ 3 n 3 =1. Las divisiones están localizadas en Norteamérica. escribimos el valor de los costes de observación en la fila 21. Estrato I (Norteamérica) Estrato II (Europa) Estrato III (Asia) c1 = $9 c 2 = $25 c 3 = $36 σ 12 σ 22 σ 32 = 3.

Q12 y R12) .000. Tendríamos que (por ejemplo en el estrato 1) borrar en las fórmulas de las celdas M12 y N12 las expresiones N i − ni M 8 − M 9 = (análogamente Ni M8 repetiríamos para los estratos 2 y 3 en las celdas O12. Lo anterior se puede resolver más fácilmente dando a los valores N i en las celdas M8. O10 = 6 / 70 . de la B son defectuosos 6 y de la C son 5 defectuosos.000. NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores para poblaciones finitas N i − ni en la correspondiente hoja de cálculo (tres estratos). lo que Ni equivale a hacerlos igual a 1. el 50% proceden de la máquina A. Estratifique la muestra en circuitos integrados provenientes de las máquinas A.82% B = 4. desprotegeremos la hoja y escribiremos esa información en las filas 9 y 10. 100 2 = 30% .000. 70 de la B y 50 de la C. N N  100 N3  = 20%  . Ella sabe que de los circuitos integrados que van a ser inspeccionados. N  301 .000). Q10 = 5 / 50 ). De los circuitos integrados muestreados: son defectuosos 10 de la máquina A. No se conocen los tamaños poblacionales de los estratos por lo grandes que son estos (podemos considerarlos infinitos) pero sí se conoce la relación de estos N N  tamaños con el de toda la población 100 1 = 50% . Por otra parte dado que los valores N i no son Ni Ni (0. n2 = O9 = 70 . el 30% de la máquina B y el 20% de la máquina C. B y C. Solución: p st = 10.000 y Q8=20. 0.50. n3 = Q9 = 50 ) y proporciones muestrales en cada estrato ( M 10 = 10 / 80 .4.56% Al no disponer de las observaciones muestrales sino de los tamaños de las muestras ( n1 = M 9 = 80 . En una muestra aleatoria de 200 circuitos integrados.000. estime la proporción de defectuosos en la población y fije un límite para el error de estimación (omita los coeficientes correctores para poblaciones finitas en todos los casos).30 y 0. 80 provienen de la máquina A. O8 y Q8 valores muy grandes de forma que conocidos aunque sí N i − ni ≅ 1 . Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que proceden de tres máquinas diferentes de producción. debemos respetar dichas proporciones N (sugerencia M8=50.20). P12. O8=30.

Así.000 y N 3 = Q8=20. En este caso para el estrato 1 hemos tomado 50 millones como tamaño poblacional y análogamente para N1 = M8=50.Como se indicaba en la introducción a la práctica 3. pero estas plantillas pueden utilizarse también para el caso de muestreo aleatorio estratificado con tamaños poblacionales de los estratos infinitos (tan grandes que su tamaño es desconocido). es decir. los valores 100 N1 = 50% . no podemos escribir unos tamaños N i tan grandes como queramos a nuestro antojo. proponemos la segunda alternativa como la forma más segura de transformar las expresiones del muestreo aleatorio simple finito en el caso infinito.000. Pero Ni con esto no acaba todo. N 100 N3 = 20% . si no se hace con toda cautela.000. N 2 = O8=30. Dado que borrar y manipular sobre las expresiones escritas puede provocar fácilmente errores. borrando i i de todas las expresiones o haciendo N Ni N i − ni = 1 . N −n y en el segundo no (o lo N N −n N −n = 1 ). lo que equivale prácticamente a quitarlo de las expresiones donde aparece. las plantillas para el muestreo aleatorio estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas. dichos tamaños han de respetar la relación entre los tamaños de los estratos.000 302 los otros estratos: .000 . La diferencia entre las expresiones del muestreo aleatorio simple en poblaciones finitas e infinitas está en que en el primero aparece multiplicando el coeficiente corrector para poblaciones finitas que es lo mismo. Para ello en la fila 8 (TAMAÑO POBLACIONAL) escribiremos valores muy grandes para los tamaños de los estratos ( N i ) de forma que N i − ni ≅ 1 . Por último. una forma sencilla de asignar N los tamaños a los estratos respetando dichos porcentajes consiste en añadir al porcentaje varios ceros (el mismo en todos los estratos). N Ni que habitualmente vienen dados en porcentajes. En este ejercicio: N 100 N2 = 30% .000. habremos adaptado nuestras plantillas al caso de muestreo estratificado con Ni tamaños de los estratos infinitos. La clave para hacerlo está en la anterior nota.

O8 y Q8.56% y el valor que aparece en la anterior pantalla (S13=0. es decir. lo que se consigue simplemente añadiendo más ceros a dichas cifras (¡ojo. Si se quiere una mejor aproximación a la solución debemos escribir mayores valores en M8. El Ministerio de Medio Ambiente quiere estimar el número total de hectáreas plantadas de árboles en las fincas de una comarca. Las 240 fincas de la comarca son clasificadas en 4 categorías de acuerdo al tamaño. seleccionada mediante asignación proporcional. 4.0457. Ya que el número de hectáreas de árboles varía considerablemente con respecto al tamaño de la finca.La pequeña diferencia entre la solución del problema B=4. 5. el mismo número en todas!).57%) es debido a que trabajamos con N i − ni ≅1 y Ni no exactamente 1. decide estratificar sobre la base del tamaño de las fincas. Una muestra aleatoria estratificada de 40 fincas. dio como resultado el número de hectáreas plantadas de árboles que se muestra en la siguiente tabla: 303 .

7 n1 =6. 401-600 ha. Escribiendo en L20 el máximo error que se quiere cometer al estimar el total de hectáreas. 7 ≈ 20 n=7+17+17+20=61 Este ejercicio es del mismo tipo que el ejercicio 1: datos numéricos y conocemos las observaciones muestrales. Recordemos. Sin necesidad de desproteger la hoja. Solución: a) τˆ = 50505.Estrato I Estrato II Estrato III Estrato IV 0-200 ha. pero en este caso el número de estratos es 4. En L10 y L13 está la solución al apartado a. 60 B = 8663. 201-400 ha. dado que no tenemos información sobre costes para poder calcular la asignación óptima) la respuesta del apartado b (si queremos obtener la solución con un decimal podemos utilizar el botón “disminuir decimales” como se indicó en el ejercicio 2 de la práctica 1). Salvo esa diferencia (por lo que seleccionaremos en este caso la hoja “4 Estratos”) no presenta ninguna dificultad nueva a las encontradas en el ejercicio 1.000 hectáreas.9 ≈ 7 n 2 =16.12 b) n=59. N1 = 86 N 2 = 72 N 3 = 52 N 4 = 30 n1 = 14 n 2 = 12 n3 = 9 n4 = 5 97 42 25 105 27 45 53 67 125 92 86 43 59 21 125 67 256 310 220 142 155 96 47 236 352 190 142 310 495 320 196 256 440 510 396 167 655 220 540 780 a) Estime el número total de hectáreas plantadas de árboles en las fincas de la comarca y fije el límite para el error de estimación. se puede leer en la fila 23 (asignación de Neyman. +600 ha. dado que se va a estimar el total. escribiremos los tamaños poblacionales de los estratos en la fila 8 y las observaciones muestrales en las columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaños de las muestras pues la hoja de cálculo los obtiene al contar las observaciones muestrales que se han escrito debajo). que debemos leer de la fila 23 sólo la información de las celdas bajo las columnas “TOTAL”. 304 . b) Este estudio se quiere hacer anualmente con un límite para el error de estimación de 5.4 ≈ 17 n4 = 19.7 ≈ 17 n 3 =16. Encuentre el tamaño muestral y su asignación para garantizar dicho límite de error si se usa la asignación de Neyman.

21%) 305 . +600 ha. Solución: (11. N1 = 86 N 2 = 72 N 3 = 52 N 4 = 30 n1 = 14 n 2 = 12 n3 = 9 n4 = 5 NO SI NO NO SI NO NO NO SI NO NO SI NO NO SI NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO NO NO NO NO SI NO NO Estímese con un intervalo de confianza la proporción de fincas de la comarca que han sufrido algún incendio en los últimos diez años. Para ello. obteniéndose las siguientes respuestas Estrato I Estrato II Estrato III Estrato IV 0-200 ha. el gobierno también desea conocer la proporción de fincas que han sufrido algún incendio en los últimos diez años.9% . 38. en la misma muestra se pregunta sobre el referido asunto. 401-600 ha.6. Para la comarca del ejercicio anterior. 201-400 ha.

Una psicóloga que está trabajando con un grupo de adultos con retraso mental. Como en el ejercicio 5 de la práctica 2 estimaremos la varianza de los datos en cada estrato a partir del rango o recorrido de los mismos. Seleccionaremos en la hoja “4 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. 48 n1 = 14. por tanto N2=53 . por lo que desea estratificar con base en los sexos. Solución: n = 28. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción. con un límite de error de un segundo. desea estimar su tiempo medio de reacción a un cierto estímulo.Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. En estudios previos de este tipo de investigaciones se ha encontrado que los tiempos presentan una amplitud de variación de 5 a 20 segundos para varones y de 3 a 14 segundos para mujeres. 7. encuentre el tamaño muestral necesario para estimar el tiempo medio de reacción para el grupo.52 ≈ 14 n = 15 + 14 = 29 N=96. N1=43. Los costes del muestreo son los mismos en ambos estratos. Usando la asignación óptima.96 ≈ 15 n2 = 13. El grupo de 96 personas tiene 43 varones. En el primer estrato escribiremos en la 306 .

R 2 ( 20 − 5 ) σ ≅ = = 14.56 . 16 16 2 Como en el apartado b del ejercicio 2. Podemos optar por escribir el mismo coste de observación en C21 y E21 (cualquier valor. por ejemplo aquí hemos considerado 1) y leer la solución en las filas 22 y 23. Una verificación de control de calidad estándar para baterías de automóviles consiste simplemente en registrar su peso. con el mismo número de baterías producidas en cada mes. en este caso) 8. Las muestras aleatorias simples de los pesos de las baterías para los dos meses dieron las siguientes mediciones (en libras): 307 . los costes de observación en cada estrato son los mismos. 16 16 2 celda C11 2 Análogamente en el estrato 2. 06 . R 2 (14 − 3) E11= = = 7. o bien dejar esas celdas en blanco (C21 y E21) y tomar como solución la asignación de Neyman en la fila 23 (la asignación óptima en la fila 22 daría errores de cálculo. división por cero. Un embarque particular de una fábrica consistió en las baterías producidas en dos meses diferentes. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de observar la variación mensual.

5 63.5 64. Descarte el coeficiente corrector para poblaciones finitas.8 63.88 B = 0. Así.5 64. Esta pequeña diferencia entre los errores del muestreo aleatorio simple y del estratificado se debe a que los estratos no están formados por datos más homogéneos que el conjunto de la población.5 64. 65 . que es muy similar a lo obtenido en a) (las medias coinciden por ser la asignación proporcional). Por tanto hemos de suponer los tamaños de los estratos infinitos e iguales. 27 . y fije un límite para el error de estimación. o será suficiente con muestreo aleatorio simple? Solución: a) y st = 63.51) c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendría y = 63.0 66. Este hecho se confirma cuando en el apartado a se sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. 63 b) No. sólo nos dice el enunciado que la producción es la misma en cada mes. 07 S22 = 1.30 S 2 = 1. 69 no pertenece al intervalo (63.Mes A Mes B 61. Este problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron vamos a resolver este otro.5 63. por tanto no estaría justificado estratificar basándose en la producción por meses.88 B = 0. ¿Considera usted que el embarque cumple el estándar promedio? c) ¿Cree usted que la estratificación del ejercicio anterior es deseable.5 64. La producción de baterías no es conocida exactamente debido a su alto número. 64. b) El estándar de la fábrica para este tipo de baterías es de 69 libras. como puede verse al comparar sus varianzas muestrales S12 = 1.26 .0 a) Estime el peso medio de las baterías del embarque (población).5 63.8 63.5 63. daremos a los tamaños de los estratos en C8 y E8 valores elevados pero iguales 308 .

dado que el valor 69 no está entre ambos concluimos que nuestros datos rechazan la afirmación de que el peso medio de la producción de baterías examinada sea de 69 libras. Observamos que la estimación de la media tiene una cota de error de estimación similar a la del apartado a (analizando los datos según un muestreo estratificado). Para responder al apartado b nos fijamos en los extremos del intervalo de confianza para la media (G14. G15). esto es debido a la falta de homogeneidad de los datos dentro de cada estrato. Tal y como se indica en los comentarios a la solución del apartado c más arriba. Para el apartado c juntaremos las muestras de los dos estratos en una única muestra aleatoria simple y la analizaremos con la ayuda de la hoja “MAS infinito”.La solución al apartado a se puede leer en G10 y G13. 309 . hecho que se confirma comparando las varianzas de las muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusión de ambas (celda C11 de la siguiente pantalla).

310 .

pero no ambos. no tenemos que modificar ninguna expresión. una forma sencilla de establecer claramente el papel de las variables es fijarnos en sobre qué variable debemos estimar el valor de su media y/o total (variable Y). Por consiguiente. En esta plantilla sólo tenemos que introducir los valores que aparecen en las celdas grises. por tanto. Se deberá tener cuidado en no confundir los papeles de las variables X e Y cuyos datos muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones sobre la variable Y. No es necesario. Regresión y Diferencia. Habitualmente sólo nos darán el valor de la media poblacional de X o del total poblacional de X. 311 . desproteger la hoja. en cualquier caso debemos completar el valor de los dos como se ha N   C 8 15000   = hecho en la siguiente pantalla  C 9 = 75 =  y volveremos a ver en el ejercicio 1 200  C10  de esta práctica.PRÁCTICA 4 Estimadores de Razón. dado que fácilmente se puede calcular uno a partir del otro τx    µ x = ⇔ τ x = N µ x  .

y los valores intervenidos son obtenidos con una muestra de esos artículos. . Para obtener el tamaño muestral necesario para conseguir dicho nivel de error tenemos que conocer además de éste (fila 18). un estimador de regresión y un estimador de diferencia. los valores en el libro son conocidos para cada artículo en la población.79 . 76. mediante un estimador de razón. Obtenga el intervalo de confianza en cada caso. Una muestra aleatoria simple de 10 artículos nos dio los siguientes resultados: Valor intervenido yi Valor en el libro xi 9 10 14 12 7 8 29 26 45 47 109 112 40 36 238 240 60 59 170 167 Estime el valor intervenido medio.03). 1. Generalmente. Con esto se quiere mostrar al alumno que éste y otros valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas. el tamaño poblacional (C8) y la varianza residual asociada al modelo (fila 17). entonces escribiremos el valor de µ x o en su defecto x (como en el ejercicio 2) en la celda C9. los valores de la media poblacional de X poblacional de X ( τx) ( µx ) o del total no son necesarios.320€.Si se quiere realizar alguna de las estimaciones con un error de estimación inferior a un determinado valor B. salvo en el caso de que se quiera estimar la razón (R) con un determinado error B. Solución: 312 Estimador de razón (72. para estimar esta última necesitamos una muestra previa que debe aparecer en las columnas C y D. Supóngase que una población contiene 180 artículos inventariados con un valor establecido en el libro de 13. Sin embargo. escribiremos éste en la celda correspondiente de la fila 18. Los auditores frecuentemente están interesados en comparar el valor intervenido de los artículos con el valor asentado en el libro. Nota: El valor del coeficiente b de la recta de regresión se ha obtenido en G22 y G23 utilizando dos expresiones distintas. Los valores en el libro entonces pueden utilizarse para obtener una buena estimación del valor intervenido total o medio para la población.

escribiremos también C 9 = µ x = τx N = 13320 . es claro que Y = valor intervenido y por tanto X = valor en el libro. 75. 75. Si no lo fuera así.86 . Conocemos C8=N=180 y C10=τ x = 13320 . Estimador de diferencia (72. 180 colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente pantalla se lee la solución en las columnas de la estimación de la media.97). utilizando la estrategia sugerida más arriba de que Y es la variable sobre la que se quiere hacer la estimación.80 . Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 313 . Una muestra aleatoria de 8 familias fue seleccionada de entre 100. para las familias de una pequeña comunidad.94) En el enunciado del ejercicio está indicado quien es cada variable.Estimador de regresión (72. filas 15 y 16. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año. 2.

debemos estimarla por su media muestral. no es necesario el valor de µ x para estimar la razón R. es decir. B = 0. regresión o diferencia.3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 Estime la razón poblacional. aunque si es preciso al menos estimarla con x si queremos obtener la cota del error de estimación asociado. pues si utilizamos x en lugar de µ x cuando queremos estimar la media de la variable Y mediante un estimador de razón. ( x=promedio(C22:C100) ) en la celda C9. obtendríamos que µ y = µ yL = µ yD = y . 0118 NOTA: Como no se conoce la media poblacional de X.1531. La nota anterior sólo es aplicable para estimar la razón r. Sin embargo. y establezca un límite para el error de estimación. Si en el ejercicio 1 hacemos B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que µ y = µ yL = µ yD = y (D12=F12=H12=B22) Necesitamos conocer el valor de µ x (C9) y τ x (C10) cuando se quiere estimar la media o el total. Solución: r = 0. Al no conocer µx en este ejemplo. C9=PROMEDIO(C22:C100). 314 escribiremos la media muestral de X . por cualquiera de los tres métodos. estimaríamos la media de la variable Y sólo mediante su media muestral y no estaríamos utilizando información auxiliar alguna. es decir.

en este ejemplo donde se quiere estimar la razón o proporción de dinero gastado en alimentos en relación al ingreso total por año. se aclara con la siguiente pantalla. Por tanto.Para identificar las variables X e Y recordemos que la razón se define como el cociente del total de Y sobre el total de X. X = ingreso total. 315 . Y = gasto en alimentos. En cuanto a la nota sobre no usar x en lugar de µ x cuando estimemos la media de Y.

la media de Y se x estimaría. mediante los tres métodos. Se ha calculado en B22 la media muestral de Y N 180   ( y =promedio(D22:D100) ) para comprobar que si se utiliza x en lugar de µ .( ) Hemos escrito en C9 la media muestral de X x =promedio(C22:C100) en lugar de la media τ 13320   poblacional de X  µ x = x =  . 316 . sencillamente por y .

bajo determinadas condiciones (muy generales). utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los problemas de muestreo sistemático. Suponga que hay un total de 2. 1. Use los datos de la tabla siguiente para estimar la proporción a favor de la nueva política. Debido a esto. La gerencia de una compañía privada está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión.PRÁCTICA 5 Muestreo Sistemático. tras razonar que nos encontramos bajo esas condiciones. se comporta como el muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de estimación. y establezca un límite para el error de estimación. El muestreo sistemático. Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 200 ∑ y i = 132 i =1 Solución: p sy = 66% B = 6.37% 317 . Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo en particular.000 empleados.

2). en la celda E18 (326. 6 La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamaño muestral necesario. B 22 = N E8 = = 6.8%. El tamaño muestral se obtiene dividiendo el tamaño poblacional N=2000 entre 10 (muestra sistemática de 1 en 10) o sencillamente observando el 200 índice superior de la sumatoria ∑ y i = 132 . con un límite para el error de estimación del 4. i =1 2.8%).Dado que no conocemos explícitamente los 200 valores de la muestra (y aunque se conocieran 200 sería largo escribirlos) pero si conocemos la suma de ellos. El valor de k se puede obtener fácilmente calculando en cualquier celda en blanco el cociente entre el tamaño poblacional y el tamaño muestral (por ejemplo.13 ) y n E18 quedándonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente N  E8  como se ha hecho en B 23 = ENTERO   = ENTERO  =6 n  E18  318 . 2 ≈ 327 . pero no obtenemos directamente el valor de k que es sólo característico del muestreo sistemático. ¿Qué tipo de muestra sistemática deberá obtenerse? Solución: n = 326. determine el tamaño de muestra requerido para estimar p. ∑ y i = 132 . introduciremos i =1 132   directamente la estimación de p en E10  p =  y el tamaño muestral en E9 (para lo que es 200   preciso desproteger primero la hoja). para que la estimación de p no supere la cota B=0.048 (4. Con los datos del ejercicio anterior.3 ≈ 333 o 334 . Sería suficiente con tomar una muestra sistemática de 1-en-6 donde n = 2000 = 333.

319 .

acción si la condición es cierta. =SI(C8="". si conocemos M = C8 (tamaños medio de todos los conglomerados de la población) C9 1 N − n Sc2 se hará según V ( y ) = 2 . En esta plantilla utilizamos la función condicional SI para el cálculo de expresiones que tienen diferentes formas (o sencillamente no se pueden calcular) dependiendo de la información que tengamos.(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 320 .PRÁCTICA 6 Muestreo por Conglomerados. pero si no se conoce lo estimaremos mediante m = C11 N n M (tamaño medio de los conglomerados de la muestra). C9 es decir. Así. no esté vacía (acción cuando la condición de C8 vacía sea falsa). Observe que las dos acciones son iguales salvo esta diferencia que hemos subrayado.(C9-C10)*C17/(C10*C9*(C11^2)). La función condicional SI cuya forma general es: =SI(condición. acción si la condición es falsa) la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la media. en la condición preguntamos si la celda C8 está vacía (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en cuyo caso no es conocido M = C8 y utilizaremos m = C11 (acción si la condición de no C9 conocer M es cierta) y utilizaremos el valor de M = C8 cuando C8 contenga el valor de M.

ni los menores con los menores) y como puede verse el método de estimación del total en la columna D tiene un error asociado.(C9*C17)/(C17+(C9*((C18*C11/2)^2))). D15 y D16 el resto de valores asociados a dicha estimación) D12 ⇒ =SI(C8=””. éstas no pueden calcularse cuando M es desconocido.C12*C8) En la anterior pantalla. También se ha utilizado la función SI en las expresiones de la estimación del total cuando M es conocido (columna D). 184099.(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2)))) En la parte inferior izquierda se ha calculado el coeficiente de correlación lineal entre los tamaños de los conglomerados y los totales por conglomerado para justificar la conveniencia de estimar el total considerando el tamaño de los conglomerados (TOTAL(M conocido). se ha hecho igual que en C13.44. mayor que el obtenido en la columna E. 188218. para la determinación del tamaño muestral.En C19. todos estos comentarios sobran.””. La anterior pantalla recoge una situación donde la correlación es débil (los mayores tamaños de los conglomerados no están asociados con los mayores totales. Cuando esta correlación es fuerte el método de estimación del total en la columna D nos proporciona mejores estimaciones (con menor error de estimación). donde M=1500. aparecen los valores para la estimación del total cuando M es conocido. columna D) o sin utilizar dicha información (columna E). 321 . D14. cuando no podamos estimar el total por ambos métodos. Lógicamente. =SI(C8="".94. En este caso la acción cuando la condición (no conocemos M=C8) es cierta es que no se calcula nada (escribimos para dejar la celda vacía: abrir y cerrar comillas sin nada entre ellas) y si conocemos M=C8 (la condición es falsa) la acción es el cálculo de la correspondiente expresión (en D12 la estimación del total y en D13. Obviamente. en la siguiente donde C8 está en blanco (desconocemos el tamaño de la población) dichas celdas están vacías. sin embargo.

d) Suponiendo que los datos de la tabla representan una muestra previa. cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. En una pequeña ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. 322 .1.

columna C. se calcula de igual forma. bien sumando valores numéricos o los ceros y unos de las variables dicotómicas. 4 ≈ 155 NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo.12) d) n = 154. y posteriormente sumado para cada manzana o conglomerado. en el total o suma por conglomerado de la columna D.14% B = 11.01. El máximo error que se quiere cometer al estimar la media (proporción en este caso) lo escribiremos en tanto por uno en C18=0. respuesta igual a 1. Observe como coinciden las dos estimaciones D12=E12=520.5% b) (423. 718. 616.25 . En ambos casos el total por conglomerado. supongamos conocido M = 200 × 7 = 1400 y estime el total por los dos métodos estudiados (τ = M y ) τ t = N y t . 323 . pero no sabemos el número de elementos en la población. Las respuestas: al apartado a se lee en C12 y C14. al apartado b en E15 y E16 y al apartado d en C19. Conocemos el número de manzanas o conglomerados en la población.16 . mi = 7 ∀i ). En este ejercicio estamos ante un ejemplo de variable dicotómica donde las respuestas interesado y no interesado se han codificado como 1 y 0.75) c) (396.75. M. En el muestreo por conglomerados no se distingue entre variables numéricas y variables dicotómicas. Se sustituyen los valores del número de hogares en la manzana en el tamaño o número de elementos en el conglomerado.Solución: a) p = 37. yi . así como la varianza del estimador D13=E13=2340 y el límite para el error de estimación D14=E14=96. y el número de hogares que han mostrado interés. N=200.

98 y E14=96. esta estimación es peor que la obtenida en el apartado b como muestra la cota del error de estimación en D14=160. 324 .083.75. Al sustituir dicho valor en C8 se calculan las expresiones para la estimación del total cuando M es conocido. B27=0. No obstante. columna D. Lo anterior puede justificarse en base a la débil relación entre los tamaños y totales de los conglomerados.En el apartado c se supone conocido M=1500.

El gerente de un periódico desea estimar el número medio de ejemplares comprados cada semana por una familia de una localidad. b) Determine.En la siguiente pantalla se comprueba la propiedad. de coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual tamaño. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 edificios y se entrevistaron a todas las familias de estos edificios. Los 4000 hogares están agrupados en 400 edificios. cuántos edificios debe 325 . 2. que se recuerda en la nota. usando los datos de la encuesta piloto. obteniéndose los siguientes resultados: Edificio 1 2 3 4 a) Estime con Periódicos comprados cada semana por familia 1 2 1 3 3 2 1 4 1 1 1 3 2 2 4 4 1 1 2 2 1 1 1 1 3 2 1 2 1 1 1 1 3 2 1 5 3 3 la encuesta piloto el número medio de periódicos comprados cada semana por las familias de la localidad y el error de estimación asociado.

de forma que posteriores comprobaciones. pueden hacerse fácilmente editando el contenido de las celdas D23 y siguientes. Para obtener el número de observaciones en cada edificio o conglomerado contaremos el número de familias que se han observado en cada edificio. 10 en el primero..tener la nueva muestra si se quiere estimar el número medio de periódicos comprados cada semana por familia. y hallar la suma de las observaciones en cada uno de ellos. con un error de estimación inferior a 0. habrá que contar el número de elementos en cada conglomerado. 326 ..95 B = 0.. yi . correcciones de errores.20 unidades. .. . Solución: a) y = 1. 40 b) n = 15. Para calcular los totales yi podemos hacerlo como se indica en la siguiente pantalla. mi . 21 ≈ 16 En este ejemplo de muestreo por conglomerados nos dan explícitamente las observaciones individuales de la muestra.

para lo cual fue necesario capturar 70 de ellas. La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos. Estímese el número de avutardas que viven en la región y la precisión del estimador usado. En una segunda muestra de 20 avutardas se observaron 5 marcadas. usando un intervalo con el 95% de confianza. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía. 1.…. Se han marcado en negro las celdas cuyos valores o expresiones no se utilizan en alguna de las técnicas. tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. específicos de algunas de ellas. Se desea estimar la población de avutardas en determinada región. Las cuatro técnicas que se incluyen en esta práctica tienen elementos comunes como los correspondientes a la estimación del tamaño de la población y otros.) necesaria para atender futuras concentraciones. personal sanitario. Se desea estimar la población de ardillas en un parque. obteniéndose los resultados de la tabla: 327 . Se toma una segunda muestra hasta que se consigue encontrar 5 marcadas.250. Para ello se capturan 50 ardillas que se devuelven al parque marcadas.95 2. protección civil. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros. 1. etc.PRÁCTICA 7 Estimación del tamaño de la población. 24 . el número de ardillas que viven en el parque. 76) 3. por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados. Para ello se capturan 30 avutardas que se devuelven marcadas a la población. Estime. Solución: (149. Solución: N = 120 B = 92. como la estimación de la densidad.

24 B = 37. La observación se realiza mediante 40 intervalos. En 18 ocasiones.Nº del cuadro 1 2 3 4 5 6 7 8 9 10 Número de aficionados Nº del cuadro en el cuadro 193 11 216 12 250 13 163 14 209 15 195 16 232 17 174 18 215 19 198 20 Número de aficionados en el cuadro 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. 328 .8 Con estos cuatro ejemplos se ilustran las cuatro técnicas de estimación del total que estudiamos en este capítulo.832. Se desea estimar el número total de autobuses que. entre las 6 y las 24 horas del domingo. circulan por un determinado punto kilométrico de una carretera. Dar un límite de error de estimación. Solución: Mˆ = 86.71) 4.860 aficionados (2. repartidos a lo largo del periodo en estudio.1 . Solución: a) λ = 2. de 10 minutos cada uno.16 aficionados m 2 b) M = 64. 2. no circuló por el punto en cuestión ningún autobús.887. 66. 29 . En el primer y segundo ejercicios sólo tenemos que identificar si se trata de muestreo directo o inverso (dependiendo de si se ha fijado el tamaño de la segunda muestra o ésta se toma hasta conseguir un número de elementos marcados). de las cuarenta que se estableció el control. 23) (62. Es claro que el primer ejercicio se trata de un caso de muestreo directo y el segundo de muestreo inverso. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza.

y el número total de elementos observados en la n muestra. En este caso los cuadros en el espacio temporal son sencillamente intervalos de tiempo. sumando los elementos observados en los 20 cuadros (como indica la i =1 flecha en la anterior pantalla). cuadros cargados. El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el número de elementos observados en cada cuadro de la muestra. El área total se calcula multiplicando 300 cuadros por el área de cada uno (10x10). Hay que tener cuidado en escribir el tamaño del área total y de cada cuadro en la misma unidad de medida. Así sólo contaremos los cuadros con elementos (uno o más). donde no es importante el número de elementos en cada cuadro puesto que éste es en general cero o uno y muy raras veces mayor a uno. y los cuadros sin elementos o cuadros no cargados. El último ejercicio es un caso de muestreo por cuadros cargados. al igual que los intervalos de tiempo controlados. 329 . 1080=(24-6)*60. m = ∑ mi . En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren estimar los autobuses que circulan por un lugar se han expresado en minutos.En el muestreo por cuadros y por cuadros cargados se puede considerar una población en una superficie (ejercicio 3) o en un espacio temporal (ejercicio 4).

7 del capítulo 8 del mismo nombre. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja). Solución: N T = 0. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja.PRÁCTICA 8 Indicadores estadísticos regionales En las plantillas de la hoja “Indicadores estadísticos regionales” se encuentran resueltos los ejemplos 8. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. sólo hay que escribir los datos del problema en las celdas grises (como siempre.1152 ln N i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el T = ln N + ∑ xi ln xi = 0. se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo problema para evitar trabajar por error con otros datos). (ejercicio 3. Las diferencias entre los valores obtenidos a mano y con la hoja de cálculo son debidas sólo a errores de redondeo en las operaciones. 1.1597 IT = ITHEIL = coeficiente e índice de Theil. 330 .1 a 8.

relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor. 3. (ejercicio 4. Solución: N N 1 1 N 2. (ejercicio 5. 6865 = ∑ di = = 0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 80 350 R2 15 70 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.2. 331 . 6716 4 4 i =1 4 i =1 i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la D = ∑ di f i = ∑ di desigualdad colectiva y en el margen derecho las desigualdades individuales.

En la siguiente pantalla se han cambiado los valores de X e Y en relación a como se resolvió este ejercicio al final del capítulo 8.97959 2 i =1 Sustituyendo los valores de PIB y número de oficinas en las variables X e Y se obtiene a pie Solución: F = 1 − de tabla el índice de asociación geográfica de Florence. obteniéndose el mismo resultado. 332 .1 N ∑ xi − yi = 0. Obsérvese que es indiferente permutar los valores de X e Y.

La hoja está preparada inicialmente para 10 sectores y 10 regiones pero puede fácilmente ampliarse a cualquier número de la siguiente forma: • Se desprotege la hoja. tendremos que cambiar los datos y las etiquetas de la cabecera) 333 .6 del capítulo 9 del mismo nombre. esta nueva columna ya tendrá todas las expresiones necesarias para los cálculos correspondientes (al copiar la columna se copian tanto las expresiones como los valores de la tabla “DATOS” y la cabecera. Así. 9. sólo hay que escribir los datos del problema en las celdas grises de la tabla “DATOS” que aparece en la parte superior de la hoja.2. en este ejemplo: “S2”.5 y 9.3. 9. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja). • Se copia la columna de alguno de los 10 sectores iniciales en ésta (siguiendo la conocida secuencia marcar+copiar+pegar.PRÁCTICA 9 Medidas de localización espacial En las plantillas de la hoja “Medidas localización espacial” se encuentran resueltos los ejemplos 9. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. copiaremos la columna D en la E). • Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la columna E y seleccionamos en el menú Insertar/Columnas).

(ejercicio 4. relación tema 9) En un país. 334 . 1. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia. justificando y apoyando los comentarios en los datos del enunciado. Esto último también es aplicable a la práctica 8 para ampliar el número de regiones o grupos de regiones. Químicas y Alimentación. Construcción. dividido administrativamente en tres regiones. y copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla. En este caso se insertará una nueva fila (en cada una de las tablas) entre las regiones R1 y R10. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones Siderurgia I II III 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas. Un procedimiento análogo nos permite ampliar la hoja para más de 10 regiones.• Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para más de 11 sectores.

000 Castilla León 19.49 0.00 100.000 a) Obtenga los coeficientes de localización de las distintas actividades. 335 .00 100.6178 0.6178 CDi* 0.49 0.00 100. (ejercicio 3. relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.00 Coeficientes de especialización regional REGION R1 R2 R3 CEi 0 0 0 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 CL j 0 0 0 0 Coeficientes de diversificación de cada región REGION R1 R2 R3 CDi 0.00 100.000 14.000 Cataluña 15.000 8.00 100.000 65. Las distintas medidas de localización espacial pueden leerse en las tablas que hay bajo los DATOS.00 100. 2.00 100.00 100.6178 0.49 Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los sectores con las regiones pues las medidas que se obtienen no son simétricas en relación a los datos. es decir.000 60.000 30. cambian si colocamos las regiones en los sectores y éstos en el lugar de las otras.000 20.000 18.00 100.00 100.000 Castilla La Mancha 3.000 90.Solución: Cocientes de localización y especialización Lij REGION R1 R2 R3 SECTOR S1 S2 S3 S4 100.00 100.

047808 R3 0.1219 0. Solución: Coeficientes de localización sectorial SECTOR S1 S2 S3 CLj 0.2423 0.170455 Colocando los datos del ejercicio en la tabla DATOS.2197 Coeficientes de especialización regional REGION CEi R1 0.192733 R2 0. igual que antes.b) Calcule los coeficientes de especialización para cada comunidad.234649 R4 0. 336 . se obtienen entre otros los coeficientes pedidos.

El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del programa.INTRODUCCIÓN AL SPSS 1. Introducir los datos en SPSS. Nosotros utilizaremos solo el módulo SPSS base. en la actualidad.3. Además de los archivos con este formato. Para abrir un archivo de datos de este formato. Busque y seleccione el archivo que se desee abrir. seleccione en el menú principal: Archivo/Abrir/Datos.INTRODUCCIÓN El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a la realización de análisis estadísticos aplicados a las ciencias sociales. Los archivos de datos con formato SPSS tienen extensión *.sav. Es posible: o Abrir un archivo creado anteriormente o o Introducir nuevos datos (se verá más adelante en “1. el paquete estadístico con más difusión a nivel mundial. SPSS dará una relación de los archivos en su directorio con extensión *.sav.. Para una mejor exposición de los mismos puede consultarse la “Guía breve de SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción.PASOS BÁSICOS EN EL ANÁLISIS 1. 1. Por defecto.. En los siguientes apartados se hace una breve introducción a los conceptos básicos de este programa.Editor de datos”). Con más de 30 años de existencia es.1. SPSS puede abrir 337 .

Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas como nombres de variables. 338 . LOTUS 1-2-3.archivos de EXCEL. Si los encabezados de las columnas no cumplen las normas de denominación de variables de SPSS. también se pueden especificar la “Hoja de trabajo” que se desea importar. En Excel 5 o posterior. aparecerá el cuadro de diálogo Apertura de origen de datos de Excel.-Editor de datos”). Para ello elija en los menús: Archivo/Abrir/Datos y seleccione Excel(*.3. que permite especificar si se incluyen los nombres de las variables en la primera fila de la hoja de cálculo ( Leer nombres de variables de la primera fila de datos). se convertirán en nombres de variables válidos y los encabezados originales de las columnas se guardarán como etiquetas de variable (véase más adelante en “1. dBASE. así como las casillas que se desean importar (Rango).… sin necesidad de convertirlos a un formato intermedio ni de introducir información sobre la definición de los datos.xls) en la lista desplegable Tipo Tras seleccionar el fichero Excel que queremos abrir.

339 . 3. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús. Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo del que se seleccionan. 4. Ejecutar el procedimiento y ver resultados. Seleccionar las variables para el análisis. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de extensión *.2. Los gráficos se pueden modificar en la ventana del editor de gráficos.spo.

gráficos y los resultados estadísticos se muestran en el visor. Con él. • Visor de resultados. Todas las tablas. 340 . maximizar y cerrar ventana. Además de las distintas ventanas. Muestra el contenido del archivo de datos actual. Puede editar resultados y guardarlos. Es la ventana que se abre automáticamente cuando se inicia una sesión de SPSS. Esta ventana se abre automáticamente la primera vez que se ejecuta un procedimiento..1. existen un conjunto de elementos. principalmente.ENTORNO DE TRABAJO Existen diversos tipos de ventanas en SPSS. sigue con el nombre del fichero que estamos utilizando y el nombre de la ventana activa y termina con los botones de minimizar. comunes a todas ellas que configuran la apariencia general del SPSS: • Barra de títulos. se pueden crear nuevos archivos o modificar los ya existentes.2. utilizaremos dos: • Editor de datos. Muestra el icono de SPSS. Nosotros.

existen algunas diferencias: o Cada fila representa un caso u observación (atención en ejercicio 1). A diferencia de una hoja de cálculo. Recoge las denominaciones de los menús de SPSS a través de los cuales se pueden ejecutar todos los posibles comandos que proporciona el paquete.EDITOR DE DATOS El editor de datos proporciona dos vistas: • Vista de datos. • Vista de variables. 1. o Las columnas son características de las variables.. El significado de cada icono puede verse situando el ratón sobre el propio icono. Aquí: o Las filas son variables. Contiene descripciones de los atributos de cada variable del archivo de datos. sin embargo.3.sav” - Realizar el procedimiento: Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual” - Realizar lo mismo con la variable “Meses desde el contrato”. 341 . Ejemplo 1.• Barra de menús. Las funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de cálculo. • Barra de herramientas. Suministra información sobre el estado en que se encuentra SPSS. Proporciona un acceso rápido y fácil a las tareas más comunes de cada ventana de SPSS. o Las casillas contienen valores numéricos o de cadena. o Las columnas son variables. • Barra de estado.- - Abrir archivo de datos “Datos de empleados. las casillas del editor de datos no pueden contener fórmulas. Muestra los valores de datos reales o las etiquetas de valor definidas.

puntos o los símbolos @. 342 . haciendo doble clic con el botón izquierdo del ratón cuando el puntero del mismo se encuentra situado en la palabra var del extremo superior de la columna o • Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable cuyos datos vamos a introducir según las indicaciones que siguen: Para la especificación del nombre de las variables se debe tener en cuenta: • El nombre debe comenzar por una letra. 64 bytes suelen equivaler a 64 caracteres en idiomas de un solo byte (por ejemplo.Ejemplo 2. dígitos. #. el primer paso es el de definir las variables que formarán el archivo.Abrir “vista de datos” y “vista de variables” en el archivo de datos: “Datos de Empleados. Los demás caracteres pueden ser letras.. español. Normalmente. En el caso en que queramos crear un archivo de datos nuevo.sav”.1. • Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las variables creadas automáticamente por algunos procedimientos).Pasos básicos en el análisis”) o crear un nuevo archivo. alemán. • Los nombres de variable no pueden terminar en punto. francés. Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de datos creado con anterioridad (como vimos en “1.. _ o $. inglés. • La longitud del nombre no debe exceder los 64 bytes. Para definir una variable se pueden seguir dos procedimientos: • En vista de datos.

árabe. EQ.italiano. japonés. • Los nombres de variable se pueden definir combinando de cualquier manera caracteres en mayúsculas y en minúsculas. El Editor de datos acepta valores numéricos en formato estándar o en notación científica. • Coma. los puntos y los cambios de minúsculas a mayúsculas. o bien en notación científica. Los tipos de datos disponibles son los siguientes: • Numérico. coreano). OR. Por defecto se asume que todas las variables nuevas son numéricas. SPSS intenta dividir las líneas aprovechando los subrayados. • Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados. NOT. WITH. Para algunos tipos de datos. LE. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos seleccionado. ruso. Una vez que se haya determinado el nombre de la variable. Especifica el tipo de datos que contiene la variable. !. GT. GE. Los tipos más usuales son numérico y cadena. esta distinción entre mayúsculas y minúsculas se conserva en lo que se refiere a la presentación. • Cada nombre de variable debe ser único. BY. Si se pulsa el botón tipo y luego los puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. El Editor de datos acepta valores numéricos para este tipo de variables con o sin comas. LT. para otros tipos de datos. NE. chino. hay cuadros de texto para la anchura y el número de decimales. hebreo. simplemente puede seleccionar un formato de una lista desplegable de ejemplos. Una variable cuyos valores son números. ?. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres posiciones y con el punto como delimitador decimal. griego. ’ y *). AND. tailandés) y a 32 caracteres en los idiomas de dos bytes (por ejemplo. hay que definir sus especificaciones: • Tipo. TO. Se puede utilizar Tipo de variable para cambiar el tipo de datos. • No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo. Tipo de variable especifica los tipos de datos de cada variable. • Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras reservadas son: ALL. Los valores se muestran en formato numérico estándar. 343 . no se permiten duplicados. Los valores no pueden contener comas a la derecha del indicador decimal.

Se pueden introducir valores de datos con o sin el signo dólar inicial.23E+2 y 1.23D2. 344 . Los valores no pueden contener puntos a la derecha del indicador decimal. • Fecha.• Punto. Los caracteres definidos en la moneda personalizada no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres posiciones y con la coma como delimitador decimal. guiones. Seleccione un formato de la lista. comas o espacios. Una variable numérica que se muestra con un signo dólar inicial ($). seleccione Opciones y. • Notación científica. 1. o bien en notación científica. El rango de siglo para los valores de año de dos dígitos está determinado por la configuración de las opciones (en el menú Edición. pulse en la pestaña Datos). Una variable numérica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda del cuadro de diálogo Edición/Opciones. Puede introducir las fechas utilizando como delimitadores: barras. a continuación. El exponente puede aparecer precedido por una E o una D con un signo opcional. El Editor de datos acepta valores numéricos para este tipo de variables con o sin puntos. 1.23E2. • Moneda personalizada. El Editor de datos acepta para estas variables valores numéricos con o sin el exponente. comas que delimitan cada tres posiciones y un punto como delimitador decimal. • Dólar. Una variable numérica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. puntos.23+2). 123. 1. o bien sólo por el signo (por ejemplo.

Las mayúsculas y las minúsculas se consideran diferentes. Por ejemplo los niveles de satisfacción con un servicio. • Anchura. el departamento de la compañía en el que trabaja un empleado. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. el código postal o la confesión religiosa. • nominal. Los datos nominales y ordinales pueden ser de cadena (alfanuméricos) o numéricos. • ordinal. alto. medio (orden que no es el correcto).• Cadena. bajo. Una variable puede ser tratada como de escala cuando sus valores representan categorías ordenadas con una métrica con significado. Una variable cuyos valores no son numéricos y. Este tipo también se conoce como variable alfanumérica. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las puntuaciones de evaluación de la preferencia. por lo tanto. se asume que el orden alfabético de los valores de cadena indica el orden correcto de las categorías. no se utilizan en los cálculos. medio. Por norma general. • Nivel de medida. Número de dígitos de los valores de esa variable. Puede especificar el nivel de medida como Escala (datos numéricos de una escala de intervalo o de razón). Nota: Para variables de cadena ordinales. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares. Por ejemplo. • escala. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud definida. se puede indicar que es más fiable utilizar códigos numéricos para representar datos ordinales. en una variable de cadena cuyos valores sean bajo. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca. por lo que son adecuadas las comparaciones de distancia entre valores. que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables nominales: la región. Ordinal o Nominal. Por ejemplo. se interpreta el orden de las categorías como alto. 345 .

Las etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el usuario cada vez que se abre un archivo de datos. 346 . Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayoría de los cálculos. Al cambiar el ancho de columna no se cambia el ancho definido de una variable. aparecerán asteriscos (*) en la ventana Vista de datos. Las etiquetas de valor no están disponibles para las variables de cadena larga (variables de cadena de más de 8 caracteres). Nº de decimales de los datos. Si el ancho real y definido de un valor es más ancho que la columna. • Decimales. Las etiquetas de valor pueden ocupar hasta 120 bytes. Valores perdidos define los valores de los datos definidos como perdidos por el usuario. Este proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar categorías que no son numéricas (por ejemplo. • Valores. códigos 1 y 2 para hombre y mujer).• Columnas. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. • Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el archivo de datos. Por ejemplo. • Etiqueta. • Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto. Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud (128 caracteres en los idiomas de doble byte). • Perdidos. No es necesario volver a definir las etiquetas de valor cada vez que se abre un archivo de datos. Se puede especificar un número de caracteres para el ancho de la columna. Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Los anchos de columna también se pueden cambiar en la Vista de datos pulsando y arrastrando los bordes de las columnas. Anchura de las columnas. es posible que quiera distinguir los datos perdidos porque un encuestado se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado. un rango de valores perdidos o un rango más un valor de tipo discreto.

para la introducción de los datos (en la pestaña vista de datos) habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos valores. Alineación de los datos (Izquierda. podemos insertar un nueva variable en el lugar donde la queramos copiar.• Sólo pueden especificarse rangos para las variables numéricas. incluidos los valores vacíos o nulos. También podemos modificar datos ya creados: • Insertar un nuevo caso entre los casos existentes. 347 . Seleccionar en la vista de datos. Seleccionar en la vista de datos. luego cortar de donde estaba y por último pegar en la nueva variable insertada. • Alineación. pulsando ENTER o moviéndonos con el cursor. derecha o centro) Una vez definidas las variables. escriba un espacio en blanco en uno de los campos debajo de la selección Valores perdidos discretos. Si queremos mover una variable que está entre otras dos. • Se considera que son válidos todos los valores de cadena. Para definir como perdidos los valores nulos o vacíos de una variable de cadena. una casilla de la variable a la derecha de la posición donde se desea insertar la nueva variable y - Elegir los menús: Datos/Insertar variable o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar variable • Mover variables. cualquier casilla debajo de la posición donde se desea insertar el nuevo caso y - Elija en la barra de menús: Datos/Insertar Caso o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar caso. • No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de más de ocho caracteres). • Insertar una nueva variable entre las variables existentes. en la vista de datos. a no ser que se definan explícitamente como perdidos.

las columnas o el área a borrar y pulsar SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar. • Ir a un caso en el editor de datos. solo tendremos que seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad.• Borrar algún caso o variable. Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el correspondiente botón de la barra de herramientas. Seleccionar previamente en la vista de datos las filas. 348 . Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús Archivo/Guardar como. En el caso de que se trate de cambios en un archivo que ya ha sido guardado con anterioridad. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el nombre del archivo y el lugar donde queremos guardarlo.

La variable edad es cuantitativa y mostramos sus valores. Inserta una nueva variable que será el estado civil de los representantes con los siguientes valores.sav b. La siguiente tabla nos muestra los datos de los representantes de 16 empresas: SEXO Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre REGION DE PROCEDENCIA Andalucía (1) Cataluña (2) Madrid (3) País Valenciano (4) Galicia (5) Cataluña (2) País Vasco (6) Andalucía (1) Madrid (3) Andalucía (1) País Vasco (6) Madrid (3) Galicia (5) Cataluña (2) Andalucía (1) Galicia (5) MESES COMO REPRESENTANTE 60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10 INGRESOS MENSUALES en € 1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456 Se pide: a. mujer). Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el nombre Edad. Crear un archivo de datos con el nombre Representantes.EJERCICIOS 1. 2. en el que debes incluir los datos de la tabla anterior. Los datos son los siguientes: Hombres Mujeres 32 32 42 55 37 61 48 43 50 80 61 49 30 21 37 34 Se pide: a. b. 349 . Crea una nueva variable denominada Unidades compradas y dale los siguientes valores Hombres 1 Mujeres 1 Sitúala entre las variables anteriores. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado producto en una semana determinada. la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal: 1. hombre. 1 5 1 1 2 1 1 2 1 2 2 1 1 1 2. definiendo las variables de forma adecuada.

3.… Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo al SPSS.sav SALARIOS 0-700 700-1000 1000-1500 1500-3000 más de 3000 EMPLEADOS 40 120 250 90 50 Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo. Crear un archivo con los siguientes datos y llamarlo salarios. mínimo y mediano de los ingresos. 1 a 5) y en Vista de variables en la columna Valores etiquetarlos como “0-700”. 350 . Inserta un nuevo caso entre los existentes con estos valores: SEXO Hombre REGION DE PROCEDENCIA Cataluña MESES COMO INGRESOS ESTADO CIVIL REPRESENTANTE MENSUALES en € 48 1500 divorciado d. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación (variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una balanza.soltero soltero casado soltero divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero c. Obtenga el número medio de meses como representante y los valores máximo.

La condición para que el test sea válido es que las frecuencias esperadas en todas las categorías sean mayores que 5.CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 2.. el SPSS da por valido el test siempre y cuando el número de frecuencias esperadas menores de 5 no superen el 20% del total de frecuencias esperadas. Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no paramétricas/Chi-cuadrado. La lista de variables del archivo de datos ofrece un listado de todas las variables. En esta ventana es posible decidir qué rango de valores deben tenerse en cuenta en el análisis: ¾ Obtener de los datos. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE 3. Para contrastar la hipótesis de bondad de ajuste referida a una variable hay que trasladar esa variable a la lista Contrastar variables. La hipótesis nula de bondad de ajuste se pone a prueba utilizando un estadístico que compara las frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (teóricas según la hipótesis nula). para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada (véase ejemplo 3). En el caso de que haya frecuencias esperadas menores que 5 se procederá a agrupar modalidades semejantes.. aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. el SPSS ofrece tantos contrastes como variables. RECUADRO RANGO ESPERADO. ¾ Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los límites especificados en los cuadros de texto Inferior y Superior. Si se selecciona más de una variable. Los valores no incluidos en esos límites se excluyen del análisis. CONTRASTE DE LAS RACHAS 1.PRÁCTICA 10 Contrastes no paramétricos para una muestra (SPSS) 1. Cada valor distinto de la variable se considera una categoría para el análisis. 351 .CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE El contraste Chi-cuadrado para una muestra permite averiguar si la distribución empírica de una variable categórica (o numérica) se ajusta o no a una determinada distribución teórica.

la media. Se excluyen de cada contraste los casos con valor perdido en la variable que se está contrastando. Estas opciones permiten decidir qué tratamientos se desea dar a los valores perdidos en el caso de que se haya seleccionado más de una variable: o Excluir casos según prueba. Las opciones de este recuadro permiten obtener algunos estadísticos descriptivos: o Descriptivos. Ofrece el número de casos válidos. Ofrece los centiles 25. ¾ Estadísticos. Hay que señalar que estos estadísticos no siempre tendrán sentido. la desviación típica. Es la opción por defecto. relación Tema 10) El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. o Excluir caso según lista. pues la secuencia introducida se hace corresponder con las categorías de la variable cuando éstas se encuentran ordenadas de forma ascendente. el valor mínimo y el valor máximo. Se excluyen de todos los contrastes solicitados los casos con algún valor perdido en cualquiera de las variables seleccionadas. probabilidades. Las opciones de este recuadro sirven para hacer explícitas las frecuencias esperadas con las que se desean comparar las observadas: ¾ Todas las categorías iguales. En base a una muestra aleatoria de cuatro semanas 352 . Para contrastar la hipótesis de bondad de ajuste con variables cuantitativas es preferible utilizar el contraste de Kolmogorov-Smirnov. frecuencias relativas o frecuencias absolutas. ¾ Valores perdidos. Si se ha introducido como un variable de cadena (alfanumérica) el orden es el alfabético. Si se ha introducido como una variable numérica con etiquetas. Esta opción permite definir frecuencias esperadas concretas. pues la prueba de chi-cuadrado se utiliza generalmente con variables categóricas (no numéricas). el orden es el de los valores numéricos. ¾ Valores. Los valores que se introducen pueden ser porcentajes. BOTÓN OPCIONES. Las frecuencias esperadas se obtienen dividiendo el número total de casos válidos entre el número de categorías de la variable.RECUADRO VALORES ESPERADOS. El orden en el que se introducen los valores es muy importante. Ejemplo 1 (Ejercicio 1. o Cuartiles. 50 y 75. Permite obtener algunos estadísticos descriptivos y decidir qué tratamiento se desea dar a los valores perdidos.

con frecuencias)) NOTA: Cuando se utilicen ficheros con frecuencias se deberá indicar en que columna se encuentran éstas.completas de trabajo. se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico. (FICHEROS DE DATOS: Ejercicio1_T10. ( α = 0. no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?. Ejercicio1F_T10.sav (datos agrupados.sav (datos sin agrupar.. después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias.. sin frecuencias). seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos..05 ). A continuación seleccionaremos Analizar/Pruebas no paramétricas/Chi-cuadrado 353 .

0 Residual 9.0 Viernes 45 40. Pulsaremos en Aceptar.0 Martes 35 40. obteniéndose en el visor de resultados lo que sigue: DiasSemana N observado 49 N esperado 40.0 5.0 Miércoles 32 40.0 -1.0 Lunes Total 354 200 .0 -5.0 Jueves 39 40.Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste (recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores esperados marcaremos Todas las categorías iguales (aparece marcada por defecto).0 -8.

¿Podemos concluir. La frecuencia de casilla esperada mínima es 40. Al final del invierno actual. con frecuencias)) Seguiremos un procedimiento análogo al del ejemplo 1 pero marcaremos en Valores esperados la opción Valores e introduciremos los porcentajes del modelo que indica el enunciado en el orden 80.sav (datos agrupados. 30 a cobrar en dos meses y 34 a cobrar en un periodo superior a los dos meses. que al final del invierno el 80% de las facturas ya han sido cobradas. se mantiene la hipótesis nula de que el número de visitas al consultorio médico se distribuye de forma equitativa de lunes a viernes.Estadísticos de contraste DiasSemana Chicuadrado(a) gl 4. un 6% se cobrará a dos meses y un 4% se cobrará a más de dos meses. . que la experiencia de años anteriores se ha vuelto a repetir este invierno? (FICHERO DE DATOS: Ejemplo2F_T10.0. 6 y 4 (según el orden de los valores numéricos que se han utilizado para indicar cada categoría) 355 . la compañía selecciona una muestra aleatoria de 400 facturas. un 10% se cobraran con pago aplazado a un mes.298 a 0 casillas (.900 4 Sig. resultando 287 de estas ya cobradas. basándose en experiencias anteriores. 10. Dado que el p-valor (0. Ejemplo 2 Una compañía de gas afirma.0%) tienen frecuencias esperadas menores que 5.05 . a raíz de los resultados. asintót. 49 cobradas a un mes.298) es mayor que α = 0.

5. relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3. 3. 3. 2.. 3. 1.0 se cobran en dos meses 30 24. 4. 3. sin frecuencias)) Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados. La frecuencia de casilla esperada mínima es 16. 7 ? (utilice el contraste χ 2 ) (FICHERO DE DATOS: Ejercico8_T11.0 Residual -33. 5. 5 o más personas.0 se cobran a más de dos meses 34 16. 1.0%) tienen frecuencias esperadas menores que 5. Ejemplo 3 (Ejercicio 8. 2 personas. Como el p-valor (0. ..0 9. Consultando en la tabla de probabilidades de la distribución de Poisson con λ = 2. 4. 5. 0. Según lo anterior consideraremos inicialmente las modalidades: 0 personas.sav (datos sin agrupar.0 ya cobradas Total 400 Estadísticos de contraste facturas Chicuadrado(a) gl Sig. en la distribución de Poisson se puede presentar cualquier valor entero mayor o igual a cero.0 18. 2. vamos a introducir las probabilidades del modelo de la distribución de Poisson. 1 persona. 4. 4. 3.0. 2. Aunque en la muestra sólo aparecen valores entre cero y cinco. 3.178 3 . la experiencia de años anteriores no se ha vuelto a repetir este invierno. asintót. 1.0 6.000 a 0 casillas (.05. 7 obtenemos para las anteriores modalidades: 356 .. se rechaza la hipótesis nula de que los datos observados se ajustan a los datos esperados.0 se cobran a un mes 49 40. 2.000) es menor que 0. 3. 4. 2. 27. Por tanto. 0.El visor de resultados nos ofrece: facturas N observado 287 N esperado 320. 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2.

. 7 con probabilidad distinta de cero.1370.895 a 4 casillas (66. hasta el último valor que aparezca en la columna de λ = 2.6 -1.0 2. .2205 4 0. p(x ≥ 5)..6 3.00 5 6. o bien.. La probabilidad. .0 1. (Introduciremos las probabilidas sin el cero de las unidades.0672 . 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1. .8630=0..655 5 Sig.8. restando a 1 las probabilidades asociadas a x<5.00 5 4.7%) tienen frecuencias esperadas menores que 5. 357 .00 4 4. pues sólo acepta valores con 5 dígitos incluida la coma: .2 1.00 8 6.1488 . asintót.2450 3 0.0672 1 0..0 5. .9 2.9 -..1370) En el visor de resultados aparecerá: Estadísticos de contraste N observado 2 N esperado 1.7 -.7 Total 27 PersonasDia .8 Residual .1815 2 0.00 PersonasDia Chicuadrado(a) gl 1.0 4. Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos últimas modalidades para que todas las frecuencias esperadas sean mayores que 5. se puede obtener sumando p(5)+p(6)+p(7)+.x p(x) 0 0. La frecuencia de casilla esperada mínima es 1.0.00 3 3...

si se quiere. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 0->1 1->1 2->2 3->3 4->4 5->4 (posteriormente. Seleccionamos como variable numérica PersonasDia y como variable de resultado escribimos PersonasDiaB.NOTA: La opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de independencia y homogeneidad. considerando las siguientes modalidades y probalidades asociadas 358 . Se repetirá el contraste sobre la nueva variable PersonasDiaB. se etiquetarán los valores 1 como 1 o menos y 4 como 4 o más). Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable.

1815 0.00 8 6. 359 . La frecuencia de casilla esperada mínima es 6.0 2.0672+0.7 Residual -.2858=0. 7 .184 3 .00 5 6.2205 0.6 -1.1488+0. asintót.3 PersonasDiaB Chicuadrado(a) gl Sig.757 a 0 casillas (.7 2. en el visor de resultados observaremos: PersonasDiaB Estadísticos de contraste N observado 6 N esperado 6.0.757>>0.6 3.0 1 o menos 4 o más Total 8 7. Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de 5 a 3 después de agrupar modalidades.x 1 o menos 2 3 4 o más p(x) 0.05) se aceptaría la hipótesis nula de que el número de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2.2450 0.0%) tienen frecuencias esperadas menores que 5.2487=0. Según el nivel de significación asociado al estadístico chi-cuadrado (0. 1.1370 Tras aceptar las selecciones de la anterior pantalla.7 27 .

. Para las distribuciones discretas (Poisson.) se calculan las diferencias Di = Fn ( xi ) − F0 ( xi ) y Di* = Fn ( xi ) − F0 ( xi +1 ) El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto ( ) y del tamaño muestral n. el contraste K-S para una muestra se usa sólo para evaluar el ajuste de variables cuantitativas.. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. la prueba de Kolmogorov-Smirnov es una prueba de bondad de ajuste: sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad. 27 ⇒ p =1 Si 0.233701Z −2 −2 Z 2 Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona Analizar/Pruebas no paramétricas/K-S de 1 muestra. Uniforme. A diferencia del contraste Chi-cuadrado que fue diseñada para evaluar más bien el ajuste de variables categóricas. Para contrastar la hipótesis de bondad de ajuste referida a una variable se traslada a la lista Contrastar variables. Las opciones de este recuadro permiten elegir la distribución teórica a la cual se desea ajustar la distribución de la variable seleccionada: Normal.. el SPSS ofrece un contraste por cada variable seleccionada. RECUADRO DISTRIBUCIÓN DEL CONTRASTE. 360 . Di* . Poisson y Exponencial (puede seleccionarse más de una). 27 ≤ Z ≤ 1 ⇒ p = 1− Si 1 ≤ Z ≤ 3. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE Al igual que el contraste chi-cuadrado para una muestra. Z = n max i Di .1 ≤ Z ⇒ p=0 2. obteniéndose la significación asintótica bilateral a partir de la fórmula de Smirnov: Si 0 ≤ Z ≤ 0. Fn .. Los parámetros en las diferentes distribuciones se estiman a partir de los datos. BOTÓN OPCIONES. Conduce a un subcuadro de diálogo idéntico al del contraste de chi- cuadrado.) se calculan las diferencias: Di = Fn ( xi ) − F0 ( xi ) Para las distribuciones continuas (Normal.2..506628 (Q + Q 9 + Q 25 ) Z (Q = e ) (Q = e ) −1. la prueba K-S se basa en la comparación de dos funciones de distribución: la empírica. Si se selecciona más de una variable. Para contrastar la hipótesis nula de bondad de ajuste.1 ⇒ p = 2 ( Q − Q 4 + Q 9 − Q16 ) Si 3. Uniforme. y la teórica F0 ..

1. 2. 0. 5. 3. 1. 3. 2.Ejemplo 4 (Ejercicio 8. 0. sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/K-S de 1 muestra. 4. 3. relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3. 4. 3. 2.sav (datos sin agrupar. 3. pulsando Aceptar en el visor de resultados aparecerá: 361 . 4. 2. En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos PersonasDia. 4. 4. 2. 3. 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov) (FICHERO DE DATOS: Ejercico8_T11. 3. 5. 5. 1.

7037 Absoluta . b Se han calculado a partir de los datos. asintót. Nos aparecerán los comandos de SPSS que siguen: NPAR TESTS /K-S(NORMAL)= DATOS /MISSING ANALYSIS. como en este ejemplo. contraste la hipótesis de que los siguientes valores muestrales 12.95505 . (bilateral) . 13.b) Desviación típica Diferencias más extremas Absoluta 14. (bilateral) .085 Positiva . asintót. Como el p-valor (0.sav (datos sin agrupar. 14. Si queremos que la media y desviación típica tomen en la hipótesis nula unos valores concretos. b Se han calculado a partir de los datos.085 Z de Kolmogorov-Smirnov . proceden de una distribución normal de media 14 y varianza 2. 14.5). 362 .057 Negativa -.25 (desviación típica 1. 15. debemos seleccionar Pegar en la ventana de opciones del contraste de Kolmogorov-Smirnov para una muestra.573 Sig.4 y 1.181 Positiva . 17.b) Diferencias más extremas Media 2.443 Sig.119 Z de Kolmogorov-Smirnov .955). 18.4000 1. relación Tema 11) Con un nivel de significación del 5%. 14. sin frecuencias)) El SPSS toma por defecto como valores de la media y de la desviación típica para la hipótesis nula los de la muestra (14. Prueba de Kolmogorov-Smirnov para una muestra N 10 Media Parámetros normales(a.181 Negativa -.989) es mayor que 0.05 se acepta la hipótesis de que el número de personas que requieren información se distribuye como una Poisson (de parámetro 2. (FICHERO DE DATOS: Ejercicio7_T11.989 a La distribución de contraste es la de Poisson. Ejemplo 5 (Ejercicio 7.Prueba de Kolmogorov-Smirnov para una muestra PersonasDia 27 N Parámetro de Poisson(a.7). 15.898 a La distribución de contraste es la Normal. 12.

asintót.5)= DATOS /MISSING ANALYSIS.632 Sig. Si la media o desviación típica tuvieran decimales se usará el punto decimal (nunca la coma). (bilateral) .A continuación del comando NORMAL escribiremos una coma seguida del valor de la media seguida de otra coma y del valor de la desviación típica.25.14.819 a La distribución de contraste es la Normal.b) Desviación típica Diferencias más extremas Absoluta 14 1.5 .109 Negativa -.200 Z de Kolmogorov-Smirnov .05 se acepta la hipótesis de que la muestra procede de una distribución Normal de media 14 y varianza 2. En esta misma ventana donde se ha hecho la modificación seleccionamos Ejecutar/Todo y obtendremos el resultado del contraste.819) es mayor que 0. 363 . b Especificado por el usuario Como el p-valor (0. Prueba de Kolmogorov-Smirnov para una muestra N 10 Media Parámetros normales(a. Una vez modificado quedará como: NPAR TESTS /K-S(NORMAL.200 Positiva .1.

364 . de modo que los casos con código 0 pasen a formar parte del primer grupo y los casos con valor 1 pasen a formar parte del segundo grupo. etc. el SPSS ofrece un contraste por cada variable seleccionada.1).5 (o cualquier número comprendido entre 0 y 1).3. los valores más pequeños que el punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el punto de corte pasan a formar parte del segundo grupo. BOTÓN OPCIONES. RECUADRO PUNTO DE CORTE. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. En ese caso. Si se selecciona más de una variable. Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramétricas/Rachas. Para convertir las variables de cadena en variables numéricas (para poder aplicar este contraste) utilice el procedimiento Recodificación automática. Para contrastar la hipótesis de aleatoriedad o independencia referida a una variable se traslada esa variable a la lista Contrastar variables. Si se desea contrastar la hipótesis de independencia referida a una variable categórica o de cadena puede utilizarse en punto de corte la opción Personalizado. Para obtener el número de rachas es necesario que las observaciones estén claramente clasificadas en dos grupos. Una vez clasificadas las observaciones en dos grupos. debe utilizarse algún criterio para hacer que lo estén. Para obtener el número de rachas de un conjunto de observaciones es necesario que éstas estén clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica).) para hacer que lo estén. Esta prueba permite detectar si el número de rachas observado en una determinada muestra de tamaño n es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la hipótesis de aleatoriedad en las observaciones. mediana. por ejemplo. Si la variable es. el SPSS utiliza una tipificación del número de rachas cuya distribución es una N(0. CONTRASTE DE LAS RACHAS La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones es aleatoria. Pueden usarse como criterio de dicotomización la mediana. la media o cualquier valor. es decir. Si no lo están. El SPSS ofrece el nivel crítico bilateral. la moda. moda. disponible en el menú Transformar. con códigos 0 y 1. dicotómica. Igual que en los contrastes anteriores. para estudiar si las observaciones de una determinada muestra son independientes entre sí. puede utilizarse como punto de corte el valor 0. Si no lo están. se deberá utilizar algún criterio (media.

270) es mayor que 0.102 .00 4 7 11 4 -1. sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/Rachas. En el enunciado no se indica que se tome como punto de corte un valor en especial.10 ). 21.270 a Mediana Como el p-valor (0. 22 ( α = 0. 365 . Hemos tomado la mediana que es el valor marcado por defecto.Ejemplo 6. relación Tema 11) Se desea verificar la aleatoriedad de la siguiente serie de valores 18. (Ejercicio 14. 19. (FICHERO DE DATOS: Ejercico14_T11. 21.sav (datos sin agrupar. Prueba de rachas Valor de prueba(a) Casos < Valor de prueba Casos >= Valor de prueba Casos en total Número de rachas Z Sig.10 se acepta la hipótesis nula de aleatoriedad de la muestra. 19. 18. 20. asintót. 19. 17. 18. (bilateral) ejemplo_rachas 19.

PRUEBA DE KOLMOGOROV-SMIRNOV. Activando esta opción el visor de resultados muestra un gráfico de barras agrupadas con las categorías de la variable fila en el eje de abscisas y las categorías de la variable columna anidadas dentro de las categorías de la variable fila. por tanto. 2.PRÁCTICA 11 Contrastes no paramétricos: Tablas de contingencia y contrastes para dos muestras independientes (SPSS) 1. A estas tablas de frecuencias se les llama tablas de contingencias. La lista de variables del archivo de datos muestra todas las variables numéricas y de cadena corta del archivo de datos. Esta opción puede activarse si no se desea obtener ninguna tabla de contingencias. Para utilizar este procedimiento seleccionamos en el menú Analizar la opción Estadísticos Descriptivos/ Tablas de contingencias. Para obtener una tabla de contingencia se traslada una variable a la lista filas y otra a la lista columna. además incluye estadísticos y medidas de asociación que proporcionan la información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que conforman la tabla. Las opciones disponibles son: ¾ Mostrar los gráficos de barras agrupadas. Como resultado de esta clasificación. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. los datos suelen organizarse en tablas de doble entrada en las que cada entrada representa un criterio de clasificación o variable categórica.TABLAS DE CONTINGENCIA. El procedimiento de tablas de contingencias permite obtener no solo las tablas. INDEPENDENCIA Y HOMOGENEIDAD. las frecuencias aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios. Cada barra del diagrama. CHI-CUADRADO... 366 . representa una casilla y su altura viene dada por la frecuencia de la correspondiente casilla. Esto tendría sentido si únicamente interesara obtener un gráfico de barras o alguno de los estadísticos o medidas de asociación disponibles en el procedimiento Tablas de contingencias.TABLAS DE CONTINGENCIA Cuando se trabaja con dos variables categóricas. PRUEBA U DE MANN-WHITNEY 1. ¾ Suprimir tablas.

Una de las opciones disponibles es Chi-cuadrado. En el caso de que ese porcentaje supere el 20%. en concreto: frecuencias observadas.05). Si los datos son compatibles con la hipótesis de independencia. Incluso aunque la tabla recoja las frecuencias porcentuales en lugar de las absolutas. se considera que los datos son incompatibles con la hipótesis de independencia y se concluirá que las variables estudiadas está relacionadas. éstas no deben superar el 20% del total de frecuencias esperadas. frecuencias esperadas.05). Parte de esta información es esencial para poder interpretar apropiadamente las pautas de asociación presentes en una tabla después de que se rechace la hipótesis de independencia. la nota a pie de tabla también informa acerca del porcentaje que éstas representan sobre el total de casillas de la tabla. el estadístico debe interpretarse con cautela o mejor proceder a agrupar filas y/o columnas de la tabla. si existe alguna casilla con frecuencia esperada menor que 5. CHI-CUADRADO La opción Chi-cuadrado proporciona un estadístico que permite contrastar la hipótesis de que los dos criterios de clasificación utilizados (las dos variables categóricas) son independientes. aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. varios tipos de porcentajes y residuos brutos y tipificados.BOTÓN ESTADÍSTICOS El grado de relación existente entre dos variables categóricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencias. 367 . la simple observación de las frecuencias no puede conducir a una conclusión definitiva. BOTÓN CASILLAS Las casillas o celdas de una tabla de contingencias pueden contener información muy variada. si existen frecuencias esperadas menores de 5. la probabilidad asociada al estadístico Chi-cuadrado (el p-valor) será alta (mayor 0. Suele asumirse que. Para determinar si dos variables se encuentran relacionadas debe utilizarse una medida de asociación. Si esa probabilidad es pequeña (menor que 0. Para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada. Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables fueran independientes. preferiblemente acompañada de su correspondiente prueba de significación. Para que el estadístico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas no sean demasiado pequeñas. El SPSS muestra en una nota a pie de tabla un mensaje indicando el valor de la frecuencia esperada más pequeña.

Los residuos son las diferencias existentes entre las frecuencias observadas y esperadas de una casilla. Porcentaje que la frecuencia observada de una casilla representa respecto al número total de casos de la tabla. Diferencia entre la frecuencia observada y la esperada. ƒ Total. ƒ Tipificados.96 delatan 368 . Recuadro Porcentajes. puesto que se distribuye como N(0. lo cual hace que no puedan interpretarse como puntuaciones Z. Su utilidad radica en que. Es posible seleccionar una o más de las siguientes opciones: ƒ No tipificados. Es posible seleccionar uno o más de las siguientes frecuencias porcentuales: ƒ Fila. son fácilmente interpretables: utilizando un nivel de confianza 0. Número de casos resultantes de la clasificación.1). ƒ Columna. Su valor esperado es 0 pero su desviación típica es menor que 1. Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. Sin embargo. Los residuos tipificados son iguales a ƒ (n ij − Eij ) Eij 2 = (n ij − Eij ) Eij Tipificados corregidos. puede afirmarse que los residuos mayores de 1. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su columna.Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias absolutas: ƒ Observadas. mientras que los residuos menores de -1.95. sirven como indicadores del grado en que cada casilla contribuye al valor del estadístico chi-cuadrado. sumando los cuadrados de los residuos tipificados se obtiene el valor del estadístico chicuadrado. son útiles para interpretar las pautas de asociación presentes en la tabla. Son especialmente útiles para averiguar en qué grado se desvían de la hipótesis de independencia las frecuencias de cada casilla. Residuo no tipificado dividido por la raíz cuadrada de su correspondiente frecuencia esperada. De hecho. consecuentemente. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su fila. Número de casos que debería haber en cada casilla si las variables utilizadas fueran independientes. ƒ Esperadas.96 delatan casillas con más casos de los que debería haber en esa casilla si las variables estudiadas fueran independientes. Recuadro Residuos.

Los resultados aparecen en la siguiente tabla.. relación tema 10) Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Ejemplo 1 (ejercicio 10.sav (datos agrupados. Ejercicio10F_T10. BOTÓN FORMATO Controla algunos detalles relacionados con el aspecto de las tablas de contingencias generadas. ƒ Descendente..casillas con menos casos de los que cabría esperar bajo la condición de independencia. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0. Recuadro Orden de filas. después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias..sav (datos sin agrupar. Es la opción por defecto. 05) Salario\Antigüedad <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 n• j 17 16 4 9 6 52 5 8 11 8 3 35 10 9 5 8 4 36 6 7 2 6 6 27 ni• 38 40 22 31 19 150 (FICHEROS DE DATOS: Ejercicio10_T10. Muestra las categorías de la variable fila ordenadas de menor a mayor. sin frecuencias). Muestra las categorías de la variable fila ordenadas de mayor a menor. seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos. Seleccionamos Analizar/Estadísticos Descriptivos/Tablas de contingencia 369 . con frecuencias)) Recordemos que cuando se utilizan ficheros con frecuencias se deberá indicar en que columna se encuentran éstas. Permite controlar el orden en el que aparecen las categorías de la variable fila: ƒ Ascendente.

inicialmente no se dispone de los datos agrupados y ordenados en una tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un formato de dos columnas como aparece en estas pantallas.En situaciones reales. Por ello vamos a pedir que estos datos los represente en una tabla de contigencia (no marcaremos la opción Suprimir tablas) con los Salarios por filas y la Antigüedad por columnas. 370 .

en este ejemplo marcaremos Frecuencias observadas (aparece como recuento en la tabla). Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen: • La tabla de contingencia. las esperadas y los residuos tipificados corregidos 371 . En Estadísticos seleccionaremos el estadístico Chi-cuadrado de Pearson para estudiar la independencia entre Salario y Antigüedad. Frecuencias esperadas y Residuos tipificados corregidos. donde se reflejan las frecuencias observadas.En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de contingencia.

7 .2 7.1 6.3 -.2 9 8 8 6 31 Frecuencia esperada 10.3 .1 4 11 5 2 22 Frecuencia esperada 7.6 3.169 150 a 4 casillas (20.4 .2 40.3 -.8 3.2 -1.0 150.194 .0 16 La prueba Chi-cuadrado de independencia 10 5 0 0-500 500-1000 1000-2000 Salario 372 38 Frecuencia esperada Frecuencia esperada • 10-20 años 10 Residuos corregidos Recuento Más de 3000 5-10 años 5 Frecuencia esperada Recuento 2000-3000 Total más de 20 años 6 2000-3000 Más 3000 .2 6 3 4 6 19 Frecuencia esperada 6.0 Residuos corregidos -.7 .0 Recuento Pruebas de chi-cuadrado Valor 15. La frecuencia mínima esperada es 3.7 7.Tabla de contingencia Salario * Antiguedad Antiguedad Salario 0-500 menos de 5 años 17 Recuento 500-1000 1000-2000 Total 13.8 -.8 1.4 19.2 -.781 1.0 27.6 Recuento 52 35 36 27 150 52.42.0 Residuos corregidos .6 5.3 4.8 -.0 36.3 1.6 7.0 Residuos corregidos -. asintótica (bilateral) .4 -.9 9.0%) tienen una frecuencia esperada inferior a 5.6 4.1 5.0 Residuos corregidos -1. • Gráfico de barras Años_Antiguedad < 5 años 5-10 años 10-20 años Más de 20 años 20 15 Recuento 38.2 8.9 9.932(a) 14.3 9.4 5.254 .0 35.6 -.888 Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos gl 12 12 1 Sig.5 -1.0 22.6 31.4 Recuento 8 9 7 40 13.4 4.

194) se aceptaría la hipótesis de independencia. Recordemos que la opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para una muestra (como vimos en el ejemplo 3 de la práctica 10). el residuo corregido para un salario (1000-2000) y una antigüedad (5-10) es 3. pues si no lo hacemos se aplicará también a ese par de variables la recodificación que queremos hacer en la pareja Antigüedad->AntiguedadB). se escapa de la hipótesis de independencia al 5% de significación. Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros Ejercicio10_T10.96. Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta variable. de resultado hay que eliminar primero Salario->SalarioB. 2 y 3 como en Salario y el nuevo valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Más de 2000). se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como más de 10 años). En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->4 5->4 (posteriormente. si se quiere. si se quiere. se etiquetaran los valores 1. es decir. Seleccionamos como variable numérica Salario y como variable de resultado escribimos SalarioB.Según el p-valor (0.2 que no está comprendido entre -1.sav) obteniendo: 373 . (Nota: En la ventana Var. Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 últimas filas y las dos últimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean mayores que 5. numérica->Var. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->3 (posteriormente.96 y 1. Sin embargo.sav y Ejercicio10F_T10. Repetiremos el mismo proceso con la variable Antigüedad. Seleccionamos como variable numérica Antiguedad y como variable de resultado escribimos AntiguedadB.

Según el p-valor (0.060 .0 Residuos corregidos 1.8 -.041) se rechazaría la hipótesis de independencia a un nivel de significación del 5% (0.0 Recuento Total 38 38.1 9.0 150.2 8.6 5.0 Residuos corregidos . con frecuencias)) La tabla de contingencia.13.Tabla de contingencia SueldoB * AntiguedadB AntiguedadB SueldoB 0-500 500-1000 1000-2000 más de 2000 Total menos de 5 años 17 Recuento 5-10 años 5 mas de 10 años 16 Frecuencia esperada 13. contrariamente a la conclusión obtenida antes de agrupar las frecuencias esperadas menores que 5. media o alta.0 15 11 24 50 Frecuencia esperada 17.0 50.215 150 a 0 casillas (. relación Tema 10) A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja.8 40.537 N de casos válidos gl 6 6 1 Sig. Ejemplo 2 (Ejercicio 11.0 63.9 9.9 16. 01 ) (FICHEROS DE DATOS: Ejercicio11_T10.7 .0%) tienen una frecuencia esperada inferior a 5.041 . La frecuencia mínima esperada es 5.sav (datos sin agrupar. es la siguiente: 374 .3 16.3 Recuento 4 11 7 22 Frecuencia esperada 7.069 1. Ejercicio11F_T10.7 21.3 11.0 16 8 16 40 Frecuencia esperada 13.8 -. asintótica (bilateral) .1 Recuento 52 35 63 150 52.5 -1. donde se reflejan las frecuencias observadas.sav (datos agrupados.0 35.0 Residuos corregidos -.6 -. las esperadas y los residuos corregidos.2 -1. obteniéndose: BAJA MEDIA ALTA Contrastar la hipótesis de que Universidad A Universidad B 105 140 140 135 255 225 la distribución de calificaciones en las 2 universidades es la misma (con α = 0.2 22.0 Recuento Frecuencia esperada Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal Valor 13.8 3.108(a) 12. sin frecuencias).05).3 1.0 Residuos corregidos -1.

984 1000 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos gl 2 2 Sig.5 137.4 Recuento 255 225 480 240.6) lo que significa que hay una proporción de alumnos de la universidad A menor de la esperada con notas bajas.031) nos lleva a rechazar la hipótesis de homogeneidad con un nivel de significación del 5% pero a aceptarla con un nivel de significación del 1% como aparece en el enunciado del ejercicio.05 (0.9 -1.966(a) 6. El p-valor menor de 0.9 Recuento 500 500 1000 500.5 275.50.0 Frecuencia esperada Total Total B 105 Frecuencia esperada Se puede observar como los residuos corregidos de las casillas “Nota baja” se salen del intervalo (-1.0 Residuos corregidos 1. En la prueba chi-cuadrado se obtiene: Pruebas de chi-cuadrado Valor 6.0 Residuos corregidos .96).0 240. 1.031 .0 500.6 Recuento 140 135 275 Frecuencia esperada 137.030 a 0 casillas (.6 2.5 245.0%) tienen una frecuencia esperada inferior a 5. Existe una desproporción significativa a favor de la “Universidad B” (residuo corregido 2.96.4 -.0 Residuos corregidos -2. asintótica (bilateral) .0 1000. Gráfico de barras Universidad A B 300 250 Recuento 200 150 100 50 0 Baja Media Alta Nota 375 .0 480.5 122.6 frente a -2.Tabla de contingencia Nota * Universidad Universidad A Nota Baja Media Alta Recuento 140 245 Frecuencia esperada 122. La frecuencia mínima esperada es 122.

Para obtener cualquiera de las pruebas no paramétricas incluidas en el procedimiento (puede seleccionarse más de una simultáneamente): ¾ Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista Contrastar variables. El botón opciones conduce a un cuadro de diálogo que permite obtener algunos estadísticos descriptivos y controlar el tratamiento de los valores perdidos. El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y de los tamaños muestrales n y m. Se calculan las diferencias Di = Fn ( xi ) − Fm ( xi ) . marcar la opción u opciones correspondientes a las pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten contrastar la misma hipótesis. Fn ( x) y Fm ( x) . ¾ Seleccionar la variable que define los grupos (muestras) que interesa comparar y trasladarla al cuadro Variable de agrupación. el SPSS ofrece un contraste por cada variable seleccionada. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES Este procedimiento contiene varias pruebas no paramétricas. El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos muestras. Si se selecciona más de una variable. 376 . Para obtener cualquiera de estas pruebas: Se selecciona la opción Pruebas no paramétricas/Dos muestras independientes del menú Analizar. todas ellas diseñadas para analizar datos provenientes de diseños con una variable independiente categórica (con dos niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos ordinal (en la cual interesa comparar los dos grupos o muestras).2. ¾ Pulsar el botón Definir grupos para acceder al subcuadro de diálogo que permite indicar cuáles son los dos códigos de la variable de agrupación que corresponden a los grupos que interesa comparar. la prueba de reacciones extremas de Moses y la prueba de las rachas de Wald-Wolfowitz. Para ello compara las funciones de distribución empíricas de ambas muestras. la prueba U de Mann-Whitney. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. ¾ En el recuadro Tipo de prueba. PRUEBA DE KOLMOGOROV-SMIRNOV Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la misma población.

377 . simetría.sav) 6 4 7 7 8 6 9 5 3 3 Al tratarse de muestras independientes. variabilidad. obteniéndose la significación asintótica bilateral a partir de la fórmula n+m de Smirnov: Si 0 ≤ Z ≤ 0. Muestra 1 2 4 2 3 5 Muestra 2 2 4 5 3 5 (FICHERO DE DATOS: Ejercicio9_T11.… Ejemplo 3 (Ejercicio 9. Seleccionaremos Analizar/Pruebas no paramétricas/Dos muestras independientes del menú Analizar.1 ≤ Z ⇒ p=0 2.233701Z −2 −2 Z 2 Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia central.1 ⇒ p = 2 ( Q − Q 4 + Q 9 − Q16 ) Si 3. 27 ⇒ p =1 Si 0. relación Tema 11) Con nivel de significación de 5%.Z= nm max i ( Di ) .506628 (Q + Q 9 + Q 25 ) Z (Q = e ) (Q = e ) −1. contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. 27 ≤ Z ≤ 1 ⇒ p = 1− Si 1 ≤ Z ≤ 3. aparecerán todos los datos de ambas muestras en la misma columna (Puntuación) y en la columna Muestras con los códigos 1 y 2 distinguiremos a qué muestra pertenece cada puntuación.

447 Sig.988 a Variable de agrupación: Muestra Dado que la significación asintótica (0. o cuando no es apropiado utilizar la prueba T porque el nivel de medida de los datos es ordinal. (bilateral) . En Definir grupos indicaremos que la primera muestra tiene asignado el valor 1 y la segunda el valor 2. Este test es sensible a las diferencias de medianas. seleccionaremos Puntuaciones para Contrastar variables y Muestras para Variable de agrupación. 378 .En la ventana que aparecerá. PRUEBA U DE MANN-WHITNEY Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se cumplen los supuestos en los que se basa la prueba (normalidad).100 Negativa -.200 Positiva . En el visor de resultados se obtiene: Estadísticos de contraste(a) Diferencias más extremas Absoluta Valores . asintót. Es fiable en la comparación de dos promedios poblacionales cuando ambas distribuciones tienen la misma forma.200 Z de Kolmogorov-Smirnov .988) es mayor que 0. algo sensible frente a las diferencias de asimetría e insensible frente a las diferencias de varianzas. En tipo de prueba marcaremos Z de Kolmogorov-Smirnov.05 se acepta la hipótesis de que ambas muestras proceden de la misma población.

El nivel crítico bilateral se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales a Z. exacta [2*(Sig.268 . Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann- Whitney en Tipo de prueba Según el visor de resultados: Estadísticos de contraste(b) U de Mann-Whitney W de Wilcoxon Z Sig. asintót. el cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales que U. (bilateral) Sig.789 . Ésta es mayor que 0. el SPSS ofrece una tipificación del estadístico U denominada Z.500 -. 379 . Ejemplo 4 (Ejercicio 9.1). concluimos que ambas muestras proceden de la misma población.Con muestras pequeñas el SPSS ofrece el nivel crítico bilateral exacto del estadístico U. b Variable de agrupación: Muestra Al ser las muestras pequeñas observamos la significación exacta (0.05. relación Tema 11) Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney.796(a) a No corregidos para los empates. unilateral)] Valores 46.500 101. que se distribuye aproximadamente como una N(0. Con muestras grandes.796).

m=10 y la significación exacta y asintótica son muy próximas. 380 . En nuestro ejemplo n=10.Nota: Según Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de m≥8 y n ≥ 8 . Hay autores que consideran m y n grandes cuando m + n ≥ 60 .

FORMULARIOS Y TABLAS ESTADÍSTICAS 381 .

382 .

D= B2 4 383 . D= ) = n pq n −1 V ( p) = pq n −1 2 q = 1− p S n σ2 n 2 2 S S   . p+2  n −1 n −1    2 V ( p) = 2 n= pq pq = B2 D 4 pq =B n . n i =1 ( 1 n ∑ yi − y n − 1 i =1 )  n  yi  ∑ n yi2 −  i =1  ∑ n S 2 = i =1 n −1 V ( y) = LIMITE DEL ERROR DE ESTIMACIÓN = B σ2 2 V ( y) = 2 INTERVALO DE CONFIANZA TAMAÑO MUESTRAL n= σ2 B2 4 = σ2 D S2 n V ( p) = pq n 2 V ( p) = 2 =B . y+2  y−2  n n  2 V ( y) = 2 ( 1 n S = ∑ yi − y n − 1 i =1 2 V ( y) = n yi = 0. 1 B2 4 pq n −1  pq pq   p−2  .MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS (O CON REEMPLAZAMIENTO) MEDIA 1 n y = ∑ yi n i =1 ESTIMADOR S2 = CUASIVARIANZA MUESTRAL VARIANZA DEL ESTIMADOR PROPORCION 1 n p = ∑ yi .

τ + 2 V (τ ) = ) ( V ( p) . y + 2 V ( y) yi = 0. τ + 2 V (τ ) ) = = ( N ( y − 2 V ( y ) ) .MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS SIN REEMPLAZAMIENTO MEDIA TOTAL 1 n y = ∑ yi n i =1 ESTIMADOR τ =Ny= V ( y) = VARIANZA DEL ESTIMADOR LIMITE DEL ERROR DE ESTIMACIÓN = B N n 1 n p = ∑ yi . 1 τ =Np ∑y V (τ ) = V ( N y ) = N 2 V ( y ) = N ( N − n) (y − 2 INTERVALO DE CONFIANZA PROPORCION TOTAL (p − 2 (τ − 2 = (N ( p − 2 n= D= V ( p) . N ( y + 2 V ( y ) )) B2 (media ) D= 4 B2 D= (total ) 4N 2 pq N − n n −1 N S2 pq V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) n n −1 2 V (τ ) = N 2 V ( y ) Nσ 2 n= ( N − 1) D + σ 2 TAMAÑO MUESTRAL V ( p) = 2 V ( y) V ( y) . N p + 2 V ( p) Npq ( N − 1) D + pq B2 4 ( proporcion) B2 D= 4N 2 (total ) )) . p + 2 V ( p) ) ) V (τ ) . n i =1 n i =1 i S2 N − n n N 384 2 V ( p) 2 V (τ ) = N 2 V ( p ) ) (τ − 2 V (τ ) .

MUESTREO ALEATORIO ESTRATIFICADO MEDIA TOTAL y st = ESTIMADOR PROPORCION TOTAL L 1 N ∑ Ni y i p st = i =1 L VARIANZA DEL ESTIMADOR = 1 N2 L N i2 V ( y i ) = ∑ i =1 L N i2 ∑ i =1 Si2 N i − ni ni N i L V (τ st ) = N 2 V ( y st ) = ∑ N i2 i =1 TAMAÑO MUESTRAL Si2 N i − ni ni N i V ( p st ) = = 1 N2 n= i =1 ωi L N 2D + ∑ N iσ i2 i =1 i pi 1 N2 L N V(p ) = ∑ N ∑ i =1 L 2 i 2 i i =1 i p i q i N i − ni ni − 1 N i L V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 p i q i N i − ni ni − 1 N i PROPORCION TOTAL L FORMULACIÓN GENERAL i =1 i =1 MEDIA TOTAL N i2σ i2 ∑ ∑N τ st = N p st = ∑ N i p i i =1 1 N2 L L τ st = N y st = ∑ N i y i V ( y st ) = 1 N N i2 pi qi ∑ L n= i =1 ωi L N 2D + ∑ N i pi qi i =1 385 .

MUESTREO ALEATORIO ESTRATIFICADO TAMAÑO MUESTRAL MEDIA TOTAL PROPORCION TOTAL L (error fijo B ) n = Nσ ∑ i i =1 L i Ni σ i ci ∑ ci i =1 L N 2D + ∑ N iσ i2 L n= Ni ∑ i =1 Nσ C ∑ i i ci i =1 L Nσ ∑ i i =1 L i =1 n= L N ∑ cj ASIGNACIÓN DE NEYMAN ωj = N iσ i ∑ ci i =1 2 i =1 i L N 2D + ∑ N iσ i2 N jσ j i i =1 n= L N 2D + ∑ N i pi qi i =1 i ASIGNACIÓN PROPORCIONAL i =1 ND + 1 N ωj = D 386 L N iσ i2 ∑ L ∑N pi qi i L N pq ∑ n= i i =1 ND + i =1 Nj 1 N ωj = N B2 (media ) 4 B2 (total ) D= 4N 2 D= N j p jq j i =1 N i σ i2 ∑ ) 2 pi qi i i =1 pi qi ci i (∑ N L n= ∑N ωj = L ∑Nσ L L i =1 ωj = p jq j cj i =1 (∑ N σ ) L n= pi qi ci i i =1 Nj L i pi qi ci C∑ Ni N jσ j ωj = i =1 i =1 ci i i N 2D + ∑ N i pi qi L (coste fijo C ) n = N ∑ L i =1 ASIGNACIÓN ÓPTIMA L pi qi ci D= B2 4 D= i i L N pq ∑ i =1 i i i Nj N ( proporcion) B2 4N 2 (total ) pi qi ci .

ESTIMACIÓN DE RAZÓN RAZÓN MEDIA TOTAL n µ y = rµx y ∑ i ESTIMADOR y r = in=1 = x xi ∑ τ y = rτ x i =1 S r2 = VARIANZA RESIDUAL 1 n 2 ( yi − rxi ) ∑ n − 1 i =1 V ( µ y ) = µ x2 V (r ) = VARIANZA DEL ESTIMADOR V (r ) = 1 N − n Sr2 µ x2 N n N − n Sr2 N n V (τ y ) = τ x2 V (r ) = N 2 n= Nσ r2 ND + σ r2 DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 σ r = Sr2 de una muestra previa D= D= B2 4 N − n Sr2 N n B 2 µ x2 4 ( para estimar R) ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) 387 .

DE S xy = ∑ xi − x n − 1 i =1 CORRELACIÓN MUESTRALES ( ) MEDIA TOTAL 1 n sx2 = ∑ xi − x n i =1 ( 2 )( y − y ) rxy2 = S xy2 S x2 S y2 2 ( 1 n ∑ xi − x n i =1 sxy = i ) = (n − 1) S x2 = nsx2 x y − xy )( y − y ) = 1n ∑ n i i =1 i i sxy2 sx2 s y2 ( x − x )( y − y ) ∑ n µ yL = y + b( µ x − x) b= ESTIMADOR S xy S x2 = sxy sx2 = i i =1 i ( x − x) ∑ n i =1 2 i τ yL = N µ yL VARIANZA RESIDUAL ( ( 1 n S = ∑ yi − y + b( xi − x) n − 2 i =1 2 L ERROR TÍPICO DE ESTIMACIÓN )) 2  n 2 s y (1 − rxy2 )  =  n−2 S L2 = S L V ( µ yL ) = VARIANZA DEL ESTIMADOR N − n S L2 N n V (τ yL ) = N 2 V ( µ yL ) n= Nσ L2 ND + σ L2 D= B2 4 DETERMINACIÓN DEL TAMAÑO MUESTRAL 388 2 n  2 sxy =  sy − 2 n − 2  sx 2 σ L = S L2 de una muestra previa ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) .ESTIMACIÓN DE REGRESIÓN S x2 = ( 1 n ∑ xi − x n − 1 i =1 VARIANZA. COVARIANZA 1 n Y COEF.

ESTIMACIÓN DE DIFERENCIA MEDIA TOTAL µ yD = y + ( µ x − x) = µ x + d d = y−x ESTIMADOR τ yD = N µ yD VARIANZA RESIDUAL S D2 = ( 1 n ∑ yi − ( xi + d ) n − 1 i =1 ) 2 = ( 1 n ∑ di − d n − 1 i =1 V ( µ yD ) = VARIANZA DEL ESTIMADOR ) 2 di = yi − xi N − n S D2 N n V (τ yD ) = N 2 V ( µ yD ) DETERMINACIÓN DEL TAMAÑO MUESTRAL Nσ D2 n= ND + σ D2 B2 D= 4 2 σ D = S D2 ( para estimar µ y ) de una muestra previa B2 D= 4N 2 ( para estimar τ y ) 389 .

MUESTREO POR CONGLOMERADOS MEDIA o PROPORCIÓN TOTAL (M conocido) n = conglomerados en la muestra yi = suma de las observaciones del conglomerado i N = conglomerados en la población mi = elementos en el conglomerado i N NOTACIÓN n M = ∑m i = elementos en la población m = ∑m i = elementos en la muestra i =1 M= 1 N TOTAL i =1 N ∑ m = tamaño medio de los conglomerados de la población i =1 i m= 1 n ∑ mi = tamaño medio de los conglomerados de la muestra n i =1 n µ=y= ESTIMADOR ∑y i =1 n i yt = ∑m i =1 i τ t = N yt τ =My Sc2 = VARIANZA DEL ESTIMADOR ( 1 n ∑ yi − ymi n − 1 i =1 ) 2 St2 = 1 N − n Sc2 V ( y) = 2 N n M S2 V (τ ) = M V ( y ) = N ( N − n) c n TAMAÑO MUESTRAL 390 Nσ c2 ND + σ c2 2 σ c = Sc2 de una muestra previa ( 1 n ∑ yi − y t n − 1 i =1 (media) (total ) 2 V (τ t ) = N 2 V ( y t ) = N ( N − n) n= Nσ t2 ND + σ t2 2 σ t = St2 B2 D= 4N 2 St2 n de una muestra previa 2 B2 M D= 4 B2 D= 4N 2 ) N − n St2 V ( yt ) = N n 2 n= 1 n ∑ yi n i =1 (total ) .

ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO DIRECTO NOTACIÓN ESTIMADOR t = elementos marcados n = total de elementos en la muestra de recaptura s = elementos marcados en la muestra de recaptura N= ( ) t p E N =N+ PROPIEDADES DEL ESTIMADOR MUESTREO INVERSO ( ) = nt s N (N − t) nt t 2 n( n − s ) V N = s3 N= t p = nt s ( ) E N =N ( ) t 2 n( n − s ) V N = 2 s ( s + 1) 391 .

ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO POR CUADROS DENSIDAD NOTACIÓN TOTAL A = área total a = área de cada cuadro n = número de cuadros en la muestra m = número medio de elementos por cuadro en la muestra ESTIMADOR VARIANZA DEL ESTIMADOR λ= () M = λA m a V λ = ( ) λ A2 λ V M =AV λ = an an ( ) 2 CUADROS CARGADOS DENSIDAD NOTACIÓN ESTIMADOR VARIANZA DEL ESTIMADOR 392 TOTAL A = área total a = área de cada cuadro n = número de cuadros en la muestra y = número total de cuadros no cargados 1  y λ = − ln   a n () V λ = 1 n− y a 2 ny M = Aλ = − ( ) A  y ln   a n ( ) V M = A2 V λ = A2 n − y a 2 ny .

INDICADORES ESTADÍSTICOS REGIONALES Medidas de desigualdad-concentración regional: x j = valores porcentuales (proporciones) de la variable respecto del total= Xj N ∑X j =1 j N Coeficiente de Theil T = ln N + ∑ x j ln x j j =1 k  xg Propiedad de agregación: T = ln N + ∑ xg ln  g =1  Ng k ∑ Ng = N ∑ xg = j∈Gg g =1  k  + ∑ xg Tg  g =1 Tg = ln N g + xj N Índice de Theil: IT = ITHEIL T = = ln N Desigualdad individual: di = ln N + ∑ x j ln x j j =1 ln N ∑ j∈Gg N = 1+ ∑x j =1 j x ln  j xg  xg xj    ln x j ln N x − Xi x = −1 Xi Xi N Desigualdad colectiva: D = ∑ di f i i =1 Propiedad de agregación: D = Dg = ∑ j∈Gg xg − X j Xj dg = fj 1 N k ∑ dg Ng + g =1 x N k ∑D g =1 g Ng xg x − xg xg Medidas de dispersión regional: Varianza: V ( X ) = 1 N N ∑( X j =1 j − x) 2 Varianza normalizada: VN ( X ) = V (X ) x2 Coeficiente de asociación geográfica de Florence : F = 1 − 1 N ∑ xj − yj 2 j =1 393 .

MEDIDAS DE LOCALIZACIÓN ESPACIAL Yij Yi j → participación de la región i en el sector j Yi i → participación de la región i en la población Y Yij Yi i Yij Yi i → participación del sector j en la región i → participación del sector j en la región i Cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) : Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Coeficiente de localización sectorial (del sector j-ésimo): CL j = 1 N Yij Yi i ∑ − 2 i =1 Yi j Y Coeficiente de especialización regional (de la región i-ésima): CEi = 1 L Yij Yi j ∑ − 2 j =1 Yi i Y Coeficiente de diversificación (de la región i-ésima): 2  L   ∑ Yij  Y2 j =1 CDi =  L  = Li i L ∑ Yij2 L∑ Yij2 j =1 j =1 Coeficiente de diversificación normalizado: CDi* = 394 L  1  CDi −  L −1  L .

Contrastes χ 2 de Pearson ni=nº de observaciones en la clase i. n = nº de elementos en la muestra. y B j de Y. Ei=npi=nº esperado de observaciones en la clase i bajo H0. G ( x) ≠ F ( x) H1 : X e Y no son independientes. 1−α 395 . Ai de X. Eij = ni• n• j n χ2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) H 0 : X → F(x) H0 : X e Y son independientes. j =1 r r n• j = ∑ nij = nº de elementos en la población B j de Y. de la población B j . 1−α Eij = ni• n• j n χ2 (n = ∑ ∑ r c i =1 j =1 ij − Eij ) 2 Eij H0: Las c poblaciones son homogéneas (se distribuyen igual) H1: Las c poblaciones no se distribuyen igual rechazamos H o si χ 2 > χ (2r −1)( c−1). c ni• = ∑ nij = nº de elementos en la categoría ni• = ∑ nij = nº de elementos en la categoría Ai de X. H 1: X → G ( x). Bj . χ 2 > χ k2−1. n = nº de elementos en la muestra.1−α j =1 n• j = ∑ nij = nº de elementos en la categoría i =1 rechazamos H 0 si c rechazamos H o si i =1 2 Eij χ 2 > χ (2r −1)( c−1). k (n χ2 = ∑ i i =1 − Ei ) Ei 2 nij = nº de elementos en la categoría Ai de X nij = nº de elementos en la categoría Ai de X.

F0 ( x) = P [ X ≤ x ] muestra 1 n º observaciones ≤ x Fn ( x ) = n Dexp = max F0 ( x ) − Fn ( x ) Fn ( x ) = muestra 2 nº observaciones ≤ x n º observaciones ≤ x Fm ( x ) = n m Dexp = max Fn ( x) − Fm ( x) Contraste bilateral: H 0 : X → F(x)  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales: H 1: X → G ( x).14) ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. (Tablas A.19) . Se rechaza H 0 si Dexp > Dα .Contrastes de Kolmogorov-Smirnov (muestras independientes).18 y A. G ( x) ≠ F ( x)  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  rechazamos H 0 si 396 Dexp > Dα (tabla A.

U 2 ) H 0 = Las dos muestras proceden de la misma población. Se rechaza H 0 si U 0 ≤ Uα Se rechaza H 0 si U 0 ≤ Uα (Uα valor crítico para el test bilateral ) (Uα valor crítico para el test unilateral ) (Uα valor crítico para el test unilateral ) U0 − µ σ µ= = z0 nm 2 σ2 = nm(n + m + 1) 12 p = P [ z ≤ z0 ] Se rechaza H 0 si p ≤ α 2 Se rechaza H 0 si p ≤ α Se rechaza H 0 si p ≤ α 397 .20) m(m + 1) − R2 2 Se rechaza H 0 si U 0 ≤ U α H1 = Fn ( x) < Fm ( x) H1 = Fn ( x) > Fm ( x) ( La muestra de tamaño n toma valores mayores que la muestra de tamaño m). U1 = nm + muestras de tamaños n y m n≤m n(n + 1) − R1 2 U 2 = nm + n + m > 60 ( z → N (0.1) ) U 0 = min (U1 .17 a 3. ( La muestra de tamaño n toma valores menores que la muestra de tamaño m). Fn ( x) = Fm ( x) H1 = Las muestras proceden de poblaciones distintas. Fn ( x) ≠ Fm ( x) n ≤ 20 y m ≤ 40 (tablas 3.Contraste de Mann-Whitney (muestras independientes).

muestra NO es aleatorio (casual ) ( pocas rachas ) n1 y n2 ≤ 20 (tabla 4. muestras independientes). de poblaciones distintas. H 0 = El orden de los valores de la muestra es aleatorio (casual ) H 0 = Las dos muestras proceden de la misma población H A1 = Las dos muestras proceden H A = El orden de los valores de la H A1 = Efecto de aglomeración H A 2 = Los valores se suceden de forma regular.1) ) Se mantiene H 0 si ru < R Se mantiene H 0 si ru < R Se mantiene H 0 si R < ro (límites inferiores y superiores (límites inferiores del α %) (límites superiores del α %) (límites inferiores del α %) α %) 2 R−µ σ µ= =z 2n1n2 +1 n1 + n2 σ2 = 2n1n2 (2n1n2 − n1 − n2 ) ( n1 + n2 ) ( n1 + n2 − 1) 2 Se mantiene H 0 si − zα < z < zα 2 398 ( pocas rachas ) Se mantiene H 0 si ru < R < ro del n1 o n2 > 20 (muchas rachas) 2 Se mantiene H 0 si − zα < z Se mantiene H 0 si z < zα Se mantiene H 0 si − zα < z .40) ( N (0.Test de las rachas (aleatoriedad.

EI ≤ d − } Se acepta H 0 si {d − ≤ ED . muy pocas del signo contrario di = xi1 − xi 2 d + = diferencias de signo positivo H1 : Las dos muestras proceden de distribuciones distintas. z− } ≤ zα 2 z+ = Se acepta H 0 si { z+ ≤ zα .1) ) z+ = d+ − µ z− = σ µ= n 2 σ2 = d− − µ σ d+ − µ σ z− = d− − µ σ n 4 Se acepta H 0 si − zα ≤ { z+ . d − } ≤ ED Se acepta H 0 si {d + ≤ ED . por tanto. F1 ( x) ≠ F2 ( x) n ≤ 100 d − = diferencias de signo negativo H1 : Las dos muestras proceden H1 : Las dos muestras proceden de distribuciones distintas.Test de los signos (muestras dependientes). EI ≤ d + } (tabla 4. − zα ≤ z− } Se acepta H 0 si { z− ≤ zα . − zα ≤ z+ } 2 399 . F1 ( x) = F2 ( x) Se rechaza H 0 cuando hay demasiadas diferencias de un signo y. valores menores que la muestra 2). Se acepta H 0 si EI ≤ {d + . F1 ( x) > F2 ( x) ( La muestra 1 toma valores mayores que la muestra 2). F1 ( x) < F2 ( x) ( La muestra 1 toma de distribuciones distintas.5) 30 ≤ n ( N (0.4) 101 ≤ n ≤ 1000 (tabla 4. H 0 : La mediana de las diferencias es cero ≈ Las dos muestras proceden de la misma distribución. d − } ≤ ED Se acepta H 0 si {d+ ≤ ED . EI ≤ d + } Se acepta H 0 si EI ≤ {d + . EI ≤ d − } Se acepta H 0 si {d− ≤ ED .

H0 : f(+d)= f(-d) F(+d)+ F(-d)= 1 H1 : Las dos muestras proceden de distribuciones distintas.2 ) n > 25 ( N (0. n ≤ 65 ( tabla 4. R− ) 2 H 0 : La distribución de las diferencias es simétrica alrededor de su mediana 0 ≈ Las dos muestras proceden de la misma distribución. di = xi1 − xi 2 ⇒ ordenar di de menor a mayor ⇒ R+ y R− ⇒ verificar R+ + R− = n(n + 1) ⇒ R = min( R+ .1) ) Se rechaza H 0 si R−µ σ Se rechaza H 0 si µ= =z z ≤ − zα 2 400 R ≤ Rα n(n + 1) 4 (test bilateral ) ( Rα valor crítico para el test ) σ2 = n ( n + 1)( 2n + 1) 24 Se rechaza H 0 si z ≤ − zα (test unilateral ) .Test de Wilcoxon de los signos-rangos (muestras dependientes).