Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Máster en Estadística Matemática CIENES, Universidad de Chile 1972
Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan
1982
Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al
Presente
Otras publicaciones del Prof. Arvelo, pueden ser obtenidos en la siguiente página
web: www.arvelo.com.ve
Muestreo Aleatorio Pag. 2
Angel Francisco Arvelo
I INTRODUCCION
Hemos visto que el universo está formada por elementos, y que cada uno de estos
elementos posee un carácter, que varía de un elemento a otro.
El conjunto de todos estos caracteres se denomina la población.
Este carácter puede ser de muy variada índole; puede ser la estatura de cada uno
de los habitantes de un país, el canal de televisión que en un momento
determinado están siendo sintonizados en cada hogar de una ciudad, etc.
Este carácter en estudio, y que puede ser diferente para cada uno de los
elementos del universo se denomina la variable estadística.
Las variables estadísticas se clasifican de la siguiente forma:
Nominales
Cualitativas
Ordinales
Variables Estadísticas:
Discretas
CuantitativasContinuas
Muestreo Aleatorio Pag. 5
Angel Francisco Arvelo
Diseño del experimento: Una vez que ha sido definido el problema, el investigador
debe decidir si estudiar toda la población o sólo una muestra.
En caso de que decida hacer un muestreo, habrá que definir el tipo de muestreo
a utilizar, si aleatorio simple, estratificado, por conglomerados, etc. También
será necesario calcular el tamaño de muestra requerido, el cual dependerá de la
precisión que se le quiera dar al muestreo; y también será necesario diseñar un
cuestionario, o formato para ser llenado por la personas que van posteriormente
a recoger la información.
El diseño de la encuesta y la redacción de las preguntas es un aspecto muy
importante en esta fase, pues de la sinceridad de las respuestas dependerá la
validez de la investigación.
Este es un problema más de carácter psicológico que estadístico, pues la
Estadística supone que la respuesta obtenida es sincera, y en la práctica no
necesariamente esto es cierto.
La apariencia física del encuestador, el momento de realizar la encuesta, y la
forma de hacer las preguntas son aspectos muy importantes a considerar aquí.
En el caso de investigaciones en un laboratorio, esta fase exige también la
selección de los instrumentos de medición, su calibración y la metrología.
Otro aspecto que también debe ser analizado en esta fase es el relativo a los
programas de computación que van a ser utilizados posteriormente para procesar
la información recogida en el muestreo.
II. ESTIMACION
II.1 Concepto de estimador
Un parámetro poblacional es un valor que se calcula en base a todos y cada uno
de los elementos de la población.
Así por ejemplo, si en el universo de estudiantes inscritos en una Universidad,
consideramos la variable estadística “estatura de cada uno de ellos”, la población
será el conjunto de valores numéricos que representan sus respectivas estaturas.
Si llamamos “N” al número de estudiantes en esta Universidad (Tamaño de la
población), el conjunto de valores numéricos de sus estaturas {𝑥1 , 𝑥2 ⋯ , 𝑥𝑁 }
representa a la población.
Sobre esta población podemos definir al siguiente parámetro poblacional:
𝑥 +𝑥 ⋯+𝑥 ∑𝑁 𝑥
𝜇 = 1 2+𝑁 𝑁
= 𝑖=1 𝑖
= Media Poblacional
𝑁
Resulta obvio, que en la gran mayoría de las situaciones prácticas, este valor
resultará desconocido, porque para calcularlo necesitaríamos conocer las estaturas
de todos los estudiantes de la referida Universidad.
El objetivo principal del muestreo es justamente, estimar el valor de estos
parámetros poblacionales, a partir del resultado arrojado por una muestra de esta
población; y de allí la necesidad de introducir el concepto de estimador.
Un estimador es un valor calculado sobre la base del resultado muestral obtenido,
y que se utilizará para estimar a un parámetro poblacional.
En el ejemplo anterior, al tomar una muestra de “n” estudiantes (tamaño de la
muestra), y medir sus estaturas, encontraremos un conjunto de valores numéricos
{𝑦1 , 𝑦2 ⋯ , 𝑦𝑛 }, sobre los cuales podemos definir la siguiente función:
𝑦 +𝑦 ⋯+𝑦 ∑𝑛 𝑦
𝑦̅ = 1 2+𝑛 𝑛
= 𝑖=1 𝑖
= Media muestral
𝑛
Este valor, como veremos más adelante, va a ser utilizado para estimar a su
correspondiente poblacional, y diremos que 𝑦̅ es el estimador de 𝜇 , lo que se
designará mediante la siguiente notación: 𝜇̂ = 𝑦̅
Para una mejor comprensión de los problemas del muestreo, es importante resaltar
las diferencias básicas entre el parámetro poblacional y su estimador:
El valor del parámetro poblacional es una constante desconocida, mientras que el
de su estimador es conocido para una muestra particular, pero variable entre las
diferentes muestras posibles
Muestreo Aleatorio Pag. 11
Angel Francisco Arvelo
Resulta fácil intuir que 𝑦̅ es un estimador consistente para “μ”, pues a medida que
más grande sea el tamaño de muestra, más elementos de la población se
incorporan a ella, y por lo tanto el valor de 𝑦̅ se acercará más al de “μ”.
De hecho cuanto n = N (censo), podemos afirmar con certeza que 𝑦̅ = μ
Las causas que ocasionan estos errores pueden ser clasificados en dos categorías:
asignables y aleatorias
Las causas asignables son aquellas que se pueden identificar y corregir, y que son
responsabilidad del investigador, tales como errores en el diseño de la encuesta,
preguntas mal redactadas, entrenamiento inadecuado a los encuestadores,
imprecisiones en la escala de medición, o fallas en la calibración de los
instrumentos de medición.
Lamentablemente, muchas veces este tipo de fallas son detectadas después que
se ha tomado la muestra, lo que ocasiona un atraso en los estudios por muestreo
y una pérdida de los recursos invertidos en la toma de la muestra. De allí la
importancia de tomar muestras preliminares o pilotos, que permitan detectar de
manera temprana tales errores.
Las causas aleatorias son producto de la variabilidad propia del estimador. En
efecto, hemos visto que todo estimador es una variable aleatoria, y que por lo tanto
su valor varía de una muestra a otra.
El valor que toma el estimador en una muestra específica representa un valor
particular de esa variable que no necesariamente tiene que ser igual al parámetro
que se quiere estimar.
Se define como error de muestreo a la diferencia absoluta entre el valor que tomó
el estimador en la muestra y el verdadero valor del parámetro poblacional, es decir:
Error de muestreo = │𝛉̂ - θ│
Por ejemplo, si estimamos que un parámetro vale 1251 y después resulta que su
verdadero valor es 1280, hemos cometido un error de │1251-1280│= 29 unidades
El valor absoluto se debe a que el error de estimación puede ser negativo en caso
de una subestimación, o positivo si se trata de una sobrestimación.
Cuando se realiza un estudio por muestreo, el investigador debe establecer cuál es
el máximo error que está dispuesto a tolerar en la muestra, y este se designa
designará por ε = Máximo error absoluto tolerado
La fijación del valor de “ε” dependerá del orden de magnitud del parámetro que se
pretende estimar. Así por ejemplo, si se quiere estimar un parámetro que pensamos
está en el orden de los millones, sería absurdo fijar “ε” en el orden de las unidades,
pues le estaríamos exigiendo a la muestra un nivel de precisión tal, que
seguramente redundará en un tamaño de muestra prácticamente igual a un censo.
En caso de que el investigador no tenga idea alguna sobre el orden de magnitud
del parámetro que está estimando, lo más prudente es fijar el error tolerado de
muestreo en forma relativa o porcentual, definido por la siguiente expresión:
̂−θ│
│θ
Error porcentual de estimación = 100%
θ
En el ejemplo anterior, si un parámetro cuyo verdadero valor es 1280 fue estimado
con un error absoluto de 29 unidades, entonces el error relativo de estimación es
29
de 100% = 2,27%
1280
Al analizar el informe de la muestra, el lector debe estar atento acerca del margen
de error de la muestra, e identificar si el error de muestreo está expresado de
manera absoluta o de manera relativa.
Una regla muy simple para hacer esta identificación es la siguiente:
Muestreo Aleatorio Pag. 15
Angel Francisco Arvelo
Por ejemplo, si una encuesta electoral predice que un cierto candidato obtendrá un
32% de la votación, y una vez celebrada las elecciones resulta que obtuvo el 34%
de los votos, entonces el error de estimación fue del 2% , y se trata una cifra
absoluta, no relativa.
Es práctica común en los estudios por muestreo fijar el máximo error relativo
tolerado en 1%, 2,5% o 5% en el caso general, y en esos mismos valores
porcentuales para el error absoluto, cuando se trate de la estimación de
porcentajes.
Lo anterior significa que cuando un estudio por muestreo concluye en una cierta
estimación para un parámetro, el lector debe interpretar que el verdadero valor es
anunciado ± el porcentaje de error; de manera que si se lee en el informe,
𝜃̂ = 1251 unidades, ε=2,5 % entonces se debe inferir que el verdadero valor de θ
está en el 1251 ± (2,5% de 1251) = 1251 ± 31,275, es decir dentro del intervalo
[1219,725 ; 1282,275] , mientras que si el informe se refiere a la estimación de un
porcentaje, como en el caso de una encuesta electoral, que dice
𝜃̂ =32%, ε=2,5 %, entonces la inferencia es que θ= Verdadero Porcentaje
Poblacional, está en el intervalo 32% ± 2,5%, es decir dentro del intervalo [29,5%;
34,5%]
Paso 4: Una vez seleccionados los números que conforman la muestra, debemos
ir a los elementos de la población identificados con esos números, y medir o
preguntarles el valor de la variable estadística asociada a cada uno de ellos.
Muestreo Aleatorio Pag. 20
Angel Francisco Arvelo
x i
i i
= Media Poblacional.
N N
i N
(y i )2
2 i 1
= Varianza Poblacional.
N
n = Tamaño de la muestra.
Muestra= {y1 , y2 , y3 ⋯ , yn }
j n
y j
y
j 1
= Media muestral = = Estimador de μ
n
T = = N y = Estimador de
j n
(y j y)2
s2
j 1
= Varianza muestral = 2 = Estimador de 2
n 1
n
f= = Fracción de muestreo.
N
̅ ± zα/2 s √1 − f
Intervalo de confianza para μ: y n
√
s
Intervalo de confianza para : N 𝑦̅ ± N zα/2 √1 − f
√n
El valor de z/2, depende del nivel de confianza (1-) deseado, siendo los más
frecuentes 90%, 95% o 99% de confianza, para los cuales el valor de z/2 puede
ser leído en las tablas de La Distribución Normal, encontrándose:
Muestreo Aleatorio Pag. 22
Angel Francisco Arvelo
Confianza zα/2
90 % 1,645
95 % 1,960
99 % 2,576
Es costumbre que los intervalos de confianza sean simétricos y que por lo tanto el
riesgo “α” se reparta por mitad entre las dos colas de la Distribución Normal.
El término sin multiplica por la abscisa z/2, se suele llamar “el error estándar de
la estimación”, mientras que una vez multiplicarlo por la abscisa, representa el
error de muestreo para el nivel de confianza establecido.
𝑠
Así por ejemplo 𝑛 √1 − 𝑓 es el error estándar en la estimación de μ, mientras
√
s
que zα/2 √1 − f representa el radio del intervalo de confianza, es decir el
√n
margen de error tolerado, para un nivel del (1-α) de confianza
Un comentario importante en las expresiones para el intervalo de confianza es el
que se refiere a la relación entre el radio del intervalo y el nivel de confianza.
Fácilmente se puede observar que cuanto mayor sea la confianza, mayor será el
radio del intervalo, y viceversa; lo cual es completamente lógico, pues si al hacer
un disparo sobre un blanco, queremos aumentar la probabilidad de acierto, se
debe aumentar el radio del blanco.
Ejemplo: Una de las áreas en donde las técnicas de muestreo han encontrado un
gran campo de aplicación, es en las auditorías contables.
En efecto, así como el contador debe preocuparse para que las cuentas cuadren
al céntimo, el auditor debe certificar que el estado financiero refleja cifras creíbles,
y en este sentido, el muestreo constituye una herramienta muy útil, pues si la cifra
dada en el estado financiero cae dentro del intervalo de confianza obtenido por
muestreo, el auditor puede validar esa cifra, sin necesidad de examinar la
totalidad de documentos.
Consideremos el siguiente caso: Se quiere estimar el monto total de las ventas de
una empresa durante un periodo de tiempo dado. Existen 32.500 facturas de
venta emitidas durante ese lapso.
Una muestra aleatoria simple de 100 facturas los siguientes montos expresados
en unidades monetarias:
1.565,81 1.681,15 1.569,50 2.179,82 1.448,19 3.202,97 1.791,71 1.652,48 1.538,34 2.225,79
1.272,97 2.160,39 1.426,80 1.797,69 1.572,99 1.151,57 2.326,23 2.722,45 1.618,40 1.565,78
1.589,60 2.554,25 2.145,41 2.387,37 1.966,96 999,62 1.415,03 1.652,15 1.810,55 1.554,80
1.712,11 2.413,25 2.085,90 1.599,76 2.393,09 1.443,49 1.967,46 1.944,56 1.098,63 1.928,56
2.120,34 1.781,19 2.530,04 1.662,57 1.956,70 2.081,10 1.494,16 1.099,40 2.428,79 1.681,24
1.164,33 1.819,62 782,58 2.476,30 1.942,82 2.166,43 817,62 1.132,65 1.671,05 2.342,90
1.894,14 1.772,66 1.192,46 2.362,04 1.877,08 2.002,05 1.793,70 2.249,14 1.546,75 674,06
2.130,09 2.095,72 2.239,11 1.960,13 1.593,56 1.398,05 1.832,01 1.467,12 1.372,94 1.719,57
948,98 1.587,10 1.900,94 2.428,22 1.727,20 778,04 2.098,32 1.209,68 2.797,18 2.363,02
1.077,25 876,39 1.628,44 1.150,14 2.565,92 1.061,72 842,67 2.091,25 1.825,83 2.389,28
Muestreo Aleatorio Pag. 23
Angel Francisco Arvelo
Para inferir en base a esta muestra el monto total de las ventas (Total poblacional)
hay que calcular la media y la desviación estándar de la muestra, que dan por
resultado: y̅ = 1.776,90; s = 505,35
En base a esta información, el intervalo del 95% de confianza para el monto
promedio de estas 32.500 facturas resulta ser:
505,35 100
1.776,90 ± 1,96 √1 − 32500 = 1.776,90 ± 98,90
√100
Mientras que para el total poblacional, el intervalo del 95% de confianza es:
505,35 100
32500 x 1.776,90 ± 32500 x1, 96 √1 − 32500 = 57.749.250,00 ± 3.214.123,25
√100
Esto significa que con 95% de confianza, se puede afirmar que las ventas totales
están dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si
estado financiero reporta un monto comprendido dentro del intervalo, el auditor
considerará aceptable esta cifra, caso contrario hará una investigación más
exhaustiva.
3.214.123,25 representa el error absoluto en la estimación, mientras que
(3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo
Es también evidente, que cuanto menor sea el riesgo que estemos dispuestos a
correr, mayor será el tamaño de muestra necesario, y que en el caso =0, se
necesitará un censo, es decir: n = N.
Usualmente el riesgo se fija en 1%, 5% o 10%.
Una vez definido el error máximo tolerado, y el riesgo del muestreo, el tamaño de
la muestra puede ser calculado mediante la aplicación de la siguiente fórmula:
Muestreo Aleatorio Pag. 25
Angel Francisco Arvelo
2
N zα/2 σ2
n= 2 2
zα/2σ + (N − 1) ε2
En donde:
N = Tamaño de la población.
2= Varianza Poblacional.
= Máximo error absoluto tolerado.
= Riesgo del muestreo
z/2 = Abscisa que en la normal estándar deja a la derecha un área "/2".
Con relación a la fórmula anterior, es importante hacer las siguientes
observaciones:
a) Una de las creencias más arraigadas, es la de pensar que para un nivel de riesgo
y de error fijos, el tamaño de muestra es siempre un porcentaje fijo de la población.
La fórmula anterior, nos muestra que esta creencia es falsa, puesto que si
graficamos la forma como varia el tamaño de muestra al variar el tamaño de la
población, manteniendo fijos el error tolerado, y el riesgo, encontramos una curva
como la siguiente:
Solución:
a) Tomando la información de la muestra piloto, tenemos que 𝜎̂ = 350 𝜇̂ = 5200
Además ε= 1% de 5200 = 52 horas, zα/2= 1,96
20000 ∙ 1,962 ∙ 3502
Sustituyendo encontramos: 𝑛 = = 172,54
1,962 ∙ 3502 + 19999 ∙ 522
Cuanto mayor sea “σ”, mayor será el tamaño de muestra requerido, por lo tanto si
se quiere un cálculo de “n” que evite futuras iteraciones, se deberá tomar la
estimación mayor, en este caso 𝜎̂ =380,25
Hay que calcular también la media de la muestra piloto 𝑦̅ = 𝜇̂ = 645,65
Además N = 5000 ε= 5% de 645,55 =32,28, zα/2= 1,645 para 90 % de confianza
Nótese que a pesar de que se desea estimar un total poblacional, se procede de la
misma manera como si se tratara de una media poblacional. Esto es debido a que
estimar un total poblacional con un error relativo del 5% es equivalente a estimar la
media poblacional con ese mismo error relativo
5000 ∙ 1,6452 ∙ 380,252
𝑛= = 349,23 > 20 ⇒ la muestra piloto fue insuficiente
1,6452 ∙ 380,252 + 4999 ∙ 32,282
𝑡
p = = Proporción de elementos con la característica, en la muestra.
𝑛
n
𝑓 = = Fracción de muestreo
N
Los parámetros a estimar por muestreo, suelen ser "π" y/o “𝜏”, siendo sus
correspondientes intervalos de confianza:
p(1−p)
Intervalo del (1-α) de confianza para "π”: 𝑝 ± zα/2 √ √1 − f
n−1
p(1−p)
Intervalo del (1-α) de confianza para“𝜏”: 𝑁𝑝 ± Nzα/2 √ √1 − f
n−1
Error de estimación = | p -π |
Error máximo tolerado = ε = Máxima diferencia tolerada de | p -π |
Riesgo = α = Probabilidad (| p -π | > ε)
Es importante aclarar, que en este tipo de estimación jamás se trabaja con errores
relativos; siempre que se dé un error, este debe interpretarse como absoluto.
Así por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos que
va a obtener un candidato en unas elecciones, con un error del 1%; este 1% debe
interpretarse como la diferencia absoluta, entre la estimación hecha, y el verdadero
porcentaje de votos a favor del candidato.
de forma, que si el investigador, sospecha que el valor de "π" está cercano al 50%,
puede tomar de una vez el máximo tamaño de muestra, sin necesidad de tomar
muestra piloto.
En caso de que el investigador sospeche que el valor de "π" está muy alejado del
50%, se justifica tomar las muestras piloto y el proceso iterativo, ya que tomar de
entrada la muestra máxima, puede resultar antieconómico, debido a que
Muestreo Aleatorio Pag. 32
Angel Francisco Arvelo
10
a.2) La estimación de π según la muestra piloto es π
̂= = 0,125, y sustituyendo:
80
50000 (1,96)2 (0,125)(0,875)
𝑛 = (49999)(0,02)2 = 1029 piezas
+(1,96)2 (0,125)(0,875)
Este cálculo de “n” presenta el inconveniente que si al tomar la muestra definitiva,
la proporción de defectuosos contradice la estimación de la muestra piloto, y resulta
superior al 12,5%, entonces el error de estimación va a resultar mayor que el
tolerado 0,02, y por lo tanto la muestra piloto de 1029 será insuficiente.
Como se ve, cada uno de estos tres criterios para calcular el tamaño de muestra
presenta sus pros y sus contras, y la decisión de cuál de ellos aplicar dependerá
del investigador.
insuficiente, cuestión esta que no puede ocurrir si de una vez se toma la muestra
máxima.
Este es el caso de un estudio en donde lo que se quiere estimar es por ejemplo “el
ingreso per cápita” en una localidad en donde residen “N” familias, y la unidad de
muestreo, es decir, lo que tiene igual probabilidad de ser seleccionado en la
muestra, es la familia no la persona.
Cada familia tendrá un par (X, Y), en donde:
X= Número de personas que componen la familia
Y = Ingreso familiar
El ingreso per cápita en esa localidad viene dado por la sumatoria de todos los
ingresos dividido entre el total de personas residentes en la localidad.
Al tomar la muestra, caerán en ella “n” pares, y el estimador de “R” es:
𝑦̅
𝑟 = 𝑅̂ =
𝑥̅
mientras que el intervalo del (1-α) de confianza para “R” resulta ser;
∑n 2 n 2 n 2
√1−f 1 yi −2r ∑1 xi yi +r ∑1 xi
r ± z𝛼/2 √
x̅ √n n−1
En aquellos casos donde el valor de”𝜏𝑦 ” sea una porción de "𝜏𝑥 “, entonces el
valor de “R” representa la proporción o el porcentaje que representa “Y” con
relación a “X”. En estos casos, tanto “Y” como “X” deben estar expresados en las
mismas unidades.
Por ejemplo, si en el par (X, Y), Y representa el gasto que una familia dedica
mensualmente para alimentación, y “X” representa el ingreso mensual de esa
familia; entonces “R” representa la proporción de los ingresos familiares que son
destinados para alimentación.
7 92 28.2 3 77 39.8
2 88 24.2 4 69 16.8
4 79 30.0 7 65 37.8
2 83 24.2 3 77 34.8
5 62 44.4 3 69 28.7
3 63 13.4 6 95 63.0
6 62 19.8 2 77 19.5
4 60 29.4 2 69 21.6
4 75 27.1 6 69 18.2
2 90 22.2 4 67 20.1
5 75 37.7 2 63 20.7
3 69 22.6 Totales: 123 2394 907.2
Solución: El caso a) es claramente una estimación por variables, pues cada familia
tiene un solo valor numérico asociado, mientras que los casos b) y c) son
estimaciones de razón.
Las estimaciones puntuales obtenidas para estos tres parámetros, resultan: a)
907,2 907,20 907,20
𝑦̅ = 33 = 27.49 $/familia, b) 𝑟1 = 123 = 7,38 $/persona, y c) 𝑟2 = 2394 = 0,3789 o
37.98% de los ingresos familiares son destinados a alimentación.
2394
c) ̅̅̅
𝑥2 = = 72,55
33
Muestreo Aleatorio Pag. 36
Angel Francisco Arvelo
∑𝑁
1 𝑦𝑖
Intervalo del 95% de confianza para 𝑅2 =
∑𝑁
1 𝑥2𝑖
1 28224 −2(0,3789)(66678)+(0,3789) 2 (177254)
0,3789 ± 1,96 72,55 √ = 0,3789 ± 0,0466
√33 33−1
1º) Suponga que para seleccionar una muestra del universo de estudiantes en su
Facultad, se utiliza el siguiente procedimiento:
Se consigue la lista de la totalidad de asignaturas que se dictan, y de cada
asignatura se seleccionan al azar dos estudiantes.
¿Considera Ud. que la muestra resultante cumple con los requisitos para ser
considerada como aleatoria simple?, y en caso de que no lo sea, sugiera un
procedimiento para obtenerla.
2º) Suponga que un universo está formado por las personas {𝑎, 𝑏, 𝑐, 𝑑, 𝑒} , cuyas
edades son {12,15,24,30,48} años respectivamente, y que se va a tomar una
muestra aleatoria simple de 3 de ellos, a los fines de estimar la media poblacional.
a) Calcule el valor de μ y de σ2, media y varianza poblacional respectivamente
b) ¿Cuántas muestras diferentes es posible tomar?
c) ¿Cuál es la probabilidad de seleccionar cada una de estas muestras?
d) Calcule el valor de la media muestral 𝑦̅ para cada una de estas muestras
posibles
e) Halle el valor esperado de 𝑦̅ , y verifique que E (𝑦̅ ) = μ. ¿Cómo se llama esta
propiedad?
e) Calcule ahora la varianza de la media muestral, y verifique que se satisface la
𝜎2 𝑁−𝑛
siguiente propiedad: Var (𝑦̅ ) = ( )
𝑛 𝑁−1
8 7 4 3 0 0
9 4 0 2 2 2
10 5 0 1 4 2
Obtenga intervalos del 95% de confianza para cada uno de los siguientes
parámetros poblacionales:
a) Porcentaje de votos a favor del candidato, calculado sobre la base de la
población votante.
b) Número total de habitantes en la zona.
c) Porcentaje de extranjeros en la zona, calculado sobre la base de la población
adulta.
d) Porcentaje de familias nacionales en la zona, asumiendo que las familias
nacionales son aquellas en donde no reside ningún extranjero.
5º) En una determinada zona residencial donde existen 2.000 viviendas, se quiere
estimar el total de niños en edad escolar, a fin de establecer la capacidad mínima
que ha de tener la escuela.
Una muestra piloto efectuada entre 10 viviendas, dio los siguientes resultados:
Niños en edad escolar 0 1 2 3 4
Frecuencia 2 4 2 1 1
Si se quiere que la estimación del total de niños en edad escolar realizada a través
de un muestreo aleatorio simple, no difiera en más de 100 del verdadero valor, con
un 95% de probabilidad.
¿Cuántas viviendas deben encuestarse como mínimo?
Solución: n= 1106
Caja Nº 1 2 3 4 5
Muestreo Aleatorio Pag. 38
Angel Francisco Arvelo
Total de piezas 15 10 12 20 18
Piezas defectuosas 2 3 1 3 2
EJERCICIOS ESPECIALES
𝐸1 ∪ 𝐸2 ⋯ ∪ 𝐸𝐿 = 𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜
Figura N° 7: Partición del Universo en Estratos
Teóricamente, la estratificación puede ser hecha por cualquier criterio que satisfaga
los criterios antes señalados; pero en la práctica, si se quiere obtener una
estimación precisa utilizando esta metodología, es necesario utilizar un criterio que
proporcione estratos que sean muy homogéneos, es decir que la varianza dentro
de cada uno de ellos sea muy pequeña.
𝜇̂ = ∑𝑖=𝐿
𝑖=1 𝑊𝑖 𝑦
̅𝑖 = ̅̅̅̅̅
𝑦 𝑠𝑡
𝜏̂ = N ̅̅̅̅
𝑦𝑠𝑡
̅̅̅̅
𝑦 𝑠𝑡 conocida como “media muestral estratificada”, corresponde a la media
ponderada entre las media muéstrales de cada estrato.
Muestreo Aleatorio Pag. 41
Angel Francisco Arvelo
Una vez tomada la muestra dentro de cada estrato, el intervalo de confianza para
cada uno de estos dos parámetros poblacionales resulta ser:
W2i S2i 𝑛𝑖
Para μ: 𝑦𝑠𝑡 ± zα/2 √∑L1
̅̅̅̅ (1 − )
ni 𝑁𝑖
W2i S2i ni
Para 𝜏: 𝑦𝑠𝑡 ± N zα/2 √∑L1
N ̅̅̅̅ (1 − )
ni Ni
Ejemplo: Se quiere estimar la nómina de una organización que tiene en total 6500
empleados, pero dado que existen diferencias importantes entre sus sueldos,
según sus responsabilidades, se decide estratificarlos en tres categorías: E1
obreros, E2 empleados administrativos y E3 personal profesional, donde caen 1000,
5000 y 500 personas respectivamente.
Se tomó una muestra de 50 obreros, 100 empleados administrativos y 20
profesionales, encontrándose una media mensual de $1200, $ 1800 y $ 4000, con
desviaciones típicas de $180, $350 y $ 250 respectivamente.
En base a esta información, obtenga un intervalo del 95% de confianza para la
nómina mensual.
1000 5000 500
Solución: Los pesos de cada estrato son: W 1 =6500 , W 2 =6500 , W 3 =6500
1000 5000 500
𝑦𝑠𝑡 =
̅̅̅̅ (1200) + (1800) + (4000) =1876,92
6500 6500 6500
= 12.200.000,00 ± 347.191,75
2
Nzα/2 ∑L1 Wi σ2i
n= 2
zα/2 ∑L1 Wi σ2i + N ε2
200 10000
10200 (1,96)2 (102001140,182 + 10200499,342 )
y por consiguiente: n = 200 10000 = 401
(1,96)2 ( 1140,182 + 10200499,342 )+10200(49,85)2
10200
Ya hemos visto que en este caso, la población solo contiene unos y ceros, según
el elemento posea o no posea el atributo respectivamente.
La nomenclatura a seguir es la siguiente:
L = Número de estratos
Ni = Tamaño del estrato i, i = 1, 2,……, L
N = Tamaño de población = ∑i=L i=1 Ni
Ni
Wi = = Factor de ponderación o Peso del estrato i
𝑁
Obviamente W 1 + W 2 + …..+ W L = 1
{𝑥𝑖1 , 𝑥𝑖2 . ⋯ , 𝑥𝑖𝑁𝑖 }= Población perteneciente al estrato i 𝑥𝑖𝑗 = 0 o 1
𝑗=𝑁
𝜏𝑖 = ∑𝑗=1 𝑖 𝑥𝑖𝑗 = Total de elementos con el atributo en el estrato i
j=N
τi ∑j=1 i xij
πi = = = Proporción de elementos con el atributo en el estrato i
Ni Ni
𝑖=𝐿 𝑗=𝑁𝑖
𝜏= ∑𝑖=1 𝜏𝑖 = ∑𝑖=𝐿
𝑖=1 ∑𝑗=1 𝑥𝑖𝑗 = Total Poblacional
𝜏 ∑𝐿 𝜏 ∑𝐿 𝑁 𝜋
𝜋 = 𝑁 = 1𝑁 𝑖 = 1 𝑁𝑖 𝑖 = ∑𝐿𝑖=1 𝑊𝑖 𝜋𝑖 = Proporción Poblacional
Lo anterior significa que la Proporción Poblacional es la Media Ponderada entre las
proporciones de los diferentes estratos según el peso de cada uno de ellos
ni = Tamaño de muestra en el estrato i, i = 1, 2,……, L
n = Tamaño total de muestra = ∑i=L i=1 ni
{𝑦𝑖1 , 𝑦𝑖2 . ⋯ , 𝑦𝑖𝑛𝑖 }= Valores que cayeron en la muestra del estrato i; 𝑦𝑖𝑗 = 0 o 1
j=n
∑j=1 i yij
pi= = Proporción muestral del estrato i
ni
ni
fi = = Fracción de muestreo en el estrato i
𝑁𝑖
En poblaciones finitas:
2
Nzα/2 ∑L1 Wi 𝜋𝑖 (1 − 𝜋𝑖 )
n= 2
zα/2 ∑L1 Wi 𝜋𝑖 (1 − 𝜋𝑖 ) + N ε2
En poblaciones infinitas:
z2α/2 ∑L1 Wi 𝜋𝑖 (1 − 𝜋𝑖 )
𝑛∞ =
ε2
Muestreo Aleatorio Pag. 49
Angel Francisco Arvelo
Al repartir proporcionalmente este tamaño total de muestra, entre los dos estratos,
n 0,75(4922) 3692
se obtiene: 1
n2 0,25(4922) 1231
La estimación puntual de “π” es: π̂ = pst = 0,75(0,25) + 0,25(0,38) = 0,2825
y el intervalo del 90% de confianza para “π”:
(0,75) 2 (0,25)(1−0,25) (0,25) 2 (038)(1−0,38)
0,2825 ± 1,645 √ + = 0,2825 ± 0,0105 =
3692−1 1231−1
28,25 % ± 1.05 %
EJERCICIOS POPUESTOS
1°) Una industria tiene dos máquinas, que trabajan en paralelo para producir un
mismo artículo.
Las características de estas máquinas son:
Máquina 1: Es una máquina moderna, cuya velocidad de producción es el triple de
la otra, y que según una muestra piloto, produce apenas un 1% de defectuosas.
Máquina 2: Es una máquina antigua, cuya velocidad de producción es la tercera
parte de la otra, y que según una muestra piloto, produce un 8% de defectuosas.
Se quiere estimar el porcentaje de piezas defectuosas dentro de la producción total,
con un error no mayor al 0.5%, y un 5% de riesgo.
Calcule con ese tamaño de muestra, se obtiene un 0.8% de defectuosas en la
máquina 1, y un 8.6 % de defectuosas en la máquina 2, establezca un intervalo del
95 % de confianza, para el porcentaje de defectuosos producidos por la industria.
2°) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca
“A” y 20.000 de otra marca “B”.
Se quiere estimar la duración media de los bombillos del lote, con un error no
mayor al 2,5% y 5% de riesgo.
Una muestra piloto de ambas marcas, arrojó los siguientes resultados:
Duración (hrs) 0 a 100 100 a 200 200 a 300 300 a 400 400 a 500
Marca “A” 2 8 25 31 14
Marca “B” 6 24 10 5 0
a) Con asignación proporcional, calcule el tamaño de muestra necesario para
cada marca
b) Suponga que con el tamaño de muestra calculado en a.3, se obtienen los
siguientes resultados:
Media Muestral (hrs) Desviación estándar (hrs)
Marca “A” 320 90
Marca “B” 170 50
Obtenga un intervalo del 95% de confianza para la duración media de los
bombillos del lote.
Muestreo Aleatorio Pag. 51
Angel Francisco Arvelo