Está en la página 1de 51

.

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Lujn es un Profesor Universitario Venezolano en el rea


de Probabilidad y Estadstica, con ms de 40 aos de experiencia en las ms
reconocidas universidades del rea metropolitana de Caracas.
Universidad Catlica Andrs Bello: Profesor Titular Jubilado 1970 a 2003
Universidad Central de Venezuela: Profesor por Concurso de Oposicin desde
1993 al presente
Universidad Simn Bolvar: Profesor desde 2005 al presente
Universidad Metropolitana: Profesor desde 1973 a 1987
Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004
Sus datos personales son:
Lugar y Fecha de Nacimiento: Caracas, 16-02-1947
Correo electrnico: angelf.arvelo@gmail.com
Telfono: 58 416 6357636
Estudios realizados:
Ingeniero Industrial. UCAB Caracas 1968
Mster en Estadstica Matemtica CIENES, Universidad de Chile 1972
Cursos de Especializacin en Estadstica No Paramtrica Universidad de Michigan
1982
Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al
Presente
El Profesor Arvelo fue Director de la Escuela de Ingeniera Industrial de la
Universidad Catlica Andrs Bello (1974-1979) , Coordinador de los Laboratorios
de esa misma Universidad especializados en ensayos de Calidad, Auditor de
Calidad, y autor del libro Capacidad de Procesos Industriales UCAB 1998.
En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales
en el rea de Estadstica General y Control Estadstico de Procesos.
Otras publicaciones del Prof. Arvelo, pueden ser obtenidos en la siguiente pgina
web: www.arvelo.com.ve

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

I INTRODUCCION

I.1 Poblacin y Muestra


La Estadstica tiene por objeto el estudio de los colectivos, y de las relaciones que
existen entre ellos, entendiendo por colectivo, o universo, a un conjunto de
elementos, personas o cosas, donde cada uno de ellos posee un carcter, que se
denomina la variable estadstica.
La variable estadstica puede ser cualitativa o cuantitativa. As por ejemplo, en el
caso de un estudio electoral, la variable estadstica se refiere al candidato
preferido por cada elector (variable cualitativa), mientras que en un estudio de
calidad, la variable estadstica se refiere a la longitud en milmetros de una cierta
pieza (variable cuantitativa).
El conjunto de valores de la variable estadstica en cada uno de los elementos del
universo se denomina la poblacin.
Un mismo universo puede tener varias poblaciones, ya que puede ocurrir que
sobre cada elemento se definan varias variables estadsticas.
As por ejemplo, sobre un universo de personas podemos definir las variables
estadsticas, sexo, edad, estatura y peso, lo que ocasiona que tengamos cuatro
poblaciones diferentes en el mismo universo.
El elemento sobre el cual se realiza la medicin se denomina la unidad de
muestreo, mientras que el nmero de unidades de muestreo existentes en la
poblacin se denomina tamao de la poblacin
La Estadstica no estudia casos individuales, como el ingreso de una persona, o
la preferencia de un elector, sino conjuntos numerosos de personas en lo referente
a su ingreso, o de electores en lo referente a la preferencia de cada uno de ellos.
Una poblacin puede tener un nmero finito de unidades de muestreo, o puede
ser tan grande, que puede ser tratada como si fuera infinita. En Estadstica
Matemtica por lo general, la poblacin se considera infinita, pues el experimento
puede ser repetido una y otra vez, y por lo tanto es posible coleccionar un nmero
infinito de observaciones para la variable en estudio.
Se llama Parmetro Poblacional a un valor que depende que los caracteres de
cada uno de los elementos que forman la poblacin, como por ejemplo, el
porcentaje de elementos que posee un cierto atributo, o la suma de todos los
caracteres asociados a cada uno de los elementos, en el caso de que ste sea un
valor numrico, como por ejemplo el total de habitantes que residen en una
localidad, que es la suma de los habitantes que residen en cada una de las
viviendas ubicadas en esa localidad.
Para obtener el valor de un parmetro poblacional, es necesario conocer el
carcter de cada uno de los elementos de la poblacin, y como la observacin de
todos ellos resulta prcticamente imposible por el elevado costo que representa,
se procede a analizar slo una parte de ella, con el objeto de inferir de ella el valor
del parmetro poblacional.
Esta parte de la poblacin se denomina muestra; de manera que en un sentido
amplio, una muestra es un subconjunto cualquiera de la poblacin. El objetivo de

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

la Inferencia Estadstica tal como se dijo antes, es analizar esta muestra, y de


all obtener conclusiones para la poblacin.

Figura N 1: Relacin entre la muestra y la poblacin


La forma como se haga la seleccin de los elementos de la poblacin para integrar
la muestra se denomina el plan de muestreo, y determina la metodologa
estadstica a seguir para hacer la inferencia.
Segn sea el Plan de muestreo, las muestras se clasifican de la siguiente forma:

Tipos de

No Probabilisticas

Aleatoria

muestras
Estratificada
Pr
obabilisticas

Sistematica

Conglomerados

Una muestra es no probabilstica cuando la seleccin de los elementos de la


poblacin que pasan a formar parte de la muestra se hace a criterio de la persona
que est tomando la muestra, sin que medie ningn tipo de procedimiento
aleatorio para su seleccin. Los procedimientos de Inferencia Estadstica no son
aplicables a este tipo de muestras.
Una muestra se dice probabilstica cuando la seleccin de los elementos que
intervienen en ella se hace a travs de algn procedimiento aleatorio, o sorteo,
que le concede a cada uno de los elementos de la poblacin, un cierto chance de
caer en ella.
Existen diversos tipos de muestras probabilsticas:
Muestra aleatoria simple: Es aquella en donde todas las muestras posibles son
igualmente probables, y en consecuencia cada elemento de la poblacin tiene
idntica probabilidad de caer en la muestra.
Muestra Estratificada: Es aquella en donde antes de tomar la muestra se divide
a la poblacin en grupos excluyentes llamados estratos, y posteriormente dentro
de cada estrato se toma una muestra aleatoria simple.
Muestra Sistemtica: En este tipo de muestras, la metodologa es como sigue:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Se divide la poblacin en bloques de k elementos cada uno, y se numeran desde


1 hasta k. Se elige un nmero entero al azar entre 1 y k.
Dentro de cada uno de los bloques se elige el elemento que corresponda al
nmero aleatorio seleccionado.
La muestra queda formada por los elementos elegidos, uno en cada uno de los
bloques.
Ejemplo: Supongamos que en una poblacin de 3.000 elementos queremos tomar
una muestra sistemtica de 10 elementos.
Para definir los elementos que van a formar parte de la muestra dividimos a la
poblacin en 10 bloques de 300 elementos cada uno.
A continuacin se elige un nmero al azar entre 1 y 300, digamos 158.
La muestra quedar conformada por los elementos que ocupen el puesto N 158
en cada uno de los diez bloques.
Muestra por Conglomerados: Este tipo de muestreo consiste en dividir tambin
a la poblacin en grupos que se denominan conglomerados, y luego elegir
aleatoriamente algunos de ellos.
En los conglomerados que resulten
seleccionados se realiza un censo, es decir, son examinados la totalidad de los
elementos que lo conforman.
La eleccin del Plan de Muestreo a utilizar en cada situacin depende de varios
factores tales como:
La homogeneidad o heterogeneidad de la poblacin en estudio.
La factibilidad de poder identificar a todos los elementos que conforman a
un determinado grupo, estrato o conglomerado.
El costo del muestreo.
Antes de proceder a seleccionar el Plan de Muestreo a seguir, es necesario
ponderar cada uno de estos factores, as como tambin la precisin del muestreo.

I.2 Variables Estadsticas y su clasificacin


Hemos visto que el universo est formada por elementos, y que cada uno de estos
elementos posee un carcter, que vara de un elemento a otro.
El conjunto de todos estos caracteres se denomina la poblacin.
Este carcter puede ser de muy variada ndole; puede ser la estatura de cada uno
de los habitantes de un pas, el canal de televisin que en un momento
determinado estn siendo sintonizados en cada hogar de una ciudad, etc.
Este carcter en estudio, y que puede ser diferente para cada uno de los
elementos del universo se denomina la variable estadstica.
Las variables estadsticas se clasifican de la siguiente forma:

Nominales
Cualitativas

Ordinales
Variables Estadsticas:
Discretas

CuantitativasContinuas

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Se dice que una variable estadstica es cualitativa cuando representa una


cualidad o un atributo, como por ejemplo la ciudad en que reside un habitante de
un pas, o la religin que profesa una persona.
Las variables cualitativas se clasifican en:
Variables Nominales o Categricas. Este es el caso en que entre los distintos
valores de la variable no existe ninguna relacin de orden o de jerarqua.
Tal es el caso por ejemplo, en que la variable estadstica en estudio es el estado
civil de los empleados de una empresa. Aqu los posibles valores de esta variable
son: Soltero, Casado, Viudo y Divorciado.
En algunos casos, a ciertas variables nominales, por comodidad en el tratamiento
de los datos se les asignan valores numricos, sin que este artificio le haga perder
su condicin de Variable Nominal. Por ejemplo, en una encuesta se podra
presentar la siguiente situacin:
Pregunta:
Cual canal de televisin prefiere Ud.?
Respuestas: 1- El Canal 2.
2- El Canal 4.
3- El Canal 5.
4- El Canal 8.
5- El Canal 10.
En este caso ni los nmeros que identifican a la respuesta del encuestado (1,2,3,4
o 5) , ni los nmeros que corresponden a cada uno de los canales de televisin
(2,4,5,8 o 10), cuantifican una magnitud en s, sino que representan una cualidad
como es la preferencia del televidente.
De forma pues que esta variable, a pesar de tomar valores numricos, es una
Variable Cualitativa, y adems Nominal, puesto que los nmeros mencionados no
sugieren una relacin de orden, debido a que no podemos decir que el televidente
de un determinado canal, es mejor o peor que el televidente de otro canal, porque
el nmero que identifica al canal es mayor o menor que el otro.
b) Variables Ordinales. Este es el caso en que entre las diferentes cualidades
existe una relacin de orden jerrquico entre ellas, y es posible decir que cierta
categora es mayor o menor, o mejor o peor, que otra.
Por ejemplo, al clasificar a un grupo de personas segn sus edades en infantes,
adolescentes, adultos, maduros y ancianos , es posible establecer un orden , o
tambin al clasificar a los miembros del ejrcito segn su rango, es posible
establecer un orden , y decir que ser General de Divisin es ms que ser Coronel,
etc.
Algunas veces, variables estadsticas que pueden ser medidas numricamente
por comodidad de trabajo, son tratadas como variables cualitativas ordinales.
Tal es el caso por ejemplo, de la clasificacin socio - econmica que se suele
hacer en grupos familiares , tomando nicamente como elemento de juicio su nivel
de ingresos, y clasificarla as en Clase Alta, Media Alta, Media, Media Baja o
Marginal . Aqu se est tomando en cuenta una variable numrica, como es el
ingreso familiar, para decidir acerca de una cualidad como es la condicin de vida
de la familia. En estos casos se presenta el problema de definir cules son las
fronteras numricas, para ubicar a un elemento en una u otra escala.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Las variables cuantitativas son aquellas que se refieren a magnitudes


numricas, tales como la estatura de un grupo de personas, o el nmero de
personas que residen en una vivienda.
Las variables cuantitativas se clasifican en discretas y continuas.
Una variable es discreta cuando el conjunto de valores que puede tomar es finito
o infinito numerable, es decir que puede ponerse en correspondencia con el
conjunto de los nmeros naturales.
Por ejemplo, si en una determinada investigacin estamos analizando el nmero
de vehculos que posee cada una de las residencias de una urbanizacin, el
resultado de nuestras observaciones sern nmeros naturales, o cero; sta es
pues una variable discreta. Otros ejemplos de investigaciones que dan lugar a
variables discretas son: Nmero de hijos que posee un matrimonio, nmero de
clientes que acuden diariamente a un comercio, etc...
Se dice que una variable es continua cuando puede tomar cualquier valor dentro
de un intervalo real.
As por ejemplo, si consideramos el peso de una persona, el resultado de nuestra
observacin ser un nmero real positivo, sin limitacin en el nmero de cifras
decimales.
Hay que advertir que una variable continua no puede ser jams medida en su
exacto valor, pues por ms pequea que sea la unidad de medida que utilicemos,
siempre podremos encontrar valores ms pequeos que esa unidad.
As por ejemplo cuando decimos que un bombillo fall a las 532 horas de uso,
esto no significa que la falla ocurri en el preciso instante en que cumpla las 532
horas. Lo que significa es que fall en algn instante entre las 532 y las 533 horas,
lo que representa un intervalo de tiempo.
La variable discreta por el contrario, si puede ser medida en su valor exacto, y as
por ejemplo, cuando decimos acudieron 532 clientes a un banco durante un da
determinado, sta cifra representa un valor exacto, y es puntual.
Las variables continuas ms frecuentes suelen ser el tiempo, longitud, rea,
volumen, etc.
I.3 Escalas de Medicin
Una vez que ha sido definida la variable estadstica que va a ser analizada, nos
encontramos con el problema de cmo medirla.
En muchas oportunidades este asunto no presenta ninguna dificultad, pues la
variable considerada ya tiene una unidad de medida perfectamente definida.
Tal es el caso por ejemplo, de una longitud, en donde ya existen varias unidades
de medicin universalmente aceptadas, como pudieran ser el metro, la pulgada,
el milmetro, etc.
En otros casos sin embargo, la situacin no es tan clara, pues no existe tal unidad
de medida, y se hace necesario definir una escala de medicin.
Por ejemplo, si el universo es el conjunto de clientes de una empresa de servicios,
y lo que se quiere estudiar es el nivel de satisfaccin de cada uno de ellos por el
servicio prestado, inmediatamente nos preguntaremos: cmo medir ese nivel de
satisfaccin?

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

La seleccin de una escala de medicin adecuada es una decisin importante en


cualquier investigacin, pues de ella depender la metodologa estadstica a
seguir, y las conclusiones que se deriven de la investigacin.
En 1948, el cientfico S.S. Stevens propuso una clasificacin lgica para los tipos
de medicin, con la que no todos los estadsticos concuerdan, pero que es la ms
divulgada y conocida.
Stevens seal que si no existieran mediciones el mundo sera catico, y no
existira ciencia estadstica, y si las mediciones fuesen totalmente exactas, habra
una demanda mucho ms reducida para emplear la Estadstica.
Stevens reconoce cuatro tipos de escalas de medicin: nominal, ordinal, de
intervalos, y de razn.
Las escalas nominales se emplean para medir variables cualitativas nominales,
y se utilizan como medidas de identidad. Una escala de este tipo tendra que ser
necesariamente usada para representar los distintos valores de variables como
sexo, religin, etc.
En una escala nominal, los diferentes valores de la variable se suelen numerar
por orden alfabtico de las categoras, y los nmeros asignados no corresponden
a ninguna medicin, ni entre ellos existe relacin jerrquica alguna.
La escala ordinal refleja orden o jerarqua entre los distintos niveles de la
variable, y se disponen de la ms alta a la ms baja, o viceversa.
El ejemplo clsico de este tipo de escala es el empleado para evaluar la
dureza
de los minerales. Esta propiedad se define como el grado de resistencia a la
abrasin, y en esta escala el nmero 1 corresponde a un material muy suave y
fcil de desmenuzar como el talco, mientras que el nmero 10 en el extremo
opuesto de la escala, corresponde al diamante, que puede rayar a todos los
dems, y no puede ser rayado por ninguno.
Con relacin a este tipo de escalas, hay dos comentarios importantes que hacer:
Iguales diferencias entre los nmeros de la escala, no necesariamente reflejan
iguales diferencias de intensidad para la variable medida.
Consideremos por ejemplo, el siguiente caso: Supongamos que para medir el
grado de satisfaccin de los clientes por un determinado servicio, se propone la
siguiente escala nominal:
1. Totalmente insatisfecho.
2. Bastante insatisfecho.
3. Medianamente satisfecho.
4. Bastante satisfecho.
5. Totalmente satisfecho.
En esta escala, a pesar de que la diferencia 5 - 3 = 3 -1, no podemos decir que la
diferencia entre el grado de satisfaccin entre los clientes del nivel 5 y los del nivel
3, es la misma que entre los clientes del nivel 3 y el nivel 1.
En una escala nominal tampoco podemos hacer comparaciones de razn entre
los diferentes niveles o nmeros de la escala.
As por ejemplo, en el caso anterior sera absurdo decir que como 4 es el doble
de 2, entonces los clientes del nivel 4 estn doblemente satisfechos que los del
nivel 2.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

La escala de intervalos es para variables cuantitativas, y por lo tanto proporciona


valores numricos .En este tipo de escala hay que seleccionar una unidad de
medida, y la medicin expresa el nmero de unidades que posee el elemento
medido.
En una escala por intervalos hay tres caractersticas fundamentales:
El cero es completamente arbitrario, y no significa necesariamente la
ausencia de la cantidad medida.
Diferencias iguales reflejan idnticas diferencias, entre los niveles de la
variable en estudio.
No se pueden hacer comparaciones de razn.
Un ejemplo de escala por intervalos es la utilizada para medir la hora del da.
En esta escala el cero que corresponde a la medianoche, es completamente
arbitrario, el tiempo transcurrido entre las 5:00 y las 8:00, es el mismo que entre
las 14:00 y las 17:00, y no se puede decir que 8:00 a.m. es el doble de 4:00 am.
Otro ejemplo de escala por intervalos es la utilizada para medir la temperatura,
bien sea en C o en F. En la escala centgrada el cero es arbitrario, y corresponde
a la temperatura de congelacin del agua, y la diferencia de temperatura entre
10C y 14C es la misma que entre 25C y 29C.
En una escala por intervalos no se pueden hacer comparaciones de razn entre
los valores de la variable, y as por ejemplo si en un da la temperatura fue de
15C y en otro de 30C, es incorrecto decir que en el segundo da hizo el doble
de calor que en el primero.
La escala de razn o de cociente es tambin para variables cuantitativas, y se
diferencia de la de intervalos en que en ella el cero no es arbitrario, y corresponde
realmente a una total ausencia de la propiedad estudiada.
En una escala de razn, lo mismo que en una de intervalos, a iguales diferencias
entre los nmeros asignados corresponden iguales diferencias de intensidad de
la variable en estudio, pero ahora si es posible hacer comparaciones de razn
entre los elementos, y decir que en un elemento A el valor de la variable es tres
veces o cuatro veces el valor de otro elemento "B.
El peso y la estatura son ejemplos claros de una escala de razn, pues una
persona que pese 90 Kg., pesa el triple que un nio que pese 30 Kg.

I.4 Etapas de una Investigacin por Muestreo


El muestreo es una herramienta fundamental en cualquier investigacin, bien sea
cientfica o social, y su aplicacin requiere de una cierta metodologa.
Por lo general los problemas ms frecuentes que hay que resolver a la hora de
aplicar tcnicas de muestreo en una investigacin, son en este orden los
siguientes:
Formulacin del problema: Esta es la fase conceptual de la investigacin , y
consiste en definir en primer lugar el objetivo de la investigacin que se va a

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

realizar , las hiptesis que se pretenden probar , la definicin de la poblacin a


considerar, y la seleccin de las variables a medir .
En muchas oportunidades, esta fase tambin exige la creacin de una escala de
medicin, porque la misma no existe para algunas de las variables que van a ser
analizadas.
Esta es quizs la fase ms importante en la investigacin, pues es la que
condiciona todas las posteriores, y la validez de las conclusiones.
Diseo del experimento: Una vez que ha sido definido el problema, el investigador
debe decidir si estudiar toda la poblacin o slo una muestra.
En caso de que decida hacer un muestreo, habr que definir el tipo de muestreo
a utilizar, si aleatorio simple, estratificado, por conglomerados, etc.
Tambin
ser necesario calcular el tamao de muestra requerido, el cual depender de la
precisin que se le quiera dar al muestreo; y tambin ser necesario disear un
cuestionario, o formato para ser llenado por la personas que van posteriormente
a recoger la informacin.
El diseo de la encuesta y la redaccin de las preguntas es un aspecto muy
importante en esta fase, pues de la sinceridad de las respuestas depender la
validez de la investigacin.
Este es un problema ms de carcter psicolgico que estadstico, pues la
Estadstica supone que la respuesta obtenida es sincera, y en la prctica no
necesariamente esto es cierto.
La apariencia fsica del encuestador, el momento de realizar la encuesta, y la
forma de hacer las preguntas son aspectos muy importantes a considerar aqu.
En el caso de investigaciones en un laboratorio, esta fase exige tambin la
seleccin de los instrumentos de medicin, su calibracin y la metrologa.
Otro aspecto que tambin debe ser analizado en esta fase es el relativo a los
programas de computacin que van a ser utilizados posteriormente para procesar
la informacin recogida en el muestreo.
Recoleccin de datos. Esta es la fase de campo propiamente dicha, en la que el
investigador hace el sorteo aleatorio de las unidades de la poblacin que van a
pasar a formar parte de la muestra, y posteriormente las entrevista, o las ensaya
en caso de que se trate de una investigacin hecha en un laboratorio.
En esta fase, el investigador debe poner especial cuidado en que la muestra
quede conformada por estrictamente las unidades que resultaron sorteadas, y no
por otras que le resulten ms cmodas al encuestador.
Cualquier error en este sentido hara que la investigacin pierda fuerza, y
podra incluso invalidar sus conclusiones.
Tabulacin y Descripcin de los resultados. Esta es la fase descriptiva de la
investigacin, en donde los datos tomados en la fase anterior son organizados y
resumidos en tablas estadsticas, y tambin representados en grficas que de una
manera rpida permitan visualizar su comportamiento.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

10

En esta fase es indispensable el manejo de las tcnicas de Estadstica


Descriptiva, y debe contarse con la ayuda del programa de computacin
seleccionado en la fase de diseo.
Inferencia Estadstica y Conclusiones: Esta es la fase final de la investigacin, en
donde los resultados obtenidos en la muestra son analizados con los mtodos de
la Inferencia Estadstica, y se obtienen conclusiones para la poblacin.
Las conclusiones obtenidas en esta fase se refieren a las hiptesis que haban
sido formuladas en la fase inicial, o tambin a la estimacin del valor
de
ciertos parmetros poblacionales que eran desconocidos al comienzo de la
investigacin.
II. ESTIMACION
II.1 Concepto de estimador
Un parmetro poblacional es un valor que se calcula en base a todos y cada uno
de los elementos de la poblacin.
As por ejemplo, si en el universo de estudiantes inscritos en una Universidad,
consideramos la variable estadstica estatura de cada uno de ellos, la poblacin
ser el conjunto de valores numricos que representan sus respectivas estaturas.
Si llamamos N al nmero de estudiantes en esta Universidad (Tamao de la
poblacin), el conjunto de valores numricos de sus estaturas {1 , 2 , }
representa a la poblacin.
Sobre esta poblacin podemos definir al siguiente parmetro poblacional:
+

= 1 2+
= =1
= Media Poblacional

Resulta obvio, que en la gran mayora de las situaciones prcticas, este valor
resultar desconocido, porque para calcularlo necesitaramos conocer las estaturas
de todos los estudiantes de la referida Universidad.
El objetivo principal del muestreo es justamente, estimar el valor de estos
parmetros poblacionales, a partir del resultado arrojado por una muestra de esta
poblacin; y de all la necesidad de introducir el concepto de estimador.
Un estimador es un valor calculado sobre la base del resultado muestral obtenido,
y que se utilizar para estimar a un parmetro poblacional.
En el ejemplo anterior, al tomar una muestra de n estudiantes (tamao de la
muestra), y medir sus estaturas, encontraremos un conjunto de valores numricos
{1 , 2 , }, sobre los cuales podemos definir la siguiente funcin:

= 1 2+
= =1
= Media muestral

Este valor, como veremos ms adelante, va a ser utilizado para estimar a su


correspondiente poblacional, y diremos que es el estimador de , lo que se
designar mediante la siguiente notacin: =
Para una mejor comprensin de los problemas del muestreo, es importante resaltar
las diferencias bsicas entre el parmetro poblacional y su estimador:
El valor del parmetro poblacional es una constante desconocida, mientras que el
de su estimador es conocido para una muestra particular, pero variable entre las
diferentes muestras posibles

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

11

En efecto, regresando al ejemplo, la media poblacional es una constante cuyo


valor no conocemos, mientras que el valor de la media muestal lo conocemos
para la muestra particular tomada, pero pudo haber sido otro, si el azar hubiese
dispuesto que la muestra seleccionada hubiese sido otra.
De lo anterior se desprende que un estimador es una variable aleatoria, pues puede
variar de una muestra a otra, y que lo que obtenemos al tomar una muestra, es un
valor particular de dicha variable aleatoria.
Inmediatamente surgen las siguientes preguntas:
1. Cmo hacemos para obtener el mejor estimador para un parmetro poblacional
cualquiera?
2. Si el estimador es una variable aleatoria, cul es su distribucin de
probabilidad?
3. Cmo hacemos para inferir el valor del parmetro poblacional a partir de ese
valor particular del estimador?
La respuesta a estas preguntas no es sencilla, y no constituye el objetivo de este
humilde resumen, pues representa la esencia de lo que se denomina Inferencia
Estadstica; sin embargo, aqu haremos uso de algunos de los resultados que all
se obtienen, y se demuestran, por lo que se recomienda al lector interesado en
profundizar en estos aspectos consultar un texto de Estadstica Matemtica e
Inferencia Estadstica
El siguiente cuadro resume las diferencias entre Parmetro Poblacional y
Estimador:
Se calcula:
Comportamiento
Conocimiento
Parmetro
Sobre toda
Constante
Desconocido
Poblacional
la poblacin
Estimador
Sobre
Aleatorio
Conocido solo un
la muestra
valor particular
II.2 Propiedades de un buen estimador
Un problema muy frecuente en Inferencia Estadstica es el de comparar
estimadores, pues a pesar de que existen diversos mtodos y criterios para hacer
la estimacin, no siempre todos ellos conducen al mismo estimador, y por lo tanto,
se hace necesario decidir cul es el mejor.
Con el objeto de facilitar las definiciones, adoptemos la siguiente nomenclatura:
= Valor verdadero de un parmetro poblacional desconocido
= Estimador de
Al ser una variable aleatoria, tendr una cierta Distribucin de Probabilidad, y en
consecuencia un determinado valor esperado, y una cierta varianza
E ( ) = Valor Esperado de
Var ( )= Varianza de
Las siguientes propiedades nos permiten reconocer a un buen estimador, y sern
explicadas de una manera intuitiva, sin el tratamiento riguroso propio de la
Estadstica Matemtica

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

12

1 Estimadores insesgados: Se dice que un estimador es insesgado, cuando su valor


esperado coincide con el parmetro poblacional que pretende estimar, es decir
cuando E ( ) = ; caso contrario, se dice que es sesgado.
Para entender mejor desde un punto de vista prctico lo que significa sesgar una
muestra consideremos el siguiente caso hipottico.
Imaginemos que para realizar una encuesta electoral seleccionamos la muestra
entre los asistentes a una concentracin a favor de un candidato. Resulta obvio,
que en esa muestra no esperamos encontrar un reflejo de lo que realmente opina
la poblacin. En este caso diremos que la muestra est sesgada, es decir
adulterada.
Un estimador sesgado es como un arma que no tiene la mira calibrada, que
pretende dar en un blanco pero est apuntando a otro; mientras que un estimador
insesgado es uno que realmente apunta hacia al blanco, en el caso de muestreo el
parmetro poblacional , y que espera dar en l.
Suponiendo que tenemos dos estimadores 1 y 2 que siguen cada uno, una
distribucin normal, el primero insesgado y el segundo no, la siguiente grfica nos
muestra como con el primer estimador estamos en condiciones de hacer una mejor
estimacin que con el segundo, debido a que se espera que el primero coincida
con el parmetro poblacional a estimar, mientras que con el segundo se esperar
caer en un punto alejado de l

Figura N 2: Comparacin entre un estimador insesgado y otro sesgado

Un estimador puede presentar un sesgo negativo, cuando se espera tome un valor


a la izquierda del parmetro poblacional a estimar, es decir lo subestime; o puede
presentar un sesgo positivo, cuando se espera caiga a su derecha y lo sobreestime
como en el ejemplo de la encuesta electoral antes mencionada.
2. Estimadores consistentes: Un estimador se dice consistente, cuando a medida
que el tamao de muestra es mayor, el estimador nos recompensa,
proporcionndonos una mejor estimacin; es decir, que a mayor tamao de
muestra existe una mayor probabilidad de que el estimador caiga muy cercano al
parmetro poblacional que pretende estimar.
Un estimador que carezca de esta propiedad queda prcticamente descalificado,
pues no devuelve en precisin el esfuerzo de tomar un mayor tamao de muestra.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

13

Resulta fcil intuir que es un estimador consistente para , pues a medida que
ms grande sea el tamao de muestra, ms elementos de la poblacin se
incorporan a ella, y por lo tanto el valor de se acercar ms al de .
De hecho cuanto n = N (censo), podemos afirmar con certeza que =
3. Estimadores suficientes: Se dice que un estimador es suficiente cuando utiliza
toda la informacin contenida en la muestra, es decir, cuando no desperdicia
informacin y toma en cuenta a todas las observaciones mustrales.
As por ejemplo es un estimador suficiente puesto que para calcular su valor,
necesitamos conocer el valor de todas las observaciones que cayeron en la
muestra; si falta por determinar alguna de ellas, ya no podremos calcular .
La mediana de una muestra es un ejemplo tpico de un estimador que no es
suficiente, pues para calcularla slo tomamos en cuenta a los valores centrales,
descartando a los extremos.
4. Estimadores de mnima varianza: Resulta frecuente que al comparar dos
estimadores, ambos sean insesgados. En estos casos, el de menor varianza resulta
ser el mejor, pues los valores que toma estn ms concentrados alrededor del
parmetro que se desea estimar.
La siguiente figura nos seala que con el estimador de menor varianza, se tiene
una mayor probabilidad de realizar una mejor estimacin debido a que presenta
una menor dispersin.

Figura N 3: Comparacin entre dos estimadores insesgados

La Estadstica Matemtica proporciona una herramienta conocida como lo cota de


Cramer - Rao, que permite reconocer al estimador insesgado con la mnima
varianza; de manera que cuando lo encontremos, estaremos en presencia del mejor
estimador posible para el parmetro poblacional que deseamos estimar.
En lo sucesivo, vamos a suponer que los estimadores propuestos en los
diferentes casos que estudiaremos son los ptimos, y omitiremos el anlisis
de sus propiedades.
II.3 Errores en el muestreo
Resulta natural que a la hora de hacer una estimacin por muestreo no podamos
pretender que sta coincida exactamente con el verdadero valor del parmetro que
queremos estimar, y que en consecuencia aparezcan errores.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

14

Las causas que ocasionan estos errores pueden ser clasificados en dos categoras:
asignables y aleatorias
Las causas asignables son aquellas que se pueden identificar y corregir, y que son
responsabilidad del investigador, tales como errores en el diseo de la encuesta,
preguntas mal redactadas, entrenamiento inadecuado a los encuestadores,
imprecisiones en la escala de medicin, o fallas en la calibracin de los
instrumentos de medicin.
Lamentablemente, muchas veces este tipo de fallas son detectadas despus que
se ha tomado la muestra, lo que ocasiona un atraso en los estudios por muestreo
y una prdida de los recursos invertidos en la toma de la muestra. De all la
importancia de tomar muestras preliminares o pilotos, que permitan detectar de
manera temprana tales errores.
Las causas aleatorias son producto de la variabilidad propia del estimador. En
efecto, hemos visto que todo estimador es una variable aleatoria, y que por lo tanto
su valor vara de una muestra a otra.
El valor que toma el estimador en una muestra especfica representa un valor
particular de esa variable que no necesariamente tiene que ser igual al parmetro
que se quiere estimar.
Se define como error de muestreo a la diferencia absoluta entre el valor que tom
el estimador en la muestra y el verdadero valor del parmetro poblacional, es decir:
Error de muestreo = -
Por ejemplo, si estimamos que un parmetro vale 1251 y despus resulta que su
verdadero valor es 1280, hemos cometido un error de 1251-1280= 29 unidades
El valor absoluto se debe a que el error de estimacin puede ser negativo en caso
de una subestimacin, o positivo si se trata de una sobrestimacin.
Cuando se realiza un estudio por muestreo, el investigador debe establecer cul es
el mximo error que est dispuesto a tolerar en la muestra, y este se designa
designar por = Mximo error absoluto tolerado
La fijacin del valor de depender del orden de magnitud del parmetro que se
pretende estimar. As por ejemplo, si se quiere estimar un parmetro que pensamos
est en el orden de los millones, sera absurdo fijar en el orden de las unidades,
pues le estaramos exigiendo a la muestra un nivel de precisin tal, que
seguramente redundar en un tamao de muestra prcticamente igual a un censo.
En caso de que el investigador no tenga idea alguna sobre el orden de magnitud
del parmetro que est estimando, lo ms prudente es fijar el error tolerado de
muestreo en forma relativa o porcentual, definido por la siguiente expresin:
Error porcentual de estimacin =

100%

En el ejemplo anterior, si un parmetro cuyo verdadero valor es 1280 fue estimado


con un error absoluto de 29 unidades, entonces el error relativo de estimacin es
de

29

1280

100% = 2,27%

Al analizar el informe de la muestra, el lector debe estar atento acerca del margen
de error de la muestra, e identificar si el error de muestreo est expresado de
manera absoluta o de manera relativa.
Una regla muy simple para hacer esta identificacin es la siguiente:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

15

El error absoluto viene expresado en las mismas unidades que el


parmetro a estimar, mientras que el error relativo siempre
viene expresado en porcentaje
Esta regla presenta una nica excepcin:
Cuando el parmetro a estimar es un porcentaje, el error absoluto viene
expresado tambin como un porcentaje, y no se trata de una cifra relativa
Por ejemplo, si una encuesta electoral predice que un cierto candidato obtendr un
32% de la votacin, y una vez celebrada las elecciones resulta que obtuvo el 34%
de los votos, entonces el error de estimacin fue del 2% , y se trata una cifra
absoluta, no relativa.
Es prctica comn en los estudios por muestreo fijar el mximo error relativo
tolerado en 1%, 2,5% o 5% en el caso general, y en esos mismos valores
porcentuales para el error absoluto, cuando se trate de la estimacin de
porcentajes.
Lo anterior significa que cuando un estudio por muestreo concluye en una cierta
estimacin para un parmetro, el lector debe interpretar que el verdadero valor es
anunciado el porcentaje de error; de manera que si se lee en el informe,
= 1251 unidades, =2,5 % entonces se debe inferir que el verdadero valor de
est en el 1251 (2,5% de 1251) = 1251 31,275, es decir dentro del intervalo
[1219,725 ; 1282,275] , mientras que si el informe se refiere a la estimacin de un
porcentaje, como en el caso de una encuesta electoral, que dice
=32%, =2,5 %, entonces la inferencia es que = Verdadero Porcentaje
Poblacional, est en el intervalo 32% 2,5%, es decir dentro del intervalo [29,5%;
34,5%]
II.4 Riesgo y Confianza en una estimacin por muestreo
Tal como hemos visto en la seccin anterior, cuando se hace una estimacin por
muestreo, lo ideal es que el error de estimacin resulte como mximo igual al
tolerado. Esto sucede cuando -
Sin embargo, en el momento de tomar la muestra no se puede garantizar que esto
realmente va a ocurrir as, pues al ser el estimador una variable aleatoria, existe
una cierta probabilidad de que el error de estimacin sea mayor que el tolerado, y
que por lo tanto, la muestra no satisfaga nuestras expectativas. Esta probabilidad
se define como el riesgo del muestreo, y la designaremos por
Para ilustrar mejor esta idea, tomemos el siguiente caso:
Si se efectan 100 lanzamientos de una moneda legal, existe una probabilidad de
aproximadamente 95% de que el nmero de caras obtenidas caer en el intervalo
50 10, sea en el intervalo [40; 60]. Sin embargo, si tomamos una muestra de
este experimento, es decir, si lo realizamos una sola vez, tendremos una
probabilidad de aproximadamente 5% de que la prediccin no se cumpla, lo
representa el riesgo de hacer la prediccin.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

16

De igual manera en el muestreo, cuando tomamos una muestra de una poblacin,


sta es una de las tantas muestras diferentes que pudieran ser tomadas, tantas
como combinaciones podamos hacer entre los elementos que conforman el
universo, y por lo tanto, es posible tener la mala suerte que resulte conformada por
elementos extremistas, y en consecuencia se cometa un error mayor que el
tolerado. En sntesis:
El riesgo del muestreo representa la probabilidad de que el error
absoluto en la estimacin sea mayor que el mximo tolerado
= P( - > )
El complemento del riesgo, es decir, la probabilidad de que el error absoluto en la
estimacin resulte menor o igual que el mximo tolerado se define como la
confianza que proporciona la muestra.
1 - = P ( - )
Suponiendo que el estimador es insesgado y que sigue una Distribucin Normal,
el siguiente grfico explica los conceptos de riesgo y confianza del muestreo:
= Riesgo del muestreo = P( - > )
1-= Confianza= P( - )
Si el estimador se sale de la zona de
buena estimacin, se incurre en un
error mayor que el tolerado
La zona de buena estimacin es:

Figura N 4: Riesgo y Confianza del muestreo

A partir del concepto de confianza, la Inferencia Estadstica desarrolla la teora de


estimacin por intervalos, y obtiene los llamados intervalos de confianza para un
parmetro poblacional.
Dado que en las diferentes metodologas de muestreo que analizaremos ms
adelante se utilizar este concepto, se recomienda al lector que consulte en textos
de Inferencia Estadstica, los procedimientos a seguir para obtener un intervalo de
confianza

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

17

Un Intervalo del (1-) de confianza para un parmetro poblacional desconocido


1 ;
2 ] con
1 <
2 donde
1
2
, se define como un intervalo aleatorio [
dependen exclusivamente del resultado de la muestra, y que antes de tomarla,
tiene una probabilidad (1-) de contener al parmetro ,
es decir:

P(1 2 ) = 1-
Para facilitar la comprensin de este concepto, consideremos el siguiente ejemplo:
Supongamos que una persona anuncia tener 10 billetes, uno de los cuales es falso,
y se selecciona al azar uno de ellos.
Antes de hacer la seleccin podra decirse que la probabilidad de seleccionar un
billete bueno es del 90%; pero despus de hecha la seleccin, ya no se podra decir
lo mismo, pues el hecho aleatorio que era la seleccin del billete ya se realiz. Lo
que cabra decir despus de hecha la seleccin es que al billete seleccionado le
tenemos una confianza del 90%.
Lo mismo ocurre con el muestreo, existen muchas muestras posibles, y cada una
de ellas arrojar intervalos de confianza distintos. Algunos de ellos contienen al
parmetro y otros no. Antes de tomar la muestra, la probabilidad de seleccionar a
una que contenga al parmetro es 1-, pero despus de tomada la muestra, lo que
le tenemos al intervalo seleccionado es una confianza de 1-
Para finalizar estas secciones introductorias, y comenzar a estudiar las diferentes
metodologas de muestreo, es importante aclarar que muchas veces se oye decir
la siguiente frase: la muestra debe ser representativa de la poblacin para no
incurrir en los errores del muestreo.
Esta frase establece un principio que en la prctica resulta difcil de garantizar, pues
se supone que no conocemos a los elementos de la poblacin, ya que si los
conociramos no estaramos muestreando, y por lo tanto, no sabemos si todos ellos
van a quedar representados en la muestra. De all que siempre tengamos el riesgo
de realizar una estimacin errnea.
Para ilustrar esta idea, supongamos que queremos estimar la estatura media de los
alumnos de un colegio, en donde hay nios y adolescentes, y lo que disponemos
es de una lista de los alumnos inscritos en el colegio.
Si la muestra la tomamos haciendo un sorteo entre todos los alumnos del colegio
(muestreo aleatorio simple como veremos en la prxima seccin) resulta obvio que
existe el riesgo de que solo caigan nios o solo adolescentes, lo que nos va a
conducir a una estimacin errnea de la media poblacional.
Pudiramos disminuir este riesgo, si ahora en lugar de tener una lista general,
obtenemos una en donde aparezcan solo los alumnos de primaria por un lado, y
los de secundaria por el otro, y ahora tomamos la muestra seleccionando al azar
alumnos de uno y otro grupo (muestreo aleatorio estratificado). Este nuevo
procedimiento tampoco est exento de riesgo, porque es posible que en cada una
de las dos muestras, caigan solo alumnos de los primeros aos de primaria y de
secundaria, o exclusivamente de los ltimos aos de cada nivel.
Se puede continuar afinando nuestra estimacin, y decir que ahora vamos a
conseguir las listas de cada uno de los salones de clase, y que tomaremos la

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

18

muestra seleccionando al azar un cierto nmero de alumnos en cada saln; pero


tambin nos encontramos que en dichas muestras existe el riesgo de que caigan
en ella solo los ms bajos, o solo los ms altos de cada saln.
Llegado este punto, no faltar alguien que sugiera que entonces lo mejor es que se
estratifique a los alumnos por niveles de estatura, bajos, medianos y altos y se tome
una muestra al azar en cada categora, y pronto caeremos en cuenta que esto no
es posible porque para hacer dicha clasificacin, necesitaramos conocer la
estatura de cada uno de los alumnos, y el muestreo ya no tendra sentido.

Conclusin; El riesgo es inherente al muestreo


Al igual que en una rifa, la nica manera de garantizar que ganaremos el
premio es comprando todos los boletos.
Desde el mismo momento en que decidimos realizar un estudio por muestreo
debemos estar conscientes de que estamos asumiendo un riesgo, y de all la
importancia de conocer el margen de error y el nivel de confianza que nos
ofrece la muestra

III. MUESTREO ALEATORIO SIMPLE


Existen numerosas tcnicas de muestreo, que se diferencian unas de otras, en la
manera de seleccionar la muestra; en el muestreo aleatorio simple, la muestra
debe ser tomada de manera que cada una de todas las posibles muestras,
tenga la misma probabilidad de ser seleccionada.
El principio de igualdad de probabilidad para todas las posibles muestras, es quizs
el ms violado a la hora de seleccionar la muestra; debido a que el investigador
generalmente clasifica a la poblacin en grupos, y luego toma la muestra de
manera que en ella caigan representantes de cada grupo, pensando que de esa
manera, la muestra es ms representativa.
Esta manera de tomar la muestra no es que sea incorrecta, por el contrario, por lo
general conduce a resultados ms precisos, que los que se obtendran, aplicando
muestreo aleatorio simple; lo que si no es correcto, es pretender aplicar las frmulas
y principios del muestreo aleatorio simple, a una muestra tomada de forma
estratificada; ya que las frmulas correspondientes al muestreo aleatorio simple ,
son obtenidas bajo la premisa de que todas las muestras son igualmente probables;
principio que obviamente no se cumple , cuando la muestra se toma de forma
estratificada, ya que una muestra formada por elementos de un mismo grupo,
tendra una probabilidad nula de ser tomada, mientras que una muestra formada
por elementos de grupos diferentes tendra una probabilidad muy alta de ser
tomada. En caso de que la muestra se tome de forma estratificada, las frmulas y
principios a aplicar, son otros, diferentes a los que se vern en esta seccin
Los pasos a seguir para obtener una muestra aleatoria simple son los siguientes:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

19

Paso 1: En primer lugar es necesario definir el universo sobre el cual se va a tomar


la muestra
Paso 2: En segundo lugar es necesario conseguir una lista numerada del 1 al N
que contenga a todos los elementos del universo. La numeracin puede ser hecha
por cualquier criterio, alfabtico, por el nmero de la cedula de identidad, etc.
Si no es posible obtener esta lista, entonces se debe establecer previo a la muestra,
una regla de conteo que permita identificar a cada elemento del universo.
Ejemplo 3.1: En los estudios de calidad, es comn que se deba examinar para su
aceptacin, lotes de piezas las cuales vienen empacadas dentro de una caja.
Para tomar una muestra aleatoria, se deben enumerar las cajas, o en su defecto
establecer una regla de numeracin. Si estn colocadas sobre el suelo, decir por
ejemplo que la caja ms a la izquierda es la No 1, luego la No 2, y as sucesivamente
hasta la ltima. Posteriormente se debe tambin establecer otra regla de
numeracin dentro de la caja, que permita identificar cada pieza.
Supongamos que se debe tomar una muestra de botellas para medir su contenido,
y que estas se encuentran distribuidas en 100 cajas cada una de las cuales
contiene 36 botellas.
En este caso N = 100 x 36 = 3600 botellas
Para identificar cada una de las botellas del universo, debemos asignarle un
nmero a cada caja, y otro nmero a cada posicin dentro de la caja, y as
sabremos que la botella No 1 es la que ocupa la posicin No 1 dentro de la caja No
1, la botella No 40 es la que ocupa la posicin No 4 dentro de la caja N o 2, la botella
No 348 la que ocupa la posicin No 24 dentro de la caja No 10, etc., y la botella No
3600, la que ocupa la posicin No 36 de la caja No 100.
Paso 3: Hacer un sorteo sin reemplazo, seleccionando al azar y con igual
probabilidad, n nmeros cualesquiera dentro de los N que existen en el universo.
Para efectuar este sorteo, existen varios procedimientos. El ms antiguo es escribir
N papeles con los nmeros del 1 al N, colocarlos dentro de un sombrero, y
seleccionar uno a uno, los n elementos que conformarn la muestra.
Otro procedimiento un poco ms moderno para hacer el sorteo, es mediante la tabla
de nmeros aleatorios, la cual se construye seleccionando con reemplazo los
dgitos del 0 al 9, y segn vayan apareciendo se colocan en filas y columnas.
Con la aparicin de las calculadoras electrnicas esta tabla cay en desuso, y hoy
en da, el procedimiento ms usado es el de la generacin de nmero aleatorios,
que consiste en un sorteo simulado, en donde se le pide a la calculadora que genere
nmeros enteros al azar entre 1 y N, y a travs de un algoritmo interno, la
calculadora lo selecciona segn una distribucin uniforme discreta.
Paso 4: Una vez seleccionados los nmeros que conforman la muestra, debemos
ir a los elementos de la poblacin identificados con esos nmeros, y medir o
preguntarles el valor de la variable estadstica asociada a cada uno de ellos.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

20

Es importante destacar que el nmero de muestras posibles en un muestreo


N!
N
aleatorio simple es ( ) = n! (Nn)! , y que al ser cada una igualmente probable, la
n
1
probabilidad de seleccionar una de ellas en particular es N
( n)

Por ejemplo, si el universo est formado por los 5 elementos {a, b, c, d, e}, y se va a
5!
5
tomar una muestra de 2 de ellos, entonces existen ( ) = 2! 3!!= 10 muestras
2
posibles, que son {ab, ac, ad, ae, bc, bd, be, cd, ce, de}, y la probabilidad de seleccionar
cualquiera de ellas es 1/10
Segn sea el parmetro que se quiera estimar en la poblacin, debemos distinguir
entre "Muestreo aleatorio para Variables, "Muestreo aleatorio para Proporciones y
Porcentajes, Muestro aleatorio para Razones
III.1 Muestreo Aleatorio para Variables:
En este caso, la poblacin est formada por un conjunto de valores numricos
asociados a cada uno de los elementos del universo; tal como puede ser un grupo
de personas, en donde estamos observando el peso de cada uno de ellos, o un
conjunto de residencias que cada una tiene un nmero variable de habitantes, o
una produccin de cigarrillos, en donde cada uno tiene una longitud, o un dimetro
distinto.
La variable estadstica en este caso es cuantitativa, y la poblacin est formada por
el conjunto de valores numricos que ella toma sobre cada uno de los elementos
del universo.
La nomenclatura seguir es la siguiente:
N = Tamao de la Poblacin
Poblacin = {x1 , x2 , x3 , xN }
xi = Valor de la variable estadstica asociado al i-simo elemento de la poblacin
(i=1, 2,3...N); Cada xi es un nmero real
i N

i 1

= Total Poblacional.

i n

x
i i

i N

(y
i 1

= Media Poblacional.
N

)2

= Varianza Poblacional.

n = Tamao de la muestra.
Muestra= {y1 , y2 , y3 , yn }
yj = Valor de la variable estadstica asociado al j-simo elemento de la muestra
(j=1, 2,3...n)

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

21

j n

y
j 1

= Media muestral = = Estimador de

T = = N y = Estimador de
j n

s2

f=

(y
j 1

y)2

n 1

= Varianza muestral = 2 = Estimador de 2

n
= Fraccin de muestreo.
N

La notacin convencional en muestreo consiste en designar a los parmetros


poblacionales con letras griegas, mientras que a sus correspondientes estimadores
mustrales con letras latinas.
Cabe destacar que se emplean diferentes letras, y para designar a los valores
mustrales , x para los poblacionales, puesto que estos no tienen por qu
coincidir; de hecho por ejemplo ,el dcimo elemento de la poblacin puede no salir
en la muestra, o si sale, puede ser que ocupe otro lugar.
Usualmente los valores poblacionales son desconocidos, puesto que para
conocerlos habra que conocer los valores numricos asociados a cada uno de los
elementos de la poblacin, lo que dejara al muestreo sin sentido.
Los parmetros poblacionales a estimar suelen ser la media poblacional y / o, el
total poblacional.
En lo que se refiere a los valores mustrales, estos son conocidos para la muestra
tomada, pero deben ser vistos como valores particulares de una variable aleatoria;
puesto que el valor que ellos toman, depende obviamente de los elementos que
formen la muestra, los cuales se seleccionan aleatoriamente.
Una vez tomada la muestra, es posible definir intervalos de confianza tanto para la
media poblacional, como para el total poblacional, los cuales vienen dados por las
siguientes expresiones:
z/2 s 1 f
Intervalo de confianza para : y
n

Intervalo de confianza para :

N N z/2

1 f

z/2 = Abscisa que en la Normal Tipificada deja a la derecha un rea /2


El valor de z/2, depende del nivel de confianza (1-) deseado, siendo los ms
frecuentes 90%, 95% o 99% de confianza, para los cuales el valor de z/2 puede
ser ledo en las tablas de La Distribucin Normal, encontrndose:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Confianza

z/2

90 %
95 %
99 %

1,645
1,960
2,576

22

Figura N 5: Abscisas de la Distribucin Normal para un nivel de confianza dado

Es costumbre que los intervalos de confianza sean simtricos y que por lo tanto el
riesgo se reparta por mitad entre las dos colas de la Distribucin Normal.
El trmino sin multiplica por la abscisa z/2, se suele llamar el error estndar de
la estimacin, mientras que una vez multiplicarlo por la abscisa, representa el
error de muestreo para el nivel de confianza establecido.

As por ejemplo 1 es el error estndar en la estimacin de , mientras


que z/2

1 f representa el radio del intervalo de confianza, es decir el

margen de error tolerado, para un nivel del (1-) de confianza


Un comentario importante en las expresiones para el intervalo de confianza es el
que se refiere a la relacin entre el radio del intervalo y el nivel de confianza.
Fcilmente se puede observar que cuanto mayor sea la confianza, mayor ser el
radio del intervalo, y viceversa; lo cual es completamente lgico, pues si al hacer
un disparo sobre un blanco, queremos aumentar la probabilidad de acierto, se
debe aumentar el radio del blanco.
Ejemplo: Una de las reas en donde las tcnicas de muestreo han encontrado un
gran campo de aplicacin, es en las auditoras contables.
En efecto, as como el contador debe preocuparse para que las cuentas cuadren
al cntimo, el auditor debe certificar que el estado financiero refleja cifras crebles,
y en este sentido, el muestreo constituye una herramienta muy til, pues si la cifra
dada en el estado financiero cae dentro del intervalo de confianza obtenido por
muestreo, el auditor puede validar esa cifra, sin necesidad de examinar la
totalidad de documentos.
Consideremos el siguiente caso: Se quiere estimar el monto total de las ventas de
una empresa durante un periodo de tiempo dado. Existen 32.500 facturas de
venta emitidas durante ese lapso.
Una muestra aleatoria simple de 100 facturas los siguientes montos expresados
en unidades monetarias:
1.565,81
1.272,97
1.589,60
1.712,11
2.120,34
1.164,33
1.894,14
2.130,09
948,98
1.077,25

1.681,15
2.160,39
2.554,25
2.413,25
1.781,19
1.819,62
1.772,66
2.095,72
1.587,10
876,39

1.569,50
1.426,80
2.145,41
2.085,90
2.530,04
782,58
1.192,46
2.239,11
1.900,94
1.628,44

2.179,82
1.797,69
2.387,37
1.599,76
1.662,57
2.476,30
2.362,04
1.960,13
2.428,22
1.150,14

1.448,19
1.572,99
1.966,96
2.393,09
1.956,70
1.942,82
1.877,08
1.593,56
1.727,20
2.565,92

3.202,97
1.151,57
999,62
1.443,49
2.081,10
2.166,43
2.002,05
1.398,05
778,04
1.061,72

1.791,71
2.326,23
1.415,03
1.967,46
1.494,16
817,62
1.793,70
1.832,01
2.098,32
842,67

1.652,48
2.722,45
1.652,15
1.944,56
1.099,40
1.132,65
2.249,14
1.467,12
1.209,68
2.091,25

1.538,34
1.618,40
1.810,55
1.098,63
2.428,79
1.671,05
1.546,75
1.372,94
2.797,18
1.825,83

2.225,79
1.565,78
1.554,80
1.928,56
1.681,24
2.342,90
674,06
1.719,57
2.363,02
2.389,28

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

23

Para inferir en base a esta muestra el monto total de las ventas (Total poblacional)
hay que calcular la media y la desviacin estndar de la muestra, que dan por
resultado: y = 1.776,90; s = 505,35
En base a esta informacin, el intervalo del 95% de confianza para el monto
promedio de estas 32.500 facturas resulta ser:
1.776,90 1,96

505,35
100

100

1 32500 = 1.776,90 98,90

Mientras que para el total poblacional, el intervalo del 95% de confianza es:
32500 x 1.776,90 32500 x1, 96

505,35
100

100

1 32500 = 57.749.250,00 3.214.123,25

Esto significa que con 95% de confianza, se puede afirmar que las ventas totales
estn dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si
estado financiero reporta un monto comprendido dentro del intervalo, el auditor
considerar aceptable esta cifra, caso contrario har una investigacin ms
exhaustiva.
3.214.123,25 representa el error absoluto en la estimacin, mientras que
(3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo
Ejemplo: De un lote de 10.000 pilas, se tom una muestra de 25, y se observ su
duracin en horas, encontrndose los siguientes resultados:
Duracin
Frecuencia
(horas)
10-40
2
40-70
4
70-100
8
100-130
5
130-160
6
Obtngase un intervalo del 95% de confianza, para la duracin media de las pilas
del lote.
Solucin: En primer lugar, es necesario calcular la media y la desviacin estndar
de la muestra.
Estas resultan ser: y = 95,80 s= 37,63
Se tiene n = 25, y Z0.025 = 1,96 para 95% de confianza
Reemplazando, se obtiene que el intervalo del 95 % de confianza para es:
37,63
25
1
95,80 1,96
= 95,80 14,73 = 81,07; 110,53
10000
25

Determinacin del tamao de la muestra: En la estimacin de parmetros a


travs del muestreo, la pregunta clave siempre suele ser el tamao de la muestra
que es necesario tomar.
Responder esta pregunta no es fcil, y para ello, es necesario definir con
anterioridad dos conceptos:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

24

Cuando se va a estimar un parmetro desconocido, como lo es , a travs de un


valor aleatorio muestral, como lo es y , no podemos esperar que ambos coincidan,
y por lo tanto aparece un error de estimacin definido por la diferencia absoluta
entre ellos.
Tenemos entonces que: Error absoluto de estimacin = | y - |
Evidentemente, este error de estimacin es una medida de la precisin del
muestreo, y cuanto menor sea el error que estamos dispuestos a aceptar, mayor
ser el tamao de la muestra; hasta el punto, que si no estamos dispuestos a tolerar
ningn error, no nos quedar ms remedio, que hacer un censo de la poblacin.
El mximo error que estamos dispuestos a tolerar, lo designaremos por "", y
representa entonces, la precisin con que estamos trabajando en el muestreo.
= Error mximo tolerado = Max | y - |
Es frecuente, que en lugar de definir al error en trminos absolutos, tal como se
hizo anteriormente, se haga en trminos relativos, dividiendo al error absoluto entre
el verdadero valor del parmetro, y expresndolo en trminos porcentuales:
Error relativo en la estimacin de = %

100%

Fijar el error mximo que estamos dispuestos a tolerar, no basta para poder calcular
el tamao de la muestra, porque siendo sta aleatoria, siempre tendremos un cierto
riesgo de que este formada por elementos extremos, que nos lleven a una falsa
inferencia; es por ello, que el otro trmino que hace falta fijar, para poder definir el
tamao de la muestra, es el riesgo del muestreo, que se define como la
probabilidad de tomar una muestra que nos haga cometer un error de estimacin
mayor que el mximo tolerado; es decir:

= Riesgo del muestreo = P( | y - | > )

Figura N 6: Confianza en la estimacin de una media poblacional

Es tambin evidente, que cuanto menor sea el riesgo que estemos dispuestos a
correr, mayor ser el tamao de muestra necesario, y que en el caso =0, se
necesitar un censo, es decir: n = N.
Usualmente el riesgo se fija en 1%, 5% o 10%.
Una vez definido el error mximo tolerado, y el riesgo del muestreo, el tamao de
la muestra puede ser calculado mediante la aplicacin de la siguiente frmula:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

25

2
N z/2
2
n= 2 2
z/2 + (N 1) 2

En donde:
N = Tamao de la poblacin.
2= Varianza Poblacional.
= Mximo error absoluto tolerado.
= Riesgo del muestreo
z/2 = Abscisa que en la normal estndar deja a la derecha un rea "/2".
Con relacin a la frmula anterior, es importante hacer las siguientes
observaciones:
a) Una de las creencias ms arraigadas, es la de pensar que para un nivel de riesgo
y de error fijos, el tamao de muestra es siempre un porcentaje fijo de la poblacin.
La frmula anterior, nos muestra que esta creencia es falsa, puesto que si
graficamos la forma como varia el tamao de muestra al variar el tamao de la
poblacin, manteniendo fijos el error tolerado, y el riesgo, encontramos una curva
como la siguiente:

En esta curva podemos fcilmente ver, que el tamao de muestra no crece


linealmente con el tamao de poblacin; por el contrario, crece mucho ms
lentamente, hacindose asinttica a la recta horizontal:
=
N z2/2 2
2
z/2 2 +(N1) 2

Debido a que : lim

z2/2 2

2
2
z/2 2
2

lo que nos indica que en una poblacin infinita, no necesitamos una muestra infinita.
Es aqu donde radica la gran importancia del muestreo, puesto que cuanto mayor
es la poblacin, ms econmico es el muestreo en comparacin con el censo;
mientras que en poblaciones pequeas, es posible que la muestra represente una
proporcin muy apreciable de ella.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

26

Una consecuencia prctica de este resultado es que cuando en una poblacin no


sabemos exactamente cul es su tamao, perfectamente podemos suponer que es
infinita, y esto no ocasionara un incremento significativo en el tamao de muestra
requerido
b) La segunda observacin que es necesario plantear, con relacin a la frmula
para obtener el tamao de muestra, es la que se refiere al desconocimiento acerca
del valor de la varianza poblacional 2 ; en efecto, todos los trminos que intervienen
en la frmula : N, z/2 y son conocidos o fijados, a excepcin de 2, el cual ni se
conoce , ni se podr conocer, puesto que para calcularla, sera necesario conocer
los valores numricos de la poblacin, lo cual obviamente, dejara sin objetivos al
muestreo.
Este detalle hace que no exista una solucin matemticamente exacta para resolver
el problema del tamao de muestra, y que la solucin sugerida a continuacin, solo
nos brinde una aproximacin.
En la seccin anterior vimos la conveniencia de realizar muestras preliminares o
pilotos, para detectar de manera temprana posibles errores en el diseo de la
encuesta. Este tipo de muestras tambin pueden ser utilizadas para obtener una
estimacin preliminar de 2 , que sustituida dentro de la frmula del tamao de
muestra, dar una solucin aproximada al problema.
La estimacin preliminar de 2 a partir de la muestra piloto, puede hacerse a travs
del su varianza muestral s2, o como sugieren algunos autores, estimando
tomando la cuarta parte del rango de la muestra piloto (el rango es la diferencia

entre el mayor y el menor valor de la muestra), es decir: = 4


Sin embargo, ahora aparecen dos nuevas preguntas, que no estaban planteadas
inicialmente, que son: de qu tamao debe ser esta muestra piloto? , y
Qu garanta tenemos de que la estimacin hecha de 2, a travs de s2, o a travs
del rango de la muestra piloto, es satisfactoria?
Lamentablemente, la solucin a toda esta problemtica nos conduce a un proceso
iterativo de ensayo y error, que comienza asumiendo un tamao de muestra piloto,
que no debera exceder del 1% del tamao de la poblacin, o del 0,5% en el caso
de poblaciones grandes; una vez tomada esta primera muestra piloto, se estima el
valor de 2, y se calcula "n.
Si este valor de nsi resulta inferior al de la muestra piloto nos indica que con esta
basta, y si resulta mayor, es necesario completar la muestra, hasta que al recalcular
el valor de "n, el tamao resulte igual o menor que el tomado.
La siguiente grfica resume la metodologa a seguir:

Figura N 6: Etapas en la investigacin por muestreo

Para ms detalle sobre estas etapas, se recomienda ir a la seccin I.4

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

27

c) Una tercera observacin con relacin a la frmula del tamao de muestra, es la


que se refiere a la seleccin del "" (error mximo tolerado), el cual tiene que ser
fijado en trminos absolutos, para poder ser sustituido en la frmula.
Obviamente la fijacin de un "" inadecuado, redundar negativamente en el
tamao de muestra a tomar, puesto que si "" es muy grande entonces el muestreo
ser impreciso y la estimacin ser poco confiable, y si "" es muy pequeo,
entonces el tamao de muestra resultar gigantesco, aproximndose casi a un
censo, perdiendo as las ventajas del muestreo.
Mucho ms prudente, es fijar el error mximo tolerado en trminos relativos, es
decir como un porcentaje del parmetro a estimar; pero a la hora de sustituir dentro
de la frmula, ste debe ser absoluto, y entonces se plantea la pregunta de cmo
calcularlo, si ignoramos el verdadero valor del parmetro.
Es decir, si por ejemplo, decimos que la estimacin de la media poblacional, debe
ser con un error mximo del 5%, entonces estamos diciendo = 0,05 , pero "" lo
ignoramos, y entonces cmo lo sustituimos dentro de la frmula?
Esta situacin se resuelve, fijando el error mximo tolerado en trminos relativos, y
a la hora de tomar la muestra piloto, entonces se utiliza el valor estimado del
parmetro, que en el caso de la media poblacional sera, la media de la muestra
piloto, para calcular el error mximo tolerado, en trminos absolutos, el cual es
sustituido dentro de la frmula del tamao de muestra, a lo fines de determinar si la
muestra piloto fue insuficiente o no.
Por supuesto, que ahora se plantea un nuevo elemento en la iteracin, puesto que
cada vez se complete la muestra, se necesita recalcular el valor estimado del
parmetro, y por ende, del error mximo tolerado en trminos absolutos.
Ejemplo: En un lote de 20.000 bombillos, se quiere estimar su duracin media con
un error mximo del 1%, y un riesgo del 5%. Si una muestra piloto de 50 bombillos,
arroj una duracin media de 5.200 horas, con una desviacin tpica de 350 horas.
a) Qu tamao de muestra se necesita?
b) Si la nueva muestra anterior arroja una duracin media de 5640 horas con una
desviacin tpica de 320 horas, es suficiente con esa muestra?
c) Obtenga un intervalo del 95% de confianza, para la duracin media del lote
Solucin:
a) Tomando la informacin de la muestra piloto, tenemos que = 350 = 5200
Adems = 1% de 5200 = 52 horas, z/2= 1,96
Sustituyendo encontramos: =

20000 1,962 3502

1,962 3502 + 19999 522

= 172,54

Es decir, que se necesita una muestra de 173 bombillos.


Como la muestra piloto era de solo 50 bombillos, es necesario examinar 123
adicionales (en teora deberan ser otros 173 bombillos)
b) Con la informacin de la nueva muestra se tiene: que = 320 = 5640
Adems = 1% de 5640 = 56,40 horas, z/2= 1,96
Sustituyendo encontramos: =

20000 1,962 3202

1,962 3202 + 19999 56,402

= 122,91 < 173

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

28

Esto significa que la muestra con n= 173 es suficiente.


Si n hubiese resultado mayor que 173, en teora se debera continuar iterando,
pero en la prctica se suele detener el proceso aqu, a pesar de que la estimacin
va a resultar con un margen de error mayor que el previsto.
c) El intervalo de confianza para ser entonces
5640 1,96

320
173

173

1 20000 = 5640,00 47,48

En caso de que el parmetro a estimar, sea el total poblacional, la frmula anterior


del tamao de muestra, y los procedimientos iterativos descritos, siguen teniendo
vigencia, pero distinguiendo dos casos:
Caso 1. Si el error mximo tolerado para estimar al total poblacional esta fijado
de manera relativa, la frmula para el tamao de muestra se aplica sin
modificaciones, pues estimar al total poblacional con un determinado porcentaje de
error equivale a estimar la media poblacional con ese mismo porcentaje de error.
Caso 2. Si el error mximo tolerado para estimar al total poblacional esta fijado
de manera absoluta, la frmula para el tamao de muestra se aplica pero tomando
al error absoluto para el total poblacional dividido entre el tamao de poblacin.
Esta modificacin se debe a que en la dicha frmula para el tamao de muestra,
representa el error tolerado en la estimacin de , no en la estimacin de , y

=
Ejemplo N2: En un almacn en donde existen 5000 objetos diferentes, se quiere
estimar el valor total de ellas, con un error no mayor del 5%, y un nivel de riesgo
del 10%.
Una muestra piloto de 20 piezas seleccionadas al azar arroj los siguientes valores,
segn la opinin de un perito auditor:
134
276
784
756
503
1076
432
178
675
987
654
860
906
398
187
1655
543
765
534
610
a) Calcule el tamao de la muestra que es necesario tomar.
b) Si la muestra calculada anteriormente da una media de Bs. 685, con una
desviacin tpica de Bs. 346. Cree Ud. que la muestra tomada fue suficiente?
c) Encuentre un intervalo del 90% de confianza para el valor total de las piezas
almacenadas.
Solucin: a) En primer lugar, es necesario estimar , y para ello tenemos dos
opciones, a partir de la desviacin estndar de la muestra, o a partir de la cuarta
parte del rango.
Si lo hacemos a partir de la desviacin estndar de la muestra: = s= 359,81
Si lo hacemos a partir de la cuarta parte del rango: =

1655134
4

= 380,25

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

29

Cuanto mayor sea , mayor ser el tamao de muestra requerido, por lo tanto si
se quiere un clculo de n que evite futuras iteraciones, se deber tomar la
estimacin mayor, en este caso =380,25
Hay que calcular tambin la media de la muestra piloto = = 645,65
Adems N = 5000 = 5% de 645,55 =32,28, z/2= 1,645 para 90 % de confianza
Ntese que a pesar de que se desea estimar un total poblacional, se procede de la
misma manera como si se tratara de una media poblacional. Esto es debido a que
estimar un total poblacional con un error relativo del 5% es equivalente a estimar la
media poblacional con ese mismo error relativo

5000 1,6452 380,252

1,6452 380,252 + 4999 32,282

= 349,23 > 20 la muestra piloto fue insuficiente

b) Si tomada ahora la muestra con n= 350 objetos, se encuentra =346


= 685, se tiene entonces = 5% de 685= 34,25, y sustituyendo:

5000 1,6452 3462

1,6452 3462 + 4999 34,252

= 261,76 < 350 la muestra es suficiente

c) El intervalo del 90% de confianza para el total poblacional resulta:


5000 x 685 5000 x 1,645

346
350

350

1 5000 = 3.425.00, 00 146.696,40

III.2 Muestreo Aleatorio para proporciones y porcentajes:


En numerosas oportunidades, el parmetro que se quiere estimar, es el porcentaje
de elementos que en una poblacin determinada, poseen una cierta caracterstica
o atributo.
Este atributo puede ser cualquier cualidad que divida al universo en dos categoras,
los que lo poseen, y los que no lo poseen; como por ejemplo, un universo de piezas
que pueden ser clasificadas como buenas o defectuosas, o un universo de
consumidores que prefieren o no prefieren una cierta marca.
En tales casos, es posible aplicar el muestreo aleatorio simple, tomando por
supuesto, la muestra de la misma manera como se describi al principio, con
igualdad de chance para todas las muestras posibles.
Este caso es un caso particular del anterior por variables. En efecto, en el muestreo
por variables, la poblacin est constituida por un conjunto de valores numricos
{x1 , x2 , x3 , xN } en donde cada xi es un nmero real cualesquiera.
En el muestreo por atributos:
0 ; si el i-simo elemento de la poblacin no posee el atributo
xi
1 ; si el i-simo elemento de la poblacin posee el atributo
La nomenclatura a seguir es la siguiente:
N = Tamao de la poblacin.
= Total de elementos que en la poblacin, poseen una cierta caracterstica.

= = Proporcin de elementos con la caracterstica, en la poblacin.


N

n = Tamao de la muestra.
t = Total de elementos que en la muestra, poseen una cierta caracterstica.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

30

p = = Proporcin de elementos con la caracterstica, en la muestra.

= = Fraccin de muestreo
N

En vista de que los xi de la poblacin son ceros o unos, y los yi de la muestra


tambin, el total poblacional =

i N

x
i 1

resulta ser el nmero de unos existentes en

la poblacin, pues evidentemente una suma de ceros y unos da por resultado el


total de unos, es decir el total de elementos con el atributo en la poblacin, mientras
i n

que t = y i representa el nmero de elementos con el atributo presentes en la


i 1

muestra.
Con este simple argumento, resulta fcil caer en cuenta, que en el muestreo por
atributos, desempea el papel de , mientras que p el de
Los parmetros a estimar por muestreo, suelen ser "" y/o , siendo sus
correspondientes intervalos de confianza:
Intervalo del (1-) de confianza para ": z/2

p(1p)
n1

Intervalo del (1-) de confianza para: Nz/2

1 f

p(1p)
n1

1 f

Ejemplo: Si de un lote de 7.000 piezas, se toma una muestra aleatoria de 150


piezas, encontrndose 12 defectuosas. Halle un intervalo del 95% de confianza,
para el porcentaje de defectuosas, y para el total de defectuosas en el lote.
12
Solucin: = 150 = 0,08 N = 7000 z0,025 = 1,96 n= 150
Intervalo para ": 0.08 1,96

(0,08) (0,92)
149

150

1 7000 = 0,0800 0,0431

Es decir, que con 95% de confianza, se puede afirmar que el porcentaje de


defectuosos en el lote est entre 3,69% y 12,31%
Intervalo para :7000 (0.08) 7000 (1,96)

(0,08) (0,92)
149

150

1 7000 =

301,70
Es decir, que con 95% de confianza, se puede afirmar que el nmero
defectuosos en el lote est entre 278 y 882

580
de

Determinacin del tamao de la muestra en muestreo para proporciones y


porcentajes:

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

31

Los conceptos anteriormente definidos de error y riesgo, siguen siendo necesarios


en este tipo de muestreo, sin embargo, como este caso el parmetro a estimar es
", tenemos que:
Error de estimacin = | p - |
Error mximo tolerado = = Mxima diferencia tolerada de | p - |
Riesgo = = Probabilidad (| p - | > )

Es importante aclarar, que en este tipo de estimacin jams se trabaja con errores
relativos; siempre que se d un error, este debe interpretarse como absoluto.
As por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos que
va a obtener un candidato en unas elecciones, con un error del 1%; este 1% debe
interpretarse como la diferencia absoluta, entre la estimacin hecha, y el verdadero
porcentaje de votos a favor del candidato.
Una vez definido el error mximo tolerado y el riesgo, el tamao de la muestra
puede ser calculado mediante la aplicacin de la siguiente frmula:
2
/2
(1 )
=
2
( 1) 2 + /2
(1 )
Para poblaciones infinitas, el tamao de muestra requerido resulta ser:
2
2
/2
(1 )
/2
(1 )
= lim
=
2
2
( 1) +
2
/2 (1 )
Nuevamente aqu, se presenta la misma situacin descrita antes, ya que como el
valor de "", es desconocido, el mismo debe ser estimado a travs de una muestra
piloto, lo que conduce a un proceso iterativo, que consiste en ir completando la
muestra, hasta que al recalcular el valor de "n", se obtenga un valor igual o menor
al ya tomado.
Es importante aclarar sin embargo, que en caso de la estimacin de proporciones
y porcentajes, existe un artificio para obviar la muestra piloto, ya que
matemticamente, puede demostrarse que para un tamao de poblacin dado "N",
el valor mximo del tamao de muestra corresponde al caso =0,50, lo que da por
tamao mximo:
2
/2
=
2
4 ( 1) 2 + /2
de forma, que si el investigador, sospecha que el valor de "" est cercano al 50%,
puede tomar de una vez el mximo tamao de muestra, sin necesidad de tomar
muestra piloto.
En caso de que el investigador sospeche que el valor de "" est muy alejado del
50%, se justifica tomar las muestras piloto y el proceso iterativo, ya que tomar de
entrada la muestra mxima, puede resultar antieconmico, debido a que

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

32

posiblemente, est tomando una muestra triple o cudruple, de la que realmente


necesita.
El tamao de la muestra mxima para poblaciones infinitas es: =

2
/2

4 2

, y

representa el tamao ms desfavorable, para un error tolerado y un nivel riesgo


dado.
Otra opcin es el de establecer a criterio, o por opinin de expertos, un intervalo
donde se piense que debe estar , y sustituir dentro de la frmula aquel, que
dentro del intervalo se encuentre ms cercano a 0,5. As por ejemplo, si se piensa
que debe estar entre 20% y 35%, 0,20 0,35, entonces sustituimos dentro
de la frmula el valor de ms desfavorable, es decir =0,35; pero si se sospecha
que debe estar entre 40% y 60%, 0,40 0,60, entonces sustituimos dentro
de la frmula el valor de ms desfavorable, es decir =0,50
Resumiendo: Para calcular el tamao de muestra en el caso de proporciones y
porcentajes, se puede aplicar uno de los siguientes criterios:
1o) Criterio de la muestra mxima: Consiste en sustituir dentro de la frmula se
por 0,5, y obtener el mximo tamao de muestra requerido para el nivel de riesgo
y error permisible. Si se toma ese tamao de muestra se obtiene siempre una
solucin vlida para el problema.
2o) El criterio anterior puede resultar antieconmico cuando se sospeche que
anda muy alejado de 0,5, bien cercano a 0 o cercano a 1. En estos casos se
recomienda tomar una muestra piloto, que adems de evaluar el diseo de la
encuesta, permita obtener una estimacin preliminar de . Este procedimiento
presenta el riesgo de que puede requerir aproximaciones sucesivas, y a tener que
tomar otras muestras piloto.
3o) Otro criterio es el de establecer un intervalo donde se sospeche debe estar ,
y sustituir dentro de la frmula aquel, que dentro del intervalo se encuentre ms
cercano a 0,5. Este procedimiento permite ahorrar recursos al tomar una muestra
menor que la mxima, pero puede requerir futuras iteraciones, en caso de una
sospecha errnea acerca del intervalo seleccionado.
En caso de que el parmetro a estimar, sea el total de elementos con la
caracterstica en la poblacin , las frmulas y criterios para hallar el tamao de
muestra requerido son los mismos anteriores, pero teniendo en cuenta que el error
tolerado en la estimacin de , debe ser dividido entre "N", a fin de reducirlo, a un
error tolerado en la estimacin de ".
Ejemplo: Se quiere estimar el porcentaje de defectuosas en un lote de 50.000
piezas, con un error no mayor del 2%, y 5% de riesgo.
a) Qu tamao de muestra se necesita?, en cada uno de los siguientes casos:
a.1) El experto en calidad opina que segn su experiencia, el porcentaje de
defectuosos en estos lotes suele ser entre 3% y 6%
a.2) En una muestra piloto de 80 piezas se encontraron 10 defectuosas
a.3) Muestra mxima

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

33

b) Si en la muestra calculada en a.2, se encuentran 7% de defectuosas, determine


un intervalo del 95% de confianza, para el porcentaje de defectuosas en el lote.
Solucin:
a.1) En el caso de la opinin del experto, se toma como valor de para ser
sustituido dentro de la frmula, aquel dentro del intervalo que proporcione un mayor
tamao de muestra, que es aquel valor ms prximo a 0,5., en este caso 6% = 0,06
Se tiene entonces N= 50000, z/2 = 1,96, = 0,02 y sustituyendo:
50000 (1,96)2 (0,06)(0,94)

= (49999)(0,02)2

= 536 piezas

+(1,96)2 (0,06)(0,94)

Este clculo de n presenta el inconveniente que si al tomar la muestra, la


proporcin de defectuosos contradice la opinin del experto, y resulta superior al
6%, entonces el error de estimacin va a resultar mayor que el tolerado 0,02, y por
lo tanto la muestra de 536 ser insuficiente
a.2) La estimacin de segn la muestra piloto es
=
50000 (1,96)2 (0,125)(0,875)

= (49999)(0,02)2

+(1,96)2 (0,125)(0,875)

10

= 0,125, y sustituyendo:

80

= 1029 piezas

Este clculo de n presenta el inconveniente que si al tomar la muestra definitiva,


la proporcin de defectuosos contradice la estimacin de la muestra piloto, y resulta
superior al 12,5%, entonces el error de estimacin va a resultar mayor que el
tolerado 0,02, y por lo tanto la muestra piloto de 1029 ser insuficiente.
a.3) Para tomar la muestra mxima, basta con hacer
= 0,50 que representa el
caso ms desfavorable en cuanto a tamao de muestra necesario

2
/2

2
4 (1)2 +/2

50000 (1,96)2
= 2291 piezas
4 (49999)(0,02)2 +(1,96)2

Este clculo no puede resultar jams insuficiente, pero tiene el inconveniente en


caso de que el verdadero valor de est muy alejado del 50%, sobre estima el
tamao de muestra requerido, con el desperdicio de recurso que eso conlleva.
Como se ve, cada uno de estos tres criterios para calcular el tamao de muestra
presenta sus pros y sus contras, y la decisin de cul de ellos aplicar depender
del investigador.
b) Si la muestra de n=1029 arroja p=
= 0.07, entonces el intervalo de 95% de
confianza para es:
0.07 1,96

(0,07) (0,93)
10291

1029

1 50000 = 0,0700 0,0154 = 7,00% 1,54 %

En error de muestreo resulto ser de 1,54 % < el 2 % tolerado, debido a que en la


muestra definitiva de n= 1029, el porcentaje de defectuoso result ser menor que
en la muestra piloto. De no haber sido as, el error de muestreo hubiese resultado
mayor que el tolerado, y en consecuencia la muestra de n= 1029 hubiese sido

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

34

insuficiente, cuestin esta que no puede ocurrir si de una vez se toma la muestra
mxima.
III.3 Muestreo aleatorio simple para razones:
En algunos estudios, la poblacin est formada por un conjunto de pares
{(1 , 1 ) (2 , 2 ) ( , )}, y el parmetro poblacional que se desea estima es:
R=

Este es el caso de un estudio en donde lo que se quiere estimar es por ejemplo el


ingreso per cpita en una localidad en donde residen N familias, y la unidad de
muestreo, es decir, lo que tiene igual probabilidad de ser seleccionado en la
muestra, es la familia no la persona.
Cada familia tendr un par (X, Y), en donde:
X= Nmero de personas que componen la familia
Y = Ingreso familiar
El ingreso per cpita en esa localidad viene dado por la sumatoria de todos los
ingresos dividido entre el total de personas residentes en la localidad.
Al tomar la muestra, caern en ella n pares, y el estimador de R es:

= =

mientras que el intervalo del (1-) de confianza para R resulta ser;

r z/2

1f
x n

2
n
2 n 2
n
1 yi 2r 1 xi yi +r 1 xi

n1

En aquellos casos donde el valor de sea una porcin de " , entonces el


valor de R representa la proporcin o el porcentaje que representa Y con
relacin a X. En estos casos, tanto Y como X deben estar expresados en las
mismas unidades.
Por ejemplo, si en el par (X, Y), Y representa el gasto que una familia dedica
mensualmente para alimentacin, y X representa el ingreso mensual de esa
familia; entonces R representa la proporcin de los ingresos familiares que son
destinados para alimentacin.
Ejemplo: (Tomado del texto "Tcnicas de Muestreo" de William G. Cochran, Pag.
58) La siguiente tabla, muestra el nmero de personas (Tamao), el ingreso
semanal ($) de la familia (Ingreso), y los gastos semanales ($) de la familia en
alimentacin (y).
Una muestra aleatoria de 33 familias tomada al azar en una gran ciudad arroj:
Tamao Ingreso Alimentacin
Tamao Ingreso Alimentacin
2
62
14.3
4
83
36.0
3
62
20.8
2
85
20.6
3
87
22.7
4
73
27.7
5
65
30.5
2
66
25.9
4
58
41.2
5
58
23.3

Muestreo Aleatorio
Angel Francisco Arvelo

7
2
4
2
5
3
6
4
4
2
5
3

Pag.

92
88
79
83
62
63
62
60
75
90
75
69

28.2
24.2
30.0
24.2
44.4
13.4
19.8
29.4
27.1
22.2
37.7
22.6

Totales:

3
4
7
3
3
6
2
2
6
4
2
123

77
69
65
77
69
95
77
69
69
67
63
2394

35

39.8
16.8
37.8
34.8
28.7
63.0
19.5
21.6
18.2
20.1
20.7
907.2

A partir de la muestra, se quiere estimar con 95%, los siguientes parmetros


poblacionales:
a) el promedio de gasto semanal en alimentacin por familia,
b) el gasto semanal en alimentacin por persona
c) el porcentaje de los ingresos familiares que son destinados a alimentacin.
Solucin: El caso a) es claramente una estimacin por variables, pues cada familia
tiene un solo valor numrico asociado, mientras que los casos b) y c) son
estimaciones de razn.
Las estimaciones puntuales obtenidas para estos tres parmetros, resultan:
a)
907,2
907,20
907,20
= 33 = 27.49 $/familia, b) 1 = 123 = 7,38 $/persona, y c) 2 = 2394 = 0,3789 o
37.98% de los ingresos familiares son destinados a alimentacin.
Para obtener intervalos del 95 % de confianza, es preciso realizar los siguientes
clculos, donde x1 = Tamao, x2 = Ingreso, y= Alimentacin
2
33
2
33
2
33
2
33
=1 1 =533, =1 2 =177254, =1 = 28224, =1 1 =3595,5
2
33
=1 2 = 66678 En los tres casos, la fraccin de muestreo f se puede
despreciar, pues la poblacin se considera infinita.
Sustituyendo, se obtienen los siguientes intervalos de confianza:
=33( )2

33 2 33 2 2822433(27,49)2

a) 2 = =1 32
= =1 32
=
= 102,68 = 10,13
32
Intervalo del 95 % de confianza para el ingreso medio poblacional por familia Y:

27, 49 1, 96

10,13

= 27, 49 3, 46

33

123

b)
1 = 33 = 3,73
Intervalo del 95% de confianza para 1 =
1

7,38 1,96 3,73

33

c)
2 =

2394
33

= 72,55

1 1

28224 2(7,38)(3595,50)+(7,38) 2 (533)


331

= 7,38 1.05

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

Intervalo del 95% de confianza para 2 =


1

0,3789 1,96 72,55

33

36

1 2

28224 2(0,3789)(66678)+(0,3789) 2 (177254)


331

= 0,3789 0,0466

En conclusin, con 95% de confianza se puede afirmar que entre el 33,23% y el


42,55% de los ingresos familiares, se destinan para alimentacin
PREGUNTAS Y EJERCICIOS DE RECAPITULACION
1) Suponga que para seleccionar una muestra del universo de estudiantes en su
Facultad, se utiliza el siguiente procedimiento:
Se consigue la lista de la totalidad de asignaturas que se dictan, y de cada
asignatura se seleccionan al azar dos estudiantes.
Considera Ud. que la muestra resultante cumple con los requisitos para ser
considerada como aleatoria simple?, y en caso de que no lo sea, sugiera un
procedimiento para obtenerla.
2) Suponga que un universo est formado por las personas {, , , , } , cuyas
edades son {12,15,24,30,48} aos respectivamente, y que se va a tomar una
muestra aleatoria simple de 3 de ellos, a los fines de estimar la media poblacional.
a) Calcule el valor de y de 2, media y varianza poblacional respectivamente
b) Cuntas muestras diferentes es posible tomar?
c) Cul es la probabilidad de seleccionar cada una de estas muestras?
d) Calcule el valor de la media muestral para cada una de estas muestras
posibles
e) Halle el valor esperado de , y verifique que E ( ) = . Cmo se llama esta
propiedad?
e) Calcule ahora la varianza de la media muestral, y verifique que se satisface la
siguiente propiedad: Var ( ) =

3) En un estudio electoral, se quiere estimar el porcentaje de votos que va a


obtener un cierto candidato, en una determinada zona, en donde existen 30.000
viviendas. No se disponen datos acerca del nmero de familias extranjeras que
residen en la zona (los extranjeros no votan). A pesar de esto, se decidi tomar una
muestra aleatoria de 10 viviendas, encontrndose los siguientes resultados:
Familia N Habitantes Extranjeros
1
5
2
2
8
0
3
4
0
4
5
0
5
7
2
6
8
0
7
6
0

Nios
3
2
1
2
2
3
2

Votantes
0
6
3
3
3
5
4

Votantes a favor
0
4
0
1
1
5
1

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

37

8
7
4
3
0
0
9
4
0
2
2
2
10
5
0
1
4
2
Obtenga intervalos del 95% de confianza para cada uno de los siguientes
parmetros poblacionales:
a) Porcentaje de votos a favor del candidato, calculado sobre la base de la
poblacin votante.
b) Nmero total de habitantes en la zona.
c) Porcentaje de extranjeros en la zona, calculado sobre la base de la poblacin
adulta.
d) Porcentaje de familias nacionales en la zona, asumiendo que las familias
nacionales son aquellas en donde no reside ningn extranjero.
4) En un estudio de mercado, se quiere estimar el nmero total de personas que
trabajan en una determinada zona de la ciudad, y que no poseen vivienda propia;
a fin de decidir acerca de la factibilidad de desarrollar una zona residencial cercana.
El nmero total de trabajadores en la zona se estima en 32.000, y se quiere realizar
la estimacin con un error no mayor de 500 personas, y con 10% de riesgo.
Una muestra piloto de 200 trabajadores arroj que 125 de ellos, no posean vivienda
propia.
a) Qu tamao de muestra debe tomarse, para cumplir los requisitos
establecidos?
b) Si en la muestra calculada anteriormente, se encuentra que el 70% de los
trabajadores no poseen vivienda propia. Construya un intervalo del 90% de
confianza para la demanda que tendra este desarrollo residencial.
Solucin: a) n= 2402 b) 22.400 473
5) En una determinada zona residencial donde existen 2.000 viviendas, se quiere
estimar el total de nios en edad escolar, a fin de establecer la capacidad mnima
que ha de tener la escuela.
Una muestra piloto efectuada entre 10 viviendas, dio los siguientes resultados:
Nios en edad escolar
0 1 2 3
4
Frecuencia
2 4 2 1
1
Si se quiere que la estimacin del total de nios en edad escolar realizada a travs
de un muestreo aleatorio simple, no difiera en ms de 100 del verdadero valor, con
un 95% de probabilidad.
Cuntas viviendas deben encuestarse como mnimo?
Solucin: n= 1106
6) En una fbrica, se quiere estimar el total de piezas que se encuentran en un
almacn. Estas piezas se encuentran dentro de cajas, que contienen un nmero
aleatorio de piezas. En total hay 100 cajas en el almacn.
Se toma una muestra aleatoria de 5 cajas, y se cuenta su contenido, clasificndolas
en piezas buenas y defectuosas. Los resultados fueron:
Caja N

Muestreo Aleatorio
Angel Francisco Arvelo

Total de piezas
Piezas defectuosas

Pag.

15
2

10
3

12
1

20
3

38

18
2

a) Construya un intervalo del 95% de confianza para el total de piezas


almacenadas.
b) Construya un intervalo del 95% de confianza para el porcentaje de piezas
defectuosas.
Solucin: a) 1500 352 b) (14.67 5.24) %
EJERCICIOS ESPECIALES
7) Un investigador desea estimar la resistencia media a la compresin de un cierto
material, y para tal fin, toma dos muestras de probetas de ese material, y las
ensaya, examinando su resistencia. Los resultados obtenidos para cada muestra
fueron:
n1 = 8
y1 = 5,4 Kgs/cm2.
s1= 0,6 Kgs/cm2.
n2 = 15
y2 = 4,8 Kgs/cm2.
s2= 0,4 Kgs/cm2.
Encuentre un intervalo del 95% de confianza, de la menor amplitud posible, y que
use la informacin contenida en las dos muestras, para la resistencia media de las
probetas preparadas con ese material.
Sugerencia: Deduzca frmulas para calcular la media y la varianza de la unin de
dos muestras, en funcin de las medias y las varianzas de cada una.
8) Un fabricante de una nueva fibra sinttica, desea estimar la diferencia en
resistencia, entre su fibra con relacin a la fibra natural, con un error no mayor de
10 Kgs., y 0.05 de riesgo.
Mediante una muestra piloto, se sabe que la varianza en la resistencia de las fibras,
es de 1636 Kgs2, para la natural, y de 1892 Kgs2, para la sinttica.
a) Si se utiliza como estimador de la diferencia de resistencias, a la diferencia de
medias mustrales. Qu tamao de muestra se necesita tomar, suponiendo
tamaos iguales para cada tipo de cuerdas?
b) Si con el tamao de muestra calculado anteriormente, se obtuvo una resistencia
media de 272 Kgs., con una desviacin tpica de 38 Kgs, para la fibra natural, y de
335 Kgs., con una desviacin tpica de 45 Kgs., para la fibra sinttica. Construya un
intervalo del 95% de confianza, para el incremento de resistencia dado por la fibra
sinttica.
Solucin: a) n= 136. b) (63.00 9.90) Kgs.

IV. MUESTREO ALEATORIO ESTRATIFICADO


Cuando la poblacin es muy heterognea (Presenta una varianza grande), las
estimaciones hechas con muestreo aleatorio simple suelen ser muy imprecisas,

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

39

pues concluyen en un intervalo de confianza muy amplio, o requieren un tamao


de muestra demasiado grande, lo que ocasiona que el estudio hecho por esta
metodologa resulte extremadamente costoso. En estos casos, conviene estratificar
a la poblacin.
La estratificacin consiste en una particin del universo en subconjuntos llamados
estratos, no necesariamente de igual tamao, de manera que cada elemento del
universo pertenezca a uno y solo a un estrato, y que adems, la unin de todos
ellos resulte igual al universo.
Criterios para la estratificacin

Hay L estratos, no necesariamente de


igual tamao

Cada elemento del universo pertenece


a uno y solo a un estrato, es decir,
la interseccin entre cualquier par
de estratos debe ser vaca:

La unin de todos los estratos es igual


al Universo

1 2 =
Figura N 7: Particin del Universo en Estratos

Tericamente, la estratificacin puede ser hecha por cualquier criterio que satisfaga
los criterios antes sealados; pero en la prctica, si se quiere obtener una
estimacin precisa utilizando esta metodologa, es necesario utilizar un criterio que
proporcione estratos que sean muy homogneos, es decir que la varianza dentro
de cada uno de ellos sea muy pequea.
Metodologa de muestreo: El principio bsico que se debe respetar al tomar una
muestra estratificada, es que cada muestra dentro de un mismo estrato debe ser
aleatoria simple, es decir, que dentro de cada estrato, las muestras deben tomarse
aplicando los principios de muestreo aleatorio simple, como si cada estrato fuese
una poblacin en s misma.
Lo anterior significa que todas las muestras posibles dentro de un mismo estrato
deben tener idntica probabilidad de ser seleccionadas, pero esto no implica que
esa probabilidad sea la misma, cuando se le compara con la de otro estrato.
Para tomar la muestra estratificada es necesario entonces contar con una lista
numerada de los elementos de cada estrato, y realizar el sorteo aleatorio o la
generacin de nmeros aleatorios ya descrita anteriormente, para configurar una
muestra en cada estrato, teniendo en cuenta que el tamao de muestra, y la
fraccin de muestreo para cada estrato podr ser diferente.
Al igual que el muestreo aleatorio simple, el estratificado puede ser utilizado en el
caso de variables, o en el caso de atributos.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

40

IV.1 Muestreo estratificado para variables


En este caso, la nomenclatura a seguir es la siguiente:
L = Nmero de estratos
Ni = Tamao del estrato i, i = 1, 2,, L
N = Tamao de poblacin = i=L
i=1 Ni
Wi =

Ni

= Factor de ponderacin o Peso del estrato i

Obviamente W 1 + W 2 + ..+ W L = 1
{1 , 2 . , }= Poblacin perteneciente al estrato i
=
= =1 = Total del estrato i
i =

j=N

j=1 i xij

= Media del estrato i

Ni
Ni
Ni
(xij i )2
2i = 1
= Varianza del estrato i
Ni
= =
= =
=1 = =1 =1 = Total Poblacional

= = 1 = 1 = =1 = Media Poblacional
Lo anterior significa que la Media Poblacional es la Media Ponderada entre las
medias de los diferentes estratos segn el peso de cada uno de ellos
ni = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni
{1 , 2 . , }= Valores que cayeron en la muestra del estrato i
j=n

j=1 i yij

si2 =

= Media muestral del estrato i

ni
=n
j=1 i(yij )2
ni 1

= Varianza muestral del estrato i

Aunque los parmetros a estimar en el muestreo estratificado pueden ser muy


variados, tales como diferencia entre medias de dos estratos, o diferencia entre
totales de dos estratos, aqu nos limitaremos al caso tradicional donde se quiere
estimar la Media Poblacional , y/o el Total Poblacional ", siendo sus
correspondientes estimadores:

= =
=

=1
= N

conocida como media muestral estratificada, corresponde a la media

ponderada entre las media mustrales de cada estrato.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

41

Una vez tomada la muestra dentro de cada estrato, el intervalo de confianza para
cada uno de estos dos parmetros poblacionales resulta ser:

z/2 L1

Para :
Para :

W2i S2i
ni

W2i S2i

N
N z/2 L1

ni

(1

(1

ni
Ni

Ejemplo: Se quiere estimar la nmina de una organizacin que tiene en total 6500
empleados, pero dado que existen diferencias importantes entre sus sueldos,
segn sus responsabilidades, se decide estratificarlos en tres categoras: E1
obreros, E2 empleados administrativos y E3 personal profesional, donde caen 1000,
5000 y 500 personas respectivamente.
Se tom una muestra de 50 obreros, 100 empleados administrativos y 20
profesionales, encontrndose una media mensual de $1200, $ 1800 y $ 4000, con
desviaciones tpicas de $180, $350 y $ 250 respectivamente.
En base a esta informacin, obtenga un intervalo del 95% de confianza para la
nmina mensual.
1000
5000
500
Solucin: Los pesos de cada estrato son: W 1 =6500 , W 2 =6500 , W 3 =6500
=

1000

6500

(1200) +

5000
6500

(1800) +

500

6500

(4000) =1876,92

El intervalo del 95% para la nmina mensual " es:


10 2

( )
6500(1876,92)(6500)(1,96) 65

(180)2

50

(1

50
1000

)+

50 2
) (350)2
65

100

(1

100
5000

)+

5 2
) (250)2
65

20

(1

20
500

= 12.200.000,00 347.191,75
Criterios de estratificacin y coeficiente de variacin: No siempre el muestreo
estratificado proporciona resultados ms precisos que el aleatorio simple; depende
de la manera como se realice la estratificacin.
En efecto, si se analiza el error estndar en la estimacin de con muestreo
estratificado, encontramos que este es L1
muestreo aleatorio simple es

s
n

W2i S2i
ni

(1

) ; mientras que con

1 f

Al comparar estas dos expresiones, se puede fcilmente ver que en el muestreo


aleatorio simple, el error estndar depende de la varianza poblacional pues s 2 es
el estimador de 2, mientras que en el estratificado depende de las varianzas de
cada uno de los estratos.
Debido a que 2 es una constante propia de la poblacin, lo anterior significa que
con el muestreo aleatorio simple, el investigador no tiene ningn poder para reducir
el error estndar salvo incrementando el tamao de la muestra, mientras que con

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

42

el estratificado, si se definen los estratos de manera que su variabilidad interna


resulte muy pequea, entonces a pesar de que exista una gran variabilidad en la
poblacin, la estimacin resultar muy precisa. De hecho, si se lograra hacer una
estratificacin tan perfecta en donde todos los elementos de un mismo estrato
fuesen iguales entre si y por tanto i2 = 0 para todos los estratos, entonces el error
estndar seria 0.
Si por el contrario, la estratificacin se hace a travs de un criterio que arroje
estratos heterogneos, y por lo tanto i2 resulte muy grande para cada estrato,
entonces lo que se habr logrado es un efecto contraproducente en la estimacin,
pues el error estndar resulta quizs tan grande como el correspondiente por
muestreo aleatorio simple, a pesar del trabajo adicional que representa la
estratificacin.
Si decide estratificar el investigador se encuentra ahora con el dilema de cmo
hacerlo, pues existen varias alternativas, puede por ejemplo estratificar por
regiones, estratificar por edades, estratificar por sexo, por niveles sociales, etc.
A la hora de decidir cul criterio utilizar, debe hacerse dos preguntas bsicas:
1. Se dispone o se puede obtener un listado que permita identificar a los
elementos de cada estrato?
2. Son esos estratos as definidos lo suficientemente homogneos como para
lograr una buena precisin en la estimacin?
Si la respuesta a la primera pregunta es negativa, entonces ese criterio de
estratificacin no es factible, debido a que no se podr tomar una muestra aleatoria
simple dentro de cada estrato.
Si la respuesta es positiva, no necesariamente el criterio es adecuado, pues ahora
debe responder la segunda pregunta, y analizar si los estratos son lo
suficientemente homogneos, como para garantizar precisin.
La varianza dentro del estrato es una medida de su variabilidad, pero no basta para
medir su homogeneidad, pues se trata de una cifra dimensional cuyas unidades
son unidades cuadradas de la variable en estudio.
Una forma mucho ms efectiva para medir la homogeneidad de un estrato, es a
travs de su dispersin relativa o coeficiente de variacin, definido por:
i
C. Vi = Coeficiente de variacin del Estrato i = 100%
i

Este coeficiente tiene la ventaja de ser una cifra adimensional, libre de unidades,
que compara de manera porcentual, la magnitud de la desviacin estndar de un
estrato con su correspondiente media.
En trminos generales, podra decirse que un estrato con un coeficiente de
variacin de hasta 10% o 15%, podra considerarse bastante homogneo, y hasta
de 30% con una variabilidad aceptable.
Por supuesto, que nuevamente se presenta el ya conocido inconveniente de que ni
i , ni i son conocidos, pues al hacer la estratificacin se ignoran los parmetros
con que resultaran los diferentes estratos.
En este sentido, las muestras piloto representan una ayuda importante, pues ellas
nos pueden advertir acerca de la bondad del criterio de estratificacin utilizado.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

43

Es perfectamente posible que despus de tomada la muestra piloto, adems de


corregir posibles errores en el diseo de la encuesta, se deba revisar el criterio de
estratificacin utilizado, pues estratos que inicialmente se crean homogneos, en
realidad no lo sean, o viceversa; y por lo tanto se deban subdividir estratos, o en
otros casos fundir estratos en uno solo, segn su heterogeneidad u homogeneidad
respectivamente.
En el ejemplo anterior, el coeficiente de variacin para cada estrato resulto ser:
180
350
Obreros: 1200 100% = 15% ; Empleados: 1800 100% = 19,44%
250

Profesionales: 4000 100% = 6,25 %


Dado que el estrato de empleados es el de mayor peso, y a la vez el de mayor
variabilidad, si la muestra tomada fuese una piloto, cabra preguntarse es posible
subdividir al estrato de empleados en dos nuevos estratos segn algn otro criterio,
como su antigedad?
Tamao de muestra requerido: Los conceptos de error de estimacin, de riesgo
y de confianza se mantienen en el muestreo aleatorio estratificado, y por lo tanto,
el error absoluto en la estimacin de la media poblacional es: |
- |
Mientras que 1- = Confianza = Probabilidad (|
- | )
Sin embargo, el clculo del tamao de muestra puede complicarse por que es
necesario calcular el correspondiente para cada estrato.
Es importante aclarar que cuando se fija un mximo error tolerado para el
parmetro poblacional, este mismo mximo error tolerado no aplica para cada
estrato individualmente; en otras palabras, exigir un error mximo tolerado de por
ejemplo 2% para media poblacional no implica estimar la media de cada estrato
con ese mismo 2% de error, pues perfectamente puede suceder que un estrato
tenga un peso muy bajo dentro de la poblacin, y un error grande en la estimacin
de su media no influya de manera significativa dentro de estimacin poblacional.
Por lo anteriormente explicado, el tamao de muestra para cada estrato no puede
ser calculado a travs de las frmulas de las secciones precedentes, como si cada
estrato fuese una poblacin aislada en s misma.
La manera como la muestra se reparte entre los diferentes estratos, se denomina
la asignacin, y existen varios criterios para realizarla:
Asignacin proporcional
Asignacin de Neyman
Asignacin ptima
Aquellos lectores que deseen profundizar ms sobre este asunto deben consultar
el excelente texto: "Tcnicas de Muestreo" de William G. Cochran.
En este humilde resumen, nos vamos a limitar exclusivamente al criterio de
asignacin proporcional, que a pesar de no ser el mejor en todos los casos, resulta
ser el ms intuitivo, y sobre todo el ms fcil de defender a la hora de presentar un
estudio por muestreo.
Se dice que la asignacin es proporcional, cuando a cada estrato le corresponde la
misma porcin de muestra que lo que ese estrato representa en la poblacin.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

44

As por ejemplo, si un estrato representa el 20% de la poblacin, con asignacin


proporcional, a ese estrato le corresponde el 20% de la muestra.
En el ejemplo recin analizado sobre la nmina de la empresa, fcilmente se puede
ver que la asignacin no es proporcional.
Para una asignacin proporcional se verifica:

ni
n

Ni
N

= Wi ni = Wi n

De manera, que una vez calculado el tamao de muestra n, lo que le corresponde


a cada estrato se calcula segn su parte proporcional.
Para un error absoluto tolerado y un riesgo , el tamao total de
muestra necesario para estimar a la media poblacional , con asignacin
proporcional, puede ser calculado con la siguiente frmula:

n=

2
L1 Wi 2i
Nz/2
2
L1 Wi 2i + N 2
z/2

Al igual que en las secciones precedentes, el desconocimiento de las varianzas de


cada estrato i2 , hace que se necesiten muestras piloto, con el objeto de obtener
una estimacin preliminar de cada una de ellas, y tambin una estimacin de ,
en caso de que el error se fije de manera relativa.
Por lo general, la muestra piloto se reparte de manera proporcional, y es posible
que se deban reformular los estratos, en caso de que algunos de ellos resulten con
un coeficiente de variacin alto.
Ejemplo: Se desea estimar el consumo total de agua en una determinada zona de
la ciudad, en donde existen 200 industrias y 10.000 residencias.
Una muestra piloto entre 5 industrias dio:
Consumo (Litros)
Frecuencia

0 - 1000
1

1000-2000
1

2000-3000
2

3000-4000
1

Una muestra piloto entre 20 residencias arroj:


Consumo (Litros)
Frecuencia

0 - 500
4

500-1000
6

1000-1500
7

1500-2000
3

a) Qu tamao total de muestra se requiere, si se quiere un error relativo de


estimacin del 5 % como mximo, con un riesgo tambin del 5%?
b) Si en esa muestra se obtiene un consumo medio de 2000 litros para las
industrias, con una desviacin tpica de 1400; y de 750 litros con una desviacin
tpica de 200 litros para las residencias. Obtenga un intervalo del 95% de confianza
para el consumo total de agua.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

45

Solucin: En primer lugar, hay que calcular la media y la desviacin estndar de


cada estrato, segn lo obtenido en la muestra piloto.

y 975,00
y 2100,00
Industrias: 1
Residencias 2

s2 499,34
s1 1140,18
Al analizar el resultado de la muestra piloto, se encuentra que el coeficiente de
variacin para cada estrato es relativamente alto 54,29% para las industrias, y
51,21% para las residencias, lo que sugiere una reformulacin de los estratos, y a
preguntarnos si es posible subdividirlos, y considerar si es posible por ejemplo
distinguir varios tipos de industrias, y varios tipos de residencias, como por ejemplo,
quintas y apartamentos.
Suponiendo que decide seguir adelante con estos dos estratos, para calcular el
tamao de muestra se necesita ahora fijar el error absoluto tolerado, para lo que se
debe hacer una estimacin preliminar de , a partir de la muestra piloto:
200
10000
= 10200 (2100) + 10200 (975) = 997,06 = 5% de 997,06 = 49,85
200

y por consiguiente: n =

10000

10200 (1,96)2 (102001140,182 + 10200499,342 )


200
1140,182
10200

(1,96)2 (

10000

+ 10200499,342 )+10200(49,85)2

= 401

la cual deber ser repartida proporcionalmente entre los dos estratos


200
10000
1 = 10200 401 8 industrias; mientras que: 2 = 10200 401 393 residencias
b) Al suponer que en esa muestra se obtuvo:
y 2000
y 750
Industrias: 1
Residencias 2
s1 1400
s2 200
200
10000
=

=10200 (2000) + 10200 (750) = 774,51 litros


El intervalo del 95% de confianza para es:
774,51 1,96

200 2
) (1400)2
10200

(1

8
200

)+

10000 2
) (200)2
10200

393

(1

393
10000

)=

27,15

774,71 27,15; lo que representa un error relativo de 774,71 100% = 3,50%

La estimacin de = Consumo total de agua en la zona, es


10200 (774,71 27,15)= (7.902.042 276.930) litros en total, con 95% de
confianza
IV.2 Muestreo estratificado por atributos
Al igual que en el muestreo aleatorio simple, lo que se quiere estimar en un
muestreo por atributos es la proporcin y / o el total de elementos, que dentro de
una poblacin posee un cierto atributo, con la diferencia de ahora la poblacin va a
ser subdividida en estratos.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

46

Ya hemos visto que en este caso, la poblacin solo contiene unos y ceros, segn
el elemento posea o no posea el atributo respectivamente.
La nomenclatura a seguir es la siguiente:
L = Nmero de estratos
Ni = Tamao del estrato i, i = 1, 2,, L
N = Tamao de poblacin = i=L
i=1 Ni
Wi =

Ni

= Factor de ponderacin o Peso del estrato i

Obviamente W 1 + W 2 + ..+ W L = 1
{1 , 2 . , }= Poblacin perteneciente al estrato i = 0 o 1
=
= =1 = Total de elementos con el atributo en el estrato i
i =

j=N

j=1 i xij

Ni
Ni
=
=1 =

= Proporcin de elementos con el atributo en el estrato i

=
=
=1 =1 = Total Poblacional

= = 1 = 1 = =1 = Proporcin Poblacional
Lo anterior significa que la Proporcin Poblacional es la Media Ponderada entre las
proporciones de los diferentes estratos segn el peso de cada uno de ellos
ni = Tamao de muestra en el estrato i, i = 1, 2,, L
n = Tamao total de muestra = i=L
i=1 ni
{1 , 2 . , }= Valores que cayeron en la muestra del estrato i; = 0 o 1
j=n

pi=
fi =

j=1 i yij
ni

ni

= Proporcin muestral del estrato i

= Fraccin de muestreo en el estrato i

Los parmetros a estimar son y , cuyos estimadores son:


= pst = =1 ; =N pst = N =1 = =1

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

47

El intervalo de confianza para cada uno de ellos es:


Para : pst /2

2 (1 )

Para : N pst /2

(1 )

2 (1 )
1

(1 )

Ejemplo: En un estudio de mercado se quiere estimar la proporcin de


consumidores que prefiere una determinada marca de consumo masivo.
Se decidi estratificar por sexo, pues se piensa que existe una diferencia
significativa entre las proporciones de hombres y mujeres que prefieren dicha
marca.
Dado que el universo de consumidores es muy grande, la poblacin se puede
considerar infinita, y que est repartida por igual entre hombre y mujeres.
Una muestra aleatoria de 500 hombres y de 500 mujeres, arroj que 80 y 360
respectivamente, preferan la marca.
Obtenga un intervalo del 95% para la proporcin poblacional.
Solucin: Por tratarse de una poblacin infinita, las fracciones de muestreo fi se
pueden considerar nulas, y adems se tiene W 1=W 2= 0,50=
80
360
Para los hombres: p1 = 500 = 0,16; Para los mujeres: p2 = 500 = 0,72
En consecuencia = pst = (0,16) + (0,72) = 0,44 = 44%
El intervalo del 95% para la proporcin poblacional " es:
1 2

( )
0,44 (1,96) 2

(0,16)(10,16)
5001

1 2
2

( ) (072)(10,72)
5001

= 0.4400 0.0254 = 44.00% 2.54%

Criterios de estratificacin y coeficiente de variacin: Al igual que en el


muestreo estratificado por variables, en el caso de atributos, el investigador debe
ser muy cuidadoso al momento de definir los estratos, pues no siempre, la
estratificacin conduce a intervalos de confianza ms estrechos que los que se
obtendran por muestreo aleatorio simple.
La estratificacin debe ser hecha de manera que los estratos resultantes sean
homogneos; en el caso de variables, esta homogeneidad se mide a travs del
coeficiente de variacin, pero en el caso de atributos no es as.
En efecto, al observar el error estndar del estimador pst se observa que este es

2 (1 )
1

(1 ) el cual se ve obviamente afectado por el valor del

producto pi (1-pi) para cada estrato, y resulta ser que este producto alcanza su valor
mximo cuando pi =
De lo anterior se deduce que si la estratificacin es tal que el atributo en cuestin
divide a cada estrato en dos mitades iguales, mitad que lo tiene y mitad que no lo
tiene, entonces se habr hecho una psima estratificacin, pues el error estndar
alcanzar su valor mximo, y el intervalo de confianza resultar muy amplio.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

48

Por el contrario, cuando pi este cercano a 0 cercano a 1, en cualquiera de estos


dos casos, el producto pi (1-pi) resultara prximo a cero, y en consecuencia el error
estndar ser muy pequeo.
De all se deduce la siguiente regla para hacer la estratificacin:
Los estratos deben ser definidos de manera tal que el atributo en
cuestin sea muy raro o muy frecuente dentro de cada estrato.

Por supuesto que al hacer la estratificacin no se sabe de antemano si esta regla


se cumplir, y de all la importancia de las muestras piloto que permitan redefinir
aquellos estratos que no la cumplan.
Resulta difcil decir con exactitud cundo se puede considerar a un estrato
homogneo y cuando no; pero en trminos generales, un estrato que en la muestra
piloto tenga pi 0,10 o pi 0,90 podra decirse que es muy homogneo, mientras
que otro que resulte con 0,35 pi 0,65 es bastante heterogneo, y debera
plantearse una subdivisin en l.
Tamao de muestra requerido: Tan pronto como se tengan las estimaciones
preliminares de cada una de las proporciones de cada estrato i, mediante las
correspondientes proporciones mustrales obtenidas en la muestra piloto, y una
vez fijado el error mximo absoluto tolerado en la estimacin de , es decir
|

- | , y el riesgo = Probabilidad (|
- | > ) , el tamao de muestra de la
muestra definitiva, suponiendo asignacin proporcional puede ser calculado
mediante la expresin siguiente

En poblaciones finitas:
n=

2
L1 Wi (1 )
Nz/2
2
L1 Wi (1 ) + N 2
z/2

En poblaciones infinitas:
z2/2 L1 Wi (1 )
=
2

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

49

En caso de que el investigador considere que no es conveniente tomar una muestra


piloto para obtener una estimacin preliminar de cada uno de los i, le quedan las
siguientes dos opciones:
a) Tomar la muestra mxima dada por: =
z2/2

Nz2/2

z2/2 +4 N 2

para poblaciones

finitas, o , = 4 2 para poblaciones infinitas,


y luego repartirla
proporcionalmente dentro de los estratos.
Este procedimiento puede resultar extremadamente costoso, pues conduce a una
muestra mucho ms grande de la necesaria, ya que equivale a realizar el clculo
del tamao de muestra desde el punto de vista ms pesimista posible, que es
suponer que cada i = , lo que significa que la estratificacin ha sido muy mal
hecha.
b) Basarse en encuestas anteriores, en estudios similares o en opinin de expertos
para establecer un posible intervalo en donde se considere puede encontrarse cada
uno de los i, y tomar como valor de i para ser sustituido dentro de la frmula del
tamao de muestra, aquel valor que dentro del intervalo se encuentre ms cercano
a , o igual a si lo contiene.
Lo negativo de esta metodologa es que puede conducir a tamaos de muestra
insuficientes, debido a que el intervalo de prediccin antes sealado puede resultar
errneo.

Ejemplo: En un estudio que considera dos estratos, se quiere estimar la proporcin


"" de elementos que en la poblacin posee una cierta caracterstica.
El primer estrato representa el 75% de la poblacin, y el segundo estrato el 25%
restante. Se quiere que la estimacin de a travs de la proporcin muestral
estratificada (pst) no difiera de "", en ms de 1%, con 90% de probabilidad.
a) SI la asignacin de la muestra se va a realizar proporcionalmente. Calcule el
tamao de muestra necesario en cada estrato, sabiendo que una muestra
preliminar arroj que el 20% en el primer estrato, y el 45% en el segundo estrato,
posee la caracterstica. (Suponga que la poblacin es grande, y que por lo tanto,
se puede despreciar la fraccin de muestreo).
b) Si con el tamao de muestra calculado anteriormente, se encuentra que el 25%
en el primer estrato, y el 38% en el segundo, posee la caracterstica. Construya un
intervalo del 90% de confianza para la "Proporcin Poblacional".
Solucin: El hecho de encontrar en la muestra piloto del 2 estrato un 45% de
elementos con el atributo, sugiere que este estrato result heterogneo, y que
debera subdividirse a fin de lograr una mayor homogeneidad.
De no ser factible esta correccin, el clculo del tamao de muestra es:
=

z2/2 L1 Wi (1 )
2

(1,645)2 (0,75 (0,20)(10,20)+(0,25 (0,45)(10,45))


(0,01)2

= 4922

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

50

Al repartir proporcionalmente este tamao total de muestra, entre los dos estratos,
n 0,75(4922) 3692

se obtiene: 1

n2 0,25(4922) 1231
La estimacin puntual de es:
= pst = 0,75(0,25) + 0,25(0,38) = 0,2825
y el intervalo del 90% de confianza para :
0,2825 1,645

(0,75) 2 (0,25)(10,25)
36921

(0,25) 2 (038)(10,38)
12311

= 0,2825 0,0105 =

28,25 % 1.05 %

EJERCICIOS POPUESTOS
1) Una industria tiene dos mquinas, que trabajan en paralelo para producir un
mismo artculo.
Las caractersticas de estas mquinas son:
Mquina 1: Es una mquina moderna, cuya velocidad de produccin es el triple de
la otra, y que segn una muestra piloto, produce apenas un 1% de defectuosas.
Mquina 2: Es una mquina antigua, cuya velocidad de produccin es la tercera
parte de la otra, y que segn una muestra piloto, produce un 8% de defectuosas.
Se quiere estimar el porcentaje de piezas defectuosas dentro de la produccin total,
con un error no mayor al 0.5%, y un 5% de riesgo.
Calcule con ese tamao de muestra, se obtiene un 0.8% de defectuosas en la
mquina 1, y un 8.6 % de defectuosas en la mquina 2, establezca un intervalo del
95 % de confianza, para el porcentaje de defectuosos producidos por la industria.
2) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca
A y 20.000 de otra marca B.
Se quiere estimar la duracin media de los bombillos del lote, con un error no
mayor al 2,5% y 5% de riesgo.
Una muestra piloto de ambas marcas, arroj los siguientes resultados:
Duracin (hrs)
0 a 100
100 a 200
200 a 300
300 a 400
400 a 500
Marca A
2
8
25
31
14
Marca B
6
24
10
5
0
a) Con asignacin proporcional, calcule el tamao de muestra necesario para
cada marca
b) Suponga que con el tamao de muestra calculado en a.3, se obtienen los
siguientes resultados:
Media Muestral (hrs)
Desviacin estndar (hrs)
Marca A
320
90
Marca B
170
50
Obtenga un intervalo del 95% de confianza para la duracin media de los
bombillos del lote.

Muestreo Aleatorio
Angel Francisco Arvelo

Pag.

51

3) En una poblacin con 100.000 elementos, se quiere estimar el total


poblacional, a travs de un muestreo estratificado, que considera dos estratos que
representan el 35% y 65%.
Una muestra piloto arroj las siguientes estimaciones preliminares:
Estrato 1
Estrato 2
Media
80
220
Desviacin tpica
21
30
a) Calcule el tamao de muestra para cada estrato, utilizando asignacin
proporcional, y se quiere un error no mayor al 3%, con 5% de riesgo
b) Suponga que con los tamaos de muestra calculados, se obtiene:
Estrato 1
Estrato 2
Media
85
208
Desviacin tpica
20
25
Obtenga un intervalo del 95% de confianza para el total poblacional.

También podría gustarte