Está en la página 1de 18

IV. D ISTRIBUCIONES MUESTRALES .

IV.1. ELEMENTOS BÁSICOS DEL MUESTREO. CONCEPTOS BÁSICOS. TIPOS DE MUESTREO.

Cuando nos interesa estudiar las características de poblaciones grandes (que no sean muy
variables), se utilizan muestras representativas por muchas razones, principalmente porque
requieren menor tiempo y dinero que el estudiar a la población completa.

Cuando decimos que una muestra es representativa es porque reúne aproximadamente las
características de la población que son importantes para la investigación.

Cuando se utilizan valores muestrales, para estimar valores poblacionales, o parámetros,


pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral.

1. Error muestral se refiere a la variación natural existente entre muestras tomadas de


la misma población.
2. Errores no muestrales son errores que surgen al tomar las muestras por el mal
diseño del formulario, errores cometidos en el procesamiento de recolección, y/o
análisis de los datos por eso es que no pueden clasificarse como errores muestrales.

Los tipos más comunes de técnicas de muestreo aleatorios son:


a) El muestreo aleatorio simple,
b) El muestreo estratificado
c) El muestreo por conglomerados
d) El muestreo sistemático.

a) El muestreo aleatorio simple


Si una muestra aleatoria se elige de tal forma que todos los elementos de la población
tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple.

Un sorteo es el único método seguro de hacer equiprobables a todos los integrantes de la


población en el proceso de selección.

Hay casos especiales donde no es tan simple numerar a los integrantes de la población para
poder efectuar el sorteo, como sacar una muestra de granos de arroz de una bolsa de 50 Kg,
, en tales casos, la solución es la homogenización de la población previo a la extracción de la
muestra. Por ejemplo, si se colocan los granos de arroz en una mezcladora y se agitan el
tiempo suficiente, luego se toma la muestra en cualquier sector cuando esté bien
homogeneizada. Lo mismo al tomar muestras de agua de río. La misma idea se aplica en el
caso de extracción de sangre a pacientes para efectuar análisis clínicos. El torrente
sanguíneo la homogeniza tan bien que al puncionar en la vena se tiene una muestra
representativa del paciente. Hay casos más difíciles o imposibles de homogeneizar como
tomar una muestra representativa de tierra de un campo, o de arena en una playa. Aquí hay
que subdividir la superficie en sectores, y efectuar un sorteo para seleccionar los lugares de
extracción.

Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de
estadística de 20 alumnos. 20C5 da el número total de formas de elegir una muestra no
ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las
15,504 en trozos separados de papel. Un procedimiento más simple para elegir una muestra
aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel,
colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo.
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco práctico,
imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las
encuestas nacionales de opinión sobre productos o sobre elecciones presidenciales, sería
muy costoso o tardado.

b) Muestreo estratificado requiere de separar a la población según grupos que no se


traslapen llamados estratos, y de elegir después una muestra aleatoria simple en
cada estrato. La información de las muestras aleatorias simples de cada estrato
constituiría entonces una muestra global.

Ejemplo: Suponga que nos interesa obtener una muestra de las opiniones de los profesores
de una gran universidad. Puede ser difícil obtener una muestra con todos los profesores, así
que supongamos que elegimos una muestra aleatoria de cada departamento académico; los
estratos vendrían a ser los departamentos académicos.

c) Muestreo por conglomerados requiere de elegir una muestra aleatoria simple de


unidades heterogéneas entre sí de la población llamadas conglomerados. Cada
elemento de la población pertenece exactamente a un conglomerado, y los
elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles.

Ejemplo: Suponga que una compañía de servicio de televisión por cable está pensando en
abrir una sucursal en una ciudad grande; la compañía planea realizar un estudio para
determinar el porcentaje de familias que utilizarían sus servicios, como no es práctico
preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual
forma un conglomerado.

En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como
sea posible, a toda la población; entonces se usa una muestra aleatoria simple de
conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias,
hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por
conglomerados.
d) Muestreo sistemático es una técnica de muestreo que requiere de una selección
aleatoria inicial de observaciones seguida de otra selección de observaciones
obtenida usando algún sistema o regla.

Ejemplo: Para obtener una muestra de suscriptores telefónicos en una ciudad grande,
puede obtenerse primero una muestra aleatoria de los números de las páginas del
directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un
muestreo sistemático, también podemos escoger un nombre de la primera página del
directorio y después seleccionar cada nombre del lugar número cien a partir del ya
seleccionado. Por ejemplo, podríamos seleccionar un número al azar entre los primeros
100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del
directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente.

IV.2. CONCEPTO DE DISTRIBUCIÓN MUESTRAL.


Se le llama así a la distribución de todos los valores posibles que puede asumir una
estadística, calculados a partir de muestras del mismo tamaño, seleccionadas
aleatoriamente de la misma población.
¿Cómo calcular la muestra correcta?
El cálculo del tamaño de la muestra es uno de los aspectos a concretar en las fases previas de la investigación y determina el grado de credibilidad que
concederemos a los resultados obtenidos.
Objetivo estadístico
Estimar parámetros Comparar dos grupos
Variables de estudio

Infinita
CATEGÓRICA
Finita

Infinita
NUMÉRICA
Finita

Finita = Tamaño conocido =Nivel de confianza


Infinita= Tamaño desconocido = Potencia de prueba
(>10000) p = prevalencia de la enfermedad.
N= Tamaño de la población Es la proporción de individuos que poseen en p1 = prevalencia de la enfermedad
n= Tamaño de la muestra la población la característica de estudio. Como p2 = prevalencia de la enfermedad
α = Error tipo I es generalmente desconocido se suele S12 = Varianza del grupo 1
β = Error tipo II suponer que p=q=o.5 que es la opción más S22 = Varianza del grupo 2
segura 1= Media en el grupo 1
q = 1-p es la proporción que no poseen esa 2= Media en el grupo 2
característica
S2 = Varianza
d = precisión
Los valores Z más utilizados y sus niveles de confianza son:

Valor de Z 1.15 1.28 1.44 1.65 1.96 2 2.58


Niel de confianza 75% 80% 85% 90% 95% 95.5% 99%
Variable categórica, sin marco muestral

Calcula el tamaño de la muestra para evaluar la Prevalencia de diabetes en adultos. La Paz 2009

n= Tamaño de la muestra n= ¿?
p = prevalencia de la enfermedad p = 0.15
q = 1-p q = 1 – 0.15 = 0.85
d = precisión d = 0.05
α= Nivel de significancia α= 5%
1-α= Nivel de confianza 1-α= 95%
=Valor tipificado =1.96

Por lo tanto; requerimos como mínimo 196 adultos para obtener un nivel de confianza del 95%, con una
precisión del 0.05.

 EL cálculo del tamaño muestral nos muestra el mínimo del que se necesita, mientras mas mejor.

Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de obesidad?

Confianza = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%; si no
tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño
muestral:

Ejemplo: En el proyecto de Al Haouz en Marruecos, se ha calculado que cerca del 30% (0,3) de los niños de
la zona del proyecto padecen de malnutrición crónica. Este dato se basa en estadísticas nacionales sobre
malnutrición en las zonas rurales. Utilizando los valores estándar indicados supra se efectúa el cálculo
siguiente:
Cálculo:

=
Basado en una variable categórica con marco muestral conocido

Ejemplo de Cuantos alumnos necesitamos para calcular la prevalencia de Tiña pedís en alumnos de la Universidad
Mundial 2009, cuando en ese año se matricularon 1658 alumnos

n= Tamaño de la muestra n= ¿?
N = Tamaño de la población N= 1658
p = prevalencia de la enfermedad p = 0.3
q = 1-p q = 1 – 0.3 = 0.7
d = precisión o error d = 0.05
α= Nivel de significancia α= 5%
1-α= Nivel de confianza 1-α= 1- 0.05 = 95%
=Valor tipificado =1.96

= 270.26 = 271

Por lo tanto; requerimos como mínimo 271 alumnos para un nivel de significancia del 95 %, con una precisión 0.05.

Ejemplo 2: para realizar una encuesta de satisfacción a clientes de un determinado modelo


de coche del que hemos vendido 10.000 unidades (N), en la que queremos una confianza del
95,5% que determina que Z=2, deseamos un error muestral del 5% (d) y consideramos que
estarán satisfechos el 50% (p=q=0.5)

= = 385

Necesitaríamos una muestra de 385 clientes

Ejemplo 2: contrastar el porcentaje de personas de un país que ven un determinado programa de


televisión. Si la población del país es de 40 millones de personas, estimamos que lo ve el 20% de la
población (p=0.2 y q=0.8), queremos una confianza del 95,5% que determina que Z=2 y estamos dispuestos
a asumir un error muestral del 5% (e) necesitaríamos una muestra de 256 personas.

= 256
Basado en una variable numérica con marco muestral conocido

Ejemplo Valor de la Presión Arterial Sistólica (mmHg) en alumnos de la carrera de nutrición- 2009

Cuando en ese año se matricularon 658 alumnos.

n= Tamaño de la muestra n= ¿?
N = Tamaño de la población N= 658
S = Desviación estándar S = 2 mmHg
S2= Varianza S2 = 4
d = precisión d = 0.1 mmHg
α= Nivel de significancia α= 5%
1-α= Nivel de confianza 1-α= 1- 0.05 = 95%
=Valor tipificado =1.96

Por lo tanto; requerimos como mínimo 461 alumnos para un nivel de confianza del 95%, con una recisión
de 0.1 mmHG

Nuestra muestra es muy grande porque q nuestra precisión es muy grande de 0.1 mmHg.
Basado en una variable numérica con marco muestral desconocido

Ejemplo Valor de la hemoglobina en gestantes a nivel del mar- 2009

n= Tamaño de la muestra n= ¿?
S = Desviación estándar S = 1 mg%
S2= Varianza S2 = 1
d = precisión d = 0.1 mg%
α= Nivel de significancia α= 5%
1-α= Nivel de confianza 1-α= 1- 0.05 = 95%
=Valor tipificado =1.96

Por lo tanto; requerimos como mínimo 385 gestantes para un niel de confianza del 95%, con una precisión
de 0.1mg%

Por lo tanto; requerimos como mínimo 461 alumnos para un nivel de confianza del 95%, con una recisión
de 0.1 mmHG

Nuestra muestra es muy grande porque q nuestra precisión es muy grande de 0.1 mmHg
Comparación de los grupos cuando la variable es categórica.

Ejemplo. Comparar la prevalencia de migraña en estudiantes de odontología y medicina

n= Tamaño de la muestra n= ¿?
α= Error tipo I α= 5%
1-α= Nivel de confianza 1-α= 95%
=Valor tipificado =1.96
β = Error tipo II β = 20%
1-β = Poder estadístico 1-β = 80%
= Valor tipificado
p1 = prevalencia de la migraña en estudiantes de medicina p1 = 0.3
P2 = prevalencia de la migraña en estudiantes de odontología p2= 0.2
P promedio=

= 292.82 = 293

Tamaño exacto

Por lo tanto requerimos 293 estudiantes de medicina y 293 estudiantes de odontología


Comparación de los grupos cuando la variable es categórica.

Ejemplo. Comparar la talla al nacer en la ciudad de La Paz y Constitución.

n= Tamaño de la muestra n= ¿?
α= Error tipo I α= 5%
1-α= Nivel de confianza 1-α= 95%
=Valor tipificado =1.96
β = Error tipo II β = 20%
1-β = Poder estadístico 1-β = 80%
= Valor tipificado
S1 = Desviación estándar del grupo 1 S1 = 10
S2 = Desviación estándar del grupo 2 S2= S1
X1- X2 = Diferencia propuesta (decimos que la talla al nacer es X1- X2= 4
4 cm mayor en la Cd de la Paz que en Constitución)

= 98.11 = 99

3.84

Tamaño exacto

Por lo tanto requerimos 99 recién nacido en la Cd de La Paz y 99 de Constitución


IV.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL.
Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que
obtengamos de una muestra.

Imagina que de la población formada por todos los alumnos de la universidad, extraes
aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que
la edad media obtenida es de 20,8 años. Pero, ¿qué ocurriría, si extrajéramos otra muestra?
¿Coincidirían las medias? ¿Y coincidirían con la media de la población? Lo cierto es que
parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante
próximas. Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las
muestras que elegimos?

Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras
que repetidamente se extraigan. Lo siguiente, responde claramente a las preguntas
planteadas.

a) Distribución muestral de medias

Supongamos que se han seleccionado muestras aleatorias de tamaño 20 en una


población grande. Se calcula la media (x) para cada muestra; la colección de todas estas
medias muestrales recibe el nombre de distribución muestral de medias.

b) Teorema central del límite

Imagina que tienes una población con media m y desviación típica σ. y que extraes
aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si obtuvieras las
medias de todas estas muestras, y las consideras una distribución de datos (la
distribución muestral de medias), comprobarías que: La media de los datos, es la media
de la población, es decir la media de las medias de las muestras, es igual que la media de
la población.
Considere una población de tamaño N=5, la cual se compone de las edades de 5 niños que
son pacientes externos de una clínica de salud y cuyas edades son las siguientes:
x1=6 x2=8 x3=10 x4=12 x5=14

Media Poblacional

Varianza poblacional

Todas las combinaciones posibles de muestra tamaño n=2


6,6 6,8 6,10 6,12 6,14
(6) (7) (8) (9) (10)
8,6 8,8 8,10 8,12 8,14
(7) (8) (9) (10) (11)
10,6 10,8 10,10 10,12 10,14
(8) (9) (10) (11) (12)
12,6 12,8 12,10 12,12 12,14
(9) (10) (11) (12) (13)
14,6 14,8 14,10 14,12 14,14
(10) (11) (12) (13) (14)

Distribución muestral de medias


Frecuencia
6 1
7 2
8 3
9 4
10 5
11 4
12 3
13 2
14 1
TOTAL 25

MEDIA MUESTRAL

VARIANZA MUESTRAL

También podemos ver que la varianza de la distribución muestral no es igual a la varianza de la población. Sin embargo, es
interesante observar que la varianza de la distribución muestral es igual a la varianza de la población dividida entre el tamaño de

la muestra utilizada para obtener la distribución muestral. Esto es:


Se eligen muestras ordenadas de tamaño 2 (n=2), de la población de valores 0, 2, 4 y 6 (N=4)

Encontrar:

, la media poblacional.

σ , la varianza poblacional

μ , la media de la distribución muestral de medias.

σ , la varianza de la distribución muestral de medias.

Solución:

Media Poblacional

Varianza poblacional

Distribución de
n=2
frecuencias de x
(0,0) 0 f
(0,2) 1 0 1
(0,4) 2 1 2
(0,6) 3 2 3
(2,0) 1 3 4
(2,2) 2 4 3
(2,4) 3 5 2
(2,6) 4 6 1
(4,0) 2
(4,2) 3
(4,4) 4
(4,6) 5
(6,0) 3
(6,2) 4
(6,4) 5
(6,6) 6
Gráfica de frecuencias para las medias de las
muestras
5
4
Frecuencias

3
2
1 f
0
0 1 2 3 4 5 6
Medias muestrales
IV.5. DISTRIBUCIÓN DE PROPORCIONES MUESTRALES.

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos
investigar la proporción de una característica de interés en la muestra. La distribución muestral de
proporciones es la adecuada para dar respuesta a estas situaciones.

Proporción (p) en donde “ ” es el número de é itos u observaciones de interés y “n” el tamaño de la


muestra).

q= es el complemento de p. q= 1-p

Valor de Z 1.15 1.28 1.44 1.65 1.96 2 2.58


Nivel de confianza 75% 80% 85% 90% 95% 95.5% 99%

Ejemplo

En un estudio de 300 accidentes de automóvil en la ciudad de La Paz, 60 tuvieron consecuencias fatales.


Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de
todos los accidentes automovilísticos que en esta ciudad tienen consecuencias fatales.

p= 60/300 = 0.20

Z(0.90) = 1.65

0.162<P<0.238 = entre el 16.2 y 23.8%


2.- Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para
evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar
todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15
que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
reproductores de discos compactos de la población que no pasan todas las pruebas.

Solución:

n=500 p = 15/500 = 0.03 z(0.90) = 1.65

2.37 <P<37.6 %

Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la prueba
en esa población está entre 2.37 <P<37.6 %
Estimación de la Diferencia de dos Proporciones

Ejemplo:

1.- Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes
entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban:

Usuaria No Usuaria
Tamaño Muestral 1246 11178
Número de disfunciones 42 294
Proporción muestral =0.0337 0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.

Solución:

Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman
marihuana y definamos P2, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58.

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa.

2.- Se considera cierto cambio en un proceso de fabricación de componentes. Se toman muestras del
procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se
encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del
procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real
en la fracción de defectuosos entre el proceso actual y el nuevo.

Solución:

Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De
aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. El valor de z para un nivel de confianza del 90% es de 1.65.

-0.0017<P1-P2<0.0217 = -0.17<P1-P2<2.17%

No hay razón para creer que el nuevo procedimiento producirá una disminución significativa en la
proporción de artículos defectuosos comparada con el método existente.

También podría gustarte