Está en la página 1de 35

2020

Introducción a la Estadística

UNIDAD 5: DISTRIBUCIONES MUESTRALES


Extractado de: Colección Métodos Estadísticos I. Nº7 . Ruggieri, Arnesi (UNR Editora)

1
7.1 Introducción

En este capítulo la discusión se centrará sobre la inferencia estadística, proceso que usa la
información proveniente de la muestra para generalizar y tomar decisiones a cerca de toda la
población. Como vimos en el Capítulo 2, el valor del parámetro es fijo y generalmente desconocido,
mientras que el valor de una estadística, se calcula a partir de una muestra, con lo cual podría variar
de una muestra en otra. Una vez tomada la muestra el valor es conocido.
Sería beneficioso si, de alguna manera, pudiéramos medir la precisión de este proceso, si pudiéramos
decir si el valor de la estadística que tomamos va a estar cerca del valor del parámetro
correspondiente. Es aquí donde la técnica de muestreo utilizada para seleccionar la muestra, y el
tamaño de la muestra, juegan un papel fundamental. Una muestra estadística tomada de un MSA
tiene un modelo predecible de variación el cual nos permite informar sobre cuán cerca se espera que
esté una muestra estadística del verdadero parámetro, en promedio. Para llevar estas ideas a un
nivel más práctico, considere el siguiente ejemplo.

_________________________________________________________________
EJEMPLO 7.1 – PREPARÁNDOSE PARA UN EMPLEO

Muchos de nosotros enfrentamos el hecho, en algún momento de nuestras vidas, de tener que
encontrar un empleo. La mayoría de las personas deciden estudiar para que esto los ayude a
encontrar un trabajo. ¿Ha incrementado en los últimos años el nivel de experiencia que se necesita
en un lugar de trabajo?
De acuerdo a un ensayo en el que se entrevistó a 3.000 empleadores de toda la nación, con más de
20 trabajadores, incluyendo oficinas, fábricas y empresas constructoras, la respuesta es sí. El 57% de
los empleadores dijo que los conocimientos requeridos para trabajar en sus empresas, ha
aumentado en los últimos tres años. Fuente: National Survey Shows a Rift Between Schools and
Business, The New York Times, Febrero 20, 20XX.

El valor 57%, o una proporción de 0,57, es una estadística debido a que fue tomada de una muestra
de 3.000 empleadores. Imagine que este proceso se repita muchas veces ‐el proceso consiste en
tomar una muestra de 3.000 empleadores y calcular la proporción de empleadores que están de
acuerdo con que los conocimientos requeridos para trabajar en sus empresas han aumentado en los
últimos tres años. Si repetimos este proceso muchas veces obtendríamos muchas proporciones, no
todas iguales a 0,57, con algunos valores repetidos más a menudo que otros. ¿Qué valores para una
muestra de proporciones serían posibles? ¿Podría una proporción de 0 ser posible, y qué pasa con
una proporción igual a 1? ¿Se puede pensar en que alguna de las proporciones sea mayor que 0,75?

¿Cuán buena es la proporción, basada en una muestra de 3.000 empleadores, al estimar la verdadera
proporción de empleadores con niveles de conocimiento necesarios en aumento?
¿Sabe usted si esta proporción de 0,57 está cerca de la verdadera proporción? Si este valor de 0,57
no fuera la verdadera proporción, ¿por qué cree que estos resultados igualmente fueron informados
y se sacaron conclusiones de ellos?
__________________________________________________________________________________

2
PROPORCIÓN DE MUJERES

Consideremos una población en la cual el 50% son mujeres, esto es un valor de p igual a 0,50.
Tomamos una msa de tamaño n=4 personas de esta población y observamos la proporción de
mujeres en la muestra.

Como analizamos en el Capítulo 6, existen muchas maneras de simular el resultado de un


experimento aleatorio. Podemos lanzar 4 monedas legales para simular la técnica de muestreo. El
resultado de lanzar una moneda correspondería a un género determinado, pudiéndose tomar cara
en representación de una mujer y cruz en representación de un hombre. Podríamos usar una tabla
de números aleatorios, con los dígitos 0, 2, 4, 6, 8 representando a una mujer y los otros dígitos
representando a un hombre. Tendríamos que elegir un punto de partida en la tabla y leer 4 dígitos
sucesivos para representar una msa de tamaño n = 4.

Usaremos la computadora para generar aleatoriamente el género de los individuos seleccionados de


esta población. Todo lo que necesitamos son dos valores distintos para representar los dos géneros
posibles. Uno de los métodos de codificación más comunes para el caso de dos resultados posibles
es usar los valores 0 y 1.

Tomemos el valor “0” para representar a un hombre y el valor “1” para representar a una mujer.

Primero elegiremos una semilla, sea 2091 en R: set.seed(2091) , y luego vamos a generar una lista
“aleatoria” de ceros y unos, donde cada valor es igualmente probable. Esto lo podemos lograr a
través de una lista de enteros aleatorios entre 0 y 1. En R: sample(c(0,1),4,replace=T)

Usando una semilla de 2091, los primeros cuatro valores generados, al presionar ENTER son:

1 0 1 1

¿Cuántas mujeres se han obtenido? 3

¿Cuál es la proporción de mujeres en la muestra? 3/4 = 0,75

Continuamos presionando ENTER, para simular un total de 50 ensayos o repeticiones de este


procedimiento de muestreo. Por ejemplo, los resultados de los dos próximos ensayos en:

1 0 1 0 para un total de 2 mujeres, y una proporción muestral de 0,50.

Los resultados de los 50 ensayos realizados con una calculadora TI han sido tabulados y resumidos en
la siguiente tabla.

Nota: Si se usa otro generador aleatorio las muestras resultarán diferentes

3
NÚMERO PROPORCIÓN PROPORCIÓN DE
DE MUJERES MUESTRAL CONTADOR FRECUENCIA TODAS LAS
MUESTRAS
0 0,00 //// 4 4/50 = 0,08

1 0,25 //// //// //// 16 16/50 = 0,32


/
2 0,50 //// //// //// 16 16/50 = 0,32
/
3 0,75 //// //// 10 10/50 = 0,20

4 1,00 //// 4 4/50 = 0,08

TOTAL _______ ___________ 50 50/50 = 1,00

Basándonos en esta simulación ...

a) ¿Cuál es la proporción más probable en la muestra? 0,25 y 0,50

b) ¿Qué porcentaje de veces obtuvimos ...

... 0 mujeres, para una proporción muestral de 0,00? 8%

... 1 mujer, para una proporción muestral de 0,25? 32%

... 2 mujeres, para una proporción muestral de 0,50? 32%

... 3 mujeres, para una proporción muestral de 0,75? 20%

... 4 mujeres, para una proporción muestral de 1,00? 8%

c) Comentemos sobre todos los aspectos de esta distribución muestral empírica:

Las cuentas de la tabla anterior nos dan una rápida visión de esta distribución muestral empírica.
Tenemos que las proporciones muestrales variaron entre 0 y 1, mientras que la mayoría fluctúan y
están centradas alrededor de 0,50. En efecto, el 84% estima a 0,25; 0,50; o 0,75, y solamente el 16%
de las estimaciones fueron tan malas como los extremos 0,00 y 1,00.
Veremos que la distribución de p̂ es unimodal, centrada en 0,50 aproximadamente y tiene forma
de montículo.
Para tratar de responder a algunas de las preguntas que planteamos para el ejemplo anterior,
deberíamos repetir el proceso de estimación una y otra vez y observar la variabilidad de los valores
de la estadística muestral computada de las distintas muestras. Deberíamos tratar de describir este
grupo de valores de la estadística través de varios resúmenes numéricos y gráficos y a través del uso
de un modelo estadístico el cual resuma a la distribución de los posibles valores de la estadística.

La distribución muestral de una estadística es la distribución de los valores de la estadística en todas


las posibles muestras de igual tamaño n provenientes de una misma población.

4
Con tal modelo en mano, podríamos tener una idea de la precisión del proceso de estimación y cuán
buena es la predicción del valor del parámetro poblacional.
El objetivo de este capítulo es estudiar la distribución muestral de dos estadísticas, la proporción
muestral y la media muestral. Observaremos cómo estas estadísticas varían en repetidas MSA. Es la
aleatoriedad en el proceso de muestreo, la que produce las distribuciones muestrales presentadas en
este capítulo. Vamos a estudiar la distribución muestral de una estadística para varios tamaños de
muestras y para varios valores del parámetro. Comenzamos con la distribución muestral de la
proporción muestral.( p̂ )

7.2 DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN MUESTRAL

PROPORCIÓN DE MUJERES

Estamos interesados en la proporción de mujeres de nuestra población. Por lo tanto nuestro


parámetro de interés es p = proporción de mujeres en la población, que viene dado por:

número de mujeres en la población


p
tamaño de la población
Debido a que la población en estudio es demasiado grande y es muy costoso observar todos los
elementos de la misma, decidimos estimar el verdadero valor poblacional tomando una muestra.
La proporción muestral se define como:

número de mujeres en la muestra


pˆ 
tamaño de la muestra

y se lee “p‐sombrero”.
Supongamos por un momento que sabemos que el 50% de nuestra población son mujeres, a pesar
de que en general esto no lo conocemos. Si tomáramos una msa de tamaño 20 de esta población ,
podríamos tener 8 mujeres. Luego nuestra proporción muestral de mujeres sería

p̂ = 8/20 = 0,4.

Este es el valor de nuestra estadística muestral. Si tuviéramos que hacer esto otra vez, elegiríamos
otra muestra , y lo más probable es obtener otro valor de p̂ . Las siguientes actividades nos
enseñarán sobre la distribución muestral de una proporción muestral y sus utilidades.

Primero debemos tener en cuenta que la mayoría de las actividades se basarán en simular procesos
de estimación y examinar muchas de las posibles muestras, y no en examinar absolutamente todas
las posibles muestras del mismo tamaño provenientes de una misma población. La distribución
resultante de estas simulaciones se refiere a la distribución muestral empírica. Estas simulaciones
nos ayudarán a entender mejor los resultados teóricos que se presentarán más adelante.

Ahora es tu turno. Trabaja con un compañero. Uno de ustedes elige una semilla (202) y genera la lista
aleatoria de ceros y unos leyendo de grupos de a 4 cada vez. El otro puede tabular los resultados en
la siguiente tabla. Continúen hasta que hayan simulado un total de 50 ensayos de este proceso de
estimación.

5
RESUELVE 7.1!!!!

NUMERO DE PROPORCION PROPORCION DE TODOS LOS


MUJERES MUESTRAL CONTADOR FRECUENCIA ENSAYOS

0 0,00

1 0,25

2 0,50

3 0,75

4 1,00

TOTAL _______ ___________ 50 50/50 = 1,00

a) ¿Cuál fue la proporción más probable de mujeres? _________________


b) ¿Qué porcentaje de veces obtuvieron ...
... 0 mujeres, para una proporción de 0,00? _______________
... 1 mujer, para una proporción de 0,25? _______________
... 2 mujeres, para una proporción de 0,50? _______________
... 3 mujeres, para una proporción de 0,75? _______________
... 4 mujeres, para una proporción de 1,00? _______________
c) Comenten sobre los distintos aspectos de su distribución muestral empírica:
d) Fueron sus resultados exactamente iguales a los 50 ensayos simulados anteriormente?
¿En qué aspectos fueron similares?
Combinen sus frecuencias con aquellas de uno o más grupos de su clase y grafiquen el histograma de
frecuencias usando R.

RESUELVE! 7.2 – PROPORCIÓN DE MUJERES‐ MAYOR TAMAÑO DE MUESTRA

¿Qué sucedería si en vez de tomar una msa de tamaño n=4 tomamos una muestra de n=20 personas
en forma aleatoria?
Seguiremos considerando que el 50% de la población son mujeres. Repita los pasos del ejercicio 7.1
pero tomando una msa de tamaño n=20 personas y observe el número de mujeres en la muestra.
Como antes, tomaremos “0” = hombre, y “1” = mujer

6
Seleccione una semilla para generar una larga lista de ceros y unos. Una persona usará R para
generar un grupo de 20 valores.

NÚMERO DE PROPORCIÓN PROPORCIÓN DE


MUJERES MUESTRAL CONTEO FRECUENCIA TODOS LOS
ENSAYOS
0 0,00
1 0,05
2 0,10
3 0,15
4 0,20
5 0,25
6 0,30
7 0,35
8 0,40
9 0,45
10 0,50
11 0,55
12 0,60
13 0,65
14 0,70
15 0,75
16 0,80
17 0,85
18 0,90
19 0,95
20 1,00
TOTAL __________ ____________ 50 1,00

a) ¿Cuál fue la proporción de mujeres más probable? _______________


b) ¿Qué porcentaje de veces obtuvo:
... 0 mujeres? __________ ... 10 mujeres? __________ ... 20 mujeres? __________
c) Comente sobre los distintos aspectos de esta distribución muestral empírica :
¿Cómo se compara con la distribución muestral empírica con n=4, en términos de centro,
variabilidad y forma?
d) Combine sus frecuencias con las de uno o más grupos de su clase y grafique el histograma de
frecuencias en los eje aquí dados. Compare este bosquejo con el bosquejo de n=4 de las páginas
anteriores y comente.

7.3 Sesgo y variabilidad

En los ejercicios de Resuelve! anteriores, vimos que los valores de las proporciones muestrales p̂
varían de muestra a muestra en una forma predecible. La distribución muestral empírica de los
valores de p̂ tiene, aproximadamente, una distribución en forma de campana, centrada alrededor
de la verdadera proporción poblacional p = 0,50, y con un tamaño de muestra grande podríamos
estar aún más seguros que la estadística muestral p̂ estará cerca de la verdadera proporción p.

7
En estos ejercicios conocíamos algo que en general es desconocido ‐conocíamos el valor de la
verdadera proporción poblacional p igual a 0,50‐

Pero aún si no conocemos el valor de p, estas propiedades de la distribución muestral de p̂ se


mantienen. A pesar de que nunca podemos garantizar que el valor de una proporción muestral p̂ en
particular tomado de una MSA está cerca de la proporción poblacional, podemos estar seguros en
usar la proporción muestral p̂ como estimación para p porque en la mayoría de los casos la MSA
dará una estimación cercana a p, especialmente si el tamaño de muestra es grande.

Cuando estudiamos y describimos la distribución de una variable, como por ejemplo altura, en los
Capítulos 3 a 5, a menudo comentamos dónde estaban centrados los valores, cuánto variaban los
valores, y sobre toda la forma de la distribución. Hacemos lo mismo aquí para la distribución de una
estadística. En el contexto de describir la distribución muestral de una estadística, usamos los
términos sesgo y variabilidad o precisión.

Una estadística es insesgada si el centro de su distribución muestral es igual al valor del parámetro
poblacional correspondiente.

La variabilidad de una estadística corresponde a la dispersión de su distribución muestral. La


distribución de una estadística que muestra valores muy alejados se dice que carece de precisión.

Las siguientes gráficas muestran algunas posibles combinaciones de sesgo y variabilidad para una
estadística. Para las Estadísticas A y B, el centro de la distribución muestral está centrado en el
verdadero valor del parámetro, ambas son insesgadas. Sin embargo ellas difieren con respecto a la
precisión. A pesar de que ni la Estadística A ni la B pueden garantizar proveernos una estimación
exactamente igual o muy cercana al verdadero valor del parámetro, los posibles valores de la
Estadística A están muchos más cercanos al verdadero valor del parámetro, comparados con aquellos
de la Estadística B.
Para las Estadísticas C y D, la distribución muestral no está centrada en el verdadero valor del
parámetro. La Estadística C subestima consistentemente al verdadero valor del parámetro. Por otro
lado, la Estadística D tiende a sobrestimar al verdadero valor del parámetro. Ambas Estadísticas C y D
son estimadores sesgados del parámetro. A pesar de que la Estadística C es sesgada, tiene alta
precisión. La Estadística D presenta ambas cosas sesgo y baja precisión, en términos de la estimación
del parámetro.

8
Esta estadística muestra poco (en realidad nada) de sesgo Esta estadística muestra poco (en realidad nada) de
y poca variabilidad, es un ejemplo de alta precisión. sesgo y alta variabilidad, es un ejemplo de baja
precisión.

Esta estadística muestra un gran sesgo y baja Esta estadística muestra un gran sesgo y alta
variabilidad. variabilidad

Idealmente, nosotros buscamos un estimador que tenga poco sesgo y poca variabilidad. Un método
que hemos visto para reducir la variabilidad es tomar muestras más grandes. Existe aún un aspecto
más de la variabilidad de una muestra estadística para tener en cuenta.

La variabilidad de la distribución muestral no depende del tamaño de la población, siendo el tamaño


de la población mucho más grande que el de la muestra, pudiendo ser hasta 100 veces más grande.
Esta característica es explicada a través del siguiente ejemplo que consiste en seleccionar una pieza
de tela como muestra.

PENSEMOS ‐TOMANDO MUESTRAS DE TELA


Suponga que ha encontrado una tela con un modelo escrito y desea tomar una pieza, un pedazo, de
ella para llevárselo y mostrárselo a su compañero de habitación. ¿Qué largo debe tener la pieza? Si el
tamaño de la pieza, el tamaño de
muestra, es demasiado pequeño, su
compañero no podrá “ver” el modelo.
Necesita seleccionar una pieza, una
muestra, con un largo suficiente que
contenga al modelo en la tela. Una vez
que haya decidido cuán grande debe
ser la pieza de muestra, luego no
interesa si ésta ha sido tomada de un
gran rollo de tela, de una gran
población, o de un rollo más pequeño,
de una población más pequeña. Vemos
ésto en los bosquejos de la derecha.

9
____________________________________________________________________________________

RESUELVE! 7.3 – Tres estimadores

Los siguientes histogramas muestran las distribuciones maestrales de tres estimadores. El verdadero
parámetro poblacional es 8.

a) ¿Qué estimador(es) es /son insesgados?


Marque su(s) respuesta(s) I II III
Explique
………………………………………………………………………………………………………………………………….
…………………………………………………………………………………………………………………………………..
b) Considerando que las escalas de las tres distribuciones maestrales son iguales,
¿es el Estimador III más preciso que el Estimador I?
Marque su respuesta Sí No
Explique
……………………………………………………………………………………………………………………………….
……………………………………………………………………………………………………………………………….
________________________________________________________________________________
RESUELVE! 7.4 –Distribuciones muestrales. Sesgo y variablidad

Ya hemos estudiado el proceso de estimar p, la verdadera proporción de elementos en una población


que tiene cierta característica, lo hicimos tomando una MSA de una población y calculando la
proporción en la muestra la cual tiene esa característica de interés, la estadística muestral p̂ . El
valor de p̂ depende de la muestra seleccionada. Ya hemos discutido que el tamaño de la muestra
tiene un papel fundamental en la precisión de la estadística. ¿Influye también, en la distribución
muestral, el valor de la verdadera proporción p?. En este ejercicio generaremos la distribución
empírica de p̂ bajo varios escenarios, compare los resultados y saque conclusiones. Generar
distribuciones maestrales puede ser una tarea tediosa para una sola persona, sin embargo si cada
alumno de la clase participa y hace una pequeña parte, podemos obtener una imagen bastante
precisa de los resultados que esperaríamos en general.

10
Paso 1: Dividan la clase en 5 grupos, aproximadamente de igual tamaño.

Paso 2: Asignen uno de los siguientes escenarios a cada grupo. Cada grupo vuelca los resultados
sobre un mismo gráfico.

Escenario 1: Asumimos que la proporción poblacional p=0.1,


tamaño de la muestra n=50, marcador de color negro.

Escenario 2: Asumimos que la proporción poblacional p=0.3,


tamaño de la muestra n=50, marcador de color lila.

Escenario 3: Asumimos que la proporción poblacional p=0.7,


tamaño de la muestra n=50, marcador de color azul.

Escenario 4: Asumimos que la proporción poblacional p=0.5,


tamaño de la muestra n=50, marcador de color verde.

Escenario 5: Asumimos que la proporción poblacional p=0.5,


tamaño de la muestra n=100, marcador de color rojo.

Paso 3: Discutan con los otros grupos las siguientes preguntas:


 Cuál creen que será la forma de la distribución muestral de p̂ ? Hagan un pequeño bosquejo.

 ¿Cuál creen que será el centro, esto es, el promedio o el valor esperado de la distribución
muestral de p̂ ? …………

 ¿Cómo creen que será la dispersión de la distribución muestral de p̂ ? Den un posible rango
de valores. ………………………….

Paso 4: Cada alumno en un grupo va a simular 10 muestras simples al azar de tamaño n de una
población con proporción p, basada en el correspondiente escenario asignado.

Por ejemplo: si su p=0.1 y su n=50, luego seleccione un dígito entre 0 y 9 para representar la
respuesta Sí, y los dígitos remanentes representan a la respuesta No. Suponga que decide que el
dígito 4 = Sí . Usando la calculadora TI con semilla 40, pude generar la siguiente lista de 50 números
aleatorios enteros entre 0 y 9. Nota: probá utilizando el generador de muestras aleatorias de R.

8207432805797719632807295
8350212358713585439188814

Dado que el valor 4 ocurre 3 veces, la proporción muestral es p̂ =3/50=0.06


Continuará este proceso hasta conseguir las 10 muestras.

11
Sus 10 resultados:

Resultado # 1 2 3 4 5 6 7 8 9 10

El número de respuestas “Sí”


La proporción de respuestas
“Sí” en la muestra, p̂

Paso 5: combine sus resultados con los de cada grupo. Cada persona del grupo marca sus 10
respuestas sombreando cada cuadradito arriba del valor correspondiente en la grilla.

¿Cómo son los resultados comparados con los esperados en el Paso 3?

Resuma los resultados de cada grupo y comente sobre….

i) Forma de la distribución muestral de p̂


…………………………………………………………………………………………

ii) Centro, promedio, o valor esperado de la distribución muestral de p̂


…………………………………………………………………………………………

iii) Dispersión de la distribución muestral de p̂


…………………………………………………………………………………………

Paso 6: Cada grupo presente su combinación de resultados a toda la clase. Dado que cada grupo usó
un color diferente para hacer su histograma, podremos comparar los resultados superponiendo las
transparencias. Comparen los resultados de la distribución muestral de p̂ para cada escenario y
comenten sobre:

 Forma de la distribución muestral de p̂


 Centro, promedio, o valor esperado de la distribución muestral de p̂
 Dispersión de la distribución muestral de p̂

 Observen los escenarios I,II,III y IV. ¿Influye el valor de p sobre la dispersión?


 Observen los escenarios IV y V. ¿Influye el tamaño de muestra sobre la dispersión?
 Observe los escenarios I y II. ¿Cómo es la distribución para p=0.3 comparado con p=0.7?

12
En el RESUELVE 7.4 la distribución muestral de p̂ fue generada empíricamente para varios
valores de la verdadera proporción, p=0.1, 0.3, 0.5 y 0.7 y basadas sobre tamaños de muestra
igual a 50 y 100. Comprobamos empíricamente que la distribución muestral de p̂ es
aproximadamente normal, centrada aproximadamente en el verdadero valor de la proporción.
Además hemos discutido el concepto de variabilidad de la distribución muestral muy
brevemente. Comparamos visualmente dos distribuciones muestrales y comentamos sobre la
estadística que presentaba menor variabilidad (es decir mayor precisión). Realmente podemos
resumir la dispersión de una distribución muestral con un número, el cual será la desviación
estándar de la distribución muestral, ˆp . Luego la regla 68‐95‐99.7 para distribuciones normales

nos dice que podemos esperar que cerca del 95% de los valores de p̂ caen dentro de dos
desviaciones estándares de la proporción poblacional p.
¿Cómo podemos encontrar la desviación estándar? Podemos registrar la desviación estándar
para cada valor de p̂ de los escenarios planteados en el Resuelve 7.4. Sin embargo estos serán
sólo aproximaciones para esos casos particulares.
Usando matemática, se puede demostrar que si se selecciona una muestra aleatoria simple de
tamaño n de una gran población con verdadera proporción p, luego la desviación estándar de p̂
es igual a:

p (1  p ) n

la cual depende de la verdadera proporción p y el tamaño a de muestra n.

 Si el tamaño de muestra n=100 y la proporción poblacional p=0.05, luego la desviación


estándar de p̂ es :

p (1  p ) n = 0 . 5 (1  0 . 5 ) 100 = 0.05

 Si el tamaño de muestra n = 50 y la proporción poblacional p = 0.50, luego la desviación


estándar de p̂ es :

p (1  p ) n = 0 . 5 (1  0 . 5 ) 50  0.07

Hemos estudiado y simulado una distribución muestral de una proporción muestral. Recopilemos los
resultados más importantes.

13
DISTRIBUCIÓN MUESTRAL DE p̂ [ proporción muestral]

p representa la proporción de elementos en una población que tiene ciertas características, esto es,
la proporción de “éxitos”, donde “éxito” corresponde a tener esa característica.

Si muestras simples al azar de tamaño n son tomadas de una población donde la proporción de
“éxitos” es p, luego la distribución muestral de p̂ tiene las siguientes propiedades:

1. E( p̂ )=  p̂ = p Esto quiere decir que el promedio de todos los posibles valores de p̂ es igual al
parámetro p. En otras palabras, p̂ es un estimador insesgado de p.
p (1  p )
2.  p̂ = Var ( pˆ ) = Esta es la expresión para la desviación estándar de todos los
n
posibles valores de p̂ .

Notar que cuando el tamaño de la muestra n aumenta, esta medida de dispersión


decrece y para un tamaño de muestra fijo, la máxima desviación estándar se encuentra en p = 0,5.

3.Si n es “suficientemente” grande, la distribución de p̂ se ve como una distribución normal con


media y desviación estándar como las dadas en los puntos 1 y 2 anteriores.

p(1  p)
p̂ es aproximadamente N ( p; )
n

EJEMPLO 7.2
PROBABILIDADES PARA UNA PROPORCIÓN DE VOTANTES HACIA UN DETERMINADO CANDIDATO.

Si la proporción poblacional de personas que están a favor de cierto candidato es 0,3, luego la
distribución muestral de p̂ , cuando el tamaño de muestra es 400 para cada MSA, es
aproximadamente normal con una media de 0,3 y una desviación estándar de 0,023 ‐verifique esta
desviación estándar.

Usemos esta información para calcular algunas probabilidades de los valores que tomará la
proporción p̂ . Debido a que tenemos una estadística que está normalmente distribuida, para
encontrar probabilidades necesitamos convertir los valores en valores estandarizados z y usar la TI o
una tabla normal. Ver Capítulo 5 para repasar búsqueda de área bajo densidades normales.

a) ¿Cuál es la probabilidad de que menos del 25% de la muestra esté a favor del candidato ?

P( p̂ < 0,25 ) = P Z < 0,25 ‐ 0,3  = P( Z < ‐2,17 ) = 0,015


0,023

14
b) ¿Cuál es la probabilidad de que la proporción muestral p̂ ,que se encuentra a favor del candidato,
esté entre 0,25 y 0,35 ?

0,25  0,3 0,35  0,3


P( 0,25 < p̂ < 0,35 ) =P ( <Z< ) = P( ‐2,17 < Z < 2,17 ) =
0,023 0,023
= 0,985 ‐ 0,015 = 0,97

c) ¿Será la probabilidad de que la proporción muestral p̂ de personas a favor del candidato


encontrada entre 0,27 y 0,33 más grande o más pequeña que la probabilidad calculada en la parte b)
? Encuentre la probabilidad.

0,27  0,3 0,33  0,3


P( 0,27 < p̂ < 0,33 ) = P ( <Z< ) = P( ‐1,30 < Z < 1,30 ) =
0,023 0,023
= 0,9032 ‐ 0,097 = 0,835

Más pequeña.
__________________________________________________________________________________
______________________________________________________________________________

RESUELVE! 7.5 ‐ SANGRE TIPO B

El nueve por ciento de la población de USA tiene sangre tipo B. En una muestra simple al azar de 400
personas de esa población, se encontró que 12,5% tenían sangre tipo B.

a. En esta situación particular, ¿cuál es el valor numérico del parámetro? ...............


b. En esta situación particular, ¿cuál el valor numérico de la estadística? ..................
c. ¿Cuál es la probabilidad de que una nueva SRS de tamaño 400 personas de la población de
USA contenga por lo menos un porcentaje de 12,5% de personas con sangre tipo B ?

P( p̂ ≥ 0,125 )=

Sugerencia: Primero indique la distribución aproximada de p̂


d. Se toma otra SRS de 8 personas de la población de USA. Suponga que queremos calcular la
probabilidad de que el 12,5 % o más de esta muestra tiene sangre tipo B. ¿Es válido usar el
mismo método que el usado en c) ?

Marque una: Sí No Explique:

_______________________________________________________________________________

RESUELVE! 7.6 – Hábito de fumar


En un estudio sobre el hábito de fumar en una gran comunidad, un científico quiere testar la
hipótesis nula H0: p=0.3 contra la alternativa H1: p0.3, donde p es la proporción desconocida de
fumadores en toda la comunidad. Se extrae una muestra de tamaño 50 de la comunidad y los
científicos deciden rechazar H0 sí y solo sí la proporción de fumadores en la muestra excede 0.35.
Luego, valores grandes de la proporción muestral son considerados extremos y conducen a rechazar
la H0.

15
(a) ¿Cuál es la distribución aproximada de la proporción muestral si H0 es verdadera?
Haga un bosquejo

(b )¿Cuál será aproximadamente la probabilidad de un error TipoI (nivel de significanción), la


probabilidad de rechazar H0 cuando H0 es cierta?

....................................................................................................

(c) Si la proporción muestral de fumadores es igual a 0.37, ¿Cuál será aproximadamente el


p‐value del test?

............................................................................................................

(d) Con la información disponible, ¿puede calcular numéricamente la probabilidad


aproximada del error de Tipo II? Si no es posible, diga que información se necesita.

..........................................................................................................

PENSEMOS!!!!–UTILIDAD DE LAS DISTRIBUCIONES MUESTRALES

¿Descubrió el uso de las distribuciones muestrales ?

Como se ha visto, en la vida real, NO SE CONOCERÁ el verdadero parámetro poblacional, porque si se


conoce no necesitaría sacar una muestra. En la práctica se toma UNA SOLA MUESTRA, no muchas
como cuando construíamos la distribución muestral empírica de su estimador.
Una muestra puede ser costosa o tomar mucho tiempo.

Entonces, ¿qué hicimos en este capítulo ?

Hemos descubierto el comportamiento de una distribución muestral de un estimador en el caso de


muestras simples al azar. Hemos visto que si el tamaño de muestra es más grande, la distribución se
ve más y más “normal” y también más centrada en el “verdadero valor del parámetro”. Esto nos
garantiza que cuanto más grande es el tamaño de la muestra que tomamos, más grande será la
chance de que el estimador esté cerca del verdadero valor del parámetro.

Nunca conoceremos el verdadero valor de parámetro, tampoco cuán cerca está de él cualquier
estimador particular. Sin embargo, podemos calcular la probabilidad de que: p̂ ± “algo”.contenga al
verdadero valor del p . Ese “algo” es llamado margen de error y aprenderemos más sobre él en el
próximo capítulo.

16
Ejercicios

7.1. Explique brevemente qué entiende por distribución muestral de una estadística.

7.2 Tres estimadores diferentes son propuestos para estimar el parámetro  de una población. Los
gráficos de las distribuciones muestrales de los tres estimadores son los que se muestran abajo.

Observe que los tres gráficos están en la misma escala.

17
a. ¿Qué estimador/es es/son no viciado? Explique.

b. Entre los estimadores I y II, ¿Cuál seleccionaría usted? ¿Por qué?

c. ¿Cuál es el estimador que tiene menor variablidad? Explique.

d. Basado en las distribuciones muestrales ¿Cuál es el mejor estimador de ?

7.3 Una estadística se dice que es un estimador no viciado de un parámetro si:


(seleccione una)
(a) Una muestra conveniente es usada para calcular la estadística
(b) La media o centro de su distribución muestral es igual al parámetro que se trata de estimar.
(c) Se utiliza aleatorización para obtener el parámetro.
(d) La variabilidad de la distribución es igual a la media muestral que se trata de estimar.

7.4. Complete cada uno de las siguientes proposiciones, recordando la distribución muestral de la
proporción de bebedores de café en una muestra aleatoria simple de tamaño n adultos de dicha
población. Seleccione exactamente un número en cada caso.

(a) Cuando del tamaño de muestra n aumenta, la desviación estándar de la distribución muestral

(1) Decrece
(2) Crece
(3) Es la misma
(4) No hay suficiente información

(b) Cuando el tamaño de muestra n aumenta, la media de la distribución muestral

(1) Decrece
(2) Crece
(3) Es la misma
(4) No hay suficiente información

(c) Cuando el tamaño de muestra aumenta, la distribución muestral

(1) Se parece más y más a la distribución de la cual fueron extraídas las muestras
(2) Se parece más y más a la distribución normal
(3) Aparece más concentrada alrededor de la media
(4) Ambas (2) y(3)
(5) Ninguna de las de arriba

7.5 En los Ejercicios de Resuelve! 7.4 anteriores, la distribución muestral de p̂ fue generada
empíricamente por varios valores de la verdadera proporción , p = 0,1; 0,3; o 0,7; y basándose en un
tamaño de muestra de 50 o 100. Hemos visto que la distribución muestral empírica de p̂ es
aproximadamente normal, aproximadamente centrada en la verdadera proporción poblacional con una
p (1  p )
desviación estándar .
n

18
Veamos si las distribuciones muestrales empíricamente generadas soportan la expresión de la desviación
estándar.

a. Para cada escenario, calcule la  p̂ y regístrela en la tabla dada aquí abajo.

b. Para cada supuesto o escenario, use ambos métodos I y II para estimar la desviación estándar de p̂ y
guardar esta estimación en la celda apropiada de la tabla.

Método I: 68‐95‐99.7 Regla para Distribuciones Normales

Hemos observado que la distribución muestral para p̂ es aproximadamente normal, centrada en la


verdadera proporción p. La Regla para distribuciones normales 68‐95‐99.7 nos dice que debemos esperar
que un 95% de los valores de p̂ caigan a 2 desviaciones estándar de p, rango que suma un total de 4
desviaciones estándar. Equivalentemente, 2,5% de los valores se espera que caigan en cada una de las
regiones de las colas. La diferencia entre estos dos percentiles debería ser aproximadamente igual a 4
desviaciones, por lo tanto, dividiendo esta diferencia por 4 obtenemos una estimación de la desviación
estándar.

Método II: Calculando la Desviación Estándar de valores p̂ generados

Este método encuentra la desviación estándar actual para los valores p̂ generados. Ingrese todos los
valores p̂ dentro de su TI y use el 1‐var stats para calcular la desviación estándar para esta población de
valores p̂ , esto es, lea el valor de σ, no el valor de Sx.

Método I Método II
Supuesto o Tamaño de Proporción . Desviación Desviación Verdadera
Escenario Muestra Poblacional Estándar Estándar Desviación
n p Estimada Estimada Estándar
I 50 0,1
II 50 0,3
III 50 0,7
IV 50 0,5
V 100 0,5

c) Compare cada desviación estándar estimada con la verdadera desviación estándar correspondiente.
p (1  p )
¿Los resultados empíricamente generados mantienen la desviación estándar para p̂ igual a ?
n
d) Responda:
Si se aumenta el tamaño de la muestra, ¿cómo afecta ésto a la desviación estándar de p̂ ?
Si la verdadera proporción se mueve cerca de 0 o 1, ¿ cómo afecta ésta a la desviación estándar de p̂ ?
Para un tamaño de muestra fijo, ¿cómo se compara la desviación estándar cuando p = 0,3 con aquella
cuando p = 0,7?
En general, ¿para qué valores de p se maximiza la desviación estándar?

19
7.6. Suponga que el 60% de todos los estudiantes de una gran universidad acceden a información sobre
cursos por medio de Internet.

 Haga un bosquejo de la distribución para la posible proporción muestral basada en una muestra
aleatoria simple de 100 estudiantes.

 Use la regla 68‐95‐97.5 de la distribución normal para completar los siguientes enunciados:
(i) Hay una chance del 68% que la proporción muestral esté entre .......... y .........
(ii) Hay una chance del 95% que la proporción muestral esté entre........... y ............
(iii) Es casi seguro que la proporción muestral está entre ..........y............

 ¿Cuál es la probabilidad de observar una proporción muestral de 0.50, basada en una muestra
aleatoria simple de tamaño 100, si la proporción poblacional fuese de 0.60?. Explique.

 Haga un bosquejo de la distribución de las posible proporciones muestrales que podría obtener
basada en una muestra aleatoria simple
de 400 estudiantes.
(i) ¿Cómo difiere con el bosquejo realizado en el primer ítem?
(ii) ¿Cómo el incremento en el tamaño de muestra afectó el rango de valores dado en (i) del
segundo ítem?

7.7 Un método de screening para detectar cáncer de mama, muy utilizado por los médicos, detecta un
85% de las mujeres que realmente tienen la enfermedad. Un nuevo método desarrollado por
investigadores es posible que detecte cáncer más exactamente. Una muestra aleatoria simple de 100
mujeres que efectivamente tienen cáncer de mama son evaluadas usando el nuevo método. El nuevo
método detecta cáncer en 90 mujeres. Sea p la proporción de mujeres con cáncer el cual es detectado
por el nuevo método. La hipótesis para ser testada es : H0:p=0.85 vs. H1: p>0.85 usando un nivel de
significación del 5% .

 Supóngase que el nuevo método es tan bueno como el primero, esto es que la tasa de detección
es p=0.85. Dibuje la distribución de las posibles proporciones muestrales que pueden resultar
para una muestra aleatoria simple de tamaño 100 de una población con proporción p=0.85.

 ¿Cuál es la proporción muestral de mujeres con cáncer detectado con el nuevo método?

 ¿Cuál es la probabilidad de obtener una proporción muestral igual a la observada o más extrema,
sabiendo que la tasa de detección es p=0.85? Esto es, compute el p‐value para testar la anterior
hipótesis.

 ¿Resultó más exacto el nuevo método a un nivel del 5%?.Explique.

7.8. ¿Usted piensa que es importante controlar (limitar)el acceso a la información que brinda Internet?
Suponga que el 60% de los adolescentes americanos, con edades entre 13 y 17, creen que es importante
limitar el acceso a la información de Internet. Esto es, el verdadero parámetro es p=0.60.

a) Si planeamos elegir una muestra aleatoria simple de 20 adolescentes americanos , ¿cuántos


espera que le respondan que “Sí”?
b) Planee y describa un método para simular este procedimiento de muestreo. Necesitará establecer
el método aleatorio que utilizará y cómo lo usará. Deberá establecer qué resultados
corresponden a una respuesta “Sí” y cuáles a una respuesta “No”.
c) Usando el método descrito en la parte (b) obtenga la primer muestra de tamaño 20,

20
(i) ¿Cuántas respuestas “Sí” obtuvo?
(j) ¿Cuál es la proporción muestral de respuestas “Sí”?
(k) ¿Obtendrá la misma proporción de respuestas “Sí” en la próxima muestra aleatoria de tamaño 20?

d) Ingrese los resultados de su primera muestra de tamaño 20 en la tabla que aparece al pie.
Continúe su simulación hasta tener un total de 50 muestras de tamaño 20 y tabule los resultados
en la tabla. Usted puede trabajar en grupos y dividir la tarea.

Semilla/Punto de partida:..................

Número de Proporción Proporción sobre


Conteo Frecuencia
adolescente muestral p̂ todas las pruebas
0 0.00
1 0.05
2 0.10
3 0.15
4 0.20
5 0.25
6 0.30
7 0.35
8 0.40
9 0.45
10 0.50
11 0.55
12 0.60
13 0.65
14 0.70
15 0.75
16 0.80
17 0.85
18 0.90
19 0.95
20 1.00
Total ‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 50 1.00

e) En la parte (d) ya aproximó otra distribución muestral de p̂ a través de simulación ‐ la distribución


muestral de la proporción de respuestas “Sí”en una muestra aleatoria de tamaño 20 extraída de una
población con 60% de respuestas afirmativas.
(i) ¿Cuál fue el menor número de respuestas “Sí” en cualquier muestra?
(ii) ¿Cuál fue el mayor número de respuestas “Sí” en cualquier muestra?
(iii) ¿Cuál es proporción muestral más probable de respuestas “Sí”?
(iv) Comente sobre los aspectos generales de esta distribución muestral.

f) Suponga que tiene una muestra aleatoria simple de 20 americanos adultos. Basado en la tabla de
resultados de la parte (d), haga las siguientes estimaciones:
(i) Estime la probabilidad de que exactamente 14 personas piensen que es importante controlar el
acceso a la información de Internet.
(ii) Estime la probabilidad de que exactamente 10 o menos (a lo sumo 10) piensen que es
importante controlar el acceso a la información de Internet.

21
(iii) Estime la probabilidad de que la proporción muestral de personas que piensan que es
importante controlar el acceso a la información de Internet esté entre 0.65 y 0.75, inclusive.
(iv) Estime la probabilidad de que las 20 personas piensen que es importante controlar el acceso a
la información en Internet.

(g) Si usted toma una muestra aleatoria simple de 40 americanos adolescentes, en lugar de 20, afectaría a
la probabilidad de que la proporción muestral esté entre 0.65 y 0.75 inclusive? Explique.

La probabilidad : Aumentará Disminuirá Se mantendrá Igual

(h) Repita las partes (b) a (f) con un tamaño de muestra 40. Compare los resultados con los obtenidos con
n=20.

7.4 DISTRIBUCIÓN DE LA MEDIA MUESTRAL

Hemos estado simulando qué sucede bajo repetidas muestras simples al azar para examinar la
distribución muestral de una estadística. La distribución muestral resume la variabilidad en los valores de
una estadística de muestra en muestra. Una vez que la distribución muestral de una estadística es
conocida, puede ser usada para predecir la precisión de usar la estadística como un estimador del
parámetro. En esta sección nos abocaremos al estudio de otra estadística muy común ‐la media muestral.

EJEMPLO 7.3 ‐PREPARÁNDOSE PARA UN EMPLEO

Como parte del ensayo en el que se entrevistó a 3.000 empleadores de toda la nación, con más de 20
trabajadores, incluyendo oficinas, fábricas, y empresas constructoras, se les pidió a los empleadores que
clasifiquen por orden de importancia los distintos aspectos a tener en cuenta a la hora de elegir a sus
empleados. La escala fue desde 1 hasta 5, con 1 como “sin importancia”, y 5 como “muy importante”. Los
factores clasificados fueron, en orden alfabético: Actitud, Credenciales de industrias estables certificando
habilidades, Experiencia anterior, Experiencia o reputación de las escuelas a las que asistieron,
Habilidades en la comunicación, Performance académica (grados), Puntaje en los tests tomados como
parte de la entrevista, Recomendaciones de empleos recientes, Recomendaciones de empleadores
anteriores, Recomendaciones de maestros.
Fuente: National Survey Shows a Rift Between Schools and Business, The New York Times, Febrero 20,
1998.

El factor “Actitud” recibió el valor de media más alto y fue 4,6; mientras que “Recomendaciones de
maestros” recibió la más baja y fue 2,1. Esta media de 4,6 es una media muestral, un valor de x , porque
es calculada de la muestra de empleadores encuestados. Esta media muestral de 4,6 es una estimación de
la media poblacional, .
¿Cree usted que esta media de 4,6 es exactamente igual a la verdadera media para todos los empleadores
?
Su respuesta debería ser “no”. No debemos esperar que esto suceda, pero el departamento encargado
del ensayo estaría contento si por lo menos este resultado muestral estuviera “cerca” del parámetro
poblacional. Suponga que los censistas repitieran esta encuesta con otros 3.000 empleadores,

¿cree usted que la media para “Actitud” para estos empleadores sería exactamente 4,6 ?

22
Otra vez, su respuesta debería ser “no”. Imagine que este proceso se repite muchas veces ‐el proceso
consiste en tomar una muestra de 3.000 empleadores, guardar la media de “Actitud”. Repitiendo este
proceso muchas veces obtendríamos muchas medias muestrales, no todas iguales a 4,6; con algunos
valores que aparecerán más a menudo que otros.
¿Qué valores serían posibles para una media muestral ?
¿Cuán buena es la media muestral, basándonos en una muestra de 3.000 empleadores, para estimar la
verdadera media ? ¿Sabe usted si esta media muestral de 4,6 está cerca de la verdadera media ? ¿Puede
llegar a ser muy diferente de la verdadera media? Si este valor de 4,6 puede no ser la verdadera media,
¿por qué cree que estos resultados fueron reportados y se han sacado conclusiones de ellos ?

SUGERENCIAS EN CLASE!!!!
__________________________________________________________________________________

LA EDAD MEDIA

Estamos interesados en la verdadera edad promedio de nuestra población. Entonces nuestro parámetro
poblacional de interés es  = edad media poblacional. Si tuviéramos que sacar una MSA de tamaño 20 de
esta población podríamos tomar nuestra edad media muestral x = 24,6 años. Este es el valor de nuestra
estadística. Si tuviéramos que hacer esto otra vez, tomaríamos una muestra distinta, y más
probablemente un valor diferente de x . Para aprender acerca de la distribución de la media muestral,
podríamos hacer ejercicios similares a aquellos que hicimos para la proporción muestral.

La distribución de la media muestral es ...


la distribución de los valores de la media muestral en todas las posibles muestras del mismo tamaño
tomadas de la misma población.

RESUELVE! 7.7 –
DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Considere una población cuyos valores de una variable discreta X se distribuyen con igual probabilidad
sobre los valores 1, 2, 3, 4 y 5. Realice un bosquejo de la distribución de probabilidad.
En este ejemplo, podemos calcular la verdadera media poblacional.
=
(También es fácil observar que la  poblacional es 2)

Suponga que no conocemos la verdadera media poblacional . Sin embargo, podemos tomar una
muestra simple al azar de tamaño n=2 de esta población.

 ¿Cuál es una posible muestra de tamaño n=2 de esta población ?


.........................................................................
 ¿Cuál es el valor de la media muestral para su posible muestra de tamaño n=2 ?
..........................................................................
 ¿Es su media muestral igual a la media poblacional ?
.....................................................................................

 Si toma otra mas de tamaño n=2, ¿obtendría la misma media muestral ?

¿Sería igual a la media poblacional ?.


.................................................................................................................

23
Examinemos el conjunto de posibles resultados si tomáramos una mas de tamaño n=2 de esta población
completando la siguiente tabla. Notar que los resultados de 2 muestras ya han sido ingresados. [R seed
52]

Muestra # Observaciones Media muestral


1 ( 3,2) 2.5
2 ( 3,3) 3
3
4
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
5
6
7
8
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
9
10
11
12
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
13
14
15
16
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
17
18
19
20
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
Las medias muestrales ubicadas en la tercer columna son posibles valores que X podría tomar si una
msa de n=2 fuera seleccionada de una población de interés.
Examine la distribución muestral de X haciendo un gráfico de puntos con estos 20 valores de X .

_______________________________________________________
1,5 2,0 2,5 3,0 3,5 4,0 4.5

 Calcule el promedio de todos los valores de X , esto es, sume los 20 valores de X y divídalos
por 20.

 ¿Cómo se compara su promedio de arriba, o sea, la media de la distribución muestral empírica


de X , con la verdadera media poblacional  ?

 Tome 20 muestras más, calcule la media muestral para cada una, y agregue estos resultados a su
gráfico. Calcule el promedio de los 40 valores de x . ¿Cómo se compara este promedio con la
verdadera media poblacional?
....................................................................................................................................................

24
Los resultados que hemos visto recién siguen un modelo predecible, debido a que tomamos una MSA, y
están resumidos aquí:

DISTRIBUCIÓN MUESTRAL DE X [ media muestral]

Si las muestras simples al azar de tamaño n son tomadas de una población con media poblacional  y
desvío estándar poblacional  , luego la distribución muestral de X tiene las siguientes propiedades:
1.  x = E( X ) = 
Esto nos dice que el promedio de todos los posibles valores de X es igual al parámetro  . En otras
palabras, X es un estimador insesgado de  .

2.  x 
n
Esta es la expresión para el desvío estándar de todos los posibles valores de X .

Notar que cuando el tamaño de la muestra aumenta, la medida de dispersión disminuye.

3. Si la población original es normal, luego la distribución de X es también normal con media y desvío
standard como los dados en los puntos 1 y 2, para cualquier tamaño muestral n


X es N( , )
n

4. Si la población original no es normal pero el, tamaño muestral es “suficientemente” grande, la


distribución de X es aproximadamente normal con media y desvío standard como los dados aquí abajo.

X es aprox. N , )
n
n
Suficientemente grande significa que la normalidad no se presenta exactamente para
alguna de las muestras de tamaño n, pero a medida que n aumenta, la distribución comienza a parecerse
cada vez más a la de una normal.

Este último resultado es conocido como Teorema Central del Límite, abreviado TCL. En clases se
dará más información al respecto.

25
EJEMPLO 7.4 ‐BOSQUEJO DE LA DISTRIBUCIÓN

Grafiquemos una distribución de X y la distribución de X , teniendo en cuenta que la distribución de X


es normal con parámetros  = 300; 2 = 25. Consideremos un tamaño muestral n = 25.

EJEMPLO 7.5 – DURACIÓN DE UN EMBARAZO

Sea X la duración de un embarazo en días. X es una variable aleatoria continua. Suponga que tiene una
distribución aproximadamente normal con una media  de 266 días y desvío standard  de 16 días.

a) Haga un bosquejo de la distribución de X.

b) ¿Cuál es la probabilidad de que un embarazo dure más de 274 días ?


Sombree el área correspondiente a esta probabilidad en su bosquejo.
¿Cómo espera usted que sea su respuesta, mayor que 0,5 o menor que 0,5 ?

........................................ [ menor que 0,5 porque 274 está por encima de la media de 266.]

Encuentre la probabilidad:

P( X > 274 ) = P  Z > 274 ‐ 266  = P( Z > 0,50 ) = 0,3085


16

c) Suponga que tenemos una SRS de tamaño n=25 mujeres embarazadas. ¿Es más probable o menos
probable, comparando con b), observar un promedio de duración del embarazo mayor a 274 días?

......... menos probable, los promedios varían menos que los valores individuales, por lo tanto observar un
valor extremo de 274 o más grande es más probable para valores individuales ‐el bosquejo también nos
muestra que la probabilidad para la media muestral o promedio será más pequeña.

26
Haga un bosquejo para representar su respuesta.

¿Cuál es la probabilidad de observar una media muestral que exceda los 274 días ?

Debido a que la media muestral está normalmente distribuída, simplemente la standarizamos a un valor Z
apropiado.

X 
Z …………………… (indicar distribución de probabilidad)

n

P( X > 274 ) = P Z > 274 ‐ 266  = P( Z > 2,5 ) = 0,0062


16/√25

27
________________________________________________________________________

RESUELVE! 7.8 ‐¿CÓMO SE VERÁ LA DISTRIBUCIÓN MUESTRAL?

El siguiente histograma muestra la distribución de una cierta variable X de una población:

¿Cuál de los siguientes tres histogramas: A, B, o C representa mejor a la distribución muestral de la


media de una muestra simple al azar de 50 valores de esta población?

RESPUESTA:
...................................................................................................................................................................
Explique: ……………………………………………………………………………………………………..

28
RESUELVE! 7.9 ‐ACCIDENTES EN ESQUINAS

Sea X el número de accidentes por semana en una esquina dada.


Suponga que la media de X es 2,2 y el desvío standard de X es 1,4.

a) Sea X el número promedio de accidentes por semana en un año, o sea, n=52 semanas.
¿Cuál es la distribución aproximada de X ?
Haga un bosquejo de los ejes y luego de la distribución.
Considere la aplicación del TCL [ teorema central del límite ]

...........................................................................................................................................................
...........................................................................................................................................................
...........

a) ¿Cuál es la probabilidad de que el promedio de accidentes por semana en un año sea


menor que 2 ?

...........................................................................................................................................................
...........................................................................................................................................................
.....................................................................................................................................................

c) ¿Cuán probable es que el total # de accidentes por año sea menor que 100 ?

Sugerencia: P (TOTAL < 100 ) = P Promedio < 100 


52

..............................................................................................................................................................
.............................................................................................................................................................

29
RESUELVE! 7.10 ‐¿ACEPTA EL CARGAMENTO?

Un cargamento de barras de acero será aceptado si la media de la resistencia a las roturas de una
muestra aleatoria de 10 barras es mayor que 250 libras por pulgada cuadrada. El modelo de resistencia a
las roturas es normal con una media de 260 y una variancia de 400. ¿Cuál es la probabilidad de que un
cargamento sea aceptado?

EJERCICIOS

7.9 ¿Verdadero o Falso? (Recuerda: Una oración verdadera deberá ser siempre verdadera.) Y explique
por qué.

El teorema central del límite asegura que la distribución muestral de X es una distribución normal
para cualquier tamaño de muestra n.

7.10 Sea X = “tiempo en procesar un préstamo”, y suponga que X está normalmente distribuída con una
media de 14 días y un desvío estándar de 5 días. Una muestra simple al azar de 25 préstamos será
obtenida y su tiempo de proceso será guardado. Haga un bosquejo y clasifique apropiadamente la
distribución para la media muestral del tiempo de proceso ( X ) para una muestra simple al azar de 25
préstamos.

7.11 Se dispone de los resultados SAT de todos los estudiantes de primer año de la Universidad de
Michigan para el año académico 2008‐2009.
Suponga que esta información puede ser adecuadamente modelada con una distribución normal con
una media de 1.250 y desvío standard de 150.
a) Basándonos en el modelo , ¿cuál es la probabilidad de que la media de los resultados SAT se
encuentre entre 1.200 y 1.400 ?
b) Se elige una muestra simple al azar de 36 estudiantes de primer año. ¿Cuál es la probabilidad de
que la media de los resultados SAT para estos estudiantes se encuentre entre 1.200 y 1.400 ?
c) Explique, con la ayuda de un bosquejo adecuado, por qué las respuestas de los puntos a) y b) no son
las mismas.

7.12 La distribución de la variable X = EDAD, en años, para todos los N = 20 chicos que viven en un
condominio es mostrada en el siguiente gráfico:

*
* *
* * * * *
* * * * * * * * * * * *
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

 ¿Cuál es la media () y desvío estándar () de esta población ?

30
 Suponga que tomamos 1.000 muestras aleatorias con reemplazo, cada una de tamaño 100, de
esta distribución y calculamos la media muestral,X , para cada muestra.
 ¿Cuál sería la distribución aproximada de estos 1.000 valores de X ?

Haga un bosquejo de la distribución aproximada aquí abajo.


Marque la media y el desvío estándar en su bosquejo.

7.13 La distribución, llamada distribución triangular, para una variable aleatoria continua X está dada:
p(x)

0,25

0 8 X
a. Basándonos en esta distribución, ¿es la mediana de X igual a 4 ? Explique su respuesta.
Sugerencia: podría hacer en un papel un modelo de la distribución.
b. ¿Es la mediana de esta distribución igual a su media ? Marque su respuesta: Sí No
Si su respuesta es Sí, explique por qué. Si su respuesta es No, establezca qué valor es más grande y
explique.
c. Suponga que tomamos una muestra simple al azar de tamaño 500 de esta población. ¿Cuál de los
siguientes histogramas representa mejor a la distribución muestral de X ? Explique.

7.14 Se llevó a cabo una convención de luchadores de Sumo en un hotel. Se sabe que los pesos de los
luchadores están normalmente distribuídos con una media de 540 libras y un desvío standard de 45
libras. El ascensor del hotel tiene capacidad para 9 luchadores. Suponga que una muestra simple al azar
de 9 luchadores entra en el ascensor. El ascensor no funcionará si el total del peso de los ocupantes
excede las 5000 libras. ¿Cuál es la probabilidad de que el ascensor no funcione ?

31
7.15 Describiendo algunos de Los Básicos:
a) ¿Qué es una estadística?
b) ¿En qué se diferencia una estadística de un parámetro ?
c) ¿Qué es la distribución muestral de una estadística ?
d) ¿Cómo puede generar empíricamente la distribución muestral de una estadística ?

7.16 Dos estudiantes han discutido las ideas presentadas en este capítulo.
El estudiante #1 piensa que es “el número de muestras usadas” el que determina la dispersión ( o
variabilidad ) de una distribución muestral empírica.
El estudiante #2 piensa que es el “el tamaño de cada muestra usada” el que determina la variabilidad de
una distribución muestral empírica.
Ahora necesitan su consejo. ¿Quién tiene razón ? Explique su decisión.
__________________________________________________________________________________
7.5 Resumen del Capítulo
En este capítulo hemos estudiado cómo una estadística varía en repetidas muestras aleatorias, o sea,
hemos estudiado la distribución muestral de una estadística. Es la aleatoridad en el proceso de muestreo
el que produce estas distribuciones muestrales. Estas serán usadas en el próximo capítulo cuando nos
aboquemos a procedimientos de inferencia más formales. Conociendo la distribución de una estadística
nos resultará más fácil entender qué valores esperar bajo una H0 en particular. Nos permitirá decidir si
nuestros resultados observados son consistentes con H0 o si son inusuales bajo H0, a través del p‐value.

Nos hemos centrado en la distribución muestral de una proporción muestral y de una media muestral. En
la siguiente tabla se provee un resumen de estas distribuciones muestrales.
__________________________________________________________________________________
Distribución muestral de p̂ [proporción muestral]
Sea p la proporción de veces que se presenta un cierto suceso, o sea , la proporción de “éxitos”, donde
“éxito” indica que el suceso ocurre.
Si se toma una muestra simple al azar de tamaño n de una población donde la proporción de “éxitos” es
p, y si n es grande, luego p̂ es aprox. N p , p(1 ‐ p ) 
n
o sea, la distribución de p̂ es aproximadamente normal cuando el tamaño de muestra es grande.
__________________________________________________________________________________
Distribución muestral de X [ media muestral]

Si se toma una msa de tamaño n de una población con media poblacional  y desvío standard poblacional
, luego ...
Si la población original está normalmente distribuída, la distribución de X también es normal

X es N  ,  2 
n
Si la población original no está normalmente distribuída , pero el tamaño de muestra es grande, la
distribución de X es aproximadamente normal

X es aprox. N  , 2  Teorema Central del Límite


n

32
TÉRMINOS CLAVES:

Asegúrese de que puede describir, con sus propias palabras, y dar un ejemplo de cada una de las
siguientes palabras claves de este capítulo.

Distribución muestral
Insesgado
Precisión
Sesgo
Variabilidad
Distribución muestral empírica
Teorema Central del Límite
Estadística muestral
Parámetro poblacional

33
________________________________________________________________________________

EJERCICIOS EXTRAS!!!!

7.17 Considere otra estadística, como por ejemplo la media. ¿Es la media muestral un estimador
insesgado de la media poblacional ? ¿Cómo se ve la distribución de la media muestral ?
Explique brevemente qué es la distribución muestral de la media y cómo generaría
empíricamente esta distribución muestral.

7.18 Para las mujeres adultas, el número de glóbulos rojos obtenidos en un análisis de sangre
tiene una media de 4.500.000 por mm3 y un desvío estándar de 350.000 por mm3. Suponga que
los números de glóbulos pueden modelarse aproximadamente a través de una distribución
normal.
a) ¿Cuál es la probabilidad de que una mujer adulta elegida aleatoriamente, tenga un número
de glóbulos rojos mayor que 5.000.000 por mm3 ?
b) Se toma una muestra simple al azar de 40 mujeres adultas. ¿Cuáles la probabilidad de que
la media del número de glóbulos ( X ) para estas mujeres sea 4.400.000 por mm3 o menos ?

7.19 Suponga que el 60% de la facultad votó a favor de tener que hacer un curso obligatorio de
primeras letras para poder recibirse. El diario local llamó a 100 miembros de la facultad en forma
aleatoria. ¿Cuál es la probabilidad aproximada de que menos de la mitad de ellos hayan votado a
favor del curso?

7.20 Una compañía empaca ganchos para papel en cajas de “100 piezas”. Hemos contado los
ganchos de esas cajas y encontramos que el número en una caja varía desde 93 o 94, como
mínimo, hasta un máximo de 100. Suponga que el número de ganchos en cajas producidos por
esta compañía tiene una media de 100 y un desvío standard de 8. Un cartón está compuesto por
64 cajas de ganchos. Suponga que un cartón puede ser considerado como una muestra simple al
azar de 64 cajas. Sea X la media de ganchos por caja para un cartón de 64 cajas.
a) Use la distribución aproximada de X para calcular la probabilidad aproximada de que la
media de ganchos por caja, esté entre 98 y 100.
b) Encuentre la probabilidad aproximada de que un cartón de 64 cajas contenga menos de
6.300 ganchos en total, más de 100 faltantes entre los 6.400.

7.21 Considere el conjunto de dígitos siguiente: 0,1,2,3,4. Estos 5 valores forman una población.
a) ¿Cuál es la media de esta población ? ¿Cuál es la variancia ?
b) Tome 25 muestras aleatorias de tamaño n=2 de esta población, use una semilla=83.
Para cada muestra, calcule la media muestral y el rango.
b) Haga un histograma mostrando la distribución muestral de las medias muestrales de la
parte b).
d) Tome 25 muestras aleatorias de tamaño n=5 de esta población, use una semilla=124.
Para cada muestra, calcule la media muestral y el rango.
e) Haga un histograma mostrando la distribución muestral de todas las medias muestrales de
la parte d).
f) Comente y compare los dos histogramas para la media muestral ( c) y e) ).

34
7.22 Energía Eléctrica produce una bombilla o lámpara de luz blanca, suave, de 100 watt para la
cual establecieron un promedio de duración de 750 horas. Considere que el desvío standard es
120 horas. Suponga que una agencia consumidora selecciona aleatoriamente 100 de estas
bombillas y encuentra una media muestral de 735 horas. ¿Debería la agencia consumidora dudar
de lo establecido por los fabricantes ? Provea evidencia para demostrar su respuesta.

7.23 Dos organizaciones públicas de la salud tomaron muestras simples al azar de adultos
residentes en Michigan para estimar la media del nivel de colesterol en la población de adultos
de Michigan. La primera toma una muestra de 100 adultos y la segunda una de 1.000 adultos. ¿Es
probable que la segunda organización obtenga una media muestral más alta que la primera ?
Explique.

________________________________________________________________________________

35

También podría gustarte