Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción a la Estadística
1
7.1 Introducción
En este capítulo la discusión se centrará sobre la inferencia estadística, proceso que usa la
información proveniente de la muestra para generalizar y tomar decisiones a cerca de toda la
población. Como vimos en el Capítulo 2, el valor del parámetro es fijo y generalmente desconocido,
mientras que el valor de una estadística, se calcula a partir de una muestra, con lo cual podría variar
de una muestra en otra. Una vez tomada la muestra el valor es conocido.
Sería beneficioso si, de alguna manera, pudiéramos medir la precisión de este proceso, si pudiéramos
decir si el valor de la estadística que tomamos va a estar cerca del valor del parámetro
correspondiente. Es aquí donde la técnica de muestreo utilizada para seleccionar la muestra, y el
tamaño de la muestra, juegan un papel fundamental. Una muestra estadística tomada de un MSA
tiene un modelo predecible de variación el cual nos permite informar sobre cuán cerca se espera que
esté una muestra estadística del verdadero parámetro, en promedio. Para llevar estas ideas a un
nivel más práctico, considere el siguiente ejemplo.
_________________________________________________________________
EJEMPLO 7.1 – PREPARÁNDOSE PARA UN EMPLEO
Muchos de nosotros enfrentamos el hecho, en algún momento de nuestras vidas, de tener que
encontrar un empleo. La mayoría de las personas deciden estudiar para que esto los ayude a
encontrar un trabajo. ¿Ha incrementado en los últimos años el nivel de experiencia que se necesita
en un lugar de trabajo?
De acuerdo a un ensayo en el que se entrevistó a 3.000 empleadores de toda la nación, con más de
20 trabajadores, incluyendo oficinas, fábricas y empresas constructoras, la respuesta es sí. El 57% de
los empleadores dijo que los conocimientos requeridos para trabajar en sus empresas, ha
aumentado en los últimos tres años. Fuente: National Survey Shows a Rift Between Schools and
Business, The New York Times, Febrero 20, 20XX.
El valor 57%, o una proporción de 0,57, es una estadística debido a que fue tomada de una muestra
de 3.000 empleadores. Imagine que este proceso se repita muchas veces ‐el proceso consiste en
tomar una muestra de 3.000 empleadores y calcular la proporción de empleadores que están de
acuerdo con que los conocimientos requeridos para trabajar en sus empresas han aumentado en los
últimos tres años. Si repetimos este proceso muchas veces obtendríamos muchas proporciones, no
todas iguales a 0,57, con algunos valores repetidos más a menudo que otros. ¿Qué valores para una
muestra de proporciones serían posibles? ¿Podría una proporción de 0 ser posible, y qué pasa con
una proporción igual a 1? ¿Se puede pensar en que alguna de las proporciones sea mayor que 0,75?
¿Cuán buena es la proporción, basada en una muestra de 3.000 empleadores, al estimar la verdadera
proporción de empleadores con niveles de conocimiento necesarios en aumento?
¿Sabe usted si esta proporción de 0,57 está cerca de la verdadera proporción? Si este valor de 0,57
no fuera la verdadera proporción, ¿por qué cree que estos resultados igualmente fueron informados
y se sacaron conclusiones de ellos?
__________________________________________________________________________________
2
PROPORCIÓN DE MUJERES
Consideremos una población en la cual el 50% son mujeres, esto es un valor de p igual a 0,50.
Tomamos una msa de tamaño n=4 personas de esta población y observamos la proporción de
mujeres en la muestra.
Tomemos el valor “0” para representar a un hombre y el valor “1” para representar a una mujer.
Primero elegiremos una semilla, sea 2091 en R: set.seed(2091) , y luego vamos a generar una lista
“aleatoria” de ceros y unos, donde cada valor es igualmente probable. Esto lo podemos lograr a
través de una lista de enteros aleatorios entre 0 y 1. En R: sample(c(0,1),4,replace=T)
Usando una semilla de 2091, los primeros cuatro valores generados, al presionar ENTER son:
1 0 1 1
Los resultados de los 50 ensayos realizados con una calculadora TI han sido tabulados y resumidos en
la siguiente tabla.
3
NÚMERO PROPORCIÓN PROPORCIÓN DE
DE MUJERES MUESTRAL CONTADOR FRECUENCIA TODAS LAS
MUESTRAS
0 0,00 //// 4 4/50 = 0,08
Las cuentas de la tabla anterior nos dan una rápida visión de esta distribución muestral empírica.
Tenemos que las proporciones muestrales variaron entre 0 y 1, mientras que la mayoría fluctúan y
están centradas alrededor de 0,50. En efecto, el 84% estima a 0,25; 0,50; o 0,75, y solamente el 16%
de las estimaciones fueron tan malas como los extremos 0,00 y 1,00.
Veremos que la distribución de p̂ es unimodal, centrada en 0,50 aproximadamente y tiene forma
de montículo.
Para tratar de responder a algunas de las preguntas que planteamos para el ejemplo anterior,
deberíamos repetir el proceso de estimación una y otra vez y observar la variabilidad de los valores
de la estadística muestral computada de las distintas muestras. Deberíamos tratar de describir este
grupo de valores de la estadística través de varios resúmenes numéricos y gráficos y a través del uso
de un modelo estadístico el cual resuma a la distribución de los posibles valores de la estadística.
4
Con tal modelo en mano, podríamos tener una idea de la precisión del proceso de estimación y cuán
buena es la predicción del valor del parámetro poblacional.
El objetivo de este capítulo es estudiar la distribución muestral de dos estadísticas, la proporción
muestral y la media muestral. Observaremos cómo estas estadísticas varían en repetidas MSA. Es la
aleatoriedad en el proceso de muestreo, la que produce las distribuciones muestrales presentadas en
este capítulo. Vamos a estudiar la distribución muestral de una estadística para varios tamaños de
muestras y para varios valores del parámetro. Comenzamos con la distribución muestral de la
proporción muestral.( p̂ )
PROPORCIÓN DE MUJERES
y se lee “p‐sombrero”.
Supongamos por un momento que sabemos que el 50% de nuestra población son mujeres, a pesar
de que en general esto no lo conocemos. Si tomáramos una msa de tamaño 20 de esta población ,
podríamos tener 8 mujeres. Luego nuestra proporción muestral de mujeres sería
p̂ = 8/20 = 0,4.
Este es el valor de nuestra estadística muestral. Si tuviéramos que hacer esto otra vez, elegiríamos
otra muestra , y lo más probable es obtener otro valor de p̂ . Las siguientes actividades nos
enseñarán sobre la distribución muestral de una proporción muestral y sus utilidades.
Primero debemos tener en cuenta que la mayoría de las actividades se basarán en simular procesos
de estimación y examinar muchas de las posibles muestras, y no en examinar absolutamente todas
las posibles muestras del mismo tamaño provenientes de una misma población. La distribución
resultante de estas simulaciones se refiere a la distribución muestral empírica. Estas simulaciones
nos ayudarán a entender mejor los resultados teóricos que se presentarán más adelante.
Ahora es tu turno. Trabaja con un compañero. Uno de ustedes elige una semilla (202) y genera la lista
aleatoria de ceros y unos leyendo de grupos de a 4 cada vez. El otro puede tabular los resultados en
la siguiente tabla. Continúen hasta que hayan simulado un total de 50 ensayos de este proceso de
estimación.
5
RESUELVE 7.1!!!!
0 0,00
1 0,25
2 0,50
3 0,75
4 1,00
¿Qué sucedería si en vez de tomar una msa de tamaño n=4 tomamos una muestra de n=20 personas
en forma aleatoria?
Seguiremos considerando que el 50% de la población son mujeres. Repita los pasos del ejercicio 7.1
pero tomando una msa de tamaño n=20 personas y observe el número de mujeres en la muestra.
Como antes, tomaremos “0” = hombre, y “1” = mujer
6
Seleccione una semilla para generar una larga lista de ceros y unos. Una persona usará R para
generar un grupo de 20 valores.
En los ejercicios de Resuelve! anteriores, vimos que los valores de las proporciones muestrales p̂
varían de muestra a muestra en una forma predecible. La distribución muestral empírica de los
valores de p̂ tiene, aproximadamente, una distribución en forma de campana, centrada alrededor
de la verdadera proporción poblacional p = 0,50, y con un tamaño de muestra grande podríamos
estar aún más seguros que la estadística muestral p̂ estará cerca de la verdadera proporción p.
7
En estos ejercicios conocíamos algo que en general es desconocido ‐conocíamos el valor de la
verdadera proporción poblacional p igual a 0,50‐
Cuando estudiamos y describimos la distribución de una variable, como por ejemplo altura, en los
Capítulos 3 a 5, a menudo comentamos dónde estaban centrados los valores, cuánto variaban los
valores, y sobre toda la forma de la distribución. Hacemos lo mismo aquí para la distribución de una
estadística. En el contexto de describir la distribución muestral de una estadística, usamos los
términos sesgo y variabilidad o precisión.
Una estadística es insesgada si el centro de su distribución muestral es igual al valor del parámetro
poblacional correspondiente.
Las siguientes gráficas muestran algunas posibles combinaciones de sesgo y variabilidad para una
estadística. Para las Estadísticas A y B, el centro de la distribución muestral está centrado en el
verdadero valor del parámetro, ambas son insesgadas. Sin embargo ellas difieren con respecto a la
precisión. A pesar de que ni la Estadística A ni la B pueden garantizar proveernos una estimación
exactamente igual o muy cercana al verdadero valor del parámetro, los posibles valores de la
Estadística A están muchos más cercanos al verdadero valor del parámetro, comparados con aquellos
de la Estadística B.
Para las Estadísticas C y D, la distribución muestral no está centrada en el verdadero valor del
parámetro. La Estadística C subestima consistentemente al verdadero valor del parámetro. Por otro
lado, la Estadística D tiende a sobrestimar al verdadero valor del parámetro. Ambas Estadísticas C y D
son estimadores sesgados del parámetro. A pesar de que la Estadística C es sesgada, tiene alta
precisión. La Estadística D presenta ambas cosas sesgo y baja precisión, en términos de la estimación
del parámetro.
8
Esta estadística muestra poco (en realidad nada) de sesgo Esta estadística muestra poco (en realidad nada) de
y poca variabilidad, es un ejemplo de alta precisión. sesgo y alta variabilidad, es un ejemplo de baja
precisión.
Esta estadística muestra un gran sesgo y baja Esta estadística muestra un gran sesgo y alta
variabilidad. variabilidad
Idealmente, nosotros buscamos un estimador que tenga poco sesgo y poca variabilidad. Un método
que hemos visto para reducir la variabilidad es tomar muestras más grandes. Existe aún un aspecto
más de la variabilidad de una muestra estadística para tener en cuenta.
9
____________________________________________________________________________________
Los siguientes histogramas muestran las distribuciones maestrales de tres estimadores. El verdadero
parámetro poblacional es 8.
10
Paso 1: Dividan la clase en 5 grupos, aproximadamente de igual tamaño.
Paso 2: Asignen uno de los siguientes escenarios a cada grupo. Cada grupo vuelca los resultados
sobre un mismo gráfico.
¿Cuál creen que será el centro, esto es, el promedio o el valor esperado de la distribución
muestral de p̂ ? …………
¿Cómo creen que será la dispersión de la distribución muestral de p̂ ? Den un posible rango
de valores. ………………………….
Paso 4: Cada alumno en un grupo va a simular 10 muestras simples al azar de tamaño n de una
población con proporción p, basada en el correspondiente escenario asignado.
Por ejemplo: si su p=0.1 y su n=50, luego seleccione un dígito entre 0 y 9 para representar la
respuesta Sí, y los dígitos remanentes representan a la respuesta No. Suponga que decide que el
dígito 4 = Sí . Usando la calculadora TI con semilla 40, pude generar la siguiente lista de 50 números
aleatorios enteros entre 0 y 9. Nota: probá utilizando el generador de muestras aleatorias de R.
8207432805797719632807295
8350212358713585439188814
11
Sus 10 resultados:
Resultado # 1 2 3 4 5 6 7 8 9 10
Paso 5: combine sus resultados con los de cada grupo. Cada persona del grupo marca sus 10
respuestas sombreando cada cuadradito arriba del valor correspondiente en la grilla.
Paso 6: Cada grupo presente su combinación de resultados a toda la clase. Dado que cada grupo usó
un color diferente para hacer su histograma, podremos comparar los resultados superponiendo las
transparencias. Comparen los resultados de la distribución muestral de p̂ para cada escenario y
comenten sobre:
12
En el RESUELVE 7.4 la distribución muestral de p̂ fue generada empíricamente para varios
valores de la verdadera proporción, p=0.1, 0.3, 0.5 y 0.7 y basadas sobre tamaños de muestra
igual a 50 y 100. Comprobamos empíricamente que la distribución muestral de p̂ es
aproximadamente normal, centrada aproximadamente en el verdadero valor de la proporción.
Además hemos discutido el concepto de variabilidad de la distribución muestral muy
brevemente. Comparamos visualmente dos distribuciones muestrales y comentamos sobre la
estadística que presentaba menor variabilidad (es decir mayor precisión). Realmente podemos
resumir la dispersión de una distribución muestral con un número, el cual será la desviación
estándar de la distribución muestral, ˆp . Luego la regla 68‐95‐99.7 para distribuciones normales
nos dice que podemos esperar que cerca del 95% de los valores de p̂ caen dentro de dos
desviaciones estándares de la proporción poblacional p.
¿Cómo podemos encontrar la desviación estándar? Podemos registrar la desviación estándar
para cada valor de p̂ de los escenarios planteados en el Resuelve 7.4. Sin embargo estos serán
sólo aproximaciones para esos casos particulares.
Usando matemática, se puede demostrar que si se selecciona una muestra aleatoria simple de
tamaño n de una gran población con verdadera proporción p, luego la desviación estándar de p̂
es igual a:
p (1 p ) n
p (1 p ) n = 0 . 5 (1 0 . 5 ) 100 = 0.05
p (1 p ) n = 0 . 5 (1 0 . 5 ) 50 0.07
Hemos estudiado y simulado una distribución muestral de una proporción muestral. Recopilemos los
resultados más importantes.
13
DISTRIBUCIÓN MUESTRAL DE p̂ [ proporción muestral]
p representa la proporción de elementos en una población que tiene ciertas características, esto es,
la proporción de “éxitos”, donde “éxito” corresponde a tener esa característica.
Si muestras simples al azar de tamaño n son tomadas de una población donde la proporción de
“éxitos” es p, luego la distribución muestral de p̂ tiene las siguientes propiedades:
1. E( p̂ )= p̂ = p Esto quiere decir que el promedio de todos los posibles valores de p̂ es igual al
parámetro p. En otras palabras, p̂ es un estimador insesgado de p.
p (1 p )
2. p̂ = Var ( pˆ ) = Esta es la expresión para la desviación estándar de todos los
n
posibles valores de p̂ .
p(1 p)
p̂ es aproximadamente N ( p; )
n
EJEMPLO 7.2
PROBABILIDADES PARA UNA PROPORCIÓN DE VOTANTES HACIA UN DETERMINADO CANDIDATO.
Si la proporción poblacional de personas que están a favor de cierto candidato es 0,3, luego la
distribución muestral de p̂ , cuando el tamaño de muestra es 400 para cada MSA, es
aproximadamente normal con una media de 0,3 y una desviación estándar de 0,023 ‐verifique esta
desviación estándar.
Usemos esta información para calcular algunas probabilidades de los valores que tomará la
proporción p̂ . Debido a que tenemos una estadística que está normalmente distribuida, para
encontrar probabilidades necesitamos convertir los valores en valores estandarizados z y usar la TI o
una tabla normal. Ver Capítulo 5 para repasar búsqueda de área bajo densidades normales.
a) ¿Cuál es la probabilidad de que menos del 25% de la muestra esté a favor del candidato ?
14
b) ¿Cuál es la probabilidad de que la proporción muestral p̂ ,que se encuentra a favor del candidato,
esté entre 0,25 y 0,35 ?
Más pequeña.
__________________________________________________________________________________
______________________________________________________________________________
El nueve por ciento de la población de USA tiene sangre tipo B. En una muestra simple al azar de 400
personas de esa población, se encontró que 12,5% tenían sangre tipo B.
P( p̂ ≥ 0,125 )=
_______________________________________________________________________________
15
(a) ¿Cuál es la distribución aproximada de la proporción muestral si H0 es verdadera?
Haga un bosquejo
....................................................................................................
............................................................................................................
..........................................................................................................
Nunca conoceremos el verdadero valor de parámetro, tampoco cuán cerca está de él cualquier
estimador particular. Sin embargo, podemos calcular la probabilidad de que: p̂ ± “algo”.contenga al
verdadero valor del p . Ese “algo” es llamado margen de error y aprenderemos más sobre él en el
próximo capítulo.
16
Ejercicios
7.1. Explique brevemente qué entiende por distribución muestral de una estadística.
7.2 Tres estimadores diferentes son propuestos para estimar el parámetro de una población. Los
gráficos de las distribuciones muestrales de los tres estimadores son los que se muestran abajo.
17
a. ¿Qué estimador/es es/son no viciado? Explique.
7.4. Complete cada uno de las siguientes proposiciones, recordando la distribución muestral de la
proporción de bebedores de café en una muestra aleatoria simple de tamaño n adultos de dicha
población. Seleccione exactamente un número en cada caso.
(a) Cuando del tamaño de muestra n aumenta, la desviación estándar de la distribución muestral
(1) Decrece
(2) Crece
(3) Es la misma
(4) No hay suficiente información
(1) Decrece
(2) Crece
(3) Es la misma
(4) No hay suficiente información
(1) Se parece más y más a la distribución de la cual fueron extraídas las muestras
(2) Se parece más y más a la distribución normal
(3) Aparece más concentrada alrededor de la media
(4) Ambas (2) y(3)
(5) Ninguna de las de arriba
7.5 En los Ejercicios de Resuelve! 7.4 anteriores, la distribución muestral de p̂ fue generada
empíricamente por varios valores de la verdadera proporción , p = 0,1; 0,3; o 0,7; y basándose en un
tamaño de muestra de 50 o 100. Hemos visto que la distribución muestral empírica de p̂ es
aproximadamente normal, aproximadamente centrada en la verdadera proporción poblacional con una
p (1 p )
desviación estándar .
n
18
Veamos si las distribuciones muestrales empíricamente generadas soportan la expresión de la desviación
estándar.
b. Para cada supuesto o escenario, use ambos métodos I y II para estimar la desviación estándar de p̂ y
guardar esta estimación en la celda apropiada de la tabla.
Este método encuentra la desviación estándar actual para los valores p̂ generados. Ingrese todos los
valores p̂ dentro de su TI y use el 1‐var stats para calcular la desviación estándar para esta población de
valores p̂ , esto es, lea el valor de σ, no el valor de Sx.
Método I Método II
Supuesto o Tamaño de Proporción . Desviación Desviación Verdadera
Escenario Muestra Poblacional Estándar Estándar Desviación
n p Estimada Estimada Estándar
I 50 0,1
II 50 0,3
III 50 0,7
IV 50 0,5
V 100 0,5
c) Compare cada desviación estándar estimada con la verdadera desviación estándar correspondiente.
p (1 p )
¿Los resultados empíricamente generados mantienen la desviación estándar para p̂ igual a ?
n
d) Responda:
Si se aumenta el tamaño de la muestra, ¿cómo afecta ésto a la desviación estándar de p̂ ?
Si la verdadera proporción se mueve cerca de 0 o 1, ¿ cómo afecta ésta a la desviación estándar de p̂ ?
Para un tamaño de muestra fijo, ¿cómo se compara la desviación estándar cuando p = 0,3 con aquella
cuando p = 0,7?
En general, ¿para qué valores de p se maximiza la desviación estándar?
19
7.6. Suponga que el 60% de todos los estudiantes de una gran universidad acceden a información sobre
cursos por medio de Internet.
Haga un bosquejo de la distribución para la posible proporción muestral basada en una muestra
aleatoria simple de 100 estudiantes.
Use la regla 68‐95‐97.5 de la distribución normal para completar los siguientes enunciados:
(i) Hay una chance del 68% que la proporción muestral esté entre .......... y .........
(ii) Hay una chance del 95% que la proporción muestral esté entre........... y ............
(iii) Es casi seguro que la proporción muestral está entre ..........y............
¿Cuál es la probabilidad de observar una proporción muestral de 0.50, basada en una muestra
aleatoria simple de tamaño 100, si la proporción poblacional fuese de 0.60?. Explique.
Haga un bosquejo de la distribución de las posible proporciones muestrales que podría obtener
basada en una muestra aleatoria simple
de 400 estudiantes.
(i) ¿Cómo difiere con el bosquejo realizado en el primer ítem?
(ii) ¿Cómo el incremento en el tamaño de muestra afectó el rango de valores dado en (i) del
segundo ítem?
7.7 Un método de screening para detectar cáncer de mama, muy utilizado por los médicos, detecta un
85% de las mujeres que realmente tienen la enfermedad. Un nuevo método desarrollado por
investigadores es posible que detecte cáncer más exactamente. Una muestra aleatoria simple de 100
mujeres que efectivamente tienen cáncer de mama son evaluadas usando el nuevo método. El nuevo
método detecta cáncer en 90 mujeres. Sea p la proporción de mujeres con cáncer el cual es detectado
por el nuevo método. La hipótesis para ser testada es : H0:p=0.85 vs. H1: p>0.85 usando un nivel de
significación del 5% .
Supóngase que el nuevo método es tan bueno como el primero, esto es que la tasa de detección
es p=0.85. Dibuje la distribución de las posibles proporciones muestrales que pueden resultar
para una muestra aleatoria simple de tamaño 100 de una población con proporción p=0.85.
¿Cuál es la proporción muestral de mujeres con cáncer detectado con el nuevo método?
¿Cuál es la probabilidad de obtener una proporción muestral igual a la observada o más extrema,
sabiendo que la tasa de detección es p=0.85? Esto es, compute el p‐value para testar la anterior
hipótesis.
7.8. ¿Usted piensa que es importante controlar (limitar)el acceso a la información que brinda Internet?
Suponga que el 60% de los adolescentes americanos, con edades entre 13 y 17, creen que es importante
limitar el acceso a la información de Internet. Esto es, el verdadero parámetro es p=0.60.
20
(i) ¿Cuántas respuestas “Sí” obtuvo?
(j) ¿Cuál es la proporción muestral de respuestas “Sí”?
(k) ¿Obtendrá la misma proporción de respuestas “Sí” en la próxima muestra aleatoria de tamaño 20?
d) Ingrese los resultados de su primera muestra de tamaño 20 en la tabla que aparece al pie.
Continúe su simulación hasta tener un total de 50 muestras de tamaño 20 y tabule los resultados
en la tabla. Usted puede trabajar en grupos y dividir la tarea.
Semilla/Punto de partida:..................
f) Suponga que tiene una muestra aleatoria simple de 20 americanos adultos. Basado en la tabla de
resultados de la parte (d), haga las siguientes estimaciones:
(i) Estime la probabilidad de que exactamente 14 personas piensen que es importante controlar el
acceso a la información de Internet.
(ii) Estime la probabilidad de que exactamente 10 o menos (a lo sumo 10) piensen que es
importante controlar el acceso a la información de Internet.
21
(iii) Estime la probabilidad de que la proporción muestral de personas que piensan que es
importante controlar el acceso a la información de Internet esté entre 0.65 y 0.75, inclusive.
(iv) Estime la probabilidad de que las 20 personas piensen que es importante controlar el acceso a
la información en Internet.
(g) Si usted toma una muestra aleatoria simple de 40 americanos adolescentes, en lugar de 20, afectaría a
la probabilidad de que la proporción muestral esté entre 0.65 y 0.75 inclusive? Explique.
(h) Repita las partes (b) a (f) con un tamaño de muestra 40. Compare los resultados con los obtenidos con
n=20.
Hemos estado simulando qué sucede bajo repetidas muestras simples al azar para examinar la
distribución muestral de una estadística. La distribución muestral resume la variabilidad en los valores de
una estadística de muestra en muestra. Una vez que la distribución muestral de una estadística es
conocida, puede ser usada para predecir la precisión de usar la estadística como un estimador del
parámetro. En esta sección nos abocaremos al estudio de otra estadística muy común ‐la media muestral.
Como parte del ensayo en el que se entrevistó a 3.000 empleadores de toda la nación, con más de 20
trabajadores, incluyendo oficinas, fábricas, y empresas constructoras, se les pidió a los empleadores que
clasifiquen por orden de importancia los distintos aspectos a tener en cuenta a la hora de elegir a sus
empleados. La escala fue desde 1 hasta 5, con 1 como “sin importancia”, y 5 como “muy importante”. Los
factores clasificados fueron, en orden alfabético: Actitud, Credenciales de industrias estables certificando
habilidades, Experiencia anterior, Experiencia o reputación de las escuelas a las que asistieron,
Habilidades en la comunicación, Performance académica (grados), Puntaje en los tests tomados como
parte de la entrevista, Recomendaciones de empleos recientes, Recomendaciones de empleadores
anteriores, Recomendaciones de maestros.
Fuente: National Survey Shows a Rift Between Schools and Business, The New York Times, Febrero 20,
1998.
El factor “Actitud” recibió el valor de media más alto y fue 4,6; mientras que “Recomendaciones de
maestros” recibió la más baja y fue 2,1. Esta media de 4,6 es una media muestral, un valor de x , porque
es calculada de la muestra de empleadores encuestados. Esta media muestral de 4,6 es una estimación de
la media poblacional, .
¿Cree usted que esta media de 4,6 es exactamente igual a la verdadera media para todos los empleadores
?
Su respuesta debería ser “no”. No debemos esperar que esto suceda, pero el departamento encargado
del ensayo estaría contento si por lo menos este resultado muestral estuviera “cerca” del parámetro
poblacional. Suponga que los censistas repitieran esta encuesta con otros 3.000 empleadores,
¿cree usted que la media para “Actitud” para estos empleadores sería exactamente 4,6 ?
22
Otra vez, su respuesta debería ser “no”. Imagine que este proceso se repite muchas veces ‐el proceso
consiste en tomar una muestra de 3.000 empleadores, guardar la media de “Actitud”. Repitiendo este
proceso muchas veces obtendríamos muchas medias muestrales, no todas iguales a 4,6; con algunos
valores que aparecerán más a menudo que otros.
¿Qué valores serían posibles para una media muestral ?
¿Cuán buena es la media muestral, basándonos en una muestra de 3.000 empleadores, para estimar la
verdadera media ? ¿Sabe usted si esta media muestral de 4,6 está cerca de la verdadera media ? ¿Puede
llegar a ser muy diferente de la verdadera media? Si este valor de 4,6 puede no ser la verdadera media,
¿por qué cree que estos resultados fueron reportados y se han sacado conclusiones de ellos ?
SUGERENCIAS EN CLASE!!!!
__________________________________________________________________________________
LA EDAD MEDIA
Estamos interesados en la verdadera edad promedio de nuestra población. Entonces nuestro parámetro
poblacional de interés es = edad media poblacional. Si tuviéramos que sacar una MSA de tamaño 20 de
esta población podríamos tomar nuestra edad media muestral x = 24,6 años. Este es el valor de nuestra
estadística. Si tuviéramos que hacer esto otra vez, tomaríamos una muestra distinta, y más
probablemente un valor diferente de x . Para aprender acerca de la distribución de la media muestral,
podríamos hacer ejercicios similares a aquellos que hicimos para la proporción muestral.
RESUELVE! 7.7 –
DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Considere una población cuyos valores de una variable discreta X se distribuyen con igual probabilidad
sobre los valores 1, 2, 3, 4 y 5. Realice un bosquejo de la distribución de probabilidad.
En este ejemplo, podemos calcular la verdadera media poblacional.
=
(También es fácil observar que la poblacional es 2)
Suponga que no conocemos la verdadera media poblacional . Sin embargo, podemos tomar una
muestra simple al azar de tamaño n=2 de esta población.
23
Examinemos el conjunto de posibles resultados si tomáramos una mas de tamaño n=2 de esta población
completando la siguiente tabla. Notar que los resultados de 2 muestras ya han sido ingresados. [R seed
52]
_______________________________________________________
1,5 2,0 2,5 3,0 3,5 4,0 4.5
Calcule el promedio de todos los valores de X , esto es, sume los 20 valores de X y divídalos
por 20.
Tome 20 muestras más, calcule la media muestral para cada una, y agregue estos resultados a su
gráfico. Calcule el promedio de los 40 valores de x . ¿Cómo se compara este promedio con la
verdadera media poblacional?
....................................................................................................................................................
24
Los resultados que hemos visto recién siguen un modelo predecible, debido a que tomamos una MSA, y
están resumidos aquí:
Si las muestras simples al azar de tamaño n son tomadas de una población con media poblacional y
desvío estándar poblacional , luego la distribución muestral de X tiene las siguientes propiedades:
1. x = E( X ) =
Esto nos dice que el promedio de todos los posibles valores de X es igual al parámetro . En otras
palabras, X es un estimador insesgado de .
2. x
n
Esta es la expresión para el desvío estándar de todos los posibles valores de X .
3. Si la población original es normal, luego la distribución de X es también normal con media y desvío
standard como los dados en los puntos 1 y 2, para cualquier tamaño muestral n
X es N( , )
n
Este último resultado es conocido como Teorema Central del Límite, abreviado TCL. En clases se
dará más información al respecto.
25
EJEMPLO 7.4 ‐BOSQUEJO DE LA DISTRIBUCIÓN
Sea X la duración de un embarazo en días. X es una variable aleatoria continua. Suponga que tiene una
distribución aproximadamente normal con una media de 266 días y desvío standard de 16 días.
........................................ [ menor que 0,5 porque 274 está por encima de la media de 266.]
Encuentre la probabilidad:
c) Suponga que tenemos una SRS de tamaño n=25 mujeres embarazadas. ¿Es más probable o menos
probable, comparando con b), observar un promedio de duración del embarazo mayor a 274 días?
......... menos probable, los promedios varían menos que los valores individuales, por lo tanto observar un
valor extremo de 274 o más grande es más probable para valores individuales ‐el bosquejo también nos
muestra que la probabilidad para la media muestral o promedio será más pequeña.
26
Haga un bosquejo para representar su respuesta.
¿Cuál es la probabilidad de observar una media muestral que exceda los 274 días ?
Debido a que la media muestral está normalmente distribuída, simplemente la standarizamos a un valor Z
apropiado.
X
Z …………………… (indicar distribución de probabilidad)
n
27
________________________________________________________________________
RESPUESTA:
...................................................................................................................................................................
Explique: ……………………………………………………………………………………………………..
28
RESUELVE! 7.9 ‐ACCIDENTES EN ESQUINAS
a) Sea X el número promedio de accidentes por semana en un año, o sea, n=52 semanas.
¿Cuál es la distribución aproximada de X ?
Haga un bosquejo de los ejes y luego de la distribución.
Considere la aplicación del TCL [ teorema central del límite ]
...........................................................................................................................................................
...........................................................................................................................................................
...........
...........................................................................................................................................................
...........................................................................................................................................................
.....................................................................................................................................................
c) ¿Cuán probable es que el total # de accidentes por año sea menor que 100 ?
..............................................................................................................................................................
.............................................................................................................................................................
29
RESUELVE! 7.10 ‐¿ACEPTA EL CARGAMENTO?
Un cargamento de barras de acero será aceptado si la media de la resistencia a las roturas de una
muestra aleatoria de 10 barras es mayor que 250 libras por pulgada cuadrada. El modelo de resistencia a
las roturas es normal con una media de 260 y una variancia de 400. ¿Cuál es la probabilidad de que un
cargamento sea aceptado?
EJERCICIOS
7.9 ¿Verdadero o Falso? (Recuerda: Una oración verdadera deberá ser siempre verdadera.) Y explique
por qué.
El teorema central del límite asegura que la distribución muestral de X es una distribución normal
para cualquier tamaño de muestra n.
7.10 Sea X = “tiempo en procesar un préstamo”, y suponga que X está normalmente distribuída con una
media de 14 días y un desvío estándar de 5 días. Una muestra simple al azar de 25 préstamos será
obtenida y su tiempo de proceso será guardado. Haga un bosquejo y clasifique apropiadamente la
distribución para la media muestral del tiempo de proceso ( X ) para una muestra simple al azar de 25
préstamos.
7.11 Se dispone de los resultados SAT de todos los estudiantes de primer año de la Universidad de
Michigan para el año académico 2008‐2009.
Suponga que esta información puede ser adecuadamente modelada con una distribución normal con
una media de 1.250 y desvío standard de 150.
a) Basándonos en el modelo , ¿cuál es la probabilidad de que la media de los resultados SAT se
encuentre entre 1.200 y 1.400 ?
b) Se elige una muestra simple al azar de 36 estudiantes de primer año. ¿Cuál es la probabilidad de
que la media de los resultados SAT para estos estudiantes se encuentre entre 1.200 y 1.400 ?
c) Explique, con la ayuda de un bosquejo adecuado, por qué las respuestas de los puntos a) y b) no son
las mismas.
7.12 La distribución de la variable X = EDAD, en años, para todos los N = 20 chicos que viven en un
condominio es mostrada en el siguiente gráfico:
*
* *
* * * * *
* * * * * * * * * * * *
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
30
Suponga que tomamos 1.000 muestras aleatorias con reemplazo, cada una de tamaño 100, de
esta distribución y calculamos la media muestral,X , para cada muestra.
¿Cuál sería la distribución aproximada de estos 1.000 valores de X ?
7.13 La distribución, llamada distribución triangular, para una variable aleatoria continua X está dada:
p(x)
0,25
0 8 X
a. Basándonos en esta distribución, ¿es la mediana de X igual a 4 ? Explique su respuesta.
Sugerencia: podría hacer en un papel un modelo de la distribución.
b. ¿Es la mediana de esta distribución igual a su media ? Marque su respuesta: Sí No
Si su respuesta es Sí, explique por qué. Si su respuesta es No, establezca qué valor es más grande y
explique.
c. Suponga que tomamos una muestra simple al azar de tamaño 500 de esta población. ¿Cuál de los
siguientes histogramas representa mejor a la distribución muestral de X ? Explique.
7.14 Se llevó a cabo una convención de luchadores de Sumo en un hotel. Se sabe que los pesos de los
luchadores están normalmente distribuídos con una media de 540 libras y un desvío standard de 45
libras. El ascensor del hotel tiene capacidad para 9 luchadores. Suponga que una muestra simple al azar
de 9 luchadores entra en el ascensor. El ascensor no funcionará si el total del peso de los ocupantes
excede las 5000 libras. ¿Cuál es la probabilidad de que el ascensor no funcione ?
31
7.15 Describiendo algunos de Los Básicos:
a) ¿Qué es una estadística?
b) ¿En qué se diferencia una estadística de un parámetro ?
c) ¿Qué es la distribución muestral de una estadística ?
d) ¿Cómo puede generar empíricamente la distribución muestral de una estadística ?
7.16 Dos estudiantes han discutido las ideas presentadas en este capítulo.
El estudiante #1 piensa que es “el número de muestras usadas” el que determina la dispersión ( o
variabilidad ) de una distribución muestral empírica.
El estudiante #2 piensa que es el “el tamaño de cada muestra usada” el que determina la variabilidad de
una distribución muestral empírica.
Ahora necesitan su consejo. ¿Quién tiene razón ? Explique su decisión.
__________________________________________________________________________________
7.5 Resumen del Capítulo
En este capítulo hemos estudiado cómo una estadística varía en repetidas muestras aleatorias, o sea,
hemos estudiado la distribución muestral de una estadística. Es la aleatoridad en el proceso de muestreo
el que produce estas distribuciones muestrales. Estas serán usadas en el próximo capítulo cuando nos
aboquemos a procedimientos de inferencia más formales. Conociendo la distribución de una estadística
nos resultará más fácil entender qué valores esperar bajo una H0 en particular. Nos permitirá decidir si
nuestros resultados observados son consistentes con H0 o si son inusuales bajo H0, a través del p‐value.
Nos hemos centrado en la distribución muestral de una proporción muestral y de una media muestral. En
la siguiente tabla se provee un resumen de estas distribuciones muestrales.
__________________________________________________________________________________
Distribución muestral de p̂ [proporción muestral]
Sea p la proporción de veces que se presenta un cierto suceso, o sea , la proporción de “éxitos”, donde
“éxito” indica que el suceso ocurre.
Si se toma una muestra simple al azar de tamaño n de una población donde la proporción de “éxitos” es
p, y si n es grande, luego p̂ es aprox. N p , p(1 ‐ p )
n
o sea, la distribución de p̂ es aproximadamente normal cuando el tamaño de muestra es grande.
__________________________________________________________________________________
Distribución muestral de X [ media muestral]
Si se toma una msa de tamaño n de una población con media poblacional y desvío standard poblacional
, luego ...
Si la población original está normalmente distribuída, la distribución de X también es normal
X es N , 2
n
Si la población original no está normalmente distribuída , pero el tamaño de muestra es grande, la
distribución de X es aproximadamente normal
32
TÉRMINOS CLAVES:
Asegúrese de que puede describir, con sus propias palabras, y dar un ejemplo de cada una de las
siguientes palabras claves de este capítulo.
Distribución muestral
Insesgado
Precisión
Sesgo
Variabilidad
Distribución muestral empírica
Teorema Central del Límite
Estadística muestral
Parámetro poblacional
33
________________________________________________________________________________
EJERCICIOS EXTRAS!!!!
7.17 Considere otra estadística, como por ejemplo la media. ¿Es la media muestral un estimador
insesgado de la media poblacional ? ¿Cómo se ve la distribución de la media muestral ?
Explique brevemente qué es la distribución muestral de la media y cómo generaría
empíricamente esta distribución muestral.
7.18 Para las mujeres adultas, el número de glóbulos rojos obtenidos en un análisis de sangre
tiene una media de 4.500.000 por mm3 y un desvío estándar de 350.000 por mm3. Suponga que
los números de glóbulos pueden modelarse aproximadamente a través de una distribución
normal.
a) ¿Cuál es la probabilidad de que una mujer adulta elegida aleatoriamente, tenga un número
de glóbulos rojos mayor que 5.000.000 por mm3 ?
b) Se toma una muestra simple al azar de 40 mujeres adultas. ¿Cuáles la probabilidad de que
la media del número de glóbulos ( X ) para estas mujeres sea 4.400.000 por mm3 o menos ?
7.19 Suponga que el 60% de la facultad votó a favor de tener que hacer un curso obligatorio de
primeras letras para poder recibirse. El diario local llamó a 100 miembros de la facultad en forma
aleatoria. ¿Cuál es la probabilidad aproximada de que menos de la mitad de ellos hayan votado a
favor del curso?
7.20 Una compañía empaca ganchos para papel en cajas de “100 piezas”. Hemos contado los
ganchos de esas cajas y encontramos que el número en una caja varía desde 93 o 94, como
mínimo, hasta un máximo de 100. Suponga que el número de ganchos en cajas producidos por
esta compañía tiene una media de 100 y un desvío standard de 8. Un cartón está compuesto por
64 cajas de ganchos. Suponga que un cartón puede ser considerado como una muestra simple al
azar de 64 cajas. Sea X la media de ganchos por caja para un cartón de 64 cajas.
a) Use la distribución aproximada de X para calcular la probabilidad aproximada de que la
media de ganchos por caja, esté entre 98 y 100.
b) Encuentre la probabilidad aproximada de que un cartón de 64 cajas contenga menos de
6.300 ganchos en total, más de 100 faltantes entre los 6.400.
7.21 Considere el conjunto de dígitos siguiente: 0,1,2,3,4. Estos 5 valores forman una población.
a) ¿Cuál es la media de esta población ? ¿Cuál es la variancia ?
b) Tome 25 muestras aleatorias de tamaño n=2 de esta población, use una semilla=83.
Para cada muestra, calcule la media muestral y el rango.
b) Haga un histograma mostrando la distribución muestral de las medias muestrales de la
parte b).
d) Tome 25 muestras aleatorias de tamaño n=5 de esta población, use una semilla=124.
Para cada muestra, calcule la media muestral y el rango.
e) Haga un histograma mostrando la distribución muestral de todas las medias muestrales de
la parte d).
f) Comente y compare los dos histogramas para la media muestral ( c) y e) ).
34
7.22 Energía Eléctrica produce una bombilla o lámpara de luz blanca, suave, de 100 watt para la
cual establecieron un promedio de duración de 750 horas. Considere que el desvío standard es
120 horas. Suponga que una agencia consumidora selecciona aleatoriamente 100 de estas
bombillas y encuentra una media muestral de 735 horas. ¿Debería la agencia consumidora dudar
de lo establecido por los fabricantes ? Provea evidencia para demostrar su respuesta.
7.23 Dos organizaciones públicas de la salud tomaron muestras simples al azar de adultos
residentes en Michigan para estimar la media del nivel de colesterol en la población de adultos
de Michigan. La primera toma una muestra de 100 adultos y la segunda una de 1.000 adultos. ¿Es
probable que la segunda organización obtenga una media muestral más alta que la primera ?
Explique.
________________________________________________________________________________
35