Documentos de Académico
Documentos de Profesional
Documentos de Cultura
muestral de estadísticos
Hoy la Estadística está considerada como la teoría de la información, no solo como función descriptiva,
sino con el objeto básico de hacer estimaciones acerca de los valores estadísticos de la población o en la
comprobación de hipótesis de aquellas características que han sido investigadas.
De lo anterior se observa que la estadística cubre dos aspectos de gran importancia: la estadística
descriptiva, a través de la recolección, clasificación, presentación, ya sea en forma de cuadros o gráficas,
la aplicación de medidas como promedios, desviaciones, etc., y la interpretación y análisis de datos a fin
de obtener conclusiones. Se realiza un proceso deductivo de lo general a lo particular.
El segundo aspecto es la inferencia estadística o método inductivo, el cual mediante investigaciones por
muestreo, se logra obtener resultados considerados como estimadores de los valores estadísticos,
correspondientes a las características de las unidades que conforman la población.
Se podría afirmar que la tarea más importante de la estadística es la realización de inferencias acerca de
una población objetivo, con base en los resultados obtenidos a través de una muestra.
Sin el muestreo, la investigación de mercados no existiría como tal como la conocemos en la actualidad.
Virtualmente, todo estudio de investigación de mercados requiere la selección de algún tipo de muestra.
Es un agregado de unidades individuales, compuesto de personas o cosas, que se hallan en una temática
determinada. Las unidades individuales se llaman unidades elementales. Definir una población es limitar
el alcance de las unidades elementales de acuerdo al interés que se tiene respecto a alguna característica
de la población. Tanto la definición de una población como la característica a ser observada de sus
unidades elementales dependen de la naturaleza del problema.
Las poblaciones pueden ser infinitas y finitas.
Una población infinita es la que contiene un número infinitamente grande unidades elementales; la
cantidad de camisas producidas en el mundo; todos los posibles resultados al lanzar una moneda
continua e infinitamente.
Una población es finita, cuando tiene un número finito de unidades elementales. Por ejemplo los
estudiantes de la Universidad Dr. José Matías Delgado; el número de colegios privados de Santa Ana.
2.3 Diseños muéstrales. Son los distintos procedimientos que existen para extraer muestras de
poblaciones con el objeto de conocer sus características promedio. Es interesante saber cómo a
través del análisis de sólo una parte representativa de la población se puede inferir lo que está
ocurriendo en toda la población.
2.4 Los elementos. Son los que integran la población o muestra, pueden corresponder a personas,
objetos o cosas. Es la unidad acerca de la cual se solicita información. Además el elemento
puede ser una entidad simple (una persona) o una entidad compleja (una familia), que se
denomina unidad, la que, a su vez, puede estar compuesta de elementos o de unidades, que en
algunos casos se les define como conglomerados. Los elementos más comunes del muestreo en
investigación de mercados son los individuos. En otros casos, los elementos podrían ser
productos, almacenes, empresas, familia, etc.
2.5 Unidad de muestreo. Es el elemento o los elementos disponibles para su selección en alguna
etapa del proceso de muestreo. En el tipo de muestreo más simple, el de una sola etapa, las
unidades y los elementos de muestreo son los mismos.
Las unidades de muestreo son aquellos elementos o grupos de elementos que forman la base de una
selección de muestras. Pueden o no ser idénticas al listado de las unidades. Cuando se dispone de una
lista completa de elementos de la población, en general, es más conveniente extraer una muestra
directamente de la lista, en cuyo caso el muestreo sería lo mismo que el listado de unidades.
Un proceso de muestreo puede tener tantas etapas como el investigador desee. Todo lo que tiene que
hacer es especificar la unidad de muestreo en cada etapa. Por ejemplo, una muestra de cuatro etapas
podría ser:
a) Etapa 1. Ciudades con una población superior a 500,000 habitantes
b) Etapa 2. Manzanas de ciudades
c) Etapa 3. Familias
d) Etapa 4. Hombres de 50 años y más
2.6 Marco del muestreo: se denomina marco, marco muestral o marco de referencia, a la
lista, mapa o cualquier otro material aceptable, que contenga todas las unidades o elementos
perfectamente identificados y actualizados, de la cual se selecciona la muestra. El marco
muestral es un listado, actualizado, y revisado, de todos los elementos que constituyen la
población que va a ser objeto de investigación que se utilizarán para obtener una muestra. Es una
lista de todas las unidades de muestreo disponibles para su selección en una etapa del proceso
2.10 La medición es la etapa intermedia que consiste en contar, medir y formular preguntas.
2.12 Las listas son un inventario de unidades de una población o subpoblación, que tiene una
correspondencia directa, uno a uno entre cada ítem listado y la unidad que representa. Un ejemplo
2.20 El estimador por intervalos, es una regla que nos indica cómo calcular dos puntos o valores a
través de una muestra. La estimación por intervalos, es la estimación del parámetro mediante la
especificación de un intervalo de valores, determinado por un límite inferior y otro superior
(límites de confianza) dentro del cual estará comprendido el valor verdadero o parámetro
poblacional.
Se dice que un buen estimador debe ser:
a) Insesgado, es decir que no tenga sesgo, error, cuando el valor del estimado es igual al del
parámetro. En caso contrario la estimación es sesgada.
b) Consistente, es aquel estimador que, al aumentar el tamaño de la muestra, converge en
probabilidad al parámetro que estima.
c) Eficiente, es el estimador que tiene la menor varianza entre todos los estimadores posibles.
d) Suficiente, cuando incluye toda la información que la muestra puede proporcionar acerca del
parámetro.
2.21 El intervalo de confianza, corresponde a un intervalo de valores, dentro de los cuales se espera
que este el parámetro con cierto grado de confianza o con riesgo de error conocido; para ello es
necesario determinar primero la estimación puntual.
El muestreo aleatorio se denomina también muestreo probabilístico, ya que se puede emplear las
leyes de la probabilidad. El termino muestreo aleatorio se utiliza para el proceso empleado para
seleccionar la muestra; por consiguiente, la aleatoriedad es una propiedad del procedimiento
muestral que puede entrar en un proceso de muestreo de distintas formas, y, por lo tanto, las
muestras aleatorias pueden ser de varios tipos.
El muestreo probabilístico es un proceso de selección de muestras en el cual los elementos son
escogidos por métodos aleatorios. Existen numerosas variaciones en el muestreo probabilístico,
pero todas comparten un rasgo común: la selección de las unidades para la muestra se realiza
por procedimientos al azar y con probabilidades conocidas.
El muestreo no aleatorio incluye todos los métodos en que las unidades elementales de la
población no se seleccionan por procedimientos al azar.
Ahora veamos el caso de muestreo sin reemplazo. Tomemos siempre muestras de tamaño n=2. El
número de muestras a tomar, es el resultado del desarrollo del siguiente combinatorio:
N N! 3 3! 3 x 2 x1
; sustituyendo : 3
n n !( N n)! 2 2!(3 2)! 2 x1x1
Sustituyendo:
El MAS tiene muchas características convenientes, como el hecho de que es fácil de entender y
que los resultados de la muestra pueden extrapolarse a la población meta. La mayoría de las
técnicas de inferencia estadística suponen que los datos se recabarón usando un muestreo
aleatorio simple. Sin embargo este método sufre de al menos cuatro desventajas importantes:
a) A menudo resulta difícil construir un marco de muestreo que permita extraer una
muestra aleatoria simple.
b) El MAS llega a generar muestras muy grandes o extendidas en amplias zonas geográficas
lo cual incrementaría el tiempo y el costo de la recolección de datos.
c) El MAS a menudo produce menor precisión con mayores errores estándar que otras
técnicas de muestreo probabilístico.
d) Quizá el MAS no generé una muestra representativa.
Aunque en promedio las muestras obtenidas representarán bien a la población meta, una
muestra aleatoria simple determinada quizá no lo haga, lo cual es más probable si es pequeño el
tamaño de la muestra. Por estas razones, en la investigación de mercados no suele emplearse el
MAS. Son más populares procedimientos como el muestreo sistemático.
4.2 Muestreo aleatorio sistemático. La selección de las unidades se hace a intervalos regulares, en
un orden sistemático. Según el procedimiento sistemático, se obtiene una muestra tomando
cada “k-ésima unidad” de la población, tras enumerar las unidades elementales de la población o
haberlas ordenada de alguna manera. La “k” representa un número entero, que es
aproximadamente la “razón de muestreo” entre el tamaño de la población (N) y el tamaño de la
muestra “n”; es decir, K = N/n y, se redondea al número entero más cercano. Así, si la población
consta de 3,600 unidades de muestreo, y se desea tomar una muestra de tamaño n= 400
unidades, entonces, la razón de muestreo k = 3600/400 = 9, y la muestra se obtiene tomando
una unidad de cada 9 de la población. Para lograr la aleatoriedad, el instrumento debe empezar
al azar. Así como en nuestro ejemplo k = 9, se escriben en 9 papelitos números del 1 al 9: luego
se extrae uno al azar. Supongamos que salió el papelito con el número 5, ésta será la primera
unidad que formará la muestra; el siguiente es 5 + k o sea 5 + 9 = 14; el tercero es 14 + 9 = 23 y
así sucesivamente, hasta completar las 400 muestras.
Para hacer el MS, el investigador supone que los elementos de la población están ordenados de
alguna manera. En algunos casos, el orden (por ejemplo, la lista alfabética del directorio
telefónico) no tiene relación con las características de interés; pero en otros casos, el
ordenamiento está directamente relacionado con las características investigadas. Por ejemplo,
puede listarse a los clientes de tarjetas de crédito según el orden del saldo del acreedor, u
ordenarse a las empresas de un determinado sector de acuerdo a sus ventas anuales. Si el
ordenamiento de los elementos de la población no tienen relación con las características de
interés, el MS arrojará resultados muy similares al MAS.
Por otro lado, cuando el ordenamiento de los elementos está relacionado con las características
de interés, el MS incrementa la representatividad de la muestra. Si las empresas de un sector se
disponen en un orden ascendente de ventas anuales, la muestra sistemática incluirá algunas
empresas pequeñas y algunas grandes. Por ejemplo, una muestra aleatoria simple quizá no sea
representativa porque sólo incluye empresas pequeñas o una cantidad desmesurada de
empresas pequeñas.
Si el ordenamiento de los elementos produce un patrón cíclico, el MS puede disminuir la
representatividad de la muestra. Por ejemplo, considere el uso del MS para generar una muestra
de las ventas mensuales de una tienda departamental, a partir de un marco de muestreo que
contiene las ventas mensuales de los últimos 40 años. Si se elige un intervalo de muestreo de 12,
tal vez la muestra resultante no refleje la variación mensual en las ventas.
El MS es menos costoso y más sencillo que el MÁS, porque la selección aleatoria se hace sólo una
vez. Además, los números aleatorios no tienen que concordar con los elementos individuales
como en el MAS. Como algunas listas contienen millones de elementos, es posible ahorrar
mucho tiempo y reducir así el costo del muestreo. Si se dispone de información de la población
que esté relacionada con las características de interés, puede usarse el MS para obtener una
muestra más representativa y confiable (menor error de muestreo) que el MAS. Otra ventaja
relativa es que el MS puede usarse incluso sin conocer la composición (elementos) del marco de
muestreo. Por ejemplo, cuando se aborda a cada i-ésima persona que sale de una tienda
departamental o de un centro comercial. Por estas razones es frecuente el uso del MS en
encuestas a los consumidores por correo, telefónicas, en centros comerciales y por Internet.
4.3 Muestreo aleatorio estratificado (MAE). (Asignación igual, proporcional y óptimo). Es un proceso
de dos pasos en que la población se divide en subpoblaciones o estratos. Dentro de cada estrato
están los elementos situados de manera más homogénea con respecto a las características en
estudio. Los estratos tienen que ser mutuamente excluyentes y colectivamente exhaustivos, por
lo que cada elemento de la población debe asignarse a un único estrato sin omitir algún
elemento de la población. Para cada estrato se toma una submuestra a través del procedimiento
aleatorio simple, y la muestra global se obtiene combinando las muestras de todos los estratos.
Aunque en teoría sólo debe emplearse el MAS para seleccionar los elementos de cada estrato, en
ocasiones se emplea el MS y otros procedimientos de muestreo probabilístico.
Las variables utilizadas para dividir a la población en estratos se conocen como variables de
estratificación. Los criterios para la selección de estas variables incluyen homogeneidad,
heterogeneidad, relación y costo. Dentro de un estrato, es necesario que los elementos sean tan
homogéneos como sea posible, mientras que los elementos de los diferentes estratos requieren ser
tan heterogéneos como sea posible. Las variables de estratificación deben tener una relación
estrecha con las características de interés. Cuanto mejor se cumplen estos criterios, mayor será la
eficacia en el control de la variación externa al muestreo.
Las variables que suelen usarse para la estratificación incluyen características demográficas, tipo de
cliente, tamaño de la empresa o tipo de industria.
Es posible usar más de una variable para la estratificación, aunque por razones pragmáticas y de
costo rara vez se utilizan más de dos. El número de estratos a utilizar es cuestión de juicio, pero la
experiencia sugiere que no se usen más de seis. Con más de seis estratos, cualquier ganancia en
precisión se pierde por el mayor costo de la estratificación y el muestreo.
Supóngase, por ejemplo, que se desea implementar un seguro de vida para los maestros que laboran en
el país. Para tal propósito se tomara una muestra que represente el 10% de la población de maestros del
país. De acuerdo a datos del Ministerio de Educación el total de maestros por edades es el siguiente:
Para escoger las unidades elementales de cada estrato se puede proceder así: Se puede hacer de dos
maneras: 1) por muestreo aleatorio simple, utilizando tablas de números aleatorios y 2) por muestreo
aleatorio sistemático.
La solución por el segundo método podría ser: para este diseño se numeran las subpoblaciones de los
estratos. Por ejemplo, para el estrato 26 – 35 años, se numeran así: 1,2,3,4,5,…., 7680; luego se establece
la razón de muestreo k = N 2 / n2 = 7680/768 = 10; seguidamente, se numeran 10 papelitos del 1 al 10,
luego se revuelven en una caja y se extrae un papelito. Supongamos que el papel tiene escrito el número
7, éste constituye, por tanto, la primera unidad muestral; la siguiente es 7 + k, o sea, 7 + 10 = 17; la
tercera 17 + 10 = 27 y así sucesivamente, hasta completar los 768 de este estrato. Lo mismo se hace con
el resto de los estratos.
Ahora suponga que, de los 600 consumidores en la población, del ejemplo 1 del tema anterior, 200 son
bebedores habituales y 400 son bebedores ocasionales. Si un investigador valora más la opinión de los
primeros, con relación a la de los segundos, se tendrán que muestrear más personas del grupo de
bebedores habituales. En estas circunstancias, se podrá utilizar un muestreo estratificado inversamente
proporcional. Si se desea un tamaño de muestra de 60, se emplea un muestreo estratificado
inversamente proporcional de 10%.
Denominador:
600 / 200 600 / 400 3 1.5 4.5
Proporción y tamaño de la muestra de bebedores habituales:
3 / 4.5 0.667; 0.667 60 40
4.4 Muestreo por conglomerados, por áreas o geográfica (Diseño de etapas múltiples).
Es lo contrario al muestreo por estratos. Consiste en seleccionar, primero, al azar grupos, llamados
conglomerados de elementos individuales de la población, mutuamente excluyentes y colectivamente
exhaustivos. Luego se selecciona una muestra aleatoria de conglomerados con base en una técnica de
muestreo probabilístico, acá se toman luego todos los elementos o una submuestra de ellos dentro de
cada conglomerado, para constituir así la muestra global. El área total se divide en pequeñas áreas las
que son muestreadas. Cada área seleccionada podrá ser subdividida y enumerada para una nueva
selección, si es necesario, y así sucesivamente dando origen al muestreo por etapas o polietápico. Para
lograr los mejores resultados en el plan de muestreo por conglomerados, las diferencias entre ellos se
hacen tan pequeñas como sea posible; en tanto que, las diferencias entre los elementos individuales
dentro de cada conglomerado se hacen tan grandes como sea posible. Lo ideal sería que cada
conglomerado fuera una miniatura de toda la población y así un solo conglomerado sería una muestra
satisfactoria.
Con frecuencia los conglomerados se llaman unidades de muestreo primario. Si todos los elementos o
unidades elementales de los conglomerados seleccionados se incluyen en la muestra, el procedimiento
se llama muestreo de una etapa. Si se saca una submuestra aleatoria de elementos de cada
conglomerado seleccionado, se tiene lo que se llama muestreo en dos etapas o bietápico. Si intervienen
más de dos etapas en la obtención de la muestra total, se dice que es un muestreo de etapas múltiples o
multietápico.
Por ejemplo, en una encuesta sobre actitudes de los estudiantes de una Universidad de El Salvador, se
toman como conglomerados las distintas facultades (que constituyen unidades de muestreo primarias).
Esta es la primera etapa. La segunda etapa podría ser la selección de departamentos dentro de cada
facultad. Por último, en la tercera etapa, se toman estudiantes de todos los departamentos seleccionados
para construir la muestra global. Desde luego, los métodos de muestreo se emplean en cada etapa.
Ejemplo (tomado del libro Investigación de mercados de David A. Aaker, V. Kumar y George S. Day).
Suponga que se necesita muestrear el estado de California. El primer paso consiste en desarrollar un
muestreo por agrupamientos de condados del estado. Cada condado tiene una probabilidad
proporcional a su población de estar en la muestrea de agrupamientos. Así, el condado más grande “el
de Los Ángeles” será más probable que esté en la muestra que un condado rural. El segundo paso
El enfoque consiste en obtener un número aleatorio entre 1 y 100,000. Para ello se utiliza la tabla de
números aleatorios. Suponga que se selecciona el número 89,701. Este número se localiza en la
columna de Población acumulada y se observa que corresponde a la ciudad de Austin.
Claramente, la ciudad más grande, Filmore, tendrá la mejor oportunidad de ser seleccionada (de
hecho una probabilidad del 60%) y la ciudad de Cooper la de menor probabilidad (solo del 2%).
4.5 Muestreo por agrupamiento. En este caso la eficiencia se mejora disminuyendo el costo a una
tasa más rápida que la exactitud. Al igual que el muestreo estratificado, este es un proceso de
dos pasos. A diferencia del muestreo estratificado, el proceso de muestreo por agrupamiento
implica dividir a la población en subgrupos, que aquí se denominarán agrupamientos en lugar de
estratos. Sin embargo, en este caso se selecciona una muestra aleatoria de subgrupos o
agrupamientos y se entrevista a todos los miembros de los subgrupos. Aun cuando el muestreo
por agrupamientos es muy eficaz en costos, tiene sus limitaciones. Da por resultado muestras
relativamente imprecisas, y es difícil formar agrupamientos heterogéneos debido a que, por
ejemplo, las familias de una calle tienden a ser similares más que diferentes.
Las diferencias entre el muestreo estratificado y el muestreo por agrupamiento son sorprendentes y se
muestran en el siguiente cuadro.
4.6 Muestreo por fases. En ocasiones es conveniente y económico recoger cierta información de
elementos de la población muestreándolos varias veces. En la primera fase se selecciona una
muestra y se reúne alguna información de todos sus elementos. En la segunda fase, se extrae una
submuestra de la muestra original y se obtiene información adicional de los elementos de la
submuestra. El procedimiento puede extenderse a tres o más fases, las cuales pueden ocurrir al
mismo tiempo o en diferentes momentos. Cuando se hacen dos fases se le llama muestreo doble
y es útil cuando no se dispone de un marco de muestreo para la selección final de las unidades
de muestreo, pero se sabe que los elementos del marco están incluidos en un marco de
muestreo mayor.
Por ejemplo, un investigador desea seleccionar hogares que consumen jugo de manzana en una
determinada ciudad. Los hogares de interés están contenidos dentro del conjunto de todos los
hogares, pero el investigador no sabe cuáles son. Al aplicar el muestreo doble, en la primera fase el
investigador podría obtener un marco de muestreo de todos los hogares, comprándolo o
4.7 Muestreo por secuencia. Los elementos de la población se muestrean en secuencia, en cada
etapa se realizan la recolección y el análisis de los datos, y se decide si deben muestrearse
elementos adicionales de la población. No se conoce de antemano el tamaño de la muestra, pero
antes de iniciar el muestreo se establece una regla de decisión. En cada etapa, esta regla indica si
el muestreo debe continuar o si se ha obtenido suficiente información. El muestreo por
secuencia se ha utilizado para determinar las preferencias por dos alternativas rivales. En un
estudio se preguntó a los encuestados cuál de las dos alternativas preferían y el muestreo
terminó cuando se acumuló evidencia suficiente para validar una preferencia. También se ha
empleado para establecer el precio diferencial entre un modelo estándar y un modelo de lujo de
un artículo de consumo duradero.
1. Desarrolle una lista de población o un marco de muestreo para un estudio de actitudes cuando la
población meta está constituida por:
a. Todos aquellos que usaron un sistema de transporte público durante el mes pasado.
b. Tiendas al menudeo de artículos de deportes.
c. Tiendas que venden televisores.
d. Espectadores de televisión en la noche.
e. Familias de elevados ingresos.
f. Adultos de más de 18 años en San Salvador.
2. Para la pregunta 1 examine como podrían estratificarse las diversas poblaciones.
3. Un fabricante desea obtener las opiniones de 4,000 propietarios de almacenes que venden sus
refrigeradores, para conocer qué características son más importantes para ellos. Un colega
proporcionó una lista de tales almacenes, divididos en 400 almacenes grandes y 3,600 almacenes
pequeños. Tomo una muestra aleatoria de 200 almacenes y quedó desilusionado al descubrir
sólo 19 almacenes grandes en la muestra, ya que representaban más de 30% del volumen
potencial. Un amigo le sugirió que tomará una segunda muestra. ¿Qué recomienda usted? ¿Qué
otros elementos de información le gustaría tener?
4. Se planea una encuesta por teléfono para determinar qué tanto se recordaban al siguiente día de
varios comerciales de prueba que se van a lanzar en el país. Diseñe un plan de muestreo de
teléfonos.
5. Los propietarios de una cadena de siete farmacias desean hacer una muestra de compradores de
su cadena y de compradores de una cadena competidora para poder aplicar un cuestionario de
10 minutos. Desarrolle planes de muestreo alternativos. Recomiende uno y fundamente su
decisión.
6. Explique las diferencias entre el muestreo estratificado y el muestreo de agrupamientos.
7. Describa brevemente el concepto de eficiencia del muestreo y explique las formas en que
podrían mejorarse.
5 DISTRIBUCIONES MUESTRALES
Corresponden a una distribución de todas las muestras que pueden ser escogidas conforme a un
esquema de muestreo especificado, que implique selección al azar y, a una función de un número fijo de
variables aleatorias independientes.
De una población a estudiar, se selecciona una sola muestra posible de igual tamaño, con el fin de
obtener conclusiones sobre la población, no sobre la muestra.
La selección de las unidades que van a conformar la muestra debe hacerse al azar, mediante un
generador de números aleatorios, usando cualquier método (es muy utilizado las tablas de números
aleatorios).
Una distribución muestral de medias o una distribución en el muestreo de la media se definen como
el conjunto de todas las medias que se pueden calcular en todas las muestras posibles que se pueden
extraer, con o sin reemplazo, de una determinada población.
La distribución muestral de es la distribución de probabilidad de todos los valores de la media
x
muestral .
x
N n
xi s
(x x )
i
2
i n 1
N
N N!
M ; cuando la selección se hace sin reposición
n ( N n)!.n !
x
x i
La media de todas las medias muéstrales es igual a la media
poblacional.
M
X E(x )
f .x La media de las medias muéstrales
Donde f: frecuencias en las clases
f
En Estimación Puntual:
1. Dada un población finita que tiene cinco elementos A, B, C, D y E seleccione 10 muestras aleatorias
simples de tamaño 2. Asuma muestreo sin reposición.
a. Enumere las 10 muestras empezando con AB, AC y así en lo sucesivo.
b. Usando el muestreo aleatorio simple, ¿cuál es la probabilidad que tiene cada muestra de
tamaño 2 de ser seleccionada?
c. Si el número aleatorio 1 corresponde a A, el número 2 corresponde a B y así sucesivamente.
Enliste la muestra aleatoria de tamaño 2 que será seleccionada al usar los números aleatorios
siguientes: 8-0-5-7-5-3-2.
2. Suponga que una población finita tiene 350 elementos. A partir de los últimos tres dígitos de cada
uno de los siguientes números aleatorios de cinco dígitos (por ejemplo: 601, 022, 448,…), determine
los primeros cuatro elementos que se seleccionarán para una muestra aleatoria simple. 98601-
73022-83448-02147-34229-27553-84147-93289-14209.
3. A continuación se presentan las 10 acciones más activas en la Bolsa de Nueva York del 6 de enero del
2011. AAT&T; Pfizer; Lucent; Texas Instruments; Nortel; General Electric; Qwest; iShrMSJpn; Bell
South; LSI Logic. Las autoridades decidieron investigar las prácticas de negociación usando una
muestral de tres de estas acciones.
a. Empezando en el primer número aleatorio de la columna seis de la tabla anexa de números
aleatorio, lea los números descendiendo por esa columna para seleccionar una muestra
aleatoria simple de tres acciones para las autoridades. Considere los últimos dígitos del
número en la tabla.
b. Con la información dada en la primera nota y comentario, determine cuantas muestras
aleatorias simples diferentes de tamaño 3 pueden seleccionarse de una lista de 10 acciones.
4. El centro nacional de estadística cuenta con información de los 3,139 poblados de un país. Suponga
que para un estudio nacional se recogerán datos de 30 poblados seleccionados aleatoriamente. De la
última columna de la tabla de números aleatorios anexa extraiga números aleatorios de cuatro
dígitos para determinar los primeros 10 poblados seleccionados para la muestra. Ignore los primeros
dígitos y empiece con los números aleatorios de cuatro dígitos.
5. Suponga que se va a tomar una muestra aleatoria simple de 4 alumnos de los 25 alumnos que
componen la clase de Estadística 2. De la tabla de números aleatorios anexa use al azar cualquier
columna de datos para determinar números aleatorio de dos dígitos a fin de establecer cuáles serán
los alumnos (preguntar el primer nombre) para la muestra.
6. Indique si las poblaciones siguientes se consideran finitas o infinitas.
a. Todos los votantes registrados en el departamento de San Salvador.
b. Todos los equipos de TV que pueden ser producidos en una determinada fábrica.
c. Todas las órdenes que pueden ser procesadas por Allentow Company.
d. Todas las llamadas de emergencia que pueden ser recibidas en una estación de policía.
e. Todas las pizzas producidas por Pizza Hut, en el segundo turno de trabajo del día 10 de mayo.
7. Los datos siguientes provienen de una muestra aleatoria simple: 5 – 8 – 10 – 7 – 10 - 14.
a. ¿Cuál es la estimación puntual de la media poblacional? R: 9.
b. ¿Cuál es la estimación puntual de la desviación estándar poblacional? R:3.1
8. Como respuesta a una pregunta de una encuesta a 150 individuos de una muestra se obtuvieron 75
sí, 55 no y 20 personas no dieron su opinión.
tomó la muestra.
E( x )
Dónde:
E ( x ) valor esperado de x ; media poblacional
Esto enseña que usando el muestreo aleatorio simple, el valor esperado o media de la
distribución muestral de es igual a la media de la población.
x
Calculo de la desviación típica o estándar de la distribución muestral de medias (error estándar de las
medias)
i. Muestreo con reemplazamiento (Población infinita)
x f .( x x )
i
2
; x
n
f i
N n
f i
x .
n N 1
n = Tamaño de la muestra
Siendo para muestras grandes o sea n > 30 y se
x (x ) i
2
x
M n
denomina: error estándar de la media.
Esta relación nos dice que la desviación típica o estándar de la distribución muestral de medias es
directamente proporcional a la desviación típica poblacional e inversamente proporcional a la raíz
cuadrada del tamaño de la muestra. Esta fórmula es de gran utilidad para la Inferencia Estadística.
Nota: el muestreo sin reemplazo genera poblaciones finitas, de tal manera que para calcular la
desviación típica de la distribución muestral de medias, o sea, el error estándar de las medias, en
muestreo sin reemplazo, se tiene que introducir el factor de corrección finita
( N n)
N 1
pero no cuando es infinita. A este factor se le conoce como “factor de corrección para una población
finita. En muchas de las situaciones prácticas de muestreo, se encuentra que aunque la población sea
finita, es “grande”, mientras que el tamaño de la muestra es pequeña. En estos casos el factor de
corrección para una población finita es casi igual a 1. Por tanto, la diferencia entre el
N n
x .
n N 1
sea finita. Esta observación lleva al siguiente lineamiento, o regla general, para calcular la desviación
estándar de :
x
NOTA: en los casos en que para calcular deberá usarse la versión para poblaciones finitas;
n sx
0.05
N
N n
x .
n N 1
Nota: lo anterior también se puede aplicar cuando el tamaño de la muestra es mayor del 5% de la
población. Para calcular se necesita conocer . Para subrayar aún más, la diferencia entre y ,
x x
Siempre que se seleccione una muestra aleatoria simple y se use el valor de la media muestral para
estimar el valor de la media poblacional µ, no se podrá esperar que la media muestral sea exactamente
igual a la media poblacional. La razón práctica por la que interesa la distribución muestral de es que se
x
puede usar para proporcionar información probabilística acerca de la diferencia entre la media muestral y
la media poblacional.
De acuerdo con el teorema del límite central, la variante estadística para distribuciones de
Observaciones: cuando se ha analizado una población y las muestras extraídas de esa población, se
puede decir que:
a. El intervalo de las medias es igual 1/N. Por lo tanto, cuando el tamaño de la muestra se hace más
grande, el intervalo de clase se vuelve más y más pequeño, de tal manera, que si se hace la
gráfica de las distribuciones de las medias, mediante histogramas y unimos, por segmentos de
recta, los puntos medios de la parte superior de las barras, la poligonal se suaviza formando una
curva normal.
b. La media de las medias es siempre igual a la media de la población, es decir, =
X E( X )
c. Cuando el tamaño de las muestras extraídas de una población se aumenta, la dispersión de las
medias muéstrales con respecto a la media poblacional disminuye. La relación
x
n
población no conocida
d. La distribución muestral de medias acusó tendencia normal.
A continuación ver figura de la Distribución Normal.
f(x)
f(x)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ejemplo 2. Muestreo sin reemplazamiento. Con la misma población de las calificaciones de 5 estudiantes,
conteste las mismas preguntas del ejemplo 1.
1. La media de una población es de 200 y su desviación estándar es de 50. Se va a tomar una muestra
aleatoria simple de tamaño 100 y se usará la media muestral para estimar la media poblacional.
a. ¿Cuál es el valor esperado de la media muestral? R: 200
b. ¿Cuál es la desviación estándar de la media muestral? R: 5
c. Muestre la distribución muestral de la media muestral
d. ¿Qué muestra la distribución muestral de la media muestral?
2. La media de una población es 200 y su desviación estándar es 50. Suponga que se selecciona una
variable aleatoria simple de tamaño 100 y se usa la media muestral para estimar la media
poblacional.
a. ¿Cuál es la probabilidad de que la diferencia entre la media muestral y la media poblacional
no sea mayor que más o menos 5? R: 0.6826
b. ¿Cuál es la probabilidad de que la diferencia entre la media muestral y la media poblacional
no sea mayor que más o menos 10? R: 0.9544
3. Suponga que la desviación estándar poblacional es de 25. Calcule el error estándar de la media, con
muestras de tamaño 50, 100,150 y 200. ¿Qué puede decir acerca del error estándar de la media
conforme el tamaño de la muestra aumenta?
4. Al director de personal de la empresa Negocios S.A de C.V., se le ha encargado la tarea de elaborar un
perfil de los 2,500 administradores de la empresa. Las características a determinar son el sueldo
medio anual de los administradores y la proporción de administradores que ha terminado el
programa de capacitación de la empresa. Considere que la media poblacional del salario anuales es
de $51,800 y que la desviación estándar de la población es de $4,000. Los datos sobre el programa
de capacitación muestran que 1,500 de los 2,500 administradores han terminado el programa de
capacitación. Determine:
a. La proporción de la población que ha terminado el programa de capacitación. R: 0.60
b. Establezca los parámetros de la población que se conocen.
7. Se desea estudiar los gastos en publicidad de las 352 empresas más grandes de un país. Suponga que
el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre el capital
(una medida de rentabilidad) gastan en publicidad la mayor parte del dinero ganado en ventas que
las empresas con un registro de bajo rendimiento o déficit. Para asegurar que la muestra sea una
representación imparcial de las 352 empresas, éstas se agrupan de acuerdo con su rendimiento
porcentual sobre el capital. La siguiente tabla incluye los estratos, la probabilidad y el número de
empresas en cada estrato. Considere una selección de 50 compañías para llevar a cabo el estudio
minucioso. Determine:
a. Las frecuencias relativas de cada estrato.
b. ¿Considera que el muestreo aleatorio simple o el sistemático son los más adecuados para
aplicar en el ejemplo? Razone su respuesta, en base a los resultados del literal anterior.
c. Aplicar el muestreo aleatorio sistemático para seleccionar la muestra.
8. La empresa Tacos S.A. de C.V. cuenta con siete empleados de producción (a quienes se les considera
la población). En la siguiente tabla se incluyen los ingresos por hora de cada empleado.
Empleado Ingreso por hora ($) Empleado Ingreso por hora ($)
Juan 7 Arturo 7
Carlos 7 Pedro 8
Rodrigo 8 Ricardo 9
Mario 8
a. ¿Cuál es la media de la población? R: $7.71
b. ¿Cuál es la distribución muestral de media para muestras de tamaño 2, sin reemplazo?
c. ¿Cuál es la media de la distribución muestral de la media? R: $7.71
Elaborado y compilado por Carlos H. Vargas Página 28
Asignatura: Estadística 2 Tema: Diseños muéstrales y distribución
muestral de estadísticos
d. Elabore la gráfica de la distribución poblacional y la de la distribución muestral de la media
e. ¿Qué observaciones es posible hacer sobre la población y la distribución muestral de la
media?
9. Los tiempos de servicio de los ejecutivos que laboran en el Banco Agrícola, se muestran en el
siguiente cuadro. Determine:
a. ¿Cuántas muestreas de tamaño 2 sin reemplazamiento son posibles? R: 10
b. Elabore una lista de todas las muestras posibles de 2 ejecutivos de la población y calcule las
medias.
c. Organice las medias en una distribución muestral.
d. Compare la media poblacional y la media de las medias muéstrales.
e. Compare la dispersión en la población con la dispersión de la distribución muestral de la
media.
f. Elabore una gráfica con los valores de la población. ¿Tienen los valores de población, una
distribución normal (en forma de campana).
g. ¿Comienza la distribución muestral de la media que se calculo en el inciso “c” a indicar una
tendencia a adoptar forma de campana?
Nombre Años Nombre Años Nombre Años
Juan Martínez 20 Karla Estrada 22 Eduardo Zárate 26
Carlos Vásquez 24 Pedro Chaín 28
10. El departamento de control de calidad de Cola, INC., conserva registros sobre la cantidad de bebida
de cola en su botella gigante. La cantidad real de bebida en cada botella es de primordial
importancia, pero baría en una mínima cantidad de botella en botella. La empresa, no desea llenar
botellas con menos líquido del debido, pues tendría problemas en lo que se refiere a la confiabilidad
de la etiqueta. Por otra parte, no puede colocar líquido de más en las botellas porque regalaría
bebida de cola, lo cual reduciría sus utilidades. Los registros indican que la cantidad de bebida de cola
tiene una distribución de probabilidad normal. La cantidad media por botella es de 31.2 onzas, y la
desviación estándar de la población, es de 0.4 onzas. El día de hoy a las 8 de la mañana, el técnico de
calidad seleccionó al azar 16 botellas de la línea de llenado. La cantidad media de bebida en las
botellas es de 31.30 onzas. Determine: a) El error muestral, b) El error estándar de la distribución
muestral de la media, c) El error muestral en unidades estándar, d) La probabilidad de que la media
muestral sea mayor o igual de 31.38 onzas, e) ¿Es un resultado poco probable? ¿Es probable que el
proceso permita colocar demasiada bebida en las botellas? En otras palabras, ¿es poco común el
error de muestreo de 0.18 onzas (31.38-31.2)? R: 0.18; 0.1; 1.80; 0.0359.
Ejercicio 1: La altura media de los alumnos de un plantel de secundaria es de 1.50 metros, y su desviación
típica es de 0.25 metros. Determine la probabilidad de que en una muestra de 36 alumnos, la media sea
superior o igual a 1.60 metros. R: 0.0082
Ejercicio 2. Se tiene para la venta un lote de pollos, con un peso promedio de 3.50 kg y una desviación
estándar de 0.18 kg, ¿Cuál es la probabilidad de que en una muestra aleatoria, de 100 pollos de esta
población, estos pesen entre 3.53 y 3.56 kg? R: 0.0481
Ejercicio 4. Si en el ejemplo 1 se considera que dicho plantel de secundaria tiene un total de 400
alumnos, ¿Cuál es la probabilidad, en una muestra de 36 alumnos, de que la media sea igual o superior a
1.60 metros? R: 0.006
Ejercicio 5. Si en el ejemplo 2, se considera que el lote de pollos que se tiene a la venta es de 1,000, ¿cuál
es la probabilidad de que en una muestra aleatoria de 100 pollos de esta población, estos pesen entre
3.53 y 3.56 kg? R: 0.039
Ejercicio 6. Se sabe que la media del rendimiento académico de los alumnos de la facultad de derecho de
una universidad es de 72, con una desviación típica de 8. Determine:
a) La probabilidad de que al extraer una muestra aleatoria simple de 100 calificaciones, tomadas del
registro académico, tengamos una media igual o mayor que 71. R: 0.8944
b) Si asumimos que los puntajes del rendimiento académico, tienen tendencia normal, ¿Cuál es la
probabilidad de que el puntaje de un estudiante cualquiera, escogido al azar, sea igual o menor a
70? R: 0.4013
c) La probabilidad de que la muestra de tamaño 100, tenga una media igual o menor a 70. R:
0.0062
d) La probabilidad de que de la muestra de 100, se tenga una media comprendida entre 69.8 y 73.
R: 0.8914
Ejercicio 7. Se sabe que el peso medio de los estudiantes varones de una universidad acusa tendencia
normal con media de 145 libras y una desviación típica de 15 libras. ¿Cuál es la probabilidad de que el
peso medio de una muestra aleatoria de 400 estudiantes varones de esa universidad sea?: a) Superior a
143 libras: b) Inferior a 142.8 libras; c) Entre 144 y 146.8 libras; d) Inferior a 143.5 ó superior a 146.7; e)
La probabilidad de que un alumno escogido al azar tenga un peso de 125 libras o más. R: 0.9962; 0.0017;
0.90; 0.0344; 0.9082.
Ejercicio 8. Si los pesos de todas las personas que viajan en TACA en vuelos regulares de San Salvador a
Miami, acusan tendencia normal con una media de 164 libras y una desviación típica de 14 libras,
determine: a) la probabilidad de que los pesos combinados de una muestra de 30 personas en uno de
tales vuelos den más de 5,000 libras, b) la probabilidad de que los pesos combinados de una muestra de
64 personas de uno de esos vuelos den a lo sumo 10,300 libras. R: 0.1492; 0.0401.
Ejercicio 9. Se sabe que la distribución de los ingresos mensuales de los 6,400 estudiantes de una
universidad tienen una media de $ 950.00 y una desviación típica de $ 185.00. Si se extraen 80 muestras
del mismo tamaño de 36 de esa población sin reemplazo, determine: a) el valor esperado de la
distribución muestral de medias. R: 950. b) el error estándar de la distribución muestral de medias. R:
30.75. c) cuantas muestras de la distribución tendrán medias superiores a $900. d) cuantas muestras
tendrán medias entre $975 y $1025. R: 16. e) que porcentaje de las 80 muestras que se han tomado
arrojará promedios menores a $890. R: 2.56%.
Ejercicio 10. Una fábrica de café envasa su producto en frascos de distintas capacidades entre los cuales
hay uno con un peso neto de 113 gramos de percafé. Para controlar el proceso de envasado se utiliza el
siguiente criterio: cada 30 minutos se seleccionan 49 frascos llenos, si su peso medio es inferior a un
valor crítico “K”, se detiene el proceso y se reajusta; en caso contrario, se continúa el envasado sin
detener el proceso. Determine el valor de “K” de modo que haya una probabilidad de detener el proceso
de solo 0.07 cuando la máquina está envasando a un promedio de 115 gramos con una desviación típica
de 8 gramos. R: 113.31.
Elaborado y compilado por Carlos H. Vargas Página 30
Asignatura: Estadística 2 Tema: Diseños muéstrales y distribución
muestral de estadísticos
5.3 DISTRIBUCIÓN MUESTRAL DE PROPORCIONES
En los estudios estadísticos no solo se trabaja con medias aritméticas, ya que se puede estar
interesado en conocer la proporción de algún acontecimiento en la población. Como la mayor parte
de las investigaciones, se hacen partiendo del análisis de una parte de la población (muestreo),
necesitamos conocer las relaciones que guardan las proporciones poblacionales y la distribución
muestral de proporciones.
Ahora en vez de expresar la variable en términos de éxitos (x) nos referiremos, al número de
atributos en la muestra (a) y lo dividimos por el tamaño de la muestra (n). La proporción muestral
p
n = tamaño de la muestra.
“p” es una variable aleatoria.
La proporción muestral de
La distribución muestral de “p” es la distribución de probabilidad de todos los posibles valores de la
proporción muestral.
= ΣAi/N
Q = (N – A)/N = 1 - P Proporción de elementos que no presenta la característica estudiada
P+Q=1
= P.Q Varianza de la proporción en la población
Para determinar qué tan cerca está la proporción muestral “p” de la proporción poblacional P, se
necesita entender las propiedades de la distribución muestral de “p”: el valor esperado de “p”, la
desviación estándar y la forma de la distribución muestral de “p”.
El valor esperado de “p”, la media de todos los posibles valores de “p”, es igual a la proporción
poblacional “P”.
finita o infinita. Las dos fórmulas para calcular la desviación estándar de se presenta a continuación:
p
Población finita ; y si
( P.Q ) N n n
p . 0.05
n N 1 N
Población infinita ; y ,
p ( P.Q ) n
0.05
p N
n n
En una muestra aleatoria simple de una población grande, el valor de x es una variable aleatoria binomial
que indica el número de elementos de la muestra que tienen la característica de interés. Como n es una
constante, la probabilidad x/n es la misma que la probabilidad de x, lo cual significa que la distribución
muestral de “p” también es una distribución de probabilidad discreta y que la probabilidad de cada x/n
es la misma que la probabilidad de x.
Se ha estudiado que una distribución binomial se aproxima mediante una distribución normal siempre
que el tamaño de la muestra sea lo suficientemente grande para satisfacer las dos condiciones siguiente:
n.p > 5 y n. (1-p) > 5.
una constante, la distribución muestral de “p” también se aproxima mediante una distribución normal.
Esta aproximación se formula como sigue:
“La distribución muestral de “p” se aproxima mediante una distribución normal siempre que
En muchos casos, podemos utilizar la distribución normal para evaluar la distribución muestral de
proporciones, siendo:
p p pP
Z
p P.Q
n
En donde:
P = Proporción poblacional de la ocurrencia de algo
p = Proporción muestral de la ocurrencia de ese algo
p Error estándar de la proporción
NOTA 1: en los ejercicios de aplicación, si se desea obtener una buena aproximación a la distribución
normal, algunos autores, realizan la corrección en la variable discreta, siendo igual a 1/2n y se
le sumara o restara al valor “p” en el numerador en la fórmula de Z, según las siguientes
reglas:
a) Si se va a obtener un área a la derecha y se incluye el límite, se resta la corrección 1/2n.
b) Si se va a obtener un área a la derecha y no se incluye el límite, se suma la corrección 1/2n.
c) Si se va a obtener un área a la izquierda y se incluye el límite, se suma la corrección 1/2n.
d) Si se va a obtener un área a la izquierda y no se incluye el límite, se resta la corrección 1/2n.
El proceso que debe llevarse a cabo para realizar análisis estadísticos y pruebas de hipótesis (unidad 3),
con proporciones es prácticamente igual al que se sigue para promedios. En el caso de proporciones
deben utilizarse los valores correspondientes a esta medida. En seguida se desarrollan algunos ejemplos.
Nota: las respuestas de los ejercicios de esta hoja que se muestran son el resultado de trabajar
los ejercicios usando la corrección de la variable discreta.
Ejercicio 1. Si se tiene que el 4% de las piezas producidas por cierta máquina son defectuosas, ¿cuál es la
probabilidad de que en un grupo de 200 piezas, el 3% o más sean defectuosas? R: 0.8159. Respuesta sin
corrección: 0.7612.
Ejercicio 2. Se desea estudiar una muestra de 49 personas para saber la proporción de las mayores de 40
años; sabiendo que la proporción en la población es 0.4. ¿Cuál es la probabilidad de que la proporción en
la muestra sea menor de 0.5? R: 0.8997. Respuesta sin corrección: 0.9236.
Ejercicio 3. Cuarenta y seis por ciento de los sindicatos del país están en contra de comerciar con la China
Continental; ¿cuál es la probabilidad de que una encuesta a 100 sindicatos muestre que más del 52%
tengan la misma posición? R: 0.0918.
Ejercicio 4. Para decidir si acepta o no un pedido de 500 pares de zapatos, el dueño de una tienda adopta
el siguiente criterio. Selecciona al azar una muestra de 50 pares, y si el 5% o más tienen defectos rechaza
todo el pedido; en caso contrario, lo acepta. ¿Cuál es la probabilidad de que el dueño de la tienda: a)
Rechace el pedido, si realmente en los 500 pares de zapatos el 3 % es defectuoso? R: 0.33. b) ¿Acepte el
pedido, si realmente en los 500 pares de zapatos el 8% es defectuoso? R: 0.1357.
Ejercicio 5. Para controlar la operación de un proceso de producción de cierto tipo de piezas electrónicas,
se utiliza el siguiente criterio. Se toma una muestra aleatoria de 49 piezas, si el porcentaje de piezas
defectuosas en la muestra es proporción de éxitos (p%) o más se detiene el proceso. Determine el valor
“p” de modo que haya una probabilidad de 0.95 de que sea detenido un proceso que esté produciendo
un 15 por ciento de piezas defectuosas. R: 6.6%.
Ejercicio 6. Se sabe que un proceso productivo de cierto tipo de piezas electrónicas está produciendo un
15% de piezas defectuosas. ¿Cuál es la probabilidad de que, al tomar una muestra aleatoria de 49 piezas,
produzca un 6.6% o más de piezas defectuosas? R: 0.9505.
Ejercicio 8. El departamento de ingeniería de una fábrica de productos electrónicos sabe que el 5% de los
componentes producidos son defectuosos. Si la fábrica envía 800 lotes, con 100 componentes en cada
lote, ¿en cuántos de estos lotes podemos esperar? a) Menos de 92 componentes buenos. R: 42.96 = 43
lotes. b) 97 o más componentes buenos. R: 196 lotes. c) entre 90 y 98 componentes buenos inclusive. R:
0.9404.
Ejercicio 9. De las 200,000 familias de San Salvador, el 48% está suscrito al periódico La Prensa, ¿Cuál es
la probabilidad de seleccionar una muestra aleatoria de 1,200 familias, con una proporción de
suscriptores de La Prensa del 50% o más? R: 0.0823.
Ejercicio 10. Para el control de la operación de un proceso de producción de cierto tipo de piezas, se
utiliza la siguiente regla de decisión: Tomar una muestra aleatoria de 36 piezas, si el porcentaje de piezas
defectuosas en la muestra es P% o más se detiene el proceso; en caso contrario se continua el proceso.
Determinar el valor de P de modo que haya una probabilidad de 0.90 de que sea detenido un proceso
que está produciendo un 10% de piezas defectuosas en promedio. R: 0.036.
El propósito fundamental que se persigue al analizar la distribución muestral de la varianza es ilustrar una
característica a la que se denomina “sesgo”. En las dos distribuciones muéstrales anteriores (de la media
y de la proporción) se llegó a la conclusión de que la media de la correspondiente distribución muestral
era igual al parámetro de la población.
Se vio también que cuando se extrae una muestra y se utiliza el correspondiente estadístico muestral
para la estimación de su parámetro correspondiente, se dice que el estadístico se convierte en
“estimador”. Así, cuando se utiliza la media de una muestra para estimar la media de la población, se usa
el estadístico muestral como estimador; de la misma manera, se emplea como estimador de la
proporción poblacional a la proporción de la muestra. En muchos estudios por muestreo no se conoce la
varianza de la población y, por ello, es necesario estimarla con base en la varianza de la muestra, y es por
esto último que se vuelve importante revisar la distribución muestral de la varianza con el propósito de
averiguar la forma en la que se hará la estimación.
Para enfatizar este importante punto:
La media de la distribución muestral de la media es igual a la media poblacional.-
La media de la distribución muestral de la proporción es igual a la proporción de la población.
Estas características son las que permiten definir la media y la proporción como estimadores insesgados.
Por otro lado, como no se cumple que la media de la distribución muestral de la varianza es igual a la
varianza de la población, se dice que la varianza es un “estimador sesgado”.
Ejemplo. Suponga que se tiene una población de 5 familias y la variable que se estudia es el número de
hijos de cada familia. Los datos correspondientes aparecen en las 2 primeras columnas de la siguiente
tabla.
Número de hijos
Pérez 2 -4 16
Gómez 4 -2 4
Durán 6 0 0
Hidalgo 8 2 4
Juárez 10 4 16
Totales 30 0 40
A continuación calculamos la media poblacional y la desviación estándar poblacional.
i 6
X 30
N 5
(X i )2
40
8 2.8284271
N 5
82
Ahora construiremos la distribución muestral de la varianza calculando la varianza de cada una de las
muestras de tamaño 2.
En la siguiente tabla se presentan estos datos.
s 2
(X i X )2
(2 3) 2 (4 3) 2
1
n 2
Las demás varianzas fueron calculadas de manera similar.
Ahora calculamos la media de la distribución muestral de la varianza, usando el total de la columna 4
anterior:
s2 i 5
S 50
n 10
2
(X i
.
)2
N
La var ianza mod ificada dela
población es :
2
(X i )2
N 1
Se tiene entonces que la varianza modificada de la población es:
2
(X i )2
40
10
N 1 4
Consecuentemente, la varianza modificada de cada una de las muestras es: .
s2
( X i )2
n 1
En la última columna de la tabla anterior aparecen las varianzas muéstrales modificadas. Por ejemplo, la
varianza modificada de la primera muestra se calculó de la siguiente manera:
s2
(X i X )2
2
2
n 1 1
Entonces resulta que los últimos valores de la última columna constituyen la distribución muestral de la
varianza modificada.
Calculando ahora la media de la distribución muestral:
s2 m
s 2 100
10
m
n 10
Con este cálculo se puede apreciar la conclusión a la que se quería llegar, que la media de la distribución
muestral de la varianza modificada sí es igual a la varianza modificada de la población o, en otras
palabras, la varianza muestral modificada es un estimador insesgado de la varianza poblacional
modificada. Se resumen los resultados anteriores en la siguiente tabla:
Como puede verse en estos datos, la media de la distribución muestral de la varianza, 5 subestima en 3
unidades a la de la población, 8, o 3/8 = 0.375 (37.5%), en tanto que la correspondiente a la varianza
modificada, 10, la sobreestima, pero sólo en 2 unidades, que son 2/8 = 0.25, o sea 25%.
Secretaria # de errores
Lorena 3
Marta 5
Marina 7
Alejandra 9
Karla 11
Artículo # de defectos
A 0
B 1
C 2
D 3
E 4
F 5
Determine: a) la varianza de la población, b) la varianza modificada de la población, c) la distribución
muestral de la varianza para n = 3, d) la distribución muestral de la varianza modificada para n = 3, e) el
valor esperado de la varianza, f) el valor esperado de la varianza modificada, g) se cumple que
, h) se cumple que .
¿ E ( S ) s2 ?
2 2
¿ E ( S ) s2 ?
2
m
2
m
m
Tipo Ventas
Adulto 90
Familiar 45
Infantil 65
Promociona 80
l
Ejercicio 7. En una granja pequeña se tienen 7 vacas, las cuales se ordeñan diariamente. En la siguiente
tabla se muestra el número de litros que produjo cada una de ellas.
Si se tienen dos poblaciones normales e independientes, identificadas la primera por “X“ y la segunda
por “Y”, de tamaño N1 y N2, cuyas medias poblacionales se simbolizan por µ x y µy, y sus desviaciones
típicas poblacionales por σx y σy. Si se obtiene un número (M) de pares de muestras posibles podemos
determinar las medias muéstrales de la primera población y se identifican por: y las
x1 , x2 , x3 , x4 ,...xM
Muestra X Muestra Y
x1 , x2 , x3 , …..xN Elementos de la muestra X y1 , y2 , y3 , …..yN Elementos de la muestra Y
nx Tamaño de la población X ny Tamaño de la población Y
xx Media muestral de la yx Media muestral de la
muestra X muestra Y
sX Desviación estándar de la sY Desviación estándar de la
muestra X muestra Y
Ahora si consideramos las diferencias para cada par, la media aritmética de dichas diferencias se
simbolizará por donde
x y
(x y ) (x y ) (x
i i 1 1 2 y2 ) ( x3 y3 ) ( x4 y4 ) ... ( xM yM )
x y M M
=
x y i i
x y
M M
Se puede demostrar que la media de las diferencias de todos los pares de medias posibles, es igual a la
diferencia entre las medias poblacionales.
x y x y
La desviación típica de las diferencias entre los pares de medias muéstrales se simboliza por: y se
xy
xy
[( x y ) (
i i x y )]2
M
La desviación típica de las diferencias entre los pares de medias muéstrales, denominado también como
error estándar de las diferencias entre las medias muéstrales es igual a:
Siendo: x2 = σx2 y2 σy2
n1 = n2
x2 y
2
x y x2 y2
n1 n2
Utilizamos la distribución normal como una aproximación, para resolver problemas de distribuciones de
diferencias entre dos medias muéstrales.
Se puede aplicar esta distribución cuando no se conocen las varianzas poblacionales las cuales pueden
ser sustituidas por varianzas muéstrales siempre y cuando sean mayores que 30. Hay autores que
consideran su utilización si n1 + n2 > 30. Siendo su fórmula:
( x y ) (x y ) ( x1 x2 ) ( 1 2 )
Z
2
sx2 s s12 s22
y
n1 n2 n1 n2
xy
x y
Ejemplo 2. Se obtiene una muestra aleatoria de 100 elementos de una población normal, que tiene
media 50 y desviación estándar 8. Luego se selecciona otra muestra aleatoria de 400 elementos de una
población normal, que tiene media 40 y desviación estándar 12. Encontrar la probabilidad de que: a) la
media de la primera muestra exceda a la de la segunda en 8 o más. R: 0.9772. b) ambas medias difieran,
en valor absoluto, en 12 o más. R: 0.0228.
Ejemplo 3. En un restaurante, el consumo medio por desayuno es de $4,980.00 con una desviación
estándar de $950.00. En un segundo restaurante las correspondientes cifras son $4,238.00 y $820.00. Si
se eligen al azar 80 boletas de pago del primer restaurante y una muestra aleatoria de 60 del segundo,
Ejemplo 6. Las empresas A y B fabrican dos tipos de cables, que tienen una resistencia media a la rotura
de 4,000 y 4,300 libras, con desviaciones estándar de 980 y 850 libras, respectivamente. Si se prueban 70
cables de A y 40 cables de B, ¿cuál es la probabilidad de que la media de resistencia a la rotura de A sea,
al menos, 300 libras más que B? R: 0.0004.
Ejemplo 7. Dos fábricas A y B productoras de bombillas afirman que el promedio de duración de ellas es
de 1,500 y 1,450 horas, respectivamente, con desviaciones típicas de 90 y 100 horas. Si se compran 100
bombillas de cada fábrica, ¿cuál es la probabilidad de que la diferencia en duración entre las dos marcas
sea mayor de 40 horas? R: 0.7704.
Ejemplo 8. Dos marcas de bombillas de alumbrado público, A y B tienen una duración promedio de 1,400
y 1,200 horas, respectivamente, y sus varianzas de 40,000 y 10,000 horas respectivamente. Se extrae una
muestra aleatoria de 125 de cada marca. Determine la probabilidad de que: a) La marca A tenga una vida
media de por lo menos 160 horas más que B. R: 0.9773. b) La marca A tenga una vida media de por lo
menos 250 horas más que B. R: 0.0062.
Ejemplo 9. El tiempo promedio requerido para ejecutar un determinado trabajo es de 2 horas, mientras
que para otro trabajo, otro grupo de trabajadores, gasta una hora y cuarenta y cinco minutos. Se sabe
que la desviación estándar para cada uno de estos trabajos es de 30 y 20 minutos respectivamente. ¿Cuál
es la probabilidad, si se toman dos muestras de 30 trabajadores cada una, de que el promedio requerido
para ejecutar el segundo trabajo sea mayor que el primero? R: 0.011.
Ejemplo 10. El promedio de los obreros, en una fábrica textil, es de 34 años con desviación estándar de 6
años, además el promedio de edad de las obreras es de 30 años con desviación estándar de 4 años. ¿Cuál
es la probabilidad, al tomar muestras de 20 obreros de cada sexo, de que el promedio de edad de las
mujeres resulte mayor que el de los hombres? R: 0.0066.
diferencias entre las dos medias proporcionales estará dado por siendo:
p1 p2
P1.Q1 P2 .Q2
p1 p2
Cuando son parámetros o valores poblacionales
n1 n2
Cuando n1 y n2 corresponden a muestras grandes, es decir, ambas superiores a 30, se tendrá, que el error
estándar de las diferencias entre dos proporciones es:
p1.q1 p2 .q2
s p1 p2
n1 n2
La media de las diferencias entre dos medias proporcionales, se simboliza; indistintamente por:
p1 p2 p1 p2 P1 P2
La variante estadística “Z” está dada en la misma forma que fue presentada para la diferencia entre dos
medias muéstrales:
( p1 p2 ) ( p1 p2 ) ( p1 p2 ) ( P1 P2 )
Z
P1.Q1 P2 .Q2 P1.Q1 P2 .Q2
n1 n2 n1 n2
Ejercicio 1. Consideremos dos máquinas que producen un determinado artículo; la primera produce por
término medio un 14% de artículos defectuosos, en tanto que otra, produce el 20% de artículos
defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades en la segunda, ¿cuál
es la probabilidad de que difiera A de B en 8% o más en valor absoluto? R: 0.335.
Ejemplo 3. Se sabe que cierta marca de crema para las manos satisface el 65% del mercado. ¿Cuál es la
probabilidad de que dos muestras aleatorias de 200 usuarios cada una, muestre una diferencia mayor del
10% en las proporciones del uso de la crema en valor absoluto? R: 0.0358.
Ejercicio 4. Suponga que una máquina A produce, por término medio, un 12% de piezas defectuosas, en
tanto que la máquina B, el 18% de piezas con defectos. Se desea hallar la probabilidad de que el
Ejercicio 5. Ciertas encuestas a televidentes, revelan que el 25% de los hombres y 33% de las mujeres de
clase media, ven la telenovela de las 11 y ½ de la mañana. ¿Cuál es la probabilidad de que en dos
muestras aleatorias de 150 hombres y 100 mujeres respectivamente, pertenecientes a dicho estrato
social, se encuentre que la proporción de hombres que han visto el programa sea igual o mayor que la
proporción de mujeres? R: 0.0869.
Ejercicio 6. Ciertas encuestas realizadas en una ciudad de la costa, revelan que el 25% de los hombres y el
33% de las mujeres escuchan cierto programa radial. ¿Cuál es la probabilidad de que en dos muestras de
150 hombres y 100 mujeres respectivamente, domiciliadas en dicha ciudad, se encuentre que la
proporción de mujeres que escuchan el programa sea menor o igual a la proporción de hombres? R:
0.0869.
Ejercicio 7. En dos fábricas A y B, que producen camisas para hombres, se sabe que el 17% y 15% de la
producción es defectuosa. Si se extrae una muestra de 200 camisas de cada lote producido en las
fábricas. ¿Cuál es la probabilidad de que las dos muestras revelan una diferencia superior al 3%? R:
0.4821.
Ejercicio 8. Ciertas encuestas sobre un programa de televisión revelan que el 28% de los hombres y el
38% de las mujeres de clase media, ven dicho programa. ¿Cuál es la probabilidad de que en dos muestras
aleatorias de 150 hombres y 100 mujeres respectivamente, pertenecientes a dicho estrato, se encuentre
que la proporción de hombres que han visto el programa sea igual o mayor que la proporción de
mujeres? R: 0.0505.
Ejercicio 9. Se sabe que cierto producto satisface el 72% del mercado. Seleccionamos dos muestras
(independientes) de la misma población, de tamaño 150 cada una. ¿Hallar la probabilidad de que revelen
una diferencia: a) mayor del 6%?, b) en la segunda muestra la diferencia sea superior en un 5%? R: 0.166.
Ejercicio 10. Es sabido que los porcentajes de familia con ingresos superiores a $570,000 en las ciudades
A y B son de 25% y 20%, respectivamente. Se seleccionan a azar dos muestras de 100 familias en cada
una de las dos ciudades y se comparan las proporciones muéstrales de las familias con ingreso superior a
$570,000. ¿Cuál es la probabilidad de que la proporción muestral correspondiente a la ciudad B sea: a)
mayor que la de A en 3% o más? R: 0.3669. b) ¿Menor que la de A en 3% o más? R:
Se dice que una muestra es grande, si el número de unidades es mayor que treinta y es pequeña si es
menor o igual a treinta.
En el caso de que se desconozca la desviación típica poblacional, se le podrá reemplazar por la desviación
típica muestral, siempre que la muestra sea grande.
Cuando n > 30 (muestra grande), la desviación típica se simboliza por “s” y se considera como un buen
estimador de la desviación típica poblacional, debido a que existe una mayor probabilidad de que los
valores extremos que toma la variable, queden incluidos en el cálculo de la varianza en la muestra, tal
como ocurre al obtener la varianza poblacional.
Siendo: s = σ la fórmula para calcular “s” será:
También se
puede expresar
como
s
(x x )
i
2
s
x
2
i n.x 2
n n 1
Si n ≤ 30 (muestra pequeña), la desviación típica se simboliza por “ŝ” cuando no se ha efectuado ninguna
corrección. Se considera que “ŝ” por lo general es menor que σ, debido a la poca posibilidad de que se
incluyan valores extremos de la variable poblacional en la muestra. Por lo tanto se hace necesario
efectuar algunas correcciones en su cálculo, con el fin de convertirla en un buen estimador de la
desviación típica poblacional.
A pesar de las correcciones que se le puedan hacer a las deviaciones típicas, no es efectiva en todas las
muestras, por tal razón la distribución de todas las medias muéstrales, no tiene un comportamiento
similar a la distribución normal, a pesar de ser una distribución continúa. A esta distribución se le conoce
como distribución “t” de Student, en honor del estadístico irlandés William Sealy Gosset. Gosset
trabajaba en una fábrica de cerveza, Guiness, que prohibía a sus empleados la publicación de artículos
científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus
resultados bajo el seudónimo de Student. Fue enunciada en 1908 y ligeramente modificada por R.A.
Fisher (1925).
En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge
del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la
muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias
entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las
medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser
estimada a partir de los datos de una muestra.
Al igual que la distribución Z es una distribución continua, tiene una media de cero, es simétrica respecto
de la media y se extiende de menos infinito a más infinito. Esta distribución se expresa en forma de
campana y simétrica, pero más achatada y con más área en los extremos, es decir, las áreas que
corresponden a las regiones críticas o de rechazo. No hay una distribución t, sino una "familia" de
distribuciones t. todas con la misma media cero, pero con su respectiva desviación estándar diferente de
acuerdo con el tamaño de la muestra n. Existe una distribución t para una muestra de 20, otra para una
muestra de 22, y así sucesivamente.
La distribución t es más ancha y más plana en el centro que la distribución normal estándar como
resultado de ello se tiene una mayor variabilidad en las medias de muestra calculadas a partir de
muestras más pequeñas. Sin embargo, a medida que aumenta el tamaño de la muestra, la
distribución t se aproxima a la distribución normal estándar.
. La función de distribución “t” es:
t 2 r 21
Y C.(1 )
Distribución t de Student (función de densidad de probabilidad)
Grados de libertad ( ). Esta expresión fue introducida por Fisher; dice que los grados de libertad de un
conjunto de observaciones, están dados por el número de valores que pueden ser asignados
arbitrariamente, antes de que el resto de las variables queden completamente determinadas. Ejemplo: si
tengo cuatro valores: 8 + 10 + 6 + 20 = 44, se observa que puedo asignar tres (3) valores arbitrariamente:
16 + 4 + 10 + 14 = 44, pero el cuarto debe ser 14 y no lo puedo asignar libremente pues la suma debe ser
44. Por lo tanto ν = n – 1 = 4 – 1 = 3 “ ” se lee “un” o “niu” y se emplea para simbolizar los grados de
libertad.
NOTA: Es necesario observas que algunos textos consideran que las muestras son pequeñas si n 1 + n2 son
menores o iguales a 30, pero en el curso vamos a considerar que son pequeñas si n 1 y n2 son menores o
iguales a 30.
Cuando el problema nos da la desviación típica muestral y, el tamaño de la muestra es menor o igual a
30, se considera que está sin corregir, procediendo a su corrección para ser aplicada en la variante
estadística “t”. Simbolicemos a: ŝ (desviación típica sin corregir) y s (desviación típica corregida).
s sˆ.
n
;s
( xi x ) 2
xi2 n.x 2
; x : En esta fórmula se puede
n 1 n 1 n 1
corregir directamente, al calcular la variante estadística
ANEXO UNIDAD 1
Este muestreo bien manejado puede ser de utilidad práctica para resolver problemas comerciales
cotidianos y para tomar decisiones de política pública. Los ejecutivos, los funcionarios y los políticos a
menudo están presionados por el tiempo y las circunstancias y no pueden esperar para emplear
diseños probabilísticos. El muestreo dirigido es, entonces, el único método práctico, ya que permite
disponer rápidamente de las estimaciones para llegar a decisiones sobre problemas urgentes. Es
mejor tomar decisiones en estas condiciones que tomarlas sin ningún dato estadístico.
En estos casos se desconoce el grado y la dirección del error, y las afirmaciones definitivas no son
significativas. Sin embargo, si el juicio del experto es válido, la muestra resultará mejor que al utilizar
una muestra por conveniencia. En la práctica comercial alrededor del 49% de las empresas utilizan el
muestreo por juicios.
Con frecuencia se basa en datos demográficos como ubicación geográfica, edad, sexo, educación e
ingresos. Como resultado de ello, el investigador sabe que la muestra “corresponde” a la
población con respecto a estas características demográficas. Este hecho es tranquilizante y
elimina algunos sesgos importantes que podrían ser parte de una muestra de criterio; sin
embargo con frecuencia existen otros sesgos graves que no son controlados por el enfoque de
muestreo por cuotas. Los entrevistadores contactarán a las personas que resulten más
accesibles, a las que se encuentren en casa, a las que tengan tiempo disponible o que posean
una apariencia aceptable, etc., lo cual provocará algunos sesgos. Por supuesto, una muestra
aleatoria con una tasa de ausencia de respuesta de 15 o 20 por ciento o más tendrá muchos de
los mismos sesgos. Por lo tanto, el muestreo por cuotas y otros enfoques de criterio, que son
más rápidos y baratos, no siempre deberán descartarse bajo el supuesto de que son inferiores.
Ejemplos: se le puede pedir que entreviste a 25 señoras de los mercados, 30 amas de casa, 20
estudiantes universitarios, 25 obreros de la construcción, etc. Otro ejemplo, para control de
calidad, puede ser examinar 5 unidades cada 30 segundos en un proceso de producción. Otro
ejemplo, suponga que desea una muestra de 1,000 personas de una ciudad y se sabe cómo está
distribuida geográficamente la población de la ciudad, en este caso a los entrevistadores se les
podrían pedir que realizarán 100 entrevistas en la zona este, 300 en la zona norte, etc.
7.6 Muestreo por prorrateo. Son un tipo especial de muestras intencionales. En este caso, el
investigador emprende pasos explícitos para obtener una muestra que sea similar a la
población en algunas características de “control” anteriormente especificadas. Por ejemplo,
un entrevistador puede estar capacitado para llevar a cabo la mitad de las entrevistas con
personas de 30 años o más, y la mitad con personas menores de 30 años. En este caso, la
característica de control es la edad de los encuestados. Por supuesto, especificar esta
afirmación particular de control implica que el investigador sepa que la población de interés
está dividida en forma equivalente entre personas de 30 años o más, y personas menores de
30 años. Obviamente este es un ejemplo simple, ya que sólo se ha utilizado una característica
de control.
RESUMEN DE FÓRMULAS
PROBLEMA
Varianza
Se utiliza la Se utiliza la x
t
distribución Z distribución Z sˆ
n 1
xy
x x t
Z Z (n1 1) s ( n2 1) s y2
2
s 1 1
x
.
n n n1 n2 2 n1 n2
pP
xy xy t
Z Z p.q
x2 y
2 2
sx2 s y n 1
n1 n2 n1 n2
t
xy
siendo " s 2
"
(x x ) ( y
1
2
1 y )2
s2 s2 n1 n2 2
p1 p2
Z n1 n2
p1.q1 p2 .q2
n1 1 n2 1