Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Distribuciones de probabilidades
1.1 Introducción
Una distribución de probabilidades da toda la gama de valores que pueden ocurrir con base a un
experimento y resulta similar a una distribución de frecuencias; sin embargo, en vez de describir el
pasado, define qué tan probable es que suceda algún evento futuro.
Por ejemplo, un productor de medicamentos puede afirmar que un tratamiento ocasionará pérdida de
peso en un 80% de la población. Una agencia de protección al consumidor puede probar dicha
terapéutica en una muestra de 6 personas. Si la declaración del productor es cierta, es casi imposible
tener un resultado donde ninguna persona de la muestra pierda peso y es muy probable que 5 de 6
adelgacen.
Presentaremos la media, la varianza y la desviación estándar de distribuciones probabilísticas, así como
3 familias de distribuciones probabilísticas discretas:
● La binomial
● La distribución hipergeométrica
● La distribución de Poisson
Que se basan en variables aleatorias discretas, que se pueden tomar sólo calores específicos
Ejemplo
Suponga que está interesado en el número de caras (H) que caen al lanzar tres veces una moneda:
este es el experimento
Los posibles resultados son: 0, 1, 2, 3 caras. ¿Cuál es la distribución probabilística para el número de
caras?
Solución
Hay 8 posibles resultados. En la primera tirada podría caer cruz (T), otra igual en el segundo
lanzamiento y otras más en el tercer. O podría caer cruz, cruz, cara, etc.
Tabla 1: Distribución probabilística para los eventos de cero, una, dos, tres caras resultantes en
3 lanzamientos de una moneda.
Variables aleatorias: Cantidad que es el resultado de un experimento aleatorio en cual, debido al azar,
puede tomar valores diferentes.
Variable aleatoria discreta: Una variable aleatoria discreta puede asumir sólo un cierto número de
valores específicos. Si hay 100 empleados en una empresa, la cantidad de los ausentes el lunes puede
ser solo 0, 1, 2, 3, …, 100. Por lo general, una variable aleatoria discreta es el resultado de contar algo.
Variables aleatorias discretas: Variable que solo puede tener ciertos valores claramente separados,
que resultan de contar algún elemento de interés.
Debe observar que una variable discreta puede, en algunos casos, tener valores fraccionarios o
decimales. Dichos valores deben estar separados, es decir, tener cierta distancia entre ellos. Como
ejemplo, las puntuaciones otorgadas por jueces en lo referente a aspectos técnicos y forma artística en
el patinaje sobre hielo son cifras decimales como: 7.2, 8.9, 9.7. Estos valores son discretos porque
existe una distancia entre las calificaciones, por ejemplo, entre 8.3 y 8.4. Una puntuación no puede ser
8.34 o 8.347.
Variable aleatoria continua: si se mide algo, como el ancho de una habitación, la altura de una
persona o el diámetro exterior de una pieza, se dice que la variable es una variable aleatoria continua.
Puede tomar uno de una cantidad infinitamente grande de valores, dentro de ciertas limitaciones. Por
ejemplo:
● La distancia (en kilómetro) entre Quito y Riobamba podría ser de 190, 190.1, 190.162 y así
sucesivamente, dependiendo ello de la exactitud del dispositivo de medición.
● La presión de un neumático (en libras por pulgada cuadrada o psi) podría ser de 28, 28.6, 28.62,
28.624, etc. Dependiendo esto de la exactitud del medidor.
Los medios utilizados así como las interpretaciones de probabilidad son diferentes para las variables
aleatorias discretas o las continuas.
(Ref. LIND, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y a la economía. Pág. 193).
Sabemos que la media indica la ubicación central de los datos y la varianza, la dispersión de estos. De
manera semejante, una distribución probabilística se resume indicando su media y varianza. La media
de una distribución probabilística se denota con la letra miu (μ), y la varianza por el cuadrado
indicado por la letra griega sigma (σ).
Media
La media es un valor particular que sirve para representar la distribución probabilística. También es el
valor promedio a largo plazo de la variable aleatoria. La media de un distribución probabilística se
denomina también el valor esperado E(x). Es un promedio para que los valores posibles que se
consideran son afectados por las probabilidades correspondientes de ocurrencia.
Donde:
P(x) es la probabilidad de cada valor posible de la variable aleatoria x. En otras palabras se multiplica el
valor de cada x por su probabilidad de ocurrencia y luego se suman los productos
Como se sabe, la media es un valor característico utilizado para representar una distribución
probabilística discreta. Sin embargo, no describe el grado de dispersión (o variación) en una
distribución. La varianza si lo hace. Una comparación de dos varianzas permite confrontar la
variación en dos distribuciones que tengan la misma media, pero diferentes dispersiones.
La fórmula para la varianza de una distribución de probabilidades es:
Ejemplo
El señor Aquiles Castro vende automóviles nuevos de la agencia Pelicano. Generalmente, negocia
mayor número de vehículos los días sábados.Ha establecido la siguiente distribución probabilística para
el mayor número de autos que espera vender en un sábado en particular.
Solución
Este valor indica que para un gran número de días sábados, el Sr. Castro espera vender
un promedio de 2.10 autos al día. (Depende luego no es posible vender exactamente
2.10 vehículos en un sábado en particular). Por tanto, a la media a veces se le considera
como el valor esperado.
3. De nuevo es útil una tabla para sistematizar los cálculos para la varianza cuyo valor es de
1.290
Si la vendedora Rita Ruiz también vendió una media de 2.10 autos los sábados y la
desviación estándar en sus ventas fue de 1.910 vehículos, se concluirá que existe más
variabilidad en las transacciones sabatina de la Sra. Ruiz que en las del Sr. Castro
(debido a que 1.910 > 1.136).
Por ejemplo, la respuesta a una pregunta del tipo verdadero/falso es precisamente verdadera o falsa.
Los resultados son mutuamente excluyentes, lo cual significa que la respuesta a una pregunta de
verdadero/falso no puede ser verdadera y falsa al mismo tiempo.
Otros ejemplos
Frecuentemente clasificamos los dos resultados posibles como “éxito” y “fracaso”; sin embargo, esta
clasificación no implica que un resultado sea bueno y el otro sea malo.
Otra particularidad de esta distribución es que la probabilidad de un éxito permanece igual de un ensayo
a otro.
Ejemplos
● La probabilidad de que se adivine la primera pregunta de una prueba de verdadero/falso en
forma correcta (éxito) es igual a un medio (½). Este es el primer “ensayo”. La probabilidad de
adivinar en forma correcta la segunda pregunta (el segundo ensayo) también vale ½; la
probabilidad de éxito en el tercer ensayo es asimismo ½, y así sucesivamente.
● Si la experiencia revela que el puente levadizo sobre una vía fluvial estaba levantado una de
cada cinco veces que llegó a él, entonces la probabilidad de que esté levantado (éxito) la
próxima vez que llegue ahí será de un quinto (1/5), para la siguiente vez de nuevo un (1/5),
etc.…
Donde:
𝑛 = es el número de ensayos
𝑥 = es el número de éxitos
π = es la probabilidad de éxitos de cada ensayo
Observe que utilizamos la letra griega para denotar un parámetro de una población. No debe
confundirse con la constante matemática igual a 3.1416….
Ejemplo
Como se sabe, la respuesta a una pregunta de verdadero/falso es correcta o incorrecta. Considere que:
(1) un examen consiste en cuatro preguntas de verdadero/falso
(2) un estudiante no sabe nada acerca de la materia.
La posibilidad (probabilidad) de que el alumno adivine la respuesta correcta a la primera pregunta es
0.50. Asimismo, la probabilidad de acertar en cada una de las preguntas restantes vale 0.50.
Solución
Las probabilidades de contestar exactamente ninguna (cero), una, dos, tres y cuatro preguntas
de verdadero/falso en forma correcta de un total de cuatro se muestran en la tabla siguiente:
Una distribución probabilística binomial es una distribución teórica que puede ser generada en
forma matemática; sin embargo, con excepción de problemas en los que n es pequeña (es decir,
n = 3, o bien 4), los cálculos para las probabilidades de 0, 1, 2,… Los éxitos pueden ser muy
largos.
Como ayuda para determinar las probabilidades necesarias, se ha desarrollado una amplia
variedad de “tablas” que dan las probabilidades de 0, 1, 2, 3,… éxitos para diferentes valores de
n y π. Este tipo de tablas generalmente están en los apéndices de los textos.
Ejemplo
Con base en una experiencia reciente, 5% de los engranes producidos por una máquina automática de
alta velocidad Carter Bell resultan defectuosos. ¿Cuál es la probabilidad de que si entran seis
engranajes seleccionados al azar exactamente cero sean defectuosos? ¿Exactamente uno?, ¿dos?,
¿tres?, ¿cuatro?, ¿cinco?, ¿o exactamente seis de los seis? (Nota: n = 6, π = 0.05)
Solución
Desde luego, existe cierta posibilidad de obtener exactamente cinco engranajes defectuosos de
seis selecciones aleatorias. Tiene el valor de 0.00000178, que se obtiene al sustituir los valores
adecuados en la fórmula binomial:
Para tener seis engranes defectuosos de una muestra de seis, la probabilidad es 0.000000016;
es decir, existe una probabilidad muy pequeña de seleccionar cinco o seis engranes defectuosos
en una muestra de seis.
Tabla 4: Probabilidad de 0, 1, 2, éxitos para una π de 0.05, 0.10, 0.20, 0.50, 0.70 y una n de 10
Figura 4: Representa la distribución probabilística binomial para una π de 0.05, 0.10, 0.20, 0.50
y 0.70, respectivamente y una n de 10.
La media de 0.30 y la varianza de 0.285 pueden verificarse a partir de las definiciones generales
utilizando las fórmulas correspondientes.
Puede ser conveniente determinar la probabilidad de adivinar correctamente las respuestas a seis o
más preguntas del tipo verdadero/falso, de un total de diez. O tal vez interese la probabilidad de
seleccionar al azar menos de dos piezas defectuosas de la producción en la hora anterior. Observemos
el siguiente ejemplo.
Ejemplo
Solución
● Un conductor en particular lleva puesto el cinturón de seguridad, o no. Existen solo dos
resultados posibles.
● La probabilidad de un "éxito" (traer puesto el cinturón) es la misma de un conductor a
otro: 60 %.
● Los ensayos son independientes. Si el cuarto conductor seleccionado en la muestra sí
utiliza el cinturón, por ejemplo, esto no tiene efecto alguno en que el quinto automovilista
lo use o no.
● Existe un número fijo de ensayos, diez en este caso, porque diez conductores fueron
considerados.
Este valor también puede determinarse, con menos cálculos, aplicando la regla
de complemento.
Primero se determina dado que n = 10 y π = 0.60.
Ref. Lind, A. Douglas; et. al. (2012). Estadística aplicada a los negocios y a la economía. Pág. 208).
Sabemos que a partir de la distribución binomial, la probabilidad de éxito debe permanecer igual para
cada ensayo sucesivo. Por ejemplo, la probabilidad de adivinar la respuesta correcta para una pregunta
de verdadero / falso es igual a 0.50. Esta probabilidad permanece sin cambios para cada pregunta en
un examen. De manera similar, supóngase que 40% de los electores en una zona son del partido
Conservador. Si se van a seleccionar al azar 27 votantes registrados, la probabilidad de elegir un
conservador en la primera selección, también es 0.40. La probabilidad de obtener uno de ese partido en
la siguiente selección también es 0.40, considerando que el muestreo se hace con reposición, lo cual
significa que la persona seleccionada se pone de nuevo en la población antes de elegir a la siguiente.
La mayor parte del muestreo se realiza sin reposición; es decir, si la población es pequeña, la
probabilidad para cada observación cambiará. Por ejemplo, si la población está formada por 20
elementos, la probabilidad de seleccionar uno en particular de esa población es 1 / 20. Si el muestreo se
hace sin oposición, después de la primera selección solamente quedan 19 elementos; la probabilidad de
escoger un elemento específico en la segunda selección es solo de 1 / 19.
Para la tercera probabilidad es 1 / 18, y así sucesivamente. Esto considerando que la población es finita,
es decir, que se conoce el número de elementos en la población y es relativamente pequeño.
Población finita: es una población formada por un número pequeño de individuos, objetos o medidas.
Son ejemplos de una población finita de una población finita los 2842 afiliados al Partido Conservador
en una zona; las 9241 solicitudes de ingreso en una Facultad de Economía; y, los 18 autos Moonbird de
Eniac, actualmente en existencia en la agencia Pontiac Sur.
Recuérdese que uno de los criterios para utilizar la distribución binomial es que la probabilidad de éxito
permanece igual de un ensayo a otro. Cuando el muestreo se realiza sin la reposición y la muestra se
obtiene de una población relativamente pequeña, la probabilidad de éxito no permanece igual en un
ensayo a otro y no debe ser empleada la distribución binomial.
Por tanto:
Donde:
𝑁 es el tamaño de la población.
𝑆 es la cantidad de éxitos en la misma.
𝑥 es el número de éxitos que interesan. Puede ser 0, 1, 2, 3, ….
𝑛 es el tamaño de la muestra o el número de ensayos.
𝐶 es el símbolo para una combinación.
Ejemplo
Supóngase que durante la semana se fabricaron cincuenta juegos Station Play (N=50). Operaron
cuarenta sin problemas (S=40) y diez tuvieron al menos un defecto. Se selecciona una muestra al azar
de cinco (n=5). Utilizando la fórmula hipergeométrica, ¿Cuál es la probabilidad de que cuatro (x=4) de
los cinco funcionan perfectamente? (Observe que el muestreo se hace sin reposición y que el tamaño
de la muestra de cinco es 5/5 o 10% de la población. Esto es mayor de la condición de 5%)
Solución
En este problema
Se desea determinar la probabilidad de que cuatro juegos Station Play de los cinco
seleccionados funcionen bien.
Sustituyendo estos valores en la fórmula correspondiente y resolviendolas para evaluar la
probabilidad de que 4 de los 5 juegos en la muestra funcionen sin problemas:
De modo que la probabilidad de seleccionar cinco juegos al azar de 50 y descubrir que cuatro de los
cinco operan bien es 0.431
Tabla 5: Probabilidad hipergeométricas (n= 5, N= 50, S= 40) de los juegos Play Station que operen
correctamente
La tabla que aparece a continuación presenta las probabilidades hipergeométrica y binomiales para el
problema de los juegos Station Play.
Puesto que cuarenta de los cincuenta* operaron correctamente, la probabilidad binomial de seleccionar
un Station Play perfecto en un ensayo es 40 /50 = 0.80. Las probabilidades binomiales para la tabla
siguiente proviene de una tabla binomial de probabilidades, para n = 5, π = 0.80.
Tabla 6: Probabilidades hipergeométricas y binomiales para el problema de los juegos StatioN Play
Señalamos que cuando la condición binomial de una probabilidad constante de éxito no puede ser
cumplida, hay que utilizar la distribución hipergeométrica en su lugar. Sin embargo, según lo muestra la
tabla anterior, bajo muchas condiciones los resultados de la binomial se aproxima mucho a los de la
hipergeométrica.
Como regla empírica, si los elementos seleccionados no se devuelven a la población y el tamaño de la
muestra es menor que 5% de esa, puede ser empleada la distribución binomial para aproximar la
distribución hipergeométrica. Esto es cuando n< 0.05N, la aproximación binomial debe ser suficiente.
Las distribuciones probabilísticas binomiales para probabilidades de éxito (π) menores que 0.05 podrían
calcularse, pero esto tomaría demasiado tiempo (en especial para una n grande de, por ejemplo, 100 o
más). La distribución de probabilidades se volvería cada vez más sesgada conforme la probabilidad de
éxito fuera menor.
Generalmente se la conoce como “Ley de eventos improbables”, lo cual significa que la probabilidad, π,
de que suceda un evento específico es muy pequeña. La distribución de Poisson es del tipo
probabilístico discreto porque se forma contando algo.
Esta distribución tiene muchas aplicaciones. Se utiliza como modelo para describir la distribución de
errores en la captura de datos, el número de ralladuras y otras imperfecciones en paneles de automóvil
recientemente pintados, el número de partes defectuosas en embarques de salida, el número de
clientes en espera de servicio en un restaurante o los que aguardan a entrar a una de las atracciones en
un centro de diversiones y el número de accidentes en una carretera durante un periodo de tres meses.
Donde:
μ (miu) es la media aritmética del número de ocurrencia (éxitos) en un intervalo de tiempo
específico.
е es el constante 2.71828 (base del sistema logarítmico neperiano).
x es el número de ocurrencias (éxitos).
P(x) es la probabilidad que se va a calcular en el valor dado de x
El número medio de éxitos, μ, puede determinarse en los casos de Poisson por medio de 𝑛π, donde n
es el número de ensayos, y π la probabilidad de éxitos.
Recuérdese que para una distribución binomial existe un número fijo de ensayos. Por ejemplo, en el
caso de una prueba de opción múltiple de cuatro preguntas, puede haber solo cero, dos, tres o cuatro
éxitos (respuestas correctas). Sin embargo, la variable aleatoria, x, para una distribución de Poisson
puede tomar un número infinito de valores; esto es 0,1, 2, 3, 4, 5, …. Pero las probabilidades se
vuelven muy pequeñas después de las primeras ocurrencias (éxitos).
Para ilustrar el cálculo de una probabilidad de Poisson, considérese que en la empresa Aerolíneas del
Valle rara vez se pierde el equipaje. En la mayoría de los vuelos no se observa un mal manejo de
maletas; algunos reportan una valija perdida; unos cuantos tienen dos maletas extraviadas; rara vez un
vuelo tiene tres; y así sucesivamente. Supóngase que una muestra aleatoria de 1000 viajes aéreos
revela un total de 300 maletas perdidas. De esta forma, la media aritmética del número de equipajes
extraviados por vuelo es de 0.3, que se obtiene de 300/1000. Si la cantidad de maletas perdidas por
viaje aéreo sigue una distribución de Poisson con un μ = 0. 30, podemos calcular las diferentes
propiedades con la fórmula:
En otras palabras,en 74% de los vuelos no habrá equipaje perdido. La probabilidad de exactamente una
mala extraviada es:
Por lo tanto, esperaríamos encontrar exactamente una maleta perdida en el 22% de los vuelos.
Las probabilidades de Poisson también pueden encontrarse en tablas, generalmente en los apéndices
de libros.
Ejemplo
Recuérdese del ejemplo anterior que el número de maletas perdidas sigue una distribución de Poisson
con una media de 0.3. Utilizar una tabla de probabilidades de Poisson para obtener la probabilidad de
que no se extravíe ninguna maleta en un vuelo en particular, ¿cuál es la probabilidad de que
exactamente una maleta se pierda en un vuelo específico?, ¿cuándo debe parecer sospechoso al
supervisor que un vuelo tenga demasiadas maletas extraviadas?
Solución
A continuación, se reproduce una parte de una tabla de probabilidades de Poisson.
Para determinar la probabilidad de que ninguna maleta se pierda, localiza la columna con el
encabezado “0.3” y léala hacia abajo hasta llegar al renglón marcado con “0”. La probabilidad es 0.7408,
de no tener alguna maleta perdida.
La probabilidad de que haya una valija extraviada es de 0.2222, lo cual se indica en la siguiente línea de
la tabla, en la misma columna.
La probabilidad de haber dos maletas perdidas es de 0.0333, que está en el renglón siguiente; para
tres, vale 0.0033; y para cuatro maletas, es 0.0003.
De ahí que, al supervisor de Aerolíneas del Valle no debe sorprenderle que haya un equipaje perdido,
pero debe esperar que rara vez ocurra la pérdida de más de una maleta.
Un diagrama de la distribución del número de errores se muestra en el diagrama siguiente. Observe que
la distribución se encuentra sesgada severamente en dirección positiva.
Por ejemplo, en figura siguiente, se muestran las distribuciones del número de servicios de transmisión,
cambios de silenciadores y cambios de aceite, por día en un taller auto mecánico. Siguen las
distribuciones de Poisson con medias de 0.7, 2.0 y 6.0, respectivamente.
Una variable aleatoria continua es la que puede tomar un número infinito de valores posibles
dentro de una gama o variedad específica. Generalmente, es el resultado de medir algo, como
el peso de una persona. El peso podría ser 112.0 kg, 112.12kg, etc. Otras variables aleatorias
continuas son la expectativa de vida (duración) de pilas de tipo alcalina, el volumen de un
recipiente de embarque y el peso de las impurezas en un lingote de acero.
3. La curva normal decrece uniformemente en ambas direcciones a partir del valor central.
Es asintótica, lo cual significa que la curva se acerca cada vez más al eje X, pero en
realidad nunca llega a tocarlo. Esto es, los puntos extremos de la curva se extiende
indefinidamente en uno y otro sentidos.
No existe solo una distribución normal, sino que hay una “familia” de ellas. Existe una
distribución de probabilidad normal para los tiempos de servicio de los empleados de la planta
de Quito, para la que la media es de veinte (años) y la desviación estándar vale 3.1 (años).
Existe otra distribución probabilística normal para los citados tiempos en la planta de
Guayaquil, para la cual μ = 20 y σ = 3.9. En la figura siguiente. En la planta de Tena μ = 20 y σ
= 5.0, se ilustran tres distribuciones normales, para las cuales las medias son iguales, pero las
desviaciones estándar son diferentes.
Figura 9: Distribuciones probabilísticas normales con medias iguales, pero diferentes
desviaciones estándares
Figura 10: Distribuciones probabilísticas normales con medias diferentes, pero desviaciones
estándares iguales.
Por último, en la siguiente se muestran tres distribuciones normales que tienen distintas medias
y distintas desviaciones estándares. Muestran la distribución de resistencias a la tensión
medidas en libras por pulgadas cuadrada ( ) (psi) para tres tipos de cables.
Valor “𝑧”
● Diferencia (desviación) entre un valor seleccionado, denotado por 𝑥, y la media μ,
dividida tal diferencia entre la desviación estándar σ.
● Por lo tanto, el valor 𝑧 es la distancia a partir de la media, medida en unidades de la
desviación estándar.
Donde:
𝑋: Es el valor de cualquier medida u observación específica.
μ: Es la media de la distribución.
σ: Es la desviación estándar de la distribución.
Como se observa por la definición anterior, el valor 𝑧 mide la distancia entre el valor específico
𝑋 y la media (aritmética), en unidades de la desviación estándar. Conociendo el valor 𝑧
determinado por la fórmula correspondiente, se puede obtener el área o la probabilidad bajo la
curva normal, recurriendo a las tablas que aparecen en los textos.
Supóngase, com ejemplo, que se obtuvo por cálculo una 𝑧 = 1.91. ¿Cuál es el área bajo la
curva normal entre la media y 𝑋?
Descienda se por la columna izquierda de esta, encabezada por la letra 𝑧, hasta 1.91. Luego se
desplaza horizontalmente hacia la derecha y se lee la probabilidad bajo la columna
encabezada por 0.01, resulta 0.4719. Esto significa que 4719% del área bajo la curva se
encuentra entre la media y e valor de 𝑋 de 1.91 desviaciones estándares por arriba de la
media. Esta es la probabilidad de que una observación se encuentre entre 0 y 1.91
desviaciones estándares respecto de la media.
¿Cuál es el área bajo la curva entre la media y 𝑋 para los siguientes valores 𝑧?
Compruebe sus respuestas con las expresadas.
No todos los valores se encuentran en una tabla.
Deberá utilizar alguna tabla que figura al final del libro.
Solución
Utilizamos la fórmula correspondiente, los valores 𝑧 para los dos valores 𝑋 ($1100 y
$900) se calcula como sigue:
El valor 𝑧 de 1.00 indica que un ingreso semanal de $1100 para un gerente de nivel medio está
a una desviación estándar por encima de la media.
Un valor 𝑧 de -1.00 indica que un ingreso semanal de $900 está a una desviación estándar por
debajo de la media.
Observe que ambos ingresos ($1100 y $900) están a la misma distancia ($100) respecto de la
media.
1. Aproximadamente 68% del área bajo la curva normal está dentro de más una y menos
una desviación estándar respecto de la media. Esto se expresa como μ 土 1σ.
2. Aproximadamente 95% del área bajo la curva normal está dentro de más dos y menos
dos desviaciones estándares respecto de la media lo que se expresa como μ 土 2σ.
3. Prácticamente toda el área (99.7%) bajo la curva normal está dentro de tres
desviaciones estándares respecto de la media (a uno y otro lados del centro), lo cual se
indica por μ 土 3σ.
Mostrando esto en un diagrama y utilizando porcentajes más precisos queda:
El transformar las mediciones a valor 𝑧 (o desvíos normales estándares) cambia la escala. Las
conversaciones se muestran en el siguiente diagrama.
Estos conceptos pueden expresarse de manera algo distinta: el área bajo la curva normal de
más y menos una desviación estándar respecto de la media es de 0.6826. El área dentro de
más o menos dos desviaciones estándares respecto de la media es 0.9544. El área dentro de
tres desviaciones estándares respecto a la media vale 0.9974. Y el área total bajo la curva
normal es 1.0000.
Ejemplo
Una prueba de vida útil para un gran número de pilas alcalinas tipo D, reveló que la duración
media para un uso específico antes de la falla es de 1.90 horas. La distribución de las
oraciones se aproxima a una distribución normal. La desviación estándar de la distribución fue
de 1.2 horas.
Solución
1. Aproximadamente 68% falló entre 17.8 h y 20.2 h, valores obtenidos de 19. 0 土1 (1. 2).
2. Alrededor de 95% lo hizo entre 16.6 h y 21.4 h, calculado por 19. 0 土2 (1. 2).
3. Prácticamente todas las pilas fallaron entre 15.4 h y 22.6 h, lo que resulta de
19. 0 土13(1. 2).
Ya hemos convertido $1100 a un valor 𝑧 de 1.00 aplicando la fórmula respectiva. Una vez más:
A continuación, se presenta una pequeña parte de una tabla final de un libro. Para localizar el
área, recorra hacia abajo la columna izquierda hasta 1.0. Después se va horizontalmente hacia
la derecha, y se lee el área bajo la curva en la columna marcada 0.00. Resulta así: 0.3413
Representado en un diagrama:
El área bajo la curva normal entre $1000 y $1100 es 0.3413. También puede decirse que
34.13% de los ingresos semanales están entre $1000 y $1100, y la probabilidad de que ingreso
específico se halle entre $100 y $ 1100 tiene por valor 0.3413
Ejemplo
Solución
Una segunda aplicación de la distribución normal estándar se relaciona con combinar dos
áreas: una a la derecha y otro a la izquierda de la media.
Ejemplo
Volviendo a la distribución de ingresos semanales [μ = $1000(𝑑ó𝑙𝑎𝑟𝑒𝑠), σ = $100], ¿Cuánto
vale el área bajo la curva normal entre $840 y $1200 dólares?
Solución
El problema se divide en dos partes. Para el área entre $840 y la media de $1000:
El área bajo la curva para un valor 𝑧 de -1.60 es 0.4452 (tomada de una tabla). El área bajo la
curva para un 𝑧 de 2.00 es 0.4772. Sumando las dos áreas queda: 0. 4452 + 0. 4772 = 0. 9224
. De esta forma, la probabilidad de seleccionar un ingreso entre $840 y $1200 es 0.9224. En
otras palabras, 92.24% de los gerentes tiene un ingreso semanal entre $840 y $1200.
Mostrado en un diagrama:
Una aplicación en la distribución normal estándar consiste en determinar el área por
encima o por debajo de un valor específico.
Ejemplo
Considerando de nuevo el ejemplo de los ingresos semanales [μ = $1000, σ = $100], ¿Qué
porcentaje de los ejecutivos tiene ingresos por semana de $1245 o más?
Solución
Primero es necesario determinar el área entre la media de $1000 y $1245. Se utiliza la
fórmula correspondiente, primero para calcular 𝑧,
Consultando en una tabla de la distribución normal, el área asociada a una valor 𝑧 de 2.45 es
0.492. Esta es la comprendida entre $1200 y $1245. Resulta lógico que el área a partir de
$1245 y que llega hasta el final de la curva, se obtenga al restar 0.4929 de 0.5000. El área es
0.00771, lo cual indica que solo el 0.71% de los ejecutivos tiene ingreso semanal de$1245 o
más.
En el diagrama que sigue muestra los diversos aspectos de este problema.
Otra aplicación de la distribución normal estándar implica determinar el área entre valores
sobre el mismo lado de la media.
Ejemplo
Volviendo al ejemplo de los ingresos [μ = $1000, σ = $100], ¿Cuánto vale el área bajo la
curva normal entre $1150 y 1250?
Solución
El problema se separa de nuevo en dos partes y se aplica la fórmula correspondiente
En diagrama
En resumen, existen solamente cuatro situaciones en las que se quiere el área bajo la
distribución normal estándar.
Ejemplo
Supóngase que un fabricante de neumáticos desea fijar una garantía mínima de millas
recorridas para su nueva llanta MYX1000. Las pruebas de duración revelaron que la media de
las millas recorridas es 47900, con una desviación estándar de 250 millas y con distribución
normal. El fabricante desea fijar las millas recorridas de garantía de manera que no sea
necesario reemplazar más del 4 % de los neumáticos. ¿Cuántas millas de recorrido de garantía
debe anunciar el fabricante?
Solución
Hay dos incógnitas 𝑧 y 𝑋. para determinar 𝑧 Observe que el área bajo la curva normal a la
izquierda de μ, vale 0.5000. El área entre μ y 𝑋 es 0.4600, que se determina de
0. 5000 − 0. 400. Ahora consulte una tabla de la normal y busque en el cuerpo de la tabla del
área más cercana a 0.4600, específicamente 0.4599. Vaya hacia el margen de este valor y lea
de 1.75
Sabiendo que la distancia entre μ y 𝑋 es -1.75 σ, ahora se puede despejar 𝑋 (mínimo de millas
garantizadas).
Por lo tanto, el fabricante puede anunciar que reemplazará gratis cualquier neumático que se
gaste antes de llegar a las 44312 millas, y la compañía sabrá que solamente un 4% de sus
productos será sustituido siguiendo este plan.
Ejemplo
Supóngase que un estudio de los internos de una institución correccional se refiere al ajuste
social de los reclusos, y sus perspectivas de rehabilitación al salir en libertad. A cada uno se le
aplica una prueba referente al ajuste social. Las puntuaciones siguen una distribución normal,
con media de 100 y desviación estándar de 20.
Los psicólogos del reclusorio calificaron a cada interno con respecto a la probabilidad de
rehabilitación. Tales puntuaciones también están distribuidas en forma normal, con media de
500 y desviación estándar de 100.
María Caza, una interna, obtuvo 146 en la prueba de ajuste social y su puntuación con
respecto a rehabilitación es 335. ¿De qué modo se compara su calificación con la del grupo, en
lo que se refiere a la responsabilidad social y las perspectivas de rehabilitación?
Solución
Con respecto a responsabilidad social, María Caza está en el 1 % más elevado del
grupo. Sin embargo, en comparación con los otros internos, queda en el 5 % más bajo
en lo que se refiere a las posibilidades de rehabilitación.
1.9. Aproximación normal a la binomial
(Ref. Lind, A. D.; et al. (2012). Estadística aplicada a los negocios y a la economía, pág. 241)
Se analizó la distribución probabilística binomial, que es una distribución discreta. Una tabla de
probabilidades binomiales generalmente va en forma sucesiva desde una n de 1 hasta n de 20,
y después a una n = 25. Supóngase que un problema se relaciona con obtener una muestra de
tamaño 60. El generar una distribución binomial para un número de esa dimensión tomaría
mucho tiempo, aun utilizando una computadora. Un enfoque más eficiente consiste en aplicar
la aproximación normal a la binomial.
Utilizar la distribución normal (que es continua) como sustituto de una del tipo binomial (que es
una distribución discreta) para valores grandes de n parece razonable porque conforme n
aumenta, una distribución binomial se acerca cada vez más a una del tipo normal. Este cambio
en la forma de la distribución binomial con π = 0. 50 desde una n de 1 a una n de 20 se
presenta en el diagrama siguiente:
2. Una distribución resulta de contar el número de éxitos en una cantidad fija de ensayos.
Debido a que se utiliza la gráfica normal para determinar la probabilidad binomial de 60 o más
éxitos, se resta, en este caso 0.5 de 60. El valor 0.5 se denomina factor de corrección por
continuidad. Este pequeño ajuste debe hacerse porque una distribución continua (la de tipo
normal) sirve para aproximar una distribución discreta (la binomial). Restando, 60-0.5=59.5.
Es el valor 0.5 que se resta o se suma, dependiendo del problema, a un valor seleccionado
cuando una distribución probabilística discreta se está aproximando por medio de una del tipo
continuo.
2. Para la probabilidad de que más de 𝑋 sucedan, utilice el área por arriba de (𝑋 + 0. 5).
4. Para la probabilidad de que menos de 𝑋 sucedan, emplee el área situada por debajo de
(𝑋 − 0. 5).
Los pasos para utilizar la distribución normal a fin de aproximar la probabilidad de que 60 o
más clientes nuevos, de 80, regresen al restaurante Santos son:
Paso 1. Hallar el valor 𝑍 que corresponde a una 𝑋 de 59.5 aplicando las fórmulas
respectivas, para la media y la varianza de una distribución binomial:
Paso 2. Determine el área bajo la curva normal entre μ de 56 y una 𝑋 de 59.5. Del paso
1 se sabe que el valor 𝑍 correspondiente a 59.5, es 0.85. Así que recurra a una tabla, lea
hacia abajo en el margen izquierdo hasta llegar a 0.8 y después pase horizontalmente
hasta el área bajo la columna con el encabezado 0.05. Tal área es 0.3023.
Paso 3. Calcular el área más allá de 59.5 al resto 0.3023 de 0.5000 (es decir,
(0. 5000 − 0. 3023 = 0. 1977). De esta forma, 0.1977 es la probabilidad aproximada de
que 60 o más clientes nuevos, de los 80, regresen en otra ocasión al restaurante
Santos.
Recursos complementarios
Distribución de probabilidad
https://es.wikipedia.org/wiki/Distribución_de_probabilidad
Bibliografía
Autoevaluación
1. Los posibles resultados de un experimento relacionado con el lanzamiento de un dado,
obviamente son: “uno”, un “dos”, un “tres”, un “cuatro”, un “cinco” y un “seis”. ¿Cuál es el
total de las probabilidades?
a. 6 /6
b. 1 /2
c. 1 /6
d. 3 /6
10. Un cultivador de semillas híbridas tiene problemas con gusanos barrenadores del maíz.
Una exploración aleatoria de 5000 mazorcas reveló estos datos: muchas de ellas no
contenían gusanos; algunos tenían uno; unas contenían dos: y así sucesivamente. La
distribución del número de barrenadores por mazorcas se aproxima a la distribución de
Poisson. El agricultor contó 3500 gusanos en las 5000 mazorcas. ¿Cuál es la
probabilidad de que una mazorca seleccionada al azar no tenga barrenadores?
a. 0.4966
b. 0.7
c. 0.5
d. 0.3476
15. A los empleados de la empresa Manufactureras Ambato se les otorga puntuaciones por
eficiencia. La distribución de estás sigue aproximadamente una distribución normal. La
media es 400 y la desviación estándar 50. ¿Cuánto vale el área bajo la curva normal
para puntuaciones mayores que 482?
a. 0.0500
b. 0.4590
c. 0.4500
d. 0.0505
17. Un estudio realizado por la compañía Aseguradora del Pacífico reveló que los
propietarios no recuperaron los bienes robados en 80% de los hurtos reportados a la
aseguradora. Durante cierto tiempo en el que ocurrieron 200, ¿Cuál es la probabilidad
de que no se recuperen los bienes objetos de hurto en 170 o más de los actos de
latrocinio?
a. 0.2000
b. 0.8000
c. 0.1700
d. 0.0465
Tema 2:
Estimaciones de intervalos de confianza
2.1 Introducción
El objetivo de la inferencia estadística es determinar algo acerca de una población con base en
una muestra, La población es el grupo completo de individuos u objetos en estudio y la muestra
es una parte o subgrupo de esa población.
Una muestra es un medio utilizado para inferir acerca de una población mediante la selección
de una parte de la misma. Se analizarán métodos para escoger una muestra de una población.
Después se elaborará una distribución de las medias muestrales para comprender la forma en
que tales valores medios tienden a agruparse alrededor de la media poblacional y por qué esta
distribución se aproxima a la del tipo normal.
Se establecerán los intervalos de confianza, que define una gama de valores dentro de la cual
ocurrirá, probablemente, el valor de la población. Se definen fórmulas que determinan el
número de observaciones necesarias para diferentes situaciones de muestreo.
Muestra probabilística
Muestra que se selecciona de modo que cada integrante de la población en estudio tenga una
probabilidad conocida (no igual a cero) de ser incluida en la muestra.
No hay método que sea el “mejor” para seleccionar una muestra probabilística de una
población de interés. Los métodos de muestreo probabilístico tienen un objetivo similar: permitir
que el azar determine los integrantes que se incluirán en la muestra.
Muestreo aleatorio simple
Muestreo aleatorio simple (MAS): Muestra seleccionada de manera que cada integrante de la
población tenga la misma probabilidad de quedar incluido.
Para ilustrar el muestreo aleatorio simple y la selección, suponga que una población consta de
845 empleados de una empresa. Se seleccionará una muestra de 52 a partir de una población.
Una forma de asegurar que todos los trabajadores en la población tengan la misma
oportunidad de ser elegidos es escribir primero el nombre de cada uno en una papeleta y
depositar todos los papeles. Después que se han mezclado bien, se realiza la primera
selección sacando una papeleta de la urna sin mirarla. Este proceso se repite hasta que elige
52 el tamaño requerido.
A continuación, se muestra una parte de una tabla de números aleatorios. Para utilizar esta
tabla a fin de seleccionar una muestra de los empleados, primero debe elegirse un punto de
inicio en la tabla. Cualquier punto de comienzo servirá. Supóngase que la hora es 3h04. Podría
uno ver la tercera columna, y después bajar al cuarto conjunto de números. El resultado es
03759. Como solo hay 845 empleados, se utilizarán los primeros tres dígitos de un número
aleatorio de cinco cifras. De modo que 037 es el número del primer empleado que será
elemento de la muestra. A fin de continuar seleccionando, se puede ir en cualquier dirección.
Supóngase que se decide ir hacia la derecha. Los primeros tres dígitos del número a la
derecha de 13759 son 477, que es el número del empleado que se escogerá como segundo
elemento de la muestra. El tercer número de tres dígitos también a la derecha es 961. No se
puede usar el 961 porque solamente hay 845 empleados. Se continúa en la misma dirección y
se selecciona al empleado 784 al 189 y así sucesivamente. Otra forma de seleccionar el punto
de inicio es cerrando los ojos y fijando con un lápiz un número de tabla.
Muestreo aleatorio sistemático
El procedimiento de muestreo aleatorio simple puede ser difícil de utilizar en algunos casos de
investigación. Por ejemplo, suponga que la población de interés consta de 2000 facturas
colocadas en gavetas de archivo. Para obtener una muestra aleatoria simple primero se
necesitaría numerar dichos elementos elementos del 0000 al 1999. Usando una tabla de
números aleatorios, una muestra de;
Por ejemplo
100 números, se tendría que seleccionar. Habría que localizar en las gavetas una factura que
correspondiera a cada uno de estos 100 números. Esto sería una tarea larga. En su lugar
puede seleccionarse una muestra aleatoria sistemática, seleccionando simplemente un
elemento de cada 2 de los que se encuentran en el archivo. La primera factura se elegirá
utilizando un proceso al azar o fortuito, por ejemplo, una tabla de números aleatorios. Si se
selecciona el elemento número 10 como el punto de inicio, la muestra constaría de las facturas
de las facturas números 10, 30, 50, 70, tc. Ya que en el primer elemento de inicio se eligen al
azar todas las facturas tienen la misma probabilidad de ser seleccionadas para la muestra. Así
que se tiene una manufactura probabilística.
Sin embargo, no debe utilizarse una muestra sistemática si hay un patrón predeterminado en la
población.
Considere que las 352 empresas se dividieron en cinco estratos. (Ver la tabla siguiente). Si se
han de seleccionar 50 empresas para un estudio intensivo, entonces se estudiaría una
organización con un nivel de rentabilidad de 30% o mayor, se seleccionaran aleatoriamente
cinco empresas en el estrato 20 - 30% y así sucesivamente.
Tabla 1: Número seleccionado de una muestra aleatoria estratificada proporcional
El muestreo estratificado tiene la ventaja, en algunos casos, de reflejar con mayor precisión las
características de la población, que es el muestreo aleatorio simple o el aleatorio sistemático.
Observe en la tabla anterior que el 2% de las empresas pagan dividendos de 30% o más
(estrato 1) y 1% tiene déficit (estrato 5). Si se tomara una muestra aleatoria simple de 50, no
habría posibilidad de seleccionar al azar alguna compañía de los estratos 1 o bien 5. Sin
embargo, una muestra aleatoria estratificada aseguraría que al menos una empresa en el
estrato 1 y una en el estrato 5, estuvieran representadas en la muestra.
“Error” de muestreo
Sin embargo, es poco probable que una media muestral sea idéntica a la media poblacional.
De igual forma, la desviación estándar u otra medida calculada a partir de la muestra,
probablemente no sería alguna exactamente igual al valor correspondiente de la población;
por lo tanto podemos esperar que haya alguna diferencia entre un valor estadístico de muestra,
como la media muestral o la desviación estándar respectiva y el correspondiente parámetro de
población. La diferencia entre un valor estadístico de muestra y un parámetro de población se
denomina error de muestreo.
Suponga que una población de cinco empleados del área de producción tiene índices de
eficiencia de 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra de dos
índices (97 y 105) de la población para calcular el índice medio de la misma, tal media sería
101, obtenida de (97 + 105)/2.
Se selecciona otra muestra de dos: 103 y 96, con una media muestral de 99.5. La medusa de
todos los índices (la de la población) es igual a 100, obtenida por:
(97 + 103 + 96 + 99 + 105)/5 = 500/5 = 100.
El error de muestreo para la primera muestra es de 1.0, determinar por 𝑋 − μ = 101 − 10. La
segunda muestra tiene un error de muestreo de − 0. 5. Cada diferencia, 1. 0 y − 0. 5, es el error
que habría al evaluar la media poblacional con base en la media muestral y estos errores de
muestreo se deben alzar, La cantidad de estos errores de muestreo se debe al azar. La
cantidad de estos errores será diferente de una muestra a la siguiente.
En el ejemplo referente a las tasas de eficiencia de los empleados, se mostró que las medias
muestrales de un tamaño específico varían de una muestra a otra. El índice de eficiencia medio
de la primera muestra de dos empleados era 101 y la media de la segunda muestra fue 99.5.
Probablemente, una tercera muestra daría como resultado un valor medio diferente. La media
de la población fue 100. Si se organizan los valores medios de todas las muestras posibles de
tamaño 2 en una distribución probabilística, se obtendrá la denominada distribución de
muestreo de medias muestrales.
Es una distribución probabilística que consta de todas las medias muestrales posibles de un
tamaño de muestra dado de una población y la probabilidad de ocurrencia asociada a cada
media muestral.
Solución
1. La media de la población es de $7.71 (dólares), obtenida por:
μ = ($7 + $7 + $8 + $8 + $7 + $8 + $9)/7 = $7. 71
Las 21 medias de todas las muestras posibles de tamaño 2 que pueden tomarse a partir
de la población e indican en la tabla siguiente:
En resumen, se tomaron todas las muestras aleatorias posibles de una población y para cada
una se calculó un valor estadístico muestral (la cantidad media obtenida). Como cada muestra
posible tiene una posibilidad de ser seleccionada, puede determinarse la probabilidad de que
dicha cantidad tenga valores como $7.27, $8.50, $6.50 y así sucesivamente.
La distribución de las cantidades medias obtenidas se denomina distribución de muestreo de
las medias muestrales.
Aunque en la práctica se puede ver sólo una muestra aleatoria en particular, en teoría puede
surgir cualquiera de las muestras. En consecuencia, se considera el proceso de muestreo
como uno repetido del valor estadístico a partir de su distribución muestral. Esta distribución de
muestreo se utiliza luego para medir la probabilidad de un resultado específico.
El teorema de límite central establece que para muestras aleatorias grandes la forma de
distribución de medias muestrales se acerca a la de la distribución del tipo normal. La
aproximación es más exacta para muestras grandes que para pequeñas. Esta es una de las
conclusiones más útiles en Estadística.
Se puede razonar acerca de la distribución de las medias muestrales sin contar con alguna
información respecto de la forma de la distribución original de la cual se toma la muestra. En
otras palabras, el teorema de límite central es cierto para todas las distribuciones.
El concepto de que la distribución de las medias muestrales de una población que no es normal
converja a la normalidad en ciertos casos, se ilustra en las tres figuras siguientes:
La figura 2 representa una distribución probabilística discreta que tiene sesgo positivo.
Ejemplo:
Edu Spencer comenzó con su empresa comercial (de ruedas dentadas) hace 20 años. El
negocio ha crecido a través del tiempo y ahora emplea a 40 personas. Tal empresa, Spencer,
Inc., se enfrenta a algunas decisiones importantes con respecto al cuidado de la salud de sus
empleados. Antes de tomar una resolución final acerca del plan de cuidados de la salud que
adquirirá, Edu decide formar un comité de cinco representantes de los trabajadores, para que
analice cuidadosamente el tema y haga una recomendación con respecto a cuál plan se adapta
mejor a las necesidades del empleado.
Considera que los puntos de vista de los trabajadores más jóvenes con respecto al cuidado de
la salud pueden diferir de aquellos correspondientes a empleados de mayor edad. Si Edu
selecciona al azar este comité, ¿qué puede esperar respecto al cuidado del número promedio
de años en la empresa de los integrantes del mismo? ¿Cómo se compara la forma de la
distribución de años de experiencia de todos los empleados con la de las medias muestrales?
Los tiempos de servicio (redondeados al año más cercano) de los 40 trabajadores que
actualmente están en la nómina de dicha empresa son como se indica a continuación:
Solución
Para empezar, Edu escribe en papeletas el tiempo de servicio de cada uno de los 40
empleados y las coloca dentro de una caja. Después revuelve todos los pedazos de
papel y selecciona al azar cinco de las papeletas.
Los tiempos de servicio para estos cinco trabajadores son: 4, 1, 0, 14 y 9 años. Por lo
tanto, el tiempo medio de servicio para tales empleados es de 5.60 años.
¿Cómo se compara este resultado con la media de la población? En ese momento Edu
no la conoce, pero el número de empleados en la población es sólo 40, por lo que
decide calcular el tiempo medio de servicio para todos sus trabajadores. Esto da 4.80
años, valor obtenido de sumar los tiempos de servicio para todos los empleados y dividir
el total entre 40.
¿Qué pasaría si Edu devolviera las cinco papeletas a la caja y selecciona otra muestra?
¿Se esperaría que la media de esta segunda muestra fuera igual a la de la muestra
anterior?
Suponga que se elige otra muestra de cinco empleados y se determina que sus tiempos
de servicio son 8, 3, 1, 1 y 14. La media de esta muestra es 5.40 años. El resultado de
seleccionar 10 muestras de cinco empleados cada una se presenta en el segundo
diagrama. Observe la diferencia en la forma de la población y la distribución de esas
medias muestrales. La población de los tiempos de servicio para los empleados
(segundo diagrama) tiene sesgo positivo, pero la distribución de las diez medias
muestrales no manifiesta el mismo sesgo positivo. De hecho, tiene sesgo negativo.
Asimismo, se puede comparar el valor medio de las medias muestrales con respecto a la
media de la población. La media de las 30 muestras presentadas en la tabla anterior es
4.7133 años, valor obtenido por μX̄= (5. 6 + 5. 4 + … + 9. 2 + 7. 0)/30 Se utiliza es
símbolo μX̄ para representar el valor de las medias muestrales. El subíndice indica que
la distribución es de medias de muestras. Se lee “miu sub X con barra”. Observe que el
valor medio de las medias muestrales, 4.7133 años, es muy parecido a la media de la
población de 4. 80 años.
Por lo tanto, el teorema de límite central indica que, sin importar la forma de la
población, la distribución de las medias muestrales se aproxima a la distribución normal.
Cuánto más grandes sean las muestras, tanto mayor será la convergencia. La empresa
Spencer, Inc. es una evidencia empírica del modo cómo funciona el teorema del límite
central.
Asimismo, se observó que el valor medio de todas las medias muestrales se encontraba
cerca de la media de la población. Se puede ver que, si la dispersión en la población es
σ, la dispersión en las medias muestrales esσ/√𝑛 , en donde n representa el tamaño de
la muestra.
Por esta relación, es posible observar que, al incrementar el tamaño de la muestra, la
dispersión de las medias muestrales disminuye. También se puede probar que, el valor
medio de todas las medias muestrales es igual a la media poblacional.
Los datos sobre el tiempo de servicio de los empleados de Spencer, Inc. presentados en el
ejemplo último son una población porque se reportó el tiempo de servicio para los 40
trabajadores de la compañías. En este caso se puede calcular fácilmente la media de la
población. Se tiene todos los datos y la población no es demasiado grande; sin embargo, en la
mayoría de los casos, es necesario calcular la media poblacional. Generalmente se desconoce
este parámetro de la población. Al único número que se utiliza para evaluar un parámetro de
población se le denomina estimación puntual.
Estimación puntual
Suponga que una empresa desea calcular la edad promedio de los compradores de equipos
estéreos. Se selecciona una muestra de 50 compradores recientes, se determina la edad de
cada uno y se calcula la edad media de los seleccionados. El valor medio de esta muestra es
una estimación puntual de la media poblacional.
Sin embargo, un valor estimado puntual representa solo una parte de la historia. Al tiempo que
se espera que la estimación puntual se acerque al parámetro de la población, quisiéramos
medir qué tan cerca se encuentra. Un intervalo de confianza cumple con este propósito.
Intervalo de confianza
Es una gama de valores obtenidos a partir de datos de muestreo, de modo que el parámetro
ocurre dentro de esa variedad a una probabilidad específica. La probabilidad específica en
cuestión se denomina el nivel de confianza.
2.6 Intervalo de confianza de una medida poblacional
Ref. Lind, A.D.; et al. (2012). Estadística aplicada a los negocios y a la economía, pág. 285)
Se calcula la media del ingreso anual para los trabajadores de construcción en el área de Los
Ángeles, como igual a $65 000 (dólares). La variación de este cálculo podría ser de $61 000 a
$69 000. Al realizar una declaración de probabilidad, se puede describir la confianza que se
tiene en que el parámetro de la población se encuentre en el intervalo.
Por ejemplo, puede afirmarse que se está 90 % seguro de que la media del ingreso anual de
los trabajadores de construcción en el área de Los Ángeles está entre $61 000 y $69 000.
El 95% y el 99% se refieren al porcentaje de tiempo que los intervalos construidos similarmente
incluirían el parámetro que se estima. Por ejemplo, el 95% se refiere al 95% central de
observaciones. Por lo tanto, el 5% restante se divide igualmente entre los dos extremos.
Del mismo modo, la probabilidad de que esté en el intervalo entre -1.96 y 0, es también de
0.4750. Cuando se combinan ambas, la probabilidad de encontrarse en el intervalo -1.96 a
1.96, resulta ser 0.9500. El valor z que corresponde a 0.99 se determina de forma similar.
Por ejemplo, suponga que su investigación tiene que ver con el sueldo anual inicial para los
graduados de una escuela de economía. Se ha calculado la media muestral como igual a
$27000 (dólares) y la desviación estándar de las medias muestrales, como de $200. El
intervalo de confianza de 95 % está entre $26608 y $27392, obtenido por $27000 ± 1.96
($200). Si se seleccionan 100 muestras del mismo tamaño de la población de interés y se
determinan los correspondientes 100 intervalos de confianza, se podría encontrar la media de
la población en 95 de los 100 intervalos de confianza.
símbolo , el cual se lee "sigma sub X con barra". Frecuentemente se acorta el nombre a
error estándar.
Donde:
Dos valores afectan el tamaño del error estándar. El primero es la desviación estándar. Si esta
es grande, entonces el error estándar también lo será; sin embargo, el tamaño de la muestra
también afecta al error estándar. Al aumentar el tamaño de la muestra, el error estándar
disminuye, indicando esto que hay menor variabilidad en la distribución de las medias
muestrales.
Como se describió antes, los valores de 1.96 y 2.58 se refieren a los valores z
correspondientes al 95 % y al 99 % central de las observaciones, respectivamente.
Otros niveles de confianza pueden ser empleados. Para estos casos, el valor z cambia
correspondientemente. En general, un intervalo de confianza para la media se calcula por:
Donde:
𝑍 : es el nivel de confianza
Ejemplo
1. ¿Cuál es el ingreso medio estimado de todos los gerentes de nivel medio (la población)?
Es decir, ¿cuál es la estimación puntual?
2. ¿Cuál es el intervalo de confianza de 95 % para la media de la población (redondeando
a los $10 más cercanos)?
3. ¿Cuáles son los límites de intervalo de confianza de 95 %, para la media de la
población?
4. ¿Qué grado de confianza se está usando?
5. Interprete los resultados.
Solución
Donde:
𝑝: es la proporción muestral.
𝑧: es el valor Z del grado de confianza seleccionado.
𝑛: es el tamaño de la muestra.
Ejemplo
Suponga que 1600 de 2000 trabajadores sindicados que se muestrean dijeron que planean
poner a votación una propuesta para unirse a la federación. Si se utiliza un nivel de confianza
de 0.95, ¿cuál es la estimación de intervalo para la proporción poblacional?¿A qué conclusión
se llegaría con base en el intervalo de confianza?
La proporción, se calcula: 𝑋/𝑛 = 1600/2000 = 0. 80 por lo tanto 𝑝 = 0. 80
Solución:
Utilizando la fórmula respectiva, el intervalo se calcula como sigue:
Población infinita
Las poblaciones que se han muestreado hasta ahora han sido muy grandes o se supone que
son infinitas. ¿Qué sucede si la población muestreada no es infinita y ni siquiera es muy
grande? En tales casos se necesita hacer algunos ajustes en la forma en que se calcula el
error estándar de medias muestrales y el de proporciones de muestra.
La población finita
Por ejemplo, hay 21376 estudiantes inscritos en una universidad del Ecuador y la empresa
Chrysler-Jeep Corp. manufacturó 917 unidades en su planta de Arkansas el año pasado.
Una población finita puede ser notablemente pequeña; por ejemplo, podría constar de todos los
alumnos inscritos en este período académico. Una población también puede ser muy grande,
como todos los ciudadanos que viven en un determinado país.
Para una población finita, donde el número total de objetos es 𝑁 y el tamaño de la muestra es 𝑛
, se hace el siguiente ajuste a los errores estándares de medias y de proporción muestrales.
Supóngase que la población es 1000 y la muestra es 100. Entonces tal razón vale:
, o sea, .
Con la raíz cuadrada se obtiene el factor de corrección, 0.9492. Multiplicando por el error
estándar, se reduce el error aproximadamente en 5 % (1-0.9492 ≅ 0.05). Esta reducción en el
tamaño del error estándar resulta en un intervalo menor de valores en la estimación de la
media poblacional.
Si la muestra es 200, el factor de corrección es 0.8949, lo que significa que el error estándar se
reduce en más de 10 %.
En la tabla siguiente se muestran los efectos de diferentes tamaños de muestra sobre el factor
de corrección. Observe que cuando la muestra es aproximadamente menor que 5 % de la
población, el impacto del factor de corrección es muy pequeño. La regla general es que si la
razón 𝑛/𝑁 es menor que 0.05, se omite el factor de corrección para población finita.
Tabla 5: Cálculo del factor de corrección para población finita, en el caso de diversos tamaños
de muestras y cuando la población es de 1000
Ejemplo
Hay 250 familias en el pequeño poblado de Sicalpa. Una encuesta con 40 de ellas reveló que
la contribución media anual a la iglesia es de $450 (dólares) con una desviación estándar de
$75. Establezca un intervalo de confianza de 95 % para la contribución media anual.
Solución
Primero observe que la población es finita. Esto es, hay un límite al número de personas
en Sicalpa.
Segundo, note que la muestra constituye más del 5 % de la población; esto es, n/N =
40/250 = 0.16 → 16%
Por tanto, se aplica el factor de corrección para población finita. El intervalo de confianza
de 95 % se establece de la siguiente manera, aplicando las fórmulas correspondientes:
Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es:
“¿Cuántos elementos deben incluirse en la muestra?”. Si esta es demasiado grande, se
derrocha inútilmente recursos en la recolección de datos. De forma semejante, si la muestra es
demasiado pequeña, las conclusiones resultantes podrían ser incorrectas. El tamaño correcto
de la muestra depende de tres factores:
El error máximo permisible, denotado como 𝐸, es la cantidad que se suma y resta de la media
muestral para determinar los puntos extremos del intervalo de confianza. Es la cantidad de
error que el investigador está dispuesto a tolerar.
Si no está disponible alguna estimación de un estudio anterior, puede ser apropiado emplear
una aproximación basada en un intervalo de variación. Para aplicar este enfoque se
necesita conocer o tener una estimación de los valores más grandes y los más pequeños en la
población. Recuerde la regla empírica que se podría esperar que casi todas las observaciones
estuvieran entre ± 3 desviaciones estándares respecto de la media, dado que la distribución
fuese aproximadamente acampanada, es decir, normal.
Por lo tanto, la distancia entre el valor más grande y el más pequeño es 6σ. Se podría estimar
la desviación estándar como un sexto de la amplitud de variación. Por ejemplo, suponga que la
directora de operaciones de un banco desea una estimación del número de retiros que
estudiantes universitarios hacen al mes. Cree que la distribución se aproxima a la normal, que
el número mínimo de documentos presentados es 2 por mes, y que el máximo es 50. El
intervalo de variación de la cantidad de retiros mensuales es 48, obtenido por, 50 - 2. Entonces,
la estimación de la desviación estándar sería 8 retiros por mes, de 48/6.
Un tercer enfoque para evaluar la desviación estándar es realizar un estudio piloto. Este es el
método más comúnmente utilizado. Suponga que se desea obtener una estimación del número
de horas de trabajo a la semana de estudiantes inscritos en la Escuela de Economía. Para
probar la validez del cuestionario, se aplica en una pequeña muestra de alumnos. A partir de
esta, se calcula la desviación estándar del número de horas de trabajo y se utiliza este para
determinar el tamaño adecuado de la muestra.
Puede expresarse la interacción entre estos tres factores y el tamaño de la muestra con la
fórmula siguiente:
Donde:
𝑛: es el tamaño de la muestra
𝑧: es el valor normal estándar correspondiente al nivel de confianza deseado.
𝑠: es un estimado de la desviación estándar de la población.
𝐸: es el máximo error permisible.
El resultado de este cálculo no siempre es un número entero, por lo que la práctica usual es
redondear cualquier resultado fraccionario. Por ejemplo: 201.22 se redondeará a 202.
Ejemplo
Un estudiante de economía desea determinar el ingreso medio de los miembros de concejos
urbanos. El error al estimar la media es menor que $100 (dólares) con un nivel de confianza de
95 %. El estudiante encontró un informe presentado por el Departamento del Trabajo que
estimaba la desviación estándar en $1000. ¿Cuál es el tamaño de muestra requerido?
Solución
El máximo error permisible, 𝐸, es $100. El valor 𝑧 para un nivel de confianza de 95 % es
1.96 y el estimado de la desviación estándar es $1000. Al introducir estos valores en la
fórmula correspondiente, se tiene que el tamaño requerido de la muestra es:
El valor calculado de 384.16 se redondea a 385. Se requiere una muestra de 385 para
cumplir con las especificaciones.
Ejemplo
El estudio en el ejemplo anterior también estima la proporción de ciudades que cuentan con
cobradores privados. El estudiante quiere que el cálculo se halle dentro de 0.10 de la
proporción de la población, el nivel deseado de confianza es de 90 % y no hay alguna
estimación disponible para la proporción de población. ¿Cuál es el tamaño de la muestra?
Solución
Intervalo de confianza
https://es.wikipedia.org/wiki/Intervalo_de_confianza
Bibliografía
LIND, Douglas A.; MARCHAL, William GWATHEN, Samuel A. (2012). Estadística Aplicada a los
Negocios y a la Economía. México. McGraw Hill. Decimoquinta edición.
Autoevaluación
1. El tiempo de servicio de todos los ejecutiva empleados por la empresa Innoba es:
Sr. Simón 20
Sra. Teresa 22
Sr. Kevin 26
Sra. Irina 24
Sr. Juan 28
a. 10
b. 20
c. 5
d. 2
2. El tiempo de servicio de todos los ejecutivos empleos por la empresa Innoba es:
Sr. Simón 20
Sra. Teresa 22
Sr. Kevin 26
Sra. Irina 24
Sr. Juan 28
a. 0.99
b. 0.11
c. 0.95
d. 0.05
a. 0.010 y 0.990.
b. 0.400 y 0.600.
c. 0.270 y 0.340.
d. 0.268 y 0.332.
a. 0.010 y 0.990.
b. 0.400 y 0.600.
c. 0.237 y 0.513.
d. 0.270 y 0.340.
10. Hay 250 familias en el pequeño poblado de Sicalpa. Un estudio sobre las contribuciones
a la iglesia en Sicalpa reveló que 15 de las 40 familias muestreadas asisten al templo
con regularidad. ¿Debería aplicarse el factor de correlación para población finita?
a. Si.
b. No.
c. Depende del tamaño de la muestra.
d. Depende del tamaño de la población.
11. ¿Le ayudaría usted al secretario de un colegio a determinar cuántas libretas de
calificaciones debe estudiar? El señor secretario desea calcular la media aritmética de
los promedios finales de calificaciones de los estudiantes que se graduaron durante los
últimos diez años. Dichos promedios varían entre 2.0 y 4.0. La medias de dichas
calificaciones se estima entre más o menos 0.05 de la media poblacional
Se ha de emplear el grado de confianza de 0.99; por tanto el secretario intenta informar
(hipotéticamente) algo como lo siguiente: “Con una probabilidad de 0.99, la media de los
promedios de calificaciones de los estudiantes graduales se encuentra en el intervalo
entre 2.45 y 2.55”. La desviación estándar de un estudio piloto pequeño es 0.279.
¿Cuántas libretas de calificaciones deben muestrearse?
a. 208 libretas.
b. 206 libretas.
c. 210 libretas.
d. 205 libretas.