Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
1
2. La producción de una fábrica se ve afectada, tanto en volumen como en calidad, por
muchos factores a lo largo del proceso de producción. Al tener registros que muestren los
valores de estos factores en el pasado, así como los de la producción actual, se puede
intentar establecer una ecuación predictiva que relacione a la producción con los factores.
3. De un conjunto representativo de clientes, cada uno de ellos es entrevistado para
conocer su opinión con respecto a determinado producto nuevo. De la información
obtenida, el analista de mercados deberá decidir si existe demanda suficiente para el
producto.
2
letras del alfabeto español: la media y varianza muestral respectivamente.
_
2
xys ,
1. La población es la colección de todos los libros que pertenecen a todos los estudiantes
de la facultad.
2. Una muestra es cualquier subconjunto de una población. Por ejemplo, una muestra
serían los libros textos que pertenecen a los estudiantes de la escuela de ingeniería civil.
3. La variable podría ser el valor en dólares de un libro texto individual.
4. Un dato podría ser el valor en dólares de un libro texto en particular. El libro del Br.
Rogelio Bernal, por ejemplo, está valorado en $ 20.
5. Los datos serían el conjunto de valores que corresponden a la muestra obtenida (20;
37.50; 10.25;…).
6. El experimento serían los métodos aplicados para seleccionar los libros que integren la
muestra y determinar el valor de cada libro de la muestra. Podría efectuarse preguntando a
cada miembro de la escuela de ingeniería civil, o de otras formas.
7. El parámetro sobre el que se está buscando información es el valor “promedio” de
todos los libros de la población.
8. El estadístico que se encuentra es el valor “promedio” de todos los libros textos de la
muestra.
3
Variable continua
Cuantitativo
Variable discreta
Dato
No min al
Cualitativ o
Jerarquiza do
Las variables continuas son aquellas que pueden asumir virtualmente cualquier valor en
un determinado intervalo, como el peso w o la altura h de un estudiante.
Una variable discreta es la que asume solo valores, por lo general enteros, como el
número de alumnos N en una asignatura
Las variables nominales comprenden categorías, como: sexo, color de los ojos, campo
de estudios, país, continentes, estudios realizados, etc.
Las variables jerarquizadas son las que comúnmente se refieren a las evaluaciones
subjetivas cuando los conceptos se jerarquizan según la preferencia o logro: en los
concursos, los lugares se jerarquizan en 1er. lugar, 2º. lugar, etc.; las posiciones de los
equipos se les asignan los números 1, 2, 3, . . .
La misma población puede dar origen a diferentes tipos de datos, como en la población
de alumnos de la carrera de Ingeniería Civil de la UES.
4
En la probabilidad, las propiedades de la población en estudio se suponen conocidas, y
se formulan y responden preguntas en relación con una muestra tomada de la población.
En la estadística inferencial, las características de una muestra están disponibles para el
experimentador, y esta información lo capacita para sacar conclusiones respecto de la
población.
La relación entre las dos últimas disciplinas se puede resumir al decir que la
probabilidad razona desde la población hacia la muestra (razonamiento deductivo),
mientras que la estadística inferencial razona desde la muestra hacia la población
(razonamiento inductivo).
La estadística inferencial o simplemente estadística, consiste entonces en el análisis e
interpretación de una muestra de datos. La idea básica del muestreo es medir una pequeña
porción, pero típica de alguna “población”, y posteriormente utilizar dicha información
para inferir que característica tiene la población total. Los tres tipos más importantes de
técnicas inferenciales que estudiaremos son la estimación puntual, la estimación del
intervalo de confianza, y la prueba de hipótesis.
Así pues, en probabilidad se supone que la población es conocida y se calcula la
probabilidad de observar una muestra particular. En estadística, se supone que la muestra es
conocida y, con la ayuda de la probabilidad, se trata de describir la distribución de
frecuencias de la población que es desconocida. ▄
5
copiar un resultado en otra celda, entre otros. En cambio los paquetes estadísticos actúan en
forma no procedural, (indicamos sólo lo qué queremos).
Pasos:
El asistente aparecerá al pulsar el botón
Muchos de los elementos que hemos ido eligiendo en los pasos anteriores pueden ser
cambiados utilizando la barra de herramientas gráfico. ▄
Cuando los datos estadísticos se presentan en forma de cuadros o tablas, los datos son
arreglados sistemáticamente en columnas.
6
El número de veces que aparece repetido un determinado valor de la variable se denomina
resumida.
7
Un diagrama estadístico o gráfica es un medio plástico para presentar datos estadísticos.
curvas o poligonales.
Las graficas de línea que son principalmente usadas para mostrar datos clasificados
sobre las bases de intervalos de tiempo, son referidas como series de tiempo.
Ejemplo 1.3. En la siguiente tabla se presenta la Deuda Externa Total de 2003 a 2007 en
millones de US $. Describa esta información mediante un gráfico de línea.
DEUDA EXTERNA TOTAL DE 2003 A 2007
(En millones de US $)
Año Remesa
2003 7916.7
2004 8210.5
2005 8761.4
2006 9584.3
2007 9059.7
Fuente: CEPAL
8
La deuda externa total en 2007, totalizó US $ 9059.7, mostrando una disminución de
-5.5% con relación al año anterior. ¿Qué podemos decir con respecto a los años anteriores?
9
Una gráfica de partes componentes muestra las relaciones entre la partes individuales lo
mismo que el total o totales de las partes de una o varias series de datos.
Los tipos mas comunes de gráficas de partes componentes son: gráfica de partes
componentes de línea o de barras, gráfica de pastel y gráfico polar.
Ejemplo 1.5. En la siguiente tabla se presentan las remesas familiares de Enero a Octubre
de los años 2008 a 2009. Describa esta información mediante un grafico de partes
componentes de línea.
Años
2008 2009
Meses
10
INGRESOS POR REMESAS FAMILIARES ENERO-OCTUBRE AÑO 2008 Y 2009
(En millones de US $)
400
350
300
Año250
2008 Año 2009
200
En millones de US $
150
100
50
0
En Feb Mar Abr May Jun Jul Ago Sep Oct
parte de una barra es hecha de acuerdo con el número de unidades de cada parte
componente.
Los gráficos de partes componentes de barras dobles sobrepuestas, pueden ser verticales
u horizontales.
Ejemplo 1.6. La siguiente tabla presenta las exportaciones e importaciones totales durante
el período Enero-Octubre año 2008 y 2009 en millones de US $. Describa esta información
mediante un gráfico de partes componentes de barras dobles sobrepuestas verticales.
11
El flujo acumulado de exportaciones de enero a octubre de 2009, totalizó US $ 3219,
mostrando una disminución de -17.6% con relación al mismo período del año anterior. La
disminución acumulada significó que se dejó de percibir en conjunto US $ 688.30. ¿Qué
podemos decir de las importaciones? ¿Qué podemos decir de la balanza comercial?
Ejemplo 1.7. La siguiente tabla muestra los principales países productores de petróleo en
2006. Describa esta información mediante un gráfico de pastel.
PRINCIPALES PAISES PRODUCTORES DE PETROLEO EN 2006
(Millones de barriles diarios (mb/d))
CANTIDAD
PAIS DE
BARRILES
Arabia Saudi 10.72
Rusia 9.67
Estados Unidos 8.36
Irán 4.15
China 3.84
México 3.71
Canadá 3.29
Emiratos Arabes Unidos 2.94
Venezuela 2.80
Noruega 2.78
Kuwait 2.67
Nigeria 2.44
Brasil 2.16
Argelia 2.12
Irak 2.00
FUENTE: Agencia de Información Energética (AIE) de EUA
CANTIDA
PAIS D GRADOS PORCENTAJE (%)
DE
BARRILES
Arabia Saudi 10.72 60.63 16.84
Rusia 9.67 54.69 15.19
Estados Unidos 8.36 47.28 13.13
12
Irán 4.15 23.47 6.52
China 3.84 21.72 6.03
México 3.71 20.98 5.83
Canadá 3.29 18.61 5.17
Emiratos Arabes Unidos 2.94 16.63 4.62
Venezuela 2.80 15.84 4.40
Noruega 2.78 15.72 4.37
Kuwait 2.67 15.10 4.19
Nigeria 2.44 13.80 3.83
Brasil 2.16 12.22 3.39
Argelia 2.12 11.99 3.33
Irak 2.00 11.31 3.14
0
TOTAL 63.65 360.0 100%
Aquí, se utiliza una regla de tres simple directa, por ejemplo, para Arabia Saudi,
63.65
El porcentaje se obtiene de manera semejante a los sectores.
Canadá; 329%; 5%
México; 371%; 6%
China; 384%; 6% Irán; 415%; 7%
13
¿Con qué gráfica, con el diagrama de pastel o con una gráfica de barras, se obtiene una
mejor representación de la información?
Si en las tablas, las columnas correspondientes a los atributos corresponden a los meses
del año, entonces una forma de representarlos es por medio del gráfico polar, el cual
14
INYECCION
MES NETA
MENSUAL
Enero 455.5
Febrero 439.9
Marzo 458.9
Abril 477.1
Mayo 485.5
Junio 460.5
Julio 407.4
Agosto 472.3
Septiembre 463.1
Octubre 471,3
Noviembre 442.4
Diciembre 457.3
TOTAL 5,566.1
Fuente: SIGET
_
inyección neta anual 5,566.1
x 463.8 GWh
número de meses 12
Se asigna a este promedio un radio arbitrario, por ejemplo 5 cm. y luego se calcula los
radios para cada mes, a través de una regla de tres simple directa. Por ejemplo, para el mes
de Enero,
463.8----------------5
455.5-----------------x
de donde,
(455.5)(5)
x 4.9
463.8
INYECCION
MES NETA RADIO
MENSUAL
Enero 455.5 4.9
Febrero 439.9 4.7
Marzo 458.9 4.9
15
Abril 477.1 5.1
Mayo 485.5 5.2
Junio 460.5 5.0
Julio 407.4 4.4
Agosto 472.3 5.1
Septiembre 463.1 5.0
Octubre 471.3 5.1
Noviembre 442.4 4.8
Diciembre 457.3 4.9
TOTAL 5,566.1
Durante el mes de Mayo ocurre la más alta de las inyecciones eléctricas, 485.5 GWh, y
la más baja , 407.4 GWh, en el mes de Julio.
Los pictogramas son gráficos con dibujos alusivos al carácter que se está estudiando y
cuyo tamaño es proporcional a las frecuencias que representan. Generalmente se
emplean para representar variables cualitativas.
16
Ejemplo 1.9. La siguiente tabla muestra los ingresos anuales en concepto de remesas
familiares 2002-2008 en millones de US dólares. Describa esta información mediante un
pictograma.
REMESAS FAMILIARES DE 2002-2008
(En millones de US $)
AÑO CANTIDAD
2002 1,935.2
2003 2,105.3
2004 2,547.6
2005 2,830.2
2006 3,315.7
2007 3,695.3
2008 3,787.7
Fuente: BCR
Solución:
Una imagen alusiva será la figura de un paquete de billetes de US $, cuyo tamaño estará
relacionado con la cantidad de dinero remesado en cada año. El pictograma correspondiente
es el que sigue:
El diagrama de Pareto es una gráfica de barras con estas dispuestas de la categoría más
numerosa a la menos numerosa. Incluye una gráfica hecha a base de rectas que muestra los
porcentajes acumulados y la cantidad de datos representada por cada barra. Este diagrama
tiene un empleo muy amplio en los esfuerzos por incrementar la calidad, y las categorías
17
usualmente representan tipos distintos de defectos, modos de falla o problemas con el
producto o el proceso. El diagrama de Pareto pone de relieve que relativamente pocos
defectos son responsables de la mayor parte de los defectos observados.
Ejemplo 1.10. Un inspector de camisas clasificó los 500 últimos defectos en una fábrica
de ropa como:
Falta de botón 67
Desperfecto en la tela 22
Solución:
a.
18
Ejemplo 1.11. De un grupo se extrajo una muestra de 19 calificaciones de un examen:
76 74 82 96 66 76 78 72 52 68
86 84 62 76 78 92 82 74 88
Solución:
Observe cómo los datos están “acumulados” cerca del centro y “más dispersos” en los
extremos. ▄
Actualmente se ha vuelto muy popular una técnica conocida como diagrama de tallo y
hojas para resumir datos numéricos. Se trata de una combinación de dos técnicas: una para
graficar y otra para clasificar.
En el diagrama de tallo y hojas, se presentan los datos utilizando los dígitos que
forman los valores de los datos. Cada dato se divide en dos partes: el (los) dígito (s)
principal (es) se convierte (n) en el tallo, y el (los) dígito (s) posterior (es) se convierte (n)
en la hoja. Los tallos se escriben a lo largo del eje principal, y por cada porción de datos se
escribe una hoja para mostrar la distribución de los datos.
19
Ejemplo 1.12. De un grupo grande se extrajo aleatoriamente una muestra de 19
calificaciones de un examen:
76 74 82 96 66 76 78 72 52 68
86 84 62 76 78 92 82 74 88
Solución:
Se observan puntajes en las decenas: 50, 60, 70, 80 y 90. Como tallo se utiliza el primer
dígito y como hoja, el segundo dígito. Generalmente, la representación se realiza en
posición vertical. Se traza una recta vertical y se escriben los tallos, en orden, a la izquierda
de la recta.
5
6
7
8
9
Luego, se coloca cada hoja en su tallo. Esto se hace escribiendo el último dígito a la
derecha de la recta vertical, enfrente de su dígito principal correspondiente
19 puntos de examen
5 2
6 6 8 2
7 6 4 6 8 2 6 8 4
8 2 6 4 2 8 Tallo: decenas
9 6 2 Hoja: unidades
En algunos casos se prefiere proporcionar más clases o tallos. Una forma de hacer esto
es modificar los tallos originales de la manera siguiente: se divide el tallo 5 (por ejemplo)
en los nuevos tallos, 5L y 5U. El tallo 5L tiene las hojas 5, 6, 7, 8 y 9. Esto duplica el
número de tallos originales. Puede cuadriplicarse el número de tallos originales se definen
cinco tallos nuevos: 5z con las hojas 0 y 1, 5t con las hojas 2 y 3, 5f con las hojas 4 y 5, 5s
con la hojas 6 y 7, y 5e con las hojas 8 y 9.
Ejemplo 1.13. Para 25 observaciones del rendimiento por lote de un proceso químico, se
ha ilustrado por un diagrama de tallo y hojas utilizando los números 6, 7, 8 y 9 como tallos.
20
Tallo: decenas
Hoja: unidades
25 observaciones del rendimiento
por lote de un proceso químico
6 1 3 4 5 5 6
7 0 1 1 3 5 7 8 8 9
8 1 3 4 4 7 8 8
9 2 3 5
Solución:
25 observaciones del rendimiento
por lote de un proceso químico
6L 1 3 4
6U 5 5 6
7L 0 1 1 3
7U 5 7 8 8 9
8L 1 3 4 4
8U 7 8 8
9L 2 3
9U 5 Tallo: decenas
Hoja: unidades
Aquí se obtiene una presentación más adecuada de los datos.
21
Variables Continuas
El caso más frecuente, y también más interesante, es cuando la variable es continua en estos
casos existen dos modos de construir las tablas de distribución de frecuencias:
1. Método simple
2. Método de las frecuencias agrupadas
1. Método simple
Es en todo similar al tratamiento que se ha dado a las variables discretas, su tabla es
idéntica a la de estas. En cuanto a sus representaciones gráficas, junto a las gráficas de
ordenadas y gráficas de puntos, ya expuestas, resulta interesante, en este caso, la
construcción del llamado diagrama acumulativo. Se dibuja a partir del diagrama de
puntos, acumulando a cada ordenada todas las frecuencias anteriores.
1.3 1.0 1.1 1.2 1.3 1.4 1.6 1.7 1.5 1.8 1.8 1.8 1.0
1.4 1.2 1.4 1.3 1.5 1.1 1.5 1.3 1.4 1.7 1.7 1.2 1.7
1.8 1.8 1.8 1.8 1.8 1.8 1.1 1.5 1.4 1.4 1.5 1.5 1.6
1.8 1.3 1.6 1.6 1.7 1.7 1.6 1.5 1.2 1.5 1.4 1.5 1.7
1.2 1.3 1.5 1.4 1.6 1.5 1.6 1.2 1.3 1.4 1.4 1.5 1.6
1.1 1.2 1.3 1.5 1.6 1.7 1.6 1.7 1.4 1.5
Frecuencia
Variable Frecuencia acumulada
1.0 2 2
1.1 4 6
1.2 7 13
1.3 8 21
1.4 11 32
1.5 14 46
1.6 10 56
1.7 9 65
1.8 10 75
TOTAL 75
22
El diagrama acumulativo se muestra a continuación:
Cuando, como en el ejemplo 1.14, el número de valores que toma la variable es elevado, se
usa el método de las frecuencias agrupadas. Aquí los datos se distribuyen en clases o
categorías y luego se determina el número de datos pertenecientes a cada clase, que es la
frecuencia de clase, f. Un ordenamiento de esta naturaleza se conoce como una
distribución de frecuencias o tabla de frecuencias. Un símbolo que define una clase, tal
como 1.0 – 1.1, se conoce como intervalo de clase. Los números extremos, 1.0 y
1.1, son los límites de clase; el número 1.0 es el límite inferior de la clase, li y el mayor
1.1 es el límite superior, ls. Los términos clase e intervalo de clase se utilizan a menudo
indistintamente. La técnica del método de frecuencias agrupadas se describe a
continuación, utilizando el ejemplo 1.14:
23
2. Decidir el número de clases, h, que se va a emplear. No existe número idóneo,
aunque conviene evitar los extremos: un número pequeño de clases “diluiría” las
diferencias y perdería “finura” la distribución, es decir, no se podrían observar
características importantes de los datos; optar por un número excesivamente grande de
clases, se proporcionan demasiados detalles, se desvirtuaría el método, ya que con el se
pretende una simplificación de cálculos. Puede aconsejarse un número discreto entre 5 y 20
clases. Una regla empírica es calcular la raíz cuadrada del número de datos, n, y ajustarla
para adaptarla (si es necesario) a los límites 5 y 20. Otra forma es utilizar la fórmula
empírica de Sturges:
h=1 + (3.32) Ln( n)
R
ci (0.8) / 9 0.088 0.1
h
el cual redondeamos a 0.1 por ser más operativo. Cuando sea conveniente, un ancho de
clase par suele ser ventajoso.
4. Es necesario delimitar muy claramente los extremos de cada una de las clases, a fin de
que no haya ninguna duda al asignar cada dato a su clase correspondiente. Se forman los
intervalos, agregando el ancho al límite inferior de cada clase, iniciando por el menor de
todos los datos o por uno un poco menor que él. Así, por ejemplo, la primera clase es
De manera similar se encuentran las restantes clases, para obtener finalmente la tabla
siguiente:
24
Intervalo
1.0 - < 1.1
1.1 - < 1.2
1.2 - < 1.3
1.3 - < 1.4
1.4 - <1.5
1.5 - <1.6
1.6 - <1.7
1.7 - <1.8
1.8 - <1.9
5. Encontrar las frecuencias de clase, f, contando el número de datos que caen en cada
intervalo y este número anotarlo en la columna correspondiente a las frecuencias. El total
de esta columna debe ser igual a n (75), el número de datos.
Intervalo Frecuencia
1.0 - <1.1 2
1.1 - <1.2 4
1.2 - <1.3 7
1.3 - <1.4 8
1.4 - <1.5 11
1.5 - < 1.6 14
1.6 - < 1.7 10
1.7 - <1.8 9
1.8 - <1.9 10
Total 75
25
La tabla de distribución de frecuencias puede ser ampliada con una tercera columna, en
donde se indique la frecuencia relativa.
La frecuencia relativa de una clase, fr, es la frecuencia de la clase f, dividida por el total
de frecuencia n, y se expresa generalmente también como porcentaje. Así,
26
6. Una vez establecidas las clases, han de establecerse las marcas de clase de cada una
de ellas. La marca de clase, x, o Pm es el punto medio de la clase y se obtiene
sumando los límites inferior y superior de la clase y dividiendo por 2. Así, la marca de clase
del intervalo 1.0 - 1.1 es
Marca de clase
Intervalo
x ó Pm
27
Histograma y polígono de frecuencia son las representaciones gráficas de las
distribuciones de frecuencias.
a. Sus bases sobre un eje horizontal (el eje x) con centro en las marcas de clase y longitud
igual al ancho de clase.
Las clases de igual anchura podrían no ser lo mejor si un conjunto de datos contiene
algunos valores atípicos. Si se usa una cantidad pequeña de clases de igual anchura, casi
todas las observaciones caen sólo en algunas de las clases. Si se usa una gran cantidad de
clases de igual anchura, muchas tendrían frecuencia cero. Una elección adecuada es usar
unos cuantos intervalos más amplios cerca de las observaciones extremas, e intervalos más
angostos en la región de gran concentración.
28
Si los anchos de clase son desiguales, después de determinar las frecuencias y las
frecuencias relativas, calculamos la altura de cada rectángulo con la fórmula
Las alturas que resultan suelen llamarse densidades, y la escala vertical es la escala de
densidad. Esto también funciona cuando los anchos de clase son iguales. Por lo tanto, si
todos los intervalos de clase tienen el mismo ancho, entonces el histograma tendrá la misma
forma si las alturas representan las densidades o las frecuencias. En este caso, hacer las
alturas iguales a las frecuencias no es engañoso. Sin embargo, cuando se desea hacer
intervalos de clase de anchos diferentes, es importante que las alturas de los rectángulos
sean iguales a las densidades y no a las frecuencias o las frecuencias relativas.
Ejemplo 1.15. Considere los siguientes datos sobre el tiempo activo de reparación (horas)
para una muestra de n=46 receptores de comunicaciones:
0.2 0.3 0.5 0.5 0.5 0.6 0.6 0.7 0.7 0.7 0.8 0.8
0.8 1.0 1.0 1.0 1.0 1.1 1.3 1.5 1.5 1.5 1.5 2.0
2.0 2.2 2.5 2.7 3.0 3.0 3.3 3.3 4.0 4.0 4.5 4.7
5.0 5.4 5.4 7.0 7.5 8.8 9.0 10.3 22.0 24.5
Construya un histograma basado en seis intervalos de clase con 0 como límite inferior
del primer intervalo y longitudes de intervalos de 2, 2, 2, 4, 10 y 10, respectivamente.
Solución:
29
Un histograma de densidades tiene una propiedad interesante. Al multiplicar ambos
lados de la fórmula de densidad por el ancho de clase se obtiene
Pasos:
30
Clase Frecuencia
1,1 6
1,2 7
1,3 8
1,4 11
1,5 14
1,6 10
1,7 9
1,8 10
1,9 0
y mayor... 0
Espesor
31
Se denomina frecuencia acumulada descendente, Fd, hasta un intervalo de clase, a la
suma de las frecuencias de los intervalos posteriores a él, hasta los de ese intervalo.
Intervalo f Fa Fd
1.0 - < 1.1 2 2 75
1.1 - < 1.2 4 6 73
1.2 - < 1.3 7 13 69
1.3 - < 1.4 8 21 62
1.4 - < 1.5 11 32 54
1.5 - < 1.6 14 46 43
1.6 - < 1.7 10 56 29
1.7 - < 1.8 9 65 19
1.8 - < 1.9 10 75 10
3. El punto (ls, Fa) se forma con el extremo superior del intervalo y la frecuencia
acumulada ascendente respectiva.
4. Se le asigna cero al limite inferior del primer intervalo; con lo cual graficamos un
punto adicional, que es donde principia la ojiva ascendente.
32
último intervalo, con lo que se tiene un punto adicional, que es donde finaliza la ojiva
descendente.
33
Simétrica: Ambos lados de la distribución son idénticos.
Sesgada: Una cola es más larga que la otra. La dirección del sesgo es del lado de la cola
más larga. Si el sesgo es a la derecha, este responde a la variabilidad que presentan ciertas
variables que no siguen una ley normal, como los tiempos de vida.
En forma de J: No hay cola del lado de la clase con la frecuencia más alta.
Bimodal: Las dos clases más pobladas están separadas por una o más clases. Esta situación
a menudo implica que se están muestreando dos poblaciones. La curva bimodal resulta
cuando el conjunto de datos está formado por observaciones de dos tipos distintos de
individuos u objetos.
Normal: Alrededor de la media se forma una distribución simétrica en forma de montículo
que se vuelve más dispersa en los extremos. Representa la variabilidad debida a causas
aleatorias.
Se puede elaborar también un diagrama de tallo y hojas para datos que se han resumido
en una tabla de distribución de frecuencias.
Ejemplo 1.16. El periodo de almacén (vida de anaquel) de una película fotográfica de alta
velocidad está siendo investigada por un fabricante. Se dispone de los siguientes datos.
34
135 122 134 132
126 121 140 143
120 127 121 121
121 130 126 124
142 131 124 131
151 141 125 141
155 137 127 127
Solución:
Vida (días) f
120 - <125 10
125 - <130 11
130 - <135 5
135 - <140 2
140 - <145 8
145 - <150 1
150 - <155 2
Se reemplaza en cada clase los datos por su último dígito y se divide la misma decena
en dos clases: la primera asignándole 0, 1, 2, 3 y 4 y la segunda 5, 6, 7, 8 y 9, así:
35
Esto puede diagramarse de la siguiente manera:
1.7 Estadísticos
Los datos que caracterizan a una población se llaman parámetros y los que caracterizan a
una muestra se llaman estadísticos. Por ejemplo, el porcentaje de mujeres en toda la
república de El Salvador, es un parámetro; mientras que el porcentaje de mujeres, de entre
un total de 438 personas que se encuentran en una reunión, es un estadístico.
Los estadísticos, permiten de una forma cuantitativa, al margen de todo subjetivismo, la
comparación entre distintas series estadísticas y la valorización, en números, de sus
diversas características.
Son de cinco clases estas medidas: los estadísticos de centralización que suministran los
valores centrales o promedios alrededor de los cuales se agrupan los datos de la serie; los de
Posición que describen la posición de datos con respecto al resto; los de dispersión que
miden la mayor o menor regularidad de agrupamiento de la serie, sobre las medidas
centrales; las medidas de asimetría que cuantifican, como su nombre indica, la asimetría de
la distribución; y estadísticos de prominencia, que son capaces de comparar, a igualdad de
dispersión, la densidad de frecuencias centrales.
36
1.8
Promedios o medidas de centralización
U
n promedio es un valor, que es típico, o representativo de un conjunto de datos. Como
tales valores tienden a situarse en el centro del conjunto de datos ordenados según su
magnitud, los promedios se conocen también como medidas de centralización.
Se pueden definir varios tipos de medidas de centralización, las más comunes son la
media aritmética o brevemente media, la mediana, la moda, la media geométrica, la
media cuadrática y la media armónica. Cada una de ellas tiene sus ventajas e
inconvenientes, dependiendo la aplicación de una u otra de los resultados que se pretenden
sacar de los datos.
Media aritmética:
x
DEFINICION.
x1 x2 .. . xn
x
n
37
n
x1 x2 . . . xn x i
x i 1
n n
Ejemplo 1.17. Cinco piezas de una aleación de níquel, seleccionadas al azar, tienen las
siguientes cantidades de níquel (en porcentaje)
La media aritmética es
_
79.4 79.0 78.9 79.2 78.9 395.4
x 79.08 %
5 5
Otras de las grandes herramientas que existen en Excel son las funciones: fx. Las
funciones nos permiten realizar operaciones más complejas y de forma sencilla, tanto con
valores numéricos o valores de texto.
Todas las funciones tienen en común, el nombre de la función la cual la identifica y una
serie de argumentos, todos ellos separados por puntos y comas, todos ellos dentro de
paréntesis. Veremos que puede haber alguna función que no tenga ningún tipo de
argumento, pero siempre existirán los paréntesis después del nombre de la función.
38
en el rango de celdas, es
decir, 79,08
DEFINICION.
Si los números x1, x2, . . . , xk se presentan f1, f2, . . . , fk veces, respectivamente (es decir,
se presentan con frecuencias f1, f2, . . . , fk), la media aritmética es
f x f 2 x2 . . . f k xk f i xi f i xi
x 1 1
f1 f 2 . . . f k fi n
donde n= es la frecuencia total es decir, el número total de casos.
fi
A veces se asocia a los números x1, x2,. . . , xk ciertos factores o pesos w1, w2, . . . , wk que
dependen de la significación o importancia de cada uno de los números. En este caso
w1 x1 w2 x2 . . . wk xk wk
x
w1 w2 . . . wk w
se llama media aritmética ponderada.
Nótese la similitud con (*), que puede considerarse como una media aritmética con los
pesos f1, f2,. . ., fk.
_
(6.0)( 0.25) (8.0)( 0.10) (5.4)(0.30) (7.0)(0.10) (6.3)( 0.25)
x
0.25 0.10 0.30 0.10 0.25
_
x 6.20
Propiedades de la media aritmética
DEFINICION
39
Definimos la desviación de una variable con respecto a su media como la cantidad
di xi x .
1. “Es siempre igual a cero la suma de las desviaciones de la variable respecto de la media
aritmética”. Es decir,
di 0
Demostración:
_
_
xi _ _ _
i x i
x x x n n
x n x n x 0
c c
Demostración:
c
c c c ... c nc c
n n n
3. “La media aritmética del producto de una constante por una variable es igual al producto
de la constante por la media aritmética de la variable”. Es decir,
__
cx cx
Demostración:
___
cx 1 cx 2 ... cx n c( x 1 x 2 ... x n ) c x i _
cx cx i c x
n n n
4. “La media aritmética de la suma de una variable más una constante es igual a la
suma de la media aritmética de la variable más la constante”. Es decir,
_______
xc x c
Demostración:
________
x i c x 1 c ( x 2 c) ... x n c
x c n n
x x 2 ... x n nc
1
n n
xi c
n
_
x c
40
5. “Si f1 números tienen como media a , f2 números tienen como media ,. . ., fk
x1 x2
números tienen como media , entonces la media de todos los números es
xk
__
f1 x1 f 2 x2 ... f k xk
x f1 f 2 ... f k
Demostración:
Sea la suma de las f1, f2, .. . , fk números m1, m2,. . . , mk respectivamente. Entonces por
definición de media aritmética,
__
m1 __
m2 __
m __ __ __
x1 , x2 ,..., x k k o m1 f1 x 1 , m 2 f 2 x 2 ,..., m k f k x k
f1 f2 fk
m1 m2 ... mk
x
f1 f 2 ... f k
f1 x1 f 2 x2 ... f k xk
f1 f 2 ... f k
Ejemplo 1.20. Los tiempos de reparación (manipulación y ajuste de las herramientas) para
cortar seis partes del motor en un torno son 0.6, 1.2, 0.9, 1.0, 0.6 y 0.8 minutos. Encontrar
la media aritmética y verificar que la suma de las desviaciones con respecto a la media
aritmética, es cero.
x
x 0.6 1.2 0.9 1.0 0.6 0.8 0.85
n 6
xi x-
x
0.6 -0.25
1.2 0.35
0.9 0.05
1.0 0.15
0.6 -0.25
0.8 -0.05
41
x x 0.25 0.35 0.05 0.15 ( 0.25) ( 0.05) 0
Ejemplo 1.21. El salario promedio en la empresa Textilera “EL Gusano” es de $ 300
mensual. Si cada salario se incrementa en 10%, más $ 25 por gastos de transporte, ¿Cuál es
el nuevo salario promedio?
Solución:
Sea x el salario actual y 0.10x su incremento (10% ó 10/100 ó 0.10 de x), entonces el nuevo
salario promedio es
_________________ _______
x 0.10 x 25 1.10 x 25 1.10 x 25 1.10 x 25 1.10(300) 25 $ 355.0
Ejemplo 1.22. En una fábrica con 80 empleados, 60 ganan un promedio de $ 1.00 por
hora y 20 ganan un promedio de $ 2.00 por hora. Determinar la media del salario por hora.
Solución:
_
(60)(1.0) (20)(2.0) 60 40 100
x $ 1.250
60 20 60 20 80
x
xi f i
n
Ejemplo 1.23. Los siguientes datos son mediciones de 40 emisiones diarias (en toneladas)
de óxido de azufre de una planta industrial.
42
Solución:
a) Tómese aquí como entonces =6.32 y h=6. Así,
h n, 40
R Ls Li 31.7 9.0
c 3.78 3.8 Tn.
h h 6
con esto se construye la tabla de distribución de frecuencias.
PESOS (Tn.) f x xf
9.0 - <12.8 5 10.9 54.5
12.8 - < 16.6 6 14.7 88.2
16.6 - < 20.4 10 18.5 185.0
20.4 - < 24.2 12 22.3 267.6
24.2 - < 28.0 4 26.1 104.4
28.0 - < 31.8 3 29.9 89.7
Total 40 89.4
Total
b) La media es
x
xf
789.4
19.74 toneladas
n 40
Ventajas:
1. Contiene toda la información de los datos de la distribución, lo que le confiere,
como promedio, un carácter muy representativo.
2. Siempre puede ser determinada, es fácil de calcular y admite todas las operaciones
aritméticas.
3. Es el estadístico más útil para análisis posteriores.
Desventajas:
1. Sensible al cambio de valores extremos por un lado, que no se compensen por
valores extremos en el lado contrario.
2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase
abiertos.
3. No es recomendable emplearla en distribuciones muy asimétricas. ▄
La Mediana: ó Md
~
x
DEFINICION
43
La mediana de una colección de datos ordenados de menor a mayor es el valor medio
Solución:
Ordenando los datos de acuerdo a su magnitud: 3, 4, 4, 5, 6, 8, 8, 8, 10, se tiene que
~
x 6.
Solución alterna con Excel:
Solución:
.
~
x 79
8.0
2
44
Si se ordenan las observaciones por orden de magnitud y si n es impar, la mediana es la
observación que aparece en el lugar (n+1)/2; si n es par, la mediana es el promedio de las
observaciones que están en los lugares n/2 y n/2 + 1. Así,
▄
La media recortada:
x rec
Suponga que los datos se acomodan en orden creciente, se elimina un porcentaje T de las
observaciones en cada extremo y luego se calcula la media muestral con las observaciones
que quedan. La cantidad resultante se conoce como media recortada. Una media
recortada es una medida entre y . ¿Por qué?
x ~
x
Una media recortada al 10% , por ejemplo, se calcularía eliminando 10% de
( x rec (10 ) )
los valores más pequeños y el 10% de los valores más grandes de la muestra y luego se
promedia lo que queda.
7.8 8.1 7.4 8.5 8.9 9.8 9.7 14.1 12.6 11.2
Calcular .
x rec (10)
Solución:
45
En términos generales, al utilizar una media recortada con una proporción moderada de
datos eliminados se obtiene una medida que no es tan sensible a valores inusuales como la
media, ni tan insensible como la mediana. Por este motivo, las medias recortadas llaman
cada vez más la atención. ▄
~ n / 2 Fa
x li c
f
Demostración:
La deducción de la fórmula anterior es la sencilla aplicación de una semejanza de triángulos
que se producen al cortar por la mitad de la frecuencia total, n/2 el polígono de frecuencia
acumulado ascendente (ojiva ascendente)
46
de donde entonces
___
n/2 Fa
AE c ,
f
~ n /2 Fa
x l i c
f
Edad Númer
o
0 - < 10 6
10 - <20 18
20 - < 30 11
30 - < 40 3
40 - < 50 0
50 - < 60 8
60 - < 70 4
50
Halle .
~
x
Solución:
Edad f Fa
0 - <10 6 6
10 - < 20 18 24
20 - < 30 11 35
30 - < 40 3 38
40 - < 50 0 38
50 - <60 8 46
60 - <70 4 50
47
50
n / 2 Fa
x% li c
f
25 24
x% 20 10
11
La moda: ó
x̂ Mo
DEFINICION
La moda de una serie de datos es aquel dato que se presenta con la mayor frecuencia, es
decir, es el valor más común.
Ejemplo 1.28. Considérense los datos 9, 2, 7, 11, 14, 7, 2, 7. El valor 7 ocurre tres veces,
el 2 aparece dos veces y el resto ocurre una vez cada uno, luego, .
xˆ 7
48
=MODA(número1;número2;…) Calcular la =MODA(9;2;7;11;14;7;2;7)
moda de los
Número1, número2;… son entre argumentos Excel devuelve 7.
1 y 30 argumentos numéricos
MODA cuya moda se desea obtener. =MODA(A1:A8)
La moda no es una medida de tendencia central muy usual, pero sirve en los negocios,
por ejemplo para determinar que tamaño del producto es el de mayor demanda. Por
ejemplo, un fabricante de camisetas esta interesado en la talla de mayor demanda. Una
distribución que tiene una sola moda se llama unimodal.
49
Definamos la moda como la abscisa del punto de intersección P de las líneas QS y RT.
x̂
Sea li y ls los limites inferior y superior de la clase modal, y y representan,
1 2
respectivamente, el exceso de frecuencia de la clase modal sobre las dos clases contiguas a
ella.
De los triángulos semejantes PQR y PST,
EP PF x̂ l i l s x̂
o
RQ ST 1 2
Entonces,
2 ( x̂ l i ) 1 (l s x̂ )
2 x̂ 2 l i 1l s 1 x̂
(1 2 ) x̂ 1l s 2 l i
l 2li
x̂ 1 s
1 2
pero, entonces
l s l i c,
1 (li c) 2li
xˆ
1 2
50
(1 2 )li 1c
xˆ
1 2
1
xˆ li c
1 2
Solución:
Aquí,
l i 10, 1 f i f i 1 18 6 12, 2 f i f i1 18 11 7
Entonces
y c 10.
1
xˆ li c
1 2
12
xˆ 10 10
12 7
xˆ 16.3 años
Desventajas:
1. Muchas veces no existe debido a que a que el conjunto de datos no contiene valores
que se presenten más de una vez.
2. En ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.
3. Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil
interpretarlos y compararlos.
51
Relación empírica entre la media, mediana y moda
Para curvas de frecuencias unimodales que sean moderadamente sesgadas (asimétricas), se
tiene la relación empírica
x x̂ 3( x ~
x)
A continuación se muestran las posiciones relativas de la media, mediana y moda para
curvas de frecuencias que están sesgadas a la derecha y a la izquierda respectivamente.
I. Distribución Simétrica.
Para curvas simétricas, la media, moda y media coinciden.
▄
1.9 Medidas de posición
Las medidas de posición se usan para describir la posición de datos específicos con
respecto al resto de los datos.
52
Los cuartiles: Qk
DEFINICION
Sean x1, x2,… , xn un conjunto de n datos ordenados por orden de magnitud. El primer
cuartil, Q1, es aquel que deja a la izquierda ¼ (25%) de los datos y es menor que ¾
(75%) de los datos. El segundo cuartil, Q2, es la mediana. El tercer cuartil, Q3, sobrepasa
¾ (75%) de los datos y es menor que ¼ (25%) de ellos.
Existen diferentes formas de calcular cuartiles, pero todas dan aproximadamente el mismo
resultado. Un método cuando se calcula manualmente el k-ésimo cuartíl es el siguiente:
1. Ordenar los datos del más pequeño al más grande
2. Calcular k(n/4)
Ejemplo 1.31. Dados los valores 2, 5,10, 3, 7, 13, 20 y 18, hallar Q1, Q2 y Q3.
Solución:
53
4.
x 4 x 5 7 10
Q2 8.5
2 2
Nota: Los valores calculados por este método difieren un poco a los calculados por Excel.
Solución alterna con Excel:
Los cuartiles se usan con frecuencia en los datos de ventas y encuestas para dividir las
poblaciones en grupos. Por ejemplo, se pueden utilizar para determinar el 25 por ciento de
ingresos más altos en una población.
54
4.
Q1 x 2 5
Q2: 1. 1, 5, 6, 7, 9
4.
Q 2 6
Q3: 1. 1, 5, 6, 7, 9
4. Q 3 7
; k=1, 2, 3
k (n / 4) Fa
Q k l i c
f
Ejemplo 1.33. Encuentre Q1, Q2 y Q3 del tiempo de espera para consulta de los pacientes
de una clínica
Minutos f
0 - <5 220
5 - <10 82
10 - <15 27
15 - <20 15
20 - <25 5
55
25 - <30 1
Solución:
Completando la tabla de distribución de frecuencias
Minutos f Fa
0 - <5 220 220
5 - <10 82 302
10 - <15 27 329
15 - < 20 15 344
20 - <25 5 349
25 - <30 1 350
262.5 220
5 5
82
56
▄
Q 3 7.6 Min .
Los centiles: Ck ó Pk
DEFINICION
Análogamente a los cuartiles, los valores que dividen al conjunto de datos en 100 partes
iguales se llaman percentiles o centiles.
Por ejemplo C90 para un conjunto de datos es el valor que deja bajo si el 90% de ellos y
arriba de si el 10%.
Ejemplo 1.34. Encontrar C70 en los siete valores 6, 10, 13, 19, 18, 16, y 15.
Solución:
4.
P70 16
Solución alterna con Excel:
57
Esta función permite establecer un umbral de aceptación. Por ejemplo, podrá examinar a
los candidatos en un evento cuya calificación sea superior al nonagésimo percentil.
k ( n / 100) Fa
C k l i c ; k 1,2,...,99
f
Ejemplo 1.35. Encuentre C30 en la siguiente tabla de distribución de frecuencias:
Grado (0 C) f
40 - < 50 5
50 - <60 18
60 - <70 27
70 - < 80 15
80 - < 90 6
71
Solución:
Completando la tabla de distribución de frecuencias
Grado (o C) f Fa
40 - <50 5 5
50 - <60 18 23
60 - <70 27 50
70 - <80 15 65
80 - < 90 6 71
71
k ( n /100) Fa
Ck li c
f
21.3 5
C30 50 10
18
▄
0
C30 59.1 C
58
Una medida de dispersión es importante por dos razones: primero, puede ser usada para
mostrar el grado de variación entre los valores en los datos dados; y segundo, puede ser
usada para suplementar un promedio para describir un grupo de datos o para comparar un
grupo de datos con otro.
Una medida de dispersión puede ser expresada ya sea en valor absoluto o en valor
relativo. Los tipos mas comunes de dispersión expresados en valores absolutos son: el
recorrido, la desviación cuartílica, la desviación media, la varianza y la desviación
estándar.
DEFINICION
El recorrido de un conjunto de n datos x1, x2, …,xn se define como la diferencia entre el
mayor y el menor de los datos.
Desventajas:
1. Refleja únicamente los valores extremos, ignorando la información intermedia.
2. Difícil de interpretar, principalmente porque depende del número de observaciones
que sirvieron para computarlo.
3. Una de las desventajas del rango es que no proporciona información sobre los datos
que están entre el dato mayor y el menor.
▄
El recorrido intercuartílico: Q
DEFINICION
Q=Q3 – Q1
59
Cuando esta diferencia es dividida entre 2, el cociente es el recorrido semi-intercuartílico o
desviación cuartílica (D. Q.):
Q1Q3
D. Q.
2
Estas dos medidas son muy poco usadas y son de alguna utilidad cuando el promedio
utilizado es la mediana.
La desviación media: D. M.
DEFINICION
La desviación media, de una serie de n datos x1, x2,…,xn viene definida por
n
xi x
D. M. i 1
Solución:
2 3 6 8 11
x 6
5
Entonces,
60
2 6 3 6 6 6 8 6 11 6 43025
D. M. 2.8
5 5
Solución:
PESOS (Ton.) f x f
x x
9.0 - <12.8 5 10.9 44.2
12.8 - <16.6 6 14.7 30.24
16.6 - < 20.4 10 18.5 12.4
20.4 - < 24.2 12 22.3 30.72
24.2 - < 28.0 4 26.1 25.44
28.0 - < 31.8 3 29.9 30.48
61
173.48
D. M.
f x x
173.48
4.34 Tn .
n 40
Ventajas:
1. Es fácil de computar.
1. Su desviación alrededor de la mediana es un mínimo.
Desventajas:
1. Si de varios grupos se conocen las desviaciones medias respectivamente, la
desviación media no se puede hallar del grupo combinado, si se conocen todas las
observaciones.
2. Es de poca utilidad en inferencia estadística. ▄
La varianza: s2
DEFINICION
2 (x x) 2
s
n 1
Las unidades de medición de la varianza muestral son iguales al cuadrado de las unidades
con que se mide la variable. Una varianza grande indica bastante variación de datos. La
varianza poblacional se denota por: 2.
Si un conjunto de datos constituye una población, o bien, si el objeto de resumir los
datos es únicamente para describirlos, entonces se utiliza n. Si el propósito es sacar
inferencias respecto a una población, entonces se debe sustituir el denominador, n-1 por n.
Al utilizar en la varianza muestral n-1 en lugar de n es porque así representa un mejor
estimador del parámetro 2, como se verá más adelante en la unidad VI. Para valores
grandes de n (n≥30), prácticamente no hay diferencia entre utilizar n-1 ó n.
Puede obtenerse una fórmula más eficiente para el cálculo de la varianza muestral de la
siguiente manera:
x x
2
2
s
n 1
( x 2 2 xx x 2 )
n 1
s2
x 2 x x nx 2
2
n 1
62
Reemplazando por y multiplicando el numerador y el denominador por n, se
x x/n
obtiene la fórmula
n x 2 x
2
2
s
n (n 1)
x 2 x
2
2 /n
s
n 1
Solución:
n x 2 x
2
2
s
n (n 1)
x 2 31,532; x 502.
8(31,532) (502)2 252, 256 252, 004 252
s2 4.5 ( milésimas de pu lg adas 2 )
8(7) 56 56
s
2 f x x
2
o s
2 x 2 f xf / n
2
n 1 n 1
63
Si s2 se calcula sin fines inferenciales, o bien, si se calcula s 2 de una población, entonces
se sustituye n-1 por n.
x f
0 - <10 5 2
10 - < 15 1
20
20 - < 25 5
30
30 - 35 8
<40
40 - 45 4
<50
20
Solución:
x f xf x2f
0 - <10 5 2 10 50
10 - <20 1 1 15 225
5
20 - <30 2 5 125 3,125
5
30 - <40 3 8 280 9,800
5
40 - <50 4 4 180 8,100
5
20 610 21,300
x 2 f xf / n
2
2
s
n 1
s 2 141.8
64
Propiedades de la varianza
Propiedades. Sea la varianza de un conjunto de datos x1, x2,…,xn y k una constante,
2
sx
entonces:
2 2 2
1. sx
0 4. s
x k
sx
2 2 2 2
2. s k
0 5. s xy
sx sy
2 2 2 2 2
3. skx
k 2 sx 6. s
kx y
k 2 sx sy
Ejemplo 1.42. Considere los datos de espesor de las tablillas de circuito impreso en el
ejemplo 1.40.
Solución:
2 2
a) sx 63 sx 4.5 (milésima de Pu lg .2 )
2 2 2 2
b) s100x (100) sx (100) (4.5) 45,000 (milésima de Pu lg .2 )
DEFINICION
s s2
65
Ejemplo 1.43. Halle la desviación típica en el ejemplo 1.40.
Solución:
milésimas de pulgada.
2 2
s 4.5, s s 4.5 2.1
Solución:
s 2 141.8, s s 2 141.8 11 .9
Solución:
2 2 2 2
sc s5 / 9( F 32) (25 / 81) sF (25 / 81) (10.5) 34.03 ( o C) 2 , de donde
66
2 o
sc sc 34.03 5.83 C
El coeficiente de variación: C. V.
En ocasiones es deseable expresar la variación como fracción de la media. Para hacer esto
se utiliza una medida adimensional de variación relativa, denominada coeficiente de
variación muestral.
DEFINICION
El coeficiente de variación muestral es C. V. =
s
x
Se puede expresar en tanto por ciento calculando: C. V. =
s
.100
x
El coeficiente de variación es útil cuando se compara la variabilidad de dos o más
conjuntos de datos que difieren de modo considerable en la magnitud de las observaciones.
Por ejemplo, el coeficiente de variación puede ser de utilidad al comparar la variabilidad
del consumo de energía eléctrica por día en muestras tomadas en distintos conjuntos
residenciales durante un determinado mes del año.
67
Ejemplo 1.46. Con un micrómetro, se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm. y una desviación estándar de 0.012 mm.; con otro
micrómetro se toman mediciones de la longitud de un tornillo, que tienen una media de
1.76 Pulg. y una desviación estándar de 0.0075 Pulg. ¿Cuáles de las medidas presenta una
menor variabilidad?
Solución:
0.012
y C. V. 0.003
4.03
0.0075
C. V. 0.004
1.76
di 1 fi
Mo li 1 c ; di
di 1 d i 1 li li 1
Donde, li-1: límite inferior de la clase de mayor densidad
c: ancho de la clase de mayor densidad
di: mayor densidad
donde la densidad se expresa en términos de la frecuencia absoluta.
68
Observe la gran similitud que guarda con la fórmula anterior de la moda.
f d
2-<4 1 0.
4-<6 2 5
6-<10 8 1
10- 3 2
<12 1.
5
69
30.1 30.1 30.2 30.5 31.0 31.1 31.2 31.3 31.3 31.4
31.5 31.6 31.6 32.0 32.4 32.5 33.0 33.0 33.0 33.5
34.0 34.5 34.5 35.0 35.0 35.6 36.0 36.5 36.9 37.0
30.1 30.1 30.2 30.5 31.0 31.1 31.2 31.3 31.3 31.4
31.5 31.6 31.6 32.0 32.4 32.5 33.0 33.0 33.0 33.5
34.0 34.5 34.5 35.0 35.0 35.6 36.0 36.5 36.9 37.0
Solución:
Ejemplo 1.48. En un experimento para investigar el efecto del flujo sobre la uniformidad
(%) del ataque en una oblea de silicio de las que se usan en la fabricación de circuitos
integrados, se consideran tres flujos (cm3 normales/minuto), y se obtuvieron los siguientes
datos:
70
Flujo:
125: 2.6 2.7 3.0 3.2 3.8 4.6
Compare las observaciones de uniformidad que resultan de estos tres diferentes flujos.
Solución:
Flujo 125:
Mín=2.6 y Máx=4.6. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=2.7. Q2= .
x% (3.0 3.2) / 2 3.1
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=3.8.
Flujo 160:
Mín=3.6 y Máx=5.0. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=4.2. Q2= .
~
x (4.2 4.6) / 2 4.4
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.9.
Flujo 200:
Mín=2.9 y Máx=5.1. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=3.4. Q2=
~
x (3.5 4.1) / 2 3.8.
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.6.
71
Con base a este diagrama de caja comparativo, parece que las tres muestras difieren
mucho respecto al centro. Hay un poco menos variabilidad para la razón de flujo de 160
que para los otros dos flujos. Hay evidencia de asimetría positiva moderada en el 50%
intermedio de cada muestra. ▄
DEFINICION
Toda observación a más de 1.5 Q del cuartil más cercano es atípico o inusual. Un valor
inusual es extremo si está a más de 3Q del cuartil más cercano y es moderado en
cualquier otro caso.
1.1 5.6 5.7 5.8 5.9 5.9 6.2 6.7 6.9 7.2 7.8 9.8 9.9
Trace un diagrama de caja y comente sus características.
Solución:
Aquí, Mín = 1.1 y Máx = 9.9. Además, Q1: k =1 = 3.25, Q1 = x4 = 5.8;
n 13
4 4
Q2 = : k = 2 = 6.5, Q2 = x7 = 6.2; Q3: k = 3 = 9.75,
x% n 13 n 13
4 4 4 4
Q3 = x10 = 7.2; y Q = Q3 - Q 1 = 1.4.
72
Con base al diagrama se observa que existe asimetría positiva en el 50 % de los datos y
asimetría negativa en la muestra. Si omitimos valores atípicos, existe asimetría positiva
con respecto a la muestra. ▄
1.11 Medidas de forma. Medidas de asimetría.
Los estadísticos de forma son aquellos que nos hablan de la forma de la distribución de
datos en cuanto a su asimetría y apuntamiento.
Asimetría
Momentos. Momentos para datos no agrupados.
DEFINICION
Si x1, x2,…,xn son los n valores que toma la variable x, se define la cantidad
__ r
x
x
r
n
como el momento de orden r. El momento de primer orden r =1 es la media aritmética
.
__
x
Ejemplo 1.50. Hallar los momentos de primero y segundo orden del conjunto de datos: 2,
3, 7, 8, 10.
Solución:
=Σx/n =(2+3+7+8+10)/5=30/5=6 es el momento de primer orden o media aritmética.
__
x
73
= Σx2/n=(22+32+72+82+102)/5=226/5=45.2 es el momento de segundo orden.
__
2
x
DEFINICION
El momento de orden r con respecto a la media es
__
x
mr =
n __
( xi x )r
i 1
n
Si r=1, m1 =0. Si r=2, m2=s2, es la varianza.
Ejemplo 1.51. Hallar los momentos de primero y segundo orden con respecto a la media
para los datos del ejemplo 1.50.
Solución:
. m1 es siempre igual a
__
(x x ) (2 6) (3 6) (7 6) (8 6) (10 6) 0
m1 0
n 5 5
cero.
. Adviértase
__
(x x ) (2 6) (3 6) (7 6) (8 6) (10 6)
2 2 2 2 2 2
46
m2 9.2
n 5 5
que m2 es la varianza s2.
Si x1, x2,…,xk se presentan con frecuencias f1, f2,…,fk respectivamente, los momentos
anteriores son dados por
, y
k
__ f xr
x
r i 1
n
k __
f i ( xi x ) r
mr i 1
n
donde .
k
n fi
i 1
74
Momentos en forma adimensional
Para evitar unidades particulares se pueden definir los momentos adimensionales respecto
a la media
mr mr mr
ar
r r
sr m2
m2 2
donde es la desviación típica. Puesto que m1=0 y m2=s2, se tiene que a1=0, a2=1.
s m2
▄
Sesgo o asimetría
El sesgo es el grado de asimetría o falta de simetría de una distribución de frecuencias. Si la
curva de frecuencias (polígono de frecuencias suavizado) de una distribución tiene una
“cola” más larga a la derecha del máximo central que a la izquierda, se dice de la
distribución que está sesgada a la derecha o que tiene sesgo positivo. Si es al contrario, se
dice que está sesgada a la izquierda o que tiene sesgo negativo.
As
Q3 Q2 Q2 Q1
Q3 2Q2 Q1
Q3 Q1 Q3 Q1
donde,
75
1 As
Q3 Q2 Q2 Q1
1
Q3 Q1
Una importante medida de este tipo emplea el momento de tercer orden con respecto a la
media expresado en forma adimensional y dada por
m3 m
As a3 3
3/32
s m2
Ejercicio 1.52. A continuación se muestra a través de la siguiente tabla las millas recorridas
por 20 estudiantes en sus vehículos al venir a una universidad desde sus casas. Encontrar la
asimetría relativa basada en el tercer momento.
Millas recorridas f
0-<2 2
2-<4 5
4-<6 4
6-<8 8
8 - < 10 1
20
Solución:
=Σxf/n=102/20=5.1 millas.
__
x
76
f xf / n 620 102 / 20
__ 2 2 2
f ( x x )2 x
s m2
2
ó m2 99.8 / 20 4.99
n n 20
__
f ( x x )3 2(1 5.1)3 5(3 5.1)3 4(5 5.1)3 8(7 5.1)3 1(9 5.1)3
m3 3.498
n 20
.
m3 3.498
As a3 3/ 2 0.31381
m2 4.991.5
Una medida de la curtosis emplea el momento de cuarto orden con respecto a la media,
expresado en forma adimensional y dada por
m4 m4
Coeficiente de curtosis a4
s 4 m22
Para una distribución normal . Por esta razón, a veces se define la curtosis
a4 3
através del coeficiente de aplastamiento de Fisher como:
, donde
m
42 3
m2
77
Leptocúrtica: , si la distribución es más apuntada que la normal.
0
Solución:
__
f ( x x ) 4 2(1 5.1)4 5(3 5.1)4 4(5 5.1) 4 8(7 5.1) 4 1(9 5.1) 4
m4 49.8997
n 20
.
m4 m4 49.8997
a4 2 2 2 2.004
(s ) m2 24.9001
Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las
medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una
distribución estadística sigue la distribución normal. Esto es necesario para realizar
numerosos contrastes estadísticos en la teoría de inferencia estadística.
▄
78
1 3 8 7 6 5 5 7 5 6 6 8 7 7 8 8 9
Solución:
Columna1
Media 6.23529412
Error típico 0.48906733
Mediana 7
Moda 8
Desviación estándar 2.01647625
Varianza de la muestra 4.06617647
Curtosis 1.66573814
Coeficiente de asimetría -1.1934234
Rango 8
Mínimo 1
Máximo 9
Suma 106
Cuenta 17
79
4.5
4
3.5
3
2.5
2
Frecuencia 1.5
1
0.5
0
Clases
Una asimetría negativa o hacia los valores más pequeños ya que o por que el
x x% xˆ
coeficiente de asimetría es negativo. Puesto que la curtosis es positiva, la distribución es
Leptocúrtica, más apuntada que la normal. ▄
80
PARTE II: TEORIA DE PROBABILIDADES
Ejemplo 2.1.
1) Se tiene un objeto de cualquier masa partiendo de un estado inicial de reposo, y se deja
caer al vacío desde una torre, éste llega siempre al suelo con la misma velocidad:
.
v 2 gh
2) Agua calentada a 100 grados Celsius, a nivel del mar, se transforma en vapor.
3) Al quemar un hidrocarburo como el gas propano en presencia del oxígeno, se produce
gas carbónico más agua.
Ejemplo 2.2.
1) Este es el caso cuando se lanza un dado y se observa su resultado. En el experimento el
resultado es 1, 2, 3, 4, 5 ó 6.
2) Lanzar una moneda legal y observar el lado que cae hacia arriba. En el experimento el
resultado es “cara” o “cruz”.
3) Fabricación de tornillos. En el experimento el resultado es defectuoso o no defectuoso.
81
4) Se fabrica una bombilla. Luego se prueba su duración poniéndola en un portalámparas y
se anota el tiempo transcurrido (en horas) hasta que se quema.
5) El resultado de un partido de fútbol.
6) El número de llamadas telefónicas por minuto, la duración de cada llamada.
7) La intensidad del ruido de un sistema de comunicación.
8) La resistencia mínima de un conjunto de resistencias en una línea de producción.
Así pues, los experimentos en los que sí podemos decir lo que va a ocurrir, se les llama
experimentos deterministas. A los experimentos en los cuales no sabemos lo que va a
ocurrir se les llama experimentos aleatorios. ▄
ESPACIO MUESTRAL
Es frecuente definir el espacio muestral con base en los objetivos del análisis.
82
Si el experimento aleatorio implica seleccionar artículos de un lote, se indicará si el
artículo seleccionado se reemplaza o no antes de seleccionar el siguiente. Por ejemplo, si el
lote se compone de tres artículos {a, b, c} y el experimento consiste en seleccionar dos
artículos sin reemplazo, el espacio muestral puede representarse como S={ab, ac, ba, bc,
ca, cb}. Sin embargo, si los artículos se reemplazan antes de seleccionarse el siguiente, se
dice que el muestreo es con reemplazo. Entonces los resultados posibles son S={aa, ab,
ac, ba, bb, bc, ca, cb, cc}. ▄
Regla: Se utiliza para describir un espacio muestral S cuando él posee un número grande
o infinito de puntos.
EVENTO
83
Un evento que no contiene elementos se denomina evento imposible o incierto o vacío
y se representa por Φ.
Ejemplo 2.7. Sea A={detectar un organismo microscópico a simple vista}, entonces A= Φ.
Ejemplo 2.8. Sea B={x/x es un factor par de 5}, entonces B= Φ, puesto que los únicos
factores posibles de 5 son 1 y 5.
TEORIA DE CONJUNTOS
Ejemplo 2.9. Se selecciona una muestra de tres calculadoras de una línea de fabricación y
cada una de ellas se clasifica como defectuosa o aceptable. Sea que A, B y C que denoten
los eventos de que la primera, la segunda y la tercer calculadora esté defectuosa
respectivamente en la muestra.
a) Describa el espacio muestral para este experimento con un diagrama de árbol.
Solución:
a)
84
S={ ooo, ood, odo, odd, doo, dod, ddo, ddd}
1. A∩ Φ= Φ
2. AU Φ=A
3. A∩A´= Φ
4. AUA´=S
85
5. S´= Φ
6. Φ´=S
7. (A´)´=A
8. (A∩B)´=A´ U B´
9. (AUB)´=A´ ∩ B´
Los resultados 8. y 9. constituyen la Ley de D´Morgan.
Para cada uno de los siguientes literales dibuje un diagrama de Venn y sombree la
región que corresponda al evento:
a) Ac
b) A ∩ Cc
c) (A ∩ B) U C
d) (B U C)c
e) (A ∩ B)c U C
f) A - B
Solución:
86
La probabilidad de que un evento ocurra se evalúa por medio de un conjunto de números
llamados probabilidades.
Antes de profundizar en la forma como se utilizan las probabilidades, es necesario
conocer de cierta manera de donde provienen. La definición clásica o a priori de
probabilidad proveniente de los juegos de azar o enfoque clásico de Laplace, se emplea
cuando los espacios muestrales son finitos y tienen resultados igualmente probables; la
definición frecuencial o empírica o a posteriori de probabilidad, que se basa en la
frecuencia relativa de ocurrencia de un evento con respecto a un gran número de ensayos
repetidos y por último la definición de Kolmogorov o la definición axiomática de
probabilidad. Seleccionar uno de las tres definiciones dependerá de la naturaleza del
problema.
Esta definición clásica de probabilidad fue una de las primeras que se dieron (1900) y se
atribuye a Laplace; también se conoce con el nombre de probabilidad a priori pues, para
calcularla, es necesario conocer, antes de realizar el experimento aleatorio, el espacio
muestral y el número de resultados o sucesos elementales que entran a formar parte del
suceso.
Esta definición es de uso limitado puesto que descansa sobre la base de las siguientes
dos condiciones: 1. El espacio muestral de todos los resultados posibles S es finito; y 2. Los
resultados del espacio muestral deben ser igualmente probables.
La aplicación de la definición clásica de probabilidad puede presentar dificultades de
aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de un
experimento no son equiprobables. Por ejemplo, en un proceso de fabricación de piezas
puede haber algunas defectuosas y si queremos determinar la probabilidad de que una pieza
sea defectuosa no podemos utilizar la definición clásica pues necesitaríamos conocer
previamente el resultado del proceso de fabricación.
87
A partir de esta definición, se pueden deducir algunas propiedades importantes:
1. Cuando no existan casos favorables (suceso imposible), la probabilidad será cero.
2. Si los casos favorables son todos los posibles (suceso seguro), la probabilidad será 1.
Por consiguiente, la probabilidad siempre oscilará entre un valor mínimo (0) y un valor
máximo (1).
Ejemplo 2.11. Cuando dos dados se lanzan separadamente, hay n=36 resultados. Si ambos
dados no están cargados, los 36 resultados son igualmente probables, así que P(A i)=1/36.
Entonces, el evento E: suma de los números igual a 7, esta formado por los seis resultados
(1,6), (2,5), (3,4), (4,3), (5,2) y (6,1), así que
P(E)=h/n=6/36=1/6
Ejemplo 2.12. Selecciónese una carta al azar de una baraja corriente de 52 cartas. Sea el
evento A: seleccionar una espada y B: seleccionar J, Q o K. Entonces,
P(A)=h/n=13/52=1/4; P(B)=h/n=12/52=3/13; y P(A ∩ B)= h/n=3/52. ▄
1. 0≤fA≤1.
2. fA=0 si A no ocurre y fA=1 si A ocurre en cada repetición.
3. A y B disjuntos, fAUB= fA+ fB
88
Sea A un evento contenido en el espacio muestral de un experimento aleatorio, denotemos
por nA al número de veces que ocurre el evento A, luego de n repeticiones
nA
P ( A) lim f A lim
n n n
La estabilidad de fA, no es del todo una conclusión matemática, sino simplemente una
realidad empírica. Por esto, la definición anterior no es una definición correcta de
probabilidad, matemáticamente.
Ejemplo 2.13. Un ingeniero eléctrico estudia la demanda máxima en una planta generadora
de electricidad. Se observa que en 80 de 100 días seleccionados aleatoriamente para
estudio, de registros pasados, la demanda máxima ocurre entre las 18:00 y 19:00 horas. Es
natural suponer que la probabilidad de que ello ocurra en cualquier otro día es:
P(A)≈ fA=nA/n=80/100=0.80
89
Esta cifra se basa en la experimentación y observación repetidas. Es una frecuencia
relativa.
▄
Enfoque subjetivo:
El uso de las creencias personales y de otra información indirecta para llegar a la
probabilidad se llama definición subjetiva de probabilidad.
Tanto la definición clásica como la frecuentista se basan en las repeticiones del
experimento aleatorio; pero existen muchos experimentos que no se pueden repetir bajo las
mismas condiciones y por tanto no puede aplicarse la interpretación objetiva de la
probabilidad.
En esos casos es necesario acudir a un punto de vista alternativo, que no dependa de las
repeticiones, sino que considere la probabilidad como un concepto subjetivo que exprese el
grado de creencia o confianza individual sobre la posibilidad de que el suceso ocurra.
Se trata por tanto de un juicio personal o individual y es posible por tanto que, diferentes
observadores tengan distintos grados de creencia sobre los posibles resultados, igualmente
válidos.
evento.
Definición axiomática:
DEFINICION AXIOMATICA
Sea S espacio muestral finito y C conjunto de eventos de S, se define la función real
P:
P: C ──────> R
90
A S, A C ~~~~~~>P(A)
tal que satisface los siguientes axiomas:
De los axiomas anteriores podemos demostrar varios teoremas sobre probabilidad que
son importantes en el estudio posterior.
Teorema 1: Si .
A B entonces P ( A) P( B ) y P ( B A) P ( B ) P ( A)
Demostración:
91
Teorema 2: , es decir, el suceso imposible tiene probabilidad cero.
P( ) 0
Demostración:
Sea A un conjunto; entonces A y son disjuntos y Por el Axioma 3,
A A.
P( A) P( A ) P( A) P( )
P ( A c ) 1 P ( A)
Las probabilidades complementarias son muy útiles cuando se pregunta por la
probabilidad de “por lo menos”. En general, esto representa una combinación de varios
eventos, pero el evento complemento “ninguno” es un solo resultado. Es más fácil resolver
para el evento complemento y obtener una respuesta aplicando el Teorema 3.
Ejemplo 2.14. Se lanzan dos dados. ¿Cuál es la probabilidad de que la suma sea por lo
menos 3 (es decir, 3 o más)?
Solución:
En vez de encontrar la probabilidad de cada una de las sumas cuyo resultado es 3 o más, es
mucho más sencillo encontrar la probabilidad de que la suma sea 2 ( menor que tres) y
luego aplicar el Teorema 3, dejando que “por lo menos” sea A.
Ejemplo 2.15. Según un artículo publicado en una revista (1991), una de cada nueve
personas a quienes se diagnosticará SIDA durante 1991 será una mujer. Con base en esta
información, encuentre la probabilidad de que una persona a la que se diagnosticará SIDA
en 1991 sea hombre.
Solución:
P(mujer que se le diagnostica SIDA)+P(hombre que se le diagnostica SIDA)=1
P(hombre que se le diagnostica SIDA)=1- P(mujer que se le diagnostica SIDA)
=1- 1/9
=8/9.
92
Teorema 4: Si E=A1 U A2 U…U An y A1, A2, …, An son sucesos mutuamente excluyentes,
entonces
P ( E ) P( A1) P( A 2) ... P ( A n)
En particular si E= S, el espacio muestral, entonces
P( A1) P ( A 2) ... P( A n) 1
P( A B) P( A) P( B) P( A B)
Generalizando, si A1, A2, A3 son tres eventos cualesquiera, entonces
Solución:
Sea A=partes usadas; y B=partes defectuosas.
P(A U B)=P(A)+P(B)-P(A ∩ B)
P(A ∩ B)=P(A)+P(B)-P(A U B)
=0.60+0.05 – 0.61
=0.0400.
P( A) P ( A B ) P ( A B c )
Teorema 7: Si un suceso E debe resultar en uno de los sucesos mutuamente excluyentes A1,
A2,…,An entonces
▄
P ( E ) P ( E A1) P( E A 2) ... P ( E A n)
Asignación de probabilidades
Si un espacio muestral S consiste únicamente de los eventos simples A1, A2,…,An entonces
por el Teorema 4
P( A1 ) P( A2 ) ... P( An ) 1
Se concluye que podemos escoger arbitrariamente cualquier número no negativo para
las probabilidades de estos sucesos elementales siempre que se satisfaga la ecuación
anterior. En particular, si suponemos probabilidades iguales para todos los sucesos simple,
entonces
1
P ( Ai ) , i 1, 2,..., n
n
93
y si A es un suceso compuesto por h sucesos simples tenemos
1 h
P( A) h *
n n
Ejemplo 2.17.
1) Se lanza solo un dado. Sea el evento E: caiga un 2 ó 5, hallar P(E). El espacio muestral
es S={1, 2, 3, 4, 5, 6 }, A1={1}, A2={2}, A3={3}, A4={4}, A5={5} y A6={6}. Si
asignamos probabilidades iguales a los puntos muestrales, es decir si suponemos que el
dado es legal, entonces P(A1)=P(A2)=…=P(A6)=1/6, con lo que P(Ai)≥0 y ∑P(A i)=1. Así,
E= A2 U A5 y P(E)=P(A2 U A5)=P(A2) + P(A5)=1/6+1/6=2/6=1/3 por el Axioma 3.
2) Un troquel de extrusión se utiliza para producir varillas de aluminio. Existen ciertas
especificaciones para la longitud y diámetro de las varillas. Para cada una de éstas, la
longitud puede ser demasiado corta, demasiado larga o estar bien y el diámetro se puede
clasificar en muy delgado, muy grueso o estar bien. En una población de mil varillas, el
número de ellas en cada clase es:
diámetro
longitud muy está bien muy
delgado grueso
demasiado 10 3 5
corta
está bien 38 900 4
demasiado 2 25 13
larga
Solución:
Se considera que cada una de las mil varillas representa un resultado en un espacio
muestral. Cada uno de los mil resultados tiene la misma probabilidad. Se resolverá el
problema contando el número de resultados que corresponde al evento. Sea E: varilla
seleccionada es demasiado corta. El número de varillas que son demasiado cortas es
10+3+5=18. Dado que el número total de varillas es mil,
94
P(E)=18/1000
Un evento ocurre de n1 formas y si por cada una de éstas formas un segundo evento
ocurre de n2 formas, entonces el número de formas en que ambos ocurren es n1 * n2.
Solución:
Cae la moneda de n1=2 formas. Por cada una de estas formas, cae el dado de n 2 = 6 formas.
La moneda y el dado caen de n1 * n2 =(2)(6)=12 formas posibles.
Ejemplo 2.19. En el diseño de la cubierta de una caja de velocidades pueden usarse cuatro
tipos diferentes de sujetadores, pernos de tres longitudes diferentes, y tres localizadores
diferentes de los pernos. Hallar el número posible de diseños diferentes que se pueden
tener.
Solución:
Por la regla del producto, hay 4x3x3=36 posibles diseños diferentes.
Ejemplo 2.20. Supongamos que una placa de automóvil en un país consta de dos letras
diferentes, seguidas de tres dígitos que se repiten, de los cuales el primero no es cero.
¿Cuántas placas diferentes pueden grabarse?
Solución:
La primera letra puede colocarse de 26 maneras diferentes (suponiendo el alfabeto de 26
letras), la segunda letra de 25 maneras, para el primer dígito hay nueve números o sea
nueve maneras y para cada uno de los otros dos dígitos 10 maneras. Por lo tanto pueden
grabarse
26.25.9.10.10=585,000
placas diferentes.
95
Si dos eventos no pueden ocurrir simultáneamente, y uno de ellos ocurre de n 1 formas,
mientras que el otro ocurre de n2 formas, entonces un evento o el otro puede ocurrir de
n1 + n2 formas.
PERMUTACION
Ejemplo 2.22. Permutaciones de las letras a, b, c: abc, acb, bca, bac, cba, cab, 6
permutaciones o por la regla del producto: n1*n2*n3=(3)(2)(1)=6 permutaciones.
Permutaciones de n objetos:
n.(n-1).(n-2).....3.2.1
n!=n(n-1)(n-2)...3.2.1
DEFINICION
96
Ejemplo 2.24. Sobre una estantería se tienen que colocar 6 libros distintos de biología, 5
de química y 2 de física, de forma que los de cada materia estén juntos. Hallar el número de
formas en que se puede hacer. R/ 1 036 800 maneras
n. (n-1).(n-2). . . . (n-r+2).(n-r+1)
Pr=
n n(n 1)...(n r 1)(n r)(n r 1)...2.1
(n r)(n r 1)...2.1
n Pr=
n!
( n r )!
TEOREMA
n Pr=
n!
( n r )!
donde r≤n.
Ejemplo 2.25.
a) Hallar cuántos números de 4 cifras se pueden formar con los dígitos, 0, 1, 2, 3,…9, si
cada uno solo se emplea una vez.
97
b) ¿Cuántos de estos números son impares?
R/ a) 4,536 b) 2,240
Ejemplo 2.26.
En una clase de teoría de la probabilidad hay 6 hombres y 4 mujeres. Se hace un examen y
se ordena a los estudiantes de acuerdo con su desempeño. Suponiendo que no hay dos
estudiantes con la misma calificación:
a) ¿De cuántas maneras distintas pueden quedar ordenados los estudiantes? R/ 10!
b) Si se considera que todas las maneras posibles de ordenar a los estudiantes son
igualmente posibles, ¿cuál es la probabilidad de que las mujeres obtengan los 4 primeros
lugares? R/1/210
Ejemplo 2.27. Una tarjeta de circuitos impresos tiene ocho sitios diferentes en los que
puede instalarse un componente. Si en la tarjeta deben instalarse cuatro componentes
diferentes, ¿cuántos diseños diferentes son posibles? R/1680
Permutaciones circulares:
TEOREMA
(n - 1)!
Ejemplo 2.28. De cuántas formas se pueden sembrar cuatro árboles distintos alrededor de
un círculo.
Solución:
(4 – 1)!=3!=3.2.1=6 formas distintas.
Ejemplo 2.29.
a) ¿De cuántas formas se pueden sentar siete personas en torno a una mesa circular?
b) Si dos de las personas insisten en sentarse juntas, ¿cuántas disposiciones son posibles?
R/ a) 6! b) 2*5!
Ejemplo 2.30.
a) ¿De cuántas formas pueden sentarse 8 personas alrededor de una mesa cuadrada?
b) Si dos de las ocho personas no se llevan bien (A y B), ¿Cuántos arreglos diferentes se
pueden formar en los que A y B no queden sentados juntos?
c) ¿Cuántas disposiciones de la parte (b) evitan que A y B se sienten uno frente al otro?
R/ a) 2*7! b) 7,200 c) 5,760
TEOREMA
98
El número de permutaciones de n objetos con n1 iguales, n2 iguales,..., nr iguales, es
r
n!
n Pn1 , n2 ,..., nr donde ni n
n1 !n2 !...nr ! i 1
Ejemplo 2.33. Un ingeniero de tránsito debe ajustar el tiempo de cambio de la luz en una
serie de 10 semáforos de la calle principal de un pequeño poblado. En un momento dado, el
semáforo puede estar con las luces roja, amarilla o verde encendidas.
a) ¿Cuántas variantes de colores de la serie de semáforos son posibles al principio? R/ 310
b) Si las luces se encienden aleatoriamente al inicio, ¿cuál es la probabilidad de que
inicialmente se tenga tres semáforos con luz roja, cinco con luz amarilla y dos con verde?
R/ 0.0427
COMBINACION
Las combinaciones son agrupaciones de objetos en las que no importa su orden.
P = C2 . 2! y
3 2 3 3 C2=
Luego, P2
3
2!
3.2.1
2.1
3.
99
n Pr= nCr * r!
TEOREMA
nCr=
n! n!
P (n r)! r !( n r )!
n r
r! r!
Solución:
5C4=5P4/4! = 5.4.3.2/4.3.2.1=5 ó 5C4=5!/4!(5-4)! = 5!/4!1!=5.4!/4! = 5 comités diferentes.
Solución:
Ejemplo 2.38. Selección al azar de tres lámparas entre 15 de las cuales 5 son defectuosas.
a. Probabilidad de que una por lo menos sea defectuosa.
b. Probabilidad de que ninguna sea defectuosa.
c. Probabilidad de que exactamente una sea defectuosa.
d. Probabilidad de que dos por lo menos sean defectuosas.
e. Probabilidad de que a lo sumo dos son defectuosas.
Solución:
a. A: una lámpara por lo menos sea defectuosa
n=15C3=15.14.13/3.2.1 =455; h=5C1.10C2 + 5C2.10C1 + 5C3.10C0 =225 + 100 + 10 =335,
P(A)=h/n=335/455=0.7363
P(Ac) + P(A)=1
P(Ac) =1 – 335/455=24/91=0.2637
100
d. P(a lo sumo una sea defectuosa)+P(dos por lo menos sean defectuosas)=1
P(dos por lo menos sean defectuosas)=1- P(a lo sumo una sea defectuosa)
=1 – [P(ninguna sea defectuosa)+
P(una exactamente sea defectuosa)]
=1 – [24/91 + 225/455]
=1 – 69/91
=22/91
=0.2418.
Solución alterna:
P(dos por lo menos sean defectuosas)=P(dos exactamente sean defectuosas)+
P(tres exactamente sean defectuosas)
=5C2.10C1/15C3 +5C3.10C0/15C3
=0.2418.
e. P(a lo sumo dos sean defectuosas)+P(tres exactamente sean defectuosas)=1
P(a lo sumo dos sean defectuosas)=1 - P(tres exactamente sean defectuosas)
=1 - 5C3 . 10C 0 /455
=1- 10/455
=445/455
=0.9780.
Solución alterna:
P(a lo sumo dos sean defectuosas)= P(ninguna sea defectuosa)+
P(una exactamente sea defectuosa)+
P(dos exactamente sean defectuosas)
=24/91 + 45/91 + 20/91
=89/91
=0.9780
Ejemplo 2.39. De una baraja de 52 cartas se sacan tres naipes. Determinar la probabilidad
de que:
a) Sean el as de tréboles, el de corazones y el de picas, en este orden.
b) Sean todos del mismo palo.
c) No hay dos del mismo palo.
R/ a) 1/132,600 b) 22/425 c) 169/425
101
los tanques de la muestra contenga material con viscosidad elevada y de que exactamente
uno de los tanques en la muestra, contenga material con impurezas altas? ▄
PROBABILIDAD CONDICIONAL
P(A│B)
P(A B)
, P(B) 0
P(B)
Ejemplo 2.42. Si al seleccionar al azar una carta de una baraja, se nos hubiera dicho que
dicha carta es negra, ¿cuál es la probabilidad que la carta fuera un as? Deseamos encontrar
P(as │ negra). Aquí se da la información que la carta es negra. Por lo tanto, el espacio no
consiste en las 52 cartas de la baraja; consiste sólo en las cartas negras. De las 26 cartas,
dos son ases. Por consiguiente, la probabilidad de un as, dado que sabemos que la carta es
negra, es
número de ases negros
P (as negra )
número de cartas negras
2
26
Este resultado (2/26) también puede obtenerse usando la definición de la siguiente manera:
Sí
P(A│B)
P(A B)
, P(B) 0
P(B)
102
Solución:
De la figura se observa que P(A│B)=2/3
longitud
excelente 212 24
bueno 18 12
230 36
Sea el evento A: muestra tiene acabado de la superficie excelente y B: muestra tenga una
longitud excelente. Se toma una muestra al azar, encuentra utilizando la tabla:
a) Probabilidad de que el acabado de la superficie sea excelente
b) P(B)
c) P(A│B)
d) P(B│A)
e) ¿Cuál es la probabilidad de que el acabado de la superficie de la muestra sea excelente,
dado que tiene buena longitud?
f) Si la muestra seleccionada tiene acabado de la superficie excelente, ¿cuál es la
probabilidad de que la longitud sea buena?
Solución:
a) P(A)=236/266
103
b) P(B)=230/266
c) P(A│B)=P(A∩B)/P(B)=212/230
e) P(A│Bc)=24/36
Obsérvese que P(A) y P(A│B) son las probabilidades del mismo evento, pero se calculan
bajo condiciones de conocimiento diferentes, de manera similar, P(B) y P(B│A).
Resultados semejantes se muestran en el diagrama de árbol.
diámetro
longitud muy está bien muy
delgado grueso
demasiado 10 3 5
corta
está bien 38 900 4
demasiado 2 25 13
larga
Ejemplo 2.45. Una varilla de aluminio se selecciona del espacio muestral que se presenta
en la tabla del ejemplo 2.14-2. Sean los eventos L 1, L2 y L3 de que la varilla sea demasiado
corta, está bien y demasiado larga respectivamente; y los eventos D 1, D2 y D3 de que el
diámetro de la varilla sea muy delgado, está bien y muy grueso respectivamente. Determine
P(L3) y P(L3 │D1). ¿Estas probabilidades son diferentes?
Solución:
P(L3)=40/1000=0.040
104
P(L3 │D1)=P(L3∩D1)/P(D1)=
2 /1000 2
0.040
50 /1000 50
La probabilidad condicional y la probabilidad incondicional son las mismas. La
información de que el diámetro de la varilla es muy delgado no cambia la probabilidad de
que la varilla sea demasiado larga.
El ejemplo muestra que el conocimiento de que un evento ocurra a veces no cambia la
probabilidad de que ocurra otro evento. En estos casos, de dice que los dos eventos son
independientes. El evento L3 y D1 son independientes.
INDEPENDENCIA
Dos eventos A y B son independientes si P(A│B)=P(A) y son dependientes en
cualquier otro caso.
Ejemplo 2.46. El uso del aspecto de las plantas en la prospección* de depósitos minerales
se denomina prospección geobotánica. Un indicador de cobre es una pequeña planta de
menta con flores de color malva. Suponga que en una región dada se tiene la probabilidad
de 30% de alto contenido de cobre el suelo y de 23% de presencia de esa planta. Si el
contenido de cobre es alto, existe 70% de probabilidad de que esté presente la planta. Sean
los eventos C: alto contenido de cobre en el suelo y M: presencia de esa planta ¿son los
eventos C y M independientes?
Solución:
Los eventos C y M son independientes si y sólo si P(M│C)=P(M) y P(C│M)=P(C).
Sabemos que P(M│C)=0.70 y que P(M)=0.23, entonces P(M│C) ≠ P(M), con lo que C y
M son dependientes. ¿Era de esperarse este resultado? Explique.
P(A1∩A2∩...∩Ak)=P(A1).P(A2).P(A3)…P(Ak).
______
105
* Exploración del subsuelo encaminada a descubrir yacimientos minerales, petrolíferos, arqueológicos o la existencia de
aguas subterréneas.
Consecuencias:
Teorema 1: Si A y B son eventos independientes, entonces A y B c son eventos
independientes.
Ejemplo 2.47. Ana y Benito lanzan dardos a un blanco. La probabilidad de que Ana dé en
el blanco es 0.25 y la de Benito es 0.40. Si Ana y Benito lanzan los dardos, ¿cuál es la
probabilidad de que peguen al blanco?
Solución:
Ejemplo 2.48. Se tiene una caja con 50 pernos: 14 de 2”, 24 de 3 1/2” y 12 de 4”. Cuatro
se extraen al azar con reemplazo. ¿Cuál es la probabilidad de que por lo menos
seleccionemos un perno de 3 1/2”?
Solución:
P(por lo menos uno de 3 1/2”)+P(ninguno de 3 1/2”)=1
P(por lo menos uno de 3 1/2”)=1- P(ninguno de 3 1/2”)
26 26 26 26
1 . . .
50 50 50 50
4
26
1-
50
0.9269.
Ejemplo 2.49. Suponga que la probabilidad de que los frenos de aire de los camiones de
una compañía fallen en un descenso particularmente largo es de 0.001. Suponga también
que los frenos de emergencia de esos camiones pueden detenerlos en el tipo de descenso
mencionado con probabilidad de 0.8. Estos sistemas de frenado funcionan
independientemente uno respecto del otro. Calcule la probabilidad de que:
Solución:
106
Sean los eventos F: frenos de aire fallen en descenso particular del camión y E: frenos de
emergencia detengan al camión en el descenso particular.
a) P(F∩E)=P(F).P(E)=(0.001)(0.8)=0.0008
b) P(F∩Ec)=P(F).P(Ec)=(0.001)(0.2)=0.0002
c) P(Ec│F)= P(Ec∩F) /P(F)=(0.0002)/(0.001)=0.2
Ejemplo 2.50. De una caja que contiene 6 bolas negras y 4 bolas verdes se extraen 3 bolas
en forma sucesiva y se reemplaza cada una de ellas antes de hacer la siguiente extracción.
Sean los eventos: Ni, i=1,2,3, de que la bola sea negra y V i, i=1,2,3, de que la bola sea
verde. Cuál es la probabilidad de que las tres sean del mismo color.
Solución:
El evento pedido es N1∩N2∩N3 ó V1∩V2∩V3.
P[(N1∩N2∩N3) U (V1∩V2∩V3)]=P(N1).P(N2).P(N3)+P(V1).P(V2).P(V3)
=6/10 · 6/10 · 6/10 + 4/10 · 4/10 · 4/10
= 0.2800.
Ejemplo 2.51. El circuito ilustrado abajo opera si hay una trayectoria de dispositivos
funcionales de izquierda a derecha. La probabilidad de que cada dispositivo funcione se
indica en la ilustración. Suponga que los dispositivos fallan independientemente. ¿Cuál es
la probabilidad de que el circuito opere?
Solución:
Sea Ii: interruptor i-ésimo está cerrado, i=1, 2, 3. Sea E: la corriente pasa de a a b.
E=(I1U I2 ) ∩ I3
P(E)=P[(I1 U I2) ∩ I3)]
=P(I1 U I2) • P(I3)
={P(I1)+P(I2)-P(I1∩I2)} • P(I3)
={P(I1)+P(I2)-P(I1).P(I2)} • P(I3)
={0.9+0.9-(0.9)(0.9)} • (0.95)
=(0.99)(0.95)
=0.9405 ▄
P(B│A).P(A) =P(B∩A)=P(A∩B)
107
que se conoce como regla multiplicativa.
TEOREMA. REGLA MULTIPLICATIVA.
P(A∩B)= P(A).P(B │ A)
Generalización de la regla:
Ejemplo 2.52. Se tiene una caja con 10 tornillos con 4 defectuosos. Tres tornillos se
extraen al azar sin reemplazo, ¿cuál es la probabilidad de que los tres tornillos estén
defectuosos?
Solución:
Sean los eventos A: primer tornillo defectuoso, B: segundo tornillo defectuoso, y C: tercer
tornillo defectuoso.
P(A).P(B│A).P(C│A∩B) = ▄
P(A∩B∩C)= 4 .3.2 0.0333.
10 9 8
2. A1UA2U...UAk= S
108
B=( A1 ∩B)U(A2∩B)U...U(Ak ∩B)
TEOREMA. LEY DE LA PROBABILIDAD TOTAL
A1, A2, A3,...,Ak forman una partición de S tal que P(Bi)≠0, entonces para cualquier
evento B de S
k k
P(B) P(Ai B) P(A i ).P(B A i )
i 1 i 1
Demostración:
k
P(B) P(A i ).P(B A i )
i 1
Ejemplo 2.54. Tres máquinas A, B y C producen respectivamente 50%, 30% y 20% del
total de artículos de una fábrica. Los porcentajes de artículos defectuosos son 3%, 4% y 5%
respectivamente. Si se selecciona un artículo al azar, ¿cuál es la probabilidad de que sea
defectuoso?.
Solución:
Sea D: artículo defectuoso
109
P(D)=(0.50) (0.03)+ (0.30 )(0.04)+ (0.20) (0.05)=0.0370 ▄
Ejemplo 2.55. Piénsese en Q como el evento de que “un determinado vendedor de seguros
venda 15 pólizas” y R como el evento de que “ese determinado vendedor visite a 40
clientes potenciales”. Claramente Q y R están ordenados en el tiempo y Q es un posible
efecto de R. Supóngase que después se saber el hecho de que el vendedor de seguros
vendió 15 pólizas pero sin saber cuántos clientes potenciales visitó, se pregunta ¿cuál es la
probabilidad de que haya visitado a 40 clientes? En otras palabras ¿cómo se puede
encontrar la probabilidad de que un determinado evento R haya sido la causa de un evento
final Q que se sabe que ocurrió? Tales probabilidades las proporciona la regla de Bayes.
P( R Q) P ( R ) P (Q R )
P( R Q)
P (Q) P ( R ) P(Q R ) P ( R c ) P (Q R c )
110
TEOREMA DE BAYES
Sea {A1, A2,...,Ak} una partición de S. Entonces para cualquier otro evento B para el que
P(B)>0,
P( A j B) P( A j B) P ( A j ).P( B A j )
k
para j 1,2,...,k
P ( B)
P( Ai ).P( B Ai )
i 1
Ejemplo 2.56. La probabilidad de que haya un incidente en una fábrica que dispone de
alarma es 0.1. La probabilidad de que suene esta sí se ha producido algún incidente es de
0.97 y la probabilidad de que suene si no ha sucedido ningún incidente es 0.02.
En el supuesto de que haya funcionado la alarma, ¿cuál es la probabilidad de que no haya
habido ningún incidente?
Solución:
P( I c A) P ( I c ).P ( A I c )
P( I c ).P ( A I c ) P( I ).P( A I )
P( I c A) 0.9 x0.02
0.1565
0.9 x0.02 0.1x0.97
Ejemplo 2.57. En cierta planta de ensamble, tres máquinas 1, 2 y 3, ensamblan 30%, 45%
y 25% de los productos respectivamente. Se sabe de la experiencia pasada que 2%, 3% y
111
2% de los productos ensamblados por cada máquina, respectivamente tienen defectos. Se
selecciona aleatoriamente un producto determinado.
Solución:
a). Sean los eventos A1, A2 y A3: el producto es ensamblado por la máquina 1, 2 y 3
respectivamente y B: producto defectuoso.
=
3 0.30x0.02+0.45x0.03+0.25x0.02=0.0245
P(B) P(A i ).P(B A i )
i 1
P(B)=(0.30)(0.02)+(0.45)(0.03)+(0.25)(0.02)=0.0245.
Ejemplo 2.58. En el momento en que unos artículos llegan al final de una línea de
producción, un inspector elige los que se someterán a revisión completa; 10% de los
artículos producidos están defectuosos, 60% de estos artículos se envían a revisión
completa y 20% de los que están en buen estado se envía a revisión completa. Si un artículo
se revisa completamente, ¿cuál es la probabilidad de que esté defectuoso? R/0.25
112
Unidad III: DISTRIBUCIONES DE PROBABABILIDAD
DISCRETAS
VARIABLE ALEATORIA.
Una variable aleatoria (va) es una función denotada por X que asocia un número real x
a cada elemento s del espacio muestral S. Así,
X: S-----------> R
s~~~~~~~~>X(s)= x
Ejemplo 3.1. En el lanzamiento de dos monedas, S={HH, HT, TH, TT}. Interesa el
número de cruces que aparecen en cada punto, estos son: 0, 1, 2. Estos son valores que
toma alguna variable aleatoria X que representa el número de cruces que aparecen en el
lanzamiento.
113
El conjunto de números posibles de una variable aleatoria X se llama rango de X y se
denota por RX. En el ejemplo precedente RX={0,1,2}. El valor medido de la variable
aleatoria se denota por una letra minúscula como x=2.5 cm.
A una variable aleatoria se le denomina variable aleatoria discreta (vad) si sus valores
forman un conjunto finito o contablemente infinito.
Ejemplo 3.3. Baterías que salen de una línea de producción hasta obtener una defectuosa.
Buena E, y no buena F (defectuosa). S={F, EF, EEF, EEEF, EEEEF,...}. Sea X el número
de baterías antes de terminar con el experimento. Entonces, X(F)=1, X(EF)=2,
X(EEF)=3,.... La variable aleatoria es discreta infinita contable con RX={1, 2, 3,...}.
Ejemplo 3.4.
a) Número de rayaduras en una superficie.
b) Número de bits transmitidos recibidos con error.
114
posibles junto con la probabilidad que tiene cada variable aleatoria, entonces se ha descrito
completamente a la población a partir de la cual se seleccionó a la variable aleatoria.
Esta descripción se conoce como función de masa de probabilidad.
La lista de valores posibles 0, 1, 2, 3, junto con las probabilidades para cada uno,
proporciona una descripción completa de la población de la que se tomó a X.
Por lo tanto, para la variable aleatoria X que representa el número de fallas en una longitud
de alambre, p(0)=0.48, p(1)=0.39, p(2)=0.12, p(3)=0.01 y p(x)=0 para cualquier x diferente
de 0, 1, 2 ó 3.
Obsérvese que
p( x) 0
p( x) 1
Ejemplo 3.9. La probabilidad de que sea posible conectarse en un momento dado con una
computadora desde una terminal remota es 0.7. Sea X el número de intentos que deben
hacerse para tener acceso a la computadora. Encuentre una fórmula para la dpd de X.
Solución:
115
examinan las tarjetas, es difícil determinar si una de ellas proviene de la línea A o de la B. A
veces puede ser útil una determinación probabilística de esta pregunta. Supóngase que una
bandeja de recolección contiene 10 tarjetas de circuitos, de las cuales 6 provinieron de la
línea A y 4 de la B. Un inspector selecciona dos de esas tarjetas, que parecen idénticas, para
revisarlas. Se interesa en X, el número de tarjetas inspeccionadas que provienen de la línea
A. Calcular la distribución de probabilidad para X.
Solución:
; ;
4 3 12 6 4 4 6 48 6 5 30
P ( X 0) . P( X 1) . . P ( X 2) .
10 9 90 10 9 10 9 90 10 9 90
x 0 1 2
p(x 12/90 48/90 30/90
)
Solución alterna:
x 0 1 2
p(x 12/90 48/90 30/90
)
Ejemplo 3.11. Entre 10 solicitantes para un puesto 6 son mujeres y 4 son hombres.
Supóngase que se seleccionan al azar 3 candidatos de entre todos ellos para concederles las
entrevistas finales. Determinar la función de probabilidad para X, el número de candidatas
mujeres entre los tres finalistas.
Solución:
6 C0 . 4 C34 1 C. C 36 9
P( X 0)
; P( X 1) 6 1 4 2 ;
10 C3 120 30 10 C3 120 30
C. C 60 15 C. C 20 5
P ( X 2) 6 2 4 1 ; P( X 3) 6 3 4 0 .
10 C3 120 30 10 C3 120 30
116
x 0 1 2 3
p(x 1/30 9/30 15/30 5/30
)
▄
Solución:
a)
La interpretación física de este diagrama es que cada recta representa una masa igual a su
altura.
117
b)
c) Esta probabilidad está dada por el área bajo el histograma de probabilidad que
corresponde a rectángulos centrados en valores superiores a 1; sus áreas son P(X=2)=0.1 y
P(X=3)=0.1, entonces P(X>1)=P(X=2)+P(X=3)=0.1+0.1=0.2, como se muestra en la
figura.
Se desea a veces que X sea menor o igual a x, lo que se escribe como P(X≤x)=F(x),
xεR, y F(X) se llama función de distribución acumulada de X.
La función de distribución acumulada F(x) de una vad X con dp p(x) se define por
F ( x ) P ( X x ) p (t ) P ( X t )
tx t x
Para cualquier xεR, donde F(x) es la probabilidad de que el valor observado de X sea a lo
sumo x.
118
Ejemplo 3.13. Una compañía de materiales químicos envía cierto disolvente en tambores
de diez galones. Sea X el número de tambores pedidos por un cliente elegido
aleatoriamente. Suponga que X tiene la siguiente función de masa de probabilidad:
x 1 2 3 4 5
p(x 0.4 0.2 0.2 0.1
) 0.1
Solución
Primero se calcula F(x) para cada uno de los valores posibles de X, que son 1, 2, 3, 4 y 5.
F(1)=P(X≤1)=P(X=1)=p(1)=0.4
F(2)=P(X≤2)=0.4+0.2=0.6
F(3)=P(X≤3)=0.4+0.2+0.2=0.8
F(4)=P(X≤4)=0.4+0.2+0.2+0.1=0.9
F(5)=P(X≤5)=0.4+0.2+0.2+0.1+0.1=1
Para cualquier valor de x, se calcula a F(x) sumando las probabilidades de todos los
valores posibles de X que son menores o iguales a x, si 1≤x<2, los valores posibles de X
son menores o iguales a x son 0 y 1, por lo que F(x)=P(X=0)+P(X=1)=F(1).
0, x 1
0.4, 1 x 2
0.6, 2 x 3
F ( x)
0.8, 3 x 4
0.9, 4 x 5
1, x5
entonces
p(2)=F(2) – F(1)=0.6 – 0.4=0.2
119
▄
(0)(4/20) + (1)(5/20)+(2)(6/20)+(3)(5/20)=1.6
donde 4/20, 5/20, 6/20 y 5/20 son las frecuencias relativas de x=0, x=1, x=2 y x=3
respectivamente. La media entonces, se puede calcular si se conocen los distintos valores
que intervienen y sus respectivas frecuencias relativas.
Este resultado sugiere la siguiente definición:
VALOR ESPERADO
E(X) x.p(x)
x
120
V(X)= E[(X – μ)2]= = , y
2 ( x )2 p( x)
x
V(X)= E(X2) - [E(X)]2= = fórmula abreviada
2
x
x
2
p( x) 2
La desviación estándar de X es
2
Solución:
a) La función de masa de probabilidad es P(X=0)=0.16, P(X=1)=0.48, P(X=2)=0.36 y
P(X=3)=0 para x≠0, 1 ó 2.
b) La media es
xp(x)
x
(0)(0.16) (1)(0.48) (2)(0.36)
=1.20 Ω
μX describe dónde está centrada la distribución.
c) La varianza es
2 ( x )2 p( x)
x
=0.480 Ω2
o por la fórmula abreviada
=∑x2·p(x) – μ2
2
0.480 0.693 .
121
Para cualquier variable aleatoria X y constantes a y b cualesquiera,
i) E(aX+b)=aE(X)+b
ii) V(aX+b)=a2V(X)
Ejemplo 3.16. El gerente de una bodega en una fábrica sabe, por haber estudiado sus
registros, que la demanda diaria (número de veces que se usa) de cierta herramienta tiene la
siguiente distribución de probabilidad:
Demanda 0 1 2
Probabilida 0.1 0.5 0.4
d
Es decir, 50% de los registros diarios muestran que la herramienta se usó una vez. Si X
representa la demanda diaria, calcular E(X) y V(X).
Solución:
E(X)=Σxp(x)=0(0.1)+1(0.5)+2(0.4)=1.3
V(X)=Σx2p(x) – μ2
=02(0.1)+12(0.5)+22(0.4) – (1.3)2
=0.41
Ejemplo 3.17. Suponer que en el ejemplo precedente, a la fábrica le cuesta $ 10 cada vez
que se usa la herramienta. Calcular el promedio y la varianza de los costos diarios por uso
de esta herramienta.
Solución:
Si X es la demanda diaria, el costo diario por usar la herramienta es por lo tanto C(X)=10X.
El costo promedio es
E[C(X)]=E(10X)=10E(X)=10(1.3)= $ 13
La fábrica debe destinar (o presupuestar) $ 13 diarios para cubrir el costo por usar la
herramienta.
V[C(X)]=V(10X)=102V(X)=100(0.41)=41 $2
▄
122
se llama familia de distribuciones de probabilidad.
Ejemplo 3.18. La fórmula del ejemplo 3.9 la podemos generalizar como p(x)=α(1-α) x-1,
x=1,2,..., con 0<α<1. La dp depende de α y escribimos p(x; α) en lugar de p(x) y así:
(1 ) x 1 , si x 1, 2,...
p ( x; )
0, en otra parte.
La cantidad α es un parámetro. ▄
Estos ejemplos ilustran que un modelo general de probabilidad que los incluya como
casos particulares sería muy conveniente.
Puede considerarse que cada uno de estos experimentos aleatorios consta de una serie de
ensayos aleatorios repetidos. El resultado de cada ensayo puede resumirse como éxito o
bien como fracaso, respectivamente. Los ensayos que constituyen el experimento aleatorio
son independientes. La probabilidad de un éxito en cada ensayo es constante.
Ejemplo 3.19. La posibilidad de que un bit se reciba con error es 0.1. Suponga que los
ensayos son idependientes. Sea X=número de bits con error en los siguientes n bits
transmitidos. Hallar P(X=x).
Solución:
Un posible resultado es
, por lo tanto,
n n!
x x !(n x )!
n
P( X x ) (0.1) x (0.99) n x
x
Ahora se puede definir la función de masa de probabilidad para una variable aleatoria
binomial.
123
DISTRIBUCION BINOMIAL
La variable aleatoria X que es igual al número de ensayos que producen un éxito tiene
una distribución binomial con parámetros p y n=1, 2,…
n
f ( x ) p x (1 p )n x , x 0,1,..., n
x
Escribimos X ~ Bin(n,p) para indicar que X es una va binomial basada en n ensayos con
probabilidad p de éxito.
REGLA.
Si el muestreo es sin reemplazo de una población de tamaño N y si n es a lo sumo 5%
Ejemplo 3.20. De una caja de 200 tornillos se extrae una muestra sin reemplazo de 10
tornillos. Aquí 10 es el 5% de 200 entonces el experimento es binomial.
En la figura se presentan ejemplos de distribuciones binomiales. Para un valor fijo de n, la
distribución se hace cada vez más simétrica conforme p se incrementa de 0 a 0.5 o se
decrementa de 1 a 0.5. Para un valor fijo de p, la distribución se hace cada vez más
simétrica conforme n se incrementa.
124
Event prob.,Trials
0.5,40
0.15
0.12
probability
0.09
0.06
0.03
0
0 10 20 30 40
Ejemplo 3.21. Supongamos que el 20% de ciertos libros fallan a una prueba de resistencia
de encuadernación. Sea X el número de entre 15 ejemplares seleccionados al azar que
fallan a la prueba. Entonces X tiene una distribución binomial con n=15 y p=0.2.
125
a) A lo sumo fallen 3.
b) Exactamente 3 fallen.
c) Al menos 3 fallen.
Solución:
a ) P ( X 3) p(0) p(1) p(2) p(3)
15 C0 (.2)0 (.8)15 15 C1 (.2)1 (.8)14 15 C2 (.2) 2 (.8)13 15 C3 (.2)3 (.8)12
=0.6482.
Ejemplo 3.22. Las líneas telefónicas del sistema de reservaciones de una aerolínea están
ocupadas 40% del tiempo. Suponga que los eventos de que las líneas estén ocupadas en
llamadas sucesivas son independientes. Suponga que se hacen diez llamadas telefónicas al
sistema de reservación.
a) ¿Cuál es la probabilidad de que, al llamar exactamente tres veces, las líneas estén
ocupadas?
b) ¿Cuál es la probabilidad de que al menos en una de las llamadas, las líneas no estén
ocupadas?
c) ¿Cuál es el número esperado de llamadas en las que todas las líneas estarán ocupadas?
d) ¿Cuál es la desviación estándar?
Solución:
10
P(X=3)= (0.4)3 (0.6)7 0.2150
3
10
b) P(X 1)=1 - P(X=0)=1 - (0.6) 0 (0.4)10 0.9999
0
c) μ=np=(10)(0.4)=4
126
A continuación se muestra la distribución correspondiente:
Ejemplo 3.23.
a) Extracción de 5 cartas de una baraja en donde cada carta no se repone. Sea X=número
de cartas rojas en la muestra.
b) Inspección de baterías de un lote para ser embarcado. Sea X=número de baterías
defectuosas en la muestra.
DISTRIBUCION HIPERGEOMETRICA
127
K N - K
x n - x
f(x)= x=máx 0, n+K-N hasta mín {K, n}
N
n
Para deducir la función de masa de probabilidad, podemos utilizar la idea que se ilustra
en la figura.
128
Solución:
Sea X el número de edificios seleccionados que violan el código. Entonces, X ~ H(50, 12,
10). Se debe determinar P(X=3):
12 38
3 7
P(X = 3) = 0.2703
50
10
TEOREMA. MEDIA Y VARIANZA
Ejemplo 3.25. Un lote de 75 arandelas contiene cinco en las que la variabilidad del espesor
alrededor de la circunferencia de la arandela es inaceptable. Se selecciona, al azar y sin
reemplazo, una muestra de 10 arandelas.
a). ¿Cuál es la probabilidad de que ninguna de las arandelas inaceptables esté en la
muestra?
b) ¿Cuál es la probabilidad de que al menos una de las arandelas inaceptables esté en la
muestra?
c) ¿Cuál es la probabilidad de que exactamente una de las arandelas inaceptables esté en la
muestra?
d) ¿Cuál es el número promedio de arandelas inaceptables en la muestra?
Solución:
a) Sea X el número de arandelas seleccionadas inaceptables. Entonces, X ~ H(75, 5, 10).
5 70
0 10
P(X=0)= 0.4786
75
10
b)
P(X 1)=1- P(X=0)=1-0.4786=0.5214
c)
5 70
1 9
P(X=1)= 0.3923
75
10
d) ▄
K 5 2
μ=n 10. .
N 75 3
129
Aproximación de probabilidad hipergeométrica
Si en la fórmula precedente, hacemos p=K/N, entonces p se interpreta como la proporción
de éxitos en el conjunto del que se elige la muestra. Obsérvese que para una variable
aleatoria hipergeométrica, E(X) es similar al resultado para una variable aleatoria binomial.
Además, V(X) difiere del resultado para una variable aleatoria binomial tan sólo por el
término que se conoce como el factor de corrección para poblaciones finitas.
N -n
N -1
Cuando el tamaño muestral n es pequeño en comparación con el tamaño de la población
N, la distribución binomial Bin(n, K/N) es una buena aproximación de la distribución
hipergeométrica H(N, K, n). Una regla general es que la aproximación suele ser
satisfactoria si n≤0.05N, es decir, n es a lo sumo el 5% del tamaño de la población. Este
resultado depende de la fórmula de Stirling, que se estudia en cursos de cálculo avanzado.
La regla anterior significa que, cuando el tamaño muestral n es pequeño en comparación
con el tamaño de la población N (es decir, no mayor al 5%), la diferencia entre el muestreo
con o sin reemplazo es poca, y la distribución binomial Bin(n, K/N) es una buena
aproximación de la distribución hipergeométrica H(N, K, n). En la figura se presenta un
ejemplo.
Ejemplo 3.26. En el curso de una hora, una máquina específica llena 1000 botellas de
jugo. En cada uno de sus intervalos, se selecciona aleatoriamente una muestra de 20
botellas y se verifica el volumen del contenido en cada una. Sea X el número de botellas
seleccionadas con contenido insuficiente. Suponga que en una hora específica se producen
100 botellas llenadas en forma deficiente. Calcule la probabilidad de que al menos tres
botellas con contenido deficiente se incluyan en las muestreadas. El valor exacto de esta
probabilidad está dado por:
=1 - P(X 2)
130
100 900 100 900 100 900
0 20 1 19 2 18
=1 - - - =0.3228
1000 1000 1000
20
20 20
Como puede verse, es laborioso calcular directamente esta probabilidad, incluso con la
ayuda de una calculadora. Sin embargo, puesto que n=20≤0.05N=0.05x1000=50, la regla
general indica que esta probabilidad puede aproximarse mediante la distribución binomial,
con parámetros n=20 y p=K/N=100/1000=0.1.
P(X≥3)=1 – P(X<3)
=1- P(X≤2)
=1- 0.6769
=0.3231 ▄
Ejemplo 3.27. En el problema de los bits con error, ¿cuál es la probabilidad de que el
décimo bits transmitido sea el cuarto con error?
Sea X=el número de bits hasta el cuarto con error. La probabilidad de obtener 3 bits con
error en los primeros nueve y que el décimo sea el cuarto con error es:
9 9
3 (0.1) (0.9) (0.1) 3 (0.1) (0.9)
3 6 4 6
Ahora se puede definir la función de masa de probabilidad para una variable aleatoria
binomial negativa.
131
x 1 xr r
P( X x) f ( x) (1 p) p
r 1
Escribimos X ~ Bn(r, p) para indicar que X es una variable aleatoria binomial negativa
con parámetros r y p.
Suponga que se lleva a cabo una secuencia de ensayos independientes, cada uno con la
misma probabilidad de éxito. Sea X el número de experimentos hasta incluir el primer
éxito. Por tanto, X es una variable aleatoria discreta, la cual tiene una distribución
geométrica con parámetro p. Se expresa como X~Geo(p).
Ejemplo 3.28. El 10% de las máquinas producidas en una línea de montaje resultan
defectuosas, ¿cuál es la probabilidad de encontrar la tercer máquina defectuosa en el quinto
ensayo, si se seleccionan aleatoriamente máquinas, de una por una, para probarlas?.
Solución:
132
Si X~Bn(r,p), entonces
r(1- p)
E(X)=μ= r y V(X)=σ 2 =
p p2
Ejemplo 3.29. Una prueba de resistencia de soldadura consiste en poner carga en uniones
soldadas hasta que se dé una ruptura. Para cierto tipo de soldadura, 80% de las rupturas
ocurre en la propia soldadura, mientras que otro 20% se da en las vigas. Se prueba cierto
número de soldaduras. Sea X el número de pruebas incluyendo la tercera ruptura de la viga.
Determine la media y la varianza de X.
Solución:
r 3
15
p 0.2
▄
r (1 p) 3(0.8)
2 60
p2 0.22
n n x n x
P( X x) p x (1 p) n x 1
x x n n
133
n x
x n(n 1)...(n x 1)
lím 1 1
n x ! n nx n
n x
x 1 2 x 1
lím 1 1 1 1 ...
1
x ! n n n n n n
Se observa que
n
lím 1 n e
n
y que todos los demás términos en los que interviene n tienden a la unidad; entonces,
tenemos la distribución al límite
e x
lím P( X x) x!
, x 1, 2, ...
n
Dado un intervalo de números reales, suponga que ocurren conteos al azar a lo largo del
intervalo. Si puede hacerse la partición del intervalo en subintervalos con una longitud
suficientemente pequeña tal que
134
Si el número promedio de conteos en el intervalo es λ>0, la variable aleatoria X, que es
igual al número de conteos en el intervalo, tiene una distribución de Poisson con
parámetro λ, y la función de masa de probabilidad de X es
e x
f ( x) , x 0, 1, 2, ...
x!
Escribimos X ~ Poisson(λ) para indicar que X es una variable aleatoria de Poisson con
parámetro λ.
Históricamente, el término proceso se ha utilizado para seguir la observación de un
sistema con el paso del tiempo. Una aplicación muy importante de la distribución de
Poisson se relaciona con el acontecimiento de eventos de un tipo particular sobre el tiempo.
Los procesos de Poisson incluyen la observación de eventos discretos en un “intervalo”
continuo de tiempo, longitud o espacio. Se usa el término “intervalo” en la descripción del
proceso de Poisson general, en el entendido de que no es un intervalo en el sentido
matemático usual. Por ejemplo, podría tratarse de observar el número de árboles
distribuidos en un bosque por acre. El evento discreto de interés es dicha observación,
mientras que el “intervalo” continuo es el acre. La variable que interesa en un proceso de
Poisson es X, el número de casos de un evento en un intervalo de t unidades. Puede
comprobarse con el uso de ecuaciones diferenciales que X es una variable aleatoria de
Poisson con parámetro λ=αt, el valor esperado, donde α es una número positivo que
caracteriza al proceso de Poisson subyacente. Así, el número promedio de casos del evento
en unidad de tiempo, longitud área o espacio es αt/t=α. Dicho de otra manera, en el sentido
físico el parámetro α representa el número promedio de casos del evento en cuestión por
unidad de medición. Es decir, si en la distribución de Poisson el número esperado por
tiempo unitario es α, entonces el número esperado de resultados en un intervalo de t
unidades de tiempo específico es una variable aleatoria de Poisson con λ=αt.
135
Es importante usar unidades consistentes en el cálculo de probabilidades, medias y
varianzas cuando se trabaja con variables aleatorias de Poisson.
Ejemplo 3.31. Para el caso del alambre de cobre delgado, suponga que el número de
imperfecciones sigue una distribución de Poisson con una media de 2.3 imperfecciones por
milímetro.
a) Determine la probabilidad de exactamente 2 imperfecciones en 1 milímetro de alambre.
b) Determine la probabilidad de 10 imperfecciones en 5 milímetros de alambre.
c) Determine la probabilidad de al menos una imperfección en 2 milímetros de alambre.
Solución:
a) Sea X denota el número de imperfecciones en 1 milímetro de alambre. Entonces, X tiene
una distribución de Poisson con
E(X)=λ=α.t=2.3 imperfecciones/mm x 1 mm =2.3 imperfecciones. Entonces, X ~
Poisson(2.3) y
e 2.3 2.32
P ( X 2) 0.265
2!
e11.511.510
P ( X 10) 0.113
10!
P( X 1) 1 P( X 0)
e4.6 4.60
1
0!
1 e 4.6
0.9899
136
Si X~Poisson(λ), entonces
E(X)=V(X)=λ
Ejemplo 3.33. Unas partículas están suspendidas en un medio líquido con concentración
de seis partículas por mL. Se agita por completo un volumen grande de la suspensión, y
después se extrae 3 mL. ¿Cuál es la probabilidad de que sólo se retiren 15 partículas?
Solución:
Sea X el número de partículas extraídas en 3 mL. Entonces, X tiene una distribución de
Poisson con
E(X)=6 partículas/mL x 3 mL = 18 partículas. Entonces, X~Poisson(18) y
e181815
P ( X 15) 0.0786
15!
137
Ejemplo 3.34. La llegada de clientes en un torniquete de una tienda de departamentos
tiene una distribución de Poisson con un promedio de 8 por hora. Para una hora
determinada, calcular la probabilidad de que:
a) lleguen exactamente 8 clientes
b) no lleguen más de tres clientes
c) lleguen por lo menos 2 clientes
Si toma 10 minutos atender a cada cliente, encontrar:
d) la media y la varianza del tiempo total de servicio en relación a las llegadas de los
clientes durante una hora. (Suponer que está disponible un número limitado de empleados
para atender a los clientes, de tal manera que éstos no tienen que esperar) ¿Es muy probable
que el tiempo total de servicio exceda 200 minutos?
Calcular la probabilidad de que lleguen exactamente dos clientes en el período de 2 horas:
e) de las 2:00 P. M. a las 4:00 P. M. (un período continuo de dos horas).
f) de las 1:00 P. M. a las 2:00 P. M. y entre las 3:00 P. M. y las 4:00 P. M. (dos períodos
separados de 1 hora que suman un total uno de dos horas).
Solución:
a) Sea X el número de clientes que llegan en una hora determinada. Entonces, X tiene una
distribución de Poisson con
E(X)=8 clientes/hora x 1 hora= 8 clientes. Entonces, X~Poisson(8) y
e 8 88
P( X 8) 0.1396
8!
b)
P ( X 3) p (3) p (2) p(1) p (0)
e 8 83 e8 82 e8 81 e8 80
3! 2! 1! 0!
512 64
e8 8 1
6 2
0.0424
c)
P( X 2) 1 P ( X 1)
e8 81 e 8 80
1
1! 0!
1 9e8
0.9970
d) Sea S=10X el tiempo total para atender a los clientes durante una hora. Entonces,
E(S)=E(10X)=10E(X)=80 min y V(S)=V(10X)=102V(X)=800 min2 y
200 e80 80 x
P( S 200) 1 P( S 200) 1 0
x 0 x!
No. Por que la probabilidad es cero, se trata de algo inusual.
e) Sea X el número de clientes que llegan en dos horas. Entonces, X tiene una distribución
de Poisson con
E(X)=8 clientes/hora x 2 hora= 16 clientes. Entonces, X~Poisson(16) y
138
▄
e16162
P( X 2) 128e 16
2!
Ejemplo 3.35. Supóngase que 300 erratas están distribuidas a lo largo de un libro de 500
páginas. Hallar la probabilidad de que una página contenga 2 erratas exactamente.
Solución:
Sea X el número de erratas de entre 300 es una variable aleatoria binomial con n=300,
p=1/500=0.002 y np=0.6, así que se cumple la regla, entonces
e 0.6 (0.6) 2
P(X 2) 0.0988.
2!
Ejercicio 3.36. Los mensajes que llegan a una computadora utilizada como servidor lo
hacen de acuerdo con una distribución Poisson con una tasa promedio de 0.1 mensajes por
minuto.
a) ¿Cual es la probabilidad de que lleguen como mucho 2 mensajes en una hora?
b) Determinar el intervalo de tiempo necesario para que la probabilidad de que no llegue
ningún mensaje durante ese lapso de tiempo sea 0.8.
R/ a) 0.062 b) 2.2 minutos ▄
139
Unidad IV: VARIABLE CONTINUA
Introducción
La distribución de probabilidad de una variable aleatoria discreta siempre se puede obtener
asignando una probabilidad positiva a cada uno de los posibles valores que puede tomar la
variable. Naturalmente, tenemos que estar seguros de que la suma de las probabilidades
asignadas sea siempre igual a 1. Desafortunadamente, la distribución de probabilidad de
una variable aleatoria continua no puede establecerse de la misma manera. Es
matemáticamente imposible asignar probabilidades diferentes de cero a todos los puntos de
un intervalo real y al mismo tiempo satisfacer el requisito de que la suma de las
probabilidades de los distintos valores posibles tiene que ser 1. ▄
Intervalo de Frecuenci
clase Frecuenci a
(años) a relativa
0-<1 16 0.32
1-<2 10 0.20
2-<3 9 0.18
3-<4 7 0.14
4-<5 3 0.06
5-<6 2 0.04
6-<7 1 0.02
7-<8 1 0.02
8-<9 1 0.02
140
Observe que la vida útil constituye una variable aleatoria continua, ya que sus valores
posibles no están restringidos a algún conjunto discretamente espaciado. Los intervalos de
clase son elegidos para que cada intervalo contenga un número razonablemente grande de
baterías. Si la muestra fuera más grande, se podría hacer los intervalos más angostos. En
particular, si se tuviera información sobre toda la población, que contiene millones de
baterías, se podrían hacer los intervalos extremadamente angostos. El histograma de
frecuencia relativa parecería entonces muy suave y se podría aproximar con una curva,
como la que se muestra.
141
Debido a que el histograma de frecuencias relativas en este caso se representa por una
curva, la probabilidad se encontraría mediante el cálculo de una integral.
La función f(x), que modela el comportamiento de la frecuencia relativa de X, se llama
función de densidad de probabilidad y el cálculo de probabilidades implica integrales, en
vez de las sumatorias que se usan en el caso discreto.
1)
f ( x) 0
2)
f ( x)dx 1
3)
b
P(a X b) f ( x )dx área bajo f ( x ) de a y b cualesquiera
a
P(x1≤X≤x2)=P(x1<X≤x2)=P(x1≤X<x2)=P(x1<X<x2)
1.25(1 x 4 ) 0 x 1
f ( x)
0 de otro modo
Solución:
La proporción de componentes que se deben desechar es P(X>0.8), que es igual al área bajo
la función de densidad de probabilidad a la derecha de 0.8.
142
Esta área está dada por
P( X 0.8) f ( x )dx
0.8
1
1.25(1 x 4 )dx
0.8
1
x5
1.25 x
5
0.8
▄
0.0819
Sea X una variable aleatoria continua con función de densidad de probabilidad f(x). La
función de distribución acumulativa de X es la función
x
F(x) P(X x) f (t)dt
para -∞<x<∞.
143
Consecuencia: P(a<X<b)=
b a
f (y)dy f (y)dy F(b) F(a)
Además, F´(x)=f(x), si la derivada.
Solución:
a) La función de densidad de probabilidad de X está dada por f(t)=0 si t≤0, f(t)=1.25(1-x 2)
si 0<t<1 y f(t)=0 si t≥1. Puesto que f(t) está definida por partes en tres intervalos diferentes,
el cálculo de la función de distribución acumulativa implica tres casos distintos.
Si x≤0:
x
F ( x) f (t ) dt
x
0dt
0
Si 0<x<1:
x
F ( x) f (t ) dt
0 x
f (t ) dt 0 f (t ) dt
0 x
0dt 0 1.25(1 t 4 )dt
x
t5
0 1.25 t
5
0
x5
1.25 x
5
Si x≥1:
x
F ( x ) f (t )dt
0 1 x
f (t )dt 0 f (t )dt 1 f (t )dt
0 1 x
0dt 0 1.25(1 t 4 )dt 1 0dt
0 1 0
1
Por tanto,
0, si x 0
x5
F ( x) 1.25 x , si 0 x 1
5
1, si x 1
144
Aquí se presenta una gráfica de F(x).
b) P(X<0.5)=F(0.5)=1.25(0.5 – 0.55/5)=0.6172.
Percentiles
Las reglas del valor esperado y la varianza caso discreto son válidas también para el caso
continuo.
145
Ejemplo 4.3. Las especificaciones piden que el espesor de las hojas de aluminio para hacer
latas estén entre 8 y 11 milésimos de pulgada. Sea X el espesor de una hoja de aluminio.
Suponga que la función de densidad de probabilidad de X está dada por
x , si 6 x 12
f ( x ) 54
0, de otro modo
a) Determine el espesor esperado de una hoja
b) Determine la varianza del espesor de una hoja
c) Determine la desviación estándar del espesor de una hoja
d) Determine la mediana del espesor
e) Determine el décimo percentil del espesor
Solución:
a)
xf ( x)dx
dx
12
x x
6 54
1 12 2
54 6
x dx
milésimas de pulgada
9.33
b)
2 x 2 f ( x) dx 2
2
1 12 28
x 3 dx
54 6 3
(milésimas de pulgada)2
2.89
c) milésimas de pulgada
26 9 1.70
d) x
p P(X x p ) F(x p ) p f (y)dy
X 0.5 1
0.50 ydy
6 54
1
0.50 x0.5
2
36
108
2
x0.5 90
milésimas de pulgada
x0.5 9.49
146
e) x
p P(X x p ) F(x p ) p f (y)dy
X 0.1 1
6 54
ydy 0.10
1
x0.1
2
36 0.10
108
2
x0.1 36 10.8
milésimas de pulgada
x0.1 6.84
DEFINICION.
Se dice que una va X continua tiene distribución uniforme en el intervalo [a, b] si la fd
de X es
147
1
, a xb
f ( x; a, b) b a
0, de otro modo
TEOREMA.
ab 1 2
E(X) y V(X)= b a
2 12
Ejemplo 4.4. Al estudiar las ofertas bajas de contratos de envío, una empresa fabricante
de microcomputadoras ve que los contratos interdepartamental tienen ofertas bajas que se
distribuyen uniformemente entre 20 y 25, en unidades de miles de dólares. Calcular la
probabilidad de que la oferta baja del siguiente contrato de envío interdepartamental sea
a) menor que $22,000.
b) mayor que $24000.
Calcular:
c) el costo promedio de las ofertas bajas en contratos de este tipo.
Solución:
22, 000 20, 000
a ) P( X 22, 000) F (22, 000) 0.4000.
25, 000 20, 000
24, 000 20, 000
b) P ( X 24, 000) 1 P ( X 24, 000) 1 0.2000.
25, 000 20, 000
148
20, 000 25, 000
c) E ( X ) $ 22, 500.
2
Si una vac X tiene una distribución en forma de campana, ésta se llama variable
aleatoria normal.
DISTRIBUCION NORMAL
Además,
E(X)=μ y V(X)=σ2
149
PROPIEDADES:
1. Moda x=μ.
2. Simetría con respecto a x=μ
3. Puntos de inflexión en: x=μ±σ; concavidad hacia abajo en μ-σ<X<μ+σ y concavidad
hacia arriba en caso contrario.
4. El eje horizontal es asíntota horizontal: y=0.
5. Area bajo la curva es 1.
Ninguna de las técnicas de integración se puede utilizar para evaluar la integral anterior, por
lo que su evaluación solamente puede obtenerse utilizando métodos numéricos dado que no
150
puede calcularse directamente al no existir la primitiva de f(x). En su lugar, para μ=0 y σ=1,
dicha integral se ha evaluado y tabulado numéricamente para determinados valores de a y
b. La tabla también se utiliza para calcular probabilidades con otros cualesquiera valores de
μ y σ.
Si μ=0 y σ=1, se tiene la distribución normal estándar (dne) y la variable de ésta
distribución se llama variable aleatoria normal estándar y se denota por Z.
Φ(z).
La que se denota por
Ejemplo 4.4.
a) P(Z≤1.35)=Φ(1.35)=0.9115.
z 0.00 0.01 0.02 0.03 0.04 0.05 …
151
0.0 .
. .
. .
. .
1.3 …………………………………………..0.9115……
.
.
.
El P33, está identificado por el renglón y columna de la tabla donde esta la entrada
p=0.3300, a la cual le corresponde z=-0.44, de donde P33=-0.44.
152
Si p no aparece, se utiliza el número más cercano al mismo, aunque la interpolación daría la
respuesta más precisa.
X
Z
es una variable aleatoria normal con E(Z)=0 y V(Z)=1. Es decir, Z es una variable aleatoria
normal estándar.
A la creación de una nueva variable aleatoria por medio de esta transformación se le llama
estandarización. La variable aleatoria Z representa la distancia de X de su media en
términos de desviaciones estándar. Es el paso clave para calcular una probabilidad con una
variable aleatoria normal arbitraria.
Solución:
153
a).
50 X 50 50
P(45 X 62) P( 4510 10
6210 )
50 62 50
P( 4510 Z 10
)
= P(-0.5<Z<1.2)
=Φ(1.2) – Φ(-0.5)
=0.8849 – 0.3085
=0.5764.
b).
P(X 20) P(Z 20 50
10
) P(Z 3.0) 1 (3.0) 1 0.0013 0.9987.
Ejemplo 4.7. Si una va tiene una distribución normal, ¿cuál es la probabilidad de que
adopte un valor dentro de 1 DE (1 desviación estándar) de la media?.
Solución:
P(|X-μ|≤1σ)=P(-σ≤X-μ≤σ)
=P(μ-σ≤X≤μ+σ)
P(
Z
)
=P(-1.00≤Z≤1.00)
=Φ(1.00)-Φ(-1.00)
154
=0.8413-0.1587
=0.6826.
REGLA EMPIRICA
Si una va es normal o aproximadamente normal entonces:
P(X≤x)=0.45=P(Z≤z)
155
TEOREMA.
Ejemplo 4.8. En un examen, la media fue de 84 con una desviación estándar de 10. Las
calificaciones se expresan hasta la parte entera. Si al 12% de la clase se le otorga una
calificación de E (excelente) y las calificaciones siguen una distribución normal, ¿cuál es la
calificación de E más baja posible y la calificación de MB (muy buena) más alta posible?.
Solución:
Se requiere P88. De la tabla P(Z<1.175)=0.88, de modo que z=1.175. Por lo tanto,
x=μ + σ·z
x=84+10.(1.175)
x=95.75
TEOREMA
156
Ejemplo 4.9. Suponga que el 50% de todas las familias en una colonia tienen CABLE.
Calcular la probabilidad de que a lo sumo 10 tenga CABLE entre 20.
Solución:
Sea X el número de familias en una muestra de 20 que tienen CABLE. Entonces X~Bin(20,
0.50), y la aproximación normal es X~N(10, 5).
Así,
P(X 10) (10 0.5) 10
2.24 (.22) .5871.
El valor exacto a través de la distribución binomial es
20
10
P( X 10) (0.5) x (0.5) 20 x
x 0 x
=0.5881.
x 0 1 2 3 4 5 6
p(x) 0 0 .0002 .0011 .0046 .0148 .0370
x 7 8 9 10 11 12 13
p(x) .0739 .1201 .1602 .1762 .1602 .1201 .0739
x 14 15 16 17 18 19 20
p(x) .0370 .0148 .0046 .0011 .0002 0 0
157
El objetivo principal de éstas es proporcionar una verificación diagnóstica sobre la
suposición de que los datos provienen de una distribución normal.
Una gráfica cuantilar normal es una herramienta que nos ayuda a determinar si
aparentemente se satisfacen los requisitos de una distribución normal.
PROCEDIMIENTO:
Si se tiene un conjunto pequeño de datos, identifique datos distantes. Rechace la
normalidad si hay más de un dato distante presente. (La presencia de un solo dato distante
podría ser un error o el resultado de la variación por el azar, pero tenga cuidado porque
incluso un solo dato distante llega a producir un efecto importante en los resultados).
b. Con una muestra de tamaño n, cada valor representa una proporción de 1/n de la
muestra. Utilizando el tamaño muestral n que se conoce, identifique las áreas de
1 ,
2n
etc. Estas son las áreas acumulativas a la izquierda de los valores
3 , 5 , 7 ,
2n 2n 2n
muestrales correspondientes.
d. Una los valores originales de los datos ordenados con sus puntuaciones z
correspondientes, que se calcularon en el paso c, después grafique los puntos (x,y),
donde cada x es un valor muestral original, en tanto y es la puntuación z
correspondiente.
e. Examine la gráfica cuantilar normal con los siguientes criterios: si los puntos no se
acercan a una línea recta o si exhiben algún patrón sistemático diferente al de una línea
recta, entonces parece que los datos provienen de una población que no tiene una
distribución normal. Si el patrón de puntos se acerca razonablemente a una línea recta,
entonces los datos pueden provenir de una población normal.
Ejemplo 4.10. Se extrae una muestra aleatoria de edades de tamaño 5: 62, 46, 68, 64, 57.
Construya una gráfica cuantilar normal para los datos y determine si parecen provenir de
una población que se distribuye normalmente.
Solución:
Los siguientes pasos corresponden a los listados en el procedimiento anterior para la
construcción de una gráfica cuantilar normal.
a. Primero hay que ordenar los datos: 46, 57, 62, 64, 68.
158
b. Con una muestra de tamaño n=5, cada valor representa una proporción de 1/5 de la
muestra, por lo que procedemos e identificar las áreas acumulativas a la izquierda de
los valores muestrales correspondientes. Estas áreas izquierdas acumulativas, que se
expresan en general como etc., se convierten en áreas específicas
1 , 3 , 5 , 7 ,
2n 2n 2n 2n
para el presente ejemplo, con n=5: 1/10, 3/10, 5/10, 7/10 y 9/10. Tales áreas izquierdas
acumulativas, que se expresan en forma decimal, son: 0.1, 0.3, 0.5, 0.7 y 0.9.
c. Ahora buscamos las áreas izquierdas acumulativas de 0.1000, 0.3000, 0,5000, 0.7000 y
0.9000. Encontramos estas puntuaciones z correspondientes: -1.28, -0.52, 0, 0.52 y
1.28.
d. Ahora unimos los datos ordenados con sus puntuaciones z correspondientes; obtenemos
las siguientes coordenadas (x, y), que están graficadas en la siguiente figura: (46, -1.28),
(57, -0.52), (62, 0), (64, 0.52) y (68, 1.28).
159
e. INTERPRETACION: examinamos la gráfica cuantilar normal de la figura. Como los
puntos parecen estar razonablemente cerca de una línea recta, concluimos que las
edades dadas parecen provenir de una población que se distribuye normalmente.
160
observados frente a los datos teóricos que se obtendrían de una distribución gaussiana. Si
la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a
una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor
variabilidad en los extremos.
Se acostumbra hacer la graficación de probabilidades en un papel gráfico especial,
conocido como papel de probabilidad normal, que se ha diseñado para la distribución
normal.
Una representación de un conjunto de datos en papel probabilística normal hace
corresponder a cada observación un punto en el plano. La abscisa del punto no es más que
el valor observado, mientras que la ordenada corresponde al porcentaje de valores en la
muestra que son menores o iguales que el considerado. En general se aplica una corrección
de continuidad, de forma que en una muestra de tamaño n a la observación i-ésima, una vez
ordenadas de menor a mayor, le corresponde como ordenada 100(j-0.5)/n.
La idea básica para la utilización del papel probabilístico normal es la siguiente: cuando los
datos procedentes de una distribución normal se representan en este papel, los puntos
correspondientes se sitúan aproximadamente a lo largo de una recta.
Como se aprecia los datos de distribuciones asimétricas positivas presentan claramente una
curvatura negativa cuando se representan en papel probabilístico normal. Además, las
distribuciones asimétricas negativas presentan una curvatura positiva en el papel de
161
probabilidad normal. La mezcla de dos poblaciones con diferentes medias se detecta por la
existencia de dos tramos de crecimiento rápido separados por uno de crecimiento lento. Por
último los valores anormalmente altos o bajos se representan por puntos que se separan de
la recta en la zona superior derecha e inferior izquierda respectivamente.
Ejemplo 4.11. Tomando el ejemplo precedente, se hipotetiza que los datos se modelan
adecuadamente con una distribución normal.
Solución:
Para usar la graficación de probabilidades para investigar esta hipótesis, primero se ordenan
las observaciones en orden ascendente y se calculan sus frecuencias acumuladas (j-0.5)/5
como sigue:
j x(j) (j-0.5)/5
1 46 0.1
2 57 0.3
3 62 0.5
4 64 0.7
5 68 0.9
Después se grafican en papel probabilidad normal los pares de valores x(j) y (j-0.5)/5. La
mayoría de los papeles probabilidad normal grafican 100(j-0.5)/n en la escala vertical
derecha y 100[1-(j-0.5)/n] en la escala vertical izquierda, mientras que en la escala
horizontal se grafica el valor de la variable.
162
Los puntos de la muestra se aproximan a una línea recta, por lo que es factible que
provengan de una población normal.
La media se estima como el 500 percentil de la muestra, ó , y la desviación
x 59.5
estándar se estima como la diferencia entre los percentiles 840 y 500 ó .
s 68 59.5 8.5
163
La construcción manual de estas gráficas es difícil con conjuntos grandes de datos. El
siguiente ejemplo ilustra el uso de un programa de cómputo de STATGRAPHICS.
164
4.8 Distribución exponencial
La distribución exponencial es una distribución continua que algunas veces se utiliza para
modelar el tiempo que transcurre antes de que ocurra un evento. A menudo, a aquél se le
llama tiempo de espera. En algunas ocasiones la distribución exponencial se utiliza para
modelar el tiempo de vida de un componente. Asimismo, hay una relación cercana entre la
distribución exponencial y la distribución de Poisson.
DEFINICION
x
F ( x ) P ( X x ) e t dt 1 e x
0
165
TEOREMA.
1 e x , x 0
F ( x) P ( X x)
0, x0
TEOREMA.
Si X~Exp(λ), entonces
1 1
X y X2
2
Solución:
a) Sabemos que E(X)=1/λ=5, de donde λ=0.2. Entonces
P ( X 10) 1 e (0.2)(10) 1 e2 0.8647
b)
P (5 X 10) (1 e 2 ) (1 e1 ) 0.2325
c) Sea x0.50 = P50 la mediana de X. Entonces
P(X≤ x0.50 )=0.5
1 e 0.2 x0.50 0.50
x0.50 =3.47 seg
La distribución exponencial y el proceso de Poisson
En el desarrollo de la distribución de Poisson, fijamos el tiempo en algún valor t, y
desarrollamos la distribución del número de ocurrencias en el intervalo [0, t]. Indicamos
esta variable como X, y la distribución como
e x
P( X x) , x 0, 1, 2, ...
x!
166
Consideremos ahora P(X=0), que es la probabilidad de ninguna ocurrencia en [0, t]. Esta
está dada por
P ( X 0) e t
Recuerde que en principio fijamos el tiempo en t. Otra interpretación de
P ( X 0) e t
es que ésta es la probabilidad de que el tiempo para la primera ocurrencia sea mayor que t.
Al considerar este tiempo como una variable aleatoria T, notamos que
P( X 0) P(T t ) e t , t 0
Por consiguiente, si dejamos ahora que el tiempo varíe y consideramos la variable aleatoria
T como el tiempo para la ocurrencia, entonces
F (t ) P(T t ) 1 e t , t 0
f (t ) e t , t 0
que nos da la función de masa de probabilidad del tiempo requerido hasta que se detecta la
primer ocurrencia, ésta es la función de densidad exponencial. En consecuencia, la
relación entre la distribución exponencial y de Poisson puede establecerse como sigue: si el
número de ocurrencias tiene una distribución Poisson, entonces el tiempo (longitud, área,
etc.) entre ocurrencias tiene una distribución exponencial. Por ejemplo, si el número de
pedidos para un cierto artículo recibidos a la semana tiene una distribución de Poisson, el
tiempo entre pedidos tendría una distribución exponencial. Una variable es discreta (el
conteo) y la otra (el tiempo) es continua.
Ejemplo 4.14. El tiempo entre llamadas telefónicas a una ferretería tiene una distribución
exponencial con tiempo promedio entre llamadas de 15 min.
a) ¿Cuál es la probabilidad de que no haya llamadas en un intervalo de 30 min?
b) ¿Cuál es la probabilidad de que haya al menos una llamada en un intervalo de 10 min?
c) ¿Cuál es la probabilidad de que el tiempo hasta la siguiente llamada esté entre 5 y 10
min?
d) Determine el intervalo de tiempo tal que la probabilidad de que no haya llamadas en el
intervalo sea 0.90.
Solución:
a) Sabemos que E(x)=1/λ=15, de donde λ=1/15. Entonces
P( X 0) P(T 30) e (1/15)(30) 0.1353
o por la función exponencial
167
P(T 30) 1 P(T 30) 1 1 e (1/15)(30) 0.1353
b)
P ( X 1) 1 P ( X 0) 1 e (1/15)(10) 0.4866
c)
P(5 T 10) P(T 10) P(T 5)
1 e(1/15)(10) 1 e(1/15)(5)
e (1/15)(5) e (1/15)(10)
0.2031
d)
P( X 0) P(T t ) 0.90
e (1/15)t 0.90
1
t Ln(0.90)
15
t=1.58 min ▄
DEFINICION
(r) t r 1e t dt
0
PROPIEDADES:
3. Γ(1/2)= .
La distribución gamma
DISTRIBUCION GAMMA
168
La variable aleatoria X cuya función de densidad de probabilidad es
r x r 1e x
f ( x) , si x 0
( r )
tiene una distribución gamma con parámetros r>0 y λ>0.
TEOREMA.
E(X) r / y V(X)=r/ 2
169
El modelo Gamma se ha utilizado frecuentemente en variables tales como: Problemas de
tráfico en líneas telefónicas; resistencia de componentes del concreto reforzado; altura de
la precipitación mensual; tiempo de falla de un sistema de r componentes, cada uno falla
con frecuencia λ; ingresos familiares, etc.
r t r 1et r 1 x
x
e ( x ) k
F ( x) dt 1 , x0
(r ) k 0 k!
0
Ejemplo 4.15. En cierta ciudad, el consumo diario de agua (en millones de litros) sigue
una distribución gamma con parámetros r=2; λ=1/3. Si el consumo total diario en esa
ciudad es de 9 millones de litros; ¿cuál es la probabilidad de que en un día cualquiera el
abastecimiento de agua sea insuficiente?
Solución:
e(1/3)(9) (1/ 3)(9)
1 k
F (9) P ( X 9) 1 1 0.1991 0.8009.
k 0 k!
Solución alterna:
=0.8009, por integración por partes.
1 2
9 1 x 9 1 x
0 dx 19 xe
3
P ( X 9) xe 3 3 dx
(2) 0
Ejemplo 4.16. Suponga que un ferry llevará pasajeros entre dos puertos junto con 10
autos. Además, suponga que por experiencia se sabe que los autos llegan al ferry como
sucesos de Poisson independientes, a un ritmo promedio de 7 autos por hora. Obtenga la
probabilidad de que el tiempo entre salidas consecutivas del ferry no sea mayor de una
hora.
Solución:
Tomamos una hora como unidad de tiempo, entonces r=10 autos; λ=7 autos por hora; así se
tendrá:
101 (7)(1) k 9 7 k
e 7 e 7
F (1) P(T 1) 1 1 1 0.8305 0.1695
k 0 k! k 0 k !
170
Distribución de Weibull
La distribución de Weibull constituye una distribución continua que se utiliza en varias
situaciones. Una aplicación común es modelar los tiempos de vida de componentes, como
cojinetes, cerámica, capacitares y dieléctricos. La función de probabilidad de Weibull tiene
dos parámetros, ambos constantes positivas, que determinan su localización y forma. Estos
se representan por α y β.
DEFINICION
TEOREMA.
TEOREMA.
171
Si X~Weibull(α, β), entonces
1
(1 1 )
2
1
2
(1 2 ) (1 1 )
2
Ejemplo 4.17. Se sugiere utilizar una distribución de Weibull para modelar la duración de
un proceso de horneado en la fabricación de un semiconductor. Sea T la duración en horas
del proceso de horneado de una muestra elegida aleatoriamente. Si T~Weibull(0.3, 0.1),
a) ¿cuál es la probabilidad de que el proceso de horneado dure más de cuatro horas?
b) ¿cuál es la probabilidad de que dure entre dos y siete horas?
Solución:
a)
0.3
P(T t ) 1 e (0.1t )
En consecuencia,
P (T 4) 1 P (T 4)
1 1 e [(0.1)(4)]
0.3
0.4678
b)
P(2 T 7) P(T 7) P(T 2)
0.1324
Area bajo la curva normal tipificada
172
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
z
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
173
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
174
acostumbra referirse a esta función como la distribución de probabilidad conjunta de X y
Y.
De aquí, en el caso discreto,
f(x,y)=P(X=x, Y=y)
es decir, los valores f(x,y) dan la probabilidad de que ocurran los resultados x y y al mismo
tiempo.
DEFINICION
La función de masa de probabilidad conjunta de las variables aleatorias discretas X y Y,
denotada por f(x,y) satisface
1. f(x,y)≥0
2.
f ( x, y ) 1
x y
3. f(x,y)=P(X=x, Y=y)
Solución:
Los posibles pares de valores (x, y) son: (0,0), (0,1), (0,2), (0,3), (0,4), (1,0), (1,1), (1,2),
(1,3), (2,0), (2,1), (2,2), (3,0), (3,1) y (4,0).
Ahora bien, f(2,1), por ejemplo, representa la probabilidad de que exactamente dos bits
aceptables y exactamente un bit dudoso se reciban entre los cuatro bits transferidos.
Entonces
175
4!
f (2,1) (0.9)(0.9)(0.08)(0.02) 0.015552 1.5552 x102.
2!1!1!
Así también
4!
f (1,1) (0.9)(0.08)(0.02)(0.02) 0.0003456 3.456 x10 4.
1!1!2!
Cálculos similares dan las probabilidades para los otros casos, que se representan en la
tabla.
y
f(x,y) Totales por
renglón
0 1 2 3 4
4!
f ( x, y ) p1x p2 y p34( x y ) ; x 0, 1, 2, 3, 4; y 0, 1, 2, 3, 4; 0 x y 4.
x ! y ! 4 ( x y ) !
DEFINICION
Si X y Y son variables aleatorias discretas con función de masa de probabilidad conjunta
f(x,y), entonces las funciones de masa de probabilidad marginal de X y Y son
f X ( x ) P ( X x ) f ( x, y )
y
fY ( y ) P(Y y) f ( x, y )
x
La función de masa de probabilidad de una sola de las variables se obtiene al sumar f(x,y)
sobre los valores de la otra variable. El resultado se llama función de masa de probabilidad
176
marginal porque cuando las f(x,y) aparecen en una tabla rectangular, las sumas son los
totales marginales (renglón o columna).
Solución:
a) P(X≥3)=f(3,0)+f(3,1)+f(4,0)=5.832x10-2+0.23328+0.6561=0.9477
b) P(X+Y≤1)=f(0,0)+f(0,1)+f(1,0)=1.6x10-7+2.56x10-6+2.88x10-5=0.000031
c)
x 0 1 2 3 4
fX(x) 0.0001 0.0036 0.0486 0.2916 0.6561
d) P(X≤2)=0.0001+0.0036+0.0486=0.0523
e) E(X)=Σx fX(x)=(0)(0.0001)+(1)(0.0036)+(2)(0.0486)+(3)(0.2916)+(4)(0.6561)=3.6
DEFINICION
( x X )2 f ( x, y) ( x X )2 f ( x, y)
x y R
Donde R denota el conjunto de todos los puntos en el rango de (X, Y).
DEFINICION
f(x,y)=fX(x).fY(y)
177
Ejercicio 5.4. Suponga que X y Y tienen la siguiente distribución de probabilidad
conjunta:
x y f(x,y)
1.5 2 1/8
1.5 3 1/4
2.5 4 1/2
3 5 1/8
Determine:
a) P(X<2.5, Y<3)
b) P(X<2.5)
c) P(Y<3)
d) P(X>1.8, Y>4.7)
e) La marginal de X y Y
f) E(X) y V(X)
g) Si X y Y son estadísticamente independientes
Solución:
a) P(X<2.5, Y<3)=f(1.5, 2)=1/8
b) P(X<2.5)=f(1.5, 3)+f(1.5, 2)=3/8
c) P(Y<3)=f(1.5, 2)=1/8
d) P(X>1.8, Y>4.7)=f(3, 5)=1/8
e) fX(x)=P(X=x)=
f ( x, y)
y
5
f X (1.5) P ( X 1.5) f (1.5, y )
y2
f (1.5, 2) f (1.5,3)
1/ 8 1/ 4 3 / 8
5
f X (2.5) P( X 2.5) f (2.5, y )
y 2
f (2.5, 4) 1/ 2
5
f X (3) P( X 3) f (3, y )
y 2
f (3,5) 1/ 8
Así, la marginal de X es
x 1.5 2.5 3
fX(x) 3/8 1/2 1/8
178
Además, la marginal de Y es
y 2 3 4 5
fY(y) 1/8 1/4 1/2 1/8
f)
E ( X ) xf ( x, y )
R
f(1.5, 2)≠fX(1.5).fY(2)
Es posible generalizar todas las definiciones anteriores para el caso de n variables aleatorias
▄
5.2 Combinaciones lineales de variables aleatorias
Una variable aleatoria se define en ocasiones como una función de varias variables
aleatorias. Por ejemplo, si las variables aleatorias X 1 y X2 denotan la longitud y el ancho,
respectivamente, de una pieza manufacturada, entonces Y=2X1+2X2 es una variable
aleatoria que representa el perímetro de la pieza.
DEFINICION
Dadas las variables aleatorias X1, X2,…,Xn y las constantes a1, a2,…,an, entonces
Y a1 X 1 a2 X 2 ... an X n
es una combinación lineal de X1, X2,…,Xn.
TEOREMA
Si X1, X2,...,Xn tienen valores medios μ1, μ2, ...,μn, y varianzas σ12, σ22,...,σn2,
respectivamente, entonces:
1. Si las Xi son o no independientes,
E ( a1 X 1 a2 X 2 ... an X n ) a1E ( X 1 ) a2 E ( X 2 ) ... an E ( X n ) a11 a2 2 ... an n
2. Si X1, X2,...,Xn son independientes,
V ( a1 X 1 a2 X 2 ... an X n ) a12V ( X 1 ) a22V ( X 2 ) ... an2V ( X n ) a12 12 a22 22 ... an2 n2
y
a1 X1 a2 X 2 ... an X n a12 12 a22 22 ... an2 n2
179
Ejemplo 5.5. Una gasolinera vende dos clases de gasolina: regular y especial a $ 2.67 y $
3.16 por galón respectivamente. Representemos por X 1 y X2 las cantidades de estas
gasolinas vendidas (en galones) en cada día en particular. Supongamos que las X i son
independientes con y El ingreso por las ventas es
1 300, 2 100, 1 20, 2 5.
Determinar E(Y) y V(X).
Y 2.67 X 1 3.16 X 2 .
Solución:
E (Y ) a1E ( X 1 ) a2 E ( X 2 ) (2.67)(300) (3.16)(100) $ 1117.00
V (Y ) a12V ( X 1 ) a22V ( X 2 ) (2.67) 2 (20) 2 (3.16) 2 (5) 2 3101.20 $ 2
TEOREMA
E( )=μ
X
Además, si X1, X2,...,Xn también son independientes con V(Xi)=σ2 para i=1,2,…,n,
entonces
V (X ) 2 / n
Ejercicio 5.6. Sea X1, X2 y X3 el número de caras que aparecen en el lanzamiento de tres
monedas respectivamente. Determine:
a) La distribución de probabilidad de X, y .
X X2
b) y
E( X ) V (X )
Solución:
a)
x 0 1
f(x) 1/2 1/2
X xf ( x) (0)(1/ 2) (1)(1/ 2) 0.5
X2 x 2 f ( x) X2 (0) 2 (1/ 2) (1) 2 (1/ 2) (0.5) 2 0.25
b)
X E ( X ) E ( X ) 1/ 2 0.5
1
1
X2 V ( X ) V ( X ) / n 4
0.083
3 12
180
TEOREMA. PROPIEDAD REPRODUCTIVA DE LA DISTRIBUCION NORMAL.
Si X1, X2,…,Xn son variables aleatorias normales e independientes con E(Xi)=μi y V(Xi)=
para i=1,2,…,n, entonces
i2 ,
Y a1 X 1 a2 X 2 ... an X n
es una variable aleatoria normal con
E (Y ) a11 a2 2 ,..., an n
y
V (Y ) a12 12 a22 22 ... an2 n2
Ejemplo 5.7. Suponga que las variables aleatorias X1 y X2 denotan la longitud y el ancho,
respectivamente, de una pieza rcctangular manufacturada. Suponga que E(X1)=2 cm con
desviación estándar de 0.1 cm y que E(X 2)=5 cm con desviación estándar de 0.2 cm.
Asimismo, suponga que X1 y X2 son independientes normalmente distribuidas. Entonces,
Y=2X1+2X2 es una variable aleatoria normal que representa el perímetro de la pieza.
Determinar:
a) E(Y), V(Y) y σY
b) La probabilidad de que el perímetro exceda 14.5 cm.
Solución:
a) E(Y)=2(2)+2(5)=14 cm,
V(Y)=22(0.1)2+22(0.2)2=0.04+0.16=0.20 cm2 y
σY=(0.20)1/2=0.447 cm
b)
14.5 Y
P(Y 14.5) P Z
Y
14.
14.5 14
PZ P Z 1.12 0.13
0.447
Ejemplo 5.8. Se llenan latas de refresco con una máquina de llenado automático. El
volumen de llenado promedio es 12.1 onzas líquidas, y la desviación estándar es 0.05 onzas
líquidas. Suponga que el volumen de llenado de las latas es una variable aleatoria normal e
independiente. ¿Cuál es la probabilidad de que el volumen promedio de 10 latas
seleccionadas de este proceso sea menor que 12 onzas líquidas?
Solución:
181
Sea X1, X2,...,X10 que denoten los volúmenes de llenado de las 10 latas. El volumen de
llenado promedio (denotado como ) es una variable aleatoria normal con E( )=12.1 y
X X
. Por consiguiente,
(0.05)2
V (X ) 0.00025 cm 2
10
12 12.1
P( X 12) P (Z )
0.00025
P( Z 6.32) 0
Como puede verse esto es inusual que el promedio de 10 latas sea menor que 12 onzas
líquidas. ▄
DEFINICION
Las variables aleatorias X1, X2,…,Xn son una muestra aleatoria de tamaño n si:
Interpretaciones:
Las condiciones a) y b) nos dicen que las Xi son independientes y tienen distribuciones
idénticas.
Si el muestreo es con reemplazo o de una población infinita (conceptual), las
condiciones a) y b) se satisfacen exactamente.
Si el muestreo es sin reemplazo las condiciones se satisfacen aproximadamente, pero
con n « N. En la práctica, si n≤0.05N.
182
Por ejemplo, suponga que se está investigando la vida de servicio efectivo de un
componente electrónico y que la vida del componente está distribuida normalmente. Se
esperaría entonces que cada una de las observaciones de la vida del componente X 1, X2,
…,Xn, en una muestra aleatoria de n componentes, sea una variable aleatoria independiente
con exactamente la misma distribución normal. Después de recabar los datos, los valores
numéricos de la vida útil observada se denotan como x1, x2,..,xn.
El objetivo principal al tomar una muestra aleatoria es obtener información acerca de los
parámetros desconocidos de la población.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
Hoy en día, las computadoras pueden generar miles de números aleatorios en una fracción
de segundo, y virtualmente cada software estadístico contiene rutinas que generan muestras
aleatorias a partir de una amplia variedad de distribuciones.
183
Ejercicio 5.9. Un investigador quiere estudiar el nivel de lectura comprensiva de los
estudiantes de nuevo ingreso de una universidad. Hay 8675 estudiantes inscritos y desea
tomar una muestra de 100 para hacer una prueba de lectura comprensiva. Obtiene una lista
de todos los estudiantes, numerada del 1 al 8675. Usa un generador de números aleatorios
de la computadora que genera 100 enteros aleatorios entre el total de números y después
invita a los 100 estudiantes, a quienes corresponden dichos números, a que participen en el
estudio. ¿Esta es una muestra aleatoria?
Solución:
Sí, ésta es una muestra aleatoria. Observe que es similar a una urna en la que cada
estudiante tiene una papeleta y se sacan 100 de éstas.
Solución:
No. No todo subconjunto de 50 tiene la misma probabilidad de pertenecer a la muestra.
Para formar una muestra aleatoria, el ingeniero necesitaría asignar un número a cada
producto durante el día y después generar números aleatorios para determinar con qué
productos se forma la muestra.
Algunas personas piensan que una muestra aleatoria es garantía de que refleja
perfectamente a su población. Esto no es cierto. Las muestras aleatorias siempre son
diferentes de sus poblaciones en algunos aspectos y en ocasiones podrían ser
considerablemente diferentes. Dos muestras diferentes de la misma población también
serán diferentes entre sí. Este fenómeno se conoce como variación del muestreo.
Ejercicio 5.11. Un inspector de calidad prueba 40 pernos de una gran remesa y mide la
longitud de cada uno. Descubre que 34 de ellos (85%) cubre la especificación de longitud.
Llega entonces a la conclusión de que exactamente 85% de los pernos de la remesa
satisfacen la especificación. Por otra parte, el supervisor del inspector concluye que la
proporción de pernos buenos está cerca de 85% con cierta probabilidad, pero que no es
exactamente igual. ¿Cuál es la conclusión correcta?
Solución:
Debido a la variación del muestreo, las muestras aleatorias no reflejan a la población
perfectamente. Sin embargo, con frecuencia están bastante cerca. Por tanto, resulta
adecuado inferir que la proporción de pernos buenos en la remesa esté cerca de la
proporción de muestra, que es de 85%, con cierta probabilidad. Sin embargo, no es
probable que la proporción de población sea igual a 85%.
En los ejemplos 5.9 y 5.11, las poblaciones constaban de elementos físicos reales:
estudiantes de una universidad y pernos de una remesa. Estas poblaciones se denominan
poblaciones tangibles, poblaciones que siempre son finitas. En ingeniería es frecuente que
los datos sean producto de mediciones realizadas durante un experimento, más que por
muestreo de una población tangible. Por ejemplo, imagine un ingeniero mide la longitud de
una varilla cinco veces, haciendo las mediciones en condiciones idénticas, las mediciones
184
difieren una de otra. Estos datos se consideran como una muestra aleatoria de una
población. En estos casos, la población consta de todos los valores que posiblemente
puedan haber sido observados. Esta población se denomina población conceptual.
Por ejemplo, se quiere llegar a una conclusión acerca del promedio de la población de El
Salvador que prefiere una marca de bebida carbonatada particular. Sea que μ denote el valor
desconocido de este promedio. No es práctico preguntarle a cada individuo de la población
para determinar el valor real de μ. Para hacer una inferencia respecto del promedio real μ,
un procedimiento más razonable sería seleccionar una muestra aleatoria (de un tamaño
apropiado) y usar el promedio observado de las personas de esta muestra que prefieren
x
la marca de bebida.
El promedio es una función de los valores observados de una población, el valor de
X x
variará de una muestra a otra. Es decir, es una variable aleatoria. A esta variable aleatoria
X
se le llama estadístico.
Nos hemos encontrado ya con estadísticos. Por ejemplo, si X1, X2,…,Xn es una muestra
aleatoria de tamaño n, entonces la media muestral , la varianza muestral S2, y la
X
desviación estándar S son estadísticos.
Puesto que un estadístico es una variable aleatoria, tiene una distribución de muestreo.
185
que la media muestral =( X1+ X2+…+Xn)/n tiene una distribución normal con media
X
muestral
E( )=
X ...
n
y varianza
2 2 ... 2
V (X ) 2
2 /n
n
Sea X1, X2,…,Xn una muestra aleatoria de tamaño n de una población (sea finita o infinita)
es suficientemente grande
2
X ~N ,
n
aproximadamente.
186
Aun cuando el teorema del límite central funcionará bien para muestras pequeñas (n=4,
5) en la mayoría de los casos, en particular cuando la población es continua, unimodal y
simétrica.
El teorema del límite central establece que se distribuye aproximadamente normal, si
X
el tamaño de la muestra n es suficientemente grande. La cuestión natural por preguntar es:
¿Qué tan grande es suficientemente grande? La respuesta depende de la forma de la
población principal. No obstante, si la población está demasiado sesgada, puede ser
necesaria una n muy grande. La evidencia empírica sugiere que para la mayoría de las
poblaciones, un tamaño de muestra de 30 o más (n≥30) es lo suficientemente grande para
que la aproximación normal sea adecuada. Si n<30, el teorema del límite central funcionará
si la distribución de la población no se aparte significativamente de la distribución normal.
187
Ejemplo 5.12. Cuando se prepara un lote de cierto producto químico, la cantidad de una
impureza en particular es una variable aleatoria con valor medio de 4.0 g y desviación
estándar de 1.5 g. Si se preparan 50 lotes de manera independiente, ¿cuál es la probabilidad
de que la cantidad promedio en la muestra de impureza esté entre 3.5 g y 3.8 g?
X
Solución:
Por el teorema del límite central se tiene que aproximadamente. Por lo
(1.5) 2
X ~N 4.0,
50
tanto,
3.5 4.0 3.8 4.0
P(3.5 X 3.8) P Z
0.2121 0.2121
▄
(0.94) (2.36) 0.1645
Distribución de
X1 - X 2
1. Considérese ahora dos poblaciones independientes, en el que la primera población
tiene media y varianza y la segunda población tiene media y varianza
1 2
1 2 22 .
Suponga que ambas poblaciones tienen una distribución normal. Se sabe que las
combinaciones lineales de variables aleatorias normales independientes siguen una
distribución normal, entonces la distribución de muestreo de es normal con
X1 X 2
media
y varianza
X X X 1 2 12 22
1 X 2 1 2
X2 X X2 X2
1 2 1 2 n1 n2
2. Si las dos poblaciones no tienen una distribución normal, pero con tamaños de
muestras y son mayores o iguales a 30, puede aplicarse el teorema del límite
n1 n2
188
central y suponer que y siguen aproximadamente una distribución normal
X1 X2
independiente.
(X B X A ) (B A )
Z
2B 2A
.
nB nA
.
2 2 2B 2A (200)2 (300) 2
X X X n 41.23 Lb
B X A B A nB A 50 100
Así,
P(X B X A 600) P(Z 600 500 ) 1 (2.43) 1 0.9925 0.0075.
41.23
189
PARTE III: INFERENCIA ESTADISTICA
Intoducción
DEFINICION
190
seleccionar un estadístico apropiado y calcular su valor a partir de los datos de la muestra
dada. El estadístico seleccionado se llama estimador puntual de θ.
̂
Ejemplo 6.2. Suponga que la variable aleatoria X tiene una distribución normal con una
media desconocida . La media muestral es un estimador puntual de la media poblacional
desconocida . Es decir, Después de seleccionar la muestra, el valor numérico
ˆ X . x
25 30 29 31
x 28.8
4
Puede haber varias opciones diferentes para el estimador puntual de un parámetro. Por
ejemplo, si se quiere estimar la media de una población, podrían considerarse como
estimadores puntuales la media muestral, la mediana muestral o quizá el promedio de las
observaciones menor y mayor de la muestra. Para decidir cuál de los estimadores puntuales
de un parámetro particular es el más adecuado, es necesario examinar sus propiedades
estadísticas y desarrollar algunos criterios para comparar estimadores.
=θ + error de estimación,
ˆ
191
entonces, el estimador preciso será uno que produzca solo pequeñas diferencias ( θ) de
ˆ
estimación. Esto ocurre así cuando posee dos propiedades:
ˆ
DEFINICION
TEOREMA
Demostración:
X 1 1
E ( Pˆ ) E E ( X ) np p
n n n
La distribución del estimador está centrada en el valor verdadero p.
P̂
Ejemplo 6.3. Suponga que X es una variable aleatoria con media y varianza . Sea
2
X1, X2,…,Xn una muestra aleatoria de tamaño n de una población representada por X.
192
a) Media muestral y la
X
b) Varianza muestral
S2
son estimadores insesgados de y respectivamente.
2
Demostración:
a) Anteriormente se estableció que . Por lo tanto, la media muestral es un
E( X ) X
estimador insesgado de la media poblacional .
b) Considérese ahora la varianza muestral. Se tiene que
n 2
( Xi X )
i 1 1 n 2
2
E (S ) E
n 1
n 1 E ( X i X )
i 1
1 n 1 n 2
E ( X i X 2 XX i )
2 2
E X i nX 2
n 1 i 1
n 1 i 1
1 n 2
E ( X i ) nE ( X )
2
n 1 i 1
Ahora, de donde se tiene
2 2 2 2 2 2
E( X ) , E ( X ) / n,
1 n
E(S 2 ) ( ) n( / n)
2 2 2 2
n 1 i 1
1
(n 2 n 2 n 2 2 )
n 1
E (S 2 ) 2
193
Para una población normal, , por lo tanto hay dos opciones para estimar μ.
~
PARAMETRO ESTIMADOR
θ PUNTUAL
̂
X
2 S2
X
p n
1 2 X1 X 2
p1 p2 X1 X 2
n1 n2
TEOREMA
1) Si X1, X2,…,Xn es una muestra aleatoria de una distribución con media , entonces
es un estimador insesgado de .
X
194
PRINCIPIO DE ESTIMACIÓN INSESGADA CON VARIANZA MINIMA
Entre todos los estimadores de θ que son insesgados, seleccione el que tenga varianza
mínima. El resultante recibe el nombre de estimador insesgado con varianza
̂
mínima (EIVM) de θ.
TEOREMA
Sea X1, X2,…,Xn una muestra aleatoria de una distribución normal con parámetro μ y σ.
Entonces el estimador es el EIVM para μ.
ˆ X
ERROR ESTANDAR
Además de reportar el valor de una estimación puntual, también debe indicarse su
precisión. La medida de precisión usual es el error estándar del estimador empleado.
DEFINICION
El error estándar de un estimador es su desviación estándar Si en el
̂ ˆ ˆ ).
V (
error estándar intervienen parámetros desconocidos, cuyos valores se pueden estimar, la
sustitución de estas estimaciones en produce el error estándar estimado
ˆ
(desviación estándar estimada) del estimador. El error estándar estimado se puede
representar ya sea por o por
ˆ ˆ Sˆ .
195
24.46 25.61 26.25 26.42 26.66 27.15 27.31 27.54 27.74 27.94
27.98 28.04 28.28 28.49 28.50 28.87 29.11 29.13 29.50 30.88
Si se supone que la distribución es normal, es el mejor estimador de μ. Si se sabe
ˆ X
que σ=1.50, =1.50/√20=0.335. Si se desconoce σ, se sustituye =1.462 en
X / n ˆ s
para obtener el error estándar estimado s/√n=1.462/√20=0.327.
X ˆ X s X
Ejemplo 6.6. El error estándar de es
X
Pˆ
n
V (X ) npq pq
Pˆ V ( X / n)
n2 n2 n
1
X ~Exp ( ) X
X ~Poisson( ) X
196
1
X ~Geo( p ) p
X
X2
X ~ ( r , ) r
1
n X2 X2
X
1
n X2 X2
Ejemplo 6.7. Se piensa que los defectos de un tablero metálico usado en la manufactura de
automóviles sigue una distribución de Poisson. Se cuentan los defectos en 10 tableros con
los siguientes resultados: x1=2, x2=7, x3=15, x4=8, x5=7, x6=6, x7=3, x8=7, x9=3, x10=4.
Encuentre una estimación puntual del parámetro de Poisson λ.
Solución:
defectos
62
ˆ x 6.2
x
n 10
Ejemplo 6.8. Una solución ácida preparada al mezclar un compuesto en polvo con agua se
usa para grabar el aluminio. El pH de la solución, X, cambia como resultado de variaciones
leves en el volumen de agua utilizado, la potencia del compuesto en polvo y el pH del agua
misma. Suponga que X tiene una distribución gamma, con y desconocidos. A partir de
r
los datos siguientes, estime y .
r
Solución:
197
▄
Intervalos de confianza
Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma
l<θ<u, donde l y u dependen del valor numérico del estadístico muestral Puesto que
ˆ
.
muestras diferentes producen valores diferentes de los puntos finales l y u son valores
ˆ,
de una variable aleatoria, L y U, respectivamente. A partir de la distribución de muestreo de
la media del estadístico pueden determinarse los valores L y U tal que lo siguiente es
verdadero
P( L U ) 1 , 0 1
198
grado de confianza de 1-α=0.95 de donde α=0.05 y α/2=0.025 con lo que
z / 2 z0.025
1.96.
X
P( z0.025 z0.025 ) 0.95
/ n
o, lo que es equivalente,
x 1.96 / n x 1.96 / n
Es decir, afirmamos que “con 95 por ciento de confianza” la verdadera media está a no
más de de .
1.96 / n x
Ejemplo 6.10. Un intervalo de confianza de 90% para la media del diámetro (cm) de
varillas de acero fabricadas en cierta máquina de extrusión se calcula de (14.73; 14.91). Se
afirma: La probabilidad de que la media del diámetro de las varillas fabricadas por este
proceso esté entre 14.73 y 14.91 es de 90 por ciento. ¿Verdadero o falso?
Solución:
DEFINICION
199
Un intervalo de confianza de 95% para la µ media de una población normal, cuando el
valor de σ2 se conoce, está dado por
x 1.96 / n x 1.96 / n
P(-zα/2<Z<zα/2)=1-α
DEFINICION
x z / 2 / n x z / 2 / n
Ejercicio 6.11. Se sabe que la vida en horas de una bombilla de 75 watts tiene una
distribución aproximadamente normal, con desviación estándar horas. Una muestra
5
aleatoria de 20 bombillas tiene una vida media de horas. Construya un intervalo
x 1014
de confianza de 95% para la vida media.
Solución:
La estimación puntual de μ es El valor de z, que deja un área de 0.025 a la
x 1014.
derecha y por tanto un área de 0.975 a la izquierda, es De aquí que el
z0.025 1.96.
intervalo de confianza de 95% es
5 5
1014 (1.96) 1014 (1.96) .
20 20
que se reduce a 1011.8<μ<1016.2.
Este es el intervalo de confianza de valores razonables para la vida media de una bombilla
con una confianza de 95%.
200
NIVEL DE CONFIANZA, PRECISIÓN Y SELECCIÓN DEL TAMAÑO DE LA
MUESTRA
Cuanto más alto sea el grado de confianza o coeficiente de confianza 1-, el intervalo
resultante es más largo. Si consideramos que la longitud del intervalo especifica su
precisión, entonces el nivel de confianza del intervalo está inversamente relacionado con
su precisión. Una estimación del intervalo altamente confiable puede ser imprecisa porque
los puntos extremos del intervalo estén muy separados, mientras que un intervalo preciso
puede ocasionar relativamente poca confiabilidad. Por lo tanto, la ganancia, en
confiabilidad ocasiona una pérdida de precisión. Un buen intervalo de confianza debe tener
las siguientes dos características:
Ejemplo 6.12. Si en el ejemplo 6.9, σ=25, ¿qué tamaño muestral es necesario para
garantizar que el IC de 95% resultante tenga una longitud w a lo sumo de 10? El tamaño
muestral n debe satisfacer
w10
2z /2 (/n ) 10
n96.04
La fórmula general para el tamaño muestral n necesario para asegurar una longitud w del
intervalo se obtiene de como
w 2 z / 2
n
2
n 2 z / 2
w
Cuanto más pequeña sea la longitud w deseada, mayor debe ser n. Además, n es una
función creciente de σ y del nivel de confianza 100(1-α)%.
201
2
n z / 2
B
como un intervalo de confianza con muestras grandes para μ con un nivel de confianza de
aproximadamente 100(1-α)%.
Ejemplo 6.13. Se encuentra que la concentración promedio de zinc que se saca del agua a
partir de una muestra de mediciones de zinc en 36 sitios diferentes es 2.6 gramos por
milímetro. Encuentre los intervalos de confianza de 95% y 99% para la concentración
media de zinc en el río. Suponga que la desviación estándar de la población es 0.3.
Solución:
La estimación puntual de μ es El valor de z, que deja un área de 0.025 a la derecha
x 2.6.
y por tanto un área de 0.975 a la izquierda, es De aquí que el intervalo de
z0.025 1.96.
confianza de 95% es
202
0.3 0.3
2.6 (1.96) 2.6 (1.96) .
36 36
que se reduce a 2.50<μ<2.70.
Para encontrar un intervalo de confianza de 99%, encontramos el valor z que deja un área
de 0.005 a la derecha y de 0.995 a la izquierda. Por tanto, y el intervalo de
z0.005 2.575,
confianza de 99% es
0.3 0.3
2.6 (2.575) 2.6 (2.575) ,
36 36
o simplemente
2.47<μ<2.73.
Vemos ahora que se requiere un intervalo más grande para estimar μ con un grado más alto
de precisión.
u x z / n
x z / n l
μ>11.091, y
o
6.83
x z / n 12.68 2.33* 14.931,
50
μ<14.931.
203
Ejemplo 6.15. En una muestra aleatoria de 100 baterías producidas por cierto método, el
promedio del tiempo de vida fue de 150 horas y la DE de 25 horas.
a) Determine un IC de 95% para la media del tiempo de vida de las baterías producidas por
éste método.
b) Un ingeniero afirma que la media del tiempo de vida está entre 147 y 153 horas. ¿Con
qué nivel de confianza se puede hacer esta afirmación?
Solución:
a) o
x z / 2 / n 150 1.96 (25 / 100) 150 4.9,
(145.1; 154.9).
b)
x z / 2 / n 150 z / 2 25 / 100 147
de donde,
(150 147)
z / 2 (10) 1.20
25
204
desigualdad por = y despejar p de la ecuación cuadrática resultante. Así se obtienen las dos
raíces
z2 / 2 ˆ ˆ z2 / 2
pq
pˆ z / 2
2n n 4n 2
p
1 ( z2 / 2 ) / n
(*)
z2 / 2 ˆˆ
pq z2 / 2
pˆ z / 2 2
2n n 4n
2
1 ( z / 2 ) / n
La probabilidad de cobertura del parámetro p por este intervalo está mucho más cercana al
nivel de confianza nominal que el intervalo de Wald (Agresti & Coull 1998) que sigue, aun
sin considerar el tamaño de la muestra ni las frecuencias o proporciones observadas
(Newcombe & Merino 2006). Agresti & Coull (1998) muestran que este intervalo de
confianza puede ser recomendado para el uso con casi todos los tamaños de muestra y
valores de parámetros.
Intervalo de Wald
pˆ z / 2 pq
ˆˆ/n
205
difusión, muchos estudios han demostrado que este intervalo tiene un mal desempeño
(Agresti & Coull 1998, Brown et al. 2002, Newcombe & Merino 2006). Newcombe &
Merino (2006) muestran que si se sustituye por cero, se obtiene un error estándar igual a
p̂
cero y el intervalo se degenera, ya que los límites inferior y superior son cero. De igual
forma, cuando es uno, los límites superior e inferior son 1. Aún más, cuando n-x es
p̂
pequeño, el límite superior puede exceder de 1, en cuyo caso los intervalos obtenidos no
tienen sentido. Correa & Sierra (2003), entre otros, señalan que los intervalos de Wald
tienen una probabilidad de cobertura muy por debajo del nivel de confianza nominal, en
especial cuando el tamaño de muestra es pequeño.
Este intervalo tiene la forma de un intervalo de confianza con muestra grande. Durante
decadas se ha recomendado este intervalo, mientras se justifique la aproximación normal
para .
P̂
Ejemplo 6.16. En una muestra aleatoria de 85 rodamientos para el cigüeñal del motor de
un automóvil, 10 tienen un acabado de la superficie con más asperezas de las que permiten
las especificaciones. Por lo tanto, una estimación puntual de la proporción de rodamientos
de la población que excede la especificación de aspereza es
pˆ x n 10 / 85 0.12.
Calcular un IC de dos colas de 95%.
Solución:
(0.12)(0.88)
z / 2 pˆ (1 pˆ ) / n 1.96 0.0691
85
(a)
2
z
n / 2 p (1 p)
E
Para usar esta ecuación se necesita estimar p. Si se cuenta con una estimación de una
p̂
muestra anterior, ésta puede sustituir a p en la ecuación, o tal vez pueda hacerse una
206
estimación subjetiva. Si estas alternativas no son satisfactorias, puede tomarse una muestra
preliminar, calcular y después usar la ecuación para determinar cuántas observaciones
p̂
adicionales se requieren para estimar p con la precisión deseada. Otro enfoque para elegir n
utiliza el hecho de que el tamaño de la muestra de la ecuación siempre será un máximo para
p=0.5, lo cual puede usarse para encontrar una cota superior de n. En otras palabras, se
tiene una confianza de al menos 100(1-α) por ciento de que el error al estimar p utilizando
es menor que E si el tamaño de la muestra es
p̂
(b)
2
z
n 0.25 / 2
E
Ejemplo 6.17. Considérese la situación del ejemplo 6.16. ¿Qué tamaño de la muestra se
necesita si se quiere tener una confianza de 95% de que el error al usar para estimar p es
p̂
menor que 0.05? Al utilizar como estimación inicial de p, por la ecuación (a) se
pˆ 0.12
encuentra que el tamaño de la muestra requerido es
2 2
z¨0.025 1.96
n pˆ (1 pˆ ) (0.12)(0.88) 163
E 0.05
2 2
z 1.96
n 0.025 (0.25) (0.25) 385
E 0.05
Si el límite inferior es menor que 0, se reemplaza éste con 0. Si el superior es mayor que
1, se reemplaza éste con 1.
207
Agresti & Coull (1998) recomendaron la implementación de este intervalo ajustado de
Wald en los cursos elementales de estadística debido a su sencillez ya que se comporta
mejor que el intervalo de Wald para los niveles usuales de confianza.
SUGERENCIA
Para tamaños muestrales muy grandes, los resultados del intervalo clásico de Wald son casi
idénticos a los obtenidos con el método de Wald Ajustado. Para tamaños muestrales
pequeños o medianamente grandes, el punto de vista del intervalo de Wald Ajustado,
llamado también de Agresti-Coull, es mejor.
Ejemplo 6.18. En cierto día se fabrica un gran número de fusibles cada uno tasado a 15 A.
Al extraer una muestra de 75 de la producción del día, se encontró que 17 de ellos tenían
amperajes de quemado mayores que 15 A.
a) Determine un IC de 95% para la proporción de fusibles fabricados ese día, cuyo
amperaje de quemado es mayor que 15 A.
b) Determine un IC de 98% para la proporción de fusibles fabricados ese día, cuyo
amperaje de quemado es mayor que 15 A.
Solución:
(0.2405)(0.7595)
(1 p%
z / 2 p% ) / n% 1.96 0.0942
79
El intervalo de confianza de 95% es, por lo tanto, 0.2405±0.0942, ó (0.1463; 0.3347).
b) Aquí tenemos,
(0.2405)(0.7595)
2.33 0.1120
79
Ejemplo 6.19. Del ejemplo precedente, determine el tamaño muestral necesario para que
un intervalo de confianza de 95% especifique la proporción dentro de ±0.05.
208
Solución:
El IC más ancho posible, para una muestra de tamaño n, es
(0.2405)(0.7595)
1.96
n4
Al despejar n de
(0.2405)(0.7595)
1.96 0.05
n4
se obtiene,
(0.2405)(0.7595)
(1.96)2 (0.05) 2
n4
0.7017
0.0025
n4
de donde, n≈277.
(0.5)(1 0.5)
1.96 0.05
n4
(0.5)(0.5)
(1.96) 2 (0.05) 2
n4
0.9604
0.0025
n4
de donde, n≈381.
209
Un nivel de 100(1-α)% de un límite inferior de confianza para p es
, y
p% z p%(1 p%) / n%
Solución:
o
(0.2405)(0.7595)
p% z (1 p%
p% ) / n% 0.2405 2.05 0.2405 0.0986 0.3391
79
p<0.3391 ▄
TEOREMA
210
X
T
S/ n
tiene una distribución de probabilidad llamada distribución t con n-1 grados de libertad
(gl).
Sea X1, X2,…,Xn una muestra aleatoria pequeña (n<30) de una población normal con
media μ. Entonces un intervalo de confianza de nivel 100(1-α)% para μ es
s
x tn1, / 2
n
211
Solución:
Aquí, y , entonces
x 5.90; s 0.57; t5, 0.025 2.571
0.57
t s 2.571 0.60
n 1, / 2 6
n
¿Es adecuado utilizar el estadístico t de Student para construir un IC de 95% para la media
de la fuerza comprensiva cilíndrica?
Solución:
Gráfico de papel probabilidad:
212
Se rechaza la normalidad, ya que hay un punto distante en el gráfico. Por lo tanto, lo datos
parecen no provenir de una distribución normal.
Diagrama de caja:
En el resumen de cinco puntos obtenemos: Mín=38.31; Máx=38.83; Q1=38.35; Q2=38.43;
Q3=38.48 y la gráfica es la siguiente:
Diagrama de puntos:
Ejemplo 6.24. Los siguientes son un resumen estadístico para un conjunto de datos. ¿Sería
adecuado utilizar la distribución t de Student para construir un IC de estos datos? Explique.
Solución:
213
Media 25,8
Mediana 25
Moda 24
Desviación estándar 3,7
Rango 16
Mínimo 19
Máximo 35
Cuenta 38
Cuartil uno 23
Cuartil dos 25
Cuartil tres 27
s
x tn1,
n
s
x tn1,
n
Ejemplo 6.25. Se presentan mediciones de la fuerza nominal de corte (en kN) para una
muestra de 15 vigas de concreto. Los resultados son
58 40 42 82 85 87 92 55
0 0 8 5 0 5 0 0
57 75 63 36 59 73 95
5 0 6 0 0 5 0
Se puede verificar que la población es aproximadamente normal con σ=180.0 kN.
Encuentre un LIC (límite inferior de confianza) de 99% para la media de la fuerza de corte.
Solución:
214
Aquí, y , entonces
x 668.3; s 192.1; t14, 0.01 2.624
192.1
t s 2.624 130.2
n 1, 15
n
Utilice z, no t, si se conoce σ
En ocaciones se puede tomar una pequeña muestra de una población normal cuya
desviación estándar σ se conoce. En estos casos, no se utiliza la curva t de Student, porque
no se está aproximando a σ con s. En su lugar se utiliza la tabla z.
La regla práctica estándar para caracterizar tamaños muestrales grandes es otra vez >40 y
n1
>40.
n2
215
Ejemplo 6.27. Se están comparando los puntos de fusión de dos aleaciones. Se fusionaron
45 especímenes de la aleación 1. La temperatura promedio de fusión fue de 517.0 o F y la
DE fue de 2.4oF. Se fusionaron 47 especímenes de la aleación 2. La temperatura promedio
fue de 510.1oF y la DE fue de 2.1oF. Determine un IC de 99% para la diferencia entre los
puntos de fusión.
Solución:
Aquí, y y y
n1 45, x1 517.0o F s1 2.4o F ; n2 47, x2 510.1o F s2 2.1o F .
Además, Entonces,
z0.005 2.575.
12 22 2.42 2.12
z /2 2.575 1.21
n1 n2 45 47
x1 x2 t / 2 . s p 1
n1
n1 1 2 x1 x2 t / 2 . s p
2
1
n1
n1
2
x 2 ¿−t α /2 . s p
√ 1 1
+ < μ −μ
n1 n2 1 2
x 1−¿
¿
x 2 ¿+t α /2 . s p
√ 1 1
+
n 1 n2
n1 n2 2
libertad para la variable t son ν=n1+n2 - 2.
216
μ1−μ2 con σ 21 ≠ σ 22 y desconocidas
Intervalo de confianza para
Si x 1 y s 21 , y x 2 y s 22 son las medias y varianzas de muestras pequeñas
independientes de tamaño n1 y n2, respectivamente, de poblaciones normales con
varianzas desconocidas y diferentes, un intervalo de confianza de 100(1- α)% para
μ1−μ2 está dado por
s12 s2 s12 s2
x1 x2 t / 2 n1
n2 1 2 x1 x2 t / 2
2 n1
n1
2
2 donde t α /2 es el valor t con
2
s12 s22
n1 n2
2 2
s12 / n1 s22 / n2
n1 1 n2 1
grados de libertad.
sd s
sd s d́−t α /2 < μ D < d́ +t α /2 d
d t / 2 D d t / 2 d √n √n
n n
Si y Se define
217
1 (1 p
p% %1) p%(1 p%
2)
1 p
( p% % 2 ) z / 2 2
n%
1 n%2
Si el límite inferior del IC es menor que -1, sustituya éste con -1. Si el límite superior del
IC es mayor que 1, sustituya éste con 1.
Solución:
Sea X1 la va del número de conexiones bajo condiciones húmedas y X 2 la va del número de
conexiones bajo condiciones secas.
Aquí,
y
n%
1 n1 2 100 2 102, %
p 1 ( x1 1) / n%
1 (20 1) /102 0.2059;
y además
n%
2 n2 2 150 2 152, %
p 2 ( x 2 1) / %
n2 (10 1) /152 .0724; z0.05 1.645.
Entonces,
1 (1 p
p% %1) p%(1 p%
2) (.2059)(.7941) (.0724)(.9276)
z / 2 2 1.645 0.0744
n%
1 n%2 102 152
Para tamaños muestrales pequeños, el intervalo de confianza tradicional falla para lograr
que contenga la probabilidad; en otras palabras, el intervalo de confianza de nivel 100(1-α)
% calculado por le método tradicional contiene el valor verdadero menos del 100(1-α)% de
las veces.
pˆ1 (1 pˆ1 ) pˆ 2 (1 pˆ 2
( pˆ1 pˆ 2 ) z / 2
n1 n2
Este método no se puede utilizar a menos que ambas muestras contengan al menos diez
218
éxitos y diez fracasos.
TEOREMA
219
Ejemplo 6.30. El tiempo que le toma a un procesador central procesar un determinado tipo
de tarea tiene una dn con media de 20.0 seg. y desviación estándar de 3.0 seg. Si se observa
una muestra de 15 de estas tareas, ¿cuál es la probabilidad de que la varianza muestral sea
mayor que 13.5?
Solución: P(S2>13.5).
2
>13.5)= =
P(S (n 1)s2 (n 1) 2 (14)(13.5)
P( 2 (13.5)) P( 9
) P( 2 21.0) .10
2
< <
(n 1) s 2 2 (n 1) s 2
2 / 2, n1 21 / 2, n1
Ejemplo 6.31. Se espera que un proceso estandarizado produzca arandelas con una
desviación muy pequeña en su espesor. Suponga que se tomaron 10 de estas arandelas y sus
espesores, en pulgadas, fueron:
.123 .133
.124 .125
.126 .128
.120 .124
.130 .126
Solución:
220
(n 1)s 2 2 (n 1)s 2
2 / 2, 12 / 2,
2
=1.3656x10-5, 1-α=0.90, α=0.10, α/2=0.05,
n=10, s 2 / 2, 0.05,
2
9 16.919;
12 / 2, 0.95,
2
9 3.325.
(9)(1.3656x10 5 ) (9)(1.3656x10 5 )
2
16.919 3.325
7.2640x10-6<2<36.9640x10-6
y
2.6952x10-3<<6.0798x10-3
Distribución muestral de F
La distribución F de probabilidad tiene dos parámetros, representados por ν1 y ν2. El
parámetro ν1 se llama número de grados de libertad del numerador, y ν2 es el número de
grados de libertad del denominador; aquí, ν1 y ν2 son enteros positivos. Hay una relación
importante entre una variable F y las variables ji-cuadradas. Si X 1 y X2 son variables
aleatorias ji-cuadradas independientes con ν1 y ν2 grados de libertad, respectivamente,
entonces se puede demostrar que la variable aleatoria
X 1 / 1
F
X 2 / 2
el cociente entre las dos variables ji-cuadrada, divididas entre sus respectivos grados de
libertad, tiene una distribución F.
221
TEOREMA
1
f1 , 1 , 2
f , 2 , 1
TEOREMA
Ejemplo 6.32. Si S12 y S22 son las varianzas muestrales de muestras aleatorias
independientes de tamaños n1=10 y n2=20, tomadas de poblaciones normales que tienen las
mismas varianzas, encuentre P(S12 / S22≤2.42).
Solución:
P(S12/S22≤2.42)=P(σ22S12/σ12S22≤2.42)=P(F≤2.42)=1-P(F≥2.42)=0.9500.
222
< <
s2
1 2
s12
1 1
f / 2, 2 , 1
s f / 2, 1 , 2
2
2
2
2 s22
donde ν1=n1-1 y ν2=n2-1.
Solución:
< <
s2
1 2
s12
1 1
f / 2, 2 , 1
s f / 2, 1 , 2
2
2
2
2 s22
< <
3.68 1 12 3.68
2.59
2.31 3.01 22 2.31
0.529< <4.126
12 / 22
Introducción
223
7.1 Hipótesis y procedimientos de prueba
DEFINICION
Una hipótesis estadística, es una expresión que representa el valor de una sola
característica o los valores de varias características de la población.
Ejemplos 7.1.
1. La expresión μ=0.75, donde μ es el promedio verdadero del diámetro interior de cierto
tipo de tubo de PVC.
2. El enunciado p<0.10, donde p es la proporción de tarjetas defectuosas de un circuito,
entre todas las fabricadas por un fabricante.
3. Si μ1 y μ2 representan el verdadero promedio de resistencia a la ruptura de dos tipos de
cuerdas, una hipótesis es la afirmación μ1-μ2=0.
En cualquier problema de prueba de hipótesis hay dos hipótesis contradictorias. Una
podría ser por ejemplo, μ=0.75 y otra μ≠0.75. El objetivo es determinar con base en la
muestra, cual de las dos es la correcta.
DEFINICION
La hipótesis nula, representada por Ho, es la afirmación sobre una o más características
poblacionales que al inicio se supone cierta. La hipótesis alternativa, Ha, es la
afirmación contradictoria a Ho.
DEFINICION
Una prueba de hipótesis estadística es un método que emplea datos de una muestra
para decidir si se debe rechazar Ho.
224
El razonamiento usado en una prueba de hipótesis estadística es similar al proceso en un
juicio. Al procesar a una persona por robo, el jurado debe decidir entre la inocencia y la
culpabilidad. Cuando empieza el juicio, se considera que la persona acusada es inocente. La
parte acusadora reúne y presenta toda la evidencia disponible en un esfuerzo por
contradecir la hipótesis de inocencia, el jurado rechazará la hipótesis de inocencia y
declarará al demandado culpable. Si la fiscalía no presenta suficientes pruebas para
demostar que el demandado es culpable, el jurado lo declarará no culpable. Observe que
esto no demuestra que el demandado es inocente, sino sólo que no hubo evidencia
suficiente para concluir que el demandado era culpable.
Ejemplo 7.2. En el ejemplo del tubo de PVC, podríamos probar Ho: μ=0.75, contra la
alternativa Ha: μ≠0.75. Si los datos de la muestra indican que μ≠0.75, se debe rechazar Ho.
Ejemplo 7.3. Sea μ el tiempo medio de secado de una pintura. Se decide utilizarla si μ<75
min. La hipótesis pertinente sería Ho: μ=75 min. contra Ha: μ<75 min.
PROCEDIMIENTO DE PRUEBA
Un procedimiento de prueba se especifica por un estadístico de prueba, que es una
función de los datos muestrales en los cuales se basa la decisión, y una región de rechazo,
el conjunto de todos los valores del estadístico de prueba para los cuales Ho será rechazada.
La hipótesis nula se rechaza si y sólo si el valor calculado del estadístico se ubica en la
región de rechazo.
DEFINICION
225
No es posible un procedimiento de prueba para el cual no ocurra algún tipo de error
probablemente. Buen procedimiento es aquel en el que la probabilidad de cometer algún
tipo de error es pequeña. La probabilidad de cometer un error tipo I y II se denota por α y β
respectivamente. Para controlar esos errores, a cada uno de ellos se le asigna una pequeña
probabilidad. La probabilidad asignada a cada error depende de la gravedad de ellos. 0.001
muy grave, 0.01 y 0.05 algo grave (los de mayor uso), 0.1 grave y mayores que 0.1 no
grave en absoluto.
Ejemplo 7.4. Se sabe que el tiempo de secado de cierta pintura, esta distribuida
normalmente con μ=75 min. y σ=9 min. Se ha propuesto un aditivo para reducir el tiempo
promedio de secado. Se plantea la hipótesis
Ho: μ=75 min.
contra
Ha: μ<75 min.
Cálculo de α y β
α=P(Error tipo I)=P(Rechazar Ho cuando es verdadera)
α=P( ≤70.8 cuando ~ N(75, 1.82))
X X
α=Φ((70.8-75)/1.8)= Φ(-2.33)=0.01
En el 1% de las muestras se rechazará Ho, cuando en realidad es verdadera.
β(72)=P(Error tipo II cuando μ=72)
=P(No rechazar Ho cuando Ho es falsa porque μ=72)
=P( >70.8 cuando ~ N(72, 1.82))
X X
=1 – Φ((70.8-72)/1.8)=1- Φ(-0.67)=0.7486
226
β(70)=1- Φ((70.8-70/1.8)=0.3300; β(67)=0.0174.
La probabilidad de error tipo II es muy grande si μ=72 (poca desviación de Ho), un poco
menor cuando μ=70 y bastante pequeña cuando μ=67 (desviación muy importante de Ho).
El uso del valor de corte c=70.8, produjo un valor muy pequeño de α(0.01), pero las β
son más bien grandes. Consideremos ahora una región de rechazo ≤72.
x
Así, α=P(Ho es rechazada cuando es verdadera)
72 75
(1.67) 0.05
1.8
β(72)=0.5; β(70)=0.1335; β(67)=0.0027.
227
También puede reducirse el valor de α mediante el incremento del tamaño de la muestra.
Si n=30, entonces y, al utilizar la región de rechazo inicial 70.8, se tiene
9
1.64
n 30
que
α=P( ≤70.8 cuando ~ N(75, 1.642))
X X
α=Φ((70.8-75)/1.64)= Φ(-2.56)≈0.0052
Hay una interrelación entre la probabilidad del error tipo I, la probabilidad del error tipo
II y el tamaño de la muestra n. Si cualquiera de estos tres se incrementa o disminuye, uno o
dos de ellos se ven afectados.
Si se reduce α, entonces β debe aumentar o n debe crecer; si β disminuye, entonces α
crece o es necesario aumentar n; si n disminuye, entonces α crece o β aumenta. Las
elecciones de α, β y n definitivamente no son arbitrarias
TEOREMA
Un error tipo I es por lo general más serio que uno de tipo II. El método que siguen los
expertos consiste en especificar el máximo valor de α tolerable y encontrar una región de
rechazo que incluya ese valor de α en lugar de cualquier otro menor. Esto hace que β sea
tan pequeña como sea posible, sujeta al límite α. El valor de α se conoce con el nombre de
nivel de significancia de la prueba. Los niveles tradicionales de significancia son 0.10,
0.05 y 0.01. El correspondiente procedimiento de prueba se llama prueba de nivel α
Ejemplo 7.5. Representamos por µ el verdadero promedio de vida actual en una ciudad.
Consideremos probar Ho: µ=70 años contra Ha: µ>70 años. Una muestra de tamaño 100
muertes el año pasado mostró un promedio de vida de 71.8 años, con una desviación
estándar de 8.9 años. Para probar Ho: μ=70, contra Ha: μ=72, α debe ser 0.05. Calcular la
probabilidad de cometer un error tipo II.
Solución:
Para probar Ho: μ=70, contra Ha: μ=72, se rechaza Ho si
z>1.645
>1.645
x 0
z
/ n
o bien, si
>
x
0 1.645
n
228
8.9
70 1.645 71.464 c
100
de donde >71.464 es la región de rechazo.
x
La figura muestra esta región de rechazo, donde μ´ es otro valor particular de μ que excede
del valor nulo μo. Así, por definición, es el área
P( X 71.464 cuando ´ 72)
sombreada bajo la curva a la izquierda de c=71.464. Por consiguiente, si μ´=72,
71.464 72
PZ P ( Z 0.61) 0.2743
8.9 / 100
229
distribución del punto de fusión es normal con σ=1.20. Pruebe Ho: μ=95 contra Ha: μ≠95,
utilizando una prueba de nivel 0.01 de dos colas.
Solución:
1. µ, promedio verdadero del punto de fusión.
2. Ho: µ=95
3. Ha: μ≠95
4. α=0.01
5.
z x 95 z x 0
1.20 / n / n
6. Región de rechazo: z≤-2.575 ó z≥2.575
7.
94.3295
z 2.27
1.20 / 16
Considérese primero la prueba de cola superior con región de rechazo z≥z α. Esto equivale a
, por lo que Ho no será rechazada si < . Representemos con μ´
x
x o z o z
n n
un valor particular de μ que exceda el valor Ho. Entonces
P( X o z cuando ´)
n
X
P z o cuando ´
/ n / n
230
´
( ´) z o
/ n
Las probabilidades de error para las pruebas de cola inferior y dos colas se deducen de una
manera similar. ▄
Para comparar Ho: μ=μo contra Ha: μ=μ´, donde μ´>μo, se ha visto que se rechaza Ho
cuando donde Pero es claro que
x c,
c o z . c ´ z .
n n
Así es que
c o z c ´ z
n n
z z ´ o
n
o sea,
n
z z
´ o
de donde,
▄
2
( z z )
n
o ´
Un argumento paralelo produce el tamaño muestral necesario para pruebas de cola inferior
y de dos colas, como se resume a continuación.
Ha: μ<μo
Ha: μ≠μo
231
El tamaño muestral n, para el cual una prueba de nivel α también tiene β(μ´)=β en el
valor alternativo μ´, es
2
z z para una prueba de una cola (superior o inferior)
´
o
n
2
z /2 z
para una prueba de dos colas(solución aproximada)
o ´
Solución:
a) La probabilidad de cometer un error tipo II cuando μ´=20,500 es
´
( ´) z o
/ n
20, 00 20,500
(20,500) 2.33 (1.00) 0.8413
1,500 / 16
2
( z z )
n
o ´
2
1,500(2.33 1.645)
20, 000 20,500
232
Ejemplo 7.8. Una muestra aleatoria de 100 muertes registradas en una ciudad el año
pasado mostró un promedio de vida de 58.5 años, con una desviación estándar de 3.2 años.
Podría esto indicar que el promedio de vida actual es mayor que 58 años. Use un nivel de
significancia de 0.05.
Solución:
1. μ, promedio de vida.
2. Ho: μ=58 años.
3. Ha: μ>58 años.
4. Nivel de significancia α=0.05.
5.
__
58
z x
s/ n
6. Región de rechazo: z≥1.645
7. z 58.558 1.56
3.2 / 100
Solución:
1. μ, promedio de desgaste del eje.
2. Ho: μ=3.50
3. Ha: μ>3.50
4. α= 0.05
233
5.
t x 3.50
s/ n
6. Región de rechazo: t>1.895
La mayor parte de los programas de cómputo más empleados también calculan las
probabilidades de error tipo II y determinan tamaños necesarios de muestra. Estos cálculos
se basan en la potencia de una prueba estadística.
7.3 Valor P
DEFINICION.
234
6. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación
para el estadístico de prueba, y calcular el valor correspondiente.
7. Uso del valor P.
8. Decidir si Ho debe ser rechazada y establecer esta conclusión en el contexto del
problema.
Ejemplo 7.10. El espesor deseado de las obleas de cilicio, utilizadas en cierto tipo de
circuito integrado, es 245 μm (millonésima de metro). Se obtiene una muestra de 50 obleas
para determinar el espesor de cada una; así se obtiene un grosor promedio muestral de
246.18 μm y desviación estándar muestral de 3.60 μm. ¿Estos datos parecen indicar que el
espesor promedio real de las obleas es distinto del valor deseado a un nivel de 0.01?.
Solución:
1. μ, espesor promedio verdadero de las obleas.
2. Ho: μ=245 μm
3. Ha: μ≠245 μm
4. =0.01
5. z=
x 245
s/ n
6. z=
246.18 245 2.32
3.60 / 50
7. Valor P
Como la prueba es de dos colas, el valor P es el área de la región sombreada a la derecha de
2.32 y a la izquierda de z=-2.32. Entonces, P=2(1-Ф(2.32))=0.0204.
8. Decisión: Ho no se rechaza porque 0.0204>0.01. Conclusión: El espesor real promedio
no es distinto del valor establecido en un nivel de 0.01.
Ejemplo 7.11. Una muestra aleatoria de 100 muertes registradas en una ciudad el año
pasado mostró un promedio de vida de 71.8 años, con una desviación estándar de 8.9 años.
¿Podría esto indicar que el promedio de vida actual es mayor que 70 años?. Utilizar un
nivel de significancia de 0.05.
Solución:
1. μ, promedio verdadero de vida.
2. Ho: μ=70 años.
3. Ha: μ>70 años.
4. =0.05
5. z=
x 70
s/ n
6. z=
71.870 2.02
8.9 / 100
7. Valor P
El valor de P es el área de la región sombreada a la derecha de 2.02. Entonces
P=P(z>2.02)=0.0217.
235
8. Decisión: En el nivel de 0.05, Ho se rechaza porque 0.0217 <0.05. Conclusión: A este
nivel de significancia la evidencia es suficiente para llegar a la conclusión de que el
promedio de vida es mayor 70.
Solución:
1. μ1, resistencia promedio verdadera del acero laminado en frío y μ 2 resistencia promedio
verdadera de acero galvanizado.
2. Ho: μ1-μ2=0
3. Ha: μ1-μ2≠0
4. =0.01
5. z=
x1 x2
(4.0) 2 (5.0) 2
n1 n2
6. z=
29.834.7
16.0 25.0
3.65
20 25
7. Valor P
Como la prueba es de dos colas, el valor P es el área de la región sombreada a la derecha de
3.65 y a la izquierda de -3.65. Entonces, P=2(1-Ф(3.65)=0.
8. Decisión: Ho debe ser rechazada en cualquier nivel de significancia. Conclusión: Las
verdaderas resistencias promedio son diferentes al nivel de 0.01.
Ejemplo 7.13. Muchos consumidores están recurriendo a productos genéricos para reducir
el costo de medicamentos por prescripción. De 102 médicos, sólo 47 médicos entrevistados
conocían el nombre genérico de la metadona. Proporciona esto fuerte evidencia para
concluir que menos de la mitad de todos los médicos conocen el nombre genérico de la
metadona. Realizar una prueba de hipótesis utilizando el nivel de significancia de 0.01.
236
Solución:
1. p, proporción de médicos que conocen el nombre genérico de la metadona.
2. Ho: p=0.5
3. Ha: p<0.5
4. α=0.01
5.
p̂ 0.5
z (0.5)(0.5)
n
6. Región de rechazo: z≤-2.33
102
7. 47 /¿−0.5
¿ (47 /102) 0.5
¿ z 0.79
Z=¿ (0.5)(0.5)
102
8. Decisión: Como z=-0.79 no está en la región de rechazo, Ho no puede ser rechazada al
nivel 0.01. Conclusión: No hay evidencia concluyente de que menos del 50% de todos los
médicos conozcan el nombre genérico de la metadona.
Ho: p=po
Ha: p<po
Se utiliza la dp binomial para calcular el valor
237
P=2P(X≤x cuando p=po)=2B(x; n, po) si x<npo
ó P=2P(X≥x cuando p=po)=21-B(x-1; n, po) si x>npo
rechazando Ho en ambos casos si P es menor o igual que α.
Ejemplo 7.14. Un constructor afirma que en el 70% de los edificios en una ciudad hay
instalados sistemas de aire acondicionado. ¿Se estaría de acuerdo con esta afirmación si una
inspección aleatoria de edificios en esta ciudad muestra que 8 de 15 cuentan con estos
sistemas?. Utiliza α=0.10.
Solución:
1. p.
2. Ho: p=0.7
3. Ha: p≠0.7
4. Estadístico de prueba: variable aleatoria binomial X con po=0.7 y n=15.
5. Cálculos: x=8 y npo = (15)(0.7) = 10.5, donde x<npo. De Aquí, P=2P(X≤8 cuando
po=0.7) = 2B(8; 15, 0.7) = 2(0.131)= 0.262>0.10.
6. Decisión: No rechazar Ho al nivel de 0.10. Conclusión: Hay razones insuficientes para
dudar de la afirmación del consumidor.
^p1−¿ ^p 2
5.
√ 1 1
^p q^ ( + )
n 1 n2 z
z=¿
pˆ1 pˆ 2
1 1
ˆ ˆ
pq
n1 n2
7.
0.0110
z 1.484
0.1877 0.8123
1 1
5726 5384
238
0.0110
¿ =1.484
√ ( 0.1877 )( 0.8123 ) (
1
+
1
5726 5384
)
8.
x1 x1 x2
pˆ1 0.1930, pˆ 2 0.1820, pˆ 0.1877, qˆ 0.8123
n1 n1 n2
8. Decisión: Puesto que 1.484 no es mayor que 1.645, Ho no es rechazada. Conclusión: No
existe diferencia. La evidencia es insuficiente para concluir que p1-p2≠0 a un nivel de 0.10.
Ejemplo 7.16. Un fabricante de baterías para automóviles afirma que la vida de sus
baterías está aproximadamente distribuida en forma normal con una desviación estándar de
0.9 años. Si una muestra aleatoria de 10 de estas baterías tiene una desviación estándar de
1.2 años, ¿se puede pensar que σ>0.9 años?. Utilizar un nivel de significancia de 0.05.
Solución:
1. σ2, varianza de la vida de las baterías.
2. Ho: σ2=0.81 años
3. Ha: σ2>0.81
4. =0.05
5. ( n−1)s2
χ 2= (n 1) s 2
0.81 2
0.81
6. Región de rechazo: χ2>16.919
7.
(9)(1.44)
2 16.0
0.81
8. Decisión: No rechazar Ho. Conclusión: La desviación estándar no es mayor que 0.9 años
al nivel de significancia de 0.05.
Ejemplo 7.17. Una gran fábrica de automóviles está tratando de decidir si compra
neumáticos de la marca A o de la marca B para sus nuevos modelos. Para ayudar a tomar la
decisión, se llevó a cabo un experimento en el cual se utilizaron 11 neumáticos de cada
marca. Los resultados fueron:
Marca A:
x1 37,900 km, s1 5,100 km
Marca B: . Utilizar α=0.05.
x 2 39,800 km, s 2 5,900 km
239
Suponer poblaciones distribuyéndose aproximadamente normal.
Probar Ho: σ1=σ2 en contra de la alternativa Ha: σ1<σ2
Solución:
1. σ12 y σ22 varianzas de la Marca A y B respectivamente.
2. Ho: σ12=σ22
3. Ha: σ12<σ22
4. =0.10
5. f=s12/s22
6. Región de rechazo:
<
f F1 , , F0.95, 10, 10 1/ F10.95, 10,10 1/ F0.05,10,10 1/ 2.98 0.336
1 2
7. f= (5,100)2/(5,900)2=0.747
8. Decisión: 0.747>0.336, no rechazamos Ho. Conclusión: La desviación estándar de la
marca A no es menor que la de B, en un nivel de 0.05.
240
PYE115 UES-FIA RESUMEN DE PROCEDIMIENTOS PARA LA PRUEBA DE HIPÓTESIS
______________________________________________________________________________________________________________
Caso Hipótesis Nula Estadístico de Prueba Hipótesis Alterna Región de Rechazo
______________________________________________________________________________________________________________
1. Ho: μ=μo Ha: μ>μo z≥zα
Suponiendo normalidad Ha: μ<μo z≤-zα
x o
z
/ n
σ conocida Ha: μ≠μo z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
2. Ho: μ=μo Ha: μ>μo z≥zα
σ desconocida y s conocida; Ha: μ<μo z≤-zα
x o
z
s/ n
n>40; muestras grandes Ha: μ≠μo z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
3. Ho: μ=μo Ha: μ>μo t≥tα, ν
suponer normalidad Ha: μ<μo t≤-tα, ν
x o
t
s/ n
σ desconocida y s conocida; Ha: μ≠μo t≥tα/2,ν ó t≤-tα/2, ν
n≤30; muestras pequeñas
______________________________________________________________________________________________________________
4. Ho: p=po Ha: p>po z≥zα
muestras grandes siempre que Ha: p<po z≤-zα
p̂ p o
z
poq o / n
npo≥10 y nqo≤10 Ha: p≠po z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
5. Ho: σ2=σo2 Ha: σ2 > σo2 χ2≥χ2α, ν
Ha: σ2 < σo2 χ2 ≤ χ2 1- α, ν
( n 1)s 2
2
o2
Ha: σ2 ≠ σo2 χ2 ≥ χ2 α/2, ν ó χ2 ≤ χ2 1- α/2, ν
______________________________________________________________________________________________________________
______________________________________________________________________________________________________________
6. Ho: μ1-μ2=0 Ha: μ1-μ2>0 z≥zα
varianzas conocidas Ha: μ1-μ2 < 0 z≤-zα
x1 x 2
z
12 / n1 12 / n 2
poblaciones normales Ha: μ1-μ2 ≠ 0 z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
7. Ho: μ1-μ2=0 Ha: μ1-μ2>0 z≥zα
σ12 y σ22 desconocidas Ha: μ1-μ2 < 0 z≤-zα
muestras grandes Ha: μ1-μ2 ≠ 0 z≥zα/2 ó z≤-zα/2
x1 x2
z
s12 / n1 s22 / n2
n1 >40 y n2 >40
8. Ho: μ1-μ2=0 Ha: μ1-μ2>0 t≥tα, ν
suponer normalidad Ha: μ1-μ2 < 0 t≤-tα, ν
x1 x2
t
s12 / n1 s22 / n2
σ12 ≠ σ22 desconocidas Ha: μ1-μ2 ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
muestras pequeñas; n1≤30, n2≤30;
( s12 / n1 s 22 / n 2 ) 2
( s12 / n1 ) 2 ( s 22 / n 2 ) 2
n1 1 n2 1
9. Ho: μ1-μ2=0 Ha: μ1-μ2>0 t≥tα, ν
suponer normalidad Ha: μ1-μ2 < 0 t≤-tα, ν
x1 x2
t
s p 1 / n1 1 / n2
2 2
σ1 = σ2 Ha: μ1-μ2 ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
n1 1 2 n2 1 2
s 2p s1
n n 2 s2
n1 n2 2 1 2
muestras pequeñas; n1≤30, n2≤30
______________________________________________________________________________________________________________
10. Ho: µD=0 Ha: μD>0 t≥tα, ν
suponer normalidad Ha: μD< 0 t≤-tα, ν
d
t
sD / n
muestras pequeñas n≤30 sD: desviación Ha: μD ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
estándar de las
(Datos en pares) diferencias
______________________________________________________________________________________________________________
11. Ho: p1-p2=0 Ha: p1-p2 >0 z≥zα
muestras grandes Ha: p1-p2 <0 z≤-zα
pˆ1 pˆ 2
z
1 1
pˆ qˆ
n1 n2
Ha: p1-p2 ≠ 0 z≥zα/2 ó z≤-zα/2
pˆ x1 x2 / n1 n2
12. Ho: σ12 = σ22 Ha: σ12 > σ22
f F , 1 , 2
poblaciones normales f=s12/s22 Ha: σ12 < σ22
f F1 , 1 , 2
2 2
Ha: σ1 ≠ σ2 ó
f F / 2, 1 , 2 f F1 / 2, 1 , 2
______________________________________________________________________________________________________________
Ho: p=po
Ha: p>po