Está en la página 1de 245

UES-FIA-UCB PROBABILIDAD Y ESTADISTICA

Introducción

El origen de la estadística se pierde en la más lejana antigüedad. Se tienen noticias


históricas de censos chinos del siglo XXIII A. J. C. Tampoco ninguna duda cabe de que los
egipcios tabulaban sus riquezas y potencial humano, antes del éxodo de los hebreos. Tácito,
el historiador, narra la orden del César Augusto referente a censar sus tropas, marina y
habitantes de sus dominios.
La palabra “estadística” deriva parece de la latina status, que en el latín de la edad
media tenía el sentido de “estado político”. “estadística”, significaba el conjunto de
métodos de recolección de datos y documentación útil en la administración del estado.
Paralelamente a esta línea, se desarrolla la otra: los juegos de azar. Se pone de moda el
juego durante los siglos XVII y XVIII, en las cortes europeas – principalmente en Francia –
y matemáticos grandes, como Pascal y Fermat, en París, o De Moivre, al servicio de la
nobleza, dan un gran impulso a la estadística y al cálculo de probabilidades, al intentar
resolver los problemas de los juegos de azar que sus clientes acaudalados les planteaban.
El enfoque de la probabilidad comienza a cambiar en el S. XIX con el enfoque
probabilístico del movimiento de las partículas en un líquido (movimiento browniano). El
movimiento browniano y la llegada del teléfono al final del S. XIX y principios del S. XX,
despertaron el interés en la probabilidad. Se cree que entre 1932 y 1934 la probabilidad
adquiere una estructura rigurosa matemática.
La ciencia estadística ha comenzado avanzar en terrenos como: en la producción en
masa, economía, física e ingeniería, etc.
La computadora se ha convertido en una herramienta importante en la presentación y el
análisis de datos. Para las técnicas estadísticas que estudiaremos bastará una calculadora de
mano. Entre los paquetes de software estadísticos disponibles están el SAS, Minitab,
Stagraphics y el SPSS.

PARTE I: ESTADISTICA DESCRIPTIVA

Unidad I: ESTADISTICA DESCRIPTIVA

1.1 ¿Qué es estadística?


¿Qué es estadística? ¿Cómo se aplica y de que manera puede servir en la solución de
algunos problemas en la ingeniería? No se intenta definirla, en su lugar se plantean tres
problemas que se resuelven a través de ella:

1. Supóngase que un ingeniero en carreteras desea estudiar el flujo de vehículos en un


cruce determinado. Podría observar el flujo de vehículos a determinadas horas y días
representativos, para elaborar una estimación del número promedio de vehículos que pasan
por el cruce por hora.

1
2. La producción de una fábrica se ve afectada, tanto en volumen como en calidad, por
muchos factores a lo largo del proceso de producción. Al tener registros que muestren los
valores de estos factores en el pasado, así como los de la producción actual, se puede
intentar establecer una ecuación predictiva que relacione a la producción con los factores.
3. De un conjunto representativo de clientes, cada uno de ellos es entrevistado para
conocer su opinión con respecto a determinado producto nuevo. De la información
obtenida, el analista de mercados deberá decidir si existe demanda suficiente para el
producto.

Los problemas mencionados ilustran brevemente el hecho de que la estadística en la


ingeniería requiere del uso de información muestral para estimar, predecir y, en última
instancia, para decidir.
En los ejemplos anteriores, el centro de nuestro interés, el gran conjunto de datos se
llama población, y el subconjunto seleccionado de ahí, representa una muestra.
Se ve pues, que el objetivo de la estadística es el de hacer inferencias (predecir, decidir)
sobre algunas características de una población tomando como base la información
contenida en una muestra.
Cuando se desea conocer alguna característica de una población se lleva acabo un censo
y para conocer una característica de una muestra se hace uso generalmente de una
encuesta. ▄

1.2 Términos básicos.


La característica de interés sobre cada elemento individual de una población o muestra se
llama variable. La edad de un estudiante que ingresa a la universidad, el departamento de
procedencia, su estatura y su peso son cuatro variables.
El valor de la variable que corresponde a un elemento de una población o muestra se
llama dato. Este valor puede ser un número, una palabra o un símbolo. Por ejemplo,
Manuel Petronilo Osegueda ingresó a la universidad a la edad de “18” años, procede del
departamento de La Libertad, mide “1.70 Mt.” y pesa “83 Kg.”. Estas cuatro partes de datos
son los valores de las cuatro variables aplicadas a Manuel Petronilo Osegueda.
El conjunto de valores recolectados para la variable de cada uno de los elementos que
pertenecen a la muestra se llaman datos. Por ejemplo, el conjunto de 25 estaturas
recolectadas de 25 estudiantes.
Un experimento es una actividad planeada cuyos resultados proporcionan un conjunto
de datos. El experimento incluye las actividades para seleccionar los elementos y obtener
los valores de los datos.
El valor numérico que resume todos los datos de una población completa se llama
parámetro. La “proporción” de estudiantes que tenían más de 20 años de edad cuando
ingresaron a la universidad es un ejemplo de parámetro. Un parámetro es un valor que
describe a la población. A menudo es utilizada una letra griega para denotar a un parámetro,
por ejemplo: , la media y varianza poblacional respectivamente.
,  2

Para todo parámetro existe un estadístico muestral asociado. El estadístico describe a la


muestra de la misma forma como el parámetro describe la población. El estadístico es el
valor numérico que resume los datos de la muestra. La estatura “promedio” encontrada al
utilizar el conjunto de 25 estaturas es un ejemplo de un estadístico muestral. Casi todos los
estadísticos muestrales se determinan con ayuda de fórmulas y suelen simbolizarse usando

2
letras del alfabeto español: la media y varianza muestral respectivamente.
_
2
xys ,

Ejemplo 1.1. Un estudiante de estadística está interesado en determinar el costo de los


libros de texto para los estudiantes de la facultad de ingeniería de una universidad. Cada
uno de los términos recientemente descritos puede identificarse en esta situación.

1. La población es la colección de todos los libros que pertenecen a todos los estudiantes
de la facultad.
2. Una muestra es cualquier subconjunto de una población. Por ejemplo, una muestra
serían los libros textos que pertenecen a los estudiantes de la escuela de ingeniería civil.
3. La variable podría ser el valor en dólares de un libro texto individual.
4. Un dato podría ser el valor en dólares de un libro texto en particular. El libro del Br.
Rogelio Bernal, por ejemplo, está valorado en $ 20.
5. Los datos serían el conjunto de valores que corresponden a la muestra obtenida (20;
37.50; 10.25;…).
6. El experimento serían los métodos aplicados para seleccionar los libros que integren la
muestra y determinar el valor de cada libro de la muestra. Podría efectuarse preguntando a
cada miembro de la escuela de ingeniería civil, o de otras formas.
7. El parámetro sobre el que se está buscando información es el valor “promedio” de
todos los libros de la población.
8. El estadístico que se encuentra es el valor “promedio” de todos los libros textos de la
muestra.

Básicamente, hay dos clases de variables: 1) variables que obtienen información


cuantitativa y 2) variables que obtienen información cualitativa.

En resumen se tiene lo siguiente:

3


 
 Variable continua
 
 Cuantitativo 

  Variable discreta
 


Dato 




 
 No min al
 
Cualitativ o 
 
 Jerarquiza do

 

Las variables continuas son aquellas que pueden asumir virtualmente cualquier valor en
un determinado intervalo, como el peso w o la altura h de un estudiante.
Una variable discreta es la que asume solo valores, por lo general enteros, como el
número de alumnos N en una asignatura
Las variables nominales comprenden categorías, como: sexo, color de los ojos, campo
de estudios, país, continentes, estudios realizados, etc.
Las variables jerarquizadas son las que comúnmente se refieren a las evaluaciones
subjetivas cuando los conceptos se jerarquizan según la preferencia o logro: en los
concursos, los lugares se jerarquizan en 1er. lugar, 2º. lugar, etc.; las posiciones de los
equipos se les asignan los números 1, 2, 3, . . .
La misma población puede dar origen a diferentes tipos de datos, como en la población
de alumnos de la carrera de Ingeniería Civil de la UES.

Continuo Discreto Nominal Jerarquizado


Edad
Peso (años) Sexo Ciclo

1.3 Ramas de la estadística


Conviene establecer claramente las ramas de la estadística, bien distintas en sus objetivos e
instrumentos de cálculo.
La estadística descriptiva trata con la organización, el resumen y la presentación de
datos. Utiliza métodos gráficos y numéricos para describir un conjunto de datos.
Organiza, resume y simplifica en términos generales información que a menudo es bastante
compleja. Se ocupa de los métodos para organizar y resumir datos.

4
En la probabilidad, las propiedades de la población en estudio se suponen conocidas, y
se formulan y responden preguntas en relación con una muestra tomada de la población.
En la estadística inferencial, las características de una muestra están disponibles para el
experimentador, y esta información lo capacita para sacar conclusiones respecto de la
población.

La relación entre las dos últimas disciplinas se puede resumir al decir que la
probabilidad razona desde la población hacia la muestra (razonamiento deductivo),
mientras que la estadística inferencial razona desde la muestra hacia la población
(razonamiento inductivo).
La estadística inferencial o simplemente estadística, consiste entonces en el análisis e
interpretación de una muestra de datos. La idea básica del muestreo es medir una pequeña
porción, pero típica de alguna “población”, y posteriormente utilizar dicha información
para inferir que característica tiene la población total. Los tres tipos más importantes de
técnicas inferenciales que estudiaremos son la estimación puntual, la estimación del
intervalo de confianza, y la prueba de hipótesis.
Así pues, en probabilidad se supone que la población es conocida y se calcula la
probabilidad de observar una muestra particular. En estadística, se supone que la muestra es
conocida y, con la ayuda de la probabilidad, se trata de describir la distribución de
frecuencias de la población que es desconocida. ▄

1.4 El asistente para gráficos de Excel


Desde la pasada década se ha ido intensificando notablemente la aplicación de la
Informática en las diferentes esferas del quehacer económico–social, lo que ha estado
influenciado por el marcado desarrollo de la computación y de las nuevas tecnologías de la
información.

Se ha planteado en varias ocasiones la siguiente controversia: utilizar software


estadístico o planilla electrónica. La experiencia ha mostrado que ambos son necesarios,
dado que enfatizan diferentes aspectos. Las planillas electrónicas (en su utilización más
sencilla) han sido caracterizadas como una combinación de un papel cuadriculado con una
calculadora. Ellas nos permiten enseñar los procedimientos de cálculo en forma rápida,
pero destacando una forma procedural (vamos indicando el procedimiento de cómo
hacerlo). Por ejemplo, ordenar los datos, ubicar el punto medio, determinar la mediana y

5
copiar un resultado en otra celda, entre otros. En cambio los paquetes estadísticos actúan en
forma no procedural, (indicamos sólo lo qué queremos).

Un papel relevante en ese sentido le ha correspondido al perfeccionamiento de los


programas asistentes matemáticos, entre los que el EXCEL ocupa un lugar importante. Con
el desarrollo actual de los asistentes matemáticos es aconsejable darle un enfoque de
aplicación práctica para hacer más efectiva la enseñanza de las diferentes herramientas
estadísticas. Excel como asistente matemático, presenta potencialidades, tanto para la
enseñanza como para la práctica de la Estadística.

En lo que sigue, en el Asistente para gráficos de Excel, encontraremos numerosas


opciones que pueden seleccionarse según el tipo de comportamiento que se esté explorando
en los datos en cuestión.

Pasos:
El asistente aparecerá al pulsar el botón

1. En el primer paso debemos elegir el tipo de gráfico más conveniente: barras,


columnas, circular, etc.
2. Lo siguiente es elegir los datos de origen: primero si los datos están en filas o en
columnas y dónde están. Ahora debemos elegir las series que queremos representar
en este gráfico y dónde se encuentran los rótulos.

3. Opciones de gráfico, donde debemos elegir el aspecto de ejes, leyenda, rótulos,


títulos, etc.

4. Finalmente debemos elegir la ubicación del gráfico.

Muchos de los elementos que hemos ido eligiendo en los pasos anteriores pueden ser
cambiados utilizando la barra de herramientas gráfico. ▄

1.5 Datos cualitativos. Gráficos.

Cuando un gran número de datos se presenta, la presentación con la palabra escrita se


vuelve ineficiente y pesada. En este caso conviene usar cuadros y gráficas.

Cuando los datos estadísticos se presentan en forma de cuadros o tablas, los datos son
arreglados sistemáticamente en columnas.

6
El número de veces que aparece repetido un determinado valor de la variable se denomina

frecuencia absoluta, f, o simplemente frecuencia.

Una tabla de distribución de frecuencias, es un cuadro que contiene información

resumida.

Un cuadro estadístico en el que se presentan datos cualitativos con su respectiva

frecuencia de ocurrencia, se llama tabla de atributos.

Las partes principales de una tabla de atributos son: 1) título, 2) encabezado, 3)


conceptos, 4) cuerpo, y 5) fuente de datos. Estas partes son básicas y deben ser incluidas en
cualquier tabla.

Ejemplo 1.2. Condición de tenencia de la vivienda, en el Departamento de San Salvador,


V Censo de Población y Vivienda 2007.

7
Un diagrama estadístico o gráfica es un medio plástico para presentar datos estadísticos.

Una gráfica se construye usualmente de acuerdo con la información proporcionada en


una tabla. Una gran variedad de gráficos ha sido usada en estudios estadísticos para
presentar datos o para mostrar las relaciones entre varios grupos de datos. Hay una gran
variedad de gráficos usados para presentar datos estadísticos. Los tipos más comunes de
gráficos son: gráfico de línea, gráfico de barras, gráfico de partes componentes y
pictogramas.

La gráfica de línea consiste de líneas o segmentos de líneas rectas, también llamadas

curvas o poligonales.

Las graficas de línea que son principalmente usadas para mostrar datos clasificados
sobre las bases de intervalos de tiempo, son referidas como series de tiempo.

Ejemplo 1.3. En la siguiente tabla se presenta la Deuda Externa Total de 2003 a 2007 en
millones de US $. Describa esta información mediante un gráfico de línea.
DEUDA EXTERNA TOTAL DE 2003 A 2007
(En millones de US $)

Año Remesa

2003 7916.7

2004 8210.5

2005 8761.4

2006 9584.3

2007 9059.7
Fuente: CEPAL

8
La deuda externa total en 2007, totalizó US $ 9059.7, mostrando una disminución de
-5.5% con relación al año anterior. ¿Qué podemos decir con respecto a los años anteriores?

La gráfica de barras tiene un número de barras rectangulares.

La gráfica de barras se utiliza para representar tanto datos cualitativos como


cuantitativos, referidos siempre a variables discretas. La anchura de cada barra es
usualmente igual a la de las otras. La longitud de cada barra muestra los datos
representados. Las barras en una gráfica de barras pueden ser arregladas de manera vertical
u horizontal, dependiendo de la preferencia. En general, las barras verticales son usadas
para presentar datos clasificados cronológica o cuantitativamente, mientras que las barras
horizontales son preferidas para presentar datos clasificados geográfica o cualitativamente.

Ejemplo 1.4. Describa la información del ejemplo precedente, mediante un gráfico de


barras vertical.

En el período 2004 a 2006 se experimenta un aumento en la deuda externa, ¿cuál es el


promedio porcentual de aumento?

9
Una gráfica de partes componentes muestra las relaciones entre la partes individuales lo
mismo que el total o totales de las partes de una o varias series de datos.

Los tipos mas comunes de gráficas de partes componentes son: gráfica de partes
componentes de línea o de barras, gráfica de pastel y gráfico polar.

Ejemplo 1.5. En la siguiente tabla se presentan las remesas familiares de Enero a Octubre
de los años 2008 a 2009. Describa esta información mediante un grafico de partes
componentes de línea.

INGRESOS POR REMESAS FAMILIARES ENERO-OCTUBRE AÑOS 2008 Y 2009


(En millones de US $)

Años
2008 2009
Meses

Enero 275.5 252.4

Febrero 298.3 275.1

Marzo 338.4 315.8

Abril 338.5 292.5

Mayo 353.4 308.2

Junio 334.4 295.7

Julio 332.1 286.1

Agosto 305.7 287.4

Septiembre 304.7 270.9

Octubre 304.3 281.7

TOTAL 3185.30 2865.80


FUENTE: BCR

10
INGRESOS POR REMESAS FAMILIARES ENERO-OCTUBRE AÑO 2008 Y 2009
(En millones de US $)
400
350
300

Año250
2008 Año 2009
200
En millones de US $
150
100
50
0
En Feb Mar Abr May Jun Jul Ago Sep Oct

El ingreso por concepto de remesas familiares acumulado de enero a octubre de 2009,


totalizó US $ 2,865.8, mostrando una disminución de -10% con relación al mismo período
del año anterior.

La disminución acumulada significó que las familias dejaron de percibir en conjunto US


$ 319.5 respecto a lo observado el año anterior.
¿Qué podemos decir del promedio?

En la gráfica de partes componentes de barras dobles sobrepuestas, la altura de cada

parte de una barra es hecha de acuerdo con el número de unidades de cada parte

componente.

Los gráficos de partes componentes de barras dobles sobrepuestas, pueden ser verticales
u horizontales.
Ejemplo 1.6. La siguiente tabla presenta las exportaciones e importaciones totales durante
el período Enero-Octubre año 2008 y 2009 en millones de US $. Describa esta información
mediante un gráfico de partes componentes de barras dobles sobrepuestas verticales.

EXPORTACIONES E IMPORTACIONES ENERO-OCTUBRE AÑO 2008 Y 2009


(En millones de US $)

Año Exportaciones Importaciones Fuente: BCR

2008 3907.3 8389

2009 3219 6018.2

11
El flujo acumulado de exportaciones de enero a octubre de 2009, totalizó US $ 3219,
mostrando una disminución de -17.6% con relación al mismo período del año anterior. La
disminución acumulada significó que se dejó de percibir en conjunto US $ 688.30. ¿Qué
podemos decir de las importaciones? ¿Qué podemos decir de la balanza comercial?

En el gráfico de pastel o circular, un círculo de radio arbitrario se divide en sectores

proporcionales de acuerdo con el número de unidades de cada parte componente.

En los gráficos de pastel, cada sector se rotula con su nombre y se le coloca el


porcentaje respectivo. El porcentaje se obtiene de igual manera que los sectores.

Ejemplo 1.7. La siguiente tabla muestra los principales países productores de petróleo en
2006. Describa esta información mediante un gráfico de pastel.
PRINCIPALES PAISES PRODUCTORES DE PETROLEO EN 2006
(Millones de barriles diarios (mb/d))

CANTIDAD
PAIS DE
BARRILES
Arabia Saudi 10.72
Rusia 9.67
Estados Unidos 8.36
Irán 4.15
China 3.84
México 3.71
Canadá 3.29
Emiratos Arabes Unidos 2.94
Venezuela 2.80
Noruega 2.78
Kuwait 2.67
Nigeria 2.44
Brasil 2.16
Argelia 2.12
Irak 2.00
FUENTE: Agencia de Información Energética (AIE) de EUA

CANTIDA
PAIS D GRADOS PORCENTAJE (%)
DE
BARRILES
Arabia Saudi 10.72 60.63 16.84
Rusia 9.67 54.69 15.19
Estados Unidos 8.36 47.28 13.13

12
Irán 4.15 23.47 6.52
China 3.84 21.72 6.03
México 3.71 20.98 5.83
Canadá 3.29 18.61 5.17
Emiratos Arabes Unidos 2.94 16.63 4.62
Venezuela 2.80 15.84 4.40
Noruega 2.78 15.72 4.37
Kuwait 2.67 15.10 4.19
Nigeria 2.44 13.80 3.83
Brasil 2.16 12.22 3.39
Argelia 2.12 11.99 3.33
Irak 2.00 11.31 3.14
0
TOTAL 63.65 360.0 100%
Aquí, se utiliza una regla de tres simple directa, por ejemplo, para Arabia Saudi,

63.65 barriles………. 3600


10.72 barriles……….... x

de donde , y de igual manera se obtienen los restantes sectores.


(10.72)(360)
x  60.630

63.65
El porcentaje se obtiene de manera semejante a los sectores.

PRINCIPALES PAISES PRODUCTORES DE PETROLEO 2006 (Millones de barriles diarios (mb/d))

Argelia; 212%; 3% Irak; 200%; 3%


Brasil; 216%; 3%
Nigeria; 244%; 4%
Arabia Saudi; 1072%; 17%
Kuwait; 267%; 4%
Noruega; 278%; 4%
Rusia; 967%; 15%
Venezuela; 280%; 4%

Canadá; 329%; 5%
México; 371%; 6%
China; 384%; 6% Irán; 415%; 7%

13
¿Con qué gráfica, con el diagrama de pastel o con una gráfica de barras, se obtiene una
mejor representación de la información?

Si en las tablas, las columnas correspondientes a los atributos corresponden a los meses

del año, entonces una forma de representarlos es por medio del gráfico polar, el cual

consiste en un círculo cuyo radio es equivalente a la frecuencia promedio de los meses.

En el gráfico polar, el círculo se divide en 12 sectores iguales, las líneas de separación


de estos sectores representan los periodos de tiempo y se prolongan de manera proporcional
a la frecuencia respectiva.
Ejemplo 1.8. Inyección Neta Mensual Eléctrica por mes durante el año 2008. Describa
esta información mediante un gráfico polar.

INYECCION NETA MENSUAL ELECTRICA DURANTE EL AÑO 2008


(GWh)

14
INYECCION
MES NETA
MENSUAL

Enero 455.5
Febrero 439.9
Marzo 458.9
Abril 477.1
Mayo 485.5
Junio 460.5
Julio 407.4
Agosto 472.3
Septiembre 463.1
Octubre 471,3
Noviembre 442.4
Diciembre 457.3
TOTAL 5,566.1
Fuente: SIGET

El promedio mensual de la inyección neta, , es


_
x

_
inyección neta anual 5,566.1
x   463.8 GWh
número de meses 12

Se asigna a este promedio un radio arbitrario, por ejemplo 5 cm. y luego se calcula los
radios para cada mes, a través de una regla de tres simple directa. Por ejemplo, para el mes
de Enero,

463.8----------------5

455.5-----------------x

de donde,
(455.5)(5)
x  4.9
463.8
INYECCION
MES NETA RADIO
MENSUAL
Enero 455.5 4.9
Febrero 439.9 4.7
Marzo 458.9 4.9

15
Abril 477.1 5.1
Mayo 485.5 5.2
Junio 460.5 5.0
Julio 407.4 4.4
Agosto 472.3 5.1
Septiembre 463.1 5.0
Octubre 471.3 5.1
Noviembre 442.4 4.8
Diciembre 457.3 4.9

TOTAL 5,566.1

A continuación se presenta el gráfico a escala:

Durante el mes de Mayo ocurre la más alta de las inyecciones eléctricas, 485.5 GWh, y
la más baja , 407.4 GWh, en el mes de Julio.

Los pictogramas son gráficos con dibujos alusivos al carácter que se está estudiando y
cuyo tamaño es proporcional a las frecuencias que representan. Generalmente se
emplean para representar variables cualitativas.

16
Ejemplo 1.9. La siguiente tabla muestra los ingresos anuales en concepto de remesas
familiares 2002-2008 en millones de US dólares. Describa esta información mediante un
pictograma.
REMESAS FAMILIARES DE 2002-2008
(En millones de US $)

AÑO CANTIDAD
2002 1,935.2
2003 2,105.3
2004 2,547.6
2005 2,830.2
2006 3,315.7
2007 3,695.3
2008 3,787.7
Fuente: BCR
Solución:
Una imagen alusiva será la figura de un paquete de billetes de US $, cuyo tamaño estará
relacionado con la cantidad de dinero remesado en cada año. El pictograma correspondiente
es el que sigue:

El ingreso por concepto de remesas familiares en el período 2002-2008, experimentó


una variación positiva. En el período 2007-2008, se observa una desaceleración en la
variación positiva. ¿Qué comentario le merece este evento?
¡Observe, las representaciones visuales nos pueden engañar! ▄

1.6 Datos cuantitativos. Gráficos.


Variables discretas.
En las tablas de distribución de frecuencias para una variable discreta, la columna de los
datos cualitativos de la tabla de atributos es sustituida, con los valores numéricos que toma
la variable. La representación más adecuada para este caso es un diagrama de Pareto,
gráficas de puntos y diagrama de tallo y hojas.

El diagrama de Pareto es una gráfica de barras con estas dispuestas de la categoría más
numerosa a la menos numerosa. Incluye una gráfica hecha a base de rectas que muestra los
porcentajes acumulados y la cantidad de datos representada por cada barra. Este diagrama
tiene un empleo muy amplio en los esfuerzos por incrementar la calidad, y las categorías

17
usualmente representan tipos distintos de defectos, modos de falla o problemas con el
producto o el proceso. El diagrama de Pareto pone de relieve que relativamente pocos
defectos son responsables de la mayor parte de los defectos observados.

Ejemplo 1.10. Un inspector de camisas clasificó los 500 últimos defectos en una fábrica
de ropa como:

Falta de botón 67

Costura defectuosa 153

Talla incorrecta 258

Desperfecto en la tela 22

a. Elabore un diagrama de Pareto para esta información.


b. Que significa el “porcentaje acumulado en costura defectuosa”.

Solución:
a.

En esta gráfica se subraya la importancia de reducir la frecuencia de la talla incorrecta.

b. El 82.2% de los defectos se deben a talla incorrecta o a costura defectuosa. ▄


Un diagrama de puntos es un resumen atractivo para datos numéricos cuando el conjunto
de datos es razonablemente pequeño, o hay relativamente pocos valores distintos de los
datos. Cada observación se representa por un punto arriba del lugar correspondiente en una
escala de medición horizontal. Cuando un valor se presenta más de una vez, se pone un
punto para cada ocurrencia, y esos puntos se apilan verticalmente. Un diagrama de puntos
muestra información acerca de ubicación, dispersión, valores extremos y huecos.

18
Ejemplo 1.11. De un grupo se extrajo una muestra de 19 calificaciones de un examen:

76 74 82 96 66 76 78 72 52 68
86 84 62 76 78 92 82 74 88

Muestre mediante un diagrama de puntos las calificaciones.

Solución:

Observe cómo los datos están “acumulados” cerca del centro y “más dispersos” en los
extremos. ▄

Actualmente se ha vuelto muy popular una técnica conocida como diagrama de tallo y
hojas para resumir datos numéricos. Se trata de una combinación de dos técnicas: una para
graficar y otra para clasificar.
En el diagrama de tallo y hojas, se presentan los datos utilizando los dígitos que
forman los valores de los datos. Cada dato se divide en dos partes: el (los) dígito (s)
principal (es) se convierte (n) en el tallo, y el (los) dígito (s) posterior (es) se convierte (n)
en la hoja. Los tallos se escriben a lo largo del eje principal, y por cada porción de datos se
escribe una hoja para mostrar la distribución de los datos.

19
Ejemplo 1.12. De un grupo grande se extrajo aleatoriamente una muestra de 19
calificaciones de un examen:

76 74 82 96 66 76 78 72 52 68

86 84 62 76 78 92 82 74 88

elabore un diagrama de tallo y hojas.

Solución:

Se observan puntajes en las decenas: 50, 60, 70, 80 y 90. Como tallo se utiliza el primer
dígito y como hoja, el segundo dígito. Generalmente, la representación se realiza en
posición vertical. Se traza una recta vertical y se escriben los tallos, en orden, a la izquierda
de la recta.

5
6
7
8
9

Luego, se coloca cada hoja en su tallo. Esto se hace escribiendo el último dígito a la
derecha de la recta vertical, enfrente de su dígito principal correspondiente

19 puntos de examen

5 2
6 6 8 2
7 6 4 6 8 2 6 8 4
8 2 6 4 2 8 Tallo: decenas
9 6 2 Hoja: unidades

En algunos casos se prefiere proporcionar más clases o tallos. Una forma de hacer esto
es modificar los tallos originales de la manera siguiente: se divide el tallo 5 (por ejemplo)
en los nuevos tallos, 5L y 5U. El tallo 5L tiene las hojas 5, 6, 7, 8 y 9. Esto duplica el
número de tallos originales. Puede cuadriplicarse el número de tallos originales se definen
cinco tallos nuevos: 5z con las hojas 0 y 1, 5t con las hojas 2 y 3, 5f con las hojas 4 y 5, 5s
con la hojas 6 y 7, y 5e con las hojas 8 y 9.

Ejemplo 1.13. Para 25 observaciones del rendimiento por lote de un proceso químico, se
ha ilustrado por un diagrama de tallo y hojas utilizando los números 6, 7, 8 y 9 como tallos.

20
Tallo: decenas
Hoja: unidades
25 observaciones del rendimiento
por lote de un proceso químico

6 1 3 4 5 5 6
7 0 1 1 3 5 7 8 8 9
8 1 3 4 4 7 8 8
9 2 3 5

El diagrama parece indicar que hay un valor característico o representativo en el renglón


del tallo 7. Las observaciones no están muy concentradas cerca de este valor característico.
El esquema crece hasta un solo pico al ir bajando, y después declina; no hay huecos en él.
La forma del esquema no es del todo simétrica. Por último, no hay observaciones que estén
muy alejadas del grueso de los datos. Obsérvese que este diagrama produce muy pocos
tallos, con lo que el diagrama no proporciona mucha información sobre los tallos.

Elabore un diagrama de tallo y hoja dividiendo cada tallo en dos partes.

Solución:
25 observaciones del rendimiento
por lote de un proceso químico

6L 1 3 4
6U 5 5 6
7L 0 1 1 3
7U 5 7 8 8 9
8L 1 3 4 4
8U 7 8 8
9L 2 3
9U 5 Tallo: decenas
Hoja: unidades
Aquí se obtiene una presentación más adecuada de los datos.

En general un diagrama de tallo y hojas puede presentar información acerca de los


siguientes aspectos de los datos:

 Identificación de un valor característico o representativo

 Grado de dispersión respecto al valor característico

 Presencia de huecos en los datos

 Grado de simetría en la distribución de los valores

 Cantidad y ubicación de picos

 Presencia de cualquier valor alejado o atípico ▄

21
Variables Continuas

El caso más frecuente, y también más interesante, es cuando la variable es continua en estos
casos existen dos modos de construir las tablas de distribución de frecuencias:

1. Método simple
2. Método de las frecuencias agrupadas

1. Método simple
Es en todo similar al tratamiento que se ha dado a las variables discretas, su tabla es
idéntica a la de estas. En cuanto a sus representaciones gráficas, junto a las gráficas de
ordenadas y gráficas de puntos, ya expuestas, resulta interesante, en este caso, la
construcción del llamado diagrama acumulativo. Se dibuja a partir del diagrama de
puntos, acumulando a cada ordenada todas las frecuencias anteriores.

Ejemplo 1.14. El departamento de verificación de una fábrica de aparatos eléctricos toma,


para control de calidad, 75 piezas de un determinado diseño y mide su espesor en
milímetros, habiendo resultado los siguientes datos:

1.3 1.0 1.1 1.2 1.3 1.4 1.6 1.7 1.5 1.8 1.8 1.8 1.0

1.4 1.2 1.4 1.3 1.5 1.1 1.5 1.3 1.4 1.7 1.7 1.2 1.7

1.8 1.8 1.8 1.8 1.8 1.8 1.1 1.5 1.4 1.4 1.5 1.5 1.6

1.8 1.3 1.6 1.6 1.7 1.7 1.6 1.5 1.2 1.5 1.4 1.5 1.7

1.2 1.3 1.5 1.4 1.6 1.5 1.6 1.2 1.3 1.4 1.4 1.5 1.6

1.1 1.2 1.3 1.5 1.6 1.7 1.6 1.7 1.4 1.5

Frecuencia
Variable Frecuencia acumulada
1.0 2 2
1.1 4 6
1.2 7 13
1.3 8 21
1.4 11 32
1.5 14 46
1.6 10 56
1.7 9 65
1.8 10 75

TOTAL 75

22
El diagrama acumulativo se muestra a continuación:

2. Método de las frecuencias agrupadas

Cuando, como en el ejemplo 1.14, el número de valores que toma la variable es elevado, se
usa el método de las frecuencias agrupadas. Aquí los datos se distribuyen en clases o
categorías y luego se determina el número de datos pertenecientes a cada clase, que es la
frecuencia de clase, f. Un ordenamiento de esta naturaleza se conoce como una
distribución de frecuencias o tabla de frecuencias. Un símbolo que define una clase, tal
como 1.0 – 1.1, se conoce como intervalo de clase. Los números extremos, 1.0 y
1.1, son los límites de clase; el número 1.0 es el límite inferior de la clase, li y el mayor
1.1 es el límite superior, ls. Los términos clase e intervalo de clase se utilizan a menudo
indistintamente. La técnica del método de frecuencias agrupadas se describe a
continuación, utilizando el ejemplo 1.14:

1. Se determina el intervalo total de variación, recorrido, rango o amplitud, R. Aquí,


R= Ls –Li, donde Ls y Li son el mayor y menor dato observado respectivamente.
Entonces,
R=Ls –Li =1.8 – 1.0=0.8

23
2. Decidir el número de clases, h, que se va a emplear. No existe número idóneo,
aunque conviene evitar los extremos: un número pequeño de clases “diluiría” las
diferencias y perdería “finura” la distribución, es decir, no se podrían observar
características importantes de los datos; optar por un número excesivamente grande de
clases, se proporcionan demasiados detalles, se desvirtuaría el método, ya que con el se
pretende una simplificación de cálculos. Puede aconsejarse un número discreto entre 5 y 20
clases. Una regla empírica es calcular la raíz cuadrada del número de datos, n, y ajustarla
para adaptarla (si es necesario) a los límites 5 y 20. Otra forma es utilizar la fórmula
empírica de Sturges:
h=1 + (3.32) Ln( n)

Aquí, mientras no se diga lo contrario, utilizaremos el método de la raíz cuadrada del


número de datos. En el caso nuestro que para adaptarla al problema se ajusta a
75  8.6,
9.
Si se esta imposibilitado para juzgar los efectos del agrupamiento, entonces bajo
condiciones ordinarias (una muestra que no es muy grande y se cuenta con facilidad de
cálculo) se debe considerar la posibilidad de usar los datos originales no
agrupados. En definitiva, el número de intervalos lo dictará cada circunstancia en
particular.

3. Dividir el rango R entre h, para obtener la amplitud o ancho de clase, c o i. Así,

R
ci  (0.8) / 9  0.088  0.1
h
el cual redondeamos a 0.1 por ser más operativo. Cuando sea conveniente, un ancho de
clase par suele ser ventajoso.

4. Es necesario delimitar muy claramente los extremos de cada una de las clases, a fin de
que no haya ninguna duda al asignar cada dato a su clase correspondiente. Se forman los
intervalos, agregando el ancho al límite inferior de cada clase, iniciando por el menor de
todos los datos o por uno un poco menor que él. Así, por ejemplo, la primera clase es

1.0 - 1.1 o bien 1.0 < 1.1, y


x
la segunda clase es
1.1 - 1.2 o bien 1.1 < 1.2
x

De manera similar se encuentran las restantes clases, para obtener finalmente la tabla
siguiente:

24
Intervalo
1.0 - < 1.1
1.1 - < 1.2
1.2 - < 1.3
1.3 - < 1.4
1.4 - <1.5
1.5 - <1.6
1.6 - <1.7
1.7 - <1.8
1.8 - <1.9

5. Encontrar las frecuencias de clase, f, contando el número de datos que caen en cada
intervalo y este número anotarlo en la columna correspondiente a las frecuencias. El total
de esta columna debe ser igual a n (75), el número de datos.

Intervalo Frecuencia

1.0 - <1.1 2
1.1 - <1.2 4
1.2 - <1.3 7
1.3 - <1.4 8
1.4 - <1.5 11
1.5 - < 1.6 14
1.6 - < 1.7 10
1.7 - <1.8 9
1.8 - <1.9 10

Total 75

25
La tabla de distribución de frecuencias puede ser ampliada con una tercera columna, en
donde se indique la frecuencia relativa.

La frecuencia relativa de una clase, fr, es la frecuencia de la clase f, dividida por el total
de frecuencia n, y se expresa generalmente también como porcentaje. Así,

fr= f/n • 100%

La suma de las frecuencias relativas de todas las clases es evidentemente 1 ó 100%.

Intervalo Frecuenci Frecuencia Relativa


a fr
f
1.0 - <1.1 2 0.0266
1.1 - <1.2 4 0.0533
1.2 - <1.3 7 0.0933
1.3 - < 1.4 8 0.1066
1.4 - <1.5 11 0.1466
1.5 - < 1.6 14 0.1866
1.6 - <1.7 10 0.1333
1.7 - <1.8 9 0.1200
1.8 - <1.9 10 0.1333
Total 1.0000

26
6. Una vez establecidas las clases, han de establecerse las marcas de clase de cada una
de ellas. La marca de clase, x, o Pm es el punto medio de la clase y se obtiene
sumando los límites inferior y superior de la clase y dividiendo por 2. Así, la marca de clase
del intervalo 1.0 - 1.1 es

(1.0 + 1.1)(1/2) = 1.05

Para análisis matemáticos posteriores, todas las observaciones pertenecientes a un


intervalo de clase dado se suponen coincidentes con la marca de clase.

Marca de clase
Intervalo
x ó Pm

1.0 - < 1.1 1.05

1.1 - < 1.2 1.15

1.2 - <1.3 1.25

1.3 - < 1.4 1.35

1.4 - <1.5 1.45

1.5 - < 1.6 1.55

1.6 - < 1.7 1.65

1.7 - < 1.8 1.75

1.8 - < 1.9 1.85

27
Histograma y polígono de frecuencia son las representaciones gráficas de las
distribuciones de frecuencias.

1. Un histograma o histograma de frecuencias consiste en una serie de rectángulos que


tienen:

a. Sus bases sobre un eje horizontal (el eje x) con centro en las marcas de clase y longitud
igual al ancho de clase.

b. Superficies proporcionales a las frecuencias de clase.


Si los intervalos de clase tienen todos iguales tamaños, las alturas de los rectángulos son
proporcionales a las frecuencias de clase y se acostumbra en tal caso a tomar las alturas
numéricamente iguales a las frecuencias de clase.

2. Un polígono de frecuencias es un gráfico de línea trazado sobre las marcas de clase.


Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el
histograma.

Histograma con anchos de clase desiguales

Las clases de igual anchura podrían no ser lo mejor si un conjunto de datos contiene
algunos valores atípicos. Si se usa una cantidad pequeña de clases de igual anchura, casi
todas las observaciones caen sólo en algunas de las clases. Si se usa una gran cantidad de
clases de igual anchura, muchas tendrían frecuencia cero. Una elección adecuada es usar
unos cuantos intervalos más amplios cerca de las observaciones extremas, e intervalos más
angostos en la región de gran concentración.

28
Si los anchos de clase son desiguales, después de determinar las frecuencias y las
frecuencias relativas, calculamos la altura de cada rectángulo con la fórmula

frecuencia relativa de la clase


altura del rectángulo=
ancho de la clase

Las alturas que resultan suelen llamarse densidades, y la escala vertical es la escala de
densidad. Esto también funciona cuando los anchos de clase son iguales. Por lo tanto, si
todos los intervalos de clase tienen el mismo ancho, entonces el histograma tendrá la misma
forma si las alturas representan las densidades o las frecuencias. En este caso, hacer las
alturas iguales a las frecuencias no es engañoso. Sin embargo, cuando se desea hacer
intervalos de clase de anchos diferentes, es importante que las alturas de los rectángulos
sean iguales a las densidades y no a las frecuencias o las frecuencias relativas.

Ejemplo 1.15. Considere los siguientes datos sobre el tiempo activo de reparación (horas)
para una muestra de n=46 receptores de comunicaciones:

0.2 0.3 0.5 0.5 0.5 0.6 0.6 0.7 0.7 0.7 0.8 0.8
0.8 1.0 1.0 1.0 1.0 1.1 1.3 1.5 1.5 1.5 1.5 2.0
2.0 2.2 2.5 2.7 3.0 3.0 3.3 3.3 4.0 4.0 4.5 4.7
5.0 5.4 5.4 7.0 7.5 8.8 9.0 10.3 22.0 24.5
Construya un histograma basado en seis intervalos de clase con 0 como límite inferior
del primer intervalo y longitudes de intervalos de 2, 2, 2, 4, 10 y 10, respectivamente.

Solución:

Interval Frecuenci Frecuencia relativa Densida


o a d
0-<2 23 0.500 0.250
2-<4 9 0.196 0.098
4-<6 7 0.152 0.076
6-<10 4 0.087 0.022
10-<20 1 0.022 0.002
20-<30 2 0.043 0.004

29
Un histograma de densidades tiene una propiedad interesante. Al multiplicar ambos
lados de la fórmula de densidad por el ancho de clase se obtiene

frecuencia relativa=(ancho de clase)(densidad)


=(ancho del rectángulo)(altura del rectángulo)
=área del rectángulo

Esto es, el área de cada rectángulo es la frecuencia relativa de la clase correspondiente.


Además, como la suma de las frecuencias relativas debe ser 1.0 (salvo en los redondeos), el
área total de todos los rectángulos en un histograma de densidad es 1.

Histograma utilizando Excel

Pasos:

1. Rango de entrada: introducir la referencia de celda correspondiente al rango de


datos que desea analizar.
2. Rango de clases: introducir el rango de celdas que definen los extremos de los
intervalos de clase. Estos valores deberán estar en orden ascendente. Si se omite el
rango de clase, se creará un conjunto de clases distribuidas igualmente entre los
valores mínimo y máximo de los datos.
3. Rótulos: activar si la primera fila y la primera columna del rango de entrada
contiene rangos.
4. Opciones de salida: rango de salida, en una hoja nueva o en un libro nuevo.
5. Crear gráfico: genera un gráfico de histograma incrustado con la tabla de resultados.

Tomando el ejemplo 1.14, se genera el siguiente histograma:

30
Clase Frecuencia
1,1 6
1,2 7
1,3 8
1,4 11
1,5 14
1,6 10
1,7 9
1,8 10
1,9 0
y mayor... 0

Espesor de 75 piezas (mm)


16
14
12
10
8
Frecuencia 6
4
2
0

Espesor

Si las frecuencias absolutas se sustituyen por las correspondientes frecuencias relativas,


la tabla resultante se llama distribución de frecuencias relativas, distribución porcentual
o tabla de frecuencias relativas. Las representaciones gráficas de distribuciones de
frecuencia relativa pueden obtenerse del histograma o polígono de frecuencias, sin más que
cambiar la escala vertical de frecuencia o frecuencia relativa, conservándose exactamente el
mismo diagrama. Los gráficos que resultan se llaman histogramas de frecuencias
relativas o histogramas porcentuales y polígonos de frecuencias relativas o polígonos
porcentuales, respectivamente.

Se denomina frecuencia acumulada ascendente, Fa, hasta un intervalo de clase, a la


suma de las frecuencias de los intervalos anteriores a él, hasta los de ese intervalo.

La frecuencia acumulada ascendente señala cuántos datos son menores o iguales a un


determinado valor.

31
Se denomina frecuencia acumulada descendente, Fd, hasta un intervalo de clase, a la
suma de las frecuencias de los intervalos posteriores a él, hasta los de ese intervalo.

La frecuencia acumulada descendente señala cuántos datos son mayores o iguales a un


valor determinado.
La columna correspondiente a la frecuencia acumulada ascendente se halla sumando las
cantidades de arriba hacia abajo, mientras que la frecuencia acumulada descendente se halla
sumando las cantidades de abajo hacia arriba.

Intervalo f Fa Fd
1.0 - < 1.1 2 2 75
1.1 - < 1.2 4 6 73
1.2 - < 1.3 7 13 69
1.3 - < 1.4 8 21 62
1.4 - < 1.5 11 32 54
1.5 - < 1.6 14 46 43
1.6 - < 1.7 10 56 29
1.7 - < 1.8 9 65 19
1.8 - < 1.9 10 75 10

La representación gráfica de la frecuencia acumulada recibe el nombre de ojiva.

Pueden ser de dos clases las ojivas: ascendentes o descendentes.


La ojiva ascendente se construye de la manera siguiente:
1. Sobre el eje horizontal se colocan los intervalos.

2. Se colocan sobre el eje vertical las frecuencias acumuladas ascendentes.

3. El punto (ls, Fa) se forma con el extremo superior del intervalo y la frecuencia
acumulada ascendente respectiva.

4. Se le asigna cero al limite inferior del primer intervalo; con lo cual graficamos un
punto adicional, que es donde principia la ojiva ascendente.

5. Los puntos graficados se unen a través de segmentos de recta.

El procedimiento para la construcción de la ojiva descendente es semejante al de la ojiva


ascendente; la diferencia consiste en que se forma el punto (l i, Fd) con el extremo inferior
del intervalo y la frecuencia acumulada descendente y asignando cero al límite superior del

32
último intervalo, con lo que se tiene un punto adicional, que es donde finaliza la ojiva
descendente.

P es el punto de intersección de las ojivas. Al trazar una recta perpendicular desde P


hacia el eje horizontal, esta corta a dicho eje en el valor, , que se llama mediana. La
x%
mediana es el valor que divide a los datos en dos partes iguales. Aquí, , lo que
x% 1.54 mm
significa que es el valor que deja sobre si y bajo si el 50% de los datos.
x%
Si los intervalos tienen anchos diferentes, los ejes se construyen de la misma manera.
Si la muestra es extraída de una población grande, es posible teóricamente (para datos
continuos) elegir los intervalos de clase muy pequeños. Así, el polígono de frecuencias o el
de frecuencias relativas puede estar formado por muchos pequeños segmentos rectos que
aproximan el conjunto a una curva, que suele llamarse curva de frecuencia o curva de
frecuencia relativa, respectivamente.
Tales curvas teóricas provienen de la suavización de los polígonos de frecuencias de la
muestra y la aproximación es tanto más exacta en la medida como aumenta el tamaño de la
muestra. Por esta razón una curva de frecuencias se llama polígono de frecuencias
suavizado.
Las curvas de frecuencias se clasifican de acuerdo a determinadas características como
se muestran a continuación:

33
Simétrica: Ambos lados de la distribución son idénticos.

Uniforme o rectangular: Cada valor aparece con igual frecuencia.

Sesgada: Una cola es más larga que la otra. La dirección del sesgo es del lado de la cola
más larga. Si el sesgo es a la derecha, este responde a la variabilidad que presentan ciertas
variables que no siguen una ley normal, como los tiempos de vida.

En forma de J: No hay cola del lado de la clase con la frecuencia más alta.

Bimodal: Las dos clases más pobladas están separadas por una o más clases. Esta situación
a menudo implica que se están muestreando dos poblaciones. La curva bimodal resulta
cuando el conjunto de datos está formado por observaciones de dos tipos distintos de
individuos u objetos.
Normal: Alrededor de la media se forma una distribución simétrica en forma de montículo
que se vuelve más dispersa en los extremos. Representa la variabilidad debida a causas
aleatorias.
Se puede elaborar también un diagrama de tallo y hojas para datos que se han resumido
en una tabla de distribución de frecuencias.

Ejemplo 1.16. El periodo de almacén (vida de anaquel) de una película fotográfica de alta
velocidad está siendo investigada por un fabricante. Se dispone de los siguientes datos.

125 140 121 141


127 125 127 147
140 124 128 150

34
135 122 134 132
126 121 140 143
120 127 121 121
121 130 126 124
142 131 124 131
151 141 125 141
155 137 127 127

Agrupando los datos en una tabla de distribución de frecuencias, elabore un diagrama de


tallo y hojas.

Solución:

Agrupando los datos en una tabla de distribución de frecuencias como la siguiente:

Vida (días) f

120 - <125 10

125 - <130 11

130 - <135 5

135 - <140 2

140 - <145 8

145 - <150 1

150 - <155 2

155 - < 160 1

Se reemplaza en cada clase los datos por su último dígito y se divide la misma decena
en dos clases: la primera asignándole 0, 1, 2, 3 y 4 y la segunda 5, 6, 7, 8 y 9, así:

35
Esto puede diagramarse de la siguiente manera:

1.7 Estadísticos
Los datos que caracterizan a una población se llaman parámetros y los que caracterizan a
una muestra se llaman estadísticos. Por ejemplo, el porcentaje de mujeres en toda la
república de El Salvador, es un parámetro; mientras que el porcentaje de mujeres, de entre
un total de 438 personas que se encuentran en una reunión, es un estadístico.
Los estadísticos, permiten de una forma cuantitativa, al margen de todo subjetivismo, la
comparación entre distintas series estadísticas y la valorización, en números, de sus
diversas características.
Son de cinco clases estas medidas: los estadísticos de centralización que suministran los
valores centrales o promedios alrededor de los cuales se agrupan los datos de la serie; los de
Posición que describen la posición de datos con respecto al resto; los de dispersión que
miden la mayor o menor regularidad de agrupamiento de la serie, sobre las medidas
centrales; las medidas de asimetría que cuantifican, como su nombre indica, la asimetría de
la distribución; y estadísticos de prominencia, que son capaces de comparar, a igualdad de
dispersión, la densidad de frecuencias centrales.

36
1.8
Promedios o medidas de centralización
U
n promedio es un valor, que es típico, o representativo de un conjunto de datos. Como
tales valores tienden a situarse en el centro del conjunto de datos ordenados según su
magnitud, los promedios se conocen también como medidas de centralización.
Se pueden definir varios tipos de medidas de centralización, las más comunes son la
media aritmética o brevemente media, la mediana, la moda, la media geométrica, la
media cuadrática y la media armónica. Cada una de ellas tiene sus ventajas e
inconvenientes, dependiendo la aplicación de una u otra de los resultados que se pretenden
sacar de los datos.

Media aritmética:
x
DEFINICION.

La media aritmética o media de un conjunto de n números x1, x2, … xn se representa


por y se define como
x

x1  x2  .. .  xn
x
n

Para representar la suma se usa el símbolo Así, significa que


x1  x 2  . . .  x n . n
 xi
i 1
debemos sumar los elementos , los que inician con (cuando i=1) y finalizan con
xi x1 xn
(cuando i=n). Con esta notación, la media se escribe de la manera siguiente:

37
n

x1  x2  . . .  xn x i
x  i 1
n n

La media aritmética de una población se denota por: .

Cuando se redondea una respuesta, se acordará mantener un sitio decimal más en la


respuesta del que hay en la información original. Para evitar la acumulación de
redondeo, éste sólo se hará en la respuesta final y no en los pasos intermedios.

Ejemplo 1.17. Cinco piezas de una aleación de níquel, seleccionadas al azar, tienen las
siguientes cantidades de níquel (en porcentaje)

79.4, 79.0, 78.9, 79.2 y 78.9

La media aritmética es
_
79.4  79.0  78.9  79.2  78.9 395.4
x   79.08 %
5 5

Otras de las grandes herramientas que existen en Excel son las funciones: fx. Las
funciones nos permiten realizar operaciones más complejas y de forma sencilla, tanto con
valores numéricos o valores de texto.

Todas las funciones tienen en común, el nombre de la función la cual la identifica y una
serie de argumentos, todos ellos separados por puntos y comas, todos ellos dentro de
paréntesis. Veremos que puede haber alguna función que no tenga ningún tipo de
argumento, pero siempre existirán los paréntesis después del nombre de la función.

Tomando el ejemplo precedente, a manera de ilustración tenemos:

Función Sintaxis Descripción Ejemplo

=PROMEDIO(número1;número2; Calcular el =PROMEDIO(79,4;79,0;78,


…) promedio 9;79,2;78,9)
(media
Número1, número2;… son entre 1 y aritmética) de Excel devuelve 79,08.
PROMEDIO 30 argumentos numéricos cuyo los
promedio se desea obtener. argumentos =PROMEDIO(A1:A5)

Excel devuelve el promedio


de los números que estén

38
en el rango de celdas, es
decir, 79,08

DEFINICION.

Si los números x1, x2, . . . , xk se presentan f1, f2, . . . , fk veces, respectivamente (es decir,
se presentan con frecuencias f1, f2, . . . , fk), la media aritmética es
f x  f 2 x2  . . .  f k xk  f i xi  f i xi
x 1 1    
f1  f 2  . . .  f k  fi n
donde n= es la frecuencia total es decir, el número total de casos.
 fi

Ejemplo 1.18. Si 4, 8, 9 y 6 se presentan con frecuencias 3, 5, 4 y 2 respectivamente, la


media aritmética es
_
(3)(4)  (5)(8)  (4)(9)  (2)(6)
x  7.1
35 4 2

Media aritmética ponderada


DEFINICION

A veces se asocia a los números x1, x2,. . . , xk ciertos factores o pesos w1, w2, . . . , wk que
dependen de la significación o importancia de cada uno de los números. En este caso
w1 x1  w2 x2  . . .  wk xk  wk
x 
w1  w2  . . .  wk w
se llama media aritmética ponderada.

Nótese la similitud con (*), que puede considerarse como una media aritmética con los
pesos f1, f2,. . ., fk.

Ejemplo 1.19. Un estudiante de la asignatura de Probabilidad y Estadística obtuvo en sus


cinco evaluaciones: 6.0, 8.0, 5.4, 7.0 y 6.3. Hallar la nota final de ciclo si las ponderaciones
son: 0.25, 0.10, 0.30, 0.10 y 0.25 respectivamente.

_
(6.0)( 0.25)  (8.0)( 0.10)  (5.4)(0.30)  (7.0)(0.10)  (6.3)( 0.25)
x
0.25  0.10  0.30  0.10  0.25
_
x 6.20
Propiedades de la media aritmética

DEFINICION

39
Definimos la desviación de una variable con respecto a su media como la cantidad

di  xi  x .

Nótese que a la derecha de la media, la variable produce desviaciones positivas y a la


izquierda desviaciones negativas.

Las principales propiedades matemáticas que posee la media aritmética son:

1. “Es siempre igual a cero la suma de las desviaciones de la variable respecto de la media
aritmética”. Es decir,
 di 0
Demostración:

 _
 _
 xi  _ _ _
 i   x i 
 x  x  x n n
 x n x  n x 0
 

2. “La media aritmética de una constante, es igual a la constante”. Es decir,

c c

Demostración:

c
 c  c  c  ...  c  nc c
n n n

3. “La media aritmética del producto de una constante por una variable es igual al producto
de la constante por la media aritmética de la variable”. Es decir,
__
cx cx
Demostración:
___
cx 1  cx 2  ...  cx n c( x 1  x 2  ...  x n ) c x i _
cx  cx i    c x
n n n
4. “La media aritmética de la suma de una variable más una constante es igual a la
suma de la media aritmética de la variable más la constante”. Es decir,
_______
xc  x c
Demostración:

________
  x i  c    x 1  c  ( x 2  c)  ...   x n  c
x c  n n
x  x 2  ...  x n nc
 1 
n n


 xi  c
n
_
x  c
40
5. “Si f1 números tienen como media a , f2 números tienen como media ,. . ., fk
x1 x2
números tienen como media , entonces la media de todos los números es
xk
__
f1 x1  f 2 x2  ...  f k xk
x f1  f 2  ...  f k

es decir, una media ponderada de todas las medias”.

Demostración:

Sea la suma de las f1, f2, .. . , fk números m1, m2,. . . , mk respectivamente. Entonces por
definición de media aritmética,

__
m1 __
m2 __
m __ __ __
x1  , x2  ,..., x k  k o m1 f1 x 1 , m 2 f 2 x 2 ,..., m k f k x k
f1 f2 fk

Puesto que todos los números (f1+f2+…+fk) suman (m1+m2+…+mk) la media


aritmética de todos los números es

m1  m2  ...  mk
x
f1  f 2  ...  f k

f1 x1  f 2 x2  ...  f k xk

f1  f 2  ...  f k

Ejemplo 1.20. Los tiempos de reparación (manipulación y ajuste de las herramientas) para
cortar seis partes del motor en un torno son 0.6, 1.2, 0.9, 1.0, 0.6 y 0.8 minutos. Encontrar
la media aritmética y verificar que la suma de las desviaciones con respecto a la media
aritmética, es cero.

x
 x  0.6  1.2  0.9  1.0  0.6  0.8  0.85
n 6

xi x-
x
0.6 -0.25
1.2 0.35
0.9 0.05
1.0 0.15
0.6 -0.25
0.8 -0.05

41
  x  x   0.25  0.35  0.05  0.15  ( 0.25)  ( 0.05) 0
Ejemplo 1.21. El salario promedio en la empresa Textilera “EL Gusano” es de $ 300
mensual. Si cada salario se incrementa en 10%, más $ 25 por gastos de transporte, ¿Cuál es
el nuevo salario promedio?
Solución:

Sea x el salario actual y 0.10x su incremento (10% ó 10/100 ó 0.10 de x), entonces el nuevo
salario promedio es

_________________ _______
x  0.10 x  25  1.10 x  25  1.10 x  25  1.10 x  25  1.10(300)  25  $ 355.0

Ejemplo 1.22. En una fábrica con 80 empleados, 60 ganan un promedio de $ 1.00 por
hora y 20 ganan un promedio de $ 2.00 por hora. Determinar la media del salario por hora.

Solución:

_
(60)(1.0)  (20)(2.0) 60  40 100
x    $ 1.250
60  20 60  20 80

Media aritmética calculada a partir de datos agrupados


En un gran número de distribuciones de frecuencias, ya no es posible determinar las
observaciones individuales, sino sólo los intervalos de clase a los cuales pertenecen. En
tales casos, podemos aproximar la media. Esto requiere que se suponga que las
observaciones se concentran en el punto medio de la clase. La fórmula (*) es válida para
tales datos agrupados si se interpreta xi (ó Pm) como la marca de clase y fi su
correspondiente frecuencia de clase. Con esto

x
 xi f i
n
Ejemplo 1.23. Los siguientes datos son mediciones de 40 emisiones diarias (en toneladas)
de óxido de azufre de una planta industrial.

15.8 24.1 15.2 13.5 22.3


17.3 28.6 26.6 14.5 11.8
23.9 23.7 21.4 29.6 20.0
18.7 22.7 21.6 17.0 31.7
9.0 20.5 19.0 24.3 10.5
13.2 20.9 23.0 24.6 27.5
9.8 19.4 20.1 18.1 17.9
14.7 10.7 18.0 21.9 24.1

a) Construya una tabla de distribución de frecuencias.


b) Halle .
x

42
Solución:
a) Tómese aquí como entonces =6.32 y h=6. Así,
h  n, 40

R Ls  Li 31.7  9.0
c    3.78  3.8 Tn.
h h 6
con esto se construye la tabla de distribución de frecuencias.

PESOS (Tn.) f x xf
9.0 - <12.8 5 10.9 54.5
12.8 - < 16.6 6 14.7 88.2
16.6 - < 20.4 10 18.5 185.0
20.4 - < 24.2 12 22.3 267.6
24.2 - < 28.0 4 26.1 104.4
28.0 - < 31.8 3 29.9 89.7

Total 40 89.4
Total

b) La media es

x
 xf 
789.4
 19.74 toneladas
n 40

Ventajas y desventajas de la media

Ventajas:
1. Contiene toda la información de los datos de la distribución, lo que le confiere,
como promedio, un carácter muy representativo.
2. Siempre puede ser determinada, es fácil de calcular y admite todas las operaciones
aritméticas.
3. Es el estadístico más útil para análisis posteriores.

Desventajas:
1. Sensible al cambio de valores extremos por un lado, que no se compensen por
valores extremos en el lado contrario.
2. No se puede determinar si en una distribución de frecuencias hay intervalos de clase
abiertos.
3. No es recomendable emplearla en distribuciones muy asimétricas. ▄

La Mediana: ó Md
~
x

DEFINICION

43
La mediana de una colección de datos ordenados de menor a mayor es el valor medio

o la media aritmética de los dos valores medios.

Ejemplo 1.24. Hallar la mediana de los números: 8, 3, 8, 4, 6, 5, 8, 10, 4.

Solución:
Ordenando los datos de acuerdo a su magnitud: 3, 4, 4, 5, 6, 8, 8, 8, 10, se tiene que
~
x  6.
Solución alterna con Excel:

Función Sintaxis Descripción Ejemplo

=MEDIANA(número1;número2;…) Calcular la =MEDIANA(8;3;8;4;6;5;8;10;4


mediana de )
Número1, número2;… son entre 1 los
y 30 argumentos numéricos cuya argumentos Excel devuelve 6.
MEDIANA mediana se desea obtener.
=MEDIANA(A1:A9)

Excel devuelve la mediana de


los números que estén en el
rango de celdas, es decir, 6.

Ejemplo 1.25. Hallar la mediana de los números: 9, 2, 7, 11, 14, 6.

Solución:

Ordenando de acuerdo a su magnitud: 2, 6, 7, 9, 11, 14, la mediana es el valor medio entre


7 y 9, el cual es

.
~
x 79
 8.0
2

En términos generales, la mediana ocupa la posición (n+1)/2, como se puede


comprobar para los ejemplos 1.24 y 1.25.

44
Si se ordenan las observaciones por orden de magnitud y si n es impar, la mediana es la
observación que aparece en el lugar (n+1)/2; si n es par, la mediana es el promedio de las
observaciones que están en los lugares n/2 y n/2 + 1. Así,


La media recortada:
x rec
Suponga que los datos se acomodan en orden creciente, se elimina un porcentaje T de las
observaciones en cada extremo y luego se calcula la media muestral con las observaciones
que quedan. La cantidad resultante se conoce como media recortada. Una media
recortada es una medida entre y . ¿Por qué?
x ~
x
Una media recortada al 10% , por ejemplo, se calcularía eliminando 10% de
( x rec (10 ) )
los valores más pequeños y el 10% de los valores más grandes de la muestra y luego se
promedia lo que queda.

Ejemplo 1.26. Se obtuvieron datos de resistencia a la flexión (MPa) de vigas de concreto


de cierto tipo:
6.1 5.8 7.8 7.1 7.2 9.2 6.6 8.3 7.0 8.3

7.8 8.1 7.4 8.5 8.9 9.8 9.7 14.1 12.6 11.2
Calcular .
x rec (10)

Solución:

La media de las 20 observaciones es =8.58 MPa. La media recortada al 10% se obtiene


x
desechando las dos observaciones más pequeñas (5.8 y 6.1) y las dos observaciones más
grandes (12.6 y 14.1) y luego se promedian las restantes 16 para obtener 8.31
xrec (10) 
MPa. El efecto de eliminar datos aquí es obtener un “valor central” que está un poco arriba
de la mediana y, todavía, bastante debajo de la media.

45
En términos generales, al utilizar una media recortada con una proporción moderada de
datos eliminados se obtiene una medida que no es tan sensible a valores inusuales como la
media, ni tan insensible como la mediana. Por este motivo, las medias recortadas llaman
cada vez más la atención. ▄

Mediana calculada a partir de datos agrupados


Supóngase que las observaciones en cada clase se “dispersan uniformemente” a través del
intervalo de clase, la mediana se obtiene por interpolación por medio de la fórmula

~  n / 2  Fa 
x  li  c 
 f 

donde li: límite inferior de la clase mediana


c: ancho de la clase mediana
n: número de datos
Fa: frecuencia acumulada anterior a la clase mediana
f: frecuencia de la clase mediana

Demostración:
La deducción de la fórmula anterior es la sencilla aplicación de una semejanza de triángulos
que se producen al cortar por la mitad de la frecuencia total, n/2 el polígono de frecuencia
acumulado ascendente (ojiva ascendente)

Aquí, pero entonces


___ ___ ___
~
x l i  HI , HI AE,
___
~
x l i  AE
por semejanza de triángulos
___ ___ ___
AE PE AE n / 2  Fa
___
 ___
ó  ,
AD BD c f

46
de donde entonces
___
n/2  Fa 
AE c  ,
 f 
~ n /2  Fa 
x l i  c  
 f 

Si las observaciones en cada clase no se dispersan uniformemente, la fórmula anterior se


convierte en la fórmula
 ( n  1) / 2  Fa 
x% li  c  
 f 
Ejemplo 1.27. La edad de cada uno de los 50 visitantes que asistieron a una exhibición
científica viene dado por la siguiente tabla de frecuencias.

Edad Númer
o
0 - < 10 6
10 - <20 18
20 - < 30 11
30 - < 40 3
40 - < 50 0
50 - < 60 8
60 - < 70 4
50
Halle .
~
x
Solución:

Completando la columna correspondiente a la frecuencia acumulada ascendente se tiene

Edad f Fa

0 - <10 6 6

10 - < 20 18 24

20 - < 30 11 35

30 - < 40 3 38

40 - < 50 0 38

50 - <60 8 46

60 - <70 4 50

47
50

Aquí, n /2 = 25. La clase mediana es la 3ª clase, entonces

 n / 2  Fa 
x% li  c  
 f 

 25  24 
x% 20  10 
 11 

x% 20.9 años

Ventajas y desventajas de la mediana


Ventajas:
1. No es afectada por valores extremos tan grave como a la media.
3. Es fácil de entender y se puede calcular a partir de cualquier tipo de datos, incluso a
partir de datos agrupados con clases de extremo abierto, a menos que la mediana
entre en una clase de extremo abierto.
4. Podemos encontrarla incluso cuando nuestros datos son descripciones cualitativas.
Desventajas:
1. Ciertos procedimientos estadísticos son más complejos que aquellos que utilizan la
media.
2. Debido a que es una posición promedio, debemos ordenar los datos antes de llevar a
cabo cualquier cálculo. ▄

La moda: ó
x̂ Mo
DEFINICION

La moda de una serie de datos es aquel dato que se presenta con la mayor frecuencia, es
decir, es el valor más común.

La moda puede no existir, incluso si existe puede no ser única.

Ejemplo 1.28. Considérense los datos 9, 2, 7, 11, 14, 7, 2, 7. El valor 7 ocurre tres veces,
el 2 aparece dos veces y el resto ocurre una vez cada uno, luego, .
xˆ  7

Solución alterna con Excel:

Función Sintaxis Descripció Ejemplo


n

48
=MODA(número1;número2;…) Calcular la =MODA(9;2;7;11;14;7;2;7)
moda de los
Número1, número2;… son entre argumentos Excel devuelve 7.
1 y 30 argumentos numéricos
MODA cuya moda se desea obtener. =MODA(A1:A8)

Excel devuelve la moda de los


números que estén en el rango
de celdas, es decir, 7.

Ejemplo 1.29. Sean los datos 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7, y se


llama bimodal.

La moda no es una medida de tendencia central muy usual, pero sirve en los negocios,
por ejemplo para determinar que tamaño del producto es el de mayor demanda. Por
ejemplo, un fabricante de camisetas esta interesado en la talla de mayor demanda. Una
distribución que tiene una sola moda se llama unimodal.

Moda calculada a partir de datos agrupados


En el caso de datos agrupados donde se ha construido una curva de frecuencias para ajustar
los datos, la moda será el valor (o valores) de x correspondientes al máximo (o máximos)
de la curva.
Dada una distribución de frecuencias o un histograma, la moda puede calcularse por la
fórmula
 1 
xˆ  li  c  
 1   2 
Donde li: límite inferior de la clase modal
c: ancho de la clase modal
=fi - fi – 1: exceso de la frecuencia modal sobre la frecuencia de la clase
1
contigua inferior
= fi - fi + 1: exceso de la frecuencia modal sobre la frecuencia de la
2
clase contigua superior
Demostración:
Considérese en el histograma del ejemplo 1.27 el rectángulo más alto y sus rectángulos
adyacentes. El rectángulo más alto corresponde a la clase modal.

49
Definamos la moda como la abscisa del punto de intersección P de las líneas QS y RT.

Sea li y ls los limites inferior y superior de la clase modal, y y representan,
1 2
respectivamente, el exceso de frecuencia de la clase modal sobre las dos clases contiguas a
ella.
De los triángulos semejantes PQR y PST,
EP PF x̂  l i l s  x̂
 o 
RQ ST 1 2

Entonces,
 2 ( x̂  l i ) 1 (l s  x̂ )
 2 x̂   2 l i 1l s  1 x̂

(1   2 ) x̂ 1l s   2 l i
 l   2li
x̂  1 s
1   2
pero, entonces
l s l i  c,
1 (li  c)   2li
xˆ 
1   2

50
(1   2 )li  1c
xˆ 
1   2

 1 
xˆ  li  c  
 1   2 

Este resultado tiene la siguiente interpretación de interés: si se construye una parábola de


modo que pase por los puntos medios de las bases superiores de los tres rectángulos, la
abscisa del máximo de esta parábola será la moda obtenida anteriormente.

Ejemplo 1.30. Determine la moda del ejemplo 1.27.

Solución:

Aquí,
l i 10, 1 f i  f i 1 18  6 12,  2 f i  f i1 18  11 7
Entonces
y c 10.

 1 
xˆ  li  c  
 1   2 

 12 
xˆ  10  10 
12  7 
xˆ  16.3 años

Ventajas y desventajas de la moda


Ventajas:
1. Puede utilizarse como una posición central para datos tanto cualitativos como
cuantitativos.
2. No es afectada indebidamente por valores extremos.
3. Podemos utilizarla aun cuando los valores extremos sean muy altos o muy bajos.
4. Podemos utilizarla aun cuando una o más clases sean de extremo abierto.

Desventajas:
1. Muchas veces no existe debido a que a que el conjunto de datos no contiene valores
que se presenten más de una vez.
2. En ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.
3. Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil
interpretarlos y compararlos.

4. En distribuciones muy asimétricas suele ser un dato muy poco representativo.


5. Carece de rigor matemático. ▄

51
Relación empírica entre la media, mediana y moda
Para curvas de frecuencias unimodales que sean moderadamente sesgadas (asimétricas), se
tiene la relación empírica
x  x̂ 3( x  ~
x)
A continuación se muestran las posiciones relativas de la media, mediana y moda para
curvas de frecuencias que están sesgadas a la derecha y a la izquierda respectivamente.
I. Distribución Simétrica.
Para curvas simétricas, la media, moda y media coinciden.

II. Distribución asimétrica hacia la derecha


Asimétrica hacia la derecha o sesgada hacia la derecha o asimétrica hacia los valores
más altos (una distribución positivamente asimétrica).

III. Distribución asimétrica hacia la izquierda


Asimetría hacia la izquierda o sesgada hacia la izquierda o asimetría hacia los valores
más bajos (una distribución negativamente asimétrica).


1.9 Medidas de posición
Las medidas de posición se usan para describir la posición de datos específicos con
respecto al resto de los datos.

52
Los cuartiles: Qk
DEFINICION
Sean x1, x2,… , xn un conjunto de n datos ordenados por orden de magnitud. El primer
cuartil, Q1, es aquel que deja a la izquierda ¼ (25%) de los datos y es menor que ¾
(75%) de los datos. El segundo cuartil, Q2, es la mediana. El tercer cuartil, Q3, sobrepasa
¾ (75%) de los datos y es menor que ¼ (25%) de ellos.

Los cuartiles para datos no agrupados

Existen diferentes formas de calcular cuartiles, pero todas dan aproximadamente el mismo
resultado. Un método cuando se calcula manualmente el k-ésimo cuartíl es el siguiente:
1. Ordenar los datos del más pequeño al más grande
2. Calcular k(n/4)

Se obtiene un entero w Se obtiene un número mixto:


3. La posición de Qk es: w + ½=w.5, 3. La posición de Qk es: w+1
Qk está entre Xw y Xw+1
4. Qk= 4. Qk=
x w  x w 1 x w 1
2

Ejemplo 1.31. Dados los valores 2, 5,10, 3, 7, 13, 20 y 18, hallar Q1, Q2 y Q3.
Solución:

Q1: 1. Ordenando: 2, 3, 5, 7, 10, 13, 18, 20


2. Calcular k(n/4)=1(8/4)=2, de donde w=2
3. La posición de Q1 es: w+ ½=2.5. Q1 está entre x2 y x3
4. .
x  x3 3  5
Q1  2  4.0
2 2
Q2: 1. 2, 3, 5, 7, 10, 13, 18, 20

2. Calcular k(n/4)=2(8/4)=4, de donde w=4

3. La posición de Q2 es: w+½=4.5

53
4.
x 4  x 5 7  10
Q2   8.5
2 2

Q3: 1. 2, 3, 5, 7, 10, 13, 18, 20

2. Calcular k(n/4)=3(8/4)=6, de donde w=6

3. La posición de Q3 es: w+½=6.5


4.
Q3  x 6 2 x 7 
 13  18
31 / 2 15.5
2

Nota: Los valores calculados por este método difieren un poco a los calculados por Excel.
Solución alterna con Excel:

Función Sintaxis Descripción Ejemplo

CUARTIL =CUARTIL(matriz;cuartil) Devuelve el =CUARTIL(A1:A8;1)


UNO cuartil uno de Excel devuelve 4,5.
Matriz es la matriz o rango de un conjunto
celdas de valores numéricos cuyo de datos.
cuartil desea obtener.
CUARTIL Devuelve el =CUARTIL(A1:A8;2)
DOS cuartil dos de Excel devuelve 8,5.
un conjunto
de datos

CUARTIL Devuelve el =CUARTIL(A1:A8;3)


TRES cuartil tres de Excel devuelve 14,25.
un conjunto
de datos

Los cuartiles se usan con frecuencia en los datos de ventas y encuestas para dividir las
poblaciones en grupos. Por ejemplo, se pueden utilizar para determinar el 25 por ciento de
ingresos más altos en una población.

Ejemplo 1.32. Dados los valores 9, 7, 6, 5 y 1, hallar Q1, Q2 y Q3.


Solución:
Q1: 1. Ordenando: 1, 5, 6, 7, 9

2. Calcular k(n/4)=1(5/4)=1.25, de donde w=1

3. La posición de Q1 es: w+1=2 (redondeo al entero próximo mayor de 1.25)

54
4.
Q1  x 2 5

Q2: 1. 1, 5, 6, 7, 9

2. Calcular k(n/4)=2(5/4)=2.5, de donde w=2

3. La posición de Q2 es: w+1= 3

4.
Q 2 6

Q3: 1. 1, 5, 6, 7, 9

2. Calcular k(n/4)=3(5/4)=3.75, de donde w=3

3. La posición de Q3 es: w+1=4

4. Q 3 7

Los cuartiles para datos agrupados


Los cuartiles para datos agrupados pueden ser obtenidos mediante fórmulas que se
asemejan a la fórmula para calcular la mediana:

; k=1, 2, 3
 k (n / 4)  Fa 
Q k l i  c  
 f 

donde li: límite inferior de la clase cuartílica


c: ancho de la clase cuartílica
Fa: frecuencia acumulada anterior a la clase cuartílica
f: frecuencia de la clase cuartílica

Ejemplo 1.33. Encuentre Q1, Q2 y Q3 del tiempo de espera para consulta de los pacientes
de una clínica

Minutos f
0 - <5 220
5 - <10 82
10 - <15 27
15 - <20 15
20 - <25 5

55
25 - <30 1

Solución:
Completando la tabla de distribución de frecuencias
Minutos f Fa
0 - <5 220 220
5 - <10 82 302
10 - <15 27 329
15 - < 20 15 344
20 - <25 5 349
25 - <30 1 350

Q1: Como k(n/4) = 1(350)/4 = 87.5, es claro que Q 1 ha de buscarse en el primer


intervalo.
Así,
1( n / 4)  Fa 
Q1 l i  c  
 f 
 87.5  0 
0  5
 220 
Q1 2.0 Min .
Q2: Como k(n/4) = 2(350)/4 = 175, es claro que Q2 ha de buscarse en el primer intervalo.
Así,
 2(n / 4)  Fa 
Q 2 l i  c  
 f 
175  0 
0  5
 220 
Q 2 4.0 Min . ~ x

Q3: Como 3(n/4) = 3(350)/4=262.5, es claro que Q3 ha de buscarse en el segundo


intervalo.
Así,
 3(n / 4)  Fa 
Q 3 l i  c  
 f 

 262.5  220 
5  5 
 82

56

Q 3 7.6 Min .

Los centiles: Ck ó Pk
DEFINICION

Análogamente a los cuartiles, los valores que dividen al conjunto de datos en 100 partes
iguales se llaman percentiles o centiles.

Por ejemplo C90 para un conjunto de datos es el valor que deja bajo si el 90% de ellos y
arriba de si el 10%.

Los centiles para datos no agrupados

El procedimiento es parecido al de los cuartiles.

Ejemplo 1.34. Encontrar C70 en los siete valores 6, 10, 13, 19, 18, 16, y 15.

Solución:

1. Ordenando: 6, 10, 13, 15, 16, 18, 19.

2. Calcular k(n/100)=70(7/100)=4.9, de donde w=4

3. La posición de P70 es: w+1=5

4.
P70 16
Solución alterna con Excel:

Función Sintaxis Descripción Ejemplo

PERCENTIL =PERCENTIL(matriz;k) Devuelve el k- =PERCENTIL(A1:A7;70)


ésimo
Matriz, es la matriz o rango de percentil de Excel devuelve 16,4.
datos que define la posición los valores de
relativa. un rango.

57
Esta función permite establecer un umbral de aceptación. Por ejemplo, podrá examinar a
los candidatos en un evento cuya calificación sea superior al nonagésimo percentil.

Los percentiles para datos agrupados


Los centiles para datos agrupados se obtienen por medio de fórmulas que se asemejan a la
mediana:

 k ( n / 100)  Fa 
C k l i  c  ; k 1,2,...,99
 f 
Ejemplo 1.35. Encuentre C30 en la siguiente tabla de distribución de frecuencias:
Grado (0 C) f
40 - < 50 5
50 - <60 18
60 - <70 27
70 - < 80 15
80 - < 90 6
71
Solución:
Completando la tabla de distribución de frecuencias

Grado (o C) f Fa
40 - <50 5 5
50 - <60 18 23
60 - <70 27 50
70 - <80 15 65
80 - < 90 6 71
71

C30: k(n/100) = 30(71/100) = 21.3, y C30 se halla en la segunda clase:

 k ( n /100)  Fa 
Ck  li  c  
 f 
 21.3  5 
C30  50  10 
 18 

0
C30  59.1 C

1.10 Medidas de dispersión


El grado en que los datos numéricos tienden a extenderse alrededor de un valor medio se le
llama variación o dispersión de los datos.

58
Una medida de dispersión es importante por dos razones: primero, puede ser usada para
mostrar el grado de variación entre los valores en los datos dados; y segundo, puede ser
usada para suplementar un promedio para describir un grupo de datos o para comparar un
grupo de datos con otro.
Una medida de dispersión puede ser expresada ya sea en valor absoluto o en valor
relativo. Los tipos mas comunes de dispersión expresados en valores absolutos son: el
recorrido, la desviación cuartílica, la desviación media, la varianza y la desviación
estándar.

El rango o recorrido o amplitud: R o A

DEFINICION
El recorrido de un conjunto de n datos x1, x2, …,xn se define como la diferencia entre el
mayor y el menor de los datos.

Ejemplo 1.36. Encontrar el recorrido de los valores 1, 4, 8, 10 y 10.


Solución:
R=10-1=9
El recorrido resulta insatisfactorio como medida de variabilidad cuando se tienen dos
distribuciones de igual recorrido pero de distinta variabilidad.

Ventajas y desventajas del rango


Ventajas:
1. Es de fácil de calcular y es comúnmente usado como una medida burda, pero
eficaz de variabilidad.
2. Es comprensible para cualquier persona, aún cuando no conozca de estadística.

Desventajas:
1. Refleja únicamente los valores extremos, ignorando la información intermedia.
2. Difícil de interpretar, principalmente porque depende del número de observaciones
que sirvieron para computarlo.
3. Una de las desventajas del rango es que no proporciona información sobre los datos
que están entre el dato mayor y el menor.

El recorrido intercuartílico: Q
DEFINICION

La diferencia entre el primer y tercer cuartil es llamado el recorrido intercuartílico y se


define como

Q=Q3 – Q1

59
Cuando esta diferencia es dividida entre 2, el cociente es el recorrido semi-intercuartílico o
desviación cuartílica (D. Q.):
 Q1Q3
D. Q. 
2
Estas dos medidas son muy poco usadas y son de alguna utilidad cuando el promedio
utilizado es la mediana.

Ejemplo 1.37. Hallar el recorrido semi-intercuartílico a partir del ejemplo 1.33.


Solución:
Q 3  Q1 7.6  2.0
D. Q.   5.6 / 2 2.8 Min .
2 2

El recorrido y el recorrido semi-intercuartílico son medidas posicionales de dispersión.


Estas están basadas en las posiciones de ciertos elementos en una distribución. La
desviación media y la desviación estándar está basada en todos los elementos y están
diseñadas para medir la dispersión alrededor de un promedio. ▄

La desviación media: D. M.
DEFINICION

La desviación media, de una serie de n datos x1, x2,…,xn viene definida por

n
 xi  x
D. M.  i 1

donde es la media aritmética de los valores y es el valor absoluto de las


x xi  x
desviaciones de las diferentes xi de .
x

Ejemplo 1.38. Hallar la desviación media de los valores 2, 3, 6, 8, 11.

Solución:
2  3  6  8  11
x 6
5
Entonces,

60
2  6  3  6  6  6  8  6  11  6 43025
D. M.   2.8
5 5

Solución con Excel:

Función Sintaxis Descripció Ejemplo


n

=DESVPROM(número1;número2; Devuelve el =DESVPROM(2;3;6;8;11)


…) promedio de
las Excel devuelve 2,8.
Número1, número2;… son entre 1 y desviaciones
30 argumentos cuyo promedio de absolutas de =DESVPROM(A1:A5)
las desviaciones absolutas desea la media de
calcular. los punto de
datos. Excel devuelve la
DESVIACIO desviación media de los
N MEDIA También puede utilizar una matriz números que estén en el
única o una referencia matricial en rango de celdas, es decir,
lugar de argumentos separados con 2,8.
punto y coma.

Una propiedad importante es que, la desviación media respecto de la mediana es


mínima.

Desviación media para datos agrupados


Aquí, donde xi es la marca de clase y fi la correspondiente frecuencia
n
 fi x i  x
i 1
D. M.  ,
n
de clase.

Ejemplo 1. 39. Hallar la D. M. a partir del ejemplo 1.23

Solución:

PESOS (Ton.) f x f
x x
9.0 - <12.8 5 10.9 44.2
12.8 - <16.6 6 14.7 30.24
16.6 - < 20.4 10 18.5 12.4
20.4 - < 24.2 12 22.3 30.72
24.2 - < 28.0 4 26.1 25.44
28.0 - < 31.8 3 29.9 30.48

61
173.48

D. M. 
f x  x

173.48
4.34 Tn .
n 40

Ventajas y desventajas de la desviación media

Ventajas:
1. Es fácil de computar.
1. Su desviación alrededor de la mediana es un mínimo.
Desventajas:
1. Si de varios grupos se conocen las desviaciones medias respectivamente, la
desviación media no se puede hallar del grupo combinado, si se conocen todas las
observaciones.
2. Es de poca utilidad en inferencia estadística. ▄

La varianza: s2
DEFINICION

Si x1, x2,…..,xn, es una muestra de n datos, entonces la varianza muestral es

2  (x  x) 2
s 
n 1

Las unidades de medición de la varianza muestral son iguales al cuadrado de las unidades
con que se mide la variable. Una varianza grande indica bastante variación de datos. La
varianza poblacional se denota por: 2.
Si un conjunto de datos constituye una población, o bien, si el objeto de resumir los
datos es únicamente para describirlos, entonces se utiliza n. Si el propósito es sacar
inferencias respecto a una población, entonces se debe sustituir el denominador, n-1 por n.
Al utilizar en la varianza muestral n-1 en lugar de n es porque así representa un mejor
estimador del parámetro 2, como se verá más adelante en la unidad VI. Para valores
grandes de n (n≥30), prácticamente no hay diferencia entre utilizar n-1 ó n.
Puede obtenerse una fórmula más eficiente para el cálculo de la varianza muestral de la
siguiente manera:

 x  x
2
2
s 
n 1


 ( x 2  2 xx  x 2 )
n 1

s2 
 x  2 x  x  nx 2
2

n 1

62
Reemplazando por y multiplicando el numerador y el denominador por n, se
x x/n
obtiene la fórmula

n x 2   x
2
2
s 
n (n  1)
 x 2    x  
2
2 /n
s 
n 1

Ejemplo 1.40. El espesor de tablillas de circuitos impreso es una característica muy


importante. Una muestra de ocho tablillas tiene los siguientes espesores (en milésimas de
Pulg.): 63, 61, 65, 62, 61, 64, 60 y 66. Calcular la varianza de la muestra.

Solución:
n x 2   x
2
2
s 
n (n  1)
 x 2 31,532;  x 502.
8(31,532)  (502)2 252, 256  252, 004 252
s2     4.5 ( milésimas de pu lg adas 2 )
8(7) 56 56

Solución alterna con Excel:

Función Sintaxis Descripció Ejemplo


n

VARIANZA =VAR(número1;número2;…) Calcular la =VAR(63;61;65;62;61;64;60;66)


varianza de
Número1, número2;… son entre los Excel devuelve 4,5.
1 y 30 argumentos numéricos argumentos
cuya varianza se desea obtener. =VAR(A1:A8)

Excel devuelve la varianza de


los números que estén en el
rango de celdas, es decir, 4,5.

Varianza para datos agrupados

La varianza para datos agrupados se calcula utilizando las fórmulas

s 
2  f x  x
2

o s 
2  x 2 f    xf  / n
2
 
n 1 n 1

63
Si s2 se calcula sin fines inferenciales, o bien, si se calcula s 2 de una población, entonces
se sustituye n-1 por n.

Ejemplo 1.41. Hallar la varianza de la siguiente distribución de frecuencias, utilizando


x 2 f     xf  
2
2  /n
s 
n 1

x f
0 - <10 5 2
10 - < 15 1
20
20 - < 25 5
30
30 - 35 8
<40
40 - 45 4
<50

20
Solución:

x f xf x2f
0 - <10 5 2 10 50
10 - <20 1 1 15 225
5
20 - <30 2 5 125 3,125
5
30 - <40 3 8 280 9,800
5
40 - <50 4 4 180 8,100
5
20 610 21,300

 x 2 f    xf  / n
2

2
s  
n 1

21300  ((610) 2 / 20)


s2 
19

s 2  141.8

64
Propiedades de la varianza
Propiedades. Sea la varianza de un conjunto de datos x1, x2,…,xn y k una constante,
2
sx

entonces:

2 2 2
1. sx
0 4. s
x k
sx
2 2 2 2
2. s k
0 5. s xy
sx  sy
2 2 2 2 2
3. skx
k 2 sx 6. s
kx  y
k 2 sx  sy

Ejemplo 1.42. Considere los datos de espesor de las tablillas de circuito impreso en el
ejemplo 1.40.

a) Suponga que restamos la constante 63 a cada número. ¿Cuál es el efecto en la varianza?


b) Suponga que multiplicamos cada número por 100. ¿Como es afectada la varianza?

Solución:

2 2
a) sx  63 sx 4.5 (milésima de Pu lg .2 )

2 2 2 2
b) s100x (100) sx (100) (4.5) 45,000 (milésima de Pu lg .2 )

Ventajas y desventajas de la varianza


Ventajas:
1. Es de las medidas de variación, la más utilizada.
2. Se pueden realizar cálculos algebraicos.
3. Se incluyen todos los datos en su cálculo.
Desventajas:
1. Las unidades de esta medida son las unidades de la variable al cuadrado.
2. No es fácil su interpretación debido a sus unidades.
3. Se debe acompañar de otras medidas de dispersión para su análisis. ▄

La desviación estándar o típica: .


s s 2

DEFINICION

La desviación estándar es simplemente la raíz cuadrada positiva de la varianza, o sea

s  s2

65
Ejemplo 1.43. Halle la desviación típica en el ejemplo 1.40.

Solución:
milésimas de pulgada.
2 2
s 4.5, s  s  4.5 2.1

Ejemplo 1.44. Halle la desviación típica en el ejemplo 1.41.

Solución:
s 2 141.8, s  s 2  141.8 11 .9

La desviación típica o estándar es una de las medidas de dispersión más importante. Es la


que mejor mide cuanto se dispersan los datos con respecto a su media. Las unidades de la
desviación estándar son las mismas que las de la medida.

Para distribuciones con forma acampanada resulta que:

a) El 68.27% de los casos están comprendidos entre y


x s x  s.

b) El 95.45% de los casos están comprendidos entre y


x  2s x  2s

c) El 99.73% de los casos están comprendidos entre y


x  3s x  3s.

Para distribuciones moderadamente asimétricas, los porcentajes anteriores pueden


mantenerse aproximados. Las afirmaciones anteriores son afirmaciones no sustentadas en
ninguna prueba matemática.

Ejemplo 1.45. La desviación estándar muestral ( 0 F) de un conjunto de mediciones de


temperatura de un horno es 10.5. ¿Qué valor tiene la desviación estándar muestral si la
temperatura se expresa en 0 C?

Solución:
2 2 2 2
sc s5 / 9( F 32) (25 / 81) sF (25 / 81) (10.5) 34.03 ( o C) 2 , de donde

66
2 o
sc  sc  34.03 5.83 C

Ventajas y desventaja de la desviación estándar


Ventajas:
1. Es, junto con la varianza, una de las medidas de variación más utilizadas.
2. Tiene las mismas unidades de la variable analizada.
3. Se pueden realizar cálculos algebraicos.
4. Se incluyen todos los datos en su cálculo.
Desventajas:
1. No es fácil calcularla como el rango
2. No puede calcularse en distribuciones de extremo abierto
3. Los valores extremos que se encuentren en el conjunto de datos distorsionan su
valor, aunque en menor grado que en el caso del rango.
4. Se debe acompañar de otras medidas de dispersión para su análisis.
5. Para su cálculo primero debe calcularse la varianza.

La varianza y la desviación estándar miden la dispersión “promedio” alrededor de la media,


es decir, cómo las observaciones mayores fluctuán por encima de ésta y como las
observaciones menores se distribuyen por debajo de ésta. Por ejemplo, si la media y la
desviación estándar de un conjunto de datos son 8.30 y 2.52 respectivamente, esto nos dice
que la mayoría de datos se agrupan en 2.52 alrededor de la media 8.30, es decir, entre 5.78
y 10.82.

El coeficiente de variación: C. V.
En ocasiones es deseable expresar la variación como fracción de la media. Para hacer esto
se utiliza una medida adimensional de variación relativa, denominada coeficiente de
variación muestral.

DEFINICION
El coeficiente de variación muestral es C. V. =
s
x
Se puede expresar en tanto por ciento calculando: C. V. =
s
.100
x
El coeficiente de variación es útil cuando se compara la variabilidad de dos o más
conjuntos de datos que difieren de modo considerable en la magnitud de las observaciones.
Por ejemplo, el coeficiente de variación puede ser de utilidad al comparar la variabilidad
del consumo de energía eléctrica por día en muestras tomadas en distintos conjuntos
residenciales durante un determinado mes del año.

67
Ejemplo 1.46. Con un micrómetro, se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm. y una desviación estándar de 0.012 mm.; con otro
micrómetro se toman mediciones de la longitud de un tornillo, que tienen una media de
1.76 Pulg. y una desviación estándar de 0.0075 Pulg. ¿Cuáles de las medidas presenta una
menor variabilidad?

Solución:

El coeficiente de variación del balero y del tornillo es

0.012
y C. V.  0.003
4.03

0.0075
C. V.  0.004
1.76

respectivamente. Las medidas hechas con el primer micrómetro presentan una


variabilidad relativamente menor que las efectuadas con el otro micrómetro.

Si el coeficiente de variación para un conjunto de datos es menor que 0.1, entonces se


dice que este conjunto de datos es homogéneo, es decir, hay muy poca variabilidad entre
ellos y por lo tanto la media aritmética es altamente representativa de dichos datos.

Grado de representatividad de la media usando el C. V. porcentual


0 o menos de 10% la media es altamente representativa
10 o menos de 20% la media es bastante representativa
20 o menos de 30% la media es representativa
30 o menos de 40% la media tiene representatividad dudosa
40% o más la media carece de representatividad

Cabe ahora preguntar, ¿Cómo se calculan los estadísticos de centralización, posición y


de dispersión en tablas de distribución de frecuencias de anchos diferentes? Todos se
calculan de la misma forma, excepto la moda, cuya fórmula se expresa así:

 di 1  fi
Mo  li 1  c   ; di 
 di 1  d i 1  li  li 1
Donde, li-1: límite inferior de la clase de mayor densidad
c: ancho de la clase de mayor densidad
di: mayor densidad
donde la densidad se expresa en términos de la frecuencia absoluta.

68
Observe la gran similitud que guarda con la fórmula anterior de la moda.

Por ejemplo sea la siguiente distribución de frecuencias:

f d
2-<4 1 0.
4-<6 2 5
6-<10 8 1
10- 3 2
<12 1.
5

¿Qué tipo de asimetría tenemos? ▄


 di 1   1.5 
xˆ  li 1  c    64  8.4
 di 1  di 1  1  1.5 

Para describir un conjunto de datos es muy eficaz un resumen de cinco puntos.

El resumen de cinco puntos está integrado por:


1. Mín, el mínimo valor en el conjunto de datos.
2. Q1, el primer cuartil.
3. , la mediana.
x%
4. Q3, el tercer cuartil.
5. Máx, el máximo valor en el conjunto de datos. ▄

La información resumida contenida en los cuartiles se pone de relieve en la


representación gráfica llamada diagrama de caja. Un diagrama de caja presenta los tres
cuartiles, el mínimo y el máximo de los datos en una caja rectangular, alineada en forma
horizontal o vertical. La caja encierra el intervalo intercuartil con la línea izquierda en el
primer cuartil y la línea derecha en el tercer cuartil. Se dibuja una línea a través de la caja
en el segundo cuartil (mediana). Una línea en cualquier extremo se extiende hasta los
valores extremos. Estas líneas, llamadas algunas veces bigotes, pueden extenderse solo
hasta los percentiles 10o. y 90o., o el 5o. y el 95o. en grandes conjuntos de datos. Algunos
autores se refieren al diagrama de caja como el diagrama de caja y bigotes.

Ejemplo 1.47. Considere el siguiente conjunto de tiempos de ignición que fueron


registrados para una tela sintética.

69
30.1 30.1 30.2 30.5 31.0 31.1 31.2 31.3 31.3 31.4

31.5 31.6 31.6 32.0 32.4 32.5 33.0 33.0 33.0 33.5

34.0 34.5 34.5 35.0 35.0 35.6 36.0 36.5 36.9 37.0

37.5 37.5 37.6 38.0 39.5

30.1 30.1 30.2 30.5 31.0 31.1 31.2 31.3 31.3 31.4

31.5 31.6 31.6 32.0 32.4 32.5 33.0 33.0 33.0 33.5

34.0 34.5 34.5 35.0 35.0 35.6 36.0 36.5 36.9 37.0

37.5 37.5 37.6 38.0 39.5

Trace el diagrama de caja y bigotes.

Solución:

Aquí, Mín=30.1 y Máx=39.5. Además, Q1: k(n/4)=1(35/4)=8.75≈9, y Q1=31.3; Q2=


~
x:
k(n/4)=2(35/4)=17.5, Q2= y Q3: 3(n/4)=3(35/4)= 26.25≈27, Q3=36.0.
33.0;

Ejemplo 1.48. En un experimento para investigar el efecto del flujo sobre la uniformidad
(%) del ataque en una oblea de silicio de las que se usan en la fabricación de circuitos
integrados, se consideran tres flujos (cm3 normales/minuto), y se obtuvieron los siguientes
datos:

70
Flujo:
125: 2.6 2.7 3.0 3.2 3.8 4.6

160: 3.6 4.2 4.2 4.6 4.9 5.0

200: 2.9 3.4 3.5 4.1 4.6 5.1

Compare las observaciones de uniformidad que resultan de estos tres diferentes flujos.

Solución:

Flujo 125:
Mín=2.6 y Máx=4.6. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=2.7. Q2= .
x% (3.0  3.2) / 2  3.1
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=3.8.

Flujo 160:
Mín=3.6 y Máx=5.0. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=4.2. Q2= .
~
x (4.2  4.6) / 2 4.4
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.9.

Flujo 200:
Mín=2.9 y Máx=5.1. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=3.4. Q2=
~
x (3.5  4.1) / 2 3.8.
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.6.

71
Con base a este diagrama de caja comparativo, parece que las tres muestras difieren
mucho respecto al centro. Hay un poco menos variabilidad para la razón de flujo de 160
que para los otros dos flujos. Hay evidencia de asimetría positiva moderada en el 50%
intermedio de cada muestra. ▄

Se puede embellecer un diagrama de caja que muestre la presencia de valores atípicos


(observaciones que estén muy alejados del grupo de los datos), en forma explícita.

DEFINICION

Toda observación a más de 1.5 Q del cuartil más cercano es atípico o inusual. Un valor
inusual es extremo si está a más de 3Q del cuartil más cercano y es moderado en
cualquier otro caso.

Ejemplo 1.49. En una experiencia se obtuvieron las siguientes resistencias en MAp

1.1 5.6 5.7 5.8 5.9 5.9 6.2 6.7 6.9 7.2 7.8 9.8 9.9
Trace un diagrama de caja y comente sus características.
Solución:
Aquí, Mín = 1.1 y Máx = 9.9. Además, Q1: k =1 = 3.25, Q1 = x4 = 5.8;
n  13 
   
4 4
Q2 = : k = 2 = 6.5, Q2 = x7 = 6.2; Q3: k = 3 = 9.75,
x% n  13  n  13 
       
4 4  4 4
Q3 = x10 = 7.2; y Q = Q3 - Q 1 = 1.4.

Si x< Q1 – 1.5Q , entonces x es atípico inferior , y si x > Q3 + 1.5Q , entonces x es


atípico superior. x < 5.8 – 2.10= 3.7, luego, 1.1 es atípico inferior. x>7.20 + 2.10 = 9.3,
luego, 9.8 y 9.9 son atípicos superiores.
Si x< Q1 – 3Q, entonces x es extremo inferior, en caso contrario es moderado inferior.
Si x>Q3 + 3Q, entonces x es extremo superior, en caso contrario es moderado superior.
Así, x < 5.8 – 4.2 = 1.6 , luego 1.1 es extremo inferior. x > 7.20 + 4.2 = 11.4, luego no
existen extremos superiores, 9.8 y 9.9 son moderados superiores.

72
Con base al diagrama se observa que existe asimetría positiva en el 50 % de los datos y
asimetría negativa en la muestra. Si omitimos valores atípicos, existe asimetría positiva
con respecto a la muestra. ▄
1.11 Medidas de forma. Medidas de asimetría.
Los estadísticos de forma son aquellos que nos hablan de la forma de la distribución de
datos en cuanto a su asimetría y apuntamiento.

Asimetría
Momentos. Momentos para datos no agrupados.
DEFINICION

Si x1, x2,…,xn son los n valores que toma la variable x, se define la cantidad

__ r
x
x 
r

n
como el momento de orden r. El momento de primer orden r =1 es la media aritmética
.
__
x

Ejemplo 1.50. Hallar los momentos de primero y segundo orden del conjunto de datos: 2,
3, 7, 8, 10.

Solución:
=Σx/n =(2+3+7+8+10)/5=30/5=6 es el momento de primer orden o media aritmética.
__
x

73
= Σx2/n=(22+32+72+82+102)/5=226/5=45.2 es el momento de segundo orden.
__
2
x
DEFINICION
El momento de orden r con respecto a la media es
__
x
mr =
n __
 ( xi  x )r
i 1
n
Si r=1, m1 =0. Si r=2, m2=s2, es la varianza.

Ejemplo 1.51. Hallar los momentos de primero y segundo orden con respecto a la media
para los datos del ejemplo 1.50.

Solución:
. m1 es siempre igual a
__
 (x  x ) (2  6)  (3  6)  (7  6)  (8  6)  (10  6) 0
m1    0
n 5 5
cero.
. Adviértase
__
 (x  x ) (2  6)  (3  6)  (7  6)  (8  6)  (10  6)
2 2 2 2 2 2
46
m2     9.2
n 5 5
que m2 es la varianza s2.

Momentos para datos agrupados


DEFINICION

Si x1, x2,…,xk se presentan con frecuencias f1, f2,…,fk respectivamente, los momentos
anteriores son dados por
, y
k
__  f xr
x 
r i 1
n
k __
 f i ( xi  x ) r
mr  i 1
n
donde .
k
n   fi
i 1

74
Momentos en forma adimensional
Para evitar unidades particulares se pueden definir los momentos adimensionales respecto
a la media
mr mr mr
ar   
 
r r
sr m2
m2 2

donde es la desviación típica. Puesto que m1=0 y m2=s2, se tiene que a1=0, a2=1.
s  m2

Sesgo o asimetría
El sesgo es el grado de asimetría o falta de simetría de una distribución de frecuencias. Si la
curva de frecuencias (polígono de frecuencias suavizado) de una distribución tiene una
“cola” más larga a la derecha del máximo central que a la izquierda, se dice de la
distribución que está sesgada a la derecha o que tiene sesgo positivo. Si es al contrario, se
dice que está sesgada a la izquierda o que tiene sesgo negativo.

Cuando realizamos un estudio descriptivo es altamente improbable que la distribución


de frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de
frecuencias es simétrica si lo es de un modo aproximado. Por otro lado, aún observando
cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más
altas. Conviene definir entonces unos estadísticos que ayuden a interpretar la asimetría, a
los que llamaremos índices de asimetría, y que denotaremos mediante As. Vamos a definir
a continuación algunos de los índices de asimetría más usuales como son el índice basado
en la distancia entre la moda y la media o la media y la mediana, los tres cuartiles y el
momento de tercer orden.

En distribuciones sesgadas, la media tiende a situarse con respecto a la moda al mismo


lado que la cola más larga. Así, una medida de la asimetría nos viene dada por la diferencia
(Media – Moda). Esta medida puede adimensionarse, dividiéndola por una medida de
dispersión, tal como la desviación típica, llegando a
__
 ˆx x
As 
s
Para evitar el empleo de la moda, se puede utilizar la fórmula empírica y se tiene
__
 x%3( x
)
As 
s
Diremos que hay asimetría positiva si As>0 y negativa si As<0.

Las medidas anteriores se conocen como primero y segundo coeficiente de sesgo de


Pearson, respectivamente.
Otras medidas del sesgo dadas en función de cuartíles son las siguientes:

As 
 Q3  Q2    Q2  Q1  
Q3  2Q2  Q1
Q3  Q1 Q3  Q1
donde,

75
1  As 
 Q3  Q2    Q2  Q1 
1
Q3  Q1
Una importante medida de este tipo emplea el momento de tercer orden con respecto a la
media expresado en forma adimensional y dada por

EL COEFIENTE DE ASIMETRIA DE FISHER

m3 m
As  a3  3
 3/32
s m2

La medida será positiva o negativa si la distribución es sesgada a la derecha o a la


a3
izquierda, repectivamente. Para curvas perfectamente simétricas
a3  0.

Ejercicio 1.52. A continuación se muestra a través de la siguiente tabla las millas recorridas
por 20 estudiantes en sus vehículos al venir a una universidad desde sus casas. Encontrar la
asimetría relativa basada en el tercer momento.

Millas recorridas f
0-<2 2
2-<4 5
4-<6 4
6-<8 8
8 - < 10 1

20
Solución:

Millas recorridas f xf x2f


0-<2 2 2 2
2-<4 5 15 45
4-<6 4 20 10
6-<8 8 56 0
8 - < 10 1 9 39
2
81
20 10 62
2 0

=Σxf/n=102/20=5.1 millas.
__
x

76
f    xf  / n  620   102  / 20 
__ 2 2 2
f ( x  x )2 x
s  m2 
2 
ó m2       99.8 / 20  4.99
n n 20
__
f ( x  x )3 2(1  5.1)3  5(3  5.1)3  4(5  5.1)3  8(7  5.1)3  1(9  5.1)3
m3    3.498
n 20
.
m3 3.498
As  a3  3/ 2   0.31381
m2 4.991.5

Puesto que el valor de es negativo (porque es negativo) indica la asimetría hacia


a3 m3
los valores más pequeños o hacia el lado izquierdo de la escala de las x de la curva de
distribución, es decir, la distribución es sesgada a la izquierda. ▄

1.12 Medidas de apuntamiento


Curtosis
Es el grado de apuntamiento de una distribución, normalmente se toma en relación a la
distribución normal. Una distribución que presenta un apuntamiento relativo alto, se llama
leptocúrtica, mientras que la curva que es más achatada, se llama platicúrtica. La
distribución normal, que ni es muy achatada, se llama mesocúrtica.

Una medida de la curtosis emplea el momento de cuarto orden con respecto a la media,
expresado en forma adimensional y dada por

m4 m4
Coeficiente de curtosis  a4  
s 4 m22

El Coeficiente de curtosis, también analiza el grado de concentración que presentan los


valores alrededor de la zona central de la distribución.

Para una distribución normal . Por esta razón, a veces se define la curtosis
a4  3
através del coeficiente de aplastamiento de Fisher como:

, donde
m
  42  3
m2

77
Leptocúrtica: , si la distribución es más apuntada que la normal.
 0

Platicúrtica: , si la distribución de frecuencias es menos apuntada que la normal.


 0

Mesocúrtica: , cuando la distribución de frecuencias es tan apuntada como la


 0
normal.

Ejemplo 1.53. Tomando el ejemplo precedente encontrar la curtosis basada en el cuarto


momento.

Solución:
__
f ( x  x ) 4 2(1  5.1)4  5(3  5.1)4  4(5  5.1) 4  8(7  5.1) 4  1(9  5.1) 4
m4    49.8997
n 20
.
m4 m4 49.8997
a4  2 2  2   2.004
(s ) m2 24.9001

Puesto que la distribución de frecuencias es platicúrtica, menos aplastada que la


  0,
normal, achatada relativamente.

Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto con las
medidas de apuntamiento o curtosis se utilizan para contrastar si se puede aceptar que una
distribución estadística sigue la distribución normal. Esto es necesario para realizar
numerosos contrastes estadísticos en la teoría de inferencia estadística.

En el EXCEL no es común tener activado “Análisis de datos...” dentro del Menú


Herramientas de la barra de Menús. Tal recurso debe estar presente cuando se va a utilizar
dicho software para aplicaciones de la Estadística. Precisamente saber activar “Análisis de
datos...” debe constituir una de las habilidades a dominar para trabajar con el EXCEL con
este propósito. Tal activación se logra desplegando Herramientas de la barra de Menú;
acceder a la opción "Complementos...", y en el cuadro de dialogo que se presenta, activar
la casilla de verificación Herramientas para análisis.

Precisamente en "Análisis de datos..." está la opción Estadística descriptiva; al


utilizar esta última sólo hay que indicar la ubicación del conjunto de datos que se está
procesando y se obtiene de inmediato una tabla con los resultados de Media, Error típico,
Mediana, Moda, Desviación estándar, Varianza de la muestra, Curtosis, Coeficiente de
asimetría, Rango, Mínimo, Máximo, Suma y Cuenta.

Ejemplo 1.54. Dado el conjunto de datos, aplicar la opción estadística descriptiva.

78
1 3 8 7 6 5 5 7 5 6 6 8 7 7 8 8 9
Solución:

Empezamos por seleccionar el análisis del menú Herramientas. Aparecerá la lista de


opciones de Análisis de datos en donde seleccionaremos Estadística Descriptiva.
Seleccionando Aceptar aparece el cuadro de diálogo de Estadística Descriptiva. Como
hemos indicado lo único que es “obligatorio” suministrar son los datos a analizar (Rango de
entrada) y el lugar en donde se desea escribir los resultados (Rango de salida). Se puede
especificar ambos por el procedimiento de señalar con el cursor pero debemos asegurarnos,
antes de hacerlo, que el campo que vamos a rellenar se halla seleccionado. Veámoslo con el
ejemplo.
 Por defecto el cursor se encuentra situado en el campo “Rango de entrada”. Para
rellenarlo solamente debemos poner el ratón sobre la hoja que confine los datos y
seleccionar este rango. En nuestro ejemplo seleccionaremos la primera fila desde la
celda 1 hasta la 17, es decir el rango $A$1:$A$17.
 A continuación debemos activar la selección del rango de salida para lo cual:
1. Marcamos el botón “Rango de salida” en la zona “Opciones de salida”.
2. Haremos clic dentro del campo “Rango de salida” de forma que aparezca el
cursor en su interior.
3. Hecho lo anterior podemos indicar la zona en donde queremos que aparezca
el resultado seleccionado con el cursor una única celda que se constituye en
la celda superior izquierda del rango de salida.
 Si se desean seleccionar otras opciones se procederá a marcar los botones u
opciones de selección y una vez finalizado se pulsará “Aceptar” con el ratón, lo que
ejecutará el análisis escribiendo los resultados en la posición escogida.

Luego el aspecto de salida es:

Columna1

Media 6.23529412
Error típico 0.48906733
Mediana 7
Moda 8
Desviación estándar 2.01647625
Varianza de la muestra 4.06617647
Curtosis 1.66573814
Coeficiente de asimetría -1.1934234
Rango 8
Mínimo 1
Máximo 9
Suma 106
Cuenta 17

79
4.5
4
3.5
3
2.5
2
Frecuencia 1.5
1
0.5
0

Clases

Una asimetría negativa o hacia los valores más pequeños ya que o por que el
x  x% xˆ
coeficiente de asimetría es negativo. Puesto que la curtosis es positiva, la distribución es
Leptocúrtica, más apuntada que la normal. ▄

80
PARTE II: TEORIA DE PROBABILIDADES

Unidad II: PROBABILIDAD

2.1 Espacios muestrales y eventos


La teoría de la probabilidad es la teoría matemática que modela los fenómenos o
experimentos aleatorios. Estos deben contraponerse a los fenómenos determinísticos, en los
cuales el resultado de un experimento, realizado bajo condiciones determinadas, produce un
resultado único o previsible.

Un experimento determinista es aquel el que se obtiene el mismo resultado cuando se


repite el experimento en las mismas condiciones.

Ejemplo 2.1.
1) Se tiene un objeto de cualquier masa partiendo de un estado inicial de reposo, y se deja
caer al vacío desde una torre, éste llega siempre al suelo con la misma velocidad:
.
v  2 gh
2) Agua calentada a 100 grados Celsius, a nivel del mar, se transforma en vapor.
3) Al quemar un hidrocarburo como el gas propano en presencia del oxígeno, se produce
gas carbónico más agua.

Un experimento aleatorio (o estocástico) es aquel en el que al repetir el experimento


en igualdad de condiciones los resultados varían, a pesar de mantener constantes las
condiciones con las que se realiza el experimento.

Este experimento tiene las siguientes características:


 El experimento puede repetirse indefinidamente bajo idénticas o parecidas
condiciones.
 Cualquier modificación en las condiciones iniciales de la repetición modifica
completamente el resultado final del experimento.
 Se pueden conocer a priori el conjunto de posibles resultados del experimento, pero
no se puede predecir un resultado en particular.
 Si el experimento se repite un gran numero de veces, la proporción con que cada
resultado aparece tiende a estabilizarse.

Ejemplo 2.2.
1) Este es el caso cuando se lanza un dado y se observa su resultado. En el experimento el
resultado es 1, 2, 3, 4, 5 ó 6.
2) Lanzar una moneda legal y observar el lado que cae hacia arriba. En el experimento el
resultado es “cara” o “cruz”.
3) Fabricación de tornillos. En el experimento el resultado es defectuoso o no defectuoso.

81
4) Se fabrica una bombilla. Luego se prueba su duración poniéndola en un portalámparas y
se anota el tiempo transcurrido (en horas) hasta que se quema.
5) El resultado de un partido de fútbol.
6) El número de llamadas telefónicas por minuto, la duración de cada llamada.
7) La intensidad del ruido de un sistema de comunicación.
8) La resistencia mínima de un conjunto de resistencias en una línea de producción.

Así pues, los experimentos en los que sí podemos decir lo que va a ocurrir, se les llama
experimentos deterministas. A los experimentos en los cuales no sabemos lo que va a
ocurrir se les llama experimentos aleatorios. ▄

ESPACIO MUESTRAL

Al conjunto de todos los posibles resultados de un experimento aleatorio se le llama


espacio muestral y se denota por S.

Cada resultado se llama elemento o miembro del espacio muestral o simplemente,


punto muestral.

Es frecuente definir el espacio muestral con base en los objetivos del análisis.

Ejemplo 2.3. Lanzamiento de un dado: número que aparece en la cara superior.


S={1, 2, 3, 4, 5, 6}
Ejemplo 2.4. Considérese un experimento en el que se selecciona un conector y se mide su
espesor. Los valores posibles del espesor dependen de la resolución del instrumento de
medición, así como de los límites superior e inferior del espesor. Sin embargo, podría
resultar conveniente definir el espacio muestral simplemente como la recta R,
S=R
Si el único objetivo del análisis es considerar si una pieza particular tiene espesor bajo (b),
medio (m) o alto (a), entonces el espacio muestral podría tomarse como el conjunto de los
tres resultados
S={b, m, a}
Si el único objetivo del análisis es considerar si una pieza particular cumple o no con las
especificaciones de fabricación, entonces el espacio muestral podría simplificarse al
conjunto de los dos resultados
S={sí, no}
que indica si la pieza cumple o no con las especificaciones.

Tipos de espacios muestrales:


 Espacio muestral finito, es aquel con un número finito de puntos.
 Espacio muestral infinito contable, aquel con tantos puntos como los números naturales.
 Espacio muestral infinito no cantable, si tiene tantos puntos como un intervalo real.
 Espacio muestral discreto, aquel que es finito o infinito contable.
 Espacio muestral continuo, aquel que es infinito no contable, que resulta de una
medición.

82
Si el experimento aleatorio implica seleccionar artículos de un lote, se indicará si el
artículo seleccionado se reemplaza o no antes de seleccionar el siguiente. Por ejemplo, si el
lote se compone de tres artículos {a, b, c} y el experimento consiste en seleccionar dos
artículos sin reemplazo, el espacio muestral puede representarse como S={ab, ac, ba, bc,
ca, cb}. Sin embargo, si los artículos se reemplazan antes de seleccionarse el siguiente, se
dice que el muestreo es con reemplazo. Entonces los resultados posibles son S={aa, ab,
ac, ba, bb, bc, ca, cb, cc}. ▄

Diagrama de árbol: Útil para listar los elementos de S en forma sistemática.

Ejemplo 2.5. Cada mensaje en un sistema de comunicación digital se clasifica de acuerdo


a si se recibe con un tiempo especificado (a tiempo o retrasado) por el diseño del sistema.
Si se clasifican dos mensajes, use un diagrama de árbol para representar el espacio muestral
de los resultados posibles.

S={AA, AR, RA, RR}


Regla: Se utiliza para describir un espacio muestral S cuando él posee un número grande
o infinito de puntos.

Ejemplo 2.6. Considérese el espacio muestral S, en donde t es la vida útil en años de


cierto microprocesador, entonces S={t│t0}. ▄

EVENTO

Un evento es cualquier subconjunto del espacio muestral S. Evento simple el formado


por un sólo resultado y compuesto si consta de más de un resultado.

83
Un evento que no contiene elementos se denomina evento imposible o incierto o vacío
y se representa por Φ.
Ejemplo 2.7. Sea A={detectar un organismo microscópico a simple vista}, entonces A= Φ.

Ejemplo 2.8. Sea B={x/x es un factor par de 5}, entonces B= Φ, puesto que los únicos
factores posibles de 5 son 1 y 5.

TEORIA DE CONJUNTOS

1. Unión de A y B, A U B, se lee “unión de A y B”, contiene todos los elementos que


pertenecen a A, a B, o a ambos.
2. Intersección de A y B, A∩B, se lee “intersección de A y B”, contiene todos los
elementos que pertenecen a ambos conjuntos A y B.
3. Complemento de A, A´ o Ac, se lee “complemento de A”, contiene todos los
elementos en S que no pertenecen a A.
4. Diferencia de A y B , A – B, se lee “diferencia de A y B”, contiene todos los
elementos que pertenecen a A pero no a B, con esto, A – B=A ∩ Bc.

EVENTOS MUTUAMENTE EXCLUYENTES

Eventos mutuamente excluyentes o disjuntos si A ∩ B= Φ, es decir, si A y B no tienen


resultados en común, o si no pueden ocurrir simultáneamente.

Ejemplo 2.9. Se selecciona una muestra de tres calculadoras de una línea de fabricación y
cada una de ellas se clasifica como defectuosa o aceptable. Sea que A, B y C que denoten
los eventos de que la primera, la segunda y la tercer calculadora esté defectuosa
respectivamente en la muestra.
a) Describa el espacio muestral para este experimento con un diagrama de árbol.

Describa cada uno de los eventos siguientes:


b) A, B y C
c) A ∩ B
d) B U C
e) Ac
f) A ∩ Bc
g) B – C

Solución:
a)

84
S={ ooo, ood, odo, odd, doo, dod, ddo, ddd}

b) A={ddd, ddo, dod, doo}


B={ddd, ddo, odd, odo}
C={ddd, dod, odd, ood}
c) A ∩ B={ddd, ddo}
d) B U C={ddd, ddo, odd, odo, dod, ood}
e) Ac={odd, odo, ood, ooo}
f) A ∩ Bc={dod, doo}
g) B – C={ddo, odo} ▄

Diagrama de Venn: Muestra en forma gráfica la relación entre eventos y S.

PROPIEDADES MAS IMPORTANTES DE EVENTOS

1. A∩ Φ= Φ
2. AU Φ=A
3. A∩A´= Φ
4. AUA´=S

85
5. S´= Φ
6. Φ´=S
7. (A´)´=A
8. (A∩B)´=A´ U B´
9. (AUB)´=A´ ∩ B´
Los resultados 8. y 9. constituyen la Ley de D´Morgan.

Ejemplo 2.10. En el diagrama de Venn de la figura se muestran tres eventos.

Para cada uno de los siguientes literales dibuje un diagrama de Venn y sombree la
región que corresponda al evento:

a) Ac
b) A ∩ Cc
c) (A ∩ B) U C
d) (B U C)c
e) (A ∩ B)c U C
f) A - B

Solución:

2.2 Definición de probabilidad


La idea de probabilidad surge por la necesidad de medir la incertidumbre o verosimilitud
que posee cada suceso asociado a un experimento aleatorio. Actualmente, la teoría de la
probabilidad encuentra aplicación en las más variadas ramas del conocimiento, como puede
ser la física, la química, la biología, la medicina, la psicología, la ciencia política, la
educación, la economía, los negocios, la investigación de operativa y todas las ramas de la
ingeniería.

86
La probabilidad de que un evento ocurra se evalúa por medio de un conjunto de números
llamados probabilidades.
Antes de profundizar en la forma como se utilizan las probabilidades, es necesario
conocer de cierta manera de donde provienen. La definición clásica o a priori de
probabilidad proveniente de los juegos de azar o enfoque clásico de Laplace, se emplea
cuando los espacios muestrales son finitos y tienen resultados igualmente probables; la
definición frecuencial o empírica o a posteriori de probabilidad, que se basa en la
frecuencia relativa de ocurrencia de un evento con respecto a un gran número de ensayos
repetidos y por último la definición de Kolmogorov o la definición axiomática de
probabilidad. Seleccionar uno de las tres definiciones dependerá de la naturaleza del
problema.

Definición clásica o a priori:


Se utiliza si los resultados son igualmente probables. Es la manera más antigua de medir lo
incierto, con origen en los juegos de azar.

Esta definición clásica de probabilidad fue una de las primeras que se dieron (1900) y se
atribuye a Laplace; también se conoce con el nombre de probabilidad a priori pues, para
calcularla, es necesario conocer, antes de realizar el experimento aleatorio, el espacio
muestral y el número de resultados o sucesos elementales que entran a formar parte del
suceso.

Nos interesa ahora la medida numérica de la posibilidad de que ocurra un suceso A


cuando se realiza el experimento aleatorio. A esta medida la llamaremos probabilidad del
suceso A y la representaremos por P(A).

DEFINICION CLASICA DE PROBABILIDAD O A PRIORI

Si A es el evento formado por h resultados del espacio muestral y, el número de


resultados posibles es n, entonces
h
P ( A) 
n
ó
número de casos favorables al suceso A
P ( A) 
número de casos posibles

Esta definición es de uso limitado puesto que descansa sobre la base de las siguientes
dos condiciones: 1. El espacio muestral de todos los resultados posibles S es finito; y 2. Los
resultados del espacio muestral deben ser igualmente probables.
La aplicación de la definición clásica de probabilidad puede presentar dificultades de
aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de un
experimento no son equiprobables. Por ejemplo, en un proceso de fabricación de piezas
puede haber algunas defectuosas y si queremos determinar la probabilidad de que una pieza
sea defectuosa no podemos utilizar la definición clásica pues necesitaríamos conocer
previamente el resultado del proceso de fabricación.

87
A partir de esta definición, se pueden deducir algunas propiedades importantes:
1. Cuando no existan casos favorables (suceso imposible), la probabilidad será cero.
2. Si los casos favorables son todos los posibles (suceso seguro), la probabilidad será 1.
Por consiguiente, la probabilidad siempre oscilará entre un valor mínimo (0) y un valor
máximo (1).

Ejemplo 2.11. Cuando dos dados se lanzan separadamente, hay n=36 resultados. Si ambos
dados no están cargados, los 36 resultados son igualmente probables, así que P(A i)=1/36.
Entonces, el evento E: suma de los números igual a 7, esta formado por los seis resultados
(1,6), (2,5), (3,4), (4,3), (5,2) y (6,1), así que

P(E)=h/n=6/36=1/6

Ejemplo 2.12. Selecciónese una carta al azar de una baraja corriente de 52 cartas. Sea el
evento A: seleccionar una espada y B: seleccionar J, Q o K. Entonces,
P(A)=h/n=13/52=1/4; P(B)=h/n=12/52=3/13; y P(A ∩ B)= h/n=3/52. ▄

Definición empírica o frecuencial o a posteriori o de Von Mises:


La aplicación de la definición clásica de probabilidad puede presentar dificultades de
aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de un
experimento no son equiprobables. Desafortunadamente, hay situaciones prácticas que son
de este tipo y la definición de Laplace no se puede aplicar. Por ejemplo, si se pregunta por
la probabilidad de que una determinada máquina produzca artículos defectuosos, entonces
no hay forma de introducir resultados igualmente probables.
Por ello se necesita una definición más general de probabilidad. Una forma de dar
respuesta a esta pregunta es obtener algunos datos empíricos en un intento por estimar las
probabilidades.
Si se realiza n veces un experimento aleatorio y el suceso A se presenta nA veces, su
frecuencia relativa es fA=nA/n.

Como consecuencia de la propia definición, resultan las siguientes propiedades:

1. 0≤fA≤1.
2. fA=0 si A no ocurre y fA=1 si A ocurre en cada repetición.
3. A y B disjuntos, fAUB= fA+ fB

La definición empírica de probabilidad nos permite afirmar que la probabilidad de


obtener un determinado suceso A es el valor hacia el cual tiende la frecuencia relativa,
cuando el número de observaciones tiende a infinito.
Es imposible llegar a este límite, ya que no podemos repetir el experimento un número
infinito de veces, pero si podemos repetirlo muchas veces y observar como las frecuencias
relativas tienden a estabilizarse.
Esta definición frecuentista de la probabilidad se llama también probabilidad a posteriori
ya que sólo podemos dar la probabilidad de un suceso después de repetir y observar un gran
número de veces el experimento aleatorio correspondiente.

DEFINICION FRECUENCIAL O EMPIRICA

88
Sea A un evento contenido en el espacio muestral de un experimento aleatorio, denotemos
por nA al número de veces que ocurre el evento A, luego de n repeticiones
nA
P ( A)  lim f A  lim
n  n  n

Desafortunadamente se tiene que para cada A fijo, fA no es constante pues su valor


depende de n; sin embargo se ha observado que cuando un experimento aleatorio se realiza
un número suficientemente grande de veces, bajo condiciones similares, la frecuencia
relativa fA se estabiliza alrededor de un valor específico entre 0 y 1. En la práctica la
probabilidad se aproxima por la frecuencia relativa al repetir el experimento un número
grande de veces; es decir: P(A) ≈ fA=nA/n.
La frecuencia relativa fA tiende a estabilizarse a medida que n se vuelve más grande. Este
efecto estabilizador, se llama ley de los grandes números o ley fundamental del azar.

LEY DE LO GRANDES NUMEROS

Si se incrementa el número de veces que se repite un experimento, la razón del número


de ocurrencias de A al número de veces que se repite el experimento, tiende a la
probabilidad teórica de A.

Cuando se usa la definición frecuencial, es importante tomar en cuenta los siguientes


aspectos:

1. La probabilidad obtenida de esta manera es únicamente una estimación del valor


real.

2. Cuanto mayor sea el número de ensayos, tanto mejor será la estimación de la


probabilidad; es decir, a mayor número de ensayos mejor será la estimación.

3. La probabilidad es propia de sólo un conjunto de condiciones idénticas a aquéllas en


las que se obtuvieron los datos, o sea, la validez de emplear esta definición depende
de que las condiciones en que se realizó el experimento sean repetidas
idénticamente.

La estabilidad de fA, no es del todo una conclusión matemática, sino simplemente una
realidad empírica. Por esto, la definición anterior no es una definición correcta de
probabilidad, matemáticamente.

Ejemplo 2.13. Un ingeniero eléctrico estudia la demanda máxima en una planta generadora
de electricidad. Se observa que en 80 de 100 días seleccionados aleatoriamente para
estudio, de registros pasados, la demanda máxima ocurre entre las 18:00 y 19:00 horas. Es
natural suponer que la probabilidad de que ello ocurra en cualquier otro día es:

P(A)≈ fA=nA/n=80/100=0.80

89
Esta cifra se basa en la experimentación y observación repetidas. Es una frecuencia
relativa.

Enfoque subjetivo:
El uso de las creencias personales y de otra información indirecta para llegar a la
probabilidad se llama definición subjetiva de probabilidad.
Tanto la definición clásica como la frecuentista se basan en las repeticiones del
experimento aleatorio; pero existen muchos experimentos que no se pueden repetir bajo las
mismas condiciones y por tanto no puede aplicarse la interpretación objetiva de la
probabilidad.

En esos casos es necesario acudir a un punto de vista alternativo, que no dependa de las
repeticiones, sino que considere la probabilidad como un concepto subjetivo que exprese el
grado de creencia o confianza individual sobre la posibilidad de que el suceso ocurra.
Se trata por tanto de un juicio personal o individual y es posible por tanto que, diferentes
observadores tengan distintos grados de creencia sobre los posibles resultados, igualmente
válidos.

DEFINICION SUBJETIVA DE PROBABILIDAD

La probabilidad subjetiva es una evaluación personal de la posibilidad de que ocurra un

evento.

Definición axiomática:

La definición axiomática de la probabilidad es quizás la más simple de todas las


definiciones y la menos controvertida ya que está basada en un conjunto de axiomas que
establecen los requisitos mínimos para dar una definición de probabilidad.

La ventaja de esta definición es que permite un desarrollo riguroso y matemático de la


probabilidad. Fue introducida por A. N. Kolmogorov y aceptada por estadísticos y
matemáticos en general.

Definimos la probabilidad de A, P(A), como una función de conjuntos, donde el


dominio son eventos y el recorrido son el conjunto de los números reales.

DEFINICION AXIOMATICA
Sea S espacio muestral finito y C conjunto de eventos de S, se define la función real
P:

P: C ──────> R

90
A S, A C ~~~~~~>P(A)
 
tal que satisface los siguientes axiomas:

Axioma 1: Para cada evento A: 0≤P(A)≤1


Axioma 2: P(S)=1
Axioma 3: Si A ∩ B=Φ, entonces P(A U B)=P(A) + P(B)

Entonces P se denomina función de probabilidad y P(A) es denominada probabilidad


del evento A.

El Axioma 1, señala que P(A) es un número entre 0 y 1. Axioma 2, la probabilidad


máxima de 1 se asigna a S. Axioma 3, la función probabilidad es aditiva. Obsérvese que
los axiomas no dicen como asignar las probabilidades, ellos restringen únicamente la
manera de como hacer la asignación.

La asignación se basa en:

1. Estimaciones en base a observaciones previas (enfoque a priori).


2. Consideración analítica del experimento (enfoque a posteriori).
3. Suposiciones (enfoque subjetivo). ▄

De los axiomas anteriores podemos demostrar varios teoremas sobre probabilidad que
son importantes en el estudio posterior.

2.3 Propiedades de la probabilidad

Teorema 1: Si .
A  B entonces P ( A)  P( B ) y P ( B  A)  P ( B )  P ( A)

Demostración:

Si , entonces B se puede descomponer en los eventos A y B – A mutuamente


A B
exclusivos.
Así,
P ( B )  P( A)  P ( B  A)

Con lo cual se comprueba el enunciado puesto que


P( B  A)  0.

91
Teorema 2: , es decir, el suceso imposible tiene probabilidad cero.
P( )  0

Demostración:
Sea A un conjunto; entonces A y son disjuntos y Por el Axioma 3,
 A    A.

P( A)  P( A   )  P( A)  P( )

Restando P(A) de ambos lados obtenemos el resultado.

Teorema 3: Si Ac es el complemento de A entonces

P ( A c ) 1  P ( A)
Las probabilidades complementarias son muy útiles cuando se pregunta por la
probabilidad de “por lo menos”. En general, esto representa una combinación de varios
eventos, pero el evento complemento “ninguno” es un solo resultado. Es más fácil resolver
para el evento complemento y obtener una respuesta aplicando el Teorema 3.

Ejemplo 2.14. Se lanzan dos dados. ¿Cuál es la probabilidad de que la suma sea por lo
menos 3 (es decir, 3 o más)?

Solución:
En vez de encontrar la probabilidad de cada una de las sumas cuyo resultado es 3 o más, es
mucho más sencillo encontrar la probabilidad de que la suma sea 2 ( menor que tres) y
luego aplicar el Teorema 3, dejando que “por lo menos” sea A.

P(Ac)=1/36; P(A)=1 - P(Ac)=1 - 1/36=35/36.

Ejemplo 2.15. Según un artículo publicado en una revista (1991), una de cada nueve
personas a quienes se diagnosticará SIDA durante 1991 será una mujer. Con base en esta
información, encuentre la probabilidad de que una persona a la que se diagnosticará SIDA
en 1991 sea hombre.

Solución:
P(mujer que se le diagnostica SIDA)+P(hombre que se le diagnostica SIDA)=1
P(hombre que se le diagnostica SIDA)=1- P(mujer que se le diagnostica SIDA)
=1- 1/9
=8/9.

92
Teorema 4: Si E=A1 U A2 U…U An y A1, A2, …, An son sucesos mutuamente excluyentes,
entonces
P ( E )  P( A1)  P( A 2)  ...  P ( A n)
En particular si E= S, el espacio muestral, entonces
P( A1)  P ( A 2)  ...  P( A n) 1

Teorema 5: Si A y B son dos eventos cualesquiera, entonces

P( A  B)  P( A)  P( B)  P( A  B)
Generalizando, si A1, A2, A3 son tres eventos cualesquiera, entonces

P ( A1  A 2  A3)  P ( A1)  P ( A 2)  P( A3)


 P ( A1  A 2)  P ( A 2  A3)  P ( A3  A1)
 P( A1  A 2  A3)
Ejemplo 2.16. Una tienda vende partes nuevas y usadas. 60% de las partes que hay en
existencia son usadas. El 61% son usadas o están defectuosas. Si 5% están defectuosas,
¿Qué porcentaje de partes son usadas y están defectuosas?

Solución:
Sea A=partes usadas; y B=partes defectuosas.
P(A U B)=P(A)+P(B)-P(A ∩ B)
P(A ∩ B)=P(A)+P(B)-P(A U B)
=0.60+0.05 – 0.61
=0.0400.

Teorema 6: Para dos sucesos A y B

P( A)  P ( A  B )  P ( A  B c )

Teorema 7: Si un suceso E debe resultar en uno de los sucesos mutuamente excluyentes A1,
A2,…,An entonces


P ( E )  P ( E  A1)  P( E  A 2)  ...  P ( E  A n)

Asignación de probabilidades
Si un espacio muestral S consiste únicamente de los eventos simples A1, A2,…,An entonces
por el Teorema 4
P( A1 )  P( A2 )  ...  P( An ) 1
Se concluye que podemos escoger arbitrariamente cualquier número no negativo para
las probabilidades de estos sucesos elementales siempre que se satisfaga la ecuación
anterior. En particular, si suponemos probabilidades iguales para todos los sucesos simple,
entonces
1
P ( Ai )  , i 1, 2,..., n
n

93
y si A es un suceso compuesto por h sucesos simples tenemos

1 h
P( A) h * 
n n

Esto es, si los resultados son equiprobables, se cuenta el número n de resultados en S,


también el número h de resultados de A y se toma la relación entre h y n como P(A).

Esto equivale a la definición o enfoque clásico de la probabilidad dado anteriormente.


Podíamos lógicamente emplear otros procedimientos para asignar probabilidades, como
el de la frecuencia relativa.
La asignación de probabilidades provee un modelo matemático y su éxito debe probarse
experimentalmente en forma muy similar a como las teorías en física u otras ciencias deben
probarse experimentalmente.

Ejemplo 2.17.
1) Se lanza solo un dado. Sea el evento E: caiga un 2 ó 5, hallar P(E). El espacio muestral
es S={1, 2, 3, 4, 5, 6 }, A1={1}, A2={2}, A3={3}, A4={4}, A5={5} y A6={6}. Si
asignamos probabilidades iguales a los puntos muestrales, es decir si suponemos que el
dado es legal, entonces P(A1)=P(A2)=…=P(A6)=1/6, con lo que P(Ai)≥0 y ∑P(A i)=1. Así,
E= A2 U A5 y P(E)=P(A2 U A5)=P(A2) + P(A5)=1/6+1/6=2/6=1/3 por el Axioma 3.
2) Un troquel de extrusión se utiliza para producir varillas de aluminio. Existen ciertas
especificaciones para la longitud y diámetro de las varillas. Para cada una de éstas, la
longitud puede ser demasiado corta, demasiado larga o estar bien y el diámetro se puede
clasificar en muy delgado, muy grueso o estar bien. En una población de mil varillas, el
número de ellas en cada clase es:

diámetro
longitud muy está bien muy
delgado grueso
demasiado 10 3 5
corta
está bien 38 900 4
demasiado 2 25 13
larga

Se toma una varilla aleatoriamente a partir de esta población. ¿Cuál es la probabilidad de


que sea demasiado corta?

Solución:
Se considera que cada una de las mil varillas representa un resultado en un espacio
muestral. Cada uno de los mil resultados tiene la misma probabilidad. Se resolverá el
problema contando el número de resultados que corresponde al evento. Sea E: varilla
seleccionada es demasiado corta. El número de varillas que son demasiado cortas es
10+3+5=18. Dado que el número total de varillas es mil,

94
P(E)=18/1000

2.4 Técnicas de conteo

En muchos casos el número de puntos muestrales en un espacio muestral no es muy grande


y así la enumeración o cuenta directa de los puntos del muestreo necesarios para obtener las
probabilidades no es difícil. Sin embargo, surgen problemas cuando la cuenta directa se
convierte en una imposibilidad práctica. En tales casos se emplean las técnicas de conteo,
que podría llamarse una forma sofistificada de contar.

TEOREMA. REGLA DEL PRODUCTO

Un evento ocurre de n1 formas y si por cada una de éstas formas un segundo evento
ocurre de n2 formas, entonces el número de formas en que ambos ocurren es n1 * n2.

Este teorema se puede generalizar para k eventos.

Ejemplo 2.18. Hallar el número posible de resultados en S al lanzar una moneda y un


dado.

Solución:

Cae la moneda de n1=2 formas. Por cada una de estas formas, cae el dado de n 2 = 6 formas.
La moneda y el dado caen de n1 * n2 =(2)(6)=12 formas posibles.
Ejemplo 2.19. En el diseño de la cubierta de una caja de velocidades pueden usarse cuatro
tipos diferentes de sujetadores, pernos de tres longitudes diferentes, y tres localizadores
diferentes de los pernos. Hallar el número posible de diseños diferentes que se pueden
tener.

Solución:
Por la regla del producto, hay 4x3x3=36 posibles diseños diferentes.

Ejemplo 2.20. Supongamos que una placa de automóvil en un país consta de dos letras
diferentes, seguidas de tres dígitos que se repiten, de los cuales el primero no es cero.
¿Cuántas placas diferentes pueden grabarse?

Solución:
La primera letra puede colocarse de 26 maneras diferentes (suponiendo el alfabeto de 26
letras), la segunda letra de 25 maneras, para el primer dígito hay nueve números o sea
nueve maneras y para cada uno de los otros dos dígitos 10 maneras. Por lo tanto pueden
grabarse
26.25.9.10.10=585,000
placas diferentes.

TEOREMA. REGLA DE LA SUMA

95
Si dos eventos no pueden ocurrir simultáneamente, y uno de ellos ocurre de n 1 formas,
mientras que el otro ocurre de n2 formas, entonces un evento o el otro puede ocurrir de
n1 + n2 formas.

Este teorema se puede generalizar para k eventos.

Ejemplo 2.21. En una caja de pernos se encuentran 8 gruesos, 5 medianos y 3 angostos.


Una caja de tuercas contiene 6 que ajustan con los pernos gruesos, 4 que ajustan con los
pernos medianos y 2 que ajustan con los pernos angostos. Se elige aleatoriamente un perno
y una tuerca, ¿cuál es la probabilidad de que la tuerca ajuste con el perno?
Solución:

Sea A: la tuerca ajusta con el perno grueso o mediano o angosto.


h 8 6  5 4  3 2
P( A)    0.3854.
n 16 12

PERMUTACION

Una permutación de un cierto número de objetos es una agrupación en la que participan


todos o una parte de ellos en un orden definido.

Ejemplo 2.22. Permutaciones de las letras a, b, c: abc, acb, bca, bac, cba, cab, 6
permutaciones o por la regla del producto: n1*n2*n3=(3)(2)(1)=6 permutaciones.

Permutaciones de n objetos:

n.(n-1).(n-2).....3.2.1

o con la notación n! que se lee “n factorial”, así

n!=n(n-1)(n-2)...3.2.1

Entonces, 2!=2.1, 3!=3.2.1=6, 4!=4.3.2.1=24, y así, sucesivamente. Por definición: 1!=1 y


0!=1.

DEFINICION

El número de permutaciones de n objetos distintos es n!

Ejemplo 2.23. Permutaciones de las letras a, b, c y d es 4!=24.

96
Ejemplo 2.24. Sobre una estantería se tienen que colocar 6 libros distintos de biología, 5
de química y 2 de física, de forma que los de cada materia estén juntos. Hallar el número de
formas en que se puede hacer. R/ 1 036 800 maneras

Permutación de n objetos tomando una parte de ellos (r≤n):


______ ______ _______ . . . ______ _______
1 2 3 r -1 r

n (n-1) (n-2) (n-r+2) (n-r+1)

_____ ______ _______ . . . ______ _______


1 2 3 r -1 r

n. (n-1).(n-2). . . . (n-r+2).(n-r+1)

y con la notación nPr tenemos:

Pr= n. (n-1).(n-2). . . . (n-r+1)


n

Multipliquemos y dividamos por lo que falta para llegar a 1

Pr=
n n(n 1)...(n  r 1)(n  r)(n  r 1)...2.1
(n  r)(n  r 1)...2.1

n Pr=
n!
( n  r )!
TEOREMA

Número de permutaciones de n objetos tomando r a la vez es

n Pr=
n!
( n r )!
donde r≤n.

Obsérvese que nPn = , como se esperaba.


n!
(n  n)!
 n!
0!
 n!
1
 n!

Ejemplo 2.25.

a) Hallar cuántos números de 4 cifras se pueden formar con los dígitos, 0, 1, 2, 3,…9, si
cada uno solo se emplea una vez.

97
b) ¿Cuántos de estos números son impares?
R/ a) 4,536 b) 2,240

Ejemplo 2.26.
En una clase de teoría de la probabilidad hay 6 hombres y 4 mujeres. Se hace un examen y
se ordena a los estudiantes de acuerdo con su desempeño. Suponiendo que no hay dos
estudiantes con la misma calificación:

a) ¿De cuántas maneras distintas pueden quedar ordenados los estudiantes? R/ 10!

b) Si se considera que todas las maneras posibles de ordenar a los estudiantes son
igualmente posibles, ¿cuál es la probabilidad de que las mujeres obtengan los 4 primeros
lugares? R/1/210

Ejemplo 2.27. Una tarjeta de circuitos impresos tiene ocho sitios diferentes en los que
puede instalarse un componente. Si en la tarjeta deben instalarse cuatro componentes
diferentes, ¿cuántos diseños diferentes son posibles? R/1680

Permutaciones circulares:

TEOREMA

(n - 1)!

Ejemplo 2.28. De cuántas formas se pueden sembrar cuatro árboles distintos alrededor de
un círculo.
Solución:
(4 – 1)!=3!=3.2.1=6 formas distintas.

Ejemplo 2.29.
a) ¿De cuántas formas se pueden sentar siete personas en torno a una mesa circular?
b) Si dos de las personas insisten en sentarse juntas, ¿cuántas disposiciones son posibles?
R/ a) 6! b) 2*5!

Ejemplo 2.30.

a) ¿De cuántas formas pueden sentarse 8 personas alrededor de una mesa cuadrada?
b) Si dos de las ocho personas no se llevan bien (A y B), ¿Cuántos arreglos diferentes se
pueden formar en los que A y B no queden sentados juntos?
c) ¿Cuántas disposiciones de la parte (b) evitan que A y B se sienten uno frente al otro?
R/ a) 2*7! b) 7,200 c) 5,760

Permutaciones con objetos repetidos o indistinguibles:

TEOREMA

98
El número de permutaciones de n objetos con n1 iguales, n2 iguales,..., nr iguales, es

r
n!
n Pn1 , n2 ,..., nr  donde  ni  n
n1 !n2 !...nr ! i 1

Ejemplo 2.31. Palabras código con 11 letras de la palabra MISSISSIPPI.


Solución:
1 M, 4 I, 4 S y 2 P, entonces
11!
11 P 1, 4, 4, 2  1!4!4!2!  34,650 palabras.
Ejemplo 2.32. Un código de barras se puede generar imprimiendo 4 líneas de tamaño
grueso, 3 líneas de tamaño medio y 2 líneas de tamaño fino. Si cada ordenación de las
nueve líneas representa un código de barras diferente, ¿cuántos códigos de barras diferentes
se pueden generar utilizando este esquema?
R/ 1260 códigos de barras diferentes.

Ejemplo 2.33. Un ingeniero de tránsito debe ajustar el tiempo de cambio de la luz en una
serie de 10 semáforos de la calle principal de un pequeño poblado. En un momento dado, el
semáforo puede estar con las luces roja, amarilla o verde encendidas.
a) ¿Cuántas variantes de colores de la serie de semáforos son posibles al principio? R/ 310
b) Si las luces se encienden aleatoriamente al inicio, ¿cuál es la probabilidad de que
inicialmente se tenga tres semáforos con luz roja, cinco con luz amarilla y dos con verde?
R/ 0.0427

COMBINACION
Las combinaciones son agrupaciones de objetos en las que no importa su orden.

NOTACION: Combinación de n objetos seleccionando r se denota por nCr ó


n
 .
r 
Ejemplo 2.34. Combinación de las letras a, b, c tomando dos.
Combinación Permutación
ab ab, ba
ac ac, ca
bc bc, cb

P = C2 . 2! y
3 2 3 3 C2=
Luego, P2
3
2!
 3.2.1
2.1
 3.

Este resultado plantea la siguiente relación entre nPr y nCr:

99
n Pr= nCr * r!

TEOREMA
nCr=
n! n!
P (n  r)! r !( n  r )!
n r
 
r! r!

Ejemplo 2.35. Cuántos comités de 4 se forman con 5 personas en una colonia.

Solución:
5C4=5P4/4! = 5.4.3.2/4.3.2.1=5 ó 5C4=5!/4!(5-4)! = 5!/4!1!=5.4!/4! = 5 comités diferentes.

Ejemplo 2.36. Se dispone de 8 jugadores para un equipo de baloncesto. Cuántos equipos


diferentes se pueden formar.

Solución:

8C5=8.7.6.5.4/5.4.3.2.1=56 equipos diferentes pueden formarse.

Ejemplo 2.37. En una fundidora, se identifica un lote de 20 bloques de motor, de los


cuales cinco contienen defectos internos. El comprador selecciona tres bloques al azar y
prueba su dureza. Se aceptará el lote si no se identifican defectos. ¿Cuál es la probabilidad
de que se acepte este lote? R/ 455/1140

Ejemplo 2.38. Selección al azar de tres lámparas entre 15 de las cuales 5 son defectuosas.
a. Probabilidad de que una por lo menos sea defectuosa.
b. Probabilidad de que ninguna sea defectuosa.
c. Probabilidad de que exactamente una sea defectuosa.
d. Probabilidad de que dos por lo menos sean defectuosas.
e. Probabilidad de que a lo sumo dos son defectuosas.

Solución:
a. A: una lámpara por lo menos sea defectuosa
n=15C3=15.14.13/3.2.1 =455; h=5C1.10C2 + 5C2.10C1 + 5C3.10C0 =225 + 100 + 10 =335,
P(A)=h/n=335/455=0.7363

b. P(ninguna sea defectuosa)+P(por lo menos una defectuosa)=1

P(Ac) + P(A)=1
P(Ac) =1 – 335/455=24/91=0.2637

c. C: una exactamente sea defectuosa

P(C)=h/n=5C1 . 10C2 /455=225/455=0.4945.

100
d. P(a lo sumo una sea defectuosa)+P(dos por lo menos sean defectuosas)=1
P(dos por lo menos sean defectuosas)=1- P(a lo sumo una sea defectuosa)
=1 – [P(ninguna sea defectuosa)+
P(una exactamente sea defectuosa)]
=1 – [24/91 + 225/455]
=1 – 69/91
=22/91
=0.2418.
Solución alterna:
P(dos por lo menos sean defectuosas)=P(dos exactamente sean defectuosas)+
P(tres exactamente sean defectuosas)
=5C2.10C1/15C3 +5C3.10C0/15C3
=0.2418.
e. P(a lo sumo dos sean defectuosas)+P(tres exactamente sean defectuosas)=1
P(a lo sumo dos sean defectuosas)=1 - P(tres exactamente sean defectuosas)
=1 - 5C3 . 10C 0 /455
=1- 10/455
=445/455
=0.9780.
Solución alterna:
P(a lo sumo dos sean defectuosas)= P(ninguna sea defectuosa)+
P(una exactamente sea defectuosa)+
P(dos exactamente sean defectuosas)
=24/91 + 45/91 + 20/91
=89/91
=0.9780

Ejemplo 2.39. De una baraja de 52 cartas se sacan tres naipes. Determinar la probabilidad
de que:
a) Sean el as de tréboles, el de corazones y el de picas, en este orden.
b) Sean todos del mismo palo.
c) No hay dos del mismo palo.
R/ a) 1/132,600 b) 22/425 c) 169/425

Ejemplo 2.40. Un experimento consiste en transmitir, al azar, una sucesión de señales


binarias, 0 ó 1. ¿Cuál es la probabilidad de que 3 señales de 6 sean unos?
R/ 5/16.
Ejemplo 2.41. En una planta química se usan 24 tanques para almacenar el producto final.
Se seleccionan cuatro tanques al azar y sin reemplazo. Suponga que seis de los tanques
contienen material en el que la viscosidad excede los requerimientos del cliente.
a) ¿Cuál es la probabilidad de que exactamente un tanque de la muestra contenga material
con viscosidad elevada? R/ 0.461
b) ¿Cuál es la probabilidad de que al menos uno de los tanques de la muestra contenga
material con viscosidad elevada?
c) Además de los seis tanques con niveles de viscosidad elevada, cuatro tanques diferentes
contienen material con impurezas altas. ¿Cuál es la probabilidad de que exactamente uno de

101
los tanques de la muestra contenga material con viscosidad elevada y de que exactamente
uno de los tanques en la muestra, contenga material con impurezas altas? ▄

2.5 Probabilidad condicional


Cada ejemplo que hemos estudiado hasta aquí en esta unidad ha involucrado la
probabilidad de un evento particular al tomar una muestra del espacio muestral completo.
Sin embargo, ¿cómo hallaríamos diversas probabilidades si ya se conociera cierta
información respecto a los eventos involucrados?
Cuando estamos calculando la probabilidad de un evento particular A, dada información
sobre la ocurrencia de otro evento B, esta probabilidad se denomina probabilidad
condicional, P(A│B).

PROBABILIDAD CONDICIONAL

P(A│B)
P(A  B)
 , P(B)  0
P(B)

Ejemplo 2.42. Si al seleccionar al azar una carta de una baraja, se nos hubiera dicho que
dicha carta es negra, ¿cuál es la probabilidad que la carta fuera un as? Deseamos encontrar
P(as │ negra). Aquí se da la información que la carta es negra. Por lo tanto, el espacio no
consiste en las 52 cartas de la baraja; consiste sólo en las cartas negras. De las 26 cartas,
dos son ases. Por consiguiente, la probabilidad de un as, dado que sabemos que la carta es
negra, es
número de ases negros
P (as negra ) 
número de cartas negras
2

26
Este resultado (2/26) también puede obtenerse usando la definición de la siguiente manera:

P(A│B)
P(A  B)
 , P(B)  0
P(B)

Con evento A= as y evento B= negra


Entonces
2 / 52
P (as negra ) 
26 / 52
2

26

Ejemplo 2.43. Lanzamiento de un dado. Sea A obtener un número par, A={2,4,6}. Si en el


lanzamiento se obtiene un número mayor que 3, B={4,5,6}, ¿cuál es la probabilidad de que
este número sea par? Escribimos A│B como el evento de que el número sea par dado que
es mayor que tres.

102
Solución:
De la figura se observa que P(A│B)=2/3

Ahora P(A∩B)=2/6 y P(B)=3/6, de donde P(A∩B)/P(B)= que es P(A│B). Así,


2/ 6
3/ 6
 2
3
P(A│B)=P(A∩B)/P(B).

Además, , que es otra forma de calcular P(A│B).


P ( A  B ) h1 / n h1 2
  
P( B) h2 / n h2 3

Ejemplo 2.44. Se clasifican muestras de aluminio fundido con base en el acabado de la


superficie (en micropulgadas) y las mediciones de la longitud. Los resultados de 266 piezas
se resumen a continuación.

longitud

acabado de la excelente buena


superficie

excelente 212 24

bueno 18 12
230 36

Sea el evento A: muestra tiene acabado de la superficie excelente y B: muestra tenga una
longitud excelente. Se toma una muestra al azar, encuentra utilizando la tabla:
a) Probabilidad de que el acabado de la superficie sea excelente
b) P(B)
c) P(A│B)
d) P(B│A)
e) ¿Cuál es la probabilidad de que el acabado de la superficie de la muestra sea excelente,
dado que tiene buena longitud?
f) Si la muestra seleccionada tiene acabado de la superficie excelente, ¿cuál es la
probabilidad de que la longitud sea buena?

Solución:

a) P(A)=236/266

103
b) P(B)=230/266

c) P(A│B)=P(A∩B)/P(B)=212/230

e) P(A│Bc)=24/36

Obsérvese que P(A) y P(A│B) son las probabilidades del mismo evento, pero se calculan
bajo condiciones de conocimiento diferentes, de manera similar, P(B) y P(B│A).
Resultados semejantes se muestran en el diagrama de árbol.

2.6 Eventos independientes


Algunas veces el conocimiento de que un evento ha ocurrido no cambia la probabilidad de
que ocurra otro. En este caso las probabilidades condicional e incondicional (probabilidad
referida a S) son las mismas y se dice que los eventos son independientes, es decir, al
afirmar que A y B son eventos independientes significa que la ocurrencia o no ocurrencia
de uno de ellos no tiene relación con la probabilidad de que ocurra el otro.

diámetro
longitud muy está bien muy
delgado grueso
demasiado 10 3 5
corta
está bien 38 900 4
demasiado 2 25 13
larga

Ejemplo 2.45. Una varilla de aluminio se selecciona del espacio muestral que se presenta
en la tabla del ejemplo 2.14-2. Sean los eventos L 1, L2 y L3 de que la varilla sea demasiado
corta, está bien y demasiado larga respectivamente; y los eventos D 1, D2 y D3 de que el
diámetro de la varilla sea muy delgado, está bien y muy grueso respectivamente. Determine
P(L3) y P(L3 │D1). ¿Estas probabilidades son diferentes?
Solución:
P(L3)=40/1000=0.040

104
P(L3 │D1)=P(L3∩D1)/P(D1)=
2 /1000 2
  0.040
50 /1000 50
La probabilidad condicional y la probabilidad incondicional son las mismas. La
información de que el diámetro de la varilla es muy delgado no cambia la probabilidad de
que la varilla sea demasiado larga.
El ejemplo muestra que el conocimiento de que un evento ocurra a veces no cambia la
probabilidad de que ocurra otro evento. En estos casos, de dice que los dos eventos son
independientes. El evento L3 y D1 son independientes.

INDEPENDENCIA
Dos eventos A y B son independientes si P(A│B)=P(A) y son dependientes en
cualquier otro caso.

P(A|B)=P(A) <====> P(B|A)=P(B)

Ejemplo 2.46. El uso del aspecto de las plantas en la prospección* de depósitos minerales
se denomina prospección geobotánica. Un indicador de cobre es una pequeña planta de
menta con flores de color malva. Suponga que en una región dada se tiene la probabilidad
de 30% de alto contenido de cobre el suelo y de 23% de presencia de esa planta. Si el
contenido de cobre es alto, existe 70% de probabilidad de que esté presente la planta. Sean
los eventos C: alto contenido de cobre en el suelo y M: presencia de esa planta ¿son los
eventos C y M independientes?

Solución:
Los eventos C y M son independientes si y sólo si P(M│C)=P(M) y P(C│M)=P(C).
Sabemos que P(M│C)=0.70 y que P(M)=0.23, entonces P(M│C) ≠ P(M), con lo que C y
M son dependientes. ¿Era de esperarse este resultado? Explique.

P(A∩B) cuando los eventos son independientes:

A y B independientes P(A|B)=P(A)=P(A∩B)/P(B) ==>P(A∩B)=P(A)P(B)

TEOREMA. INDEPENDENCIA DE EVENTOS

A y B son independientes si y sólo si


P(A∩B)=P(A)·P(B)

Generalización del teorema:

P(A1∩A2∩...∩Ak)=P(A1).P(A2).P(A3)…P(Ak).

______

105
* Exploración del subsuelo encaminada a descubrir yacimientos minerales, petrolíferos, arqueológicos o la existencia de
aguas subterréneas.

Consecuencias:
Teorema 1: Si A y B son eventos independientes, entonces A y B c son eventos
independientes.

Teorema 2: Si A y B son eventos independientes, entonces A c y Bc son eventos


independientes.

Teorema 3: Si A, B y C son eventos independientes, entonces A y B U C son eventos


independientes.

Ejemplo 2.47. Ana y Benito lanzan dardos a un blanco. La probabilidad de que Ana dé en
el blanco es 0.25 y la de Benito es 0.40. Si Ana y Benito lanzan los dardos, ¿cuál es la
probabilidad de que peguen al blanco?

Solución:

Sea los eventos A: Ana dé en el blanco y B: Benito dé en el blanco.


P(Ana dé en el blanco o Benito dé en el blanco o ambos den en el blanco) =P(AUB)=P(A)
+P(B)-P(A∩B)= P(A)+P(B)-P(A).P(B)=0.25 + 0.40 –(0.25)·(0.40)=0.5500.

Ejemplo 2.48. Se tiene una caja con 50 pernos: 14 de 2”, 24 de 3 1/2” y 12 de 4”. Cuatro
se extraen al azar con reemplazo. ¿Cuál es la probabilidad de que por lo menos
seleccionemos un perno de 3 1/2”?

Solución:
P(por lo menos uno de 3 1/2”)+P(ninguno de 3 1/2”)=1
P(por lo menos uno de 3 1/2”)=1- P(ninguno de 3 1/2”)
26 26 26 26
1 . . .
50 50 50 50
4
 26 
 1-  
 50 
 0.9269.

Ejemplo 2.49. Suponga que la probabilidad de que los frenos de aire de los camiones de
una compañía fallen en un descenso particularmente largo es de 0.001. Suponga también
que los frenos de emergencia de esos camiones pueden detenerlos en el tipo de descenso
mencionado con probabilidad de 0.8. Estos sistemas de frenado funcionan
independientemente uno respecto del otro. Calcule la probabilidad de que:

a) los frenos de aire fallen y los de emergencia detengan el camión


b) los frenos de aire fallen y los de emergencia no puedan detener al camión
c) los frenos de emergencia no puedan detener al camión, dado que fallaron los frenos de
aire

Solución:

106
Sean los eventos F: frenos de aire fallen en descenso particular del camión y E: frenos de
emergencia detengan al camión en el descenso particular.
a) P(F∩E)=P(F).P(E)=(0.001)(0.8)=0.0008
b) P(F∩Ec)=P(F).P(Ec)=(0.001)(0.2)=0.0002
c) P(Ec│F)= P(Ec∩F) /P(F)=(0.0002)/(0.001)=0.2

Ejemplo 2.50. De una caja que contiene 6 bolas negras y 4 bolas verdes se extraen 3 bolas
en forma sucesiva y se reemplaza cada una de ellas antes de hacer la siguiente extracción.
Sean los eventos: Ni, i=1,2,3, de que la bola sea negra y V i, i=1,2,3, de que la bola sea
verde. Cuál es la probabilidad de que las tres sean del mismo color.

Solución:
El evento pedido es N1∩N2∩N3 ó V1∩V2∩V3.

P[(N1∩N2∩N3) U (V1∩V2∩V3)]=P(N1).P(N2).P(N3)+P(V1).P(V2).P(V3)
=6/10 · 6/10 · 6/10 + 4/10 · 4/10 · 4/10
= 0.2800.

Ejemplo 2.51. El circuito ilustrado abajo opera si hay una trayectoria de dispositivos
funcionales de izquierda a derecha. La probabilidad de que cada dispositivo funcione se
indica en la ilustración. Suponga que los dispositivos fallan independientemente. ¿Cuál es
la probabilidad de que el circuito opere?

Solución:

Sea Ii: interruptor i-ésimo está cerrado, i=1, 2, 3. Sea E: la corriente pasa de a a b.
E=(I1U I2 ) ∩ I3
P(E)=P[(I1 U I2) ∩ I3)]
=P(I1 U I2) • P(I3)
={P(I1)+P(I2)-P(I1∩I2)} • P(I3)
={P(I1)+P(I2)-P(I1).P(I2)} • P(I3)
={0.9+0.9-(0.9)(0.9)} • (0.95)
=(0.99)(0.95)
=0.9405 ▄

2.7 Regla multiplicativa


Si en la fórmula de la probabilidad condicional multiplicamos P(B│A) por
P(B  A)

P(A)
P(A), se obtiene el resultado

P(B│A).P(A) =P(B∩A)=P(A∩B)

107
que se conoce como regla multiplicativa.
TEOREMA. REGLA MULTIPLICATIVA.

P(A∩B)= P(A).P(B │ A)

Generalización de la regla:

P(A1∩A2∩ ... ∩Ak)=

P(Ak│A1∩A2∩…∩Ak-1) • P(Ak- 1│ A1∩A2∩…∩Ak-2) • … • P(A3│A1∩A2).P(A2│A1).P(A1)

Ejemplo 2.52. Se tiene una caja con 10 tornillos con 4 defectuosos. Tres tornillos se
extraen al azar sin reemplazo, ¿cuál es la probabilidad de que los tres tornillos estén
defectuosos?

Solución:
Sean los eventos A: primer tornillo defectuoso, B: segundo tornillo defectuoso, y C: tercer
tornillo defectuoso.

P(A).P(B│A).P(C│A∩B) = ▄
P(A∩B∩C)= 4 .3.2  0.0333.
10 9 8

2.8 Ley de la probabilidad total y Teorema de Bayes


Ley de la probabilidad total
PARTICION

Sean A1, A2, ... , Ak que cumplen:

1. Ai∩Aj=Φ, para toda i≠j.

2. A1UA2U...UAk= S

La colección {A1, A2,...,Ak} es una partición de S.

La definición anterior es equivalente a afirmar que los elementos de la colección son


disjuntos y exhaustivos (la unión es S).

Ejemplo 2.53. Lanzamiento de un dado. S={1,2,3,4,5,6}. Los eventos A1={1,2},


A2={3,4,5} y A3={6} son una partición de S, mientras que C1={1,2,3,4} y C2={4,5,6} no.

Si B es un evento de S y si {A1, A2,...,Ak} forman una partición de S, entonces B puede


descomponerse así:

108
B=( A1 ∩B)U(A2∩B)U...U(Ak ∩B)
TEOREMA. LEY DE LA PROBABILIDAD TOTAL

A1, A2, A3,...,Ak forman una partición de S tal que P(Bi)≠0, entonces para cualquier
evento B de S
k k
P(B)   P(Ai  B)   P(A i ).P(B A i )
i 1 i 1

Demostración:

B=( A1∩B) U (A2∩B) U (A3∩B) U...U (Ak ∩B)


P(B)= P(A1∩B)+P(A2∩B)+P(A3∩B)+...+P(Ak ∩B)
P(B)= P(A1).P(B|A1) + P(A2).P(B|A2)+ P(A3).P(B|A3) +…+ P(Ak).P(B|Ak)

k
P(B)   P(A i ).P(B A i )
i 1

Ejemplo 2.54. Tres máquinas A, B y C producen respectivamente 50%, 30% y 20% del
total de artículos de una fábrica. Los porcentajes de artículos defectuosos son 3%, 4% y 5%
respectivamente. Si se selecciona un artículo al azar, ¿cuál es la probabilidad de que sea
defectuoso?.

Solución:
Sea D: artículo defectuoso

P(D)= P(A).P(D|A) + P(B).P(D|B) + P(C).P(D|C)


=(0.50) (0.03)+ (0.30 )(0.04)+ (0.20) (0.05)
=0.0370
Solución alterna:

109
P(D)=(0.50) (0.03)+ (0.30 )(0.04)+ (0.20) (0.05)=0.0370 ▄

Teorema, ley o regla de Bayes


La regla es un método para calcular la probabilidad de una causa dado el efecto. Se utiliza
entonces para calcular las probabilidades a posteriori de los eventos Aj, ajustados o
modificados por B.
Cuando se habla de probabilidad condicional, se busca la probabilidad de un cierto
evento A dado que otro evento B ha ocurrido. Se piensa en general que A es un evento final,
de alguna manera un efecto, para el cual B es una causa posible y que ambos se encuentran
ordenados en el tiempo.

Ejemplo 2.55. Piénsese en Q como el evento de que “un determinado vendedor de seguros
venda 15 pólizas” y R como el evento de que “ese determinado vendedor visite a 40
clientes potenciales”. Claramente Q y R están ordenados en el tiempo y Q es un posible
efecto de R. Supóngase que después se saber el hecho de que el vendedor de seguros
vendió 15 pólizas pero sin saber cuántos clientes potenciales visitó, se pregunta ¿cuál es la
probabilidad de que haya visitado a 40 clientes? En otras palabras ¿cómo se puede
encontrar la probabilidad de que un determinado evento R haya sido la causa de un evento
final Q que se sabe que ocurrió? Tales probabilidades las proporciona la regla de Bayes.

TEOREMA. REGLA DE BAYES


Sea R un evento y su complemento. Si otro evento Q ocurre, entonces
c
R

P( R  Q) P ( R ) P (Q R )
P( R Q)  
P (Q) P ( R ) P(Q R )  P ( R c ) P (Q R c )

El teorema de Bayes también es aplicable cuando S subdivide en más de dos eventos


mutuamente excluyentes. A continuación, se define el teorema en este contexto más
general.

110
TEOREMA DE BAYES

Sea {A1, A2,...,Ak} una partición de S. Entonces para cualquier otro evento B para el que
P(B)>0,

P( A j B) P( A j  B) P ( A j ).P( B A j )
  k
para j  1,2,...,k
P ( B)
 P( Ai ).P( B Ai )
i 1

A P(Ai ) se le llama probabilidad a priori, es la probabilidad de Ai antes de


modificarse por la información que aporta B.
A P(B /Ai ) se le llama verosimilitudes, es la probabilidad de B en la hipótesis Ai.
P(Ai / B) son las probabilidades a posteriori, es la probabilidad de Ai una vez que
usamos la información que aporta B.

Ejemplo 2.56. La probabilidad de que haya un incidente en una fábrica que dispone de
alarma es 0.1. La probabilidad de que suene esta sí se ha producido algún incidente es de
0.97 y la probabilidad de que suene si no ha sucedido ningún incidente es 0.02.
En el supuesto de que haya funcionado la alarma, ¿cuál es la probabilidad de que no haya
habido ningún incidente?
Solución:

Sean los eventos I: se produce un incidente y A: suene la alarma.

P( I c A) P ( I c ).P ( A I c )

P( I c ).P ( A I c )  P( I ).P( A I )

P( I c A)  0.9 x0.02
 0.1565
0.9 x0.02  0.1x0.97

Ejemplo 2.57. En cierta planta de ensamble, tres máquinas 1, 2 y 3, ensamblan 30%, 45%
y 25% de los productos respectivamente. Se sabe de la experiencia pasada que 2%, 3% y

111
2% de los productos ensamblados por cada máquina, respectivamente tienen defectos. Se
selecciona aleatoriamente un producto determinado.

a) ¿Cuál es la probabilidad de que esté defectuoso?


b) Si el producto es defectuoso, ¿cuál es la probabilidad de que haya sido ensamblado por
la máquina 3?

Solución:

a). Sean los eventos A1, A2 y A3: el producto es ensamblado por la máquina 1, 2 y 3
respectivamente y B: producto defectuoso.

=
3 0.30x0.02+0.45x0.03+0.25x0.02=0.0245
P(B)   P(A i ).P(B A i )
i 1

P(B)=(0.30)(0.02)+(0.45)(0.03)+(0.25)(0.02)=0.0245.

b) Por el teorema de Bayes: P(A 3 B)  P( A3  B ) P( A ).P( B A3 )


 3 3
P( B)
 P( Ai ).P( B Ai )
i 1
0.25 x 0.02
  0.2041.
0.0245

Ejemplo 2.58. En el momento en que unos artículos llegan al final de una línea de
producción, un inspector elige los que se someterán a revisión completa; 10% de los
artículos producidos están defectuosos, 60% de estos artículos se envían a revisión
completa y 20% de los que están en buen estado se envía a revisión completa. Si un artículo
se revisa completamente, ¿cuál es la probabilidad de que esté defectuoso? R/0.25

112
Unidad III: DISTRIBUCIONES DE PROBABABILIDAD
DISCRETAS

3.1 Variable aleatoria


A menudo se desea resumir el resultado de un experimento aleatorio en un solo número. En
muchos casos la descripción de los resultados posibles es suficiente, pero en otros es
conveniente asociar un número a cada resultado del espacio muestral. Sabemos que no se
conoce de antemano el resultado particular del experimento, entonces el valor de variable
tampoco se conoce. Debido a esto, la variable se llama variable aleatoria.

VARIABLE ALEATORIA.

Una variable aleatoria (va) es una función denotada por X que asocia un número real x
a cada elemento s del espacio muestral S. Así,

X: S-----------> R
s~~~~~~~~>X(s)= x

Ejemplo 3.1. En el lanzamiento de dos monedas, S={HH, HT, TH, TT}. Interesa el
número de cruces que aparecen en cada punto, estos son: 0, 1, 2. Estos son valores que
toma alguna variable aleatoria X que representa el número de cruces que aparecen en el
lanzamiento.

En el caso anterior X(HH)=0, X(HT)=1, X(TH)=1 y X(TT)=2.

113
El conjunto de números posibles de una variable aleatoria X se llama rango de X y se
denota por RX. En el ejemplo precedente RX={0,1,2}. El valor medido de la variable
aleatoria se denota por una letra minúscula como x=2.5 cm.

Tipos de variables aleatorias:


Si la medición se limita a puntos discretos sobre la recta real, se dice que la variable
aleatoria es una variable aleatoria discreta.
VARIABLE DISCRETA

A una variable aleatoria se le denomina variable aleatoria discreta (vad) si sus valores
forman un conjunto finito o contablemente infinito.

Ejemplo 3.2. En el ejemplo precedente, la va discreta es finita, con RX={0,1,2}.

Ejemplo 3.3. Baterías que salen de una línea de producción hasta obtener una defectuosa.
Buena E, y no buena F (defectuosa). S={F, EF, EEF, EEEF, EEEEF,...}. Sea X el número
de baterías antes de terminar con el experimento. Entonces, X(F)=1, X(EF)=2,
X(EEF)=3,.... La variable aleatoria es discreta infinita contable con RX={1, 2, 3,...}.

Ejemplo 3.4.
a) Número de rayaduras en una superficie.
b) Número de bits transmitidos recibidos con error.

VARIABLE ALEATORIA CONTINUA

Una variable aleatoria es continua si su conjunto posible de valores abarca todo un


intervalo en R sea finito o infinito.

5. El pH de un compuesto químico, llamémosle X, es una va continua donde


Ejemplo 3.
0<X<14, de donde RX={x/0<x<14}=
 0,14 .

Ejemplo 3.6. El volumen de gasolina que se evapora durante el llenado de un tanque de


combustible.

Ejemplo 3.7. La corriente en un circuito electrónico. ▄

3.2 Distribuciones de probabilidad para variables aleatorias


discretas
Muchas veces interesa la probabilidad de que una variable aleatoria tome un valor
particular.
Es común que los valores posibles de una variable aleatoria discreta sean un conjunto de
enteros. Para cualquier variable aleatoria discreta, si se especifica la lista de sus valores

114
posibles junto con la probabilidad que tiene cada variable aleatoria, entonces se ha descrito
completamente a la población a partir de la cual se seleccionó a la variable aleatoria.
Esta descripción se conoce como función de masa de probabilidad.

FUNCION DE MASA DE PROBABILIDAD

La función de masa de probabilidad de una variable aleatoria discreta X es la


función p(x)=P(X=x). A veces a la función de masa de probabilidad se le llama
distribución de probabilidad.

Nota: la función de masa de probabilidad suele también representarse por f(x).

Ejemplo 3.8. El número de fallas en un alambre de cobre de 1 pulgada, fabricado en un


proceso específico, varía de alambre en alambre. En conjunto, 48% de los alambres
producidos no tiene falla, 39% presenta una, 12% fue detectado con dos y 1% tiene tres.
Sea X el número de fallas en una pieza de alambre seleccionada aleatoriamente. Entonces

P(X=0)=0.48 P(X=1)=0.39 P(x=2)=0.12 P(X=3)=0.01

La lista de valores posibles 0, 1, 2, 3, junto con las probabilidades para cada uno,
proporciona una descripción completa de la población de la que se tomó a X.
Por lo tanto, para la variable aleatoria X que representa el número de fallas en una longitud
de alambre, p(0)=0.48, p(1)=0.39, p(2)=0.12, p(3)=0.01 y p(x)=0 para cualquier x diferente
de 0, 1, 2 ó 3.

Obsérvese que

p( x)  0

 p( x)  1
Ejemplo 3.9. La probabilidad de que sea posible conectarse en un momento dado con una
computadora desde una terminal remota es 0.7. Sea X el número de intentos que deben
hacerse para tener acceso a la computadora. Encuentre una fórmula para la dpd de X.

Solución:

P(X=1)=p(1)=0.7, p(2)=(0.3)(0.7), p(3)=(0.3)(0.3)(0.7)=(0.3)2(0.7),

p(4)=(0.3)(0.3)(0.3)(0.7)=(0.3)3(0.7), ... , p(x)=(0.3)x-1(0.7).

(0.3) x 1 (0.7), si x  1,2,3,...


p( x)  
0, en otra parte. Ejemplo 3.10. La
producción de tarjetas de circuitos de dos líneas de fabricación, ajustadas para producir
tarjetas idénticas, se mezcla en una bandeja de recolección. Cuando los inspectores

115
examinan las tarjetas, es difícil determinar si una de ellas proviene de la línea A o de la B. A
veces puede ser útil una determinación probabilística de esta pregunta. Supóngase que una
bandeja de recolección contiene 10 tarjetas de circuitos, de las cuales 6 provinieron de la
línea A y 4 de la B. Un inspector selecciona dos de esas tarjetas, que parecen idénticas, para
revisarlas. Se interesa en X, el número de tarjetas inspeccionadas que provienen de la línea
A. Calcular la distribución de probabilidad para X.

Solución:

; ;
4 3 12 6 4 4 6 48 6 5 30
P ( X  0)  .  P( X  1)  .  .  P ( X  2)  . 
10 9 90 10 9 10 9 90 10 9 90

x 0 1 2
p(x 12/90 48/90 30/90
)
Solución alterna:

x 0 1 2
p(x 12/90 48/90 30/90
)

Ejemplo 3.11. Entre 10 solicitantes para un puesto 6 son mujeres y 4 son hombres.
Supóngase que se seleccionan al azar 3 candidatos de entre todos ellos para concederles las
entrevistas finales. Determinar la función de probabilidad para X, el número de candidatas
mujeres entre los tres finalistas.

Solución:
6 C0 . 4 C34 1 C. C 36 9
P( X  0)  
 ; P( X  1)  6 1 4 2   ;
10 C3 120 30 10 C3 120 30
C. C 60 15 C. C 20 5
P ( X  2)  6 2 4 1   ; P( X  3)  6 3 4 0   .
10 C3 120 30 10 C3 120 30

116
x 0 1 2 3
p(x 1/30 9/30 15/30 5/30
)

La función de masa de probabilidad se puede representar por un diagrama de líneas en


el cual se dibuja una recta vertical para cada uno de los valores posibles de la variable
aleatoria.

Cuando los posibles valores de un variable aleatoria discreta están espaciados


uniformemente, la función de masa de probabilidad se puede representar por medio de un
histograma, con rectángulos centrados en los posibles valores de la variable aleatoria. El
área de un rectángulo centrado en un valor x es igual a P(X=x)=p(x). Este histograma se
llama un histograma de probabilidad, ya que las áreas representan probabilidades.

Ejemplo 3.12. La tabla siguiente representa la función de masa de probabilidad del


número de defectos X en un tablero de circuitos impresos elegido aleatoriamente.
x 0 1 2 3
p(x 0.5 0.3 0.1 0.1
)

a) Dibuje un diagrama de lineas.


b) Dibuje un histograma de probabilidad.
c) Encuentre P(X>1) a partir del histograma.

Solución:

a)

La interpretación física de este diagrama es que cada recta representa una masa igual a su
altura.

117
b)

c) Esta probabilidad está dada por el área bajo el histograma de probabilidad que
corresponde a rectángulos centrados en valores superiores a 1; sus áreas son P(X=2)=0.1 y
P(X=3)=0.1, entonces P(X>1)=P(X=2)+P(X=3)=0.1+0.1=0.2, como se muestra en la
figura.

3.3 Función de distribución acumulada

Se desea a veces que X sea menor o igual a x, lo que se escribe como P(X≤x)=F(x),

xεR, y F(X) se llama función de distribución acumulada de X.

FUNCION DE DISTRIBUCION ACUMULADA

La función de distribución acumulada F(x) de una vad X con dp p(x) se define por

F ( x )  P ( X  x )   p (t )   P ( X  t )
tx t x

Para cualquier xεR, donde F(x) es la probabilidad de que el valor observado de X sea a lo
sumo x.

118
Ejemplo 3.13. Una compañía de materiales químicos envía cierto disolvente en tambores
de diez galones. Sea X el número de tambores pedidos por un cliente elegido
aleatoriamente. Suponga que X tiene la siguiente función de masa de probabilidad:

x 1 2 3 4 5
p(x 0.4 0.2 0.2 0.1
) 0.1

Determine la función de distribución acumulada F(x) para la variable aleatoria X.

Solución
Primero se calcula F(x) para cada uno de los valores posibles de X, que son 1, 2, 3, 4 y 5.
F(1)=P(X≤1)=P(X=1)=p(1)=0.4

F(2)=P(X≤2)=0.4+0.2=0.6

F(3)=P(X≤3)=0.4+0.2+0.2=0.8
F(4)=P(X≤4)=0.4+0.2+0.2+0.1=0.9
F(5)=P(X≤5)=0.4+0.2+0.2+0.1+0.1=1
Para cualquier valor de x, se calcula a F(x) sumando las probabilidades de todos los
valores posibles de X que son menores o iguales a x, si 1≤x<2, los valores posibles de X
son menores o iguales a x son 0 y 1, por lo que F(x)=P(X=0)+P(X=1)=F(1).

0, x 1
0.4, 1  x  2

0.6, 2  x  3
F ( x)  
0.8, 3  x  4
0.9, 4  x  5

1, x5

entonces
p(2)=F(2) – F(1)=0.6 – 0.4=0.2

En la figura siguiente se muestra la gráfica de F(x)

119

3.4 Valor esperado y varianza de variable aleatoria discreta


Ejemplo 3.14. Lanzamiento de tres monedas 20 veces y observar lados que aparecen. Si X
es el número de caras que aparecen, entonces x=0, 1, 2 ó 3. Supóngase que salen cero caras
4 veces, una cara 5 veces, dos caras 6 veces y tres caras 5 veces, entonces el promedio es

(0)(4)  (1)(5) (2)(6)  (3)(5)


20
 1.6
que se reescribe

(0)(4/20) + (1)(5/20)+(2)(6/20)+(3)(5/20)=1.6

donde 4/20, 5/20, 6/20 y 5/20 son las frecuencias relativas de x=0, x=1, x=2 y x=3
respectivamente. La media entonces, se puede calcular si se conocen los distintos valores
que intervienen y sus respectivas frecuencias relativas.
Este resultado sugiere la siguiente definición:

VALOR ESPERADO

Sea X una variable aleatoria discreta con distribución de probabilidad p(x). La


esperanza, o el valor esperado o la media de X es

E(X)     x.p(x)
x

VARIANZA Y DESVIACION ESTANDAR

Sea X con distribución de probabilidad p(x) y valor esperado μ. Entonces la varianza de


X es

120
V(X)= E[(X – μ)2]= = , y
2  ( x   )2 p( x)
x
V(X)= E(X2) - [E(X)]2= = fórmula abreviada
 2
x
x
2
p( x)   2

La desviación estándar de X es

 
2

Ejemplo 3.15. Un resistor en un circuito dado tiene una resistencia en el rango de 99 Ω-


101 Ω. Un ingeniero obtiene dos resistores. La probabilidad de que ambos satisfagan la
especificación es 0.36, la probabilidad de que exactamente uno de ellos satisfaga la
especificación es 0.48 y la probabilidad de que ninguno de ellos lo haga es 0.16. Sea X el
número de resistores que satisface la especificación. Determine para X:
a) la función de masa de probabilidad
b) media
c) varianza, y
d) desviación estándar

Solución:
a) La función de masa de probabilidad es P(X=0)=0.16, P(X=1)=0.48, P(X=2)=0.36 y
P(X=3)=0 para x≠0, 1 ó 2.
b) La media es
   xp(x)
x
  (0)(0.16)  (1)(0.48)  (2)(0.36)
=1.20 Ω
μX describe dónde está centrada la distribución.

c) La varianza es
 2   ( x   )2 p( x)
x

  (0  1.20)(0.16)  (1  1.200) 2 (0.48)  (2  1.200) 2 (0.36)


2

=0.480 Ω2
o por la fórmula abreviada
=∑x2·p(x) – μ2
 2

 2  (0) 2 (0.16)  (1) 2 (0.48)  (2) 2 (0.36)  (1.200) 2


=0.480 Ω2
d) La desviación estándar es
 
2

 0.480  0.693 .

TEOREMA. PROPIEDADES DE LA MEDIA Y VARIANZA

121
Para cualquier variable aleatoria X y constantes a y b cualesquiera,

i) E(aX+b)=aE(X)+b
ii) V(aX+b)=a2V(X)

Ejemplo 3.16. El gerente de una bodega en una fábrica sabe, por haber estudiado sus
registros, que la demanda diaria (número de veces que se usa) de cierta herramienta tiene la
siguiente distribución de probabilidad:

Demanda 0 1 2
Probabilida 0.1 0.5 0.4
d

Es decir, 50% de los registros diarios muestran que la herramienta se usó una vez. Si X
representa la demanda diaria, calcular E(X) y V(X).

Solución:
E(X)=Σxp(x)=0(0.1)+1(0.5)+2(0.4)=1.3

Se usa la herramienta un promedio de 1.3 veces diarias.

V(X)=Σx2p(x) – μ2
=02(0.1)+12(0.5)+22(0.4) – (1.3)2
=0.41

Ejemplo 3.17. Suponer que en el ejemplo precedente, a la fábrica le cuesta $ 10 cada vez
que se usa la herramienta. Calcular el promedio y la varianza de los costos diarios por uso
de esta herramienta.

Solución:
Si X es la demanda diaria, el costo diario por usar la herramienta es por lo tanto C(X)=10X.
El costo promedio es

E[C(X)]=E(10X)=10E(X)=10(1.3)= $ 13
La fábrica debe destinar (o presupuestar) $ 13 diarios para cubrir el costo por usar la
herramienta.

También, la varianza del costo es

V[C(X)]=V(10X)=102V(X)=100(0.41)=41 $2

3.5 Distribución de probabilidad binomial


PARAMETRO
Sea p(x) una distribución de probabilidad. Un parámetro es una cantidad de la cual
depende p(x). El conjunto de distribuciones de probabilidad para parámetros diferentes

122
se llama familia de distribuciones de probabilidad.

Ejemplo 3.18. La fórmula del ejemplo 3.9 la podemos generalizar como p(x)=α(1-α) x-1,
x=1,2,..., con 0<α<1. La dp depende de α y escribimos p(x; α) en lugar de p(x) y así:
  (1   ) x 1 , si x  1, 2,...
p ( x;  )  
 0, en otra parte.
La cantidad α es un parámetro. ▄

Considere los siguientes experimentos aleatorios y variables aleatorias:


1. Lanzamiento de una moneda 10 veces. Sea X=número de caras obtenidas.
2. Una máquina-herramienta desgastada produce 1% de piezas defectuosas. Sea X=número
de piezas defectuosas en las siguientes 25 piezas producidas.
3. De todos los bits transmitidos a través de un canal de transmisión digital, 10% se reciben
con error. Sea X=número de bits con error en los siguientes 5 bits transmitidos.

Estos ejemplos ilustran que un modelo general de probabilidad que los incluya como
casos particulares sería muy conveniente.
Puede considerarse que cada uno de estos experimentos aleatorios consta de una serie de
ensayos aleatorios repetidos. El resultado de cada ensayo puede resumirse como éxito o
bien como fracaso, respectivamente. Los ensayos que constituyen el experimento aleatorio
son independientes. La probabilidad de un éxito en cada ensayo es constante.

Ejemplo 3.19. La posibilidad de que un bit se reciba con error es 0.1. Suponga que los
ensayos son idependientes. Sea X=número de bits con error en los siguientes n bits
transmitidos. Hallar P(X=x).

Solución:

Un posible resultado es

cuya probabilidad es (0.1)x(0.9)n – x. El total de resultados con esta probabilidad es

, por lo tanto,
n n!
 
 x  x !(n  x )!

n
P( X  x )   (0.1) x (0.99) n  x
 x

Ahora se puede definir la función de masa de probabilidad para una variable aleatoria
binomial.

123
DISTRIBUCION BINOMIAL

Un experimento aleatorio que consta de n ensayos repetidos tales que

1) los ensayos son independientes,


2) cada ensayo produce únicamente dos resultados posibles, “éxito” o “fracaso”, y
3) la probabilidad de un éxito en cada ensayo, denotada como p, permanece
constante
se llama experimento binomial.

La variable aleatoria X que es igual al número de ensayos que producen un éxito tiene
una distribución binomial con parámetros p y n=1, 2,…

La función de masa de probabilidad de X es

 n
f ( x )    p x (1  p )n  x , x  0,1,..., n
 x

Escribimos X ~ Bin(n,p) para indicar que X es una va binomial basada en n ensayos con
probabilidad p de éxito.

REGLA.
Si el muestreo es sin reemplazo de una población de tamaño N y si n es a lo sumo 5%

del tamaño de la población, el experimento se considera entonces como binomial.

Ejemplo 3.20. De una caja de 200 tornillos se extrae una muestra sin reemplazo de 10
tornillos. Aquí 10 es el 5% de 200 entonces el experimento es binomial.
En la figura se presentan ejemplos de distribuciones binomiales. Para un valor fijo de n, la
distribución se hace cada vez más simétrica conforme p se incrementa de 0 a 0.5 o se
decrementa de 1 a 0.5. Para un valor fijo de p, la distribución se hace cada vez más
simétrica conforme n se incrementa.

124
Event prob.,Trials
0.5,40
0.15

0.12
probability

0.09

0.06

0.03

0
0 10 20 30 40

Ejemplo 3.21. Supongamos que el 20% de ciertos libros fallan a una prueba de resistencia
de encuadernación. Sea X el número de entre 15 ejemplares seleccionados al azar que
fallan a la prueba. Entonces X tiene una distribución binomial con n=15 y p=0.2.

Hallar la probabilidad de que:

125
a) A lo sumo fallen 3.
b) Exactamente 3 fallen.
c) Al menos 3 fallen.

Solución:
a ) P ( X  3)  p(0)  p(1)  p(2)  p(3)
 15 C0 (.2)0 (.8)15 15 C1 (.2)1 (.8)14  15 C2 (.2) 2 (.8)13  15 C3 (.2)3 (.8)12
=0.6482.

b) P( X  3)  15 C3 (0.2)3 (0.8)12  0.2501.


c ) P ( X  3)  1  P ( X  2)  1   p (0)  p (1)  p (2) 
 1   15 C0 (.2) 0 (.8)15 15 C1 (.2)1 (.8)14  15 C2 (.2) 2 (.8)13 
=0.6020.

TEOREMA. MEDIA Y VARIANZA

Si X ~ Bin(n,p), entonces E(X)= μ=np, V(X)=σ2=npq y


  npq .

Ejemplo 3.22. Las líneas telefónicas del sistema de reservaciones de una aerolínea están
ocupadas 40% del tiempo. Suponga que los eventos de que las líneas estén ocupadas en
llamadas sucesivas son independientes. Suponga que se hacen diez llamadas telefónicas al
sistema de reservación.

a) ¿Cuál es la probabilidad de que, al llamar exactamente tres veces, las líneas estén
ocupadas?
b) ¿Cuál es la probabilidad de que al menos en una de las llamadas, las líneas no estén
ocupadas?
c) ¿Cuál es el número esperado de llamadas en las que todas las líneas estarán ocupadas?
d) ¿Cuál es la desviación estándar?

Solución:

a) Sea X el número de entre diez llamadas telefónicas al sistema de reservación. Entonces


X tiene una distribución binomial con n=10 y p=0.40.

 10 
P(X=3)=  (0.4)3 (0.6)7  0.2150
3
10 
b) P(X  1)=1 - P(X=0)=1 -  (0.6) 0 (0.4)10  0.9999
 0
c) μ=np=(10)(0.4)=4

d)  = np(1-q)  (10)(0.4)(0.6)  1.55

126
A continuación se muestra la distribución correspondiente:

Observe como μ=4, describe donde está centrada la distribución. ▄

3.6 Distribución hipergeométrica y binomial negativa


Variable aleatoria hipergeométrica y su distribución
El muestreo de una población finita puede realizarse en una de dos formas. Es posible
seleccionar y examinar un objeto, y luego devolverlo a la población para su posible
reselección, o seleccionarlo, examinarlo y mantenerlo, lo que impide su reselección en
extracciones subsiguientes. La primera garantiza que las extracciones sean independientes.
En el muestreo sin reemplazo, las extracciones no son independientes. Así pues, si se usa
el muestreo sin reemplazo, deja de ser binomial la variable aleatoria X, el número de éxitos
en n ensayos. Esta situación corresponde a la llamada distribución hipergeométrica.

Ejemplo 3.23.
a) Extracción de 5 cartas de una baraja en donde cada carta no se repone. Sea X=número
de cartas rojas en la muestra.
b) Inspección de baterías de un lote para ser embarcado. Sea X=número de baterías
defectuosas en la muestra.

DISTRIBUCION HIPERGEOMETRICA

Un conjunto de N objetos contiene


o K objetos clasificados como éxitos y
o N – K objetos clasificados como fracasos
Se selecciona una muestra de tamaño n, al azar (sin reemplazo) de entre N objetos, donde
K≤N y n≤N.
Sea que la variable aleatoria X denote el número de éxitos en la muestra. Entonces X tiene
una distribución hipergeométrica y

127
 K  N - K 
  
 x  n - x 
f(x)= x=máx  0, n+K-N hasta mín {K, n}
 N
 n
 
Para deducir la función de masa de probabilidad, podemos utilizar la idea que se ilustra
en la figura.

Con el uso de la probabilidad clásica y la regla de multiplicación para el conteo, se obtiene:


(número de formas de seleccionar x objetos entre K) y (n - x objetos entre N - K )
P(X=x)=
número de formas de seleccionar los n objetos
 K  N-K 
  
 x  n-x 
=
 N
 
 n

Escribimos X ~ H(N, K, n) para indicar que X es una variable aleatoria hipergeométrica


con los parámetros N, K y n.
En la figura se ilustran algunas distribuciones hipergeométricas escogidas.

Ejemplo 3.24. De 50 edificios en un complejo industrial, 12 no cumplen el código


eléctrico. Si se seleccionan aleatoriamente diez edificios para inspeccionarlos, ¿cuál es la
probabilidad de que exactamente tres de los diez edificios no cumplan el código?

128
Solución:
Sea X el número de edificios seleccionados que violan el código. Entonces, X ~ H(50, 12,
10). Se debe determinar P(X=3):
12   38 
  
3 7
P(X = 3) =      0.2703
 50 
 
10 
TEOREMA. MEDIA Y VARIANZA

Si X : H(N, K, n), entonces E(X)=μ =n. K y V(X)= σ 2 =


N
N-n
 
·n· K · 1- K
N -1 N  N

Ejemplo 3.25. Un lote de 75 arandelas contiene cinco en las que la variabilidad del espesor
alrededor de la circunferencia de la arandela es inaceptable. Se selecciona, al azar y sin
reemplazo, una muestra de 10 arandelas.
a). ¿Cuál es la probabilidad de que ninguna de las arandelas inaceptables esté en la
muestra?
b) ¿Cuál es la probabilidad de que al menos una de las arandelas inaceptables esté en la
muestra?
c) ¿Cuál es la probabilidad de que exactamente una de las arandelas inaceptables esté en la
muestra?
d) ¿Cuál es el número promedio de arandelas inaceptables en la muestra?

Solución:
a) Sea X el número de arandelas seleccionadas inaceptables. Entonces, X ~ H(75, 5, 10).
 5  70 
  
0 10
P(X=0)=     0.4786
 75 
 
10 
b)
P(X  1)=1- P(X=0)=1-0.4786=0.5214
c)
 5  70 
  
1 9
P(X=1)=     0.3923
 75 
 
 10 
d) ▄
K 5 2
μ=n  10.  .
N 75 3

129
Aproximación de probabilidad hipergeométrica
Si en la fórmula precedente, hacemos p=K/N, entonces p se interpreta como la proporción
de éxitos en el conjunto del que se elige la muestra. Obsérvese que para una variable
aleatoria hipergeométrica, E(X) es similar al resultado para una variable aleatoria binomial.
Además, V(X) difiere del resultado para una variable aleatoria binomial tan sólo por el
término que se conoce como el factor de corrección para poblaciones finitas.
N -n
N -1
Cuando el tamaño muestral n es pequeño en comparación con el tamaño de la población
N, la distribución binomial Bin(n, K/N) es una buena aproximación de la distribución
hipergeométrica H(N, K, n). Una regla general es que la aproximación suele ser
satisfactoria si n≤0.05N, es decir, n es a lo sumo el 5% del tamaño de la población. Este
resultado depende de la fórmula de Stirling, que se estudia en cursos de cálculo avanzado.
La regla anterior significa que, cuando el tamaño muestral n es pequeño en comparación
con el tamaño de la población N (es decir, no mayor al 5%), la diferencia entre el muestreo
con o sin reemplazo es poca, y la distribución binomial Bin(n, K/N) es una buena
aproximación de la distribución hipergeométrica H(N, K, n). En la figura se presenta un
ejemplo.

Ejemplo 3.26. En el curso de una hora, una máquina específica llena 1000 botellas de
jugo. En cada uno de sus intervalos, se selecciona aleatoriamente una muestra de 20
botellas y se verifica el volumen del contenido en cada una. Sea X el número de botellas
seleccionadas con contenido insuficiente. Suponga que en una hora específica se producen
100 botellas llenadas en forma deficiente. Calcule la probabilidad de que al menos tres
botellas con contenido deficiente se incluyan en las muestreadas. El valor exacto de esta
probabilidad está dado por:

P(X  3)=1 - P(X<3)

=1 - P(X  2)

=1 - P(X=0) - P(X=1) - P(X=2)

130
 100  900  100   900  100   900 
        
 0  20   1   19   2   18 
=1 - - - =0.3228
1000  1000   1000 
 20     
   20   20 

Como puede verse, es laborioso calcular directamente esta probabilidad, incluso con la
ayuda de una calculadora. Sin embargo, puesto que n=20≤0.05N=0.05x1000=50, la regla
general indica que esta probabilidad puede aproximarse mediante la distribución binomial,
con parámetros n=20 y p=K/N=100/1000=0.1.

P(X≥3)=1 – P(X<3)

=1- P(X≤2)

=1- 0.6769

=0.3231 ▄

Distribución binomial negativa

La distribución binomial negativa es una distribución que puede considerarse como lo


“inverso” de la distribución binomial. En el contexto binomial, la variable aleatoria X
representa el número de éxitos obtenidos en una serie de n ensayos independientes e
idénticos, número que es fijo, mientras que el de éxitos varía de un experimento a otro. La
variable aleatoria binomial negativa corresponde al número de ensayos para obtener
precisamente r éxitos, de modo que con ella el número de éxitos es fijo y el número de
ensayos cambia de un experimento a otro.

Ejemplo 3.27. En el problema de los bits con error, ¿cuál es la probabilidad de que el
décimo bits transmitido sea el cuarto con error?

Sea X=el número de bits hasta el cuarto con error. La probabilidad de obtener 3 bits con
error en los primeros nueve y que el décimo sea el cuarto con error es:

9 9
 3 (0.1) (0.9)  (0.1)  3 (0.1) (0.9)
3 6 4 6

   

Ahora se puede definir la función de masa de probabilidad para una variable aleatoria
binomial negativa.

DISTRIBUCION BINOMIAL NEGATIVA

En una serie de ensayos independientes, con probabilidad constante p de éxito constante,


sea que la variable aleatoria X=denota el número de ensayos hasta que ocurren r éxitos.
Entonces X tiene una distribución binomial negativa con parámetros p y r=1, 2, 3, …, y

131
 x  1 xr r
P( X  x)  f ( x)   (1  p) p
 r 1 

para x=r, r+1, r+2,…

Escribimos X ~ Bn(r, p) para indicar que X es una variable aleatoria binomial negativa
con parámetros r y p.

En la figura se ilustran algunas distribuciones binomiales negativas seleccionadas.

Suponga que se lleva a cabo una secuencia de ensayos independientes, cada uno con la
misma probabilidad de éxito. Sea X el número de experimentos hasta incluir el primer
éxito. Por tanto, X es una variable aleatoria discreta, la cual tiene una distribución
geométrica con parámetro p. Se expresa como X~Geo(p).

Ejemplo 3.28. El 10% de las máquinas producidas en una línea de montaje resultan
defectuosas, ¿cuál es la probabilidad de encontrar la tercer máquina defectuosa en el quinto
ensayo, si se seleccionan aleatoriamente máquinas, de una por una, para probarlas?.
Solución:

Aquí, X es el número de máquinas producidas en la línea de montaje en las que la tercer


máquina defectuosa se presenta en la última máquina producida, entonces X ~ Bn(3, 0.10)
y
 5  1
(0.90) ·(0.10)  0.0049
2 3
P(X=5)= 
 3  1 

TEOREMA. MEDIA Y VARIANZA

132
Si X~Bn(r,p), entonces

r(1- p)
E(X)=μ= r y V(X)=σ 2 =
p p2

Ejemplo 3.29. Una prueba de resistencia de soldadura consiste en poner carga en uniones
soldadas hasta que se dé una ruptura. Para cierto tipo de soldadura, 80% de las rupturas
ocurre en la propia soldadura, mientras que otro 20% se da en las vigas. Se prueba cierto
número de soldaduras. Sea X el número de pruebas incluyendo la tercera ruptura de la viga.
Determine la media y la varianza de X.
Solución:

Dado que X~Bn(3, 0.2), se tiene que

r 3
   15
p 0.2


r (1  p) 3(0.8)
2    60
p2 0.22

3.7 Distribución de probabilidad de Poisson

Ejemplo 3.30. Considere las imperfecciones a lo largo de un alambre delgado de cobre.


Sea la variable aleatoria X igual al número de imperfecciones en una longitud de L
milímetros de alambre. Hagamos una partición del alambre de cobre en n subintervalos de
longitud pequeña, digamos, de 1 micrón (μm, la millonésima parte del metro) cada uno.
Cuando la probabilidad de que un subintervalo tenga una imperfección es constante y la
probabilidad de que un subintervalo contenga una imperfección es independiente de otros
subintervalos, X tiene una distribución binomial. Sea p denote la probabilidad de que un
subintervalo tenga una imperfección. Entonces, E(x)=pn. Ahora bien, suponga que el
número de subintervalos aumenta y que la probabilidad de una imperfección disminuye
justo lo suficiente para que pn se mantenga igual a una constante, digamos λ. Es decir, n se
incrementa y p decrece consecuentemente, de tal modo que E(x) permanece constante.
Entonces,

n  n     x   n  x
P( X  x)    p x (1  p) n  x     1  
 x  x n   n 

Ahora bien, se tiene


 n     x   n  x
lím P ( X  x )  lím  x  n  1  n 
n  n       

133
n x
 x    n(n  1)...(n  x  1)   
 lím 1   1  
n  x !  n nx  n

n x
x       1   2   x 1 
 lím 1   1   1  1  ...
 1 
x ! n   n   n   n  n   n 

Se observa que
n
  
lím 1  n   e
n   
y que todos los demás términos en los que interviene n tienden a la unidad; entonces,
tenemos la distribución al límite

e  x
lím P( X  x)  x!
, x  1, 2, ...
n 

Además, debido a que el número de bits transmitidos tiende a infinito, el número de


errores puede ser igual a cualquier entero no negativo. Por lo tanto, el rango de X son los
enteros desde cero hasta infinito.

El ejemplo precedente puede generalizarse para incluir un amplio espectro de


experimentos aleatorios. El intervalo en el que se hizo la partición, era la longitud de un
alambre. Sin embargo, puede aplicarse el mismo razonamiento a cualquier intervalo,
incluyendo un intervalo de tiempo, un área o un volumen. Por ejemplo, se ha establecido un
modelo de éxito para el conteo de:

1) las imperfecciones en rollos de tela


2) las llamadas a una central telefónica
3) las interrupciones de la energía eléctrica
4) defectos por pie en un alambre
5) ratones de campo por hectárea
6) bacterias por cm3
DISTRIBUCIÓN DE POISSON

Dado un intervalo de números reales, suponga que ocurren conteos al azar a lo largo del
intervalo. Si puede hacerse la partición del intervalo en subintervalos con una longitud
suficientemente pequeña tal que

1) la probabilidad de más de un conteo en un subintervalo es cero,


2) la probabilidad de un conteo en un subintervalo es la misma para todos los
subintervalos y proporcional a la longitud del subintervalo, y
3) el conteo en cada subintervalo es independiente de los demás subintervalos,
entonces el experimento aleatorio se denomina proceso de Poisson.

134
Si el número promedio de conteos en el intervalo es λ>0, la variable aleatoria X, que es
igual al número de conteos en el intervalo, tiene una distribución de Poisson con
parámetro λ, y la función de masa de probabilidad de X es

e  x
f ( x)  , x  0, 1, 2, ...
x!

Escribimos X ~ Poisson(λ) para indicar que X es una variable aleatoria de Poisson con
parámetro λ.
Históricamente, el término proceso se ha utilizado para seguir la observación de un
sistema con el paso del tiempo. Una aplicación muy importante de la distribución de
Poisson se relaciona con el acontecimiento de eventos de un tipo particular sobre el tiempo.
Los procesos de Poisson incluyen la observación de eventos discretos en un “intervalo”
continuo de tiempo, longitud o espacio. Se usa el término “intervalo” en la descripción del
proceso de Poisson general, en el entendido de que no es un intervalo en el sentido
matemático usual. Por ejemplo, podría tratarse de observar el número de árboles
distribuidos en un bosque por acre. El evento discreto de interés es dicha observación,
mientras que el “intervalo” continuo es el acre. La variable que interesa en un proceso de
Poisson es X, el número de casos de un evento en un intervalo de t unidades. Puede
comprobarse con el uso de ecuaciones diferenciales que X es una variable aleatoria de
Poisson con parámetro λ=αt, el valor esperado, donde α es una número positivo que
caracteriza al proceso de Poisson subyacente. Así, el número promedio de casos del evento
en unidad de tiempo, longitud área o espacio es αt/t=α. Dicho de otra manera, en el sentido
físico el parámetro α representa el número promedio de casos del evento en cuestión por
unidad de medición. Es decir, si en la distribución de Poisson el número esperado por
tiempo unitario es α, entonces el número esperado de resultados en un intervalo de t
unidades de tiempo específico es una variable aleatoria de Poisson con λ=αt.

En el ejemplo con el alambre de cobre, se demostró que la distribución de Poisson


también podía aplicarse a intervalos tales como longitudes. En la figura se muestran
gráficas de distribuciones de Poisson escogidas.

135
Es importante usar unidades consistentes en el cálculo de probabilidades, medias y
varianzas cuando se trabaja con variables aleatorias de Poisson.
Ejemplo 3.31. Para el caso del alambre de cobre delgado, suponga que el número de
imperfecciones sigue una distribución de Poisson con una media de 2.3 imperfecciones por
milímetro.
a) Determine la probabilidad de exactamente 2 imperfecciones en 1 milímetro de alambre.
b) Determine la probabilidad de 10 imperfecciones en 5 milímetros de alambre.
c) Determine la probabilidad de al menos una imperfección en 2 milímetros de alambre.

Solución:
a) Sea X denota el número de imperfecciones en 1 milímetro de alambre. Entonces, X tiene
una distribución de Poisson con
E(X)=λ=α.t=2.3 imperfecciones/mm x 1 mm =2.3 imperfecciones. Entonces, X ~
Poisson(2.3) y
e 2.3 2.32
P ( X  2)   0.265
2!

b) Sea que X denote el número de imperfecciones en 5 milímetros de alambre. Entonces, X


tiene una distribución de Poisson con
E(X)= 2.3 imperfecciones/mm x 5 mm =11.5 imperfecciones. Entonces X~Poison(11.5) y

e11.511.510
P ( X  10)   0.113
10!

c) Sea X denote el número de imperfecciones en 2 milímetros de alambre. Entonces, X


tiene una distribución de Poisson con
E(X)= 2.3 imperfecciones/mm x 2 mm =4.6 imperfecciones. Entonces, X~Poisson(4.6) y

P( X  1)  1  P( X  0)
e4.6 4.60
 1
0!
 1  e 4.6
 0.9899

TEOREMA. MEDIA Y VARIANZA

136
Si X~Poisson(λ), entonces
E(X)=V(X)=λ

Ejemplo 3.32. El número de colonias de bacterias en determinado tipo de muestras de


agua contaminada tiene una distribución de Poisson cuyo promedio es de 2 colonias por
centímetro cúbico.
a) Si se seleccionan en forma independiente cuatro muestras de un centímetro cúbico de
agua, calcular la probabilidad de que por lo menos una muestra contenga una o más
colonias de bacterias.
b) ¿Cuántas muestras de un centímetro cúbico de agua deben seleccionarse para alcanzar
una probabilidad aproximada de 0.95 de ver por lo menos una colonia de bacterias?
Solución:
a) Sea X denote el número de colonias en cuatro centímetros cúbicos de agua de una
muestra. Entonces, X tiene una distribución de Poisson con
E(X)= λ=α.t=2 colonias/cm3 x 4 cm3 =8 colonias. Entonces, X~Poisson(8) y
P( X  1)  1  P( X  0)
 1  e8 80 / 0!
 1  e8

b) Sea X denote el número de colonias en t centímetro cúbico de agua de una muestra.


Entonces, X tiene una distribución de Poisson con
E(X)=λ=α.t= 2 colonias/ cm3 x t cm3 =2t colonias. Entonces, X~Poisson(2t) y
P( X  1)  0.95
1  P( X  0)  0.95
e 2t 2t 0
1  0.95
0!
e 2t  0.05
2t  ln 0.05
t  1.49
muestras
t2

Ejemplo 3.33. Unas partículas están suspendidas en un medio líquido con concentración
de seis partículas por mL. Se agita por completo un volumen grande de la suspensión, y
después se extrae 3 mL. ¿Cuál es la probabilidad de que sólo se retiren 15 partículas?

Solución:
Sea X el número de partículas extraídas en 3 mL. Entonces, X tiene una distribución de
Poisson con
E(X)=6 partículas/mL x 3 mL = 18 partículas. Entonces, X~Poisson(18) y

e181815
P ( X  15)   0.0786
15!

137
Ejemplo 3.34. La llegada de clientes en un torniquete de una tienda de departamentos
tiene una distribución de Poisson con un promedio de 8 por hora. Para una hora
determinada, calcular la probabilidad de que:
a) lleguen exactamente 8 clientes
b) no lleguen más de tres clientes
c) lleguen por lo menos 2 clientes
Si toma 10 minutos atender a cada cliente, encontrar:
d) la media y la varianza del tiempo total de servicio en relación a las llegadas de los
clientes durante una hora. (Suponer que está disponible un número limitado de empleados
para atender a los clientes, de tal manera que éstos no tienen que esperar) ¿Es muy probable
que el tiempo total de servicio exceda 200 minutos?
Calcular la probabilidad de que lleguen exactamente dos clientes en el período de 2 horas:
e) de las 2:00 P. M. a las 4:00 P. M. (un período continuo de dos horas).
f) de las 1:00 P. M. a las 2:00 P. M. y entre las 3:00 P. M. y las 4:00 P. M. (dos períodos
separados de 1 hora que suman un total uno de dos horas).
Solución:
a) Sea X el número de clientes que llegan en una hora determinada. Entonces, X tiene una
distribución de Poisson con
E(X)=8 clientes/hora x 1 hora= 8 clientes. Entonces, X~Poisson(8) y
e 8 88
P( X  8)   0.1396
8!
b)
P ( X  3)  p (3)  p (2)  p(1)  p (0)
e 8 83 e8 82 e8 81 e8 80
   
3! 2! 1! 0!
 512 64 
 e8    8  1
 6 2 
 0.0424
c)
P( X  2)  1  P ( X  1)
 e8 81 e 8 80 
 1   
 1! 0! 
 
 1  9e8
 0.9970
d) Sea S=10X el tiempo total para atender a los clientes durante una hora. Entonces,
E(S)=E(10X)=10E(X)=80 min y V(S)=V(10X)=102V(X)=800 min2 y

200 e80 80 x
P( S  200)  1  P( S  200)  1   0
x 0 x!
No. Por que la probabilidad es cero, se trata de algo inusual.
e) Sea X el número de clientes que llegan en dos horas. Entonces, X tiene una distribución
de Poisson con
E(X)=8 clientes/hora x 2 hora= 16 clientes. Entonces, X~Poisson(16) y

138

e16162
P( X  2)   128e 16
2!

Distribución de Poisson como forma límite


Cuando n es grande y p pequeña, la distribución de Poisson es una buena aproximación de
la distribución binomial, donde λ=np. Una regla general es que la aproximación suele ser
satisfactoria si n≥100, p≤0.01 y np≤20.

Ejemplo 3.35. Supóngase que 300 erratas están distribuidas a lo largo de un libro de 500
páginas. Hallar la probabilidad de que una página contenga 2 erratas exactamente.

Solución:
Sea X el número de erratas de entre 300 es una variable aleatoria binomial con n=300,
p=1/500=0.002 y np=0.6, así que se cumple la regla, entonces

e 0.6 (0.6) 2
P(X  2)   0.0988.
2!
Ejercicio 3.36. Los mensajes que llegan a una computadora utilizada como servidor lo
hacen de acuerdo con una distribución Poisson con una tasa promedio de 0.1 mensajes por
minuto.
a) ¿Cual es la probabilidad de que lleguen como mucho 2 mensajes en una hora?
b) Determinar el intervalo de tiempo necesario para que la probabilidad de que no llegue
ningún mensaje durante ese lapso de tiempo sea 0.8.
R/ a) 0.062 b) 2.2 minutos ▄

139
Unidad IV: VARIABLE CONTINUA

Introducción
La distribución de probabilidad de una variable aleatoria discreta siempre se puede obtener
asignando una probabilidad positiva a cada uno de los posibles valores que puede tomar la
variable. Naturalmente, tenemos que estar seguros de que la suma de las probabilidades
asignadas sea siempre igual a 1. Desafortunadamente, la distribución de probabilidad de
una variable aleatoria continua no puede establecerse de la misma manera. Es
matemáticamente imposible asignar probabilidades diferentes de cero a todos los puntos de
un intervalo real y al mismo tiempo satisfacer el requisito de que la suma de las
probabilidades de los distintos valores posibles tiene que ser 1. ▄

4.1 Función de densidad


En la tabla siguiente se presentan intervalos de clase para la duración de 50 baterías de
determinado tipo.

Intervalo de Frecuenci
clase Frecuenci a
(años) a relativa
0-<1 16 0.32
1-<2 10 0.20
2-<3 9 0.18
3-<4 7 0.14
4-<5 3 0.06
5-<6 2 0.04
6-<7 1 0.02
7-<8 1 0.02
8-<9 1 0.02

140
Observe que la vida útil constituye una variable aleatoria continua, ya que sus valores
posibles no están restringidos a algún conjunto discretamente espaciado. Los intervalos de
clase son elegidos para que cada intervalo contenga un número razonablemente grande de
baterías. Si la muestra fuera más grande, se podría hacer los intervalos más angostos. En
particular, si se tuviera información sobre toda la población, que contiene millones de
baterías, se podrían hacer los intervalos extremadamente angostos. El histograma de
frecuencia relativa parecería entonces muy suave y se podría aproximar con una curva,
como la que se muestra.

El histograma de frecuencia relativa de la muestra no sólo permite retratar el


comportamiento de la muestra, sino que da idea de algún modelo probabilístico posible de
la variable aleatoria X. El histograma se ve como si se pudiera representar con dicha
aproximación mediante una curva exponencial negativa. Dicha función, f(x), podría
tomarse como modelo matemático del comportamiento de la variable aleatoria X. Nótese
que el área bajo f(x) es igual a uno
Si se hubiera elegido aleatoriamente una batería de población para medir su duración, la
duración X sería una variable aleatoria. La probabilidad de que X esté entre cualquiera de
dos valores a y b es igual al área bajo el histograma de frecuencias relativas entre a y b.

141
Debido a que el histograma de frecuencias relativas en este caso se representa por una
curva, la probabilidad se encontraría mediante el cálculo de una integral.
La función f(x), que modela el comportamiento de la frecuencia relativa de X, se llama
función de densidad de probabilidad y el cálculo de probabilidades implica integrales, en
vez de las sumatorias que se usan en el caso discreto.

FUNCION DE DENSIDAD (fd)


Para una variable aleatoria continua X, una función de densidad de probabilidad es
una función tal que

1)
f ( x)  0
2)



f ( x)dx  1

3)
b
P(a  X  b)   f ( x )dx  área bajo f ( x ) de a y b cualesquiera
a

Nótese que para una variable aleatoria continua X,


a
P( X  a)   f ( x)dx  0
a
para cualquier valor específico de a.

Si X es una variable aleatoria continua, entonces para cualquier x1 y x2,

P(x1≤X≤x2)=P(x1<X≤x2)=P(x1≤X<x2)=P(x1<X<x2)

Ejemplo 4.1. Se perfora un hueco en un componente de una hoja de metal y después se


inserta un eje a través del hueco. La holgura del eje es igual a la diferencia entre el radio del
hueco y el radio del eje. Sea X la variable aleatoria que denota a la holgura, en milímetros.
La función de densidad de probabilidad de X es

1.25(1  x 4 ) 0  x  1
f ( x)  
0 de otro modo

Los componentes con holguras superiores a 0.8 mm se deben desechar. ¿Cuál es la


proporción de componentes que serán desechados?

Solución:

La proporción de componentes que se deben desechar es P(X>0.8), que es igual al área bajo
la función de densidad de probabilidad a la derecha de 0.8.

142
Esta área está dada por

P( X  0.8)   f ( x )dx
0.8
1
  1.25(1  x 4 )dx
0.8
1
 x5 
 1.25 x  
 5 
  0.8


 0.0819

4.2 Función de distribución acumulada y usos


La función de distribución acumulativa de una variable aleatoria continua X es
F(x)=P(X≤x), al igual que para una variable aleatoria discreta. Para una variable aleatoria
continua, el valor de F(x) se obtiene al integrar la función de densidad de probabilidad.

FUNCION DE DISTRIBUCION ACUMULADA (fda)

Sea X una variable aleatoria continua con función de densidad de probabilidad f(x). La
función de distribución acumulativa de X es la función

x
F(x)  P(X  x)   f (t)dt

para -∞<x<∞.

143
Consecuencia: P(a<X<b)=
b a


f (y)dy   f (y)dy F(b)  F(a)

Además, F´(x)=f(x), si la derivada.

Ejemplo 4.2. Con referencia al ejemplo precedente, determine:


a) la función de distribución acumulativa F(x) y dibújela.
b) encontrar la probabilidad de que la holgura del eje es menor a 0.5 mm.

Solución:
a) La función de densidad de probabilidad de X está dada por f(t)=0 si t≤0, f(t)=1.25(1-x 2)
si 0<t<1 y f(t)=0 si t≥1. Puesto que f(t) está definida por partes en tres intervalos diferentes,
el cálculo de la función de distribución acumulativa implica tres casos distintos.

Si x≤0:
x
F ( x)   f (t ) dt
x
  0dt
0
Si 0<x<1:
x
F ( x)   f (t ) dt
0 x
  f (t ) dt  0 f (t ) dt
0 x
  0dt  0 1.25(1  t 4 )dt
x
 t5 
 0  1.25 t  
 5
 0
 x5 
 1.25  x  
 5 
Si x≥1:
x
F ( x )   f (t )dt
0 1 x
  f (t )dt  0 f (t )dt  1 f (t )dt
0 1 x
  0dt  0 1.25(1  t 4 )dt  1 0dt
 0 1 0
1
Por tanto,
0, si x  0

  x5 
F ( x)  1.25  x  , si 0  x  1
  5 
1, si x  1

144
Aquí se presenta una gráfica de F(x).

b) P(X<0.5)=F(0.5)=1.25(0.5 – 0.55/5)=0.6172.

Percentiles

Sea p ε [0,1]. El (100p)mo percentil de la distribución de una vac X, denotada por X p, se


define como
x
p  F(x p )   p f (y)dy

Xp deja a la izquierda un área de 100p % y a la derecha 100(1-p) %.

4.3 Valor esperado y varianza de variable aleatoria continua

Suponga que X es una variable aleatoria continua con función de densidad de


probabilidad f(x).
La media o valor esperado de X, denotada como μ E(X), es

  E(X)   x f (x)dx


La varianza de X, denotada como V(X) o σ2, es


 
 2  V(X)   (x  ) 2 f (x)dx   x 2f (x)dx   2
 

La desviación estándar de X es σ=[V(X)]1/2

Las reglas del valor esperado y la varianza caso discreto son válidas también para el caso
continuo.

145
Ejemplo 4.3. Las especificaciones piden que el espesor de las hojas de aluminio para hacer
latas estén entre 8 y 11 milésimos de pulgada. Sea X el espesor de una hoja de aluminio.
Suponga que la función de densidad de probabilidad de X está dada por

 x , si 6  x  12
f ( x )   54
0, de otro modo
a) Determine el espesor esperado de una hoja
b) Determine la varianza del espesor de una hoja
c) Determine la desviación estándar del espesor de una hoja
d) Determine la mediana del espesor
e) Determine el décimo percentil del espesor

Solución:
a)

   xf ( x)dx


  dx
12
 x x
6 54
1 12 2
54 6
 x dx
milésimas de pulgada
 9.33

b)

 2   x 2 f ( x) dx   2

2
1 12  28 
  x 3 dx   
54 6  3 
(milésimas de pulgada)2
 2.89

c) milésimas de pulgada
  26 9  1.70

d) x
p  P(X  x p )  F(x p )   p f (y)dy

X 0.5 1
0.50   ydy
6 54
1
0.50   x0.5
2
 36 
108 
2
x0.5  90
milésimas de pulgada
x0.5  9.49

146
e) x
p  P(X  x p )  F(x p )   p f (y)dy

X 0.1 1
6 54
ydy  0.10

1
 x0.1
2
 36   0.10
108 
2
x0.1  36  10.8
milésimas de pulgada
x0.1  6.84

A continuación se muestra la mediana o el percentil 50 y el 10 en la gráfica de la función de


densidad, lo mismo que en la función de distribución acumulada..

4.4 Distribución de probabilidad uniforme

DEFINICION.
Se dice que una va X continua tiene distribución uniforme en el intervalo [a, b] si la fd
de X es

147
 1
 , a xb
f ( x; a, b)   b  a
0, de otro modo

Si X es una variable aleatoria cuya distribución uniforme con parámetro a y b, se expresa


como X~U(a,b).

La gráfica de esta función de densidad está dada en la figura

TEOREMA.

Si X~U(a,b) entonces la media y la varianza de X son

ab 1 2
E(X)  y V(X)=  b  a 
2 12

TEOREMA. FUNCION DE DISTRIBUCION ACUMULADA


Si X tiene una distribución Uniforme con parámetros a y b, entonces la función de
distribución acumulada de X es
xa
F ( x)  , a xb
ba

Ejemplo 4.4. Al estudiar las ofertas bajas de contratos de envío, una empresa fabricante
de microcomputadoras ve que los contratos interdepartamental tienen ofertas bajas que se
distribuyen uniformemente entre 20 y 25, en unidades de miles de dólares. Calcular la
probabilidad de que la oferta baja del siguiente contrato de envío interdepartamental sea
a) menor que $22,000.
b) mayor que $24000.
Calcular:
c) el costo promedio de las ofertas bajas en contratos de este tipo.
Solución:
22, 000  20, 000
a ) P( X  22, 000)  F (22, 000)   0.4000.
25, 000  20, 000
24, 000  20, 000
b) P ( X  24, 000)  1  P ( X  24, 000)  1   0.2000.
25, 000  20, 000

148
20, 000  25, 000
c) E ( X )   $ 22, 500.
2

4.5 Distribución normal


Es la distribución continua más importante en el campo de la estadística, cuya gráfica se
llama curva normal. En 1733, Abraham De Moivre desarrolló su expresión matemática.

Si una vac X tiene una distribución en forma de campana, ésta se llama variable
aleatoria normal.

Es la más importante, por las siguientes razones:


1. Muchas variables que aparecen en experimentos u observaciones prácticas están
distribuidas normalmente.
2. Otras variables están distribuidas normalmente en forma aproximada.
3. Algunas veces una variable no se distribuye normalmente, ni siquiera en forma
aproximada, pero se puede convertir en una variable con distribución normal por medio de
una transformación sencilla.
4. Ciertas distribuciones más complicadas se pueden aproximar mediante la distribución
normal.
5. Ciertas variables que son básicas para justificar pruebas estadísticas están distribuidas
normalmente.

La ecuación de la función de densidad normal, depende de los parámetros μ y σ,


media y desviación estándar respectivamente.

DISTRIBUCION NORMAL

Una variable aleatoria X con función de densidad de probabilidad


1  x   2
1   
f(x)= e 2   , x  ¡
 2
tiene una distribución normal con parámetros μ, donde -∞<μ<∞, y σ>0.

Además,
E(X)=μ y V(X)=σ2

Cuando X está normalmente distribuida con parámetros μ y σ 2, esta se abrevia así,


X~N(μ, σ2).

149
PROPIEDADES:
1. Moda x=μ.
2. Simetría con respecto a x=μ
3. Puntos de inflexión en: x=μ±σ; concavidad hacia abajo en μ-σ<X<μ+σ y concavidad
hacia arriba en caso contrario.
4. El eje horizontal es asíntota horizontal: y=0.
5. Area bajo la curva es 1.

4.6 Distribución normal estándar

El área bajo la curva limitada por a y b es


b
P(a  X  b)   f (x)dx
a
1x  2
1 e  2 (  ) dx
b

a  2
representada por el área de la región sombreada

Ninguna de las técnicas de integración se puede utilizar para evaluar la integral anterior, por
lo que su evaluación solamente puede obtenerse utilizando métodos numéricos dado que no

150
puede calcularse directamente al no existir la primitiva de f(x). En su lugar, para μ=0 y σ=1,
dicha integral se ha evaluado y tabulado numéricamente para determinados valores de a y
b. La tabla también se utiliza para calcular probabilidades con otros cualesquiera valores de
μ y σ.
Si μ=0 y σ=1, se tiene la distribución normal estándar (dne) y la variable de ésta
distribución se llama variable aleatoria normal estándar y se denota por Z.

DISTRIBUCION NORMAL ESTANDAR.


 1 z2
f (z)= 1 e 2 , z¡
2

FUNCION DE DISTRIBUCION ACUMULADA.


La función de distribución de probabilidad acumulada de Z es
z
P(Z  z)  F ( z )   f ( y )dy


Φ(z).
La que se denota por

La gráfica de F(z) se muestra a continuación

Φ(z) es el área sombreada a la izquierda de z como se muestra en la figura cuyo valor se


encuentra desde z=-3.49 a z=3.49 en las tablas utilizadas aquí al final del capítulo. Fuera
de este intervalo Φ(z) es 0 para Z<-3.49 y 1 para Z>3.49.

Ejemplo 4.4.

a) P(Z≤1.35)=Φ(1.35)=0.9115.
z 0.00 0.01 0.02 0.03 0.04 0.05 …

151
0.0 .
. .
. .
. .
1.3 …………………………………………..0.9115……
.
.
.

b) P(Z>1.35)=1 - P(Z≤1.35)=1-Φ(1.35)=1 - 0.9115=0.0885.


c) P(Z≤-1.35)=Φ(-1.35)=0.0885.
d) P(-0.76≤Z≤1.35)=P(Z≤1.35)–P(Z≤-0.76)=Φ(1.35)–Φ(-0.76)=0.9115–0.2236=0.6879.
e) P(Z≤-3.5)= Φ(-3.5)=0.
f) P(Z≤3.5)= Φ(3.5)=1.

Percentiles de la distribución normal estándar


Si pε[0,1] las tablas se pueden utilizar para encontrar el (100p)mo percentil de la dne.

Ejemplo 4.5. Hallar P33.


Solución:

El P33, está identificado por el renglón y columna de la tabla donde esta la entrada
p=0.3300, a la cual le corresponde z=-0.44, de donde P33=-0.44.

152
Si p no aparece, se utiliza el número más cercano al mismo, aunque la interpolación daría la
respuesta más precisa.

NOTACION zα: zα es el valor de Z que deja a su derecha un área α.

Los zα se llaman valores críticos.


Percentiles normales estándar y valores críticos

Pk 90 95 97.5 99 99.5 99.9 99.95

α .1 .05 .025 .01 .005 .001 .0005

zα 1.28 1.645 1.96 2.33 2.575 3.08 3.27

Distribuciones normales no estándar

Si X es una variable aleatoria normal con E(X)=μ y V(X)=σ2, entonces la variable

X 
Z

es una variable aleatoria normal con E(Z)=0 y V(Z)=1. Es decir, Z es una variable aleatoria
normal estándar.

A la creación de una nueva variable aleatoria por medio de esta transformación se le llama
estandarización. La variable aleatoria Z representa la distancia de X de su media en
términos de desviaciones estándar. Es el paso clave para calcular una probabilidad con una
variable aleatoria normal arbitraria.

Ejemplo 4.6. Dada una dn con μ=50 y σ=10, hallar:

a). P(45<X<62); b). P(X>20)

Solución:

153
a).
50 X 50 50
P(45  X  62)  P( 4510  10
 6210 )
50 62 50
 P( 4510 Z 10
)

= P(-0.5<Z<1.2)

=Φ(1.2) – Φ(-0.5)

=0.8849 – 0.3085

=0.5764.

b).
P(X  20)  P(Z  20 50
10
)  P(Z  3.0)  1   (3.0)  1  0.0013  0.9987.

Ejemplo 4.7. Si una va tiene una distribución normal, ¿cuál es la probabilidad de que
adopte un valor dentro de 1 DE (1 desviación estándar) de la media?.

Solución:
P(|X-μ|≤1σ)=P(-σ≤X-μ≤σ)

=P(μ-σ≤X≤μ+σ)

 P( 

 Z  

)

=P(-1.00≤Z≤1.00)

=Φ(1.00)-Φ(-1.00)

154
=0.8413-0.1587

=0.6826.

REGLA EMPIRICA
Si una va es normal o aproximadamente normal entonces:

1. Alrededor de 68% de los valores están a menos de 1 DE de μ.

2. Alrededor de 95% de los valores están a menos de 2 DE de μ.

3. Alrededor de 99.7% de los valores están a menos de 3 DE de μ.

Percentiles de una distribución normal

El P45 en el ejemplo 4.6 se obtendría así:

P(X≤x)=0.45=P(Z≤z)

de donde z=-0.13, y con lo que x=50+10(-0.13)=48.7=P45.


x 50
0.13  10
,

De este ejemplo se deduce que x=μ+σz.

155
TEOREMA.

(100p)mo percentil   (100p)mo percentil 


 para f (x)        para f (z) 
   

Ejemplo 4.8. En un examen, la media fue de 84 con una desviación estándar de 10. Las
calificaciones se expresan hasta la parte entera. Si al 12% de la clase se le otorga una
calificación de E (excelente) y las calificaciones siguen una distribución normal, ¿cuál es la
calificación de E más baja posible y la calificación de MB (muy buena) más alta posible?.

Solución:
Se requiere P88. De la tabla P(Z<1.175)=0.88, de modo que z=1.175. Por lo tanto,

x=μ + σ·z

x=84+10.(1.175)

x=95.75

Así, la más baja de las calificaciones excelentes E es 96 y la más alta de MB es 95.

Aproximación normal a la distribución binomial


La distribución normal suele servir también para aproximar distribuciones de vad.
Frecuentemente esto produce resultados satisfactorios, siempre que utilicemos la
corrección por continuidad.

La aproximación normal a la distribución binomial es buena si el histograma de


probabilidad no está demasiado sesgado.

TEOREMA

 área bajo la curva normal 


P(X  x)  
 a la izquierda de x + 0.5
  P(X  x  0.5)  P(Z 

(x  0.5)  np
npq
)  (x  0.5)  np
npq 
La aproximación es aceptable si np≥10 y nq≥10.

156
Ejemplo 4.9. Suponga que el 50% de todas las familias en una colonia tienen CABLE.
Calcular la probabilidad de que a lo sumo 10 tenga CABLE entre 20.

Solución:
Sea X el número de familias en una muestra de 20 que tienen CABLE. Entonces X~Bin(20,
0.50), y la aproximación normal es X~N(10, 5).
Así,
P(X  10)    (10 0.5) 10
2.24   (.22)  .5871.
El valor exacto a través de la distribución binomial es
 20 
10
P( X  10)    (0.5) x (0.5) 20 x
x 0  x 
=0.5881.

A continuación se muestra la tabla de distribución de probabilidad y el histograma de


probabilidad correspondiente donde se observa que dicho histograma no presenta sesgo
aparente.

x 0 1 2 3 4 5 6
p(x) 0 0 .0002 .0011 .0046 .0148 .0370

x 7 8 9 10 11 12 13
p(x) .0739 .1201 .1602 .1762 .1602 .1201 .0739

x 14 15 16 17 18 19 20
p(x) .0370 .0148 .0046 .0011 .0002 0 0

4.7 Gráficas de cuantiles y gráficas de probabilidad normal

157
El objetivo principal de éstas es proporcionar una verificación diagnóstica sobre la
suposición de que los datos provienen de una distribución normal.

Una gráfica cuantilar normal es una herramienta que nos ayuda a determinar si
aparentemente se satisfacen los requisitos de una distribución normal.

PROCEDIMIENTO:
Si se tiene un conjunto pequeño de datos, identifique datos distantes. Rechace la
normalidad si hay más de un dato distante presente. (La presencia de un solo dato distante
podría ser un error o el resultado de la variación por el azar, pero tenga cuidado porque
incluso un solo dato distante llega a producir un efecto importante en los resultados).

Los siguientes pasos describen la construcción de una gráfica cuantilar normal:

a. Primero ordene los datos del más bajo al más alto.

b. Con una muestra de tamaño n, cada valor representa una proporción de 1/n de la
muestra. Utilizando el tamaño muestral n que se conoce, identifique las áreas de
1 ,
2n
etc. Estas son las áreas acumulativas a la izquierda de los valores
3 , 5 , 7 ,
2n 2n 2n
muestrales correspondientes.

c. Utilice la distribución normal estándar para calcular las puntuaciones z correspondientes


a las áreas izquierdas acumulativas que se obtuvieron en el paso b.

d. Una los valores originales de los datos ordenados con sus puntuaciones z
correspondientes, que se calcularon en el paso c, después grafique los puntos (x,y),
donde cada x es un valor muestral original, en tanto y es la puntuación z
correspondiente.

e. Examine la gráfica cuantilar normal con los siguientes criterios: si los puntos no se
acercan a una línea recta o si exhiben algún patrón sistemático diferente al de una línea
recta, entonces parece que los datos provienen de una población que no tiene una
distribución normal. Si el patrón de puntos se acerca razonablemente a una línea recta,
entonces los datos pueden provenir de una población normal.

Ejemplo 4.10. Se extrae una muestra aleatoria de edades de tamaño 5: 62, 46, 68, 64, 57.
Construya una gráfica cuantilar normal para los datos y determine si parecen provenir de
una población que se distribuye normalmente.

Solución:
Los siguientes pasos corresponden a los listados en el procedimiento anterior para la
construcción de una gráfica cuantilar normal.

a. Primero hay que ordenar los datos: 46, 57, 62, 64, 68.

158
b. Con una muestra de tamaño n=5, cada valor representa una proporción de 1/5 de la
muestra, por lo que procedemos e identificar las áreas acumulativas a la izquierda de
los valores muestrales correspondientes. Estas áreas izquierdas acumulativas, que se
expresan en general como etc., se convierten en áreas específicas
1 , 3 , 5 , 7 ,
2n 2n 2n 2n
para el presente ejemplo, con n=5: 1/10, 3/10, 5/10, 7/10 y 9/10. Tales áreas izquierdas
acumulativas, que se expresan en forma decimal, son: 0.1, 0.3, 0.5, 0.7 y 0.9.
c. Ahora buscamos las áreas izquierdas acumulativas de 0.1000, 0.3000, 0,5000, 0.7000 y
0.9000. Encontramos estas puntuaciones z correspondientes: -1.28, -0.52, 0, 0.52 y
1.28.

d. Ahora unimos los datos ordenados con sus puntuaciones z correspondientes; obtenemos
las siguientes coordenadas (x, y), que están graficadas en la siguiente figura: (46, -1.28),
(57, -0.52), (62, 0), (64, 0.52) y (68, 1.28).

159
e. INTERPRETACION: examinamos la gráfica cuantilar normal de la figura. Como los
puntos parecen estar razonablemente cerca de una línea recta, concluimos que las
edades dadas parecen provenir de una población que se distribuye normalmente.

Podemos obtener una estimación de la media y de la desviación estándar directamente de la


gráfica de la probabilidad normal. La media se estima como el 50 0 percentil de la muestra,
ó , y la desviación estándar se estima como la diferencia entre los percentiles 84 0 y
x  59.5
500 ó .
s  67.9  59.5  8.4
Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para
comprobar si un conjunto de datos puede considerarse o no procedente de una distribución
normal. La idea básica consiste en enfrentar, en un mismo gráfico, los datos que han sido

160
observados frente a los datos teóricos que se obtendrían de una distribución gaussiana. Si
la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a
una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor
variabilidad en los extremos.
Se acostumbra hacer la graficación de probabilidades en un papel gráfico especial,
conocido como papel de probabilidad normal, que se ha diseñado para la distribución
normal.
Una representación de un conjunto de datos en papel probabilística normal hace
corresponder a cada observación un punto en el plano. La abscisa del punto no es más que
el valor observado, mientras que la ordenada corresponde al porcentaje de valores en la
muestra que son menores o iguales que el considerado. En general se aplica una corrección
de continuidad, de forma que en una muestra de tamaño n a la observación i-ésima, una vez
ordenadas de menor a mayor, le corresponde como ordenada 100(j-0.5)/n.
La idea básica para la utilización del papel probabilístico normal es la siguiente: cuando los
datos procedentes de una distribución normal se representan en este papel, los puntos
correspondientes se sitúan aproximadamente a lo largo de una recta.

Como se aprecia los datos de distribuciones asimétricas positivas presentan claramente una
curvatura negativa cuando se representan en papel probabilístico normal. Además, las
distribuciones asimétricas negativas presentan una curvatura positiva en el papel de

161
probabilidad normal. La mezcla de dos poblaciones con diferentes medias se detecta por la
existencia de dos tramos de crecimiento rápido separados por uno de crecimiento lento. Por
último los valores anormalmente altos o bajos se representan por puntos que se separan de
la recta en la zona superior derecha e inferior izquierda respectivamente.

Para usar la graficación de probabilidades para investigar la supuesta normalidad, las


observaciones ordenadas x(j) se grafican contra sus frecuencias acumuladas observadas
(j-0.5)/n en el papel probabilidad apropiado. Si la distribución hipotetizada describe
adecuadamente los datos, los puntos graficados estarán aproximadamente en una recta; si
los puntos graficados se apartan significativamente de una recta, entonces el modelo
hipotetizado no es el apropiado.

Ejemplo 4.11. Tomando el ejemplo precedente, se hipotetiza que los datos se modelan
adecuadamente con una distribución normal.

Solución:

Para usar la graficación de probabilidades para investigar esta hipótesis, primero se ordenan
las observaciones en orden ascendente y se calculan sus frecuencias acumuladas (j-0.5)/5
como sigue:

j x(j) (j-0.5)/5

1 46 0.1

2 57 0.3

3 62 0.5

4 64 0.7

5 68 0.9

Después se grafican en papel probabilidad normal los pares de valores x(j) y (j-0.5)/5. La
mayoría de los papeles probabilidad normal grafican 100(j-0.5)/n en la escala vertical
derecha y 100[1-(j-0.5)/n] en la escala vertical izquierda, mientras que en la escala
horizontal se grafica el valor de la variable.

162
Los puntos de la muestra se aproximan a una línea recta, por lo que es factible que
provengan de una población normal.
La media se estima como el 500 percentil de la muestra, ó , y la desviación
x  59.5
estándar se estima como la diferencia entre los percentiles 840 y 500 ó .
s  68  59.5  8.5

163
La construcción manual de estas gráficas es difícil con conjuntos grandes de datos. El
siguiente ejemplo ilustra el uso de un programa de cómputo de STATGRAPHICS.

Ejemplo 4.12. Se tienen 80 mediciones de la emisión diaria (en toneladas) de óxido de


azufre de una planta industrial:

15,8 12,3 20,1 11 24,8 20 23,5 10,7


22,7 15,9 17 20,4 26,1 24,1 18,4 19
26,8 26,4 22,3 16,2 20,9 18,7 25,7 14,5
19,1 9,8 27,5 20,8 21,4 12,8 20,1 18,1
18,5 22,7 17,3 13,3 18 15,5 13,9 31,8
14,4 15,2 6,2 18,1 24,3 19,2 28,6 28,5
8,3 23 18 11,2 11,8 7,7 19,4 9
25,9 29,6 22,9 14,7 17,9 22,5 21,6 17,6
13,2 21,9 24,6 20,5 23,9 19,3 13,5 16,7
23,7 10,5 19,4 26,6 17,5 9,4 24,6 16,9

164
4.8 Distribución exponencial
La distribución exponencial es una distribución continua que algunas veces se utiliza para
modelar el tiempo que transcurre antes de que ocurra un evento. A menudo, a aquél se le
llama tiempo de espera. En algunas ocasiones la distribución exponencial se utiliza para
modelar el tiempo de vida de un componente. Asimismo, hay una relación cercana entre la
distribución exponencial y la distribución de Poisson.

DEFINICION

La función de densidad de probabilidad de la distribución exponencial con parámetro λ>0


es
 e x , x  0
f ( x)  
0, x0

Si X es una variable aleatoria cuya distribución exponencial con parámetro λ, se expresa


X~Exp(λ).

La figura presenta la función de densidad de probabilidad de la distribución exponencial


para valores de λ.

Es fácil calcular la función de distribución de probabilidad acumulativa de la distribución


exponencial. Para x≤0, F(x)=P(X≤0)=0. Para x>0, la función de distribución acumulativa es

x
F ( x )  P ( X  x )    e t dt  1  e x
0

165
TEOREMA.

Si X~Exp(λ), la función de distribución acumulada de X es

1  e x , x  0
F ( x)  P ( X  x)  
0, x0

La media y la varianza de una variable aleatoria exponencial se puede calcular mediante la


integración por partes.

TEOREMA.

Si X~Exp(λ), entonces

1 1
X  y  X2 
 2

Ejemplo 4.13. Suponga que el tiempo de respuesta X en cierta terminal de computadora en


línea (el tiempo transcurrido entre el fin de la consulta del usuario y el principio de la
respuesta del sistema a esa consulta) tiene una distribución exponencial con tiempo
esperado igual a 5 segundos.
a) Cuál es la probabilidad de que el tiempo de respuesta se a lo sumo 10 segundos.
b) Cuál es la probabilidad de que el tiempo de respuesta esté entre 5 y 10 segundos.
c) Encuentre la mediana de X.

Solución:
a) Sabemos que E(X)=1/λ=5, de donde λ=0.2. Entonces
P ( X  10)  1  e (0.2)(10)  1  e2  0.8647
b)
P (5  X  10)  (1  e 2 )  (1  e1 )  0.2325
c) Sea x0.50 = P50 la mediana de X. Entonces
P(X≤ x0.50 )=0.5
1  e 0.2 x0.50  0.50
x0.50 =3.47 seg
La distribución exponencial y el proceso de Poisson
En el desarrollo de la distribución de Poisson, fijamos el tiempo en algún valor t, y
desarrollamos la distribución del número de ocurrencias en el intervalo [0, t]. Indicamos
esta variable como X, y la distribución como
e   x
P( X  x)  , x  0, 1, 2, ...
x!

166
Consideremos ahora P(X=0), que es la probabilidad de ninguna ocurrencia en [0, t]. Esta
está dada por
P ( X  0)  e t
Recuerde que en principio fijamos el tiempo en t. Otra interpretación de
P ( X  0)  e t
es que ésta es la probabilidad de que el tiempo para la primera ocurrencia sea mayor que t.
Al considerar este tiempo como una variable aleatoria T, notamos que

P( X  0)  P(T  t )  e t , t  0

Esta expresión determina la relación que existe entre la distribución de Poisson y la


exponencial.

Por consiguiente, si dejamos ahora que el tiempo varíe y consideramos la variable aleatoria
T como el tiempo para la ocurrencia, entonces

F (t )  P(T  t )  1  e t , t  0

Y, puesto que f(t)=F´(t), vemos que la densidad es

f (t )   e  t , t  0

que nos da la función de masa de probabilidad del tiempo requerido hasta que se detecta la
primer ocurrencia, ésta es la función de densidad exponencial. En consecuencia, la
relación entre la distribución exponencial y de Poisson puede establecerse como sigue: si el
número de ocurrencias tiene una distribución Poisson, entonces el tiempo (longitud, área,
etc.) entre ocurrencias tiene una distribución exponencial. Por ejemplo, si el número de
pedidos para un cierto artículo recibidos a la semana tiene una distribución de Poisson, el
tiempo entre pedidos tendría una distribución exponencial. Una variable es discreta (el
conteo) y la otra (el tiempo) es continua.

Ejemplo 4.14. El tiempo entre llamadas telefónicas a una ferretería tiene una distribución
exponencial con tiempo promedio entre llamadas de 15 min.
a) ¿Cuál es la probabilidad de que no haya llamadas en un intervalo de 30 min?
b) ¿Cuál es la probabilidad de que haya al menos una llamada en un intervalo de 10 min?
c) ¿Cuál es la probabilidad de que el tiempo hasta la siguiente llamada esté entre 5 y 10
min?
d) Determine el intervalo de tiempo tal que la probabilidad de que no haya llamadas en el
intervalo sea 0.90.

Solución:
a) Sabemos que E(x)=1/λ=15, de donde λ=1/15. Entonces
P( X  0)  P(T  30)  e (1/15)(30)  0.1353
o por la función exponencial

167
P(T  30)  1  P(T  30)  1  1  e (1/15)(30)   0.1353
 

b)
P ( X  1)  1  P ( X  0)  1  e (1/15)(10)  0.4866
c)
P(5  T  10)  P(T  10)  P(T  5)
 1  e(1/15)(10)   1  e(1/15)(5) 
   
 e (1/15)(5)  e (1/15)(10)
 0.2031
d)
P( X  0)  P(T  t )  0.90
e (1/15)t  0.90
1
 t  Ln(0.90)
15
t=1.58 min ▄

4.9 Distribución gamma y de Weibull


Las distribuciones gamma y de Weibull son extensiones de la distribución exponencial.
Ambas implican una integral conocida como la función gamma.

DEFINICION

Para r>0, la función gamma está definida por


(r)   t r 1e  t dt
0

PROPIEDADES:

1. Γ(r)=(r-1)Γ(r-1), r>1 (se demuestra por integración por partes).

2. Γ(r)=(r – 1)! r ε Z+.

3. Γ(1/2)= .

La distribución gamma
DISTRIBUCION GAMMA

168
La variable aleatoria X cuya función de densidad de probabilidad es

 r x r 1e x
f ( x)  , si x  0
( r )
tiene una distribución gamma con parámetros r>0 y λ>0.

Si X es una variable aleatoria cuya función de densidad de probabilidad gamma con


parámetros r y λ, se expresa como X~Γ(r, λ). Observe que cuando r=1, la distribución
gamma es igual a la exponencial. Con símbolos, Γ(1, λ)=Exp(λ). La figura muestra gráficas
de la función de densidad gamma para valores de r y λ.
Algunas alternativas de la función de densidad gamma se muestran en el siguiente gráfico.
Siendo los parámetros de forma y escala r y λ, respectivamente. En general, la forma de la
distribución es:

 Si r≤1, jota transpuesta.


 Si r>1, tiene un pico en x=(r-1)/λ =
xˆ.

TEOREMA.

Si X es una variable aleatoria gamma con parámetros r y λ, entonces la media y la varianza


de X son

E(X)  r /  y V(X)=r/ 2

169
El modelo Gamma se ha utilizado frecuentemente en variables tales como: Problemas de
tráfico en líneas telefónicas; resistencia de componentes del concreto reforzado; altura de
la precipitación mensual; tiempo de falla de un sistema de r componentes, cada uno falla
con frecuencia λ; ingresos familiares, etc.

Probabilidades a partir de la distribución gamma


TEOREMA

En la distribución gamma, si el parámetro de forma es un número entero r>0, entonces la


distribución acumulada de probabilidad está dada por

 r t r 1et r 1   x
x
e ( x ) k
F ( x)   dt  1   , x0
(r ) k 0 k!
0

Ejemplo 4.15. En cierta ciudad, el consumo diario de agua (en millones de litros) sigue
una distribución gamma con parámetros r=2; λ=1/3. Si el consumo total diario en esa
ciudad es de 9 millones de litros; ¿cuál es la probabilidad de que en un día cualquiera el
abastecimiento de agua sea insuficiente?

Solución:
e(1/3)(9)  (1/ 3)(9) 
1 k
F (9)  P ( X  9)  1    1  0.1991  0.8009.
k 0 k!
Solución alterna:
=0.8009, por integración por partes.
 
1 2
9 1 x 9 1 x
0 dx  19  xe
3
P ( X  9)  xe 3 3 dx
(2) 0

Ejemplo 4.16. Suponga que un ferry llevará pasajeros entre dos puertos junto con 10
autos. Además, suponga que por experiencia se sabe que los autos llegan al ferry como
sucesos de Poisson independientes, a un ritmo promedio de 7 autos por hora. Obtenga la
probabilidad de que el tiempo entre salidas consecutivas del ferry no sea mayor de una
hora.

Solución:
Tomamos una hora como unidad de tiempo, entonces r=10 autos; λ=7 autos por hora; así se
tendrá:
101  (7)(1) k 9 7 k
e 7 e 7
F (1)  P(T  1)  1    1   1  0.8305  0.1695
k 0 k! k 0 k !

Si r=k/2 donde k es un entero positivo, a la distribución Γ(r, ½) se le llama distribución Ji-


cuadrada con k grados de libertad. La distribución Ji-cuadrada es muy importante en la
inferencia estadística. Se analizarán algunos de sus usos en la parte de inferencia
estadística.

170
Distribución de Weibull
La distribución de Weibull constituye una distribución continua que se utiliza en varias
situaciones. Una aplicación común es modelar los tiempos de vida de componentes, como
cojinetes, cerámica, capacitares y dieléctricos. La función de probabilidad de Weibull tiene
dos parámetros, ambos constantes positivas, que determinan su localización y forma. Estos
se representan por α y β.

DEFINICION

La variable aleatoria X con función de densidad de probabilidad



f ( x)    x 1e(  x) , x  0
tiene una distribución de Weibull con parámetro de localización α>0 y parámetro de
forma β>0.

Si X es una variable aleatoria cuya función de densidad de probabilidad de Weibull con


parámetros α y β, se expresa como X~Weibull(α,β). Observe que cuando α=1, la
distribución de Weibull es igual a la distribución exponencial con parámetro λ=β. Con
símbolos, Weibull(1, β)=Exp(β).

La figura muestra gráficas de la función de densidad de probabilidad de Weibull(α, β) para


diversas opciones de los parámetros α y β.

TEOREMA.

Si X tiene una distribución de Weibull con parámetros α y β, entonces la función de


distribución acumulada de X es

F ( x)  1  e (  x )

TEOREMA.

171
Si X~Weibull(α, β), entonces
1
  (1  1 )

2 
1
2
 (1  2 )  (1  1 ) 
2

Ejemplo 4.17. Se sugiere utilizar una distribución de Weibull para modelar la duración de
un proceso de horneado en la fabricación de un semiconductor. Sea T la duración en horas
del proceso de horneado de una muestra elegida aleatoriamente. Si T~Weibull(0.3, 0.1),
a) ¿cuál es la probabilidad de que el proceso de horneado dure más de cuatro horas?
b) ¿cuál es la probabilidad de que dure entre dos y siete horas?

Solución:
a)
0.3
P(T  t )  1  e (0.1t )
En consecuencia,

P (T  4)  1  P (T  4)

 1  1  e [(0.1)(4)] 
0.3

 
 0.4678

b)
P(2  T  7)  P(T  7)  P(T  2)
 0.1324
Area bajo la curva normal tipificada

172
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
z

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441

173
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

Unidad V: DISTRIBUCIONES DE PROBABILIDAD


CONJUNTA
BIVARIADA DISCRETA Y DISTRIBUCIONES DE
MUESTREO

5.1 Distribuciones de probabilidad conjunta de variables


aleatorias discretas X y Y
Hasta aquí nuestro estudio de variables aleatorias y sus distribuciones de probabilidad se ha
restringido a espacios muestrales unidimensionales. Sin embargo, habrá situaciones, donde
podemos encontrar que es deseable registrar los resultados simultáneos de dos variables
aleatorias.
Sea X y Y son dos variables aleatorias discretas, la distribución de probabilidad para sus
ocurrencias simultáneas se puede representar mediante una función con valores f(x,y) para
cualquier par de valores (x,y) dentro del rango de las variables aleatorias X y Y. Se

174
acostumbra referirse a esta función como la distribución de probabilidad conjunta de X y
Y.
De aquí, en el caso discreto,

f(x,y)=P(X=x, Y=y)

es decir, los valores f(x,y) dan la probabilidad de que ocurran los resultados x y y al mismo
tiempo.

DEFINICION
La función de masa de probabilidad conjunta de las variables aleatorias discretas X y Y,
denotada por f(x,y) satisface

1. f(x,y)≥0
2.
 f ( x, y )  1
x y
3. f(x,y)=P(X=x, Y=y)

Ejercicio 5.1. Sea X1 y X2 el número de caras que aparecen en el lanzamiento de dos


monedas respectivamente.
a) Determine la función de masa de probabilidad conjunta f(x1, x2).
b) P(X1=0, X2≥0).
Solución:
a)
x1 x2 f(x1, x2)
0 0 1/4
0 1 1/4
1 0 1/4
1 1 1/4

b) P(X1=0, X2≥0)=f(0, 0)+f(0, 1)=1/4 + 1/4=2/4=1/2=0.5.


Ejemplo 5.2. En el desarrollo de un nuevo receptor para la transmisión de información
digital, cada bit recibido se clasifica como aceptable, dudoso o inaceptable, dependiendo de
la calidad de la señal recibida, con probabilidades 0.9, 0.08 y 0.02 respectivamente.
Suponga que la clasificación de cada bit es independiente.
En los primeros cuatro bits transmitidos, sea X que denote el número de bits aceptables y Y
el número de bits dudosos. Determine la función de masa de probabilidad conjunta f(x,y) en
forma tabular.

Solución:
Los posibles pares de valores (x, y) son: (0,0), (0,1), (0,2), (0,3), (0,4), (1,0), (1,1), (1,2),
(1,3), (2,0), (2,1), (2,2), (3,0), (3,1) y (4,0).

Ahora bien, f(2,1), por ejemplo, representa la probabilidad de que exactamente dos bits
aceptables y exactamente un bit dudoso se reciban entre los cuatro bits transferidos.
Entonces

175
4!
f (2,1)  (0.9)(0.9)(0.08)(0.02)  0.015552  1.5552 x102.
2!1!1!

Así también

4!
f (1,1)  (0.9)(0.08)(0.02)(0.02)  0.0003456  3.456 x10 4.
1!1!2!

Cálculos similares dan las probabilidades para los otros casos, que se representan en la
tabla.

y
f(x,y) Totales por
renglón
0 1 2 3 4

0 1.6x10-7 2.56x10-6 1.536x10-5 4.096x10-5 4.096x10-5 0.0001


2.88x10-5 3.456x10-4 1.3824x10-3 1.8432x10-3 0
1 0.0036
1.944x10-3 1.5552x10-2 3.1104x10-2 0 0
x 2 0.0486
5.832x10-2 0.23328 0 0 0
3 0.2916
0.6561 0 0 0 0
4 0.6561

Totales por 0.71639296 0.24918016 0.03250176 0.00188416 0.00004096 1


columna

La función de masa de probabilidad conjunta f(x,y) también puede expresarse de manera


funcional.

4!
f ( x, y )  p1x p2 y p34( x  y ) ; x  0, 1, 2, 3, 4; y  0, 1, 2, 3, 4; 0  x  y  4.
x ! y ! 4  ( x  y )  !
DEFINICION
Si X y Y son variables aleatorias discretas con función de masa de probabilidad conjunta
f(x,y), entonces las funciones de masa de probabilidad marginal de X y Y son
f X ( x )  P ( X  x )   f ( x, y )
y

fY ( y )  P(Y  y)   f ( x, y )
x

La función de masa de probabilidad de una sola de las variables se obtiene al sumar f(x,y)
sobre los valores de la otra variable. El resultado se llama función de masa de probabilidad

176
marginal porque cuando las f(x,y) aparecen en una tabla rectangular, las sumas son los
totales marginales (renglón o columna).

Ejercicio 5.3. En el ejemplo precedente determinar:


a) P(X≥3)
b) P(X+Y≤1)
c) La marginal de X
d) P(X≤2) a partir de fX(x)
e) E(X)

Solución:
a) P(X≥3)=f(3,0)+f(3,1)+f(4,0)=5.832x10-2+0.23328+0.6561=0.9477
b) P(X+Y≤1)=f(0,0)+f(0,1)+f(1,0)=1.6x10-7+2.56x10-6+2.88x10-5=0.000031
c)
x 0 1 2 3 4
fX(x) 0.0001 0.0036 0.0486 0.2916 0.6561
d) P(X≤2)=0.0001+0.0036+0.0486=0.0523
e) E(X)=Σx fX(x)=(0)(0.0001)+(1)(0.0036)+(2)(0.0486)+(3)(0.2916)+(4)(0.6561)=3.6

DEFINICION

Si la distribución de probabilidad marginal de X tiene la función de masa de probabilidad


fX(x), entonces
y
 
E ( X )   xf X ( x )   x   f ( x, y )    xf ( x, y )
 y  R
x x  
 
V ( X )  ( x   X ) f X ( x)  ( x   X ) 2
2
 f ( x, y )
x x y

  ( x   X )2 f ( x, y)   ( x   X )2 f ( x, y)
x y R
Donde R denota el conjunto de todos los puntos en el rango de (X, Y).

De manera semejante se encuentra E(Y) y V(Y).

DEFINICION

Sean X y Y dos variables aleatorias discretas, con distribución de probabilidad conjunta


f(x,y) y distribuciones marginales fX(x) y fY(y), respectivamente. Se dice que las variables
aleatorias X y Y son estadísticamente independientes si y sólo

f(x,y)=fX(x).fY(y)

para toda (x,y) dentro de sus rangos.

Si no se satisfacen la ecuación precedente, entonces se dice que X y Y son dependientes.

177
Ejercicio 5.4. Suponga que X y Y tienen la siguiente distribución de probabilidad
conjunta:
x y f(x,y)
1.5 2 1/8
1.5 3 1/4
2.5 4 1/2
3 5 1/8

Determine:
a) P(X<2.5, Y<3)
b) P(X<2.5)
c) P(Y<3)
d) P(X>1.8, Y>4.7)
e) La marginal de X y Y
f) E(X) y V(X)
g) Si X y Y son estadísticamente independientes

Solución:
a) P(X<2.5, Y<3)=f(1.5, 2)=1/8
b) P(X<2.5)=f(1.5, 3)+f(1.5, 2)=3/8
c) P(Y<3)=f(1.5, 2)=1/8
d) P(X>1.8, Y>4.7)=f(3, 5)=1/8
e) fX(x)=P(X=x)=
 f ( x, y)
y
5
f X (1.5)  P ( X  1.5)   f (1.5, y )
y2
 f (1.5, 2)  f (1.5,3)
 1/ 8  1/ 4  3 / 8
5
f X (2.5)  P( X  2.5)   f (2.5, y )
y 2
 f (2.5, 4)  1/ 2
5
f X (3)  P( X  3)   f (3, y )
y 2
 f (3,5)  1/ 8

Así, la marginal de X es

x 1.5 2.5 3
fX(x) 3/8 1/2 1/8

Estos resultados también se pueden derivar de la tabla de la distribución de probabilidad


conjunta precedente.

178
Además, la marginal de Y es

y 2 3 4 5
fY(y) 1/8 1/4 1/2 1/8
f)
E ( X )   xf ( x, y )
R

 1.5 f (1.5, 2)  1.5 f (1.5, 3)  2.5 f (2.5, 4)  3 f (3,5)


=1.5(1/8)+1.5(1/4)+2.5(1/2)+3(1/8)
=2.1875

g) X y Y son estadísticamente independientes si y solo si f(x,y)=f X(x).fY(y). Considere el


punto (1.5, 2). De las tablas tenemos, f(1.5, 2)=1/8, fX(1.5)=3/8 y fY(2)=1/8. Resulta que

f(1.5, 2)≠fX(1.5).fY(2)

por lo tanto, X y Y no son estadísticamente independientes.

Es posible generalizar todas las definiciones anteriores para el caso de n variables aleatorias

5.2 Combinaciones lineales de variables aleatorias
Una variable aleatoria se define en ocasiones como una función de varias variables
aleatorias. Por ejemplo, si las variables aleatorias X 1 y X2 denotan la longitud y el ancho,
respectivamente, de una pieza manufacturada, entonces Y=2X1+2X2 es una variable
aleatoria que representa el perímetro de la pieza.

DEFINICION

Dadas las variables aleatorias X1, X2,…,Xn y las constantes a1, a2,…,an, entonces
Y  a1 X 1  a2 X 2  ...  an X n
es una combinación lineal de X1, X2,…,Xn.

TEOREMA

Si X1, X2,...,Xn tienen valores medios μ1, μ2, ...,μn, y varianzas σ12, σ22,...,σn2,
respectivamente, entonces:
1. Si las Xi son o no independientes,
E ( a1 X 1  a2 X 2  ...  an X n )  a1E ( X 1 )  a2 E ( X 2 )  ...  an E ( X n )  a11  a2 2  ...  an n
2. Si X1, X2,...,Xn son independientes,
V ( a1 X 1  a2 X 2  ...  an X n )  a12V ( X 1 )  a22V ( X 2 )  ...  an2V ( X n )  a12 12  a22 22  ...  an2 n2
y
 a1 X1  a2 X 2 ... an X n  a12 12  a22 22  ...  an2 n2

179
Ejemplo 5.5. Una gasolinera vende dos clases de gasolina: regular y especial a $ 2.67 y $
3.16 por galón respectivamente. Representemos por X 1 y X2 las cantidades de estas
gasolinas vendidas (en galones) en cada día en particular. Supongamos que las X i son
independientes con y El ingreso por las ventas es
1  300,  2  100,  1  20,  2  5.
Determinar E(Y) y V(X).
Y  2.67 X 1  3.16 X 2 .

Solución:
E (Y )  a1E ( X 1 )  a2 E ( X 2 )  (2.67)(300)  (3.16)(100)  $ 1117.00
V (Y )  a12V ( X 1 )  a22V ( X 2 )  (2.67) 2 (20) 2  (3.16) 2 (5) 2  3101.20 $ 2

TEOREMA

Si =( X1+ X2+…+Xn)/n con E(Xi)=μ para i=1,2,…,n, entonces


X

E( )=μ
X

Además, si X1, X2,...,Xn también son independientes con V(Xi)=σ2 para i=1,2,…,n,
entonces
V (X )   2 / n

Ejercicio 5.6. Sea X1, X2 y X3 el número de caras que aparecen en el lanzamiento de tres
monedas respectivamente. Determine:

a) La distribución de probabilidad de X, y .
X  X2
b) y
E( X ) V (X )

Solución:
a)
x 0 1
f(x) 1/2 1/2
 X   xf ( x)  (0)(1/ 2)  (1)(1/ 2)  0.5
 X2   x 2 f ( x)   X2  (0) 2 (1/ 2)  (1) 2 (1/ 2)  (0.5) 2  0.25
b)
 X  E ( X )  E ( X )  1/ 2  0.5
1
1
 X2  V ( X )  V ( X ) / n  4
  0.083
3 12

180
TEOREMA. PROPIEDAD REPRODUCTIVA DE LA DISTRIBUCION NORMAL.

Si X1, X2,…,Xn son variables aleatorias normales e independientes con E(Xi)=μi y V(Xi)=
para i=1,2,…,n, entonces
 i2 ,
Y  a1 X 1  a2 X 2  ...  an X n
es una variable aleatoria normal con
E (Y )  a11  a2 2 ,..., an  n
y
V (Y )  a12 12  a22 22  ...  an2 n2

Ejemplo 5.7. Suponga que las variables aleatorias X1 y X2 denotan la longitud y el ancho,
respectivamente, de una pieza rcctangular manufacturada. Suponga que E(X1)=2 cm con
desviación estándar de 0.1 cm y que E(X 2)=5 cm con desviación estándar de 0.2 cm.
Asimismo, suponga que X1 y X2 son independientes normalmente distribuidas. Entonces,
Y=2X1+2X2 es una variable aleatoria normal que representa el perímetro de la pieza.

Determinar:
a) E(Y), V(Y) y σY
b) La probabilidad de que el perímetro exceda 14.5 cm.

Solución:
a) E(Y)=2(2)+2(5)=14 cm,

V(Y)=22(0.1)2+22(0.2)2=0.04+0.16=0.20 cm2 y

σY=(0.20)1/2=0.447 cm

b)
 14.5  Y 
P(Y  14.5)  P  Z  
 Y 
14.
 14.5  14 
 PZ    P  Z  1.12   0.13
 0.447 

Ejemplo 5.8. Se llenan latas de refresco con una máquina de llenado automático. El
volumen de llenado promedio es 12.1 onzas líquidas, y la desviación estándar es 0.05 onzas
líquidas. Suponga que el volumen de llenado de las latas es una variable aleatoria normal e
independiente. ¿Cuál es la probabilidad de que el volumen promedio de 10 latas
seleccionadas de este proceso sea menor que 12 onzas líquidas?
Solución:

181
Sea X1, X2,...,X10 que denoten los volúmenes de llenado de las 10 latas. El volumen de
llenado promedio (denotado como ) es una variable aleatoria normal con E( )=12.1 y
X X
. Por consiguiente,
(0.05)2
V (X )   0.00025 cm 2
10
12  12.1
P( X  12)  P (Z  )
0.00025
 P( Z  6.32)  0

Como puede verse esto es inusual que el promedio de 10 latas sea menor que 12 onzas
líquidas. ▄

5.3 Distribuciones de muestreo


La inferencia estadística se refiere a la toma de decisiones acerca de una población con
base en la información contenida en una muestra. Por ejemplo, se puede seleccionar una
muestra de 50 ingresos familiares de todas las familias en un vecindario. La tarea es
describir la población tan exactamente como sea posible, dados únicamente los datos de la
muestra de dicha población. En otras palabras, se desea decidir qué tan fielmente refleja la
muestra las características de la población de la cual proviene.
Las familias del vecindario tienen realmente un ingreso promedio, o media (parámetro),
aunque sea desconocido. Una muestra de familias tendría un ingreso medio de muestra
(estadístico) que, en realidad, se puede calcular después de haber terminado el muestreo.
¿Serán iguales la media de la muestra y la de la población? Es probable que no, aunque
nunca no se podrá estar seguro. Se espera que la media de la muestra se acerque a la de la
población y, como se verá, si se lleva a cabo el muestreo bien, en general se cumple esa
esperanza. Así que el análisis que sigue es sobre preguntas del tipo “¿Qué tan grande es
probable que sea la diferencia entre el promedio muestral y el de su población
correspondiente?”. El promedio muestral es sólo uno de los muchos estadísticos posibles
que se estudiarán.

DEFINICION

Las variables aleatorias X1, X2,…,Xn son una muestra aleatoria de tamaño n si:

a) las Xi son variables aleatorias independientes, y


b) cada Xi tiene la misma distribución de probabilidad.

Interpretaciones:

 Las condiciones a) y b) nos dicen que las Xi son independientes y tienen distribuciones
idénticas.
 Si el muestreo es con reemplazo o de una población infinita (conceptual), las
condiciones a) y b) se satisfacen exactamente.
 Si el muestreo es sin reemplazo las condiciones se satisfacen aproximadamente, pero
con n « N. En la práctica, si n≤0.05N.

182
Por ejemplo, suponga que se está investigando la vida de servicio efectivo de un
componente electrónico y que la vida del componente está distribuida normalmente. Se
esperaría entonces que cada una de las observaciones de la vida del componente X 1, X2,
…,Xn, en una muestra aleatoria de n componentes, sea una variable aleatoria independiente
con exactamente la misma distribución normal. Después de recabar los datos, los valores
numéricos de la vida útil observada se denotan como x1, x2,..,xn.
El objetivo principal al tomar una muestra aleatoria es obtener información acerca de los
parámetros desconocidos de la población.

La selección al azar o aleatoria de una muestra se hace generalmente mediante el uso de


una tabla de números aleatoria, pero también se puede seleccionar haciendo uso de una
urna, lotería o cualquier otro artificio que genere números aleatorios.

En la práctica es difícil lograr un muestreo aleatorio perfecto. Si la población no es


demasiado grande, podemos escribir cada uno de los N números en una ficha, mezclar las
fichas y seleccionar una muestra de n fichas. Los números en las fichas especificarían las
observaciones que forman parte de la muestra. Hay otras técnicas disponibles cuando la
población es grande.
La manera más simple y confiable de seleccionar una muestra aleatoria de n
elementos de una población grande consiste en utilizar una tabla de números aleatorios. Las
tablas de números aleatorios se construyen de modo que los enteros aparezcan
aleatoriamente y con la misma frecuencia. Por ejemplo, supongamos que la población
contiene N=1000 elementos. Numérense los elementos en secuencia, de 0 a 999. Luego
refiérase a una tabla de números aleatorios, tal como la porción mostrada en la tabla
siguiente

Parte de una tabla de


números aleatorios
___________________
15574 35026 98924
45045 36933 28630
03225 78812 50856
88292 26053 21121
___________________

Seleccionamos n de los números aleatorios en orden. Los elementos de la población


que quedarán incluidos en la muestra aleatoria están indicados por las tres primeras cifras
de los números aleatorios. Así, si n=5, incluiríamos los elementos numerados 155, 450, 32,
882 y 350. Para no utilizar la misma secuencia de números aleatorios una y otra vez,
debemos seleccionar puntos iniciales distintos en la tabla de números aleatorios para
empezar la selección de números aleatorios para muestras distintas.

Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.

Hoy en día, las computadoras pueden generar miles de números aleatorios en una fracción
de segundo, y virtualmente cada software estadístico contiene rutinas que generan muestras
aleatorias a partir de una amplia variedad de distribuciones.

183
Ejercicio 5.9. Un investigador quiere estudiar el nivel de lectura comprensiva de los
estudiantes de nuevo ingreso de una universidad. Hay 8675 estudiantes inscritos y desea
tomar una muestra de 100 para hacer una prueba de lectura comprensiva. Obtiene una lista
de todos los estudiantes, numerada del 1 al 8675. Usa un generador de números aleatorios
de la computadora que genera 100 enteros aleatorios entre el total de números y después
invita a los 100 estudiantes, a quienes corresponden dichos números, a que participen en el
estudio. ¿Esta es una muestra aleatoria?

Solución:
Sí, ésta es una muestra aleatoria. Observe que es similar a una urna en la que cada
estudiante tiene una papeleta y se sacan 100 de éstas.

Ejercicio 5.10. Un ingeniero supervisor de la calidad quiere inspeccionar un producto


para obtener información acerca de él. Decide tomar una muestra de 50 productos de la
producción de un día. Cada hora durante cinco horas, toma los diez últimos productos
producidos y cuenta el número de desperfectos de cada uno. ¿Esta es una muestra aleatoria?

Solución:
No. No todo subconjunto de 50 tiene la misma probabilidad de pertenecer a la muestra.
Para formar una muestra aleatoria, el ingeniero necesitaría asignar un número a cada
producto durante el día y después generar números aleatorios para determinar con qué
productos se forma la muestra.

Algunas personas piensan que una muestra aleatoria es garantía de que refleja
perfectamente a su población. Esto no es cierto. Las muestras aleatorias siempre son
diferentes de sus poblaciones en algunos aspectos y en ocasiones podrían ser
considerablemente diferentes. Dos muestras diferentes de la misma población también
serán diferentes entre sí. Este fenómeno se conoce como variación del muestreo.

Ejercicio 5.11. Un inspector de calidad prueba 40 pernos de una gran remesa y mide la
longitud de cada uno. Descubre que 34 de ellos (85%) cubre la especificación de longitud.
Llega entonces a la conclusión de que exactamente 85% de los pernos de la remesa
satisfacen la especificación. Por otra parte, el supervisor del inspector concluye que la
proporción de pernos buenos está cerca de 85% con cierta probabilidad, pero que no es
exactamente igual. ¿Cuál es la conclusión correcta?
Solución:
Debido a la variación del muestreo, las muestras aleatorias no reflejan a la población
perfectamente. Sin embargo, con frecuencia están bastante cerca. Por tanto, resulta
adecuado inferir que la proporción de pernos buenos en la remesa esté cerca de la
proporción de muestra, que es de 85%, con cierta probabilidad. Sin embargo, no es
probable que la proporción de población sea igual a 85%.

En los ejemplos 5.9 y 5.11, las poblaciones constaban de elementos físicos reales:
estudiantes de una universidad y pernos de una remesa. Estas poblaciones se denominan
poblaciones tangibles, poblaciones que siempre son finitas. En ingeniería es frecuente que
los datos sean producto de mediciones realizadas durante un experimento, más que por
muestreo de una población tangible. Por ejemplo, imagine un ingeniero mide la longitud de
una varilla cinco veces, haciendo las mediciones en condiciones idénticas, las mediciones

184
difieren una de otra. Estos datos se consideran como una muestra aleatoria de una
población. En estos casos, la población consta de todos los valores que posiblemente
puedan haber sido observados. Esta población se denomina población conceptual.

Por ejemplo, se quiere llegar a una conclusión acerca del promedio de la población de El
Salvador que prefiere una marca de bebida carbonatada particular. Sea que μ denote el valor
desconocido de este promedio. No es práctico preguntarle a cada individuo de la población
para determinar el valor real de μ. Para hacer una inferencia respecto del promedio real μ,
un procedimiento más razonable sería seleccionar una muestra aleatoria (de un tamaño
apropiado) y usar el promedio observado de las personas de esta muestra que prefieren
x
la marca de bebida.
El promedio es una función de los valores observados de una población, el valor de
X x
variará de una muestra a otra. Es decir, es una variable aleatoria. A esta variable aleatoria
X
se le llama estadístico.

Un estadístico es cualquier función de las observaciones de una muestra aleatoria.

Nos hemos encontrado ya con estadísticos. Por ejemplo, si X1, X2,…,Xn es una muestra
aleatoria de tamaño n, entonces la media muestral , la varianza muestral S2, y la
X
desviación estándar S son estadísticos.

Puesto que un estadístico es una variable aleatoria, tiene una distribución de muestreo.

A la distribución de probabilidad de un estadístico se le llama distribución de muestreo.

A la distribución de probabilidad de se le llama la distribución de muestreo de la


X
media.

La distribución de muestreo de un estadístico depende: de la distribución de la población,


del tamaño de la muestra y del método utilizado para seleccionar la muestra.

Distribuciones de muestreo de medias


Considérese la determinación de la distribución de muestreo de la media muestral .
X
Suponga que se toma una muestra aleatoria de tamaño n de una población normal con
media μ y varianza σ2. Entonces, cada observación de esta muestra, digamos X1, X2,…,Xn,
es una variable aleatoria con una distribución normal e independiente, con media μ y
varianza σ2. Entonces, por la propiedad reproductiva de la distribución normal, se concluye

185
que la media muestral =( X1+ X2+…+Xn)/n tiene una distribución normal con media
X
muestral

E( )=
X     ...  

n
y varianza

 2   2  ...   2
V (X )  2
2 /n
n

5.4 Teorema del límite central

TEOREMA. TEOREMA DEL LIMITE CENTRAL (TLC)

Sea X1, X2,…,Xn una muestra aleatoria de tamaño n de una población (sea finita o infinita)

con media μ y varianza σ2, y si =( X1+ X2+…+Xn)/n es la media muestral, entonces si n


X

es suficientemente grande

 2 
X ~N   , 
 n 

aproximadamente.

La aproximación normal de depende del tamaño de la muestra n. En la figura (a) se


X
muestra la distribución obtenida en el lanzamiento de una moneda. Las probabilidades son
iguales (1/2) para los valores obtenidos, 0 ó 1. En la figura (b) se muestra la distribución del
resultado promedio que se obtiene cuando se lanzan dos monedas, y en la figura (c) se
muestra la distribución de los resultados promedio que se obtienen cuando se lanzan tres
monedas. Obsérvese que, si bien la población (una moneda) está relativamente lejos de ser
normal, la distribución de los promedios se aproxima de manera razonable por la
distribución normal para tamaños de la muestra tan pequeños como tres.

186
Aun cuando el teorema del límite central funcionará bien para muestras pequeñas (n=4,
5) en la mayoría de los casos, en particular cuando la población es continua, unimodal y
simétrica.
El teorema del límite central establece que se distribuye aproximadamente normal, si
X
el tamaño de la muestra n es suficientemente grande. La cuestión natural por preguntar es:
¿Qué tan grande es suficientemente grande? La respuesta depende de la forma de la
población principal. No obstante, si la población está demasiado sesgada, puede ser
necesaria una n muy grande. La evidencia empírica sugiere que para la mayoría de las
poblaciones, un tamaño de muestra de 30 o más (n≥30) es lo suficientemente grande para
que la aproximación normal sea adecuada. Si n<30, el teorema del límite central funcionará
si la distribución de la población no se aparte significativamente de la distribución normal.

187
Ejemplo 5.12. Cuando se prepara un lote de cierto producto químico, la cantidad de una
impureza en particular es una variable aleatoria con valor medio de 4.0 g y desviación
estándar de 1.5 g. Si se preparan 50 lotes de manera independiente, ¿cuál es la probabilidad
de que la cantidad promedio en la muestra de impureza esté entre 3.5 g y 3.8 g?
X

Solución:
Por el teorema del límite central se tiene que aproximadamente. Por lo
 (1.5) 2 
X ~N  4.0, 
 50  
tanto,
 3.5  4.0 3.8  4.0 
P(3.5  X  3.8)  P  Z  
 0.2121 0.2121 


  (0.94)   (2.36)  0.1645
Distribución de
X1 - X 2
1. Considérese ahora dos poblaciones independientes, en el que la primera población
tiene media y varianza y la segunda población tiene media y varianza
1 2
1  2  22 .
Suponga que ambas poblaciones tienen una distribución normal. Se sabe que las
combinaciones lineales de variables aleatorias normales independientes siguen una
distribución normal, entonces la distribución de muestreo de es normal con
X1  X 2
media

y varianza
X   X   X  1   2 12  22
1 X 2 1 2
 X2  X   X2   X2  
1 2 1 2 n1 n2

2. Si las dos poblaciones no tienen una distribución normal, pero con tamaños de
muestras y son mayores o iguales a 30, puede aplicarse el teorema del límite
n1 n2

188
central y suponer que y siguen aproximadamente una distribución normal
X1 X2
independiente.

3. Si y es menor que 30, entonces la distribución de muestreo de y seguirá


n1 n2 X1 X 2
siendo aproximadamente normal con media y varianza dadas por las ecuaciones
precedentes, siempre que la población de la que se tomó la muestra pequeña no sea
marcadamente diferente de la normal. Esto se puede resumir como
aproximadamente, para indicar que es una
  2
 2  X 1  X 2
X 1  X 2 : N  1  2 , 1  2 
 n1 n2 
variable aleatoria aproximadamente normal, con parámetros y
12  22 1  2
 .
n1 n2
Ejemplo 5.13. A y B fabrican dos tipos de cables, que tienen resistencias medias a la
rotura de 4000.0 y 4500.0 Lb con desviaciones estándar de 300.0 y 200.0 Lb
respectivamente. Si se comprueban 100 cables de A y 50 cables de B, ¿cuál es la
probabilidad de que la media de resistencia a la rotura de B sea al menos 600 Lb más que
A?
Solución:
Se pide
P(X B  X A  600).
Obsérvese que y son mayores que 30, se distribuye aproximadamente
nA nB XB  XA
normal según el TLC, con lo que

(X B X A ) (B A )
Z
2B 2A
 .
nB nA

donde =4500.0 - 4000.0=500.0 Lb y


X   X   X  B   A
B X A B A

.
2 2 2B  2A (200)2 (300) 2
X  X  X  n    41.23 Lb
B X A B A nB A 50 100

Así,
P(X B  X A  600)  P(Z  600 500 )  1   (2.43)  1  0.9925  0.0075.
41.23

189
PARTE III: INFERENCIA ESTADISTICA

Unidad VI: ESTIMACION

Intoducción

La teoría de la inferencia estadística consiste en aquellos métodos a través de los cuales se


realizan inferencias acerca de una población.
La inferencia estadística se puede dividir en dos áreas: estimación y prueba de
hipótesis. La estimación se divide a su vez en: estimación de parámetros y estimación
por intervalo.

6.1 Conceptos generales de estimación puntual


Dado un parámetro de interés, como una media poblacional μ, el objetivo de la estimación
puntual es emplear una muestra para calcular el número que represente mejor el verdadero
valor del parámetro.

DEFINICION

Una estimación puntual de un parámetro θ es un solo número que se puede


$
considerar como el valor más razonable de θ. La estimación puntual se obtiene al

190
seleccionar un estadístico apropiado y calcular su valor a partir de los datos de la muestra
dada. El estadístico seleccionado se llama estimador puntual de θ.
̂

Nota: el símbolo suele utilizarse para representar el estimador de θ y la estimación


$
puntual.

Ejemplo 6.1. Estimador media poblacional y su estimación puntual


ˆ  X x.

Ejemplo 6.2. Suponga que la variable aleatoria X tiene una distribución normal con una
media desconocida . La media muestral es un estimador puntual de la media poblacional

desconocida . Es decir, Después de seleccionar la muestra, el valor numérico
 ˆ  X . x

es la estimación puntual de  . Por tanto, si x1=25, x2=30, x3=29, y x4=31, entonces la


estimación puntual de es

25  30  29  31
x  28.8
4

Puede haber varias opciones diferentes para el estimador puntual de un parámetro. Por
ejemplo, si se quiere estimar la media de una población, podrían considerarse como
estimadores puntuales la media muestral, la mediana muestral o quizá el promedio de las
observaciones menor y mayor de la muestra. Para decidir cuál de los estimadores puntuales
de un parámetro particular es el más adecuado, es necesario examinar sus propiedades
estadísticas y desarrollar algunos criterios para comparar estimadores.

Propiedades de los estimadores


1. Estimadores insesgados
Un estimador deberá estar en algún sentido “cerca” del valor real del parámetro
desconocido. Una vez que se tiene un estimador puntual de θ, surge la pregunta ¿qué tan
bueno es dicho estimador? En el mejor de los casos, es cuando siempre. Sin embargo,
ˆ  
es función de las Xi muestrales, por lo que es una variable. Para algunas muestras
̂ ˆ
sobreestima o subestima a θ. Así,

=θ + error de estimación,
ˆ

191
entonces, el estimador preciso será uno que produzca solo pequeñas diferencias ( θ) de
ˆ 
estimación. Esto ocurre así cuando posee dos propiedades:
ˆ

1. sea insesgado para θ.


ˆ
2. tenga varianza mínima.
ˆ

DEFINICION

Se dice que un estimador puntual es un estimador insesgado de θ si E( )=θ. Si


̂ ̂
no es insesgado, la diferencia E( ) - θ se llama sesgo de .
̂ ̂ ̂

Cuando un estimador es insesgado, el sesgo es cero; es decir, E( ) – θ=0.


̂

TEOREMA

Cuando X es una variable aleatoria binomial con parámetros n y p, la proporción


muestral es un estimador insesgado de p.
Pˆ  X / n

Demostración:
X 1 1
E ( Pˆ )  E    E ( X )  np  p
n n n
La distribución del estimador está centrada en el valor verdadero p.

Ejemplo 6.3. Suponga que X es una variable aleatoria con media y varianza . Sea
 2

X1, X2,…,Xn una muestra aleatoria de tamaño n de una población representada por X.

Demostrar que la:

192
a) Media muestral y la
X
b) Varianza muestral
S2
son estimadores insesgados de y respectivamente.

2

Demostración:
a) Anteriormente se estableció que . Por lo tanto, la media muestral es un
E( X )   X
estimador insesgado de la media poblacional .

b) Considérese ahora la varianza muestral. Se tiene que
 n 2
  ( Xi  X ) 
 i 1  1  n 2
2
E (S )  E 
n 1

 n 1  E   ( X i  X ) 

   i  1 
 
 
1  n  1  n 2 
 E   ( X i  X  2 XX i )  
2 2
E   X i  nX 2 
n  1  i 1  
 n  1  i 1 
1  n 2 
  E ( X i )  nE ( X ) 
2

n  1  i 1 

Ahora, de donde se tiene
2 2 2 2 2 2
  E( X )   , E ( X )     / n,
1 n 
E(S 2 )    (    )  n(    / n) 
2 2 2 2
n  1  i 1 
1
 (n 2  n 2  n 2   2 )
n 1
E (S 2 )   2

Por lo tanto, la varianza muestral es un estimador insesgado de la varianza poblacional


2
S
.
2
Aunque es un estimador insesgado de , S, es por otro lado, un estimador sesgado de
S2 2
σ siendo insignificante el sesgo en muestras grandes. Este ejemplo ilustra por qué
dividimos entre n-1 en lugar de n cuando se estima la varianza.

Ejemplo 6.4. Demuestre que es un estimador sesgado de μ2.


2
X

193
Para una población normal, , por lo tanto hay dos opciones para estimar μ.
 ~

Entonces, ¿Cuál es el estimador que produce estimados más cercanos al parámetro θ?


PRINCIPIO DE ESTIMACION INSESGADA
Al elegir entre varios estimadores de θ, se elige uno insesgado.

A continuación se proporciona un listado de parámetros con su respectivo estimador


puntual:

PARAMETRO ESTIMADOR
θ PUNTUAL
̂

 X

2 S2
X
p n

1   2 X1  X 2

p1  p2 X1 X 2

n1 n2

TEOREMA

1) Si X1, X2,…,Xn es una muestra aleatoria de una distribución con media , entonces

es un estimador insesgado de  .
X

2) Además, si la distribución es continua y simétrica, entonces y cualquier media


X%
recortada también son estimadores insesgados de .

¿Cómo elegimos entonces el estimador adecuado?

2. Estimadores con varianza mínima


Si son estimadores insesgados de θ, el principio de estimación insesgada falla.
ˆ y 
 ˆ
1 2
Aún cuando la distribución de cada estimador esté centrada en θ, las dispersiones de las
distribuciones alrededor de θ pueden ser diferentes.

194
PRINCIPIO DE ESTIMACIÓN INSESGADA CON VARIANZA MINIMA

Entre todos los estimadores de θ que son insesgados, seleccione el que tenga varianza
mínima. El resultante recibe el nombre de estimador insesgado con varianza
̂
mínima (EIVM) de θ.

De aquí, si es un estimador más eficiente de θ que .


 
2 2 ̂1 ̂ 2
ˆ 
 ˆ ,

1 2

TEOREMA
Sea X1, X2,…,Xn una muestra aleatoria de una distribución normal con parámetro μ y σ.
Entonces el estimador es el EIVM para μ.
ˆ  X

ERROR ESTANDAR
Además de reportar el valor de una estimación puntual, también debe indicarse su
precisión. La medida de precisión usual es el error estándar del estimador empleado.

DEFINICION
El error estándar de un estimador es su desviación estándar Si en el
̂  ˆ ˆ ).
 V (
error estándar intervienen parámetros desconocidos, cuyos valores se pueden estimar, la
sustitución de estas estimaciones en produce el error estándar estimado
 ˆ
(desviación estándar estimada) del estimador. El error estándar estimado se puede
representar ya sea por o por
ˆ ˆ Sˆ .

Ejemplo 6.5. Se tienen 20 observaciones de voltajes

195
24.46 25.61 26.25 26.42 26.66 27.15 27.31 27.54 27.74 27.94
27.98 28.04 28.28 28.49 28.50 28.87 29.11 29.13 29.50 30.88
Si se supone que la distribución es normal, es el mejor estimador de μ. Si se sabe
ˆ  X
que σ=1.50, =1.50/√20=0.335. Si se desconoce σ, se sustituye =1.462 en
X   / n ˆ  s
para obtener el error estándar estimado s/√n=1.462/√20=0.327.
X ˆ X  s X 
Ejemplo 6.6. El error estándar de es
X
Pˆ 
n

V (X ) npq pq
 Pˆ  V ( X / n)   
n2 n2 n

Métodos de estimación puntual


En general, la definición de estimador insesgado no señala cómo hallar los estimadores
insesgados. Para hallar los estimadores de parámetros a menudo recurrimos a la intuición.
El estimador parece razonable como estimador de µ. El estimador para p es
X
simplemente una proporción de la muestra. Pero hay muchas situaciones en las que no es
del todo claro cuál debería ser el apropiado estimador. Existen dos métodos para obtener
estimadores puntuales: el método de momentos y el método de máxima verosimilitud.

6.2 Método de momentos y de máxima verosimilitud


El método de momentos, es un método sencillo que propuso originalmente Karl Pearson
en 1894. Es uno de los métodos más antiguos para obtener estimadores puntuales. Este
método, es intuitivo y de fácil aplicación, pero no siempre proporciona los mejores
estimadores. Un método más complejo, es el método de máxima verosimilitud, el cual a
menudo proporciona estimadores insesgados de varianza mínima.

A continuación se proporciona un listado de distribuciones con sus parámetros y sus


respectivoss estimadores puntuales obtenidos a través de estos métodos:

DISTRIBUCIO PARAMETRO ESTIMADOR


N θ PUNTUAL
̂
 X
X ~N (  ,  2 ) 1
2 n
 ( X  X )2

1
X ~Exp ( )  X
X ~Poisson( )  X

196
1
X ~Geo( p ) p
X
X2
X ~ ( r ,  ) r
1
n X2 X2
X
 1
n X2 X2
Ejemplo 6.7. Se piensa que los defectos de un tablero metálico usado en la manufactura de
automóviles sigue una distribución de Poisson. Se cuentan los defectos en 10 tableros con
los siguientes resultados: x1=2, x2=7, x3=15, x4=8, x5=7, x6=6, x7=3, x8=7, x9=3, x10=4.
Encuentre una estimación puntual del parámetro de Poisson λ.

Solución:
defectos
62
ˆ  x   6.2
x 
n 10
Ejemplo 6.8. Una solución ácida preparada al mezclar un compuesto en polvo con agua se
usa para grabar el aluminio. El pH de la solución, X, cambia como resultado de variaciones
leves en el volumen de agua utilizado, la potencia del compuesto en polvo y el pH del agua
misma. Suponga que X tiene una distribución gamma, con y desconocidos. A partir de
r 
los datos siguientes, estime y .
r 

1.2 2.0 1.6 1.8 1.1

2.5 2.1 2.6 2.2 1.7

1.5 1.7 2.0 3.0 1.8

Solución:

Aquí =1.92 y 3.932.


x 1
n x x 2 1
n x 2

Los estimados son
2
x (1.92) 2
rˆ  2
  15.01
1
 xi2 x 3.932  (1.92)2
n
y
x 1.92
ˆ  2
  7.82
1
 xi2 x 3.932  (1.92) 2
n

197

6.3 Intervalos de confianza


Introducción
Supongamos que X1, X2,…,Xn es una muestra aleatoria de una población normal con media
desconocida y varianza conocida . Se demostró que es un estimador para . Sin
2 X 

embargo, no esperamos que la media muestral sea exactamente igual a , sino más bien
X 
que “este cerca”. Una alternativa para reportar un solo valor del parámetro que se está
estimando es calcular e informar todo en un intervalo de valores factibles, un intervalo de
confianza (IC). Un intervalo de confianza se calcula siempre seleccionando primero un
nivel de confianza, que es una medida del grado de fiabilidad en el intervalo. Un nivel de
confianza de 95% de todas las muestras darían lugar a un intervalo que incluye o

cualquier otro parámetro que se está estimando, y sólo el 5% de las muestras produciría un
intervalo erróneo. Los niveles de confianza que se usan con más frecuencia son 95%, 99%
y 90%. Cuanto mayor sea el nivel de confianza podemos creer que el valor del parámetro
que se estima está dentro del intervalo.
La información sobre la precisión de un IC se expresa por su amplitud (anchura). Si el nivel
de confianza es alto y el intervalo resultante es muy angosto, nuestros conocimientos sobre
el valor del parámetro son razonablemente precisos. Sin embargo, un IC muy amplio
equivale a decir que hay demasiada incertidumbre en el valor de lo que se esté estimando.

Intervalos de confianza
Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la forma
l<θ<u, donde l y u dependen del valor numérico del estadístico muestral Puesto que
ˆ
.
muestras diferentes producen valores diferentes de los puntos finales l y u son valores
ˆ,

de una variable aleatoria, L y U, respectivamente. A partir de la distribución de muestreo de
la media del estadístico pueden determinarse los valores L y U tal que lo siguiente es
verdadero
P( L    U )  1   , 0    1

donde l<θ<u se llama intervalo de confianza de 100(1-α)% (nivel de confianza), la


fracción 1-α se llama coeficiente de confianza o grado de confianza que mide la
fiabilidad en el intervalo, y los extremos l y u, se denominan límites de confianza inferior
y superior.

6.4 Intervalo de confianza para la media


Ejemplo 6.9. Si una muestra se selecciona de una población normal, podemos establecer un
intervalo de confianza para μ al considerar la distribución muestral de Consideremos el
X.

198
grado de confianza de 1-α=0.95 de donde α=0.05 y α/2=0.025 con lo que
z / 2  z0.025 
1.96.

De la figura, P(-z0.025<Z<z0.025)=0.95, donde , con lo que


___
Z  ( Z   ) /(  / n )

X 
P(  z0.025   z0.025 )  0.95
/ n
o, lo que es equivalente,

P( 196 / n    X  1.96 / n )  0.95


Multiplicando por -1 obtenemos la expresión equivalente,

P(1.96 / n    X  1.96 / n )  0.95


o, lo que también es equivalente,

P( X  1.96 / n    X  1.96 / n )  0.95


Es decir, 95% de las veces μ estará a no más de unidades de la media muestral.
1.96 / n
Si observamos ahora la muestra y sustituimos por , entonces
X x

x  1.96 / n    x  1.96 / n
Es decir, afirmamos que “con 95 por ciento de confianza” la verdadera media está a no
más de de .
1.96 / n x

Ejemplo 6.10. Un intervalo de confianza de 90% para la media del diámetro (cm) de
varillas de acero fabricadas en cierta máquina de extrusión se calcula de (14.73; 14.91). Se
afirma: La probabilidad de que la media del diámetro de las varillas fabricadas por este
proceso esté entre 14.73 y 14.91 es de 90 por ciento. ¿Verdadero o falso?

Solución:

Falso. Un intervalo específico de confianza está dado. La media está o no en el intervalo.


Hay confianza de 90% de que la media poblacional esté entre 14.73 y 14.91. El término
probabilidad no es adecuado.

DEFINICION

199
Un intervalo de confianza de 95% para la µ media de una población normal, cuando el
valor de σ2 se conoce, está dado por

x  1.96 / n    x  1.96 / n

OTROS NIVELES DE CONFIANZA


Cualquier nivel de confianza deseado se puede alcanzar al sustituir 1.96 con el valor crítico
normal estándar apropiado. Como se muestra en la figura. Se alcanza una probabilidad de
1-α al utilizar Zα/2 en lugar de 1.96.

P(-zα/2<Z<zα/2)=1-α

DEFINICION

Un intervalo de confianza de 100(1-α)% para la µ de una población normal, cuando el


valor de σ se conoce, esta dada por

x  z / 2 / n    x  z / 2 / n

Ejercicio 6.11. Se sabe que la vida en horas de una bombilla de 75 watts tiene una
distribución aproximadamente normal, con desviación estándar horas. Una muestra
 5
aleatoria de 20 bombillas tiene una vida media de horas. Construya un intervalo
x  1014
de confianza de 95% para la vida media.
Solución:
La estimación puntual de μ es El valor de z, que deja un área de 0.025 a la
x  1014.
derecha y por tanto un área de 0.975 a la izquierda, es De aquí que el
z0.025  1.96.
intervalo de confianza de 95% es
 5   5 
1014  (1.96)      1014  (1.96)  .
 20   20 
que se reduce a 1011.8<μ<1016.2.

Este es el intervalo de confianza de valores razonables para la vida media de una bombilla
con una confianza de 95%.

200
NIVEL DE CONFIANZA, PRECISIÓN Y SELECCIÓN DEL TAMAÑO DE LA
MUESTRA
Cuanto más alto sea el grado de confianza o coeficiente de confianza 1-, el intervalo
resultante es más largo. Si consideramos que la longitud del intervalo especifica su
precisión, entonces el nivel de confianza del intervalo está inversamente relacionado con
su precisión. Una estimación del intervalo altamente confiable puede ser imprecisa porque
los puntos extremos del intervalo estén muy separados, mientras que un intervalo preciso
puede ocasionar relativamente poca confiabilidad. Por lo tanto, la ganancia, en
confiabilidad ocasiona una pérdida de precisión. Un buen intervalo de confianza debe tener
las siguientes dos características:

1. Ser tan estrecho como sea posible

2. Tener un coeficiente de confianza grande

Una estrategia atractiva consiste en especificar el nivel de confianza y la longitud del


intervalo deseados y luego determinar el tamaño de la muestra necesario.

Ejemplo 6.12. Si en el ejemplo 6.9, σ=25, ¿qué tamaño muestral es necesario para
garantizar que el IC de 95% resultante tenga una longitud w a lo sumo de 10? El tamaño
muestral n debe satisfacer
w10
2z /2 (/n ) 10
n96.04

Es decir, tomar una muestra de 97 o más será suficiente. ■

La fórmula general para el tamaño muestral n necesario para asegurar una longitud w del
intervalo se obtiene de como

w  2 z / 2
n

2
 
n   2 z / 2 
 w

Cuanto más pequeña sea la longitud w deseada, mayor debe ser n. Además, n es una
función creciente de σ y del nivel de confianza 100(1-α)%.

A veces, a la mitad de la longitud del intervalo de confianza de 95%, la cual es 1.96σ/√n,


se llama cota del error de estimación, asociada con un intervalo de confianza de 95%. De
forma más general, si deseamos estimar μ con una precisión B (la cota específica del error
de estimación) con un nivel de confianza de 100(1-α)%, el tamaño necesario de la muestra
se calcula reemplazando 2/w por 1/B en la fórmula del cuadro precedente, con lo que

201
2
 
n   z / 2 
 B

Intervalos de confianza con muestras grandes para la media de una


población
Sea X1, X2,…,Xn una muestra aleatoria de una población con media μ y desviación estándar
σ. Siempre que n sea grande, el TLC implica que tiene aproximadamente una
X
distribución normal, cualquiera que sea la naturaleza de la distribución de la población. Se
deduce que
Z  (X  ) /( / n )
tiene aproximadamente una distribución normal estándar, de modo que
 X 
P  z  / 2   z / 2   1  
 / n 
Un argumento similar al de la sección 6.4 produce
DEFINICION
x  z / 2 / n    x  z / 2 / n

como un intervalo de confianza con muestras grandes para μ con un nivel de confianza de
aproximadamente 100(1-α)%.

Si σ es desconocida, se sustituye s por σ y la nueva tiene


Z  (X  ) / (S / n )
aproximadamente una distribución normal estándar, lo que produce un intervalo general
con muestras grandes para µ.
TEOREMA
x  z /2 s / n
En términos generales, n>40 será suficiente para justificar el uso de este intervalo. Es algo
más conservador que la sencilla regla para el TLC.
Para muestras pequeñas de poblaciones no normales no puede esperarse que el nivel de
confianza 1-α sea exacto.

Ejemplo 6.13. Se encuentra que la concentración promedio de zinc que se saca del agua a
partir de una muestra de mediciones de zinc en 36 sitios diferentes es 2.6 gramos por
milímetro. Encuentre los intervalos de confianza de 95% y 99% para la concentración
media de zinc en el río. Suponga que la desviación estándar de la población es 0.3.
Solución:
La estimación puntual de μ es El valor de z, que deja un área de 0.025 a la derecha
x  2.6.
y por tanto un área de 0.975 a la izquierda, es De aquí que el intervalo de
z0.025  1.96.
confianza de 95% es

202
 0.3   0.3 
2.6  (1.96)      2.6  (1.96)  .
 36   36 
que se reduce a 2.50<μ<2.70.

Para encontrar un intervalo de confianza de 99%, encontramos el valor z que deja un área
de 0.005 a la derecha y de 0.995 a la izquierda. Por tanto, y el intervalo de
z0.005  2.575,
confianza de 99% es

 0.3   0.3 
2.6  (2.575)      2.6  (2.575)  ,
 36   36 
o simplemente
2.47<μ<2.73.

Vemos ahora que se requiere un intervalo más grande para estimar μ con un grado más alto
de precisión.

Intervalos de confianza unilaterales


DEFINICION

El intervalo de confianza superior del 100(1-α)% para μ es

  u  x  z  / n

El intervalo de confianza inferior del 100(1-α)% para μ es

x  z  / n  l  

Ejemplo 6.14. En una muestra de 50 microperforadores, el tiempo de vida promedio


(número de huecos perforados antes de que falle) era de 12.68 con una DE de 6.83. Calcule
un IC inferior de 95% como uno superior de 99% para la media del tiempo de vida de los
microperforadores.
Solución:
o
6.83
x  z  / n  12.68  1.645*  11.091,
50

μ>11.091, y

o
6.83
x  z  / n  12.68  2.33*  14.931,
50

μ<14.931.

203
Ejemplo 6.15. En una muestra aleatoria de 100 baterías producidas por cierto método, el
promedio del tiempo de vida fue de 150 horas y la DE de 25 horas.
a) Determine un IC de 95% para la media del tiempo de vida de las baterías producidas por
éste método.
b) Un ingeniero afirma que la media del tiempo de vida está entre 147 y 153 horas. ¿Con
qué nivel de confianza se puede hacer esta afirmación?

Solución:
a) o
x  z / 2  / n  150  1.96 (25 / 100)  150  4.9,
(145.1; 154.9).
b)
x  z / 2  / n  150  z / 2 25 / 100  147
de donde,
(150  147)
z / 2  (10)  1.20
25

Así, α/2=0.1151, con lo que α=0.2302, y el nivel de confianza es de 76.98%.


6.5 Intervalos de confianza para la proporción de una población


Representemos con p la proporción de “éxitos” de una población. Se selecciona una
muestra aleatoria de tamaño n , y sea X el número de éxitos en la muestra. Siempre que n
sea pequeña, en comparación con el tamaño de la población, X puede ser considerada como
una variable aleatoria binomial con E(X)=np y . Además, si n es grande
 X  np (1  p )
(np≥10 y nq≥10), X tiene apoximadamente una distribución normal.
El estimador natural de p es la fracción muestral de éxitos. Como es
X P̂
Pˆ  ,
n
simplemente X multiplicada por la constante 1/n, también tiene aproximadamente una

distribución normal, es decir, Como se sabe, y
 p (1  p )  ˆ
E ( P)  p
Pˆ ~N  p, .
 n 
La estandarización de , al restar p y dividir entre implica que
 Pˆ  p (1  p ) / n . P̂  Pˆ
,
 Pˆ  p 
P   z / 2   z / 2   1  
 p (1  p ) / n 
 
Al seleccionar una muestra aleatoria de tamaño n de una población sustituimos y por
P̂ p̂
se obtiene como se sugirió en la deducción de un intervalo de confianza (sección 6.4) para
la media, los límites de confianza para p como resultado de reemplazar el signo de

204
desigualdad por = y despejar p de la ecuación cuadrática resultante. Así se obtienen las dos
raíces
z2 / 2 ˆ ˆ z2 / 2
pq
pˆ   z / 2 
2n n 4n 2
p
1  ( z2 / 2 ) / n

límites de confianza que generan el Intervalo de score o de Wilson.

Intervalo de score o de Wilson

Un intervalo de confianza de la proporción poblacional p con nivel aproximado de


confianza de 100(1-α)% viene dado por

(*)
z2 / 2 ˆˆ
pq z2 / 2
pˆ   z / 2  2
2n n 4n
2
1  ( z / 2 ) / n

La probabilidad de cobertura del parámetro p por este intervalo está mucho más cercana al
nivel de confianza nominal que el intervalo de Wald (Agresti & Coull 1998) que sigue, aun
sin considerar el tamaño de la muestra ni las frecuencias o proporciones observadas
(Newcombe & Merino 2006). Agresti & Coull (1998) muestran que este intervalo de
confianza puede ser recomendado para el uso con casi todos los tamaños de muestra y
valores de parámetros.

Si el tamaño de la muestra es grande, es insignificante en comparación con ,


z 2 /(2n) p̂
también bajo la raíz cuadrada es insignificante en comparación con y
2 2
z /(4n ) ˆ
pqˆ / n
es insignificante en comparación con 1. Al desechar esos términos insignificantes, se
z2 / n
obtienen el intervalo tradicional o clásico o de Wald.

Intervalo de Wald

Si es la proporción de éxitos en una muestra aleatoria de tamaño n, un IC aproximado



de (1-α)100% para el parámetro binomial p está dado por

pˆ  z / 2 pq
ˆˆ/n

Teóricamente, este intervalo tiene, para valores grandes de n, un nivel de confianza


aproximado de (1-α)100%. A pesar de lo simple que resulta su cálculo y de su gran

205
difusión, muchos estudios han demostrado que este intervalo tiene un mal desempeño
(Agresti & Coull 1998, Brown et al. 2002, Newcombe & Merino 2006). Newcombe &
Merino (2006) muestran que si se sustituye por cero, se obtiene un error estándar igual a

cero y el intervalo se degenera, ya que los límites inferior y superior son cero. De igual
forma, cuando es uno, los límites superior e inferior son 1. Aún más, cuando n-x es

pequeño, el límite superior puede exceder de 1, en cuyo caso los intervalos obtenidos no
tienen sentido. Correa & Sierra (2003), entre otros, señalan que los intervalos de Wald
tienen una probabilidad de cobertura muy por debajo del nivel de confianza nominal, en
especial cuando el tamaño de muestra es pequeño.
Este intervalo tiene la forma de un intervalo de confianza con muestra grande. Durante
decadas se ha recomendado este intervalo, mientras se justifique la aproximación normal
para .

Ejemplo 6.16. En una muestra aleatoria de 85 rodamientos para el cigüeñal del motor de
un automóvil, 10 tienen un acabado de la superficie con más asperezas de las que permiten
las especificaciones. Por lo tanto, una estimación puntual de la proporción de rodamientos
de la población que excede la especificación de aspereza es
pˆ  x n  10 / 85  0.12.
Calcular un IC de dos colas de 95%.

Solución:

(0.12)(0.88)
z / 2 pˆ (1  pˆ ) / n  1.96  0.0691
85

El intervalo de confianza de 95% es, por lo tanto, 0.12±0.0691, ó (0.0509; 0.1891).

Determinación del tamaño de la muestra

En situaciones en que es posible seleccionar el tamaño de la muestra, n puede escogerse


para tener una confianza del 100(1-α) por ciento de que el error sea menor que un valor
especificado E. Si se hace y se resuelve la expresión para n, el
E  z / 2 p (1  p ) / n
tamaño de la muestra apropiado es

(a)
2
z 
n    / 2  p (1  p)
 E 

Para usar esta ecuación se necesita estimar p. Si se cuenta con una estimación de una

muestra anterior, ésta puede sustituir a p en la ecuación, o tal vez pueda hacerse una

206
estimación subjetiva. Si estas alternativas no son satisfactorias, puede tomarse una muestra
preliminar, calcular y después usar la ecuación para determinar cuántas observaciones

adicionales se requieren para estimar p con la precisión deseada. Otro enfoque para elegir n
utiliza el hecho de que el tamaño de la muestra de la ecuación siempre será un máximo para
p=0.5, lo cual puede usarse para encontrar una cota superior de n. En otras palabras, se
tiene una confianza de al menos 100(1-α) por ciento de que el error al estimar p utilizando
es menor que E si el tamaño de la muestra es

(b)
2
z 
n  0.25   / 2 
 E 

Ejemplo 6.17. Considérese la situación del ejemplo 6.16. ¿Qué tamaño de la muestra se
necesita si se quiere tener una confianza de 95% de que el error al usar para estimar p es

menor que 0.05? Al utilizar como estimación inicial de p, por la ecuación (a) se
pˆ  0.12
encuentra que el tamaño de la muestra requerido es
2 2
 z¨0.025   1.96 
n  pˆ (1  pˆ )    (0.12)(0.88)  163
 E   0.05 

Si se quiere tener una confianza de al menos 95% de que la estimación de la verdadera



proporción p estuvo dentro de 0.05 independientemente del valor de p, entonces se usa la
ecuación (b) para encontrar el tamaño de la muestra

2 2
z   1.96 
n   0.025  (0.25)    (0.25)  385
 E   0.05 

Intervalo de confianza de Agresti-Coull

Sea X~Bin(n,p). Se define y Un intervalo de confianza para el


n% n  4 x2
p% .
n%
parámetro binomial p con un nivel de confianza de 100(1-α)% es

p% z / 2 p%(1  p%) / n%

Si el límite inferior es menor que 0, se reemplaza éste con 0. Si el superior es mayor que
1, se reemplaza éste con 1.

207
Agresti & Coull (1998) recomendaron la implementación de este intervalo ajustado de
Wald en los cursos elementales de estadística debido a su sencillez ya que se comporta
mejor que el intervalo de Wald para los niveles usuales de confianza.

SUGERENCIA
Para tamaños muestrales muy grandes, los resultados del intervalo clásico de Wald son casi
idénticos a los obtenidos con el método de Wald Ajustado. Para tamaños muestrales
pequeños o medianamente grandes, el punto de vista del intervalo de Wald Ajustado,
llamado también de Agresti-Coull, es mejor.

Ejemplo 6.18. En cierto día se fabrica un gran número de fusibles cada uno tasado a 15 A.
Al extraer una muestra de 75 de la producción del día, se encontró que 17 de ellos tenían
amperajes de quemado mayores que 15 A.
a) Determine un IC de 95% para la proporción de fusibles fabricados ese día, cuyo
amperaje de quemado es mayor que 15 A.
b) Determine un IC de 98% para la proporción de fusibles fabricados ese día, cuyo
amperaje de quemado es mayor que 15 A.

Solución:

Sumando 4 al número de ensayos y 2 al de éxitos, se tiene


x2
p%  (17  2) /(75  4)  19 / 79  0.2405,
n4
de donde,

(0.2405)(0.7595)
(1  p%
z / 2 p% ) / n% 1.96  0.0942
79
El intervalo de confianza de 95% es, por lo tanto, 0.2405±0.0942, ó (0.1463; 0.3347).

b) Aquí tenemos,

(0.2405)(0.7595)
2.33  0.1120
79

El IC de 98% es, por lo tanto, 0.2405±0.1120, ó (0.1285; 0.3525).

Determinación del tamaño de la muestra


El siguiente ejemplo muestra cómo calcular el tamaño muestral necesario para un intervalo
de confianza que tenga un ancho específico cuando se conoce un valor preliminar de
p%
.

Ejemplo 6.19. Del ejemplo precedente, determine el tamaño muestral necesario para que
un intervalo de confianza de 95% especifique la proporción dentro de ±0.05.

208
Solución:
El IC más ancho posible, para una muestra de tamaño n, es

(0.2405)(0.7595)
1.96
n4
Al despejar n de
(0.2405)(0.7595)
1.96  0.05
n4
se obtiene,
(0.2405)(0.7595)
(1.96)2  (0.05) 2
n4

0.7017
 0.0025
n4
de donde, n≈277.

Ejemplo 6.20. Los aceros inoxidables pueden ser susceptibles al agrietamiento de


corrosión por tensión bajo ciertas condiciones. Un ingeniero está interesado en determinar
la proporción de fallas de aleaciones de acero que son atribuibles al agrietamiento de
corrosión por tensión.
En ausencia de datos preliminares, ¿de que tamaño debe ser una muestra para asegurar que
el IC de 95% especificará la proporción dentro de ±0.05?
Solución:

La cantidad se máximiza por con lo que se puede calcular un estimado


p%(1  p%
), p% 0.5,
de tamaño muestral conservador con
p% 0.5.
Se determina el tamaño muestral n con la ecuación

(0.5)(1  0.5)
1.96  0.05
n4

(0.5)(0.5)
(1.96) 2  (0.05) 2
n4

0.9604
 0.0025
n4
de donde, n≈381.

Intervalos de confianza unilaterales

Los IC de un lado se pueden calcular también para proporciones.

209
Un nivel de 100(1-α)% de un límite inferior de confianza para p es

, y
p% z p%(1  p%) / n%

un nivel de 100(1-α)% de un límite superior de confianza para p es

p% z p%(1  p%) / n%

Si el límite inferior es menor que 0, se reemplaza con 0. Si el superior es mayor que 1, se


reemplaza con 1.

Ejemplo 6.21. Co referencia al ejemplo 6.18, encuentre un límite superior de confianza de


98% para la proporción de fusibles con amperajes de quemados mayores que 15 A.

Solución:

Dicho intervalo es de la forma

o
(0.2405)(0.7595)
p% z (1  p%
p% ) / n% 0.2405  2.05  0.2405  0.0986  0.3391
79

p<0.3391 ▄

6.6 Intervalos de confianza para la media poblacional con


muestras pequeñas (σ desconocida)

Si en el estadístico la muestra es pequeña y la varianza σ2 es desconocida, ¿Qué


X 
Z
/ n
sucede con la distribución de Z si se reemplaza σ por s? Si la muestra es pequeña (n<30) de
una población normal con media μ, el estadístico tiene una distribución t de
X 
T ,
S/ n
Student.

TEOREMA

Cuando es la media de una muestra aleatoria de tamaño n, de una distribución normal


X
con media μ, la va

210
X 
T
S/ n

tiene una distribución de probabilidad llamada distribución t con n-1 grados de libertad
(gl).

Propiedades de la distribución t de Student

Representemos con tν la curva de función de densidad para ν grados de libertad.

1. Cada curva tν tiene forma de campana con centro en 0.


2. Cada curva tν está más dispersa que la curva normal estándar (z).
3. A medida que ν aumenta, la dispersión de la curva tν correspondiente disminuye.
4. A medida que , , la secuencia de curvas tν se aproxima a la curva normal estándar
 
(por lo que la curva z recibe a veces el nombre de curva t con
gl   ).

Intervalos de confianza al usar la distribución t de Student

Sea X1, X2,…,Xn una muestra aleatoria pequeña (n<30) de una población normal con
media μ. Entonces un intervalo de confianza de nivel 100(1-α)% para μ es

s
x  tn1,  / 2
n

Ejemplo 6.22. En un estudio se ha determinado el pH de seis muestras de agua: 5.9, 5.0,


6.5, 5.6, 5.9 y 6.5. Suponiendo que éstas son muestras aleatorias de agua de una población
aproximadamente normal, encuentre un IC de 95% para la media del pH.

211
Solución:

Aquí, y , entonces
x  5.90; s  0.57; t5, 0.025  2.571

0.57
t s  2.571  0.60
n 1,  / 2 6
n

El IC de 95% es, por lo tanto, 5.90±0.60, ó (5.30; 6.50).

¿Cómo se determina si la distribución t de Student es adecuada?

En muchos casos se debe decidir si una población es aproximadamente normal examinando


la muestra. Desafortunadamente, si el tamaño de la muestra es pequeño, desviaciones a la
normalidad pueden ser difíciles de detectar. Una manera es construir ya sea un gráfico de
papel probabilidad, una gráfica cuantilar normal, un diagrama de caja o uno de puntos. Si el
gráfico o estos diagramas no revelan una asimetría fuerte o algún dato atípico, entonces en
la mayor parte de los casos la distribución t de Student es confiable.

Ejemplo 6.23. La fuerza comprensiva cilíndrica en MPa para 11 vigas fueron

38.43 38.43 38.39 38.83 38.45 38.35

38.43 38.31 38.32 38.48 38.50

¿Es adecuado utilizar el estadístico t de Student para construir un IC de 95% para la media
de la fuerza comprensiva cilíndrica?
Solución:
Gráfico de papel probabilidad:

212
Se rechaza la normalidad, ya que hay un punto distante en el gráfico. Por lo tanto, lo datos
parecen no provenir de una distribución normal.

Diagrama de caja:
En el resumen de cinco puntos obtenemos: Mín=38.31; Máx=38.83; Q1=38.35; Q2=38.43;
Q3=38.48 y la gráfica es la siguiente:

No existe evidencia de una desviación importante a la normalidad, sin embargo, hay un


dato atípico, 38.83. El estadístico t de Studente no debe utilizarse.

Diagrama de puntos:

Hay un dato atípico en esta muestra. El estadístico t de Student no se debe utilizar.

Ejemplo 6.24. Los siguientes son un resumen estadístico para un conjunto de datos. ¿Sería
adecuado utilizar la distribución t de Student para construir un IC de estos datos? Explique.

Solución:

213
Media 25,8
Mediana 25
Moda 24
Desviación estándar 3,7
Rango 16
Mínimo 19
Máximo 35
Cuenta 38
Cuartil uno 23
Cuartil dos 25
Cuartil tres 27

Intervalos unilaterales de confianza

La distribución t de Student se puede utilizar para calcular intervalos de confianza de un


lado.
INTERVALOS DE CONFIANZA UNILATERALES

Sea y s la media muestral y desviación estándar muestral, calculadas a partir de los


x
resultados de una muestra aleatoria de una población normal con media μ. Entonces un
límite superior de confianza de 100(1-α)% para μ es

s
x  tn1, 
n

y un límite inferior de confianza de 100(1-α)% para μ es

s
x  tn1, 
n

Ejemplo 6.25. Se presentan mediciones de la fuerza nominal de corte (en kN) para una
muestra de 15 vigas de concreto. Los resultados son

58 40 42 82 85 87 92 55
0 0 8 5 0 5 0 0
57 75 63 36 59 73 95
5 0 6 0 0 5 0
Se puede verificar que la población es aproximadamente normal con σ=180.0 kN.
Encuentre un LIC (límite inferior de confianza) de 99% para la media de la fuerza de corte.
Solución:

214
Aquí, y , entonces
x  668.3; s  192.1; t14, 0.01  2.624
192.1
t s  2.624  130.2
n 1,  15
n

El LIC de 99% es, por lo tanto, 668.3-130.2=538.13 kN, ó μ>538.1 kN.

Utilice z, no t, si se conoce σ
En ocaciones se puede tomar una pequeña muestra de una población normal cuya
desviación estándar σ se conoce. En estos casos, no se utiliza la curva t de Student, porque
no se está aproximando a σ con s. En su lugar se utiliza la tabla z.

Ejemplo 6.26. Si en el ejemplo precedente, la población es aproximadamente normal, y


σ=180.0 kN, encuentre un IC de 99% para μ.
Solución:
Aquí, y , entonces
x  668.3;   180.0; z0.005  2.575
180.0
z   2.575  119.7
 /2 15
n

El IC de 99% es, por lo tanto, 668.3±119.7, ó (548.6; 788.0).


6.7 Intervalos de confianza para la diferencia entre dos medias

Si y son las medias de las muestras aleatorias independientes de tamaños y


x1 x2 n1 n2
de poblaciones con varianzas conocidas y , respectivamente, entonces un
 12  22
intervalo de confianza del 100(1-α) por ciento para es
1  2
 12  22
x1  x2  z / 2 
n1 n2
Cuando los valores de y son desconocidos, se pueden sustituir con las DE mues-
 12  22
trales y
s1 s2 .

La regla práctica estándar para caracterizar tamaños muestrales grandes es otra vez >40 y
n1
>40.
n2

215
Ejemplo 6.27. Se están comparando los puntos de fusión de dos aleaciones. Se fusionaron
45 especímenes de la aleación 1. La temperatura promedio de fusión fue de 517.0 o F y la
DE fue de 2.4oF. Se fusionaron 47 especímenes de la aleación 2. La temperatura promedio
fue de 510.1oF y la DE fue de 2.1oF. Determine un IC de 99% para la diferencia entre los
puntos de fusión.

Solución:
Aquí, y y y
n1  45, x1  517.0o F s1  2.4o F ; n2  47, x2  510.1o F s2  2.1o F .
Además, Entonces,
z0.005  2.575.

 12  22 2.42 2.12
z /2   2.575   1.21
n1 n2 45 47

El IC de 99% es, por lo tanto, (517.0-510.1)±1.21=6.90±1.21, ó (5.79; 8.21).

Otros intervalos de confianza para la diferencia de medias (opcional)

Intervalo de confianza para μ1−μ2 con σ 21 = σ 22 pero desconocidas

Si x 1 y x 2 son las medias de muestras aleatorias independientes de tamaño n 1 y


n2 de poblaciones normales con varianzas iguales pero desconocidas, un intervalo de
confianza de 100(1-α)% para μ1−μ2 está dado por
1 x 1−¿
¿

 x1  x2   t / 2 . s p 1
n1
 n1  1  2   x1  x2   t / 2 . s p
2
1
n1
 n1
2

x 2 ¿−t α /2 . s p
√ 1 1
+ < μ −μ
n1 n2 1 2
x 1−¿
¿
x 2 ¿+t α /2 . s p
√ 1 1
+
n 1 n2

donde ( n1 −1 ) s 21+(n2−1)s 22 y los grados de


s 2p=
n1 +n2 −2 s 2p 
 n1  1 s
2
1   n2  1 s 2
2

n1  n2  2
libertad para la variable t son ν=n1+n2 - 2.

216
μ1−μ2 con σ 21 ≠ σ 22 y desconocidas
Intervalo de confianza para
Si x 1 y s 21 , y x 2 y s 22 son las medias y varianzas de muestras pequeñas
independientes de tamaño n1 y n2, respectivamente, de poblaciones normales con
varianzas desconocidas y diferentes, un intervalo de confianza de 100(1- α)% para
μ1−μ2 está dado por
s12 s2 s12 s2
 x1  x2   t / 2 n1
 n2  1  2   x1  x2   t / 2
2 n1
 n1
2
2 donde t α /2 es el valor t con
2
 s12 s22 
 n1  n2 
  
   
2 2
s12 / n1 s22 / n2
n1 1 n2 1
grados de libertad.

μ1−μ2 para observaciones pareadas


Intervalo de confianza para µD =
Si d́ y s d son la media y la desviación estándar de las diferencias distribuidas
por lo menos aproximadamente normal de n pares aleatorios de mediciones, un
3 intervalo de confianza de 100(1- α)% para µD = μ1−μ2 es

sd s
sd s d́−t α /2 < μ D < d́ +t α /2 d
d  t / 2   D  d  t / 2 d √n √n
n n

6.8 Intervalos de confianza para la diferencia entre dos


proporciones

El IC es similar al que se tomo para el intervalo de confianza de una muestra. El intervalo


de confianza dado a continuación suele ser llamado intervalo de Agresti-Caffo, después que
lo desarrollaron Alan Agresti y Brian Caffo.

INTERVALO DE CONFIANZA DE AGRESTI-CAFFO

Si y Se define

y Entonces, un IC para la diferencia de los parámetros binomiales


p%
2  ( x2  1) / %
n2 .
en un nivel de confianza de 100(1-α)% es
p1  p2

217
1 (1  p
p% %1) p%(1  p%
2)
1 p
( p% % 2 )  z / 2  2
n%
1 n%2

Si el límite inferior del IC es menor que -1, sustituya éste con -1. Si el límite superior del
IC es mayor que 1, sustituya éste con 1.

Ejemplo 6.28. En una prueba del efecto de la humedad en conexiones eléctricas, se


probaron 100 conexiones eléctricas bajo condiciones húmedas y 150 bajo condiciones
secas. Veinte de las primeras fallaron y sólo diez de las segundas no pasaron la prueba.
Determine un intervalo de confianza de 90% para la diferencia entre las proporciones de las
conexiones que fallaron, húmedas y secas.

Solución:
Sea X1 la va del número de conexiones bajo condiciones húmedas y X 2 la va del número de
conexiones bajo condiciones secas.
Aquí,
y
n%
1  n1  2  100  2  102, %
p 1  ( x1  1) / n%
1  (20  1) /102  0.2059;
y además
n%
2  n2  2  150  2  152, %
p 2  ( x 2  1) / %
n2  (10  1) /152  .0724; z0.05  1.645.
Entonces,

1 (1  p
p% %1) p%(1  p%
2) (.2059)(.7941) (.0724)(.9276)
z / 2  2  1.645   0.0744
n%
1 n%2 102 152

El IC de 90% es, por lo tanto, (0.2059-0.0724) ± 0.0744=0.1335±0.0744, ó (0.0591;


0.2079).

Para tamaños muestrales pequeños, el intervalo de confianza tradicional falla para lograr
que contenga la probabilidad; en otras palabras, el intervalo de confianza de nivel 100(1-α)
% calculado por le método tradicional contiene el valor verdadero menos del 100(1-α)% de
las veces.

Intervalo de confianza tradicional

Sea y las proporciones de éxitos en muestras aleatorias de tamaño y ,


p̂1 p̂2 n1 n2
respectivamente, un IC aproximado de (1-α)100% para la diferencia de dos parámetros
binomiales , está dado por

pˆ1 (1  pˆ1 ) pˆ 2 (1  pˆ 2
( pˆ1  pˆ 2 )  z / 2 
n1 n2

Este método no se puede utilizar a menos que ambas muestras contengan al menos diez

218
éxitos y diez fracasos.

Ejemplo 6.29. Se considera cierto cambio en un proceso de fabricación de partes


componentes. Se toman muestras del procedimiento actual y del nuevo, para determinar si
el nuevo tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del
procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo
también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la
fabricación de defectosos entre el proceso actualy el nuevo.
Solución:
Sean y las proporciones reales de defectuosos para los procedimientos actual y
p1 p2
nuevo, respectivamente. De aquí, y y
pˆ1  75 /1500  0.05 pˆ 2  80 / 2000  0.04,
Entonces,
z0.05  1.645.

pˆ1 (1  pˆ1 ) pˆ 2 (1  pˆ 2 (0.05)(0.95) (0.04)(0.96)


z / 2   1.645   0.0117.
n1 n2 1500 2000
El IC de 90% es, por lo tanto, (0.05-0.04)±0.0117=0.01±0.0117, ó (-0.0017; 0.0217).

6.9 Intervalos de confianza para la varianza y el cociente de dos


varianzas
Distribución Ji-cuadrada

Si en la distribución Gamma hacemos r=k/2 donde k es un entero positivo, a la distribución


Γ(r, ½) se le llama distribución Ji-cuadrada con k grados de libertad. La distribución Ji-
cuadrada es muy importante en la inferencia estadística.

El estadístico S2 tiene poca aplicación, en su defecto se utiliza el estadístico:


χ2=(n-1)S2/σ2.

TEOREMA

Si S2 es la varianza de una muestra aleatoria de tamaño n que se toma de una dn que


tiene varianza σ2, entonces el estadístico
(n 1)S2
2 
2

tiene una distribución ji-cuadrada con υ=n-1 grados de libertad.

219
Ejemplo 6.30. El tiempo que le toma a un procesador central procesar un determinado tipo
de tarea tiene una dn con media de 20.0 seg. y desviación estándar de 3.0 seg. Si se observa
una muestra de 15 de estas tareas, ¿cuál es la probabilidad de que la varianza muestral sea
mayor que 13.5?
Solución: P(S2>13.5).
2
>13.5)= =
P(S (n 1)s2 (n 1) 2 (14)(13.5)
P( 2  (13.5))  P(  9
)  P( 2  21.0)  .10
 2

Intervalo de confianza para la varianza


Un intervalo de confianza de 100(1- α)% para la varianza σ2 de una población normal es

< <
(n  1) s 2  2 (n  1) s 2
 2 / 2, n1  21   / 2, n1

Ejemplo 6.31. Se espera que un proceso estandarizado produzca arandelas con una
desviación muy pequeña en su espesor. Suponga que se tomaron 10 de estas arandelas y sus
espesores, en pulgadas, fueron:

.123 .133
.124 .125
.126 .128
.120 .124
.130 .126

¿Cuál es un intervalo de confianza de 90% para la desviación estándar de una arandela


producida mediante este proceso?

Solución:

220
(n  1)s 2 2 (n  1)s 2
  
2 / 2,  12 / 2, 

2
=1.3656x10-5, 1-α=0.90, α=0.10, α/2=0.05,
n=10, s 2 / 2,   0.05,
2
9  16.919;

12 / 2,   0.95,
2
9  3.325.

(9)(1.3656x10 5 ) (9)(1.3656x10 5 )
 2 
16.919 3.325

7.2640x10-6<2<36.9640x10-6
y

2.6952x10-3<<6.0798x10-3

Distribución muestral de F
La distribución F de probabilidad tiene dos parámetros, representados por ν1 y ν2. El
parámetro ν1 se llama número de grados de libertad del numerador, y ν2 es el número de
grados de libertad del denominador; aquí, ν1 y ν2 son enteros positivos. Hay una relación
importante entre una variable F y las variables ji-cuadradas. Si X 1 y X2 son variables
aleatorias ji-cuadradas independientes con ν1 y ν2 grados de libertad, respectivamente,
entonces se puede demostrar que la variable aleatoria

X 1 / 1
F
X 2 / 2

el cociente entre las dos variables ji-cuadrada, divididas entre sus respectivos grados de
libertad, tiene una distribución F.

221
TEOREMA

1
f1  , 1 ,  2 
f ,  2 , 1

TEOREMA

Si S12 y S22 son las varianzas de muestras aleatorias independientes de tamaño n1 y n2


tomadas de poblaciones normales con varianzas σ12 y σ22 respectivamente, entonces
S12 / 12 22S12
F 
S22 / 22 12S22
tiene una distribución F con υ1=n1-1 y υ2=n2-1 g. l.

Ejemplo 6.32. Si S12 y S22 son las varianzas muestrales de muestras aleatorias
independientes de tamaños n1=10 y n2=20, tomadas de poblaciones normales que tienen las
mismas varianzas, encuentre P(S12 / S22≤2.42).
Solución:
P(S12/S22≤2.42)=P(σ22S12/σ12S22≤2.42)=P(F≤2.42)=1-P(F≥2.42)=0.9500.

Intervalo de confianza para el cociente de dos varianzas poblacionales


Si s 21 y s 22 son las varianzas de muestras independientes de tamaño n1 y n2,
respectivamente, de poblaciones normales, entonces un intervalo de confianza de
100(1- α)% para es

222
< <
s2
1  2
s12
1 1
f / 2,  2 , 1
s f / 2, 1 ,  2 
2
2
2
2 s22
donde ν1=n1-1 y ν2=n2-1.

Ejemplo 6.33. Una muestra aleatoria de n1=16 observaciones de resistencias a la ruptura


de un tipo de vidrio produjeron s12 =3.68 (las mediciones están en libras por pulgadas
cuadrada). Una muestra aleatoria de n 2=10 mediciones en una segunda máquina, pero del
mismo tipo de vidrio, dio s 22=2.31. Estimar la relación verdadera de las varianzas ,
 12 /  22
en un intervalo de confianza de 90%. Suponer normalidad para ambas poblaciones.

Solución:
< <
s2
1  2
s12
1 1
f / 2,  2 , 1
s f / 2, 1 ,  2 
2
2
2
2 s22

1-α=0.90, α=0.10, α/2=0.05,


f  / 2, 1, 2  f 0.05, 15, 9  3.01, f  / 2, 2 , 1  f 0.05, 9, 15  2.59,

< <
3.68  1   12 3.68
   2.59 
2.31  3.01   22 2.31

0.529< <4.126
 12 /  22

Unidad VII: PRUEBA DE HIPOTESIS

Introducción

Podemos estimar un parámetro de manera puntual o a través de un intervalo de confianza. A


veces el objetivo no es estimar un parámetro sino determinar cual de dos hipótesis
contradictorias del parámetro es la correcta. Esto se logra con las pruebas de hipótesis.

223
7.1 Hipótesis y procedimientos de prueba

DEFINICION

Una hipótesis estadística, es una expresión que representa el valor de una sola
característica o los valores de varias características de la población.

Ejemplos 7.1.
1. La expresión μ=0.75, donde μ es el promedio verdadero del diámetro interior de cierto
tipo de tubo de PVC.
2. El enunciado p<0.10, donde p es la proporción de tarjetas defectuosas de un circuito,
entre todas las fabricadas por un fabricante.
3. Si μ1 y μ2 representan el verdadero promedio de resistencia a la ruptura de dos tipos de
cuerdas, una hipótesis es la afirmación μ1-μ2=0.
En cualquier problema de prueba de hipótesis hay dos hipótesis contradictorias. Una
podría ser por ejemplo, μ=0.75 y otra μ≠0.75. El objetivo es determinar con base en la
muestra, cual de las dos es la correcta.

DEFINICION

La hipótesis nula, representada por Ho, es la afirmación sobre una o más características
poblacionales que al inicio se supone cierta. La hipótesis alternativa, Ha, es la
afirmación contradictoria a Ho.

La hipótesis nula se rechaza a favor de la hipótesis alterna, solo si la evidencia


muestral sugiere que Ho es falsa. Las dos posibles conclusiones de un análisis de prueba de
hipótesis son rechazar Ho o no rechazar Ho.

En situaciones prácticas la inferencia estadística demanda estimar un parámetro poblacional


o tomar decisiones respecto al valor del parámetro. Por ejemplo, si una compañía
farmacéutica fermenta antibiótico en un tanque, es posible usar muestras del tanque para
estimar la potencia media µ para todo el antibiótico del tanque. O bien, suponga que a la
compañía no le interesa la potencia media exacta del antibiótico, sino sólo que cumpla con
los estándares de potencia mínima internacionales. Entonces, la compañía usa las muestras
obtenidas del tanque para decidir entre dos posibilidades:
 La potencia media µ no excede la potencia mínima permisible.
 La potencia media µ excede la potencia mínima permisible.

El problema de la compañía farmacéutica ilustra una prueba de hipótesis estadística.

DEFINICION

Una prueba de hipótesis estadística es un método que emplea datos de una muestra
para decidir si se debe rechazar Ho.

224
El razonamiento usado en una prueba de hipótesis estadística es similar al proceso en un
juicio. Al procesar a una persona por robo, el jurado debe decidir entre la inocencia y la
culpabilidad. Cuando empieza el juicio, se considera que la persona acusada es inocente. La
parte acusadora reúne y presenta toda la evidencia disponible en un esfuerzo por
contradecir la hipótesis de inocencia, el jurado rechazará la hipótesis de inocencia y
declarará al demandado culpable. Si la fiscalía no presenta suficientes pruebas para
demostar que el demandado es culpable, el jurado lo declarará no culpable. Observe que
esto no demuestra que el demandado es inocente, sino sólo que no hubo evidencia
suficiente para concluir que el demandado era culpable.

Ejemplo 7.2. En el ejemplo del tubo de PVC, podríamos probar Ho: μ=0.75, contra la
alternativa Ha: μ≠0.75. Si los datos de la muestra indican que μ≠0.75, se debe rechazar Ho.

La alternativa a Ha, puede presentarse en una de las tres formas:

Ha: θ> θo, Ha: θ< θo ó Ha: θ≠ θo

Ejemplo 7.3. Sea μ el tiempo medio de secado de una pintura. Se decide utilizarla si μ<75
min. La hipótesis pertinente sería Ho: μ=75 min. contra Ha: μ<75 min.

El valor del parámetro poblacional especificado en la hipótesis nula se determina por lo


general en una de tres formas. Primera, puede ser el resultado de la experiencia pasada, del
conocimiento del proceso o, incluso, de pruebas o experimentos anteriores. Así, el objetivo
de la prueba de hipótesis suele ser determinar si el valor del parámetro ha sufrido cambios.
Segunda, este valor puede determinarse a partir de una teoría o modelo del proceso bajo
estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o el modelo.
Una tercera situación surge cuando el valor del parámetro poblacional es resultado de
consideraciones externas, como especificaciones de diseño o de ingeniería, o de
obligaciones contractuales. En este caso, por lo general el objetivo de la prueba de hipótesis
es una prueba de conformidad.

PROCEDIMIENTO DE PRUEBA
Un procedimiento de prueba se especifica por un estadístico de prueba, que es una
función de los datos muestrales en los cuales se basa la decisión, y una región de rechazo,
el conjunto de todos los valores del estadístico de prueba para los cuales Ho será rechazada.
La hipótesis nula se rechaza si y sólo si el valor calculado del estadístico se ubica en la
región de rechazo.

ERRORES EN PRUEBA DE HIPÓTESIS


Es posible que Ho pueda rechazarse cuando sea verdadera o que Ho pueda no ser rechazada
cuando sea falsa.

DEFINICION

Un error tipo I consiste en rechazar la hipótesis Ho cuando en realidad es verdadera.


Un error tipo II implica no rechazar Ho cuando en realidad es falsa.

225
No es posible un procedimiento de prueba para el cual no ocurra algún tipo de error
probablemente. Buen procedimiento es aquel en el que la probabilidad de cometer algún
tipo de error es pequeña. La probabilidad de cometer un error tipo I y II se denota por α y β
respectivamente. Para controlar esos errores, a cada uno de ellos se le asigna una pequeña
probabilidad. La probabilidad asignada a cada error depende de la gravedad de ellos. 0.001
muy grave, 0.01 y 0.05 algo grave (los de mayor uso), 0.1 grave y mayores que 0.1 no
grave en absoluto.
Ejemplo 7.4. Se sabe que el tiempo de secado de cierta pintura, esta distribuida
normalmente con μ=75 min. y σ=9 min. Se ha propuesto un aditivo para reducir el tiempo
promedio de secado. Se plantea la hipótesis
Ho: μ=75 min.

contra
Ha: μ<75 min.

Sólo si Ho se puede rechazar, el aditivo se declarará satisfactorio y será empleado.


Se obtiene información de tiempos de secado a partir de una muestra de tamaño n=25.
La media muestral del tiempo de secado tiene una distribución normal con =75 y
X X
.
 9
X    1.8
n 25
Supóngase que si ≤70.8, entonces se rechaza Ho: μ=75, y si >70.8, entonces no se
x x
rechaza Ho: μ=75.

Cálculo de α y β
α=P(Error tipo I)=P(Rechazar Ho cuando es verdadera)
α=P( ≤70.8 cuando ~ N(75, 1.82))
X X
α=Φ((70.8-75)/1.8)= Φ(-2.33)=0.01
En el 1% de las muestras se rechazará Ho, cuando en realidad es verdadera.
β(72)=P(Error tipo II cuando μ=72)
=P(No rechazar Ho cuando Ho es falsa porque μ=72)
=P( >70.8 cuando ~ N(72, 1.82))
X X
=1 – Φ((70.8-72)/1.8)=1- Φ(-0.67)=0.7486

226
β(70)=1- Φ((70.8-70/1.8)=0.3300; β(67)=0.0174.

La probabilidad de error tipo II es muy grande si μ=72 (poca desviación de Ho), un poco
menor cuando μ=70 y bastante pequeña cuando μ=67 (desviación muy importante de Ho).

El uso del valor de corte c=70.8, produjo un valor muy pequeño de α(0.01), pero las β
son más bien grandes. Consideremos ahora una región de rechazo ≤72.
x
Así, α=P(Ho es rechazada cuando es verdadera)

=P(X≤72 cuando ~N(75,1.82))


X

 72  75 
      (1.67)  0.05
 1.8 
β(72)=0.5; β(70)=0.1335; β(67)=0.0027.

227
También puede reducirse el valor de α mediante el incremento del tamaño de la muestra.
Si n=30, entonces y, al utilizar la región de rechazo inicial 70.8, se tiene
 9
  1.64
n 30
que
α=P( ≤70.8 cuando ~ N(75, 1.642))
X X
α=Φ((70.8-75)/1.64)= Φ(-2.56)≈0.0052

Hay una interrelación entre la probabilidad del error tipo I, la probabilidad del error tipo
II y el tamaño de la muestra n. Si cualquiera de estos tres se incrementa o disminuye, uno o
dos de ellos se ven afectados.
Si se reduce α, entonces β debe aumentar o n debe crecer; si β disminuye, entonces α
crece o es necesario aumentar n; si n disminuye, entonces α crece o β aumenta. Las
elecciones de α, β y n definitivamente no son arbitrarias

TEOREMA

Si relacionamos un estadístico de prueba y tomamos un n fijo, entonces, reducir el


tamaño de la región de rechazo para obtener el valor menor de α da como resultado un
valor mayor de β para cualquier valor particular del parámetro consistente con Ha.

Un error tipo I es por lo general más serio que uno de tipo II. El método que siguen los
expertos consiste en especificar el máximo valor de α tolerable y encontrar una región de
rechazo que incluya ese valor de α en lugar de cualquier otro menor. Esto hace que β sea
tan pequeña como sea posible, sujeta al límite α. El valor de α se conoce con el nombre de
nivel de significancia de la prueba. Los niveles tradicionales de significancia son 0.10,
0.05 y 0.01. El correspondiente procedimiento de prueba se llama prueba de nivel α

Ejemplo 7.5. Representamos por µ el verdadero promedio de vida actual en una ciudad.
Consideremos probar Ho: µ=70 años contra Ha: µ>70 años. Una muestra de tamaño 100
muertes el año pasado mostró un promedio de vida de 71.8 años, con una desviación
estándar de 8.9 años. Para probar Ho: μ=70, contra Ha: μ=72, α debe ser 0.05. Calcular la
probabilidad de cometer un error tipo II.

Solución:
Para probar Ho: μ=70, contra Ha: μ=72, se rechaza Ho si

z>1.645
>1.645
x  0
z
/ n
o bien, si
>
x   
0  1.645  
 n

228
 8.9 
 70  1.645    71.464  c
 100 
de donde >71.464 es la región de rechazo.
x

La figura muestra esta región de rechazo, donde μ´ es otro valor particular de μ que excede
del valor nulo μo. Así, por definición, es el área
  P( X  71.464 cuando ´ 72)
sombreada bajo la curva a la izquierda de c=71.464. Por consiguiente, si μ´=72,

 71.464  72 
  PZ    P ( Z  0.61)  0.2743
 8.9 / 100 

7.2 Proceso de prueba para la media


Procedimiento de prueba de hipótesis: enfoque clásico

1. Identificar el parámetro de interés.


2. Establecer la hipótesis nula Ho.
3. Especificar una apropiada hipótesis alternativa, Ha.
4. Establecer el nivel de significancia.
5. Establecer un estadístico de prueba apropiado sustituyendo el valor nulo y
valores de parámetros, pero no las de cualesquier cantidad basada en la
muestra.
6. Establecer la región de rechazo para α.
7. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación
para el estadístico de prueba, y calcular el valor correspondiente.
8. Decidir si Ho debe ser rechazada y establecer esta conclusión en el contexto del
problema.

Caso I: Una población normal con σ conocida


Ejemplo 7.6. Se ha determinado el punto de fusión de cada una de las 16 muestras de
cierta marca de aceite vegetal hidrogenado, con resultado =94.32. Suponga que la
x

229
distribución del punto de fusión es normal con σ=1.20. Pruebe Ho: μ=95 contra Ha: μ≠95,
utilizando una prueba de nivel 0.01 de dos colas.

Solución:
1. µ, promedio verdadero del punto de fusión.
2. Ho: µ=95
3. Ha: μ≠95
4. α=0.01
5.
z  x 95  z  x 0 
1.20 / n  / n 
6. Región de rechazo: z≤-2.575 ó z≥2.575

7.
94.3295
z  2.27
1.20 / 16

8. Decisión: El valor calculado de z=-2-27 no cae en la región de rechazo, por lo que Ho


no se rechaza al nivel de 0.01. Conclusión: El verdadero promedio no difiere del valor 95
en un nivel de 0.01.

Determinación de β y del tamaño muestral

Considérese primero la prueba de cola superior con región de rechazo z≥z α. Esto equivale a
, por lo que Ho no será rechazada si < . Representemos con μ´
 x 
x  o  z o  z
n n
un valor particular de μ que exceda el valor Ho. Entonces

β(μ´)=P(Ho no será rechazada cuando μ=μ´)


 P( X  o  z cuando   ´)
n

 X    
 P  z  o cuando   ´ 
 / n / n 

230
   ´ 
 ( ´)    z  o 
 / n
Las probabilidades de error para las pruebas de cola inferior y dos colas se deducen de una
manera similar. ▄

A continuación se demuestra que es posible seleccionar un tamaño de muestra que


garantice una α y β especificada, siempre que μo y μ´ también se especifiquen.

Para comparar Ho: μ=μo contra Ha: μ=μ´, donde μ´>μo, se ha visto que se rechaza Ho
cuando donde Pero es claro que
x  c,      
c  o  z  . c  ´ z  .
 n  n
Así es que
     
c  o  z    c  ´ z   
 n  n

  
z  z     ´ o
 n
o sea,

n
z  z  
´ o
de donde,

2
  ( z  z  ) 
n 
 o  ´ 

Un argumento paralelo produce el tamaño muestral necesario para pruebas de cola inferior
y de dos colas, como se resume a continuación.

Hipótesis Probabilidad β(μ´) del error tipo II


alternativa para una prueba de nivel α
Ha: μ>μo

Ha: μ<μo

Ha: μ≠μo

231
El tamaño muestral n, para el cual una prueba de nivel α también tiene β(μ´)=β en el
valor alternativo μ´, es

 
2

   z  z   para una prueba de una cola (superior o inferior)
    ´ 
 o 

n

 
2
   z /2  z 
  para una prueba de dos colas(solución aproximada)

   o   ´ 

Ejemplo 7.7. Representemos con μ el verdadero promedio de duración de la superficie de


grabado de un neumático. Considérese probar H0: μ=20,000 km contra Ha: μ>20,000 km,
con base en una muestra de tamaño n=16, de una población con distribución normal con
σ=1,500.

a) Si se utiliza una prueba de nivel 0.01, ¿cuál es β(20,500)?


b) Si se utiliza una prueba de nivel 0.01, y también se requiere que β(20,500)=0.05, ¿qué
tamaño muestral n es necesario?

Solución:
a) La probabilidad de cometer un error tipo II cuando μ´=20,500 es

   ´ 
 ( ´)    z  o 
 / n 
 20, 00  20,500 
 (20,500)    2.33    (1.00)  0.8413
 1,500 / 16 

Por lo tanto, si se utiliza una muestra de 16 neumáticos, entonces hay 15.87% de


posibilidad de que se rechace la hipótesis nula μ=20,000 cuando la verdadera media es
20,500.

b) Puesto que zα=z0.01=2.33 y zβ=z0.05=1.645, se tiene que

2
  ( z  z ) 
n 
 o  ´ 
2
1,500(2.33  1.645) 
 
 20, 000  20,500 

n=142.2 o sea 143.

Caso II: Pruebas con muestras grandes (n>40)

232
Ejemplo 7.8. Una muestra aleatoria de 100 muertes registradas en una ciudad el año
pasado mostró un promedio de vida de 58.5 años, con una desviación estándar de 3.2 años.
Podría esto indicar que el promedio de vida actual es mayor que 58 años. Use un nivel de
significancia de 0.05.
Solución:
1. μ, promedio de vida.
2. Ho: μ=58 años.
3. Ha: μ>58 años.
4. Nivel de significancia α=0.05.
5.
__
58
z x
s/ n
6. Región de rechazo: z≥1.645

7. z  58.558  1.56
3.2 / 100

8. Decisión: Como 1.56<1.645, no se puede rechazar Ho. No tenemos pruebas evidentes


para llegar a la conclusión de que μ>58. Conclusión: El promedio de vida de hoy no es
mayor que 58 años en un nivel de 0.05. ▄

La determinación de β y el tamaño necesario para estas pruebas con muestras grandes


pueden fundamentarse, ya sea especificando un valor razonable de σ y usando las fórmulas
del caso I (aún cuando s se utilice en la prueba).

Caso III: Una población con distribución normal (n≤30)


Ejemplo 7.9. Se determinó la cantidad de desgaste de un eje (0.0001 pulg.), después de un
recorrido fijo de millas para cada uno de n=8 motores de combustión interna, que llevan
cobre y plomo como material antifricción, resultando en =3.72 y s=1.25. Si se supone que
x
la distribución de desgaste del eje es normal con media μ, utilice la prueba t a nivel 0.05
para probar Ho: μ=3.50 contra Ha: μ>3.50.

Solución:
1. μ, promedio de desgaste del eje.
2. Ho: μ=3.50
3. Ha: μ>3.50
4. α= 0.05

233
5.
t x 3.50
s/ n
6. Región de rechazo: t>1.895

7. t  3.72 3.50  0.489


1.25 / 8
8. Decisión: Como 0.498<1.895, no se puede rechazar Ho. Conclusión: El promedio de
desgaste no es mayor que 3.50 al nivel de 0.05. ▄

La mayor parte de los programas de cómputo más empleados también calculan las
probabilidades de error tipo II y determinan tamaños necesarios de muestra. Estos cálculos
se basan en la potencia de una prueba estadística.

La potencia de una prueba estadística es la probabilidad de rechazar la hipótesis nula Ho


cuando la hipótesis alternativa es verdadera. El valor de la potencia es 1-β, y la potencia
puede interpretarse como la probabilidad de rechazar de manera correcta una hipótesis
nula falsa. Por ejemplo, considérese el ejemplo 7.4 cuando se prueba Ho: μ=75 min contra
Ha: μ<75 min. Supóngase que el valor verdadero de la media es μ=72. Cuando n=25, se
tiene que β=0.7486, de modo que la potencia de esta es 1-β=0.7486=0.2514 cuando μ=52.
La potencia es una medida muy descriptiva y concisa de la sensibilidad de una
prueba estadística, donde por sensibilidad se entiende la capacidad de una prueba para
detectar diferencias. En este caso, la sensibilidad de la prueba para detectar la diferencia
entre un tiempo de secado de 75 min y otro de 72 min, es 0.2514. Esto es, si el valor
verdadero de la media es en realidad 72 min, esta prueba rechazará de manera correcta Ho:
μ=75 min y “detectará” esta diferencia el 25.1% de las veces. Si se piensa que el valor de
esta potencia es bajo, entonces se puede aumentar α o el tamaño de la muestra n.

7.3 Valor P
DEFINICION.

El valor P (o nivel observado de significancia) es el mínimo nivel de significancia en


el cual Ho sería rechazada cuando se utiliza un procedimiento de prueba especificado
con un conjunto dado de información. Una vez que el valor P se haya determinado, la
conclusión en cualquier nivel α particular resulta de comparar P con α:

1) Si P≤α entonces rechazamos Ho al nivel α.


2) Si P>α entonces no rechazamos Ho al nivel α.

Procedimiento de prueba de hipótesis: enfoque del valor P


1. Identificar el parámetro de interés.
2. Establecer la hipótesis nula Ho.
3. Especificar una apropiada hipótesis alternativa, Ha.
4. Establecer el nivel de significancia.
5. Establecer un estadístico de prueba apropiado sustituyendo el valor nulo y
valores de parámetros, pero no las de cualesquier cantidad basada en la
muestra.

234
6. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación
para el estadístico de prueba, y calcular el valor correspondiente.
7. Uso del valor P.
8. Decidir si Ho debe ser rechazada y establecer esta conclusión en el contexto del
problema.

Ejemplo 7.10. El espesor deseado de las obleas de cilicio, utilizadas en cierto tipo de
circuito integrado, es 245 μm (millonésima de metro). Se obtiene una muestra de 50 obleas
para determinar el espesor de cada una; así se obtiene un grosor promedio muestral de
246.18 μm y desviación estándar muestral de 3.60 μm. ¿Estos datos parecen indicar que el
espesor promedio real de las obleas es distinto del valor deseado a un nivel de 0.01?.

Solución:
1. μ, espesor promedio verdadero de las obleas.
2. Ho: μ=245 μm
3. Ha: μ≠245 μm
4. =0.01
5. z=
x  245
s/ n
6. z=
246.18 245  2.32
3.60 / 50
7. Valor P
Como la prueba es de dos colas, el valor P es el área de la región sombreada a la derecha de
2.32 y a la izquierda de z=-2.32. Entonces, P=2(1-Ф(2.32))=0.0204.
8. Decisión: Ho no se rechaza porque 0.0204>0.01. Conclusión: El espesor real promedio
no es distinto del valor establecido en un nivel de 0.01.

Ejemplo 7.11. Una muestra aleatoria de 100 muertes registradas en una ciudad el año
pasado mostró un promedio de vida de 71.8 años, con una desviación estándar de 8.9 años.
¿Podría esto indicar que el promedio de vida actual es mayor que 70 años?. Utilizar un
nivel de significancia de 0.05.

Solución:
1. μ, promedio verdadero de vida.
2. Ho: μ=70 años.
3. Ha: μ>70 años.
4. =0.05
5. z=
x 70
s/ n
6. z=
71.870  2.02
8.9 / 100
7. Valor P
El valor de P es el área de la región sombreada a la derecha de 2.02. Entonces
P=P(z>2.02)=0.0217.

235
8. Decisión: En el nivel de 0.05, Ho se rechaza porque 0.0217 <0.05. Conclusión: A este
nivel de significancia la evidencia es suficiente para llegar a la conclusión de que el
promedio de vida es mayor 70.

7.4 Pruebas para la diferencia entre dos medias poblacionales


Ejemplo 7.12. El análisis de una muestra aleatoria formada por n1=20 especímenes de
acero laminado en frío, para determinar su resistencia, dio por resultados una resistencia
promedio muestral de =29.8 Ksi. Una segunda muestra aleatoria de n 2=25 especímenes
x1
de acero galvanizado de dos lados mostró una resistencia promedio muestral =34.7 Ksi.
x2
Si se supone que las dos distribuciones de resistencia son normales con σ 1=4.0 y σ2=5.0,
¿los datos indican que las verdaderas resistencias promedio μ1 y μ2 son diferentes?.
Realicemos una prueba al nivel de significancia α=0.01.

Solución:
1. μ1, resistencia promedio verdadera del acero laminado en frío y μ 2 resistencia promedio
verdadera de acero galvanizado.
2. Ho: μ1-μ2=0
3. Ha: μ1-μ2≠0
4. =0.01
5. z=
x1  x2
(4.0) 2 (5.0) 2

n1 n2
6. z=
29.834.7
16.0  25.0
 3.65
20 25
7. Valor P
Como la prueba es de dos colas, el valor P es el área de la región sombreada a la derecha de
3.65 y a la izquierda de -3.65. Entonces, P=2(1-Ф(3.65)=0.
8. Decisión: Ho debe ser rechazada en cualquier nivel de significancia. Conclusión: Las
verdaderas resistencias promedio son diferentes al nivel de 0.01.

7.5 Pruebas relacionadas con una proporción poblacional


Pruebas con muestras grandes

Ejemplo 7.13. Muchos consumidores están recurriendo a productos genéricos para reducir
el costo de medicamentos por prescripción. De 102 médicos, sólo 47 médicos entrevistados
conocían el nombre genérico de la metadona. Proporciona esto fuerte evidencia para
concluir que menos de la mitad de todos los médicos conocen el nombre genérico de la
metadona. Realizar una prueba de hipótesis utilizando el nivel de significancia de 0.01.

236
Solución:
1. p, proporción de médicos que conocen el nombre genérico de la metadona.
2. Ho: p=0.5
3. Ha: p<0.5
4. α=0.01
5.
p̂ 0.5
z (0.5)(0.5)
n
6. Región de rechazo: z≤-2.33

102
7. 47 /¿−0.5
¿ (47 /102)  0.5
¿ z  0.79
Z=¿ (0.5)(0.5)
102
8. Decisión: Como z=-0.79 no está en la región de rechazo, Ho no puede ser rechazada al
nivel 0.01. Conclusión: No hay evidencia concluyente de que menos del 50% de todos los
médicos conozcan el nombre genérico de la metadona.

Pruebas con muestras pequeñas


Para probar la hipótesis

Ho: p=po
Ha: p<po
Se utiliza la dp binomial para calcular el valor

P=P(X≤x cuando p=po)=B(x; n, po)


El valor x es el número de éxitos en la muestra de tamaño n. Si P=B(x; n, po)≤α, la prueba
es significativa con un nivel α y se rechaza Ho.

Análogamente, para probar la hipótesis


Ho: p=po
Ha: p>po
con un nivel de significancia α, se calcula

P=P(X≥x cuando p=po)=1-B(x-1; n, po)

Si este valor es menor o igual que α se rechaza Ho.

Finalmente, para probar la hipótesis


Ho: p=po
Ha: p≠po
con un nivel de significancia α, se calcula

237
P=2P(X≤x cuando p=po)=2B(x; n, po) si x<npo
ó P=2P(X≥x cuando p=po)=21-B(x-1; n, po) si x>npo
rechazando Ho en ambos casos si P es menor o igual que α.

Ejemplo 7.14. Un constructor afirma que en el 70% de los edificios en una ciudad hay
instalados sistemas de aire acondicionado. ¿Se estaría de acuerdo con esta afirmación si una
inspección aleatoria de edificios en esta ciudad muestra que 8 de 15 cuentan con estos
sistemas?. Utiliza α=0.10.
Solución:

1. p.
2. Ho: p=0.7
3. Ha: p≠0.7
4. Estadístico de prueba: variable aleatoria binomial X con po=0.7 y n=15.
5. Cálculos: x=8 y npo = (15)(0.7) = 10.5, donde x<npo. De Aquí, P=2P(X≤8 cuando
po=0.7) = 2B(8; 15, 0.7) = 2(0.131)= 0.262>0.10.
6. Decisión: No rechazar Ho al nivel de 0.10. Conclusión: Hay razones insuficientes para
dudar de la afirmación del consumidor.

7.6 Pruebas para la diferencia entre proporciones


Ejemplo 7.15. Una muestra aleatoria de 5726 números telefónicos de cierta región, tomada
en marzo de 1992, dio por resultado que 1105 no estaban en el directorio, y un año después,
una muestra de 5384 señaló que 980 números no estaban en el directorio. Pruebe a un nivel
de 0.10 para ver si hay una diferencia en las proporciones reales que no aparecen en el
directorio entre los dos años.
Solución:
1. p1, proporción de números telefónicos que no aparecen en marzo de 1992 y p2 proporción
de números telefónicos que no aparecen un año después en el directorio.
2. Ho: p1 - p2=0 ó p1=p2
3. Ha: p1 - p2≠0 ó p1≠p2
4. =0.10

^p1−¿ ^p 2
5.

√ 1 1
^p q^ ( + )
n 1 n2 z 
z=¿
pˆ1  pˆ 2
1 1
ˆ ˆ  
pq
 n1 n2 

6. Región de rechazo: z>1.645 ó z<-1.645

7.
0.0110
z  1.484
 0.1877   0.8123 
1 1 
 
 5726 5384 

238
0.0110
¿ =1.484

√ ( 0.1877 )( 0.8123 ) (
1
+
1
5726 5384
)
8.
x1 x1  x2
pˆ1   0.1930, pˆ 2  0.1820, pˆ   0.1877, qˆ  0.8123
n1 n1  n2
8. Decisión: Puesto que 1.484 no es mayor que 1.645, Ho no es rechazada. Conclusión: No
existe diferencia. La evidencia es insuficiente para concluir que p1-p2≠0 a un nivel de 0.10.

7.7 Pruebas relacionadas con varianzas

Ejemplo 7.16. Un fabricante de baterías para automóviles afirma que la vida de sus
baterías está aproximadamente distribuida en forma normal con una desviación estándar de
0.9 años. Si una muestra aleatoria de 10 de estas baterías tiene una desviación estándar de
1.2 años, ¿se puede pensar que σ>0.9 años?. Utilizar un nivel de significancia de 0.05.
Solución:
1. σ2, varianza de la vida de las baterías.
2. Ho: σ2=0.81 años
3. Ha: σ2>0.81
4. =0.05
5. ( n−1)s2
χ 2= (n  1) s 2
0.81 2 
0.81
6. Región de rechazo: χ2>16.919

7.
(9)(1.44)
2   16.0
0.81
8. Decisión: No rechazar Ho. Conclusión: La desviación estándar no es mayor que 0.9 años
al nivel de significancia de 0.05.

Ejemplo 7.17. Una gran fábrica de automóviles está tratando de decidir si compra
neumáticos de la marca A o de la marca B para sus nuevos modelos. Para ayudar a tomar la
decisión, se llevó a cabo un experimento en el cual se utilizaron 11 neumáticos de cada
marca. Los resultados fueron:
Marca A:
x1  37,900 km, s1  5,100 km
Marca B: . Utilizar α=0.05.
x 2  39,800 km, s 2  5,900 km

239
Suponer poblaciones distribuyéndose aproximadamente normal.
Probar Ho: σ1=σ2 en contra de la alternativa Ha: σ1<σ2

Solución:
1. σ12 y σ22 varianzas de la Marca A y B respectivamente.
2. Ho: σ12=σ22
3. Ha: σ12<σ22
4. =0.10
5. f=s12/s22
6. Región de rechazo:
<
f F1 ,  ,  F0.95, 10, 10  1/ F10.95, 10,10  1/ F0.05,10,10  1/ 2.98  0.336
1 2

7. f= (5,100)2/(5,900)2=0.747
8. Decisión: 0.747>0.336, no rechazamos Ho. Conclusión: La desviación estándar de la
marca A no es menor que la de B, en un nivel de 0.05.

240
PYE115 UES-FIA RESUMEN DE PROCEDIMIENTOS PARA LA PRUEBA DE HIPÓTESIS

______________________________________________________________________________________________________________
Caso Hipótesis Nula Estadístico de Prueba Hipótesis Alterna Región de Rechazo
______________________________________________________________________________________________________________
1. Ho: μ=μo Ha: μ>μo z≥zα
Suponiendo normalidad Ha: μ<μo z≤-zα
x  o
z
/ n
σ conocida Ha: μ≠μo z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
2. Ho: μ=μo Ha: μ>μo z≥zα
σ desconocida y s conocida; Ha: μ<μo z≤-zα
x  o
z
s/ n
n>40; muestras grandes Ha: μ≠μo z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
3. Ho: μ=μo Ha: μ>μo t≥tα, ν
suponer normalidad Ha: μ<μo t≤-tα, ν
x  o
t
s/ n
σ desconocida y s conocida; Ha: μ≠μo t≥tα/2,ν ó t≤-tα/2, ν
n≤30; muestras pequeñas
______________________________________________________________________________________________________________
4. Ho: p=po Ha: p>po z≥zα
muestras grandes siempre que Ha: p<po z≤-zα
p̂  p o
z
poq o / n
npo≥10 y nqo≤10 Ha: p≠po z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
5. Ho: σ2=σo2 Ha: σ2 > σo2 χ2≥χ2α, ν
Ha: σ2 < σo2 χ2 ≤ χ2 1- α, ν
( n  1)s 2
2 
o2
Ha: σ2 ≠ σo2 χ2 ≥ χ2 α/2, ν ó χ2 ≤ χ2 1- α/2, ν
______________________________________________________________________________________________________________
______________________________________________________________________________________________________________
6. Ho: μ1-μ2=0 Ha: μ1-μ2>0 z≥zα
varianzas conocidas Ha: μ1-μ2 < 0 z≤-zα
x1  x 2
z
12 / n1  12 / n 2
poblaciones normales Ha: μ1-μ2 ≠ 0 z≥zα/2 ó z≤-zα/2
______________________________________________________________________________________________________________
7. Ho: μ1-μ2=0 Ha: μ1-μ2>0 z≥zα
σ12 y σ22 desconocidas Ha: μ1-μ2 < 0 z≤-zα
muestras grandes Ha: μ1-μ2 ≠ 0 z≥zα/2 ó z≤-zα/2
x1  x2
z
s12 / n1  s22 / n2
n1 >40 y n2 >40
8. Ho: μ1-μ2=0 Ha: μ1-μ2>0 t≥tα, ν
suponer normalidad Ha: μ1-μ2 < 0 t≤-tα, ν
x1  x2
t
s12 / n1  s22 / n2
σ12 ≠ σ22 desconocidas Ha: μ1-μ2 ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
muestras pequeñas; n1≤30, n2≤30;
( s12 / n1  s 22 / n 2 ) 2

( s12 / n1 ) 2 ( s 22 / n 2 ) 2

n1  1 n2  1
9. Ho: μ1-μ2=0 Ha: μ1-μ2>0 t≥tα, ν
suponer normalidad Ha: μ1-μ2 < 0 t≤-tα, ν
x1  x2
t
s p 1 / n1  1 / n2
2 2
σ1 = σ2 Ha: μ1-μ2 ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
 n1  1  2  n2  1  2
s 2p   s1  
  n  n  2  s2

 n1  n2  2   1 2 
muestras pequeñas; n1≤30, n2≤30

______________________________________________________________________________________________________________
10. Ho: µD=0 Ha: μD>0 t≥tα, ν
suponer normalidad Ha: μD< 0 t≤-tα, ν
d
t
sD / n
muestras pequeñas n≤30 sD: desviación Ha: μD ≠ 0 t≥tα/2, ν ó t≤-tα/2, ν
estándar de las
(Datos en pares) diferencias
______________________________________________________________________________________________________________
11. Ho: p1-p2=0 Ha: p1-p2 >0 z≥zα
muestras grandes Ha: p1-p2 <0 z≤-zα
pˆ1  pˆ 2
z
1 1 
pˆ qˆ   
 n1 n2 
Ha: p1-p2 ≠ 0 z≥zα/2 ó z≤-zα/2
pˆ  x1  x2  /  n1  n2 
12. Ho: σ12 = σ22 Ha: σ12 > σ22
f  F ,  1 ,  2
poblaciones normales f=s12/s22 Ha: σ12 < σ22
f F1  ,  1 ,  2
2 2
Ha: σ1 ≠ σ2 ó
f  F / 2,  1 ,  2 f F1  / 2, 1 ,  2

______________________________________________________________________________________________________________

PRUEBAS RELACIONADAS CON UNA PROPORCION: MUESTRAS PEQUEÑAS

Para probar la hipótesis


Ho: p=po
Ha: p<po

Se utiliza la dp binomial para calcular el valor

P=P(X≤x cuando p=po)=B(x; n, po)


Donde el valor x es el número de éxitos en la muestra de tamaño n. Si P≤α, la prueba es significativa con un nivel α y se rechaza Ho
favoreciendo Ha. Análogamente, para probar la hipótesis

Ho: p=po
Ha: p>po

con un nivel de significancia α, se calcula

P=P(X≥x cuando p=po)=1-B(x-1, n, po)

y se rechaza Ho a favor de Ha si P es menor o igual que α.

Finalmente, para probar la hipótesis


Ho: p=po
Ha: p≠po
con un nivel de significancia α, se calcula

P=2P(X≤x cuando p=po)=2B(x; n, po) si x<npo

ó P=2P(X≥x cuando p=po)=21-B(x-1; n, po) si x>npo

rechazando Ho en ambos casos si P es menor o igual que α.

También podría gustarte