Probabilidad y Estadistica

Departamento de Ingeniería de Sistemas
Curso de preparación para el ingreso a la

Maestría, 2016-1
Probabilidad y Estadística
Dra. Isabel Patricia Aguilar Juárez

M.I. Ann Godelieve Wellens
M.I Francisca Irene Soler Anguiano
SOBRE LAS AUTORAS
Isabel Patricia Aguilar Juárez
La doctora Patricia Aguilar es actuaria por la Facultad de Ciencias de la

Universidad Nacional Autónoma de México, así como maestra en investigación de
operaciones y doctora en ingeniería en el área de optimación financiera en la
Facultad de Ingeniería de la misma universidad. Desde hace veintiseis años es
profesora de carrera de tiempo completo en la misma Facultad de Ingeniería. Fue
coordinadora de Probabilidad y estadística y Métodos numéricos y jefa del
departamento de cálculo de la División de Ciencias Básicas. Asimismo, en el 2014
fue galardonada con el premio Sor Juana Inés de la Cruz, como reconocimiento a
su trayectoria académica dentro de la UNAM.
Ha impartido más de 20 materias en ciencas básicas, licenciatura y maestrías de

Ingeniería, relacionadas con la probabilidad y estadística, optimación financiera y
la investigación de operaciones. Asimismo, ha dirigido tesis tanto de licenciatura y
maestría en los mismos campos de especialización; ha formado parte de más de
60 jurados de examen profesional de licenciatura y maestría. Es coautora del libro
Matemáticas Aplicadas a las Ciencias de la Tierra (Facultad de ingeniería, 2010), y
ha presentando ponencias en foros nacionales e internacionales. La doctora
Aguilar ha participado en la impartición de más de 10 cursos de actualización para
personal docente y más de 6 diplomados; asimismo, ha sido profesora invitada del
módulo de Probabilidad y Estadística por la Universidad Panamericana campus
Bonaterra. Además, ha sido ponente invitada, miembro de un Comité Académico
de selección de candidatos mexicanos a becas y árbitro de ponencias para
congresos. Actualmente es Profesora de Carrera Titular B de tiempo completo en
la División de Ciencias Básicas de la Facultad de Ingeniería.
Ann G. Wellens
La maestra Ann Wellens terminó sus estudios de ingeniería química industrial en

la Escuela Superior Industrial “Groep T” de Lovaina, Bélgica, en 1988. En 1989
terminó un posgrado en administración industrial en la Universidad Católica de
Lovaina, Bélgica, y se graduó con mención honorífica de la maestría en ingeniería
ambiental en la División de Estudios de Posgrado de la Facultad de Ingeniería,
UNAM, en 1993, en donde obtuvo la medalla Gabino Barreda por el mejor
promedio de su generación. Desde 1994 forma parte del personal académico de la
Facultad de Ingeniería de la UNAM, contando con una trayectoria académica de
15 años. En 2000 ha sido invitada a realizar una estancia académica de 6 meses
en la Universidad Técnica de Brandenburg en Cottbus, Alemania, dentro del
programa de estudios Bachelor and Master in Environmental Resource
Management. Actualmente es Profesora Asociado “C” Definitivo de Tiempo
Completo en el Departamento de Sistemas.
Desde su ingreso en el Posgrado en Ingeniería ha impartido más de 15 materias
diferentes, en su mayoría relacionadas con probabilidad, estadística,
contaminación atmosférica y contaminación ambiental. Es autora o coautora de
artículos en revistas internacionales arbitradas y en memorias de congresos, así
como coautora de 9 informes de proyectos a patrocinadores. Ha dirigido 8 tesis de
maestría y ha participado en el jurado de alrededor de 25 trabajos de tesis de
licenciatura, especialidad y maestría. Ha sido invitada a impartir varios seminarios
y cursos relacionados con la contaminación atmosférica y la aplicación de la
estadística en la ingeniería ambiental. Ha participado en revisiones de libros,
artículos, planes de estudio y normas oficiales.
Francisca Irene Soler Anguiano
La maestra Soler estudió la licenciatura en Química de la Universidad de Sonora,

y la Maestría en Ingeniería ambiental de la División de Posgrado Facultad de
Ingeniería, UNAM. Actualmente es profesora titular definitivo en le Departamento
de Sistemas de la División de Ingeniería Mecánica e Industrial. Ha participado
como ponente en 17 cursos o diplomados extracurriculares relacionados con
simulación de riesgos industriales, gestión y planeación ambiental y estadística.
Asimismo, es autora o cautora de 20 trabajos presentados en congresos
nacionales e internacionales y 6 reportes de investigación. Ha tomado cursos
relacionados con docencia, diseño de experimentos, riesgos, etc. Ha sido
responsable y/o corresponsable en 17 proyectos de investigación y de docencia.
Fue consejero técnico en le período 2000-2006. Ha participado en el comité de
revisores de la revista IMP, así como en un grupo de trabajo para la revisión de
normas ambientales. Ha colaborado en la especialización en seguridad de
instalaciones industriales de explotación petrolera y ha sido consultor externo de la
Organización Panamericana de la Salud (OPS) y Organización Mundial de la
Salud (OMS)
Desde su ingreso en la UNAM, la maestra soler ha dirigido más de 28 tesis, la

mayoría de ellos en posgrado. Asimismo, ha impartido cursos en la licenciatura y
el posgrado de ingeniería en la UNAM, incluyendo Estadística avanzada,
Confiabilidad, Diseño de experimentos, Evaluación de riesgo y Probabilidad y
estadística.
Índice
Capítulo 1: Estadística descriptiva 1
1.1. Tipos de datos 1

1.2. Muestreo 2
1.3. Distribución de frecuencias 3
1.4. Descripción gráfica de los datos 7
1.4.1. Histograma de frecuencias 7
1.4.2. Polígono de frecuencias 8
1.4.3. Ojiva 9
1.5. Medidas descriptivas 10
1.5.1. Medidas de tendencia central 11
1.5.2. Medidas de dispersión 14
Capítulo 2: Experimentos aleatorios 18
2.1. Definiciones 18
2.2. Espacio muestral o espacio de resultados 18
2.3. Eventos aleatorios 19
Capítulo 3: Teoría de probabilidades 20
3.1. Definiciones de probabilidad 20

3.1.1. Definición clásica 20
3.1.2. Definición en términos de frecuencia relativa 22
3.1.3. Definición subjetiva 23
3.1.4. Axiomas de probabilidad 23
3.2. Probabilidad condicional 24
3.3. Independencia de eventos 24
3.4. Teorema de Bayes 25
Capítulo 4: Variables aleatorias discretas y continuas 28
4.1. Definición 28
4.2. Distribución de probabilidad 31
4.2.1. Variables aleatorias discretas 31
4.2.2. Variables aleatorias continuas 37
4.3. Función de distribución 40
4.4. Parámetros de una variable aleatoria 46
Capítulo 5: Modelos probabilísticos 48

5.1. Experimento de Bernoulli 48
5.2. Distribución Binomial 48
5.3. Distribución Poisson 53
5.4. Distribución exponencial 55
5.5. Distribución normal 58
5.6. Distribución normal como límite de la distribución binomial 63
Capítulo 6: Elementos de inferencia estadística 65
6.1. Teorema del límite central 65

6.2. Estadísticos 66
6.3. Distribuciones de muestreo 66
6.4. Concepto del intervalo de confianza 77
6.5. Concepto de la prueba de hipótesis 79
6.6. Concepto de pruebas de bondad de ajuste 84
Anexo A Tabla de distribución normal 89

Anexo B Tabla de distribuciones de los estadísticos de uso más común 91
Anexo C Tabla de valores críticos de la distribución del estadístico Dn 92
Bibliografía 93
Capítulo 1
Estadística descriptiva
La estadística descriptiva es un conjunto de técnicas que tienen por objeto organizar y

presentar de manera conveniente para su análisis, la información contenida en una
muestra. Existen básicamente tres tipos de técnicas:
- Distribución de frecuencias (agrupamiento de datos)

- Gráficas (pie, barras, poligonales, etc)
- Parámetros numéricos
La estadística descriptiva, en general es bastante sencilla, aunque no por ello deja de ser
interesante y sobre todo importante. Es así que si a través de la estadística buscamos
obtener conclusiones acerca de toda una población a partir de la información contenida
en una muestra, parece claro que no es posible hacerlo si no somos capaces
primeramente de describir el comportamiento del conjunto de datos que tenemos a la
mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo desconocido,
si no somos capaces de describir y analizar primero lo que sucede con lo que sí
conocemos. De ahí la importancia de la estadística descriptiva.
Como se mencionó antes, la estadística descriptiva es un conjunto de técnicas, pero cabe

aclarar que dichas técnicas no son excluyentes sino complementarias, sin embargo no
siempre es posible utilizarlas todas, las técnicas utilizables en cada caso dependen del
tipo de datos que se desee manejar.
1.1. Tipos de datos
Por lo mencionado anteriormente, es necesario entonces identificar entre datos

cualitativos y cuantitativos.
Los datos cualitativos se refieren, como su nombre lo dice, a información sobre

cualidades o características del experimento, más que a valores numéricos.
Para describir datos cualitativos lo usual es utilizar métodos gráficos, ya que por las
características de las otras técnicas, no es posible aplicarlas con ese tipo de información.
Los datos cuantitativos, son datos numéricos y para analizarlos pueden aplicarse los
tres tipos de técnicas mencionadas anteriormente. En este caso, como se dijo antes, las
1
metodologías se complementan para lograr una mejor y más amplia descripción del
conjunto de datos.
Describiremos a continuación cada una de las técnicas de la estadística descriptiva.
1.2. Muestreo
Las investigaciones experimentales en ingeniería y ciencias implican el empleo de datos

experimentales – una muestra – para inferir el comportamiento de la población de la que
dicha muestra fue sustraída. Para describir, el comportamiento aleatorio de dicha
población es necesario conocer, al menos en forma aproximada, cuál es su distribución y
sus principales parámetros, tales como la media µX y la varianza � , mismos que en
muchos casos son desconocidos, por lo que se opta por estimarlos, usando para ello las
herramientas de que dispone la estadística inferencial.
La forma de seleccionar una muestra de una población tiene importancia vital porque los
datos de la muestra observada no podrán inferir las características de la población
muestreada, a menos que la muestra sea una colección de datos representativa de la
población completa, es decir, una muestra que contenga información de todas los
posibles estratos o conglomerados de la población, en caso de que la población esté
conformada por varios grupos de elementos, con características similares entre sí aunque
distintas entre grupos diferentes.
Dada entonces la diversidad de conformaciones de las poblaciones, existen diferentes

formas de realizar la selección de la muestra, entre las cuales podemos encontrar el
muestreo aleatorio simple, utilizable cuando la población está formada por un estrato
único, y que consiste en seleccionar elementos de la población de modo que cada
elemento de ella tenga la misma probabilidad de ser seleccionado. El número de
elementos a seleccionar corresponderá al tamaño deseado de la muestra.
La obtención de muestras aleatorias mediante muestreo aleatorio simple, se consigue

generalmente a través del empleo de tablas de números aleatorios o generadores de
números aleatorios programados en computadoras y calculadoras. No obstante, vale la
pena aclarar que cualquiera de estas formas de generación, produce series de números
pseudo-aleatorios, pero no propiamente aleatorios, puesto que provienen de un valor
inicial llamado semilla y son generados mediante alguna “fórmula” matemática, que puede
ser más o menos complicada, por lo que, conociendo el número inicial y la expresión de
generación, es posible predecir cuál será el número siguiente, lo cual implica que no hay
aleatoriedad. Sin embargo, estos números pseudo-aleatorios son suficientes para
seleccionar una muestra representativa de la población aleatoria.
Dentro del muestreo aleatorio, se tiene que distinguir entre muestreo con y sin reemplazo.
Cuando se efectúa un muestreo en una población de tal manera que cada elemento de la
misma se pueda escoger más de una vez (es decir, regresando cada elemento a la
población, después de haber sido seleccionado en la muestra), se dice que el muestreo
2
es con remplazo; en caso contrario, el muestreo es sin reemplazo. Si, por ejemplo, se
quiere extraer de un lote de producción una muestra de productos terminados para ver si
son defectuosos o no, se puede hacer esto de dos formas: Se selecciona al azar un
producto, se anota si es defectuoso o no y se regresa al lote antes de obtener otra, y así
sucesivamente (muestreo con remplazo, MCR). También se pueden extraer al azar todos
los productos que constituyen la muestra sin regresarlos al lote (muestreo sin remplazo,
MSR).
En los casos en los que la población tiene una composición diferente a la de un solo
grupo o estrato, será necesario utilizar métodos distintos de muestreo, tales como el
muestreo estratificado o el muestreo por conglomerados, entre otros. Cabe decir, que
muchos de estos tipos de muestreo más especializados son muy comunes en situaciones
tales como la realización de encuestas para estimar la tendencia de voto en el caso de
elecciones, o en estudios de opinión para verificar el grado de aceptación o rechazo de un
producto o de alguna política propuesta o establecida, y suelen estar basados en el
muestreo aleatorio simple, mencionado antes.
1.3. Distribución de frecuencias
La construcción de tablas de distribución de frecuencias es una técnica muy usual en la

estadística ya que hace más eficiente el análisis de conjuntos grandes de datos puesto
que constituye un resumen de la información realizado de manera consistente y
ordenada, lo cual permite reducir la pérdida de información al hacer la agrupación.
Definición:
Una tabla de distribución de frecuencias es una clasificación de los datos

(necesariamente numéricos) en clases o categorías de acuerdo a sus valores.
Existen diversas técnicas de construcción de tablas de distribución de frecuencias,

aunque todas ellas producen tablas similares. Ante tal situación, adoptaremos una de las
técnicas existentes que al tiempo que es sencillo produce resultados confiables.
Este tipo de clasificación es común en la presentación de datos económicos censales, por

ejemplo.
Ejemplo 1.3.1
Un ejemplo típico de una tabla de distribución de frecuencias es la que se muestra a

continuación.
3
Frecuencia
Límites de Marcas Frecuencia Frecuencia relativa
clase de clase Frecuencia relativa acumulada acumulada
xi fi fi* Fi Fi*
-2 ≤ x < 7 2.5 2 0.050 2 0.050
7 ≤ x < 16 11.5 4 0.100 6 0.150
16 ≤ x < 25 20.5 7 0.175 13 0.325
25 ≤ x < 34 29.5 14 0.350 27 0.675
34 ≤ x <43 38.5 8 0.200 35 0.875
43 ≤ x < 52 47.5 5 0.125 40 1.000
40
Como se puede observar, de acuerdo con la técnica de construcción adoptada, una tabla
completa de distribución de frecuencias consta de seis columnas cuyo contenido se
explicará enseguida.
Si aceptamos que en la construcción de una tabla de distribución de frecuencias se

realizará una clasificación de los datos, resulta claro que es indispensable contar,
primeramente, con el criterio de clasificación a utilizar, mismo que se define a través de
los límites de clase.
Límites de clase: Son los valores que definen el criterio de clasificación. Cualquier dato
que se encuentre en el intervalo indicado, pertenecerá a la clase en cuestión. Los límites
de clase tendrán la misma aproximación que los datos y el límite superior de una clase
coincidirá con el límite inferior de la clase siguiente de manera que no haya huecos entre
una clase y otra, pero tampoco traslapes entre clases distintas.
Marca de clase (xi): Es el punto medio del intervalo de clase y se considera representativo
de los datos en dicha clase. La marca de clase se determina como el promedio de los
límites de una clase, es decir, la suma de los límites superior e inferior dividida entre dos.
Frecuencia (fi): Es el número de datos en la muestra que corresponden a la clase en

cuestión. Para determinar la frecuencia de una clase, basta con realizar un conteo del
número de observaciones en la muestra, que se encuentran en el rango determinado por
los límites de clase.
Frecuencia relativa (fi*): Es la proporción de los datos en la muestra que pertenecen a la

clase en cuestión. Si denotamos por n al número de datos en la muestra y a i como el
número de la clase, la frecuencia relativa se expresa como sigue:
4
n f i
* fi = fi
fi =
i
Frecuencia acumulada (Fi): Es el número de datos en la muestra cuyo valor es menor que
el límite superior de la clase en cuestión. Para calcular Fi basta contabilizar las
frecuencias observadas en la clase de interés y las anteriores, es decir,
f
i
Fi =
j 1
j
Frecuencia relativa acumulada (Fi*): Es la proporción de los datos en la muestra que son
menores que el límite superior de la clase en cuestión.
n f i
* Fi = Fi
Fi =
i
Lontigud de la clase: Se denota por c y es la diferencia entre el límite superior y el inferior

de la clase.
Para la construcción de una tabla de distribución de frecuencias es conveniente tomar en

consideración las siguientes recomendaciones empíricas:
1.- El número de clases que se construirán será m ≈ √� .

2.- Todas las clases serán de la misma longitud.
Ejemplo 1.3.2
Considere los siguientes números de inscripción de algunos estudiantes de la Facultad de

Ingeniería.
1045 802 2265 120 639 1882 210 120

230 784 847 1123 1249 526 1370 1767
193 491 1029 1305 923 1313 2772 1465
460 3073 2002 933 985 1565 947 1303
1706 650 55 531 2181 2004 5308 1800
445 415 1400 946 1703 2039
5
Construir una tabla de distribución de frecuencias para dichos datos:
Solución:
Para que la tabla que se construya se pueda considerar adecuada para analizar los datos,
se requiere que contenga a todos los datos en la muestra. Así, es necesario conocer el
rango en el que se encuentran los datos, para lo cual se tiene la siguiente definición:
Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la

muestra.
Rango: 5,308 - 55 = 5,253

m≈√ = . . Tomemos m ≈ 7
c ≈ rango / m = 5,253 / 7 ≈ 750.429
De acuerdo con estos valores para m y c. cada uno decidirá de manera personal, la
longitud de clase que resulte más conveniente para su problema particular, considerando
que si c decrece, el análisis será más preciso pero menos eficiente, pues el número m de
clases aumentará.
En nuestro caso consideremos c = 750.
A continuación se deberá decidir cuál será el límite inferior de la primera clase. Este límite
es conveniente que sea un valor un poco inferior al dato menor de la muestra. Sea 50 el
límite inferior de la primera clase, la tabla resultante será la que se muestra:
Límites Marcas de Frecuencia Frecuencia Frec. Acum.

Frecuencia
Inferior Superior clase relativa acumulada relativa
50 800 425 15 0.326 15 0.326
800 1550 1175 17 0.370 32 0.696
1550 2300 1925 11 0.239 43 0.935
2300 3050 2675 1 0.022 44 0.957
3050 3800 3425 1 0.022 45 0.978
3800 4550 4175 0 0.000 45 0.978
4550 5300 4925 0 0.000 45 0.978
5300 6050 5675 1 0.022 46 1.000
46
Tabla 1. Tabla de distribución de frecuencias de los números de inscripción.
1.4. Descripción gráfica de los datos
6
Generalmente, cuando se desea hacer una presentación clara de un conjunto de datos,
se elige una forma gráfica. Así, se acostumbra presentar gráficamente los resultados de
una compañía, se hacen gráficas comparativas de las utilidades de una empresa, se
hacen gráficas que muestren la composición de una población (%de hombres adultos, %
de mujeres adultas, %de niños), etc.
En realidad para la mayoría de las personas es más claro comprender cuál es el

comportamiento de un conjunto de datos si éste se presenta de manera gráfica, que si se
muestra únicamente a través de valores numéricos. Por ello, existen una gran variedad de
gráficas, sin embargo utilizaremos solamente algunas de ellas.
1.4.1. Histograma de frecuencias
Es una gráfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribución de frecuencias y sus áreas representan las frecuencias
absolutas o relativas correspondientes. Nótese que de acuerdo con esta definición no se
requiere más de un eje, en el cual se identificarán las marcas de las clases que se hayan
construido.
Vale la pena mencionar que ésta es sólo una de las construcciones posibles o conocidas
que tiene la ventaja de que permite encontrar fácilmente la similitud entre el histograma de
frecuencias relativas, y el histograma de probabilidad que se construye en probabilidad
para las funciones de probabilidad. Por otro lado, se mantiene la concepción de la
probabilidad de un evento como área, lo cual puede facilitar la comprensión del concepto
de función de densidad en el caso de variables aleatorias continuas.
A continuación en la Ilustración 1 se muestra el histograma de frecuencias absolutas para

los datos del ejemplo
17
15
11
1 1 0 0 1
5675 1175 1925 2675 3425 4175 4925 5675

Marcas de clase
.
Ilustración 1 Histograma de frecuencias absolutas
También es común trazar el histograma de frecuencias en una gráfica con dos ejes. Esta
forma de construcción puede ser más sencilla pues se puede considerar que la frecuencia
7
de clase es la altura de la barra correspondiente. Por otro lado, esta forma será la elegida
si se desea trazar el histograma de frecuencias utilizando algún software o dispositivo
que posea una aplicación de trazado de gráficas. El resultado de esta construcción se
muestra en la Ilustración 2.
20
15
Frecuencias
10
17
15
5 11
1 1 0 0 1
0
5675 1175 1925 2675 3425 4175 4925 5675
Marcas de clase
Ilustración 2 Histograma de frecuencias con dos ejes
1.4.2. Polígono de frecuencias
Es una gráfica poligonal que representa para cada marca de clase la frecuencia de dicha
clase y se construye uniendo mediante líneas rectas, los puntos medios de las bases
superiores de las barras del histograma de frecuencias. Es claro que tampoco se requiere
trazar más que un eje, para hacer la gráfica del polígono de frecuencias.
Como caso particular en la Ilustración 3 se presenta a continuación la gráfica del polígono
de frecuencias de los datos del ejemplo anterior.
5675 1175 1925 2675 3425 4175 4925 5675

Marcas de clase
Ilustración 3 Histograma y Polígono de frecuencias
8
De la misma manera que el histograma, existe una forma alternativa de realizar la gráfica
del polígono de frecuencias, simplemente agregando un eje vertical en la gráfica por lo
que ya no requiere el histograma. Observe la Ilustración 4.
Polígono de Frecuencias
20
Frecuencias 15
10
0
5675 1175 1925 2675 3425 4175 4925 5675
Marcas de clase
Ilustración 4 Polígono de frecuencias con dos ejes
1.4.3. Ojiva
Es una gráfica poligonal que representa para cada límite de clase la frecuencia
acumulada o la frecuencia acumulada relativa hasta dicho límite. Cuando la que se
representa es la frecuencia acumulada relativa se le llama ojiva porcentual. A diferencia
de las gráficas anteriores, para trazar esta gráfica sí es indispensable contar con los dos
ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas, sino
solamente la escala utilizada en el eje de las ordenadas, al trazarlas. La ojiva porcentual
es, además, una aproximación a la gráfica de la función de distribución de la variable
aleatoria que represente a la población.
Ejemplo 1.4.3.1
Considere la siguiente tabla de distribución de frecuencias. Trace la ojiva correspondiente.
Límites xi fi Fi fi* Fi*

26.95 - 29.95 28.45 2 2 0.067 0.066
29.95 - 32.95 31.45 3 5 0.100 0.167
32.95 - 35.95 34.45 9 14 0.300 0.467
35.95 - 38.95 37.45 5 19 0.167 0.633
38.95 - 41.95 40.45 2 21 0.067 0.700
41.95 - 44.95 43.45 4 25 0.133 0.833
44.95 - 47.95 46.45 3 28 0.100 0.933
47.95 - 50.95 49.45 1 29 0.033 0.967
50.95 - 53.95 52.45 1 30 0.033 1.000
9
30
35 30
28 29
Frecuencia Acumulada 30 25
25 21
19
20
14
15
10 5
5 2
0
0
26.95 29.95 32.95 35.95 38.95 41.95 44.95 47.95 50.95 53.95
Límites de clase
Ilustración 5 Ojiva
Desde luego es posible ya, mediante la tabla de distribución de frecuencias y las gráficas
hacer cierta descripción del comportamiento de los datos en la muestra, pero conviene
estar consciente de que sabemos que las gráficas pueden mentir, en el sentido de que
simplemente con un cambio de escala, variaciones tal vez pequeñas se pueden
amplificar y otras tal vez grandes podrían minimizarse, en tanto que algunos valores
característicos de la muestra solamente podrían obtenerse de manera aproximada, esto
significa que una representación gráfica puede no ser lo precisa que uno desearía. Por lo
anterior, además de una gráfica requerimos obtener valores que sean representativos del
comportamiento de los datos y que dependan únicamente de dichos datos. A estos
valores se les llama "parámetros numéricos" y se utilizan para ayudar a describir el
comportamiento de la muestra con mayor precisión.
1.5. Medidas descriptivas
Los parámetros numéricos o medidas descriptivas de una muestra son valores

representativos y descriptivos del comportamiento de los datos. Por el tipo de información
que proporcionan se clasifican de la siguiente manera:
- Medidas de tendencia central

- Medidas de dispersión
- Parámetros de forma
Presentaremos solamente los parámetros numéricos que más comúnmente se utilizan.
10
1.5.1 Medidas de tendencia central
Las medidas de tendencia central son valores que se encuentran dentro del rango de
la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados y en general tampoco se ubican en el centro del rango, solamente están
en el interior del mismo. Entre las medidas de tendencia central más usuales están la
media aritmética, la mediana y la moda, que estudiaremos a continuación.
i. Media aritmética
La media aritmética es probablemente la medida de tendencia central de uso más

generalizado, se denota por x (es muy importante que la x sea minúscula, ya que
la mayúscula se utilizará más adelante para denotar algo diferente) y se define de
la siguiente forma:
a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran sin

agrupar, entonces
 xi
n
x = i =1
n
donde n es el tamaño de la muestra.
Nótese que la expresión corresponde a la definición que conocemos para el

promedio aritmético de un conjunto de datos.
b) Si los datos se encuentran agrupados en una tabla de distribución de frecuencias,

y utilizamos el mismo concepto que para los datos sin agrupar, se define la media
aritmética como:
 xi f i
m
=  x i f *i , puesto que
m fi
x= 1i= = f *i
n i=1 n
en donde
m es el número de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i
ii. Mediana
Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual

tamaño, es decir, es aquel valor para el cual existen el mismo número de datos
11
menores o iguales a él que mayores o iguales a dicho valor. En otras palabras, la
mediana es aquel valor para el cual el 50% de los datos son menores o iguales a
él.
I. Para calcular la mediana de la muestra cuando los datos no se encuentran

agrupados en una tabla de distribución de frecuencias, se deben seguir los
siguientes pasos:
1.- Se ordenan los datos en forma creciente ó decreciente.
2.- Una vez ordenados se tienen dos casos:

a. Si el número de datos es impar, la mediana es el valor central; aquel que
se encuentre en el lugar (n+1)/2 en la ordenación. Esto es:
~
x = x n1
2
b. Si el número de datos es par, la mediana será el promedio de los dos

datos centrales en la ordenación, es decir, de los datos que se encuentren
en los lugares n/2 y (n/2) + 1.
xn + xn
+ 1
~
x = 2 2
Ejemplo 1.5.1.1
En un proceso de manufactura, se observa el número de veces al mes que se detiene el

proceso durante un período de un año, debido a fallas mecánicas de la maquinaria. Los
datos obtenidos son los siguientes: 7, 4, 1, 3, 9, 2, 7, 8, 0, 7, 3, 2. Obtenga la mediana del
número de fallas.
Solución:
1) Ordenando los datos de menor a mayor se tiene:

0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9
2) Dado que el número de datos es par, la mediana será el promedio de los datos que
ocupan los lugares n/2 y (n/2) + 1 en la ordenación, es decir, la mediana será el promedio
de los datos que ocupen los lugares 6 y 7 en la ordenación.
~ 3+4
x = = 3.5
2
II. Si los datos se encuentran agrupados, para obtener la mediana se debe realizar
una interpolación en la ojiva, como se indica a continuación:
12
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe
el nombre de clase mediana.
2.- Trazar la porción de la ojiva correspondiente a la clase mediana.
Límites
~x - Li - n
= F 50% F i ; F 50% =
Li+1 - Li F i+1 - F i 2
n
~x - Li - Fi
= 2
Li+1 - Li F i+1 - F i
n
( - F i )( Li+1 - Li )
x= 2
~ + Li
F i+1 - F i
en donde:
Li es el límite inferior de la clase mediana

Li+1 es el límite superior de la clase mediana
Fi es la frecuencia acumulada hasta Li
Fi+1 es la frecuencia acumulada hasta Li+1
n es el tamaño de la muestra
iii. Moda
Denotaremos a la moda como xmo y es aquella observación que se repite con mayor
frecuencia dentro de la muestra. Puede existir más de una moda en una misma
muestra. Para determinar el valor de la moda a partir de los datos agrupados en una
13
tabla de distribución de frecuencia, se puede utilizar la marca de clase del intervalo
con mayor frecuencia.
Es importante hacer notar que a diferencia de la media aritmética y la mediana, la

moda no necesariamente es un valor único. Esto significa que en un mismo conjunto
de datos, pueden existir varias modas, aunque también puede ser única.
1.5.2 Medidas de Dispersión
Existen varias medidas de dispersión y su objetivo es proporcionar información en

relación con la variabilidad que presenta los datos contenidos en la muestra. Algunas
de estas medidas, en realidad la mayoría de ellas, utilizan como punto de referencia a
la media de los datos, por ser esta última una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los
datos. Las medidas de dispersión nos permitenno solamente describir el
comportamiento de la muestra, sino también validar la representatividad de la media
como medida característica de todo el conjunto de datos.
Algunas de las medidas de dispersión más usuales son el rango, la varianza,
desviación estándar y coeficiente de variación, que se presentan a continuación.
i. Rango
Tal vez la medida de dispersión más simple sea el rango que se definió para
construir la tabla de distribución de frecuencias. Es una medida de dispersión
interesante, ya que proporciona información inmediata acerca de la variabilidad que
tienen los datos entre sí. Como se dijo antes, el rango se define como la diferencia
entre los datos mayor y menor en la muestra, esto es:
Rango = Dato mayor en la muestra - dato menor en la muestra.
Aunque el rango es una medida de dispersión importante, existen otras medidas,

que proporcionan información adicional acerca de dicha variabilidad, algunas de
ellas las definiremos a continuación.
ii. Varianza
Si xi (i=1,2,3,..,n) son los datos de la muestra, se define la varianza de la muestra (s2)
( x - x )
como:
n
2
i
n 1
2
i =1
s =
en tanto que si los datos se tienen en forma agrupada, se calculará la varianza como se
indica a continuación:
14
( x
m
i - x )2 f i
n 1
2
i =1
s =
en donde, nuevamente, m es el número de clases, xi es la marca de la clase i-ésima, y

fi representa la frecuencia de la misma clase.
La varianza presenta el problema de que sus unidades no coinciden con las de los
datos de la muestra, ya que al elevar al cuadrado se obtienen unidades cuadradas,
por lo que su interpretación podría resultar un tanto confusa, sin embargo, la forma
que se ha encontrado de resolver dicho problema de unidades, consiste
simplemente en extraer la raíz cuadrada de dicha medida, con lo cual el resultado se
encontrará en unidades lineales, por tal razón se define la desviación estándar de los
datos.
iii. Desviación estándar
Se define la desviación estándar de una muestra, como la raíz cuadrada de la

varianza y se denota por s. Esto es:
s = s2
iv. Coeficiente de variación
El cálculo del coeficiente de variación permite tener información acerca de la

magnitud de la desviación estándar en relación con la de la media que se utiliza
como punto de referencia. La determinación de este coeficiente de variación evita
tener que referirse a los datos para determinar la magnitud de la variación, pues
dicha referencia ya está inmersa en la medida por su definición.
s
c.v. =
x
Ejemplo 1. 4.2
Una muestra de 20 trabajadores de una Cía. obtuvieron los siguientes salarios, en

unidades monetarias, en un mes determinado: 240000, 240000, 240000, 240000,
240000, 240000, 240000, 240000, 255000, 255000, 265000, 265000, 280000, 280000,
290000, 300000, 305000, 325000, 330000, 340000.
Calcule la media, mediana, moda, varianza, desviación estándar, coeficiente de variación

y rango. Con estos mismos datos, construir una tabla de distribución de frecuencias y
repetir los cálculos de las medidas solicitadas. ¿Qué puede decir acerca de los salarios?
15
Solución
a) Media:
x = [8(240,000)+2(255,000)+2(265,000)+2(280,000)+290,000+300,000+305,000
+ 325,000+330,000+340,000] / 20
x = 270,500
xn +xn
1 255,000 + 265,000
b) Mediana: x~ = 2 2
= = 260,000
2 2
c) Moda = 240,000
( x - x
20
2
i )
i =1
d) Varianza: s 2 = = 1,155,000,000
19
e) Desviación Estándar: s = 33,985.29
s
f) Coeficiente de variación: c.v.= = 0.1256 = 12.56%. Esto es que los datos se alejan
x
de la media un 12.56 % en promedio.
g) Rango= 340,000 – 240,000 = 100,000
h) Construcción de la tabla de distribución de frecuencias.
Rango = 100,000
m≈√ = . usaremos m = 5
c ≈ 100,000 / 5 = 20,000
Límite inferior de la primera clase=235,000
Límites Frec.
Marcas Frecuencia Frecuencia
Frecuencia Acum.
Inferior Superior de clase relativa acumulada
relativa
235,000 255,000 245,000 8 0.400 8 0.400
255000 275,000 265000 4 0.200 12 0.600
275000 295,000 285000 3 0.150 15 0.750
295000 315,000 305000 2 0.100 17 0.850
315000 335,000 325000 2 0.100 19 0.950
335000 355,000 345000 1 0.050 20 1.000
16
x f
20
n
i i
f
i =1 5,480,000
Media : x = n
= = 274,000
20
i
i =1
Moda: Primera marca de clase. xmo = 245,000
 20 
 - 8 (275,000 -
 2 
255,000)
~
Mediana: x = + 255,000 = 265,000
12 - 8
Rango= 100,000
( x -
11
i 274,000 )2 f i
i =1 19,580,000,000
Varianza: s 2 = = =1,030,526,316
19 19
Desviación estándar: s = 32,101.8117
s
c.v. = = 0.11716= 11.716%
x
17
Capítulo 2
Experimentos aleatorios
2.1. Definiciones
• Población: Conjunto de elementos con características comunes. Es un conjunto

de datos referentes a determinadas características de un grupo de individuos u
objetos como, edad, sexo, número de bolígrafos defectuosos, etc.; corresponde
a todos los resultados posibles u observables de un experimento aleatorio.
• Muestra: Es el conjunto de todos los resultados observados del experimento

aleatorio. Subconjunto propio de la población. Es una pequeña parte del grupo.
• Fenómenos determinísticos: Son aquellos que se caracterizan porque al

realizar bajo las mismas condiciones controlables, se obtiene siempre el mismo
resultado.
• Fenómenos aleatorios: Se caracterizan porque al realizarse bajo las mismas

condiciones controlables, pueden presentar resultados distintos y se advierte
una frecuencia de ocurrencia de cada uno de ellos.
• Experimento: Cualquier proceso de observación que conduce a un resultado y

en el cual siempre hay algo de azar.
• Experimentos aleatorios: Son aquellos en los cuáles el resultado no es posible

darlo de antemano al realizar el experimento.
• Ocurrencia o acontecimiento: Se le llama tradicionalmente al resultado de un

experimento aleatorio. También se acostumbra llamarle evento.
2.2. Espacio muestral o espacio de resultados
Asociado siempre a un experimento existe siempre un conjunto probable de resultados

posibles de obtener llamado espacio de resultados, espacio de eventos o espacio
muestra, y se denota con una letra S
S = Espacio de resultados del experimento

(Todas las observaciones viables)
Espacio de resultados Conjunto de todos los

S= Espacio de eventos posibles diferentes
18
Espacio muestral resultados
2.3. Eventos aleatorios
Es un subconjunto cualquiera del espacio S
Ejemplo.
Sea el experimento el lanzamiento de un dado.
S = { 1, 2, 3, 4, 5, 6 }
A = { 1 }  S ; B = { 2 }  S ;  = {}  S ; { 1, 3, 5 }  S
Los eventos constituidos por un solo elemento se denominan eventos simples o

elementales.
Los espacios de eventos se clasifican de acuerdo con el tipo de elementos que

contienen en discretos y continuos.
Finitos
Discretos
Infinito contable
Espacios
muestra
Continuos Infinito no contable
19
Capítulo 3
Teoría de probabilidades
3.1. Definiciones de probabilidad
Al lanzar una moneda no se puede decir con certeza cual cara quedará hacia
arriba. Lo único que se puede asegurar, si la moneda no está cargada, es que
ambas caras tienen la misma oportunidad de salir, es decir que los eventos
simples (cara) y (cruz) tienen la misma probabilidad de ocurrir.
En el lenguaje cotidiano se utiliza como la posibilidad de que ocurra un evento

futuro.
Posibilidad: Que puede ser o ejecutarse

Probabilidad: Asignación de un número a un evento dado
Existen 4 maneras de definir probabilidad

a. Clásica
b. Frecuencial relativa
c. Subjetiva
d. Axiomática
Como ya se dijo, la probabilidad de que ocurra un evento es una medida del grado
de confianza que se tiene de que este ocurra al realizar el experimento
correspondiente.
La teoría de probabilidad estudia el problema de un experimento con diversos

resultados posibles. A cada resultado del experimento se asocia un número
llamado probabilidad. Este número puede definirse con base en alguno de los
conceptos siguientes:
3.1.1. Definición clásica
Si un experimento tiene n resultados distintos e igualmente posibles y nA de esos

resultados favorece la ocurrencia del evento A, entonces la probabilidad del
evento P(A), definido por el atributo “A”, es
nA N° de eventos favorables
P ( A) =
n
N° de eventos posibles
Ejemplo 1:
Se lanza un dado. ¿Cuál es la probabilidad de que el número obtenido sea par?
20
A  resultados par. Estos resultados son tres (2, 4, 6), que presentan esta
característica, por lo tanto al aplicar la ecuación anterior, la probabilidad es:
3 1
P (A) = =
6 3
Esta definición también tiene algunas limitaciones, las cuales son:
No es satisfactoria desde un punto de vista conceptual. En muchos experimentos

no es aceptable considerar que cada evento sea igualmente posible.
En estos experimentos el número de resultados posibles es infinito. Sin embargo

esta definición es útil en ciertos casos (problemas de juego), para la determinación
de la probabilidad asociada a un resultado dado lo cual es un problema de centro,
donde los resultados son clásicos de un análisis combinatorio.
Ejemplo 2:
Calcular aplicando la definición anterior, la probabilidad de que:

Aparezca una reina, el diez de diamantes o el dos de espadas al sacar una carta
de una baraja de 52 elementos.
Para este caso cuantas reinas tiene la carta (4 reinas), más el diez de diamantes
 
(1) y el dos de espadas (1).
B  4  1  1  6 elementos . Aplicando la fórmula de la definición clásica, se

En total el conjunto asignado como “B” tiene los siguientes elementos:
tiene que:
P( B) 
6 elementos o cartas
52 cartas totales
Que se obtenga una suma de 7 al lanzar un dado dos veces. Hay seis formas de
obtener un siete: C =( (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) ), los cuales se
obtuvieron del siguiente espacio muestral:
(1,1), (1,2), (1,3), (1,4), (1,5), (1,6) 

(2,1), (2,2), (2,3), (2,4), (2,5), (2,6)
 
(3,1), (3,2), (3,3), (3,4), (3,5), (3,6) 
 
S  
 
(5,1), (5,2), (5,3), (5,4), (5,5), (5,6) 
( 4,1), ( 4, 2), ( 4,3), ( 4, 4), ( 4,5), ( 4,6)
 
(6,1), (6,2), (6,3), (6,4), (6,5), (6,6) 
 
Entonces la probabilidad obtenida es:
21
6 1
P (C ) = =
36 6
Se obtenga, al sacar 5 cartas de una baraja de 52 elementos 4 aces.
Aplicando la fórmula de combinaciones se tiene:
n
Crn =
( )
n - r !r !
Entonces se tiene lo siguiente al aplicar la ecuación anterior:
C 44C 48
1
48 1
C 525 = 5
= =
C 52 2'598,960 54,245
Se obtengan al sacar 5 cartas de un total de 52 3 dieces y 2 reyes
C 43C 42 1
C 5
52 = 5
=
C 52 108,290
Ningún as al sacar 5 cartas de un total de 52
5
C 48 35,673
5
C 52 = 5
=
C 52 54,145
3.1.2. Definición en términos de frecuencia relativa
Se repite un experimento en número “n” veces y se observa la ocurrencia del

evento “A” con un atributo “A”. El resultado se presenta como n A veces y se define
nA
como su probabilidad P(A), el cual es el límite de la frecuencia cuando “n”
n
crece indefinidamente. Lo anterior se expresa como:
nA
P ( A ) = lim
n ® n
Esta definición es a priori y satisfactoria, ya que permite abordar generalmente el

problema, más que la definición anterior. Sin embargo también tiene algunas
limitaciones, las cuales son:
El número de repeticiones del experimento en la práctica o campo, siempre finita

el límite, siendo un concepto totalmente abstracto. Ciertos experimentos no
22
pueden repetirse o inclusive realizarse, sin embargo se puede asignar una
probabilidad a sus resultados.
Sin embargo, esta definición se aplica mucho en todas las ramas de la ingeniería.
3.1.3. Definición subjetiva
En trabajos de aplicación y campo, es muy común escuchar opiniones como:
“Es probable que la resistencia de este elemento estructural sea menor que X”
Estas opiniones no tienen valor científico, sin embargo reflejan la experiencia del
que habla y pueden tener un contenido valioso. Si se permite asociar
probabilidades a determinados resultados será posible tomarlas en cuenta en el
marco de intervalo de probabilidad. Las conclusiones obtenidas no tendrán más
valor que dichas probabilidades a menos que se agregue información
experimental adicional en cuyo caso la importancia de estas probabilidades “a
priori” se reduce sensiblemente.
Este tipo de probabilidad y de enfocar los problemas constituye la esencia de los
métodos bayesianos, muy de moda en la actualidad.
3.1.4. Axiomas de probabilidad
A cada evento A se asignará un número P(A) que se le llamará probabilidad de A

y que deberá cumplir con los 3 axiomas siguientes:
1. P(S) = 1
2. P(A)  0  0  P(A)  1
es decir, ( A  B = )
3. Si A y B son subconjuntos de S y estos son excluyentes
P(A  B ) = P(A) + P(B)
3´. Si A1 , A2, . . ., An son subconjuntos de S todos excluyentes,
P(A1  A2  . . .  An ) = P(A1) + P(A2) + . . . + P(An)
23
3.2. Probabilidad condicional
Tomando como base lo visto en la sección anterior, se sabe que a todo posible
resultado de un experimento se le puede asociar una probabilidad de ocurrencia.
Si se considera nuevamente el llenado de botellas de ml, se pueden analizar
varios eventos como son: lograr que la cantidad de líquido vertido en cada botella
se encuentre dentro de los límites especificados, = { ; ml < < ml},
que la máquina de llenado se encuentre bien calibrada, que se cumpla con la
producción diaria, etc. Cada evento tendrá una probabilidad de ocurrencia que
dependerá, en principio, de la calidad del proceso de producción. Sin embargo,
resulta claro que la ocurrencia de alguno de estos eventos puede afectar a los
otros, por ejemplo si se sabe que la máquina de llenado está mal calibrada será
menos probable que las botellas contengan la cantidad de líquido esperada, o que
se logré cubrir la producción diaria.
Entonces, la probabilidad de ocurrencia de un evento puede cambiar cuando

existe certeza en la ocurrencia de otro evento . Esta probabilidad es conocida
como probabilidad condicional, se denota como � | y se lee “probabilidad de
dado ”.
La probabilidad condicional, para dos eventos cualesquiera y con � > , se

calcula mediante la siguiente ecuación:
� ∩
� | =
�
Donde
� ∩ denota la probabilidad de que los eventos y ocurran al mismo

tiempo.
3.3. Independencia de eventos
La probabilidad condicional permite reevaluar la probabilidad de un evento

cuando se sabe que un evento ha ocurrido. Sin embargo, en algunas ocasiones
la probabilidad que ocurra el evento no se ve afectada por la ocurrencia de .
Bajo estas condiciones, se tiene la siguiente igualdad:
� | =�
y se dice que los eventos y son independientes. En caso contrario son

llamados dependientes.
De la definición anterior se concluye que dos eventos son independientes si y solo

si cumplen cualquiera de las siguientes condiciones:
24
1) � | =�
2) � | =�
3) � ∩ =� �
En particular, la igualdad del inciso 3 suele usarse de forma inadecuada cuando se

tiene poca práctica en la aplicación de la probabilidad. Por este motivo es
importante remarcar que estas igualdades implican independencia entre eventos,
por lo tanto es incorrecto usarlas cuando no se puede garantizar esta propiedad.
3.4. Teorema de Bayes
El cálculo de la probabilidad condicional lleva a uno de los teoremas más

importantes en el estudio de la probabilidad, conocido como teorema de Bayes.
Sea , , … , � una colección de � eventos mutuamente excluyentes y

exhaustivos con � > para = , , … , �. Entonces para cualquier otro evento
B con � > , se tiene:
�( ∩ ) �( | )�( )
�( | ) = = � = , ,…,�
� ∑= � | ∙�
Donde dos eventos , son mutuamente excluyentes si su intersección es

vacía, ∩ = ∅, y exhaustivos implica que todo posible resultado está contenido
en ⋃�= .
En caso de requerir más información relacionada con el tema de probabilidad se

recomienda revisar autores como por ejemplo Montgomery et al. (2010),
Mendenhall (2007), Wackerly et al. (2002) o Devore (2011).
Ejemplo 3.4.1
Una fábrica de artículos eléctricos recibe un cierto tipo de partes de tres

proveedores conocidos como A, B, C. De acuerdo con las pruebas de calidad que
efectúa la fábrica al recibir cada remesa, se sabe que el 10% de las partes
recibidas de A no satisface las especificaciones, mientras que por parte de B y C
dichos porcentajes son 5% y 8% respectivamente. Ante tal experiencia, la política
de la fábrica ha sido requerir el 20% de los pedidos a A, el 50% a B y el 30% a C.
Una vez recibidas y revisadas las remesas se juntan todas las partes recibidas. Si
se selecciona aleatoriamente una parte de las almacenadas,
a. ¿Cuál es la probabilidad de que cumpla con las especificaciones?
b. Si la parte seleccionada no cumple con las especificaciones, ¿cuál es la
probabilidad de que haya sido vendida por A?
25
Solución:
Definamos los siguientes eventos:

A: La parte seleccionada fue fabricada por A
B: La parte seleccionada fue fabricada por B
C: La parte seleccionada fue fabricada por C
D: El producto seleccionado está defectuoso.
Del enunciado sabemos que P(A) = 0.20 , P(B) = 0.50 , P(C) = 0.30 ,
P(D | A) = 0.10 , P(D | B) = 0.05 , P(D | C) = 0.08
a. P(Dc) = 1 – P(D)
P(D) = P(A) P(D | A) + P(B) P(D | B) + P(C) P(D | C)

= 0.2 (0.1) + 0.5 (0.05) + 0.3 (0.08) = 0.069
P(Dc) = 0.931
b. P(AD) =
  0.2898
P(A) P(D A) 0.20 ( 0.10)
P(C) P(D C)  P(B) P(D B)  P(C) P(D C) 0.069
Ejemplo 3.4.2
En una ciudad determinada, el 30% de las personas son conservadores, el 50%

liberares y el 20% son independientes. Los registros muestran que en unas
elecciones concretas votaron 65% de los conservadores, el 82% de los liberales, y
el 50% de los independientes.
a. Si se selecciona al azar una persona de la ciudad, ¿cuál es la

probabilidad de que haya votado?
b. Si se selecciona al azar una persona de la ciudad y se sabe que no votó
en las elecciones pasadas, ¿cuál es la probabilidad de que sea un
liberal?
Solución
Definamos los eventos siguientes:

A: La persona seleccionada al azar es conservadora.
B: La persona seleccionada al azar es liberal.
C: La persona seleccionada al azar es independiente.
D: La persona seleccionada al azar votó en las elecciones pasadas.
26
a. P(D) = ?
Entonces, P(D) = 0.195 + 0.41 + 0.10 = 0.705
b. P(B | Dc) = 0.09 / 0.295 = 0.305
Esta forma de cálculo se puede visualizar a través de la utilización del

siguiente diagrama de árbol de probabilidades,
D P(D | A) = 0.65 P(A D) = P(A) P(D | A) = 0.195
A P(A) = 0.30
P(A Dc) = P(A) P(Dc | A) = 0.105

Dc P(Dc | A) = 0.35
P(B D) = P(B) P(D | B) = 0.41

D P(D | B) = 0.82
B P(B) = 0.50
Dc P(Dc | B) = 0.18 P(B Dc) = P(B) P(Dc | B) = 0.09
D P(D | C) = 0.50 P(C D) = P(C) P(D | C) = 0.10
C P(C) = 0.20
Dc P(Dc | C) = 0. 5 P(C Dc) = P(C) P(Dc | C) = 0.10
27
Capítulo 4
Variables aleatorias discretas y continuas
Hasta ahora, se han descrito los resultados de interés de un experimento aleatorio

(eventos), en palabras; claramente esto puede dificultar el análisis de algunos
problemas. Es mucho más fácil describir y manipular cuando se utilizan números.
El propósito de la variable aleatoria es, entonces, transformar cada punto de un

espacio muestral en un punto de un eje real, de tal manera que dicha
transformación sea una función.
4.1 Definición
Definición 4.1
Una variable aleatoria (v.a.) es una función definida en un espacio muestral, cuyos
aleatoria X por X : S ® 
valores son números reales. De una manera simple puede denotarse a la variable
En otras palabras una variable aleatoria es una función que asigna números reales
a cada posible resultado de un experimento aleatorio; esto es, es una función cuyo
dominio de definición es el espacio muestral de un experimento y su rango es el
eje real.
Usualmente, se denota a una variable aleatoria utilizando las últimas letras

mayúsculas del alfabeto.
Los valores de la imagen de dicha función, se conocen como valores de la variable

aleatoria y se denotan con la misma letra que la función, pero con minúsculas, y
todos ellos se agrupan en un conjunto llamado rango de la variable.
28
Ejemplo 4.1.1
Considere las familias que tienen dos hijos, si se desea conocer el sexo de los
hijos entonces el espacio muestral es:
S = { ( F, F ),( F , M ),( M , F ),( M , M ) }
Asignar valores de la variable aleatoria a los elementos de este espacio muestral.
Solución
Podrían realizarse varias asignaciones:
Utilizando F para el sexo femenino y M para el masculino.
S = { ( F, F ),( F , M ),( M , F ),( M , M ) }

X : 1 2 3 4
Y : 0 1 2 3
Z : 1 2 2 3
W : 0 1 1 2
etc.
La construcción y significado de una variable aleatoria es arbitraria, pero una forma

adecuada de construirla es hacerlo de tal manera que dicha variable responda a la
pregunta de interés.
En el ejemplo anterior, si nos interesa conocer el número de hijos varones en una

familia, la definición más adecuada de la v.a. es la de W que asocia números
reales de la siguiente manera:
( F , F )®0 ; ( F , M ) , ( M , F ) ®1 ; ( M , M ) ® 2
Ejemplo 4.1.2
En el lanzamiento de dos dados se desea calcular la probabilidad de que la

suma de los resultados de los lanzamientos de los dos dados sea par.
a) Definir el espacio muestral asociado al experimento.
b) Definir una variable aleatoria adecuada para el problema.
c) Calcular la probabilidad de que la suma de resultados de los dos lanzamientos
sea par.
Solución:
29
 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 
 
 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 
 
 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 
S= 
 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 
a)
 
 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 
 
 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6 
b) La definición es la siguiente:
Sea X la variable aleatoria que representa la suma de los resultados
en el lanzamiento de los dados.
Los posibles valores x de X son entonces:
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Esto significa que RX = { 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 }
c) Sea A el evento en el cual la suma de los resultados es par, es

evidente que:
A = { X = 2 , X = 4 , X = 6 , X = 8 , X = 10 , X = 12 }
Por lo que
P (A) = P (X = 2) + P (X = 4) + P (X = 6) + P (X = 8) + P (X = 10) + P ( X = 12 )
1 3 5 5 3 1
P( A )= + + + + +
36 36 36 36 36 36
1
P( A )=
2
Ejemplo 4.1.3
En una ciudad se observa el tiempo transcurre de un sismo a otro, el cual se

representa mediante la v.a. T . Obtener el rango de T .
Solución
Considerando que de un sismo a otro debe de transcurrir algún tiempo, y que no

se sabe cuánto tardará en ocurrir el nuevo sismo, se tiene:
RT = { t  | t > 0 }
30
Como se puede observar en los ejemplos, el rango de una variable aleatoria
puede ser un conjunto discreto (finito o infinito numerable) o continuo (infinito no
numerable). Dependiendo de ello, las variables aleatorias se pueden clasificar
como discretas, continuas o mixtas. Sin embargo, se estudiarán las características
de las discretas y de las continuas, dejando las mixtas como una combinación de
los casos anteriores.
Cuando el rango de la v.a. es un conjunto discreto, la v.a. se llama discreta.

Cuando el rango es un conjunto continuo, entonces la v.a. se dice continua.
4.2 Distribución de probabilidad
4.2.1 Variables aleatorias discretas
Definición 4.2.1.1
Una variable aleatoria se dice discreta si su rango es un conjunto discreto.
Una vez definida una variable aleatoria discreta, la probabilidad de cada uno de los
elementos de su rango queda descrito por una función.
Definición 4.2.1.2
Sea X una v.a. discreta, se define su función de probabilidad1 f X ( x ) 2 como:

fX ( x ) =P ( X = x )
donde f : R X ® [ 0 , 1 ]
Para cualquier función de probabilidad de una v.a. discreta debe cumplirse lo

siguiente:
Propiedades de una función de Probabilidad
1) 0  fX ( x )  1 ,  x
1 También llamada: función masa de probabilidad, o distribución de probabilidad.
2 Es muy común la notación p X (x) , donde se resalta el hecho de que la función proporciona probabilidad. En estas
notas se utiliza la notación f ( x ) para hacer énfasis en que es una función.
X
31
2) f
x
X ( x ) =1
P ( a  X  b )= f
b
3) X ( x )
x = a
Obsérvese la analogía de estas propiedades con los axiomas de la probabilidad.

Para determinar si una función es una función de probabilidad, se deben cumplir
las propiedades anteriores, en particular se deben probar las propiedades 1) y 2).
Ejemplo 4.2.1.1
Considérese el lanzamiento de una moneda. Se desea observar el número

de lanzamientos hasta que "caiga" por primera vez un sol. Obtener una expresión
para la función de probabilidad y verificar que cumple con las primeras dos
propiedades.
Solución
Sea X la v.a. que representa el número de lanzamientos necesarios para

observar por primera vez un sol.
El rango de la v.a. es RX = { 1 , 2 , 3 , 4 , . . . }
1
f X ( 1) = P ( X = 1 ) =
2
1  1 1
 =
2 2 4
fX ( 2 ) =P ( X = 2 ) =
1
fX ( 3 ) =P ( X = 3 ) =
8
En general
  1 x
  
x =1 , 2 , 3 ...
( x )=  2 

fX
 0 en otro caso
Verificando la propiedad (1)

 1 
0    1 ,  x
x
 2 
f
Verificando (2)
Debe cumplirse que X ( x ) =1
x
32


 1 
 
x
x = 1 2 
es decir =1
a r

k -1 a
De la serie geométrica se sabe que: converge a para
1- r
| r | < 1 y diverge para | r |  1, a  0 .
k =1
Relacionando la función de probabilidad con la serie geométrica se tiene

1
que a = 1 , r = .
2
Sólo falta restar el primer término cuando k = 0 , de donde
 
 
 

 1   1 
 
  =    - 1=   - 1= 1
x k -1
1
x = 1 2  k = 1 2 
   1- 
1
 2 
Por lo que sí se satisface la propiedad 2).
Debe observarse con mucho cuidado el hecho de que una vez definida la
v.a., debe poderse obtener el rango de dicha variable, es decir el conjunto de
valores que la variable aleatoria puede tomar; sin embargo el dominio de la función
de probabilidad puede extenderse a todos los reales, para facilitar la notación en
análisis posteriores.
Ejemplo 4.2.1.2
Considérese la v.a. X cuyos posibles valores son 0, 1, 2, 3 y 4; y que tiene

la siguiente función de probabilidad.
x 0 1 2 3 4
fX ( x ) 1 1+ k 1+ 2 k 1+ 3 k 1+ 4 k
6 6 6 6 6
33
a) Determinar el valor de la constante k para que f X sea una función de
probabilidad.
b) Calcular P ( X < 3 ) .
Solución
a) Para que f X sea una función de probabilidad, deben de cumplirse las

propiedades 1 y 2.
Si k > 0 entonces se cumple que f X ( x ) > 0
f
Y por otro lado:
4
1 1+ k 1+ 2 k 1+ 3 k 1+ 4 k
X ( x )= + + + + =1
x = 0 6 6 6 6 6
1
De donde k =
10
b) P ( X < 3 ) =P ( X = 0 ) + P ( X = 1 ) + ( X = 2 )
1 1+ 1
10 1+ 2
10
11
= + + =
6 6 6 20
Los problemas que generalmente resultan más interesantes son aquellos en los
que se debe obtener la función de probabilidad para una variable aleatoria discreta
a partir de un problema en particular.
Ejemplo 4.2.1.3
Al examinar pozos de agua en un distrito respecto a dos impurezas

encontradas frecuentemente en el agua potable, se encontró que el 20% de los
pozos no revelaban impureza alguna, el 40% tenían la impureza A, y el 50% la
impureza B (naturalmente, algunas tenían ambas impurezas). Si se selecciona un
pozo del distrito al azar, obtener la distribución de probabilidad para Y , esto es, el
número de impurezas encontradas en el pozo.
Solución
34
Sea A el evento en el cual se tiene la impureza A, y B el evento en el cual se
tiene la impureza B, entonces:
A Ac Total
B 0.1 0.4 0.5
Bc 0.3 0.2 0.5
Total 0.4 0.6 1
P ( Y = 0 ) = P ( Ac  B c ) = 0.2
De donde
P ( Y = 1 ) = P ( Ac  B ) + P ( A  B c ) = 0.4 + 0.3 = 0.7

P ( Y = 2 ) = P ( A  B ) = 0.1
Por lo que la función de probabilidad es:
y 0 1 2
fY ( y ) 0.2 0.7 0.1
Una función de probabilidad generalmente se puede representar de manera gráfica

utilizando líneas verticales que representan la probabilidad, como se muestra en la
siguiente figura.
Sin embargo, en el presente curso se preferirá la representación como un

histograma, para hacer énfasis en que se trata de una función muy semejante a las
construidas en la Estadística Descriptiva las cuales, en realidad, aproximan a la
función de probabilidad definida en la Probabilidad.
La representación que se utilizará es entonces:
35
Histograma de Probabilidad
0.8
0.6
f (x)
0.4
0.7
0.2
0.2 0.1
0
0 1 2
x
Ejemplo 4.2.1.4
Cuando se encienden, cada uno de los tres interruptores del diagrama

siguiente trabaja en forma correcta con una probabilidad de 0.9 y de manera
independiente de los otros. Si un interruptor trabaja en forma correcta, puede pasar
la corriente por él cuando se enciende. Determinar la distribución de probabilidad
Y , el número de trayectorias cerradas de a a b cuando los tres interruptores se
encienden.
Solución
El rango de la v.a. es RY =  0 , 1, 2 
Definamos a la v.a. Y como el número de trayectorias cerradas de a a b
Sea Si el evento en el cual el interruptor i funciona.

i =1 , 2 , 3
P  Y = 0 = P (S c
1  S2  Sc3 )  (S1  Sc2  Sc3 )  ( S1c  Sc2  Sc3 ) 
=  0.1  0.9  0.1 +  0.9  0.1  0.1 +  0.1  0.1  0.1 
= 0.019
36
 Y =1 = (S  S2  Sc3 )  (S1  Sc2  S3 )  ( S1c  S2  S3 )  ( S1c  Sc2  S3 ) 
 0.9   0.9   0.1  +  0.1  0.1   0.9 
P 1
=3
= 0.252
P  Y =2 = P  S1  S2  S3 =  0.9  0.9  0.9 

= 0.729
Finalmente, la distribución de Y es:
y 0 1 2
fY  y  0.019 0.252 0.729
4.2.2 Variables aleatorias continuas
Definición 4.2.2.1
Una v.a. X se dice continua si su rango es un conjunto continuo.
Las variables aleatorias continuas también tienen una función que proporciona
información sobre la probabilidad de conjuntos de valores de la variable aleatoria,
esta función es la función de densidad o función de densidad de probabilidad.
Definición 4.2.2.2
Sea X una v.a. continua, se define su función de densidad, f X ( x ) , como una

función con las siguientes propiedades:
1) f X ( x )  0  x  RX
 - f X ( x ) d x = 1

2)
P ( a < X < b ) = a f X ( x ) d x
b
3)
A partir de las propiedades de la función de densidad y recordando las

propiedades de la integral definida se obtienen los siguientes resultados:
37
a) P ( X = x )=0
b) P ( a  X  b ) =P ( a < X < b )
En términos simples, dado que la probabilidad de que una v.a. continua tome
valores en un rango dado es el área bajo la función de densidad, las propiedades
de la función de densidad dicen que: (1) la función debe ser no negativa; y (2) que
la probabilidad del espacio muestral debe ser igual a la unidad. De los resultados
debe destacarse el hecho de que la probabilidad de que una variable aleatoria
continua tome exactamente un valor específico cualquiera que este sea, es cero.
Una función de densidad, se representa gráficamente de igual forma que una

función continua en el cálculo.
Debe observarse de la propiedad (3), que para obtener la probabilidad de que una
v.a. esté dentro de cierto intervalo, se integra sobre ese intervalo; recordando la
interpretación geométrica de la integral, se puede decir que la probabilidad
coincide con el "área" bajo la curva f X , de la misma manera que la frecuencia
relativa en la estadística descriptiva, y que la función de probabilidad en el caso
discreto.
Ejemplo 4.2.2.1
El tiempo requerido por los estudiantes para presentar un examen de una

hora es una variable aleatoria con una función de densidad dada por
 c y 2 + y 0  y 1
fY ( y ) = 
 0 en otro caso
38
a) Determinar el valor de c para el cual la función fY (y) es una función
de densidad.
b) Trazar la gráfica de f Y ( y ) .
c) Calcular la probabilidad de que un estudiante termine en menos de
media hora.
d) Dado que cierto estudiante necesita al menos 15 minutos para
presentar el examen, obtener la probabilidad de que necesite al
menos 30 minutos para terminarlo.
Solución
0 ( c y + y ) d y = 1, de donde
1 2
a)
+ =1  c =
c 1 3
3 2 2
b)
1  
P ( 0  Y  0.5 ) = 02  y + y d y = 3
3 2
 2 
c)
16
 
P  Y 
 
1
P  Y 
1
Y   =
1  2  = 0.8455
 4   
d)
P  Y 
2 1
 4 
Ejemplo 4.2.2.2
39
La temperatura de encendido de un interruptor con control termostático de
real X a la cual el interruptor acciona es una variable aleatoria que tiene la función
de densidad de probabilidad
 1 59  x  61
fX  x =  2


 0 en otro caso
a) Ca
la necesaria para que accione el interruptor.
b) Si se utilizan en forma independiente dos de tales interruptores,
calcular la probabilidad de que ambos necesiten que la temperatura
sea mayor
Solución
1
a) P(X > 60) = ∫ =
2
b) Sea Xi la variable aleatoria que representa la temperatura a la cual el
interruptor i se acciona, entonces:
1 59  x i  61
 xi =  2


f Xi para i =1 , 2
 0 en otro caso
por lo que:
 1  1  1
 X1 > 60  X2 > 60 =P  P  =  =
 2  2  4
P X1 > 60 X2 > 60
4.3 Función de distribución
Así como en el caso del análisis de una muestra se consideró importante hacer un
análisis acumulativo a partir de la frecuencia acumulada y la frecuencia acumulada
relativa, en el caso de una variable aleatoria es muy útil el análisis de la forma en
que se va acumulando probabilidad conforme se incrementan los valores del rango
de la v.a. Este análisis se realiza a través de la función de distribución, también
llamada función de distribución acumulativa.
40
Definición 4.3.1
Si X es una v.a., entonces su función de distribución, FX ( x ) se define como

una función que asocia a cada valor real, la probabilidad de que la variable aleatoria
asuma valores menores o iguales que él.
FX ( x ) = P ( X  x )
FX : R X ® [ 0 , 1 ]
La función de distribución se obtiene de la siguiente manera:



x
para X discreta
 fX ( i )
FX ( x ) =  
 x
i = -

  - f X ( t ) d t para X continua
Sin importar si la v.a. es discreta o continua, la función de distribución tiene las

siguientes propiedades, que se deducen directamente de la definición.
1) 0  FX ( x )  1 , - < x < 
2) Para el mayor valor en el rango de la v.a. X , FX ( x ) = 1; es decir:
lim F X ( x ) = 1
x® 
Para un valor menor al primer valor en el rango de la v.a. X , FX ( x ) = 0 ;

es decir:
lim F X ( x ) = 0
x®-
3) La función FX ( x ) es no decreciente; es decir:
Si a  b entonces FX ( a )  FX ( b )
4) La probabilidad de que una v.a. esté en el intervalo ( a , b ] está dada por:

P ( a < X  b ) = FX ( b ) - FX ( a )
Se podría decir entonces que de acuerdo a la interpretación frecuentista de

probabilidad, la frecuencia acumulada relativa de una muestra, calculada
41
generalmente en una tabla de distribución de frecuencias, se asemeja a la función de
distribución y que la semejanza será mayor siempre que la muestra sea más grande.
Para generalizar la propiedad (4) al intervalo cerrado [ a , b ] , deben analizarse

separadamente los casos discreto y continuo.
 FX ( b ) - FX ( a ) + f X ( a )
P ( a  X  b )=
para X discreta
 FX ( b ) - FX ( a ) para X continua
La representación gráfica de la función de distribución para una v.a discreta es una

función escalonada, mientras que para una v.a. continua es una función continua,
pero en cualquier caso, será una función no decreciente.
Ejemplo 4.3.1
Sea X una v.a. con función de probabilidad f X ,
x -5 -1 1 1.5 3
fX ( x ) 0.2 0.01 0.3 0.29 0.2
a) Construir la función de distribución de X en forma tabular.

b) Trazar su gráfica.
Solución:
a) La forma tabular de la función de distribución se obtiene directamente

de la función de probabilidad, sumando las casillas a la izquierda y la
del valor que se desea.
x -5 -1 1 1.5 3
FX ( x ) 0.2 0.21 0.51 0.8 1
b)
42
Ejemplo 4.3.2
El tiempo requerido por los estudiantes para presentar un examen de una

hora es una variable aleatoria con una función de densidad dada por:
ìï
0£ y£ 1
2
3
y +y
fY ( y )= í 2
ïî 0 en otro caso
a) Obtener FY ( y ) .
b) Trazar la gráfica FY ( y ) .
c) Utilizar FY ( y ) del inciso (a) para encontrar F ( - 1 ) , F ( 0 ) y
F ( 1 ).
Solución
FY ( y ) = 0  t + t  d t =
y 3 
, 0  y 1
3 2
y y
 2 
2
a) +
2 2
Finalmente,


0 y<0
 3
 y 0  y 1
FY ( y ) = 
2
y
 2
+
2


1 y >1

b)
43
c) F ( - 1) = 0
F ( 0 )=0
1 1
F ( 1 )= + = 1
2 2
Ejemplo 4.3.3
Una gasolinera tiene dos bombas, que pueden bombear cada una hasta 10,000
litros de gasolina por mes. La cantidad total de gasolina bombeada en un mes es
una variable aleatoria Y (expresada en diez mil litros), con una función de
densidad de probabilidad dada por


y 0 < y <1

( y )= 2- y 1 y < 2

fY

 0 en otro caso
a) Trazar la gráfica de f Y ( y ) .
b) Obtener FY ( y ) y construir su gráfica.
c) Calcular la probabilidad de que la gasolinera bombee entre 8,000 y
12,000 litros en un mes.
d) Si se sabe que la gasolinera ha bombeado más de 10,000 litros en
un mes en particular, obtener la probabilidad de que haya bombeado
más de 15,000 litros durante el mes.
Solución
a)
44
Para 0 < y < 1 , FY ( y ) =  t d t =
2
yy
b) 0
2
Para 1 y < 2
FY ( y ) = 0 t d t + 1 ( 2 - t ) d t = 2 y -
2
1 y y
-1
2
Finalmente:
 y0

0



2
y 0 < y <1


2

FY ( y ) =
 1 y < 2

2
y
2 y - -1

2

 1 y2
c) P ( 0.8  Y  1.2 ) = FY ( 1.2 ) - FY ( 0.8 )

= ( 2.4 - 0.72 - 1 ) - 0.32 = 0.36
P ( Y > 1.5 )
d) P ( Y > 1.5 | Y > 1 ) =
P ( Y >1)
1 - ( 3 - 1.125 - 1 )
= = 0.25
0.5
4.4 Parámetros de una variable aleatoria
45
Se llama parámetro al valor numérico que describe una característica de la
población. Cabe menciona que las características de una población se denominan
parámetros, mientras que las características similares en una muestra se conocen
como estadísticos.
Los parámetros de tendencia central son datos que representan de forma global a
toda la población. Los más conocidos y utilizados son la media aritmética, la
moda y la mediana. Asimismo, los parámetros de dispersión son datos que
informan de la dispersión de los datos respecto de los parámetros de tendencia
central, como el rango, la varianza y la desviación típica o estándar.
La media de una variable aleatoria discreta que puede tomar los � valores
, , … , � está dada por:
�
=E =∑
=
Donde E , se lee como valor esperado de .
La varianza de la variable aleatoria se puede definir en términos del valor

esperado como:
�
� = VAR =E − =∑ − =E −
=
Por otra parte, si la variable aleatoria es continua, la media está dada por:
∞
=E =∫
−∞
La varianza de la variable aleatoria se define como:

∞ ∞
� = VAR =∫ − =∫ −
−∞ −∞
La media o valor esperado, también llamada esperanza, esperanza matemática o

media poblacional, cumple con las siguientes propiedades:
a) E + =E +
b) E + =E +E
c) E = E
Donde:
46
, son variables aleatorias
, son constantes reales.
Es importante destacar que las propiedades anteriores indican que el operador

esperanza es un operador lineal.
En el caso de la varianza se puede demostrar que cumple con las siguientes

propiedades:
a) VAR
b) VAR =
c) VAR + = VAR
Donde:
, son variables aleatorias

, son constantes reales
En particular, la propiedad c) indica que la varianza, a diferencia de la esperanza,

no es un operador lineal ya que no distribuye ni la suma ni el producto de una
variable aleatoria con escalares.
47
Capítulo 5
Modelos probabilísticos
Si un fenómeno puede ser aproximado con alguna distribución o función de
probabilidad específica, ésta puede ser empleada para encontrar las principales
características del sistema, tales como su tendencia central y variabilidad; en este
caso, se dice que el sistema puede ser modelado con dicha distribución o función
de probabilidad.
Los modelos probabilísticos discretos más usados en la industria y el

aseguramiento de la calidad son las distribuciones binomial, hipergeométrica y de
Poisson. Además de estas, también se describirá la distribución geométrica. Los
modelos probabilísticos continuos, como por ejemplo las distribuciones normal y
exponencial, serán abordados en el presente capítulo.
5.1. Experimento de Bernoulli

Es frecuente que, por ejemplo en temas relacionados con el control de calidad, se
den variables del tipo “se acepta, se rechaza”. Por ejemplo, un artículo cumple con
las especificaciones o no, un foco prende o no, una pieza resiste cierta fuerza o
no. Un experimento donde los posibles resultados de cada ensayo son éxito o
fracaso se conoce como un experimento o ensayo de Bernoulli. Un experimento
binomial es un experimento aleatorio que consta de n ensayos Bernoulli tales que:
a) Tiene dos diferentes resultados posibles: éxito y fracaso

b) Los ensayos son independientes; en otras palabras, la probabilidad de éxito
en cada ensayo (p) permanece constante
c) La variable aleatoria de interés, , corresponde al número de éxitos en un
total de n ensayos
Cabe recordar que el hecho de que los ensayos son independientes se puede
traducir en que el resultado de cierto ensayo no afecta la probabilidad de éxito de
los ensayos posteriores. Asimismo, como los posibles resultados, éxito o fracaso,
son complementarios, la probabilidad de fracaso será − .
5.2. Distribución binomial

La distribución binomial se emplea como densidad de probabilidades de variables
aleatorias discretas asociadas a experimentos, en los que sólo hay (o sólo
importan) dos resultados posibles, uno de los cuales usualmente se denomina
“éxito” y, el otro, “fracaso”.
En este caso el espacio de eventos es S = {éxito, fracaso}.
La distribución de probabilidades binomial es:
48
P{X  x}  X  0, 1, ..., n
X! n  X  !
p X qnX ;
n!
En donde X es la variable aleatoria “número de éxitos observados al repetir n

veces el experimento con reemplazo” (resultados independientes), y asume
S  X : X es entero y 0  X  n
valores de 0 a n; es decir, su espacio de eventos es
Una distribución binomial tiene las siguientes características:
1. En cada prueba del experimento sólo son posibles dos resultados: éxito y
fracaso.
2. La probabilidad de éxito es constante, es decir, que no varía de una
prueba a otra. Se representa por p.
3. La probabilidad de fracaso también es constante, Se representa por q,
4. q = 1 − p
5. El resultado obtenido en cada prueba es independiente de los resultados
obtenidos anteriormente.
6. La variable aleatoria binomial, X, expresa el número de éxitos
obtenidos en las n pruebas. Por tanto, los valores que puede tomar X son:
0, 1, 2, 3, 4, ..., n.
La distribución binomial se expresa por B(n, p)
Los parámetros) de esta distribución son:
EX  np
 2 X  npq
X  npq
Si el experimento se realiza dos veces, entonces n=2 y el espacio de eventos del

doble experimento se conforma con las parejas de cada dos resultados posibles:
 
S1  fracaso, fracaso, éxito, fracaso, fracaso, éxito, éxito, éxito
 

 X 0 X 1 X 1 X2 

      
Como se observa, la variable aleatoria “número de éxitos”, X, puede asumir los

valores 0, 1 y 2; es decir, el espacio de eventos del número de éxitos es
49
S  0, 1, 2,
y la distribución de probabilidades es el conjunto de las tres
probabilidades de que ocurra cada valor de X:
P{X  x}  P{X  0},P{X  1},PX  2}
Obsérvese que X  0 ocurre de una sola manera; X  1, de dos; y X  2 , de una.

Estos resultados se pueden obtener también permuntando dos grupos, uno con X
elementos y el otro con n-X elementos.
Para X=0: 2P0,2   1, por lo que, tratándose de resultados independientes,

2!
0! x2!
P0  q  q  q2  p0 q2 , con X  0 y n  2
  2 , por lo que,
P 2!
Para X=1: 21,1
1! x1!
P
1   2pq  2p1q1 , con X  1 y n  2
Para X=2: 2P2,0   1 , por lo que,

2!
2! x0!
P2  p  p  p 2  p 2 q0 , con X  2 y n  2
PS   P
i   q 2  2pq  p 2  p  q  12  1
2
2
i o
Comprobación:
(Obsérvese que los elementos (parejas) de S1 no son igualmente probables, a

menos que p  q 
1
).
2
Si el experimento se realiza o repite tres veces, entonces n=3 y S  0, 1, 2, 3 .

Si e = éxito y f = fracaso, se tiene que el espacio de eventos de este triple
experimento, S1, es el conjunto de ocho tercias posibles:
S1  f, f, f , e, f, f , f, e, f , f, f, e, e, e, f , e, f, e, f, e, e, e, e, e 
X= X=1 X=2 X=3
50
Generalizando: al realizar n veces el experimento con reemplazo, la probabilidad
de que ocurran X éxitos y n-X fracasos en un orden determinado, se calcula
utilizando la Ley General de la Multiplicación, la cual es aplicable, puesto que el
resultado de cada experimento es independiente de los demás; por tanto
PX  x   p x qnx
Un orden posible sería, por ejemplo,
éxito, éxito, ..., éxito, fracaso,..., fracaso

 
X n- X
Ahora bien, los X éxitos pueden ocurrir permutando los elementos de un grupo con
X elementos (éxitos), con los del otro grupo con n-X elementos (fracasos); es
decir, pueden aparecer en n X, n X órdenes distintos, cada uno con probabilidad
P
pXqn-X.
Por tanto, la distribución de probabilidades de X resulta ser

� �−
�{ = } =
En donde
n es el número de pruebas.
k es el número de éxitos.
p es la probabilidad de éxito.
q es la probabilidad de fracaso.
que se conoce con el nombre de Binomial
Por lo que la esperanza o media de la distribución de Bernoulli es
EX   X p X qn X  np
X! n  X  !
n
n!
X 0
Y que la variancia de la distribución binomial es

 2 X   EX  EX   E X  np  npq
2 2

σX   npq
Por lo cual la desviación estándar es:
51
En resumen, para la distribución binomial
EX  np; σ 2 X  npq; σX  npq
La función de distribución o de probabilidades acumuladas binomial resulta ser
FX X   k! n  k  ! p q
X
n! k n k
k 0
Considerando
PX  xn   PX  xn   PX  xn 
y que
PX  x n   PX  x n1   PX  x n1   PX  x n 
Ejemplo:
Un examen consta de 10 preguntas a las que hay que contestar SI o NO.

Suponiendo que a las personas que se les aplica no saben contestar a ninguna de
las preguntas y, en consecuencia, contestan al azar, encontrar:
a. Probabilidad de obtener 5 aciertos
b. Ningún acierto
c. Más de un aciertos
Sea A (éxito) = acertar la pregunta → p(A) = 0.5

Sea ̅ (fracaso) = no acertar la pregunta → p( ̅) = 0.5
a. Probabilidad de obtener cinco aciertos k = 5

−
� = = . . = 252 x (0.5)5 .(0.5)5 = 0.2461
b. Ningún acierto k = 0
−
� = = . . = 1x (0.5)0 (0.5)10 = 0.0010
c. Más de un acierto
� > =� = +� = +⋯+� =
= − [� = + � = ]
− 9
� = = . . = . . = 10 x (0.5 x 0.002) = 0.01
P(X > 1) = 1 – (0.0010 + 0.01) = 0.989
52
5.3. Distribución de Poisson
Si todos los resultados de un experimento se producen de manera aleatoria dentro
de un intervalo de números reales, y si el intervalo se puede dividir en
subintervalos de longitud suficientemente pequeña, de tal forma que:
a) La probabilidad de que ocurra más de un evento en un subintervalo es cero

b) La probabilidad de que ocurra un evento en un subintervalo es la misma
para todos los subintervalos y proporcional a su longitud
c) La ocurrencia de un evento en cada subintervalo es independiente de otros
subintervalos
se dice que el experimento es un proceso de Poisson.
Si representa el número de eventos aleatorios ocurridos en el intervalo,

entonces tiene una distribución de Poisson dada por:
−�
= , = , , ,… (5.12)
!
Donde e = 2.718 y  es el número esperado de eventos en el intervalo.
Por ejemplo es frecuente que el número de variaciones de voltaje por hora, el

número de defectos por rollo de tela, el número de partículas contaminantes en un
líquido, etc., se analicen como variables con una distribución de Poisson.
Si es una variable aleatoria con distribución de Poisson con parámetro 

entonces su media y varianza son:
= =
�x = � =
Ejemplo 5.2
Suponga que en una carretera estatal hay en promedio 3.5 baches cada 5
kilómetros. Sea la cantidad de baches que se observan en esta distancia. Si el
número de baches sigue una distribución de Poisson con = . , ¿cuál es la
probabilidad de encontrar exactamente 4 baches en un recorrido de 5 kilómetros?
Esto se obtiene con:

− .
.
� = = = .
!
53
Por otra parte, la probabilidad de encontrar a lo sumo 4 baches es:
− .
. . .
� = ∑� = = [ + . + + + ]
! ! !
=
= .
Uno de los errores más comunes al utilizar la distribución de Poisson proviene del
uso incorrecto del factor . En el ejemplo anterior, se consideró = . , lo cual se
interpreta como 3.5 baches cada 5 kilómetros. Este valor de resultó adecuado
para determinar la probabilidad de encontrar 4 baches en un recorrido de 5
kilómetros, pero si se modifica el tamaño del recorrido también debe modificarse el
valor de .
Ejemplo 5.3
Utilizando la misma información que en el ejemplo anterior determine la

probabilidad de encontrar exactamente 4 baches en un recorrido de 10 kilómetros.
Nuevamente se pide determinar � = , pero en este caso sería un error utilizar

= . . Para resolver este ejemplo es necesario determinar el número de baches
esperados en 10 kilómetros. Se sabe que se esperan 3.5 baches en 5 kilómetros,
por lo tanto en 10 kilómetros se esperan 7 baches (el doble). De esta forma la
probabilidad buscada es:
−
� = = = .
!
Ahora, determine la probabilidad de encontrar exactamente 4 baches en un

recorrido de 2 kilómetros.
Nuevamente, se debe establecer el valor de , en este caso para 2 kilómetros.

Como = . para 5 kilómetros, entonces = . = . baches en 2
kilómetros. Por lo tanto:
− .
.
� = = = .
!
Es importante recordar que una de las características de un proceso de Poisson

es que la probabilidad de que ocurra un evento en un subintervalo es proporcional
a su longitud, por lo tanto resulta coherente que las probabilidades calculadas en
cada ejemplo sean diferentes, ya que el tamaño del recorrido fue modificado.
54
5.4. Distribución exponencial
En la sección anterior se mencionó que una variable aleatoria que sigue una
distribución de Poisson cuenta el número de fallas ocurridas durante un intervalo.
Sin embargo, la distancia entre dos fallas consecutivas también define una
variable aleatoria de mucho interés, principalmente en el estudio de líneas de
espera.
Una variable aleatoria que mide la distancia entre dos observaciones

consecutivas de un proceso de Poisson con media > es llamada variable
aleatoria exponencial con parámetro . Contrariamente a los modelos
probabilísticos estudiados en las secciones anteriores, la distribución exponencial
es un modelo de probabilidad continuo.
Para analizar algunas características de esta distribución, se considerará que es

una variable aleatoria que denota el número de observaciones en un intervalo de
longitud en un proceso de Poisson con parámetro . Entonces, para cualquier
longitud , tendrá una media = . Por lo tanto, la probabilidad de que no
ocurra una observación en el próximo intervalo de longitud está dada por:
−�
−�
� = = =
!
Si denota la distancia hasta la siguiente observación, entonces la probabilidad

de que no ocurra una observación en el próximo intervalo de longitud será:
−�
−�
� > = � = = =
!
De esta forma, para cualquier valor positivo , la función de distribución

acumulada de estará dada por:
−�
=� < = − ,
Al derivar , se obtiene la función de probabilidad de , dada por la ecuación

5.22 y representada en la figura 5.2:
−�
= ,
Bajo estas condiciones, la media y la desviación estándar de están dadas por:
= = y � =� =
� �
55
Figura 5.1. Distribución exponencial
Ejemplo 5.4
Suponga que el número de defectos producidos por un telar sigue una distribución
de Poisson con una media de 0.75 errores por metro. Determine la probabilidad de
que el telar produzca 6 metros de tela sin errores.
Sea la distancia en metros desde un punto de inspección hasta el primer error.

Entonces sigue un distribución exponencial con = . errores por metro. Se
quiere encontrar la probabilidad de que sea mayor que 6 metros, por lo tanto se
tiene:
∞ ∞
� > =∫ −�
=∫ . − .
=− − .
|∞ = − .
= .
Suponga que ahora se desea determinar la probabilidad de que el próximo error

ocurra entre el segundo y cuarto metro de tela siguiente, entonces se tendría la
siguiente probabilidad:
− . − . − . − .
� < < =∫ . =− | = −
= . − . = .
Una propiedad muy interesante de la distribución exponencial es conocida como

pérdida de memoria y está relacionada con la probabilidad condicional. Esta
propiedad se resume en la siguiente igualdad:
� <� +� | >� =� <�
El siguiente ejemplo ilustra esta propiedad.
56
Ejemplo 5.5
Sea el tiempo entre detecciones de cambios de voltaje en la instalación eléctrica

de una industria. Suponga que sigue una distribución exponencial con = .
cambios por minuto. Si acaba de detectarse un cambio de voltaje, entonces la
probabilidad de detectar el siguiente cambio en los próximos 90 segundos es:
.
− . − . . − . .
� < . minutos = ∫ . =− | = −
= .
Ahora suponga que han pasado 2 minutos y aún no se ha detectado ningún

cambio de voltaje. Entonces, la probabilidad de detectar el siguiente cambio en los
próximos 90 segundos será:
� < . minutos| > =� < < . ⁄� <

. ∞
− . − .
=∫ . ⁄∫ .
.
=− − .
| ⁄− − .
|∞
= . ⁄ . = .
Por lo tanto, el hecho de que hayan transcurrido 2 minutos sin cambios de voltaje
no cambia la probabilidad de una detección en los próximos 90 segundos.
Esta propiedad resulta muy interesante cuando se aplica a ejemplos cotidianos,

sobre todo porque va en contra del sentido común como se ve en el siguiente
caso.
Suponga que el tiempo entre los camiones que lo llevan a la escuela o al trabajo
sigue una distribución exponencial con = . camiones por minuto. Esto significa
que en promedio pasan 0.1 camiones cada minuto, o bien, 1 camión cada 10
minutos. Al llegar a la parada se puede determinar que la probabilidad de que el
camión pase en los próximos 10 minutos es 0.6321. Si se espera algún tiempo,
por ejemplo 7 minutos, por lo general se considera que las probabilidades de que
el camión pase han aumentado. Sin embargo, la propiedad de pérdida de memoria
espera. Esto ocurre porque una media  de 0.1 significa que en cada intervalo de
indica que las probabilidades siguen siendo las mismas que al comienzo de la
10 minutos se espera que pase un camión: tanto a partir del punto de espera
inicial, como en el intervalo que inicia después de los 7 minutos de espera.
57
5.5. Distribución normal
En las secciones 5.1 a 5.3 se estudiaron variables aleatorias discretas que son
útiles para analizar experimentos donde los posibles resultados son finitos o
infinitos numerables, como por ejemplo el número de defectuosos en un lote de
producción. Sin embargo, cuando los posibles resultados incluyen un intervalo
completo de números, como cuando se está hablando de peso, altura, volumen,
etc., es necesario utilizar variables aleatorias continuas. En esta sección se
estudia la distribución normal, probablemente la distribución más importante y útil
en la mayoría de los estudios estadísticos.
x y x si su función de densidad de probabilidad está dada por:

Se dice que una variable aleatoria tiene una distribución normal con parámetros
�−��
−
= �� con − ∞ < <∞
� √ �
Donde x es su media y x es su desviación estándar.
simétrica con centro en x, ver figura 5.3. El valor de x es la distancia desde x
Al graficar la función se obtiene una gráfica con forma de campana y
hasta los puntos de inflexión de la curva.
Figura 5.2 Distribución normal con media x y desviación estándar x.
Si es una variable aleatoria con una distribución normal con media x y varianza
�x , � , �x , entonces se cumple que:
1. � = � < =� < =� < <

=∫ para todo número a y b.
2. � −� < < +� = .
58
3. � − � < < + � = .
4. � − � < < + � = .
Las propiedades 2, 3 y 4 indican la probabilidad de que un evento se encuentre a

una, dos o tres desviaciones estándar de la media respectivamente. Por ejemplo,
el 68.27% de los resultados de un experimento que tenga una distribución normal
se ubicarán en el intervalo − � , + � , ver figura 5.4.
Figura 5.3 Probabilidad asociada a una y dos desviaciones estándar.
Cuando la distribución normal tiene valores de parámetros = y � = se

llama distribución normal estándar, ver figura 5.5. Una variable aleatoria que tiene
una distribución normal estándar se llama variable aleatoria normal estándar y se
denota mediante Z.
Figura 5.4 Distribución normal estándar.
En este caso la función de densidad de probabilidad está dada por:
59
�
−
= con − ∞ < <∞
√ �
y la función de densidad de probabilidad acumulada de Z es:
� =∫
−∞
Para encontrar el valor de � se puede recurrir a una tabla para la

distribución normal estándar (ver anexo A). El uso de esta tabla se ilustra con el
siguiente ejemplo.
Ejemplo 5.6
Suponga que Z es una variable aleatoria normal estándar. La tabla del anexo A
contiene probabilidades de la forma � . Para encontrar � − . , se lee
hacia abajo la columna z hasta el renglón − . . Por último se desplaza sobre este
renglón hasta la columna con el encabezado . . El valor de esta celda indica la
probabilidad buscada. Por lo tanto, � − . = . , en la figura 5.6 se
ilustra este proceso.
Observa que los encabezados de las columnas indican el dígito de las centésimas
del valor de z.
z 0.00 0.01 0.02 0.03

-3.5 0.0002 0.0002 0.0002 0.0002
- ∙
- ∙
- ∙
-1.4 0.0808 0.0793 0.0778 0.0764
Figura 5.5 Función de densidad de probabilidad estándar.
En este punto es importante destacar que la forma en que son presentadas las
tablas de distribución normal acumulada puede variar de un texto a otro, y es
necesario reconocer la forma en que deben utilizarse. La mayoría de las tablas
utilizan los valores asociados con � , � , o � , ver figura
5.7. Para determinar el tipo de datos incluidos en cada tabla, es recomendable
revisar los valores asociados a puntos positivos y al valor 0.00.
 Si la probabilidad asociada con 0.00 es cero se trata de una tabla que

indica los valores de � , figura5.7a.
60
 Si la probabilidad es . en el punto 0.00 y es menor que . ∀ > ,
entonces se trata de una tabla que indica los valores de � , figura
5.7b.
 Si la probabilidad es . en el punto 0.00 y es mayor que . ∀ > ,

entonces se trata de una tabla que indica los valores de � , figura
5.7c.
(a) (b) (c)

Figura 5.6 Diferentes formas de medir la probabilidad en una distribución normal
estándar.
Sin embargo, es poco común que de un experimento surja una variable aleatoria
normal estándar. Cuando una variable aleatoria sigue una distribución normal
pero ≠ o � ≠ , sus probabilidades pueden calcularse mediante una
estandarización. En este caso, la variable estandarizada es:
−
=
�
que tiene una distribución normal estándar. Por lo tanto,
− −
� = �( )
� �
Para demostrar que en efecto tiene media = , se puede utilizar el operador

esperanza, de esta forma se tiene:
− − − −
= ( )= = = =
� � � �
De manera análoga se puede demostrar que la varianza de es 1.
− � − � �
� = �( )= = = =
� � � �
De esta forma, cualquier probabilidad en la que interviene una variable aleatoria

normal se puede expresar como una probabilidad de una variable aleatoria normal
estándar y por lo tanto se pueden utilizar las tablas de la distribución z.
61
De hecho, el proceso de estandarización puede verse como un “desplazamiento”
del eje para lograr que la media de la distribución estudiada sea cero, ver figura
5.8.
Figura 5.7 Estandarización de una distribución normal.
Ejemplo 5.7
La cantidad de agua vertida en cada botella por cierta máquina tiene una
distribución normal con un valor medio de 750 ml y una desviación estándar de 1.5
ml. Si las botellas están diseñadas para contener, a lo sumo, 752 ml, ¿cuál es la
probabilidad de que ocurra un derrame?
En este caso es la cantidad de agua depositada en cada botella y se pide

� , que se calcula de la siguiente manera:
− −
� = �( )=� . = −� .
. .
= − . = .
Por lo tanto, el 9.12% de las botellas sufrirán un derrame, por lo que puede
resultar conveniente aumentar ligeramente el tamaño de las botellas, o buscar
disminuir la varianza del proceso, para así disminuir el porcentaje de derrames.
Por otro lado, es importante que las botellas contengan al menos 746 ml de agua.
Determine el porcentaje de piezas que cumple con esta especificación.
− −
� = �( )=� − .
. .
62
= −� − . = − . = .
De esta forma, se espera que el 99.62% de las botellas cumplan con el contenido
mínimo de agua.
5.6. Distribución normal como límite de la distribución binomial

Como se mencionó en la sección 5.2, se puede establecer una relación entre la
distribución binomial y la distribución normal. En la figura 5.9 se presenta el
histograma de probabilidad de una distribución binomial con � = y = . .
Para esta distribución, la media y desviación estándar son:
=� = . = .
Y
� = √� − =√ . . = .
Si se grafica sobre el histograma una curva normal con media y desviación

estándar igual a los parámetros de la distribución binomial se percibe visualmente
la similitud que existe entre las distribuciones normal y binomial en el caso
presentado.
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Figura 5.8 Histograma de probabilidad binomial con curva normal.
Observa que el área de cualquier rectángulo se puede aproximar mediante el área

bajo la curva normal correspondiente al mismo intervalo. Esta idea se formaliza
mediante la siguiente proposición.
63
Proposición. Sea una variable aleatoria binomial basada en n ensayos con
probabilidad de éxito p. Entonces tiene aproximadamente una distribución
normal con:
= � y � = √� −
De hecho, si la variable aleatoria sigue una distribución binomial se tendrá:
� ≈ área bajo la curva normal a la izquierda de + . .
Sin embargo, es importante tener en cuenta que esta aproximación será

inadecuada si la distribución binomial es muy sesgada. En la práctica se considera
que esta aproximación es correcta siempre que � y� − .
Ejemplo 5.8
Suponga que el 30% de trabajadores de una empresa cuentan con seguro de

vida. Sea el número de trabajadores sin seguro en una muestra de tamaño 70.
Determine la probabilidad de que a lo más 17 de los trabajadores de una muestra
no tengan seguro.
En este caso se trata de una distribución binomial con parámetros � = y

= . , por lo tanto la media y la varianza son:
=� = . =
Y
� = √� − =√ . . = .
Además, se pide calcular la probabilidad � . Utilizando la distribución

binomial se tendría:
� =� = +� = + ⋯+ � = = .
Por otro lado, se puede calcular la misma probabilidad utilizando una distribución
normal:
− + . −
� = �( )=� − . = .
. .
Observa que este método requiere de menos operaciones y se obtienen

aproximaciones de buena calidad.
64
Capítulo 6
Elementos de inferencia estadística
6.1. Teorema del límite central
El teorema del límite central indica que la distribución de probabilidad de una suma
de n variables aleatorias tiende a una distribución gaussiana o normal, si n es lo
suficientemente grande. Esto implica que una suma de variables aleatorias
normales se puede aproximar con una función de densidad normal. ¿Qué tan
grande es "suficientemente grande"? Cuando las variables aleatorias sumadas
son semejantes, se considera como regla empírica n = 30 como el valor límite a
partir del cual esta aproximación es adecuada.
La aproximación entre la distribución de la suma y la distribución normal es en

general mayor alrededor del valor central de los datos que en sus extremos o
colas, lo cual explica el nombre “Teorema del Límite Central” (“central” califica al
límite, más que al teorema).
Si se sabe algo sobre la forma de la distribución de la muestra, se puede

perfeccionar la regla anterior, por lo que existen diferentes versiones del teorema,
en función de las condiciones utilizadas para asegurar la convergencia. Una de las
más simples establece que es suficiente que las variables que se suman sean
independientes, idénticamente distribuidas, con valor esperado y varianza finitas.
Asimismo, si se cumple con alguna de las siguientes condiciones, se puede

considerar que la distribución de muestreo de un cierto estadístico es normal:


Si la distribución de la población es normal.
Si la distribución de la muestra es simétrica, unimodal, sin valores
extremos, la distribución de muestreo puede ser normal incluso en tamaños

de muestra menores a 15.
Si la distribución de la muestra es moderadamente asimétrica, unimodal, sin

valores extremos, y el tamaño de la muestra es mayor a 16.
Cuando no se tienen valores atípicos, si el tamaño de la muestra es mayor
a 40.
La forma exacta de una curva normal está totalmente determinada por su media y
desviación estándar. Por lo tanto, si se conoce la media y desviación estándar de
una variable, se puede encontrar la media y desviación estándar de la distribución
muestral del estadístico.
El teorema del límite central es tal vez el más importante de toda la inferencia
estadística. Asegura que la distribución de muestreo del promedio se aproxima a
la normal al incrementarse el tamaño de la muestra. Hay situaciones teóricas en
65
las que el teorema del límite central no se cumple, pero casi nunca se encuentran
en la toma de decisiones práctica. Una muestra no tiene que ser muy grande para
que la distribución de muestreo de la media se acerque a la normal. Los
estadísticos utilizan la distribución normal como una aproximación a la distribución
de muestreo siempre que el tamaño de la muestra sea al menos de 30, pero la
distribución de muestreo de la media puede ser casi normal con muestras incluso
de la mitad de ese tamaño. La importancia del teorema del límite central es que
permite usar estadísticas de muestra para hacer inferencias con respecto a los
parámetros de población sin saber nada sobre la forma de la distribución de
frecuencias de esa población más que lo que se pueda obtener de la muestra.
6.2. Estadísticos
Una vez seleccionada la muestra, se pueden obtener varias medidas descriptivas
numéricas a partir de los datos de la muestra. Ejemplos son el promedio
aritmético, la mediana, el rango o la varianza de la muestra. Si se sacan dos o
más muestras diferentes de la población y se calcula el promedio aritmético para
ambos, este seguramente variará de una muestra a otra, ya que depende de los
valores de los datos que se hayan obtenido y no se puede conocer su valor hasta
después de haber seleccionado la muestra. Lo mismo se puede decir para las
otras medidas descriptivas numéricas de la muestra. Por lo tanto, cada una de
éstas es en realidad una variable aleatoria.
A todo elemento que es función de los valores de los datos que se tienen en una
muestra se le denomina estadístico; todo estadístico es, entonces, una variable
aleatoria. Si se consideran todas las muestras posibles de tamaño n que pueden
extraerse de una población, y para cada una se calcula el valor del estadístico de
interés, se puede encontrar la distribución de probabilidades de esta nueva
población que contiene todos los posibles valores del estadístico para las
muestras de tamaño n.
6.3. Estadísticos y la distribución de muestreo

La distribución de probabilidad de un estadístico se conoce como la distribución
muestral o distribución de muestreo. Si, por ejemplo, el estadístico considerado
es la varianza de la muestra, su densidad de probabilidades se llama distribución
muestral de la varianza.
En forma similar se pueden obtener las distribuciones muestrales del promedio

aritmético, de la desviación estándar, del rango, etc. Cada una de ellas tiene sus
propios parámetros: la media de la distribución de muestreo corresponde al valor
esperado del estadístico; su desviación estándar se conoce como error estándar.
Es claro que, como el valor de cada uno de los estadísticos depende del número
de elementos que contiene la muestra, la distribución de muestreo de cada
estadístico será diferente para diferentes tamaños de muestra. En efecto, se verá
66
más adelante que la dispersión de la distribución de muestreo (su error estándar)
disminuye conforme va aumentando el número de elementos en la muestra.
Es importante notar que la distribución de muestreo verdadera no se conoce,

debido a que generalmente es imposible sacar TODAS las muestras posibles de
tamaño n. En realidad solamente se sacará una sola muestra, para la cual se
determina el estadístico de interés. Sin embargo, se sabe que este estadístico
proviene de una distribución de muestreo que puede ser aproximada por cierta
distribución teórica. La importancia del concepto de distribución de muestreo
radica en el hecho de que, si se conoce la distribución de muestreo teórica de
cierto estadístico, es posible hacer inferencias con respecto a los parámetros de la
población de interés. Las distribuciones muestrales son importantes en la
estadística, ya que proporcionan una importante simplificación en la ruta a la
inferencia estadística.
La relación entre la distribución población de X y la distribución de muestreo de �̅

se muestra en la figura 6.1.
Figura 6.1 Relación entre distribución de datos individuales y distribución de

muestreo.
de probabilidades: la que se tiene a nivel población, es decir fX(x), con media x y

En resumen, en la estadística inferencial se trabaja con dos funciones de densidad
desviación estándar x, y la que se tiene a nivel muestreo, es decir ��̅ �̅ , con
media ��̅ y desviación estándar ��̅ . Esta última es solamente válida para el
tamaño de muestreo estudiado y será utilizada para hacer inferencias (ya sea
estimaciones puntuales o por intervalos de confianza y pruebas de hipótesis)
sobre los parámetros de la población de interés.
67
6.1.1. Distribución muestral del promedio aritmético
Debido a que el promedio aritmético de una muestra de n elementos se puede

considerar como una suma de n variables aleatorias, se puede interpretar
aritmético es aproximadamente normal con media x y desviación estándar x,

entonces que, cuando n es grande, la distribución de muestreo del promedio
independientemente de cuál sea la densidad de probabilidades de X, la variable

aleatoria asociada a la población. Si esta variable tiene distribución normal, la
distribución muestral del promedio aritmético también es normal, aun para valores
pequeños de n (n < 30).
aritmético, es que existe una relación entre los parámetros de la población (x y x)
Otra característica importante de la distribución de muestreo del promedio
y los parámetros de la distribución de muestreo ( ̅ y � ̅ ).
Supóngase que se extraen sin remplazo todas las muestras posibles de tamaño n
de una población finita de tamaño Np > n, entonces es posible demostrar que se
cumplen las siguientes ecuaciones:
m X =m X
s Np - n
s = X
Np - 1
X
n
Si la población es infinita (o el muestreo es con remplazo), los resultados

anteriores se reducen a
m X =m
s
s X =
n
puesto que
Np - n s
lím = s =
n Np - 1 n
Np ® 
El concepto y la obtención de la distribución de muestreo para el promedio, ̅ , y

las relaciones entre los parámetros de la distribución de muestreo y los de la
población se ilustran en el siguiente ejemplo.
Ejemplo 6.1
Supóngase que se tiene una población finita formada por los datos 1, 2, 3, 4 y 5;
considerando un tamaño de muestra de 3 y un muestreo sin remplazo (MSR), se
desean conocer la distribución muestral del promedio aritmético y los parámetros
de ésta.
68
Como la población es finita y el muestreo es sin remplazo, el número total de
muestras distintas de tamaño 3 que pueden obtenerse a partir de una población
de 5 elementos es
 10
5!
3! (5  3)!
Estas muestras, junto con sus promedios aritméticos correspondientes, son las
siguientes:
X Xi X Xi
1, 2, 3 6/3 3, 4, 5 12/3
1, 2, 4 7/3 3, 4, 1 8/3
1, 2, 5 8/3 4, 5, 1 10/3
2, 3, 4 9/3 4, 5, 2 11/3
2, 3, 5 10/3 5, 1, 3 9/3
La distribución de muestreo correspondiente se construye considerando la

probabilidad de ocurrencia de cada uno de los diferentes valores que puede tomar
el promedio aritmético. Se nota en la tabla anterior que el promedio aritmético
puede tomar 7 valores diferentes, siendo 6/3, 7/3, 8/3, 9/3, 10/3, 11/3 y 12/3,
dependiendo de los valores en la muestra. Los primeros dos y los últimos dos
valores tienen una probabilidad de ocurrencia de 1/10, mientras que 8/3, 9/3 y 10/3
tienen una probabilidad de ocurrencia de 1/5.
Esta información está representada en forma gráfica en la figura 6.2:

2.5
1.5
Frecuencia
0.5
0
0.0 1.0 2.0 3.0 4.0 5.0
X
Figura 6.2 Distribución de muestreo para el promedio, muestreo sin reemplazo.
La media y la desviación estándar de la distribución de muestreo se pueden

calcular con las siguientes fórmulas:
69
10 10 2
å X i = 90 / 3 å X i = 840 / 9
i =1 i =1
1 10 1 90
m x =X = å Xi = × =3
10 i = 1 10 3
1 10 2 2 1 840
s = å X i - X = × - 9=
2
x
10 i = 1 10 9
9.333 - 9.000 = 0.333 Þ s X = 0.333 = 0.577
Es decir, ̅ = 3 y � ̅ = 5.577
Por tratarse de una población finita, se puede verificar que:
X  
Np  n
X 
n Np  1
en donde Np = 5, n = 3 y  = 3.
El valor de la varianza de la población (2x) es:
1  4  9  16  25
2   (3)2   9  11  9  2
55
5 5
Por lo tanto,
s = 2 = 1.4145
y
1.4145 5- 3
s x = × = (0.8164)(0.7071) = 0.577
3 5- 1
Es decir ̅ = 3 y � ̅ = 5.577, lo cual coincide con el resultado obtenido

anteriormente al calcular estos parámetros a través de los datos de la distribución
de muestreo del promedio aritmético.
70
Ejemplo 6.2
Se puede determinar la distribución de muestreo de la mediana para la misma

población del ejemplo 1. En este caso se procede de manera semejante,
solamente que ahora se calcula la mediana de cada una de las 10 muestras
posibles de 3 elementos en un total de 5.
La distribución de muestreo resultante se presenta en la siguiente figura:
4.5
4
3.5
3
Frecuencia
2.5
2
1.5
1
0.5
0
0.0 1.0 2.0 3.0 4.0 5.0
Mediana
Figura 6.3 Distribución de muestreo para la mediana, muestreo sin reemplazo.
Se puede comprobar que:
M = 3(2) + 4(3) + 3(4) = 3
 M = 3(2-3) + 4(3-3)2 + 3(4-3)2 = 0.593

10
2 2
M = 0.77
10
el valor de 3, es decir también se cumple que M = X. Esto es porque la

Se nota que la media de la distribución de muestreo de la mediana también tiene
distribución es simétrica.
Sin embargo, se nota también que la dispersión de la distribución de muestreo de

la mediana es mayor que la del promedio aritmético, como se percibe en la figura
6.4; se dice que el promedio es un estimador más eficiente que la mediana. En el
la que hace que el promedio aritmético sea mejor estimador de X que la mediana.
estudio de la estimación puntual, se verá que esta característica es exactamente
71
Distribución muestral
de los promedios
Distribución muestral
de las medianas
Figura 6.4 Comparación de las distribuciones de muestreo para el promedio y la

mediana.
Si se repite este ejercicio para un muestreo sin remplazo, se tendrán que analizar
5 x 5 x 5 = 125 muestras. A través del manejo de una computadora, se encuentra
fácilmente la distribución de muestreo correspondiente:
20
18
16
14
12
Frecuencia
10
8
6
4
2
0
0.0 1.0 2.0 3.0 4.0 5.0
X
Figura 6.5 Distribución de muestreo para el promedio, muestreo con reemplazo.
En la página http://onlinestatbook.com/stat_sim/sampling_dist/index.html, como en

diversas otras páginas, se encuentra un simulador que genera distribuciones de
muestreo para el promedio para diferentes poblaciones, número de repeticiones y
elementos en la muestra. En la siguiente figura se muestran los resultados de la
distribución de muestreo que se generó a partir de una población normal (lado
izquierdo) y de una población uniforme (lado derecho), tomando muestras de
tamaño n = 5. Se observa que, en ambos casos, para 1500 repeticiones la
distribución de muestreo es aproximadamente normal, independientemente de la
distribución de la población. Cabe mencionar que para apreciar la forma gaussiana
de la distribución de muestreo, es importante realizar un suficiente número de
repeticiones.
72
considerablemente menor que la población de origen:  X   / 5 . Esto se
Asimismo, se aprecia que la distribución de muestreo tiene una dispersión
observa tanto para distribución normal como para la uniforme. Obviamente, la

distribución de muestreo generada a partir de una distribución de origen uniforme
tendrá una dispersión mayor que la distribución de muestreo generada a partir de
una distribución normal de origen, porque la distribución uniforme tiene una
dispersión mayor que la gaussiana.
Distribución de origen: normal Distribución de origen: uniforme
5 repeticiones 5 repeticiones
Figura 6.6 Distribuciones de muestreo para el promedio desde la distribución

normal, diferentes repeticiones.
Si el mismo experimento se hubiera hecho con muestras de 10, 15 o 25 desde la

población de origen, la dispersión de la distribución de muestreo hubiera sido cada
vez menor que la de los casos presentados.
6.1.2. Distribuciones teóricas normal y t de Student
Como se dijo anteriormente, el teorema del límite central establece que si ̅ es el

promedio de una muestra aleatoria de tamaño n, y si n tiende a infinito (n > 30),
73
entonces ̅ sigue una distribución normal con media ̅ y varianza � ̅ .
̅
Estandarizando, se encuentra que la variable aleatoria z = ( – ̅ )/ � ̅ sigue una
distribución normal estándar.
En otras palabras:
X  X
para - < z < 
X
fz(z) =
con z = 0 y 2z= 1 (ver figura 3.6).
Figura 6.7 Concepto de la distribución normal estándar.
de la distribución de muestreo (  X   X y  X   / n (MCR) ó

Tomando en cuenta la relación existente entre los parámetros de la población y los
Np  n
X 
Np  1
(MSR)), se puede escribir:
n
X  X
para - < z < 
X
fz(z) =
Partiendo del conocimiento de que P(-zc < z < zc) = 1 - , se encuentra que
X  X
< zc) = 1 - 
X
P(-zc <
74
Esto será la base de la inferencia mediante intervalos de confianza y pruebas de
hipótesis.
conocer x. Sin embargo, se podrá utilizar esta misma distribución z si x es

Por lo general, se considera que para utilizar la distribución normal es necesario
desconocida y n es grande, ya que para n > 30, la estimación de x a partir de la
como si se conociera a x.

desviación estándar común de la muestra Sx es suficientemente confiable: es
Cuando n es pequeña y x es desconocida, ésta no se puede aproximar
que considera desde el inicio la estimación del parámetro x a través de la

suficientemente bien por Sx. En este caso se utiliza la distribución t de Student,
desviación estándar corregida de la muestra *Sx.
Se puede demostrar que la variable aleatoria
X  X
t=
* sX
n
sigue una distribución t de Student, con ν = n-1 grados de libertad.
Por la relación existente entre desviación estándar común y corregida de la

muestra:
n
n 1
*Sx = Sx
que puede escribirse como:
X  X
t=
sX
n 1
En general, la distribución t de Student corresponde a la siguiente relación:
Z
2 
t=
en donde z representa una variable aleatoria normal y 2 una variable aleatoria ji-
cuadrada independiente con v grados de libertad (ver adelante).
Cuando n es menor de 30, ya no se puede sostener la suposición de que la

distribución de muestreo del promedio aritmético es aproximadamente normal, a
75
menos que la variable aleatoria lo sea. Como la distribución t se deriva de
distribuciones basadas en la distribución normal, se exige que la muestra
provenga de una población normal cuando n es pequeño.
La distribución t de Student es muy parecida a la normal. La media de la

distribución t también es igual a 0 y su desviación estándar es mayor que 1,
dependiendo del tamaño de muestra n.
Dado que en el límite, cuando n tiene a infinito, *Sx tiene el mismo valor que x, la
distribución t de Student tiene como límite a la distribución normal estándar a la
cual se va acercando conforme vaya aumentando n.
La siguiente figura muestra las distribuciones t de Student y normal estándar.
tn2 > tn1
tn1
Figura 6.8 Distribución t de student para diferentes valores de n.
Como en el caso anterior, se parte del hecho que P(-tc < t < tc) = 1 -  , en donde t
confianza preestablecida 1 - .
queda definido como en la ecuación anterior, y en donde tc depende de la
6.1.3. Distribuciones de muestreo para otros estadísticos
Las distribuciones de muestreo teóricos z y t, estudiadas en el capítulo anterior, no

solamente se ajustan a la distribución de muestreo del promedio aritmético, si no
también a las distribuciones de muestreo de la diferencia de promedios
aritméticos, de proporciones y de diferencias de proporciones.
Muchas veces se quiere comparar los promedios de 2 conjuntos independientes

de observaciones, con el fin de determinar si parecen proceder de la misma
población. En este caso, es de interés encontrar la distribución de muestreo de la
diferencia de los promedios aritméticos ̅ y ̅ , correspondientes a 2 muestras de
76
tamaño nx y ny respectivamente, provenientes de 2 poblaciones relativas a las
variables X y Y.
Cuando nx y ny son mayores que 30, se sabe que tanto ̅ como ̅ siguen una
distribución aproximadamente normal. Tomando en cuenta que la suma algebráica
de 2 variables aleatorias normales también es normal, se puede considerar que el
estadístico ̅ - ̅ también sigue una distribución normal.
Para inferencias acerca de la proporción binomial p de éxitos, es decir, la

proporción de elementos en la población que tienen cierta característica, se utiliza
la distribución de muestreo de la proporción de la muestra p = Y/n, donde Y es el
número de observaciones de una muestra de tamaño n que tiene la característica
normal, con p = p y 2p = pq/n.

de interés. Se puede demostrar que, si n es grande, p es aproximadamente
Por otro lado, la distribución de muestreo teórica de la varianza muestral Sx2 no

puede ser normal, debido a que Sx2 no puede ser negativa. En efecto, cuando Sx2
es la varianza de una muestra tomada de una población normal con varianza x,
se puede emplear una distribución ji-cuadrada con  = n-1 grados de libertad para
inferencias sobre la varianza poblacional.
Finalmente, para determinar si dos conjuntos de observaciones (de nx y ny datos

respectivamente), distribuidas normalmente, parecen extraídos de la misma
distribución, se puede utilizar la distribución de muestreo de la relación de las
varianzas muestrales (*Sx2 y *Sy2) correspondientes a cada uno de las muestras X
y Y, que sigue una distribución F de Fisher con nx –1 grados de libertad en el
enumerador y ny –1 grados de libertad en el numerador. La distribución F, como la
distribución ji-cuadrada, solamente puede tomar valores positivos.
Es importante notar que, cuando la población de origen NO es normal, se deben

usar técnicas de estadística no paramétrica para inferir acerca de la varianza de la
población o acerca de una relación de varianzas, debido a que en este caso las
distribuciones de muestreo de la varianza y de la relación de varianzas no se
sucede para inferencias sobre x (o diferencia de medias), cuando el tamaño de la

pueden ajustar a una distribución ji-cuadrada y F respectivamente. Lo mismo
muestra es pequeño y la distribución de origen no es normal.
6.4. El concepto de intervalo de confianza
El proceso de estimación por intervalos es aquel en el cual el parámetro de una

población que se va estimar se encuentra entre dos valores con cierta
probabilidad. A este intervalo se le llama Intervalo de confianza.
P{A <  < B} = 1 -  ; 0 < 1 -  < 1
77
estableciéramos un intervalo de confianza de (1 - )% para cada muestra,
Si se obtiene repetidamente una muestra de tamaño n de la población y
esperaríamos que el (1 - )% de los intervalos contenga el verdadero valor de .
del parámetro , y sea s la desviación estándar (conocida o estimada) de su

Sea S una estadística obtenida de una muestra de tamaño n para estimar el valor
distribución de muestreo. La probabilidad, 1 - , de que el valor de  se localice

en un intervalo de S – zcs a S + zcs, donde zc es una constante, se escribe de la
forma
PS  Zcs    S  Zcs   1  
Si se fija el valor de 1 - , se puede obtener el valor de zc necesario para que se
del parámetro , (S – zcs, S + zcs), correspondiente al nivel de confianza 1 - .

satisfaga la ecuación anterior, con lo cual queda definido el intervalo de confianza
La constante � que fija el intervalo de confianza se conoce como valor critico.

Si la distribución de S es normal, el valor de � correspondiente a uno de � se
obtiene de la tabla de áreas bajo la curva normal
Ejemplo
probabilidades o niveles de confianza de que  x o (  de la población) se

Sea el promedio aritmético x una estadística con distribución normal. Las
encuentre localizada entre los límites de x   x , x  2 x , y x  3 x son 68.26, 95.44

y 99.73%, respectivamente, obteniéndose dichos valores de la tabla de áreas bajo
la curva. Lo anterior significa que el intervalo x  3 x contendrá a  x en el 99.73
 son x   x , x   x 
por ciento de las muestras de tamaño n, por lo que los intervalos de confianza de
68.26, 95.44 y 99.73 por ciento para estimar a
x  2 x , x  2 x  y x  3 x , x  3 x , lo cual se aprecia en la figura siguiente
Figura A
Cuando se estima la media de la población µX, se encuentra entre dos valores
78
  
P X   X  X   1  

 
Los límites de confianza para la media de una población con variable aleatoria X
asociada están daos por ̅ ± � � ̅ donde � depende del nivel de confianza
deseado. Si ̅ tiene distribución normal, � puede obtenerse en forma directa de la
tabla.
Por ejemplo, los límites de confianza de 95 y 99 % para estimar la media, , de la

población son ̅ ± . � ̅ y ̅ ± . � ̅ , respectivamente. Al obtener estos límites
hay que usar el valor calculado de ̅ para la muestra correspondiente.
Entonces, los límites de confianza para la media de la población quedan dados por
�
̅± � √� en caso de que el muestreo se haga a partir de una población infinita o
de que se efectúe con remplazo a partir de una población finita, o por ̅ ±
� �� −�
� √� √ � − si el muestreo es sin remplazo a partir de una población finita de
�
tamaño NP.
6.5 Concepto de la prueba de hipótesis

Un problema diferente al de la estimación de parámetros, es constatar, a través de
la información contenida en una muestra, la veracidad de alguna afirmación
acerca de la población. El procedimiento para resolver este problema se conoce
como “Prueba de Hipótesis”.
Antes de explicar este tipo de procedimiento, es necesario precisar algunos

conceptos tales como el de Hipótesis Estadística, y algunos otros relacionados
con la posibilidad de error.
Definición 6.5.1
Una hipótesis estadística es una afirmación acerca de alguna característica de la

distribución de la población. Estas afirmaciones pueden referirse ya sea al valor de
algún parámetro de la distribución, o aún a la forma misma de la distribución.
Iniciaremos con las hipótesis referentes a parámetros poblacionales.
Lo primero que tenemos que precisar es que el planteamiento de una prueba de

hipótesis consta del planteamiento de dos hechos posibles: el que se supone que
ocurre (Hipótesis bajo prueba: H0), y aquel que se presenta cuando el primero
79
no ocurre (Hipótesis alternativa: H1)., es por decir así, el complemento de la
hipótesis H0 .
Sin embargo, y dado que no se conoce toda la población, sino solamente una
muestra obtenida de ella, este procedimiento solamente nos permitirá decidir si se
tiene evidencia para pensar que la hipótesis bajo prueba parece ser cierta, esto
es, si los datos no muestran claramente resultados que sean incongruentes con la
hipótesis H0 . Esto significa que no podemos tener certeza absoluta en nuestra
conclusión, sino que podemos estar equivocados. Esta posibilidad de error la
mediremos como una probabilidad, y desde luego, queremos que sea pequeña.
Pero, ¿a cuál error nos referimos? Porque por la aplicación de este procedimiento
podemos cometer cualquiera de los dos errores siguientes. Veamos.
ERROR TIPO I: Si la característica planteada en H0 se cumple (si H0 es

cierta), y como resultado de nuestro procedimiento de
prueba, se concluye que los datos dan evidencia para
pensar que no es así. Esto es “se rechaza H0 cuando H0 es
cierta”.
“tamaño del error tipo I”, y se denota por .

La probabilidad del error tipo I se conoce también como
ERROR TIPO II: Si la característica planteada en H0 no se cumple (es falsa),

y como resultado de nuestro procedimiento de prueba, se
concluye que los datos dan evidencia para pensar que H 0 se
cumple. Esto es “no se rechaza H0 cuando H0 es falsa”.
“tamaño del error tipo II”, y se denota por .

La probabilidad del error tipo II se conoce también como
Ambos errores son distintos, pero no igualmente graves, por lo tanto sus tamaños
serán también diferentes. ¿Cuál tomar entonces como base? El procedimiento
ese tamaño , se minimice el tamaño del error tipo II, .

toma como base el tamaño del error tipo I, y el procedimiento permite que para
Por lo anterior, para llevar a cabo una Prueba de Hipótesis, es indispensable
decir, se debe definir un valor para . Este valor es una característica de la

definir, en primer lugar, qué tan grande puede aceptarse que sea el error tipo I, es
prueba, y recibe el nombre de nivel de significancia de la prueba.
Finalmente, se debe establecer el criterio que nos permita decidir si las diferencias
que existan entre la estimación del parámetro y el valor (o valores) propuesto(s)
para él es suficientemente grande para pensar que parece no cumplirse H 0 . Sin
embargo, el criterio de decisión depende no solamente de H 0 , sino que puede
pensarse que estará definido por la hipótesis alternativa H1 , ya que el decidir que
H0 parece falsa ( rechazar H0 ) es en favor de la hipótesis H1 (pensar que H1
parece ser cierta).
80
Existen básicamente dos tipos de hipótesis:
■ Las hipótesis simples, que especifican un valor preciso para el

parámetro bajo prueba (  = 0 ).
■ Las hipótesis compuestas, que especifican un rango de valores para el

parámetro bajo prueba (  0 ,  < 0 ,   0 ,  > 0 ,   0).
Por lo anterior, se pueden identificar tres planteamientos comunes para las

pruebas de hipótesis, a saber:
Pruebas de dos colas
Se llaman así porque la región de rechazo de la hipótesis H 0 está conformada,

como se muestra en la gráfica que sigue, por las dos colas de la distribución ya
darán indicios para pensar que el valor del parámetro  es distinto del valor
que tanto los valores grandes como los pequeños del estadístico de prueba nos
supuesto, 0 .
El planteamiento es el siguiente:
H0 :  = 0
H1 :   0
vs
Región
de Acep-
tación
(1-)
C C
1 2
La curva que se muestra en la gráfica es la distribución del estadístico que se
aceptación es igual a 1 - , en tanto que el área bajo las colas de la distribución es

utilizará para la prueba, cuando la hipótesis H0 es cierta. El área de la región de
. Dicha región de aceptación – o tal vez más propiamente región de no rechazo -

está limitada por abajo, por el valor C1 y por arriba por C2 , los cuales se conocen
como valores críticos.
Pruebas de una cola
Estas pruebas reciben este nombre porque la región de rechazo de la hipótesis H 0

está conformada, como se muestra en la gráfica que sigue, ya sea por la cola
81
superior, o bien por la cola inferior de la distribución, dependiendo de cuál sea la
hipótesis alternativa, la cual nos indicará si los valores grandes del estadístico de
parámetro  es distinto del valor supuesto, 0 .

prueba o bien los pequeños nos darán indicios para pensar que el valor del
El planteamiento es el siguiente:
H0 :   0
H1 :  < 0
vs
Región
de Acep-
tación
(1-)
C
1
En este caso, la región de rechazo está limitada solamente por arriba por el valor
C1 , esto es, existe un solo valor crítico.
H0 :   0
O bien,
H1 :  > 0
vs
Región
de Acep-
tación
(1-)
C
1
En este caso la región de rechazo de H0 está limitada solamente por abajo por el
valor C1 , esto es, existe un solo valor crítico. Como lo muestra la gráfica, la
región de rechazo de la prueba es la cola superior de la distribución, es decir,
serán los valores grandes del estadístico los que nos llevarán a pensar que se
cumple la hipótesis alternativa.
El procedimiento de prueba de hipótesis es el siguiente:
82
1. Determinar el nivel de significancia  .
2. Definir el parámetro sobre el que se quiere probar.
3. Plantear las hipótesis H0 y H1.
4. Construir un estadístico3 que tenga distribución completamente conocida, y
que involucre como único parámetro desconocido al que se quiere probar.
5. A partir de la distribución del estadístico construido en el paso 4, determinar el
(los) valor(es) crítico(s), según corresponda a la prueba planteada, tal como se
indicó antes.
6. Evaluar el estadístico de prueba con los datos de la muestra disponible
suponiendo además que H0 es cierta.
7. Si el valor calculado para el estadístico está dentro de la región de aceptación,
se decidirá NO RECHAZAR H0 por parecer cierta. Si por el contrario el valor
calculado para el estadístico está dentro de la región de rechazo, se decidirá
RECHAZAR H0 por parecer falsa optando entonces, por no rechazar la hipótesis
H1 .
Ejemplo 6.5.1
Se realizó un estudio psicológico para comparar los tiempos de reacción de

hombres y de mujeres con respecto a cierto estímulo. Se utilizaron en el
experimento muestras aleatorias independientes de 50 hombres y 50 mujeres. Los
resultados se muestran a continuación. ¿Presentan estos datos evidencia
suficiente para sugerir una diferencia entre los promedios verdaderos de los
tiempos de reacción para hombres y mujeres? Utilice un 5% de significancia.
Hombres Mujeres
n1 = 50 n2 = 50
y 1 = 3.6 segundos y 2 = 3.8 segundos
s12 = 0.18 s 22 = 0.14
Solución:
El nivel de significancia solicitado es  = 0.05 , y se desea probar sobre la

diferencia de medias, es decir, se quiere probar que 1 = 2 . Por tanto, la prueba
de hipótesis se plantea como sigue:
H0 : 1 - 2 = 0
H1 : 1 - 2  0
vs
Si seleccionamos de la tabla de estadísticos de uso común, aquel que involucre a

la diferencia de medias. Aun cuando no se conocen los valores de las varianzas
poblacionales, utilizaremos a los valores s1 y s 2 como 1 y  2 , debido a que tanto
2 2 2 2
3 En este punto se suele utilizar el estadístico que más convenga, de aquellos que se muestran en la tabla del Anexo B.
83
la muestra de hombres como la de mujeres son grandes (n 1 > 30 y n2 > 30), por
lo tanto, el estadístico que utilizaremos es
Y1 - Y2 -  1 -  2 
12  22
~ N ( 0, 1)

n1 n 2
Por el planteamiento de las hipótesis, la prueba es una prueba de dos colas, es

decir, de las tablas de distribución Normal Estándar, debemos determinar dos
valores críticos, z0 y z1 de manera que la probabilidad bajo la distribución normal
estándar y entre esos valores sea igual a 0.95.
De la tabla se obtiene que z0 = -1.96 y z1 = 1.96
Y la región de rechazo es el la unión de los intervalos ( - , -1.96 ] y [ 1.96 ,  )

Por lo tanto la región de aceptación es el intervalo [ -1.96 , 1.96 ]
Evaluando el estadístico con la muestra, se tiene que el valor calculado es
3.6 - 3.8 - 0 
= -2.5

0.18 0.14
50 50
Como –2.5  ( - , -1.96 ] que es parte de la región de rechazo, se concluye que

los datos dan evidencia para pensar que las medias de las dos poblaciones son
distintas.
6.6 Concepto de pruebas de bondad de ajuste
Suponga que se tiene una muestra aleatoria de n observaciones x1, x2, …, xn,
independientes y distribuidas en forma idéntica, de una variable aleatoria X con
distribución no especificada. El problema general del ajuste de distribuciones debe
concluir con la prueba de la hipótesis
H0: f(x) = f0(x) vs H1: f(x)  f0(x)
La prueba de hipótesis anterior se puede realizar mediante métodos no

paramétricos o paramétricos; los primeros en general son sencillos de aplicar,
aunque los últimos ofrecen un tratamiento matemático más riguroso y por tanto
son generalmente preferidos en algunos ámbitos de aplicación. Sin embargo, en
muchos contextos como los de las ciencias sociales suelen preferirse los métodos
no paramétricos que aportan facilidad y potencia de la prueba casi tan elevada
como la de los métodos paramétricos, en general más complejos.
84
La prueba de bondad de ajuste de Kolmogorov – Smirnov es una prueba no
paramétrica muy utilizada que permite verificar, con base en una muestra y cierto
grado de certidumbre, si se puede sostener la afirmación de que la población se
comporta conforme a la distribución planteada.
Esta prueba consiste en comparar el comportamiento acumulativo que presentan

los datos observados, con el que se esperaría que tuvieran si la distribución fuera
la que se está suponiendo. Después de determinar la magnitud de las diferencias
entre lo observado y lo esperado se decide si dichas diferencias se pueden
considerar grandes o no. En caso de que no sean significativamente grandes se
piensa que las diferencias pueden deberse a la aleatoriedad del fenómeno bajo
estudio y no a que la suposición hecha acerca de la distribución del experimento
sea incorrecta.
El desarrollo de la prueba es como sigue:
1) Se deben ordenar en forma creciente todos los datos en la muestra de manera

que cada uno aparezca solamente una vez en la lista. Este paso dará como
resultado una lista de datos x1 , x2 , x3 , ... , xr .
2) Agregar una columna (frecuencia) en la que se indique cuántas veces aparece

cada dato.
3) Calcular Sn(x), la frecuencia acumulada relativa de ese dato, es decir la

proporción de los datos en la muestra que son menores o iguales al dato x.
Sn ( xr ) =  i
r f
Esto es,
i 1 n
4) Utilizar la distribución supuesta para calcular el valor de la función de

distribución para cada uno de los valores xi [ F0 ( xi )]. Este valor de la función
de distribución es exactamente la frecuencia acumulada relativa esperada de
cada valor xi si la distribución verdadera fuera la supuesta.
5) Finalmente haremos la comparación de frecuencias mediante el cálculo de la

diferencia. Sin embargo, solo nos interesa saber la magnitud de la diferencia,
que no el sentido de ella, por lo cual calcularemos el valor absoluto de la
diferencia.
| Sn ( xr ) – F0 ( xr ) |
6) Dado que en general la diferencia será distinta para cada xr , el valor que
utilizaremos para realizar la prueba, el cual se conoce como estadístico de
prueba, será la diferencia máxima, es decir,
Dn = max S n ( x r ) - F0 ( x r )
xr
85
Dicho valor Dn será comparado con los valores críticos que se muestran en las
tablas de Kolmogorov – Smirnov (Anexo C).
7) La decisión se toma como sigue: a partir de la probabilidad α de error (error

tipo I ) que se está dispuesto a tolerar en la conclusión, y dependiendo del
tamaño de la muestra, se determina el valor c / n ( en donde c es una
constante y n es el tamaño de la muestra ) que marca la frontera entre lo que
se considerará grande y lo que se puede considerar pequeño. En el caso en
que Dn sea más grande que dicho valor c / n , se deberá concluir que la
distribución de la población no parece ser la propuesta, con un nivel de
significancia α. En caso contrario se concluirá que la distribución sí parece ser
la propuesta.
Ejemplo 6.5.1:
La demanda diaria, en unidades de un producto, durante 30 días de trabajo es:
38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56
¿Se puede considerar que dicha demanda tiene una distribución normal con
media 50 y desviación estándar 10?
Solución:
demanda
Media 51.5
Error típico 2.58677005
Mediana 51.5
Moda 48
Desviación estándar 14.1683231
Varianza de la muestra 200.741379
Curtosis -0.70604745
Coeficiente de asimetría -0.00300069
Rango 53
Mínimo 25
Máximo 78
Suma 1545
Cuenta 30
86
Marcas de clase Frecuencia
23 0
31.5 2
40 5
48.5 6
57 6
65.5 5
74 4
82.5 2
y mayor... 0
Con base en la gráfica y en los parámetros calculados de la muestra, no parece

haber argumentos fuertes para suponer que la distribución no sea normal, sin
embargo, tampoco son una prueba formal de tal hecho. Planteemos entonces una
prueba de hipótesis y consideremos un 5% de significancia.
Dn = Sn(x) -F0(x)
Frecuencia Frec. Acum. Relat. Frec. Acum. Relat. Diferencia
Demanda
observada observada Sn(x) esperada F0(x)
25 1 0.0333 0.0062 0.0271
28 1 0.0667 0.0139 0.0528
32 1 0.1000 0.0359 0.0641
33 1 0.1333 0.0446 0.0887
35 1 0.1667 0.0668 0.0999
36 1 0.2000 0.0808 0.1192
38 1 0.2333 0.1151 0.1182
42 1 0.2667 0.2119 0.0548
44 2 0.3333 0.2743 0.0593
47 1 0.3667 0.3821 0.0154
48 2 0.4333 0.4207 0.0126
49 1 0.4667 0.4602 0.0065
51 1 0.5000 0.5398 0.0398
52 1 0.5333 0.5793 0.0460
53 1 0.5667 0.6179 0.0512
56 1 0.6000 0.7257 0.1257
57 1 0.6333 0.7580 0.1247
58 2 0.7000 0.7881 0.0881
59 1 0.7333 0.8159 0.0826
61 1 0.7667 0.8643 0.0976
63 1 0.8000 0.9032 0.1032
66 1 0.8333 0.9452 0.1119
67 1 0.8667 0.9554 0.0887
69 1 0.9000 0.9713 0.0713
72 1 0.9333 0.9861 0.0528
76 1 0.9667 0.9953 0.0286
78 1 1.0000 0.9974 0.0026
87
El valor calculado del estadístico de prueba de Kolmogorov es Max D n = 0.1257,
n
en tanto que el valor crítico del estadístico, obtenido de la tabla es 0.24. Como el
valor calculado del estadístico es menor que el valor crítico, la hipótesis bajo
prueba de que X ~ N(50, 100) no se rechaza, es decir, con base en la evidencia
de los datos, no habría razón alguna para pensar que la distribución de X no es la
propuesta “N(50, 100)”.
88
Anexo A
Distribución normal estándar acumulada
z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
89
Distribución normal estándar acumulada
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
90
Anexo B Tabla de distribuciones de los estadísticos de uso más común.
Parámetro Situación Distribución del
Estadístico
a estimar particular estadístico
X μ
σ2
Media conocida σ N(0,1)
n
 X μ
Poblacional
σ2
t – student con
desconocida S
n n -1 grados de libertad
n < 30
 n - 1 S2
Varianza
Ji – cuadrada con
2
Poblacional
σ2 n -1 grados de libertad
ˆ p
ˆ Y
Proporción P
ˆ (1  P
P
Poblacional n P ˆ) N(0,1)
X1  X 2  μ1  μ 2 
P n > 30 n
Se conocen las

varianzas
poblacionales σ 12 σ 22 N(0,1)
 12  22
X1  X 2  μ1  μ 2 
y n1 n 2
Diferencia de No se conocen 
1 1
las varianzas Sp t – student con
n1 n 2
 12  22
las medias n1 + n 2 – 2
de dos y
 12 =  22
 n1 - 1 S12   n2 - 1S22
en donde, grados de libertad
1 - 2 Sp2 
poblaciones
n1 , n2 < 30 n1  n2  2
X1  X2  μ1  μ2 
t – student con
 grados de libertad
S 
No se conocen
n1  S22 n2
S   S 
las varianzas
 12  22  
2 2
y S12 S22 1
-2
 12 ≠  22
2 2 2 2
n1 n2 n1 n2
n1  1 n2  1
1 2
Cociente de F – Fisher con

Varianzas n2 –1 grados de libertad
 12
σ12 S22
σ 22 S12
en el numerador y
 22
n1 – 1 en el
denominador
P̂1 
Y1
Pˆ1  Pˆ2   p1  p 2 
Diferencia de n1
P̂2  2 p1 1  p1  p 2 1  p 2 
Proporciones Y

N(0,1)
poblacionales n2
p1 – p2 n1 n2
n1 , n2 > 30
91
Anexo C
Tabla de valores críticos de la distribución del estadístico Dn.

Fuente: F. J. Massey, Jr., The Kolmogorov-Smirnov test for goodness of fit, J. Amer Statistical Assoc. 46 (1951), 68 – 78.
1–α
n 0.80 0.85 0.90 0.95 0.99

1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
6 0.410 0.436 0.470 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490
11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.283 0.304 0.338 0.404
16 0.258 0.274 0.295 0.328 0.392
17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356
25 0.210 0.220 0.240 0.270 0.320
30 0.190 0.200 0.220 0.240 0.290
35 0.180 0.190 0.210 0.230 0.270
Fórmula 1.07 1.14 1.22 1.36 1.63
para una n
n n n n n
mayor
92
Referencias
Wackerly D. D., Mendenhall W., Scheaffer R. (2002), Estadística matemática con

aplicaciones, sexta edición, Thomson editores.
Devore J. L.(2011). Probabilidad y estadística para ingeniería y ciencias, sexta

edición,Thomson Learning.
Montgomery D. C. (2010).Probabilidad y estadística aplicada a la ingeniería,

tercera edición, John Wiley & Sons.
Mendenhall W., Sincich T. (2007), Statistics for engineering and the sciences,
Pearson Prentice-Hall.
Walpole, R.E., et al. (2012), Probabilidad y Estadística para ingeniería y ciencias,

Pearson Prentice-Hall.

Probabilidad y Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Probabilidad y Estadistica

Cargado por

Copyright:

Formatos disponibles

Departamento de Ingeniería de Sistemas

Curso de preparación para el ingreso a la

Dra. Isabel Patricia Aguilar Juárez

La doctora Patricia Aguilar es actuaria por la Facultad de Ciencias de la

Ha impartido más de 20 materias en ciencas básicas, licenciatura y maestrías de

La maestra Ann Wellens terminó sus estudios de ingeniería química industrial en

Francisca Irene Soler Anguiano

La maestra Soler estudió la licenciatura en Química de la Universidad de Sonora,

Desde su ingreso en la UNAM, la maestra soler ha dirigido más de 28 tesis, la

Capítulo 1: Estadística descriptiva 1

1.1. Tipos de datos 1

Capítulo 2: Experimentos aleatorios 18

Capítulo 3: Teoría de probabilidades 20

3.1. Definiciones de probabilidad 20

Capítulo 4: Variables aleatorias discretas y continuas 28

Capítulo 5: Modelos probabilísticos 48

Capítulo 6: Elementos de inferencia estadística 65

6.1. Teorema del límite central 65

Anexo A Tabla de distribución normal 89

La estadística descriptiva es un conjunto de técnicas que tienen por objeto organizar y

- Distribución de frecuencias (agrupamiento de datos)

Como se mencionó antes, la estadística descriptiva es un conjunto de técnicas, pero cabe

1.1. Tipos de datos

Por lo mencionado anteriormente, es necesario entonces identificar entre datos

Los datos cualitativos se refieren, como su nombre lo dice, a información sobre

Describiremos a continuación cada una de las técnicas de la estadística descriptiva.

Las investigaciones experimentales en ingeniería y ciencias implican el empleo de datos

Dada entonces la diversidad de conformaciones de las poblaciones, existen diferentes

La obtención de muestras aleatorias mediante muestreo aleatorio simple, se consigue

1.3. Distribución de frecuencias

La construcción de tablas de distribución de frecuencias es una técnica muy usual en la

Una tabla de distribución de frecuencias es una clasificación de los datos

Existen diversas técnicas de construcción de tablas de distribución de frecuencias,

Este tipo de clasificación es común en la presentación de datos económicos censales, por

Un ejemplo típico de una tabla de distribución de frecuencias es la que se muestra a

Si aceptamos que en la construcción de una tabla de distribución de frecuencias se

Frecuencia (fi): Es el número de datos en la muestra que corresponden a la clase en

Frecuencia relativa (fi*): Es la proporción de los datos en la muestra que pertenecen a la

Lontigud de la clase: Se denota por c y es la diferencia entre el límite superior y el inferior

Para la construcción de una tabla de distribución de frecuencias es conveniente tomar en

1.- El número de clases que se construirán será m ≈ √� .

Considere los siguientes números de inscripción de algunos estudiantes de la Facultad de

1045 802 2265 120 639 1882 210 120

Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la

Rango: 5,308 - 55 = 5,253

En nuestro caso consideremos c = 750.

Límites Marcas de Frecuencia Frecuencia Frec. Acum.

1.4. Descripción gráfica de los datos

En realidad para la mayoría de las personas es más claro comprender cuál es el

1.4.1. Histograma de frecuencias

A continuación en la Ilustración 1 se muestra el histograma de frecuencias absolutas para

5675 1175 1925 2675 3425 4175 4925 5675

Ilustración 2 Histograma de frecuencias con dos ejes

1.4.2. Polígono de frecuencias

5675 1175 1925 2675 3425 4175 4925 5675

Considere la siguiente tabla de distribución de frecuencias. Trace la ojiva correspondiente.

Límites xi fi Fi fi* Fi*

1.5. Medidas descriptivas

Los parámetros numéricos o medidas descriptivas de una muestra son valores

- Medidas de tendencia central

Presentaremos solamente los parámetros numéricos que más comúnmente se utilizan.

La media aritmética es probablemente la medida de tendencia central de uso más

a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran sin