Estadística Pucp

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
Facultad de Ciencias e Ingenierı́a
ESTADÍSTICA APLICADA
Notas de clase
Luis Hilmar Valdivieso Serrano
2017
Introducción
El presente trabajo está basado en las antiguas notas de clase del curso de Estadı́stica Aplicada,
el cual según el nuevo plan de estudios se subdivide ahora en los cursos de Estadı́stica Aplicada 1
y Estadı́stica Aplicada 2. Estas notas son la sı́ntesis de varios semestres de cátedra que el autor ha
desarrollado en la Facultad de Ciencias e Ingenierı́a de la Pontificia Universidad Católica del Perú. Si
bien el curso está principalmente dirigido a estudiantes de Ingenierı́a Industrial, su contenido puede
ser también útil para estudiantes o profesionales de otras áreas de la Ingenierı́a, la Administración o
la Economı́a.
La Estadı́stica, como campo de estudio, se puede definir como el arte y la ciencia de dar sentido
a los datos. Ella nos proporciona un conjunto de métodos, técnicas o procedimientos para recopilar,
organizar, presentar y analizar datos a fin de describirlos o realizar con ellos generalizaciones válidas.
Estos aspectos resultan invaluables para todo profesional, pues es finalmente la evidencia empı́rica
la que brinda al profesional la información necesaria para que tome decisiones.
Los tópicos que cubriremos en el curso recaen básicamente en el análisis de los datos e intentan dar
una introducción a las distintas técnicas estadı́sticas que se emplean en campos tan diversos como el
control de calidad, la investigación de operaciones, la simulación de sistemas, la teorı́a de decisiones y
la planificación entre otros. Dada la gran diversidad de aplicaciones en el campo Industrial, no existe
en la actualidad un texto que englobe de manera fundamentada, práctica y aplicada tales puntos.
Estas notas de clase, que pretenden precisamente cubrir tal vacı́o, introducen también como novedad
el uso intensivo del software estadı́stico libre R.
Prof. Luis Valdivieso

Índice general
1. ESTADÍSTICA DESCRIPTIVA 1
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Organización de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3.1. Distribución de frecuencias para el caso cualitativo . . . . . . . . . . . . . . . . 3
1.3.2. Distribución de frecuencias para el caso cuantitativo discreto . . . . . . . . . . 4
1.3.3. Diagramas de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.4. Distribución de frecuencias para el caso cuantitativo continuo . . . . . . . . . . 7
1.4. Una breve introducción a R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1. La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.5.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.6. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.7. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7.1. La varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7.2. La desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7.3. El Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7.4. El Rango intercuartı́l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7.5. El coeficiente de variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.8. Medidas de asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.8.1. El coeficiente de asimetrı́a de Pearson . . . . . . . . . . . . . . . . . . . . . . . 28
1.8.2. El coeficiente de asimetrı́a de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 29
1.9. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.9.1. El coeficiente de curtosis de Pearson . . . . . . . . . . . . . . . . . . . . . . . . 30
1.9.2. El coeficiente de curtosis de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.10. Puntajes estandarizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.11. Tratamiento con datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.12. Diagramas de cajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.13. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3
2. NOCIONES DE PROBABILIDAD 45
2.2. Definición axiomática de probabilidad y propiedades . . . . . . . . . . . . . . . . . . . 46
2.3. Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.1. Definición clásica de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.2. Definición frecuencial de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 49
2.4. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5.1. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5.2. Los teoremas de probabilidad total y Bayes . . . . . . . . . . . . . . . . . . . . 56
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3. VARIABLES ALEATORIAS 63
3.2. Funciones de probabilidad, densidad y distribución . . . . . . . . . . . . . . . . . . . . 64
3.3. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4. Distribuciones discretas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.2. Distribución de Pascal o binomial negativa. . . . . . . . . . . . . . . . . . . . . 69
3.4.3. Distribución hipergeométrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.4. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5. Distribuciones continuas importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.1. Distribución uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.2. Distribución exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.3. Distribución gamma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.5.4. Distribución beta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.5. Distribución de Weibull. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.6. Distribución normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5.7. Distribución lognormal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6. Distribuciones y R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7. Aplicación a la confiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4. DISTRIBUCIONES MUESTRALES 91
4.1. Propiedades de la distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Distribuciones muestrales asociadas a la normal . . . . . . . . . . . . . . . . . . . . . . 92
4.2.1. La distribución chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.2.2. La distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.3. La distribución F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
0
4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.3.1. Corrección por finitud y tamaños de muestra . . . . . . . . . . . . . . . . . . . 98
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5. CONTRASTES DE HIPÓTESIS 107

5.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.2. Tamaños de muestra y curvas OC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3. Muestreo por aceptación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
A. Tablas estadı́sticas 119

Capı́tulo 1
ESTADÍSTICA DESCRIPTIVA
1.1. Introducción
Como comentamos la Estadı́stica es la ciencia y el arte de dar sentido a los datos. Si bien algunos
autores consideran la Estadı́stica como una rama de las Matemáticas en la que se requieren hacer
ciertos cálculos, no existe siempre una regla fija de como hacer estos y por tanto uno podrı́a imaginar
y utilizar diversas herramientas para tal fin, muy en especial cuando la intención es mostrar lo que
los datos esconden. En tal sentido, el pensamiento estadı́stico difiere al matemático y su dominio
recae mucho en la práctica y el conocimiento del problema a enfrentar.
Desde una clasificación muy general uno podrı́a hablar de Estadı́stica Descriptiva y de Estadı́stica
Inferencial. La primera, como su nombre lo indica, busca simplemente describir o encontrar patrones
en un conjunto de datos; mientras que la segunda busca extrapolar resultados a una población en
base a las observaciones que se realicen de una parte de ella (muestra). Para que ello sea posible
y podamos confiar en tales resultados es necesario que la muestra sea probabilı́stica, en el sentido
de que siempre podamos saber con que probabilidad cualquier elemento en la población será se-
leccionado. Nuevamente, el esquema de selección que garantice que la muestra represente bien a
la población dependerá de distintos criterios que artı́sticamente el estadı́stico deberá de diseñar o
controlar. En nuestro curso, por simplicidad, tal esquema será usualmente el de una asignación com-
pletamente al azar; es decir, en el cual cualquier elemento en la población tendrá la misma chance
de ser seleccionado.
1.2. Conceptos básicos

Consideremos una población o conjunto de elementos que poseen al menos un atributo en común,
sobre los cuales deseamos investigar una o más caracterı́sticas. El número de elementos que conforman
una población lo denotaremos siempre con la letra N . Ejemplos de población podrı́an ser las bolsas
de cemento producidas en un dı́a por una fábrica, los hogares de una región, los alumnos que estudian
Ingenierı́a Industrial en la PUCP, etc. Una muestra es, por otro lado, un subconjunto de la población.
1
2
La Estadı́stica engloba un conjunto de métodos cientı́ficos destinados a la recolección, organi-

zación, análisis e interpretación de los datos con la finalidad de mejor describirlos y/o de realizar
con ellos conclusiones válidas que sirvan luego para tomar decisiones. Un concepto clave aquı́ es el
de dato, el cual esta definido como el valor que toma una variable estadı́stica, la cual a su vez es
definida como cualquier función que asigne a un elemento de la población un número que nos permi-
ta medir una caracterı́stica particular de tal elemento. Ejemplos de variables sobre las poblaciones
anteriormente definidas podrı́an ser
x = Peso de una bolsa de cemento de la producción de un dı́a de una fábrica,
y = Ingreso mensual de un hogar de una región
z = Nivel socioeconómico de un alumno de Ingenierı́a Industrial de la PUCP.
En adelante a un conjunto de n datos de una variable x, lo acostumbraremos denotar por
x1 , x2 , ..., xn
Si bien los datos son números (aunque a veces no parece ser necesario el usarlos y ocasionalmente
podrı́amos usar otros sı́mbolos o textos), ellos no pueden manipularse arbitrariamente si saber lo
que en realidad están midiendo. En tal sentido es importante clasificar, para un futuro análisis, a las
variables como resumidamente detallamos a continuación:
Variables cuantitativas: Toman valores numéricos con los que se pueden realizar operaciones
aritméticas. Se dividen en
• Discretas. Aquellas variables que toman un número enumerable finito o infinito de valo-
res. Usualmente se consideran números enteros.
• Continuas. Aquellas variables que pueden asumir cualquier valor dentro de un intervalo
de valores, por lo que pueden tomar un número no enumerable de valores.
Variables cualitativas: Toman como valores categorı́as que representan una clasificación en
la población. Si bien estas pueden representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
• Nominales: si no existe orden entre las categorı́as.

• Ordinales: si existe orden entre las categorı́as.
Algunos ejemplos de variables cualitativas son el genero, estado civil, profesión, nivel educativo,
nivel de satisfacción y liderazgo. De estas las tres primeras son nominales; mientras que las tres últi-
mas ordinales. De otro lado, algunos ejemplos de variables cuantitativas son el peso, la temperatura,
el tiempo de vida y el número de accidentes, donde sólo la última es discreta.
ESTADISTICA APLICADA Luis Valdivieso 3
1.3. Organización de datos

Una vez que hemos recolectado los datos de una muestra (cuestión de la cual se encarga la teorı́a
de muestreo) o de una población (censo), será necesario primero el poder organizar estos en una tabla
o distribución de frecuencias. Tal procedimiento dependerá del tipo de variable con la cual estemos
trabajando.
1.3.1. Distribución de frecuencias para el caso cualitativo
Si la variable es cualitativa, una tabla de frecuencias está constituida por una lista de sus posibles
categorı́as j acompañadas del número de veces nj , proporción fj o porcentaje pj de veces en que
estas ocurren. Si asumimos que la variable tiene k categorı́as usaremos la notación:
nj : frecuencia (absoluta) o número de veces que ocurre la categorı́a j.

nj
fj : frecuencia relativa o proporción de la categorı́a j, calculada como fj = n, siendo n el
número total de datos.
pj : porcentaje de la categorı́a j, calculado como pj = 100 × fj .

k
X k
X k
X
Naturalmente se cumple que: nj = n, fj = 1 y pj = 100.
j=1 j=1 j=1
La información contenida en una tabla de frecuencias se representará gráficamente mediante un:
Gráfico de barras. A cada categorı́a se la identifica con una barra cuya altura es proporcional a
la frecuencia con que ocurre. En este tipo de gráficos se suele dejar un espacio entre las barras
para indicar que se está presentando información de una variable cualitativa.
Gráfico de sectores circulares. A cada categorı́a se la representa por un sector del cı́rculo
proporcional a la frecuencia con que ocurre.
Ejemplo 1.1 Durante un mes se ha monitoreado el estado de la calidad del aire en una ciudad,
estos fueron los resultados:
Bueno Moderado Bueno Malo Moderado Malo
Malo Moderado Malo Moderado Malo Moderado
Moderado Moderado Moderado Malo Muy Malo Malo
Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo
Obtenga su distribución de frecuencias y los gráficos de barras y sectores circulares.
Solución: En este caso la variable x, que denota a la clasificación de la calidad del aire, es una variable
cualitativa de nivel ordinal. En este caso se sugiere ordenar las categorı́as desde la que represente al
menor valor hasta la del mayor valor. En el caso nominal el orden es arbitrario. La distribución de
frecuencias para los datos de esta variable viene dada por:
4
Categorı́as Frecuencia Frecuencia relativa Porcentaje

j nj fj pj
1 Muy Malo 1 0.0333 3.33
2 Malo 11 0.3667 36.67
3 Moderado 15 0.5 50
4 Bueno 3 0.1 310
Total 30 1 100
Esta puede también representarse gráficamente, ya sea por un gráfico de barras o por uno de sectores
circulares. Estas se ilustran en las Figuras 1.1 y 1.2.
Distribución de frecuencias del estado de la calidad del aire

14
12
10
Frecuencia
8
6
4
2
0
Muy Malo Malo Moderado Bueno
Figura 1.1: Gráfico de Barras
1.3.2. Distribución de frecuencias para el caso cuantitativo discreto
En este caso la distribución de frecuencias es similar al caso cualitativo, siempre que el número
de valores que tome la variable de interés no sea demasiado grande. La diferencia radica en la
representación gráfica y la posibilidad de también considerar no sólo frecuencias simples sino también
acumuladas1 . Estas ultimas las definiremos como:
Nj : Frecuencia (absoluta) acumulada para el valor j, calculada como el número de casos que
P
toman un valor menor o igual que j; esto es, Nj = jh=1 nh .
1
Opcionalmente estas podrı́an también considerarse para la distribución de frecuencias de una variable cualitativa
ordinal.
Distribución de la calidad del aire
Malo 36.7 %
Muy Malo 3.3 %
Bueno 10 %
Moderado 50 %
Figura 1.2: Gráfico de Sectores circulares
Fj : Frecuencia relativa acumulada para el valor j, calculada como la proporción de casos que
P
toman un valor menor o igual a j; esto es, Fj = jh=1 fh .
Pj : Porcentaje acumulado para la clase j, calculada como el porcentaje de casos que toman un
P
valor menor o igual que j; esto es, Pj = jh=1 ph ó Pj = 100 × Fj .
Ejemplo 1.2 En cierto distrito se registró durante un mes el número de accidentes de tránsito por
dı́a, encontrándose los datos siguientes:
1 2 0 3 1 0 1 0 4 2 1 1 2 0 1
1 0 3 1 1 0 2 1 0 4 0 1 2 2 2
Solución: Note que la variable subyacente x = número de accidentes de tránsito por dı́a es cuantitativa
discreta y puede tomar sólo los valores: 0, 1, 2, 3 y 4. A continuación presentamos la tabla de
frecuencias para el conjunto de datos dados:
Número de Frecuencia Frecuencia Porcentaje Porcentaje

accidentes nj relativa fj pj acumulado Pj
0 8 0.267 26.7 26.7
1 11 0.367 36.7 63.4
2 7 0.233 23.3 86.7
3 2 0.067 6.7 93.4
4 2 0.067 6.7 100
Total 30 1 100
6
La información contenida en esta tabla la representaremos ahora por un gráfico de bastones. Este
es básicamente un gráfico de barras que en lugar de barras utiliza bastones debido a que la cantidad
de valores que la variable de interés podrı́a tomar es usualmente mayor al del caso cualitativo.
Distribución de frecuencias del número mensual de accidentes en el distrito

10
8
Frecuencia
6
4
2
0
0 1 2 3 4
Figura 1.3: Gráfico de bastones
1.3.3. Diagramas de Pareto
Un diagrama de Pareto es similar a un gráfico de barras para frecuencias relativas o porcentuales

de una variable cualitativa; pero en la que el orden de las categorı́as de la variable son ordenadas de-
crecientemente de acuerdo a su frecuencia de izquierda a derecha. El diagrama incluye adicionalmente
una serie de rectas que unen las partes altas de las barras con sus frecuencias relativas o porcentuales
acumuladas. Estas frecuencias absolutas y frecuencias acumuladas se suelen escribir en el eje de las
ordenadas tanto a izquierda y como a derecha de la gráfica. La utilidad de este diagrama radica en
que este nos permite identificar un orden de prioridades o discriminar entre las causas principales de
un problema, basado en el principio de los pocos vitales y muchos triviales. Este extrapola, a otras
áreas, lo que Vilfredo Pareto postuló en su natal Italia: que el 20 % de los propietarios poseı́an el 80
% de las tierras, mientras que el restante 20 % de los terrenos pertenecı́a al 80 % de la población
restante. Es común por tanto también considerar en el diagrama una recta horizontal a la altura de
la frecuencia acumulada 0.8 u 80 %, la cuál nos permitirá identificar precisamente las categorı́as de
mayor relevancia en el problema.
Ejemplo 1.3 Consideremos la siguiente distribución de frecuencias de las fallas encontradas en los
productos devueltos por reclamo de garantı́a de un aparato electrónico,
Causa del problema Frecuencia

Juntas en las soldaduras 35
Cubierta de plástico 86
Fuente de alimentación 194
Configuración 20
Suciedad 8
Otros 2
Total 345
Obtenga e interprete el diagrama de Pareto para estos datos.
Solución: Como primer paso podrı́amos ordenar las categorı́as de la variable x = causa del problema,
desde la más frecuente a la menos frecuente incluyendo los porcentajes y porcentajes acumulados.
Ello nos da
Causa del problema Frecuencia Porcentaje Porcentaje acumulado

Fuente de alimentación 194 56.232 56.232
Cubierta de plástico 86 24.928 81.159
Juntas en soldaduras 35 10.145 91.304
Configuración 20 5.797 97.101
Suciedad 8 2.319 99.42
Otros 2 0.580 100
Total 345 100
Con ello el diagrama de Pareto será el mostrado en la figura 1.4.

Si tomamos el criterio del 80 % vemos que las causas más relevantes de fallas del aparato electróni-
co ante las devoluciones por el cumplimiento de garantı́a son las de la fuente de alimentación y la
cubierta de plástico de estos aparatos. 2
1.3.4. Distribución de frecuencias para el caso cuantitativo continuo
Si la variable de interés es cuantitativa continua difı́cilmente será posible encontrar dos valores
en el conjunto de datos que tomen exactamente el mismo valor. Por esta razón todo el tratamiento
anteriormente carecerı́a de sentido ya que prácticamente todas las frecuencias observadas serı́an 1
y tendrı́amos una tabla tan grande como el número de datos con el que contamos. Para solucionar
ello se acostumbra mas bien agrupar las observaciones en clases o intervalos. Una práctica común, es
convenir que los intervalos sean de igual longitud y naturalmente uno necesitará de más intervalos
mientras más datos tenga. Bajo esta convención el procedimiento para construir una distribución de
frecuencias por intervalos es el siguiente:
8
Figura 1.4: Diagrama de Pareto
Establecer el número de intervalos k, usualmente se consideran entre 5 y 10 intervalos, esta es

una decisión subjetiva y depende de la experiencia. De no tener una idea una sugerencia es
usar la regla de Sturges
k = 1 + 3.3 × log10 (n),
donde n es el número de datos y k se aproxima siempre a un número entero por exceso.
Determinar el rango de los datos; es decir, la longitud del menor intervalo, R =máx − mı́n,
que contenga a todos ellos.
R
Determinar el ancho de los intervalos, c = . Es importante considerar aquı́ de que esta
k
cantidad se debe de redondear por exceso al número de decimales de los datos, pues de lo
contrario podrı́amos correr el riesgo de perder uno o más de los datos mayores.
Usar c para construir los intervalos de cada clase. En este caso consideraremos intervalos
cerrados por la derecha y abiertos por la izquierda, con excepción del primero que es cerrado en
ambos lados. Si bien convendremos en que todos los intervalos serán de igual longitud, en ciertas
situaciones, como el caso de una distribución con colas pesadas, podrı́a ser más conveniente
considerar intervalos de distinta longitud.
Construir la tabla, calculando los puntos medios de cada intervalo (marcas de clase) y las
frecuencias absolutas y acumuladas para cada intervalo.
En adelante consideraremos la siguiente notación:
x̂j : Marca de clase o punto medio del intervalo j.

nj : Frecuencia (absoluta) o número de casos para el intervalo j.
fj : Frecuencia relativa para el intervalo j, calculada como fj = nj /n, siendo n el número total
de datos.
pj : Porcentaje para el intervalo j, calculado como pj = 100 × fj .
j
X
Nj : Frecuencia acumulada para el intervalo j, calculada como Nj = nh .
h=1
j
X
Fj : Frecuencia relativa acumulada para el intervalo j, calculada como Fj = fh .
h=1
j
X
Pj : Porcentaje acumulado para el intervalo j, calculado como Pj = ph .
h=1
Finalmente la tabla de distribución de frecuencias podrá representarse gráficamente a través de

un:
Histograma. Gráfico de barras, donde cada intervalo j es representada por una barra sobre él
y altura proporcional a su frecuencia nj . Este tipo de gráficos no considera espacios entre las
barras para indicar que se presenta información de una variable cuantitativa continua.
Polı́gono de frecuencias. Se forma uniendo con rectas los puntos medios altos de cada barra
del histograma y es útil para ver la forma de la distribución. Convendremos que este empieza
en el menor valor de los datos y termina en el extremo derecho del último intervalo.
Gráfico de frecuencias acumuladas u ojiva. Se forma uniendo con rectas los puntos conformados
por las frecuencias acumuladas y los limites superiores de cada intervalo.
Ejemplo 1.4 Recientemente se ha inaugurado un puesto de control de pesaje en un punto de una ca-
rretera cercana a una mina. Hasta el momento en este puesto se ha registrado los pesos, en toneladas,
de 60 vehı́culos junto con información del tipo del vehı́culo. Los datos son:
10
Tipo Peso Tipo Peso Tipo Peso Tipo Peso Tipo Peso
Camioneta 24.65 Camioneta 21.98 Camioneta 26.59 Camión 30.18 Camión 34.36
Auto 8.07 Camioneta 22.45 Camioneta 26.72 Camión 30.34 Bus 34.95
Auto 11.66 Auto 23.34 Auto 14.23 Auto 17.35 Camión 35
Auto 13 Camioneta 23.35 Camioneta 27.09 Camión 30.47 Camioneta 23.76
Auto 13.46 Camioneta 23.55 Camión 27.18 Camión 30.72 Camión 35.8
Camioneta 27.05 Camión 35.49 Camión 28.58 Bus 31.36 Camión 36.7
Auto 15.59 Camioneta 24.4 Camión 48 Camión 31.46 Camión 37
Camión 30.37 Camioneta 24.6 Bus 28.98 Bus 31.72 Camión 38.09
Auto 18.96 Auto 4.34 Camión 29.07 Camión 32.27 Camión 39.98
Camioneta 19.98 Camioneta 25 Bus 29.4 Bus 33.31 Camión 43.56
Camioneta 20.17 Camioneta 25.62 Camión 29.5 Camión 33.32 Camión 47.35
Camioneta 21.5 Camioneta 26.22 Camión 29.62 Camión 34.34 Camión 28.8
Obtenga la distribución de frecuencias de los pesos de estos vehı́culos con sus gráficos correspondientes
¿Qué es lo que el polı́gono de esta distribución le dice?
Solución: Asumiendo que no tenemos experiencia en el manejo de datos y no se nos indica cuantos
intervalos usar, la regla de Sturges nos sugiere que el número de intervalos a considerar es k =
1 + 3.3 log10 (60) = 6.867 ≈ 7. Dado que tenemos como valores mı́nimo 4.34 toneladas y máximo 48
toneladas, el rango es R = 48 − 4.34 = 43.66 y el ancho de cada intervalo es:
43.66
c= = 6.237143
7
Puesto que nuestros datos tiene dos decimales, debemos aproximar esta cantidad por exceso a esta
cantidad de decimales. Esto es el valor de c será c = 6.24 A partir de esto debemos de construir
ahora los intervalos y realizar el conteo de cuantos datos caen en cada intervalo (los nj ’s). Si los
datos estuvieran ordenados este conteo serı́a inmediato. Naturalmente si trabajamos en R o Excel
podrı́amos ordenar primero los datos, pero si lo hacemos de forma manual ello no es muy recomen-
dable, ya que nos demorarı́amos más probablemente en ordenarlos que en realizar directamente el
conteo. La distribución de frecuencias será
Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel. Porcentaje
de clase relativa acum. acumulada acumulado
x̂j nj fj pj Nj Fj Pj
[ 4.34, 10.58] 7.46 2 0.0333 3.33 2 0.0333 3.33
]10.58, 16.82] 13.70 5 0.0833 8.33 7 0.1167 11.67
]16.82, 23.06] 19.94 7 0.1167 11.67 14 0.2333 23.33
]23.06, 29.30] 26.18 19 0.3167 31.67 33 0.55 55
]29.30, 35.54] 32.42 19 0.3167 31.67 52 0.8667 86.67
]35.54, 41.78] 38.66 5 0.0833 8.33 57 0.95 95
]41.78, 48.02] 44.90 3 0.05 5 60 1 100
Total 60 1 100
Se puede observar
Que las frecuencias, van cambiando a partir del valor 2 en el primer intervalo hasta alcanzar
el valor 19 en los intervalos 4 y 5 para luego decrecer en los intervalos 6 y 7. Esto sugiere que
la mayorı́a de vehı́culos tienen pesos entre los intervalos 4 y 5 (de 23.06 a 35.54 toneladas).
Que existen pocos vehı́culos con pesos bajos ó altos. Estos resultados también se pueden ob-
servar si analizamos las frecuencias relativas y los porcentajes.
Otras posibles interpretaciones que podemos hacer son: solamente el 3.33 % de los vehı́culos
tienen pesos que no superan las 10.58 toneladas; mientras que el 45 % de los vehı́culos tienen
pesos que no superan las 29.3 toneladas
La información contenida en esta tabla se presenta también en forma gráfica en la siguiente figura
Distribución de frecuencias
de los pesos de los vehículos
20
15
Frecuencia
10
5
0
4.34 10.58 16.82 23.06 29.30 35.54 41.78 48.02
peso
Figura 1.5: Histograma y polı́gono de frecuencias para la distribución de los pesos de los 60 vehı́culos
en el control de peaje.
El polı́gono indica una distribución asimétrica para los datos, con una concentración de valores
en pesos relativamente altos y una cola a la izquierda; es decir con muy pocos valores con pesos
bajos.
La Ojiva de esta distribución, que la daremos en términos de porcentajes acumulados, se ilustra
en la figura 1.6.
2
1.4. Una breve introducción a R

A lo largo de este texto haremos uso extensivo del software estadı́stico R. Este es un lenguaje
computacional de alto nivel orientado a objetos que nos provee de un ambiente para realizar análisis
12
Distribución de frecuencias acumuladas

para los pesos de los vehículos
100
80
Porcentaje acumulado
60
40
20
0
4.34 10.58 16.82 23.06 29.30 35.54 41.78 48.02
Peso en toneladas
Figura 1.6: Ojiva para la distribución de los pesos de los 60 vehı́culos en el control de peaje.
estadı́sticos y gráficos. R es un software open source que es mantenido por muchos contribuyentes
y debe su popularidad a ser precisamente libre (no requiere de pago ni registro alguno) y a que es
constante actualizado gracias a los nuevos desarrollos que demorarı́an años en ser implementados en
un software estadı́stico comercial. R puede ser instalado en Windows, Mac o Linux a través de su
página web
http://www.R-project.org
Aquı́ también se pueden encontrar manuales, tutoriales y todo tipo de información concerniente a
este software. La página web de R se aprecia en la figura 1.7.
Figura 1.7: Sitio web de R

Para instalar el sistema base, uno sólo tiene que ir al sitio web de R y seguir las instrucciones de
instalación. Adicionalmente al sistema base se tiene una serie de paquetes adicionales de contribu-
yentes. Un paquete es una colección de funciones, ejemplos y documentación que usualmente están
enfocados en realizar una tarea especı́fica. El sistema base contiene solamente algunos paquetes. Para
instalar un paquete adicional, por ejemplo el paquete qcc, útil en control de calidad, basta escribir:
> install.packages("qcc")
Si no ha sido configurado antes, aparecerá una ventana para seleccionar el mirror más cercano, luego
todo es automático. Antes de usar un paquete es necesario cargarlo en la consola mediante
> library(qcc)
La consola de R es dónde se realizan los diferentes cálculos. Cuando una expresión es introducida a
la consola ella es seguidamente evaluada. Dependiendo de la expresión, el sistema puede responder
mediante la salida de resultados a esta o la creación de un gráfico en una nueva ventana. Luego otra
expresión es ingresada y evaluada. Algo que ahorra mucho tiempo es recordar que las expresiones
previamente ingresadas pueden volverse a obtener presionando la flecha hacia arriba y que cualquier
procedimiento puede interrumpirse usándose la tecla Esc.
Un primer uso que haremos de R será como calculadora. R contiene todas las formas conocidas de
funciones básicas como el logaritmo natural (log), raı́z cuadrada (sqrt), coseno (cos), etc. Aquı́ unos
cálculos en la consola:
> 5/4
[1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4
Note que podrı́amos introducir varias expresiones en una misma lı́nea si es que los separamos por un
punto y coma.
Comúnmente se crean en R objetos y se aplican a estos funciones. Para asignar un nombre x a
un objeto usar x < − objecto, (objecto − > x) ó x = objeto. Las funciones, por otro lado, se llaman
mediante:
nombrefuncion(argumentos separados por comas)
Toda función tiene un conjunto formal de argumentos con valores por defecto. Véase la documentación
de la función con ?nombrefuncion ó help(nombrefuncion). Es importante indicar que R distingue
mayúsculas de minúsculas. Como ilustración, supongamos deseamos encontrar la media aritmética
de un conjunto de números (suma de estos números divididos entre la cantidad total de ellos).
Primero asignamos el vector de números con el nombre x y el comando c. Luego llamamos a la
función mean().
14
> x <- c(0,5,7,9,1,2,8)

> x
[1] 0 5 7 9 1 2 8
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Recuerde que lo último ocurre pues R distingue entre minúsculas y mayúsculas.

Supongamos ahora que se quiere ordenar un vector de números y de tal manera que estos estén
en orden descendente. Por defecto R ordena de modo ascendente, por lo que se tiene que cambiar el
argumento decreasing por TRUE (el valor por defecto es FALSE).
> y <- c(4,2,0,9,5,3,10,3)

> y
[1] 4 2 0 9 5 3 10 3
> sort(y)
[1] 0 2 3 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 3 2 0
R permite extraer elementos o subconjuntos cualesquieras de un vector o arreglo. Por citar el

segundo y el segundo y quinto elemento del vector anterior x se obtendrán, respectivamente, con
> x[2]
[1] 5
> x[c(2,5)]
[1] 5 1
Si deseamos los elementos de x mayores a 5 o los elementos de x en los que y sea mayor o igual a 4,
bastará escribir
> x[x>5]
[1] 7 9 8
> x[y>= 4]
[1] 0 9 1 8
Definimos ahora a y como una matriz A de orden 4 × 2 a través del comando matrix y obtengamos
su segunda columna
> A = matrix(y,nrow=4,ncol=2)
> A
[,1] [,2]
[1,] 4 5
[2,] 2 3
[3,] 0 10
[4,] 9 3
> A[,2]
[1] 5 3 10 3
Note que los elementos de y son por defecto ingresados por columnas. En caso que se desee el ingreso
por filas escribir
> A = matrix(y,4,2,byrow=TRUE)
> A
[,1] [,2]
[1,] 4 2
[2,] 0 9
[3,] 5 3
[4,] 10 3
En adelante será común omitir el sı́mbolo del cursor >, esto para que los comandos que escribamos
puedan ser fácilmente copiados, pegados y reproducidos.
Veamos ahora cómo recrear los ejemplos anteriormente dados en R. Un primer punto estará re-
ferido a cómo introducir la data. Ello se puede hacer directamente en R o indirectamente con otro
software (por ejemplo con Excel) para luego importar esta data a R. Vemos la primera estrategia
para el ejemplo 1.2. y la segunda para el ejemplo 1.3.
Ejemplo 1.5 (Ejemplo 1.2 en R) Para introducir los datos escribamos
x = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1, 1, 0, 3, 1, 1, 0, 2, 1, 0,
4, 0, 1, 2, 2, 2)
La distribución de frecuencias de esta variable se obtiene con el comando table
tab = table(x)
tab
x
0 1 2 3 4
8 11 7 2 2
La distribución porcentual se podrı́a obtener con
100*tab/length(x)
x
16
0 1 2 3 4
26.666667 36.666667 23.333333 6.666667 6.666667
Vale indicar que la variable tab tiene un formato de tabla, el cual podrı́a pasarse fácilmente a otro
formato, como por ejemplo el de vector si escribimos
> as.vector(tab)
[1] 8 11 7 2 2
Las frecuencias acumuladas de estos datos podrı́an obtenerse con:
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
y la distribución de frecuencias completas (sin porcentajes) podrı́a construirse con el comando cbind,
el cual sirve para agrupar vectores en columnas. Concretamente
> cbind(n = tab, f = tab/length(x),F=cumsum(tab/length(x)))

n f F
0 8 0.26666667 0.2666667
1 11 0.36666667 0.6333333
2 7 0.23333333 0.8666667
3 2 0.06666667 0.9333333
4 2 0.06666667 1.0000000
Finalmente el gráfico de bastones correspondiente se obtiene con:
plot(tab,type="h",ylab="Frecuencia")
title("Distribución de frecuencias del número mensual
de accidentes en el distrito")
Distribución de frecuencias del número mensual de accidentes en el distrito

10
8
Frecuencia
6
4
2
0
0 1 2 3 4
2
Ejemplo 1.6 (Ejemplo 1.3 en R) Para introducir la data del problema optaremos alternativa-
mente por escribirla primero en Excel de tal manera que cada variable de interés ocupe una sola
columna de la hoja de cálculo, teniendo como primera fila el nombre de la variable. Esto se muestra
en la figura 1.8. Luego grabaremos el archivo en formato csv (delimitado por comas). La importación
Figura 1.8: Hoja Excel con la data del ejemplo 1.3.
en la consola se hará con:
pesaje = read.csv(file.choose())
La opción file.choose() lo direccionará a su hardware para que elija el archivo buscado. Otra posi-
bilidad es colocar entre comillas el nombre del archivo pero este deberá estar en su directorio de
trabajo. Puesto que nuestra base de datos contiene dos variables, una cualitativa (Tipo de vehı́culo)
y otra cuantitativa de pesos, que fue la trabajada en el ejemplo 1.3, realizaremos primero a manera
de práctica el análisis de la variable cualitativa. Si deseamos extraer ella para su análisis podrı́amos
escribir
tipo = pesaje$Tipo o tipo = pesaje[,1] .
En cualquiera de los casos esto define una variable categórica (cualitativa), lo cual se revela, pues
al final de ella aparece Levels, caracterı́stica única de este tipo de variables. La distribución de
frecuencias de esta variable se obtiene con
> table(tipo)
tipo
Auto Bus Camion Camioneta
10 6 26 18
y su gráfica de barras se obtiene con

18
barplot(table(tipo))
En este se aprecia claramente que la mayorı́a de vehı́culos que pasan por el peaje son camiones.
Retomemos ahora si el problema 1.3 en el análisis de los pesos, definiendo la variable de interés
peso = pesaje$Peso
El comando central para el análisis de este tipo de variables es hist (de histograma), el cual nos
provee de no sólo su distribución frecuencias sino también de su gráfica a través del histograma. El
comando es simplemente hist(peso); pero este nos dará una cantidad de intervalos por defecto que
podrı́a no coincidir con nuestro criterio. Para que esto último sea posible podemos decirle a R que
respete los intervalos que hemos construido a través de los comandos
> c = diff(range(peso))/7
> c
[1] 6.237143
c = 6.24
bb = min(peso) + (0:7)*c % lı́mites de los intervalos
h = hist(y,breaks=bb)
Es importante notar que h es un objeto (recordemos que R en un lenguaje orientado a objetos). Esto
es, h es un elemento que contiene mucha información como seguidamente se aprecia
> h
$breaks
[1] 4.34 10.58 16.82 23.06 29.30 35.54 41.78 48.02
$counts
[1] 2 5 7 19 19 5 3
$density
[1] 0.005341880 0.013354701 0.018696581 0.050747863
[5] 0.050747863 0.013354701 0.008012821
$mids
[1] 7.46 13.70 19.94 26.18 32.42 38.66 44.90
$xname
[1] "peso"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"
De el podemos extraer, para un análisis posterior, cualquiera de sus componentes anexando al objeto
el sı́mbolo $ y el nombre de la componente requerida . Por ejemplo, las frecuencias absolutas (nj )
las podemos definir con el vector
> nn = h$counts
> nn
[1] 2 5 7 19 19 5 3
La utilidad de trabajar con objetos se puede mejor vislumbrar en la concreción de las figuras 1.5
y 1.6. Estas fueron obtenidas en R y los comandos respectivos, como usted los debe de explorar y
correr, son los siguientes
h = hist(peso,breaks=bb,xaxt=’n’,ylab="Frecuencia",ylim = c(0,20),
main = "Distribución de frecuencias \n de los pesos de los vehı́culos")
polygon(c(4.34,h$mids,48.02),c(0,h$counts,0),border="red")
axis(side=1,at = h$breaks)
P = c(0,cumsum(h$counts/length(peso))*100)
plot(h$breaks,P,xlab="Peso en toneladas",ylab="Porcentaje acumulado",xaxt=’n’)
axis(side=1,at = h$breaks)
lines(h$breaks,P,col="red")
title("Distribución de frecuencias acumuladas \n para los pesos de los vehı́culos")
1.5. Medidas de tendencia central

Organizados los datos será de interés ahora poder resumir la información contenida en ellos. Para
tal efecto propondremos a continuación algunas medidas o indicadores que nos describirán aspectos
fundamentales de la data. Un primer aspecto está relacionado a obtener algún resumen único de
toda nuestra data, siempre que ella presente la tendencia a agruparse alrededor de un único valor
(tendencia central). Este resumen debe de representar a tal valor, al cual llamaremos un promedio.
Consideraremos en adelante que contamos con conjunto de n datos: x1 , x2 , ..., xn , que recordemos
representan las mediciones de una variable tomadas a n elementos de una muestra o una población.
Definamos ahora tres de los promedios más utilizados en el análisis de datos.
20
1.5.1. La media aritmética
La media (aritmética) está definida como la suma de todos los datos dividido por el número de
datos. Se suele denotar por una letra con una barra encima (x̄); esto es:
Pn
i=1 xi x1 + x2 + ... + xn
x̄ = = .
n n
La media aritmética posee las siguientes propiedades:
La media es calculada tomando en cuenta todos los valores de la muestra.
La media puede verse fuertemente afectada por la presencia de valores atı́picos (observaciones
que son muy grandes o muy pequeñas con respecto al resto de observaciones). Estos valores
atı́picos tienden a jalar la media hacia su lado.
Pn
Es el valor de a que minimiza j=1 (xj − a)2 .
No es válida para variables cualitativas.
Ejemplo 1.7 (Calidad del aire) Una forma de evaluar la calidad del aire en un ambiente es medir
la cantidad de material particulado menor de 10 micrómetros, el cual podrı́a tener efectos nocivos en
la salud de las personas. Suponga que se tienen las siguientes mediciones en µg/m3 (microgramos
por metro cúbico) durante 6 dı́as en una ciudad.
39.39 39.12 32.08 29.85 48.25 36.09
La media muestral de estos datos será:
39.39 + 39.12 + 32.08 + 29.85 + 48.25 + 36.09

x̄ = = 37.46 µg/m3
6
Consideremos ahora que el primer valor sea reemplazado por un valor atı́pico quedando ahora el
conjunto de datos como:
89.39 39.12 32.08 29.85 48.25 36.09
En R la media de estos datos se obtiene por:
> x = c(89.39, 39.12, 32.08, 29.85, 48.25, 36.09)

> mean(x)
[1] 45.79667
Observamos entonces como un único valor atı́pico grande puede tener un gran impacto incrementando
considerablemente el valor de la media. 2
En ocasiones se presentará el problema que necesitamos calcular la media de un conjunto de

datos en una distribución de frecuencias. Este cálculo se hará por:
P
k
xj nj k
j=1 X
x̄ = = xj fj ,
n
j=1
donde la variable toma x1 , ..., xk valores distintos; nj representa la frecuencia de cada uno de estos
datos y fj es la frecuencia relativa de cada dato xj . Esta medida se suele denominar una media
ponderada. Como ejemplo consideremos nuevamente los datos del ejemplo 1.2. referente al número
de accidentes por dı́a en un mes. Se tiene que en este mes la media de accidentes por dı́a es de:
0 × 8 + 1 × 11 + 2 × 7 + 3 × 2 + 4 × 2
x̄ = = 1.3
30
Es importante indicar que las ponderaciones no siempre se dan a través de las frecuencias. En ciertas
ocasiones los pesos tienen otra naturaleza. Por ejemplo en nuestra Universidad, el promedio de un
ciclo de estudios se representa por la media ponderada la cual consiste en multiplicar las notas de
cada curso que el alumno llevó, por el número de créditos del curso respectivo para luego dividir la
suma de estos por el número de créditos que el alumno llevó.
Proposición 1.1 Las siguientes propiedades de linealidad y de agregación son de gran utilidad.
a) Si a un conjunto de datos x1 , x2 , . . . , xn se les aplica la transformación yi = a + bxi , entonces la

media de estos nuevos datos vendrá dada por
ȳ = a + bx̄
b) Si 2 conjuntos de datos de tamaños n1 y n2 tienen medias x̄1 y x̄2 , entonces la media de estos
n = n1 + n2 datos viene dada por:
n1 x̄1 + n2 x̄2
x̄ =
n
Demostración: La primera parte de la proposición es directa pues si x1 , x2 , . . . , xn es el conjunto

P
original de datos y cada uno de estos es transformado por yi = a + bxi , entonces ȳ = n1 ni=1 yi =
1 Pn 1 Pn
n i=1 (a + bxi ) = n (na + b i=1 xi ) = a + bx̄. De otro lado, si x1 , x2 , . . . , xn1 es el primer conjunto
de datos y xn1 +1 , xn1 +2 , . . . , xn el segundo en b), entonces
1 1
x̄ = (x1 + x2 + . . . + xn1 + xn1 +1 + xn1 +2 , . . . , xn ) = (n1 x̄1 + n2 x¯2 ).
n n
2
22
1.5.2. La mediana
La mediana es el valor que ocupa la posición central cuando los datos se ordenan desde el menor
hasta el mayor valor. Si tenemos un conjunto de datos x1 , x2 , ..., xn , debemos primero ordenarlos
como
x(1) ≤ x(2) ≤ ... ≤ x(n) ,
donde x(1) es el menor valor de los datos, x(n) el mayor valor de los datos y en general x(j) es el dato
que ocupa la posición j. Luego la mediana se calcula por:


 x( n+1 ) , si n es impar

 2
Me =

 x n + x( n +1)

 (2) 2
2 , si n es par
A continuación presentamos algunas caracterı́sticas de la mediana:
El 50 % de los datos tienen valores menores o iguales a la mediana y el resto valores mayores.
La mediana es calculada tomando en cuenta solamente el(los) valor(es) central(es).
La mediana no es afectada por la presencia de valores atı́picos

n
X
Es el valor de a que minimiza |xj − a|
j=1
Es una medida válida para variables cualitativas ordinales.
Ejemplo 1.8 Consideremos nuevamente los datos del ejemplo 1.6 para la calidad de aire y calcule-
mos su mediana ordenando primeramente estos:
29.85 32.08 |36.09{z39.12} 39.39 48.25.

Me
Como el número de datos es par, la mediana será el promedio de las observaciones centrales
x(3) + x(4) 36.09 + 39.12

Me = = = 37.605
2 2
Al igual que antes consideremos ahora que la observación 39.39 es reemplazada por 89.39. Ordenando
29.85 32.08 |36.09{z39.12} 48.25 89.39

Me
y calculando obtenemos nuevamente M e = 37.605. Ası́ la mediana no se ve afectada por el dato

atı́pico. 2
1.5.3. La moda
Se define como el valor M0 que más se repite en el conjunto de datos. Esta medida es poco usada,
pero vale comentar que es la única medida de tendencia central válida para variables cualitativas
nominales. Un problema con esta medida es que los datos podrı́an mostrar más de un valor con la
frecuencia más alta, o en particular todos los datos podrı́an ser diferentes. En este caso convendre-
mos de que existen múltiples modas y la distribución de los datos diremos que es multimodal, en
contraposición al caso unimodal. Note también que en distribuciones multimodales la moda carece
de sentido, pues los datos no presentan tendencia central.
Ejemplo 1.9 Para los datos del estado de la calidad del aire del ejemplo 1.1 la moda será Moderado.
En el ejemplo 1.2 del número de accidentes por dı́a la moda será 1.
1.6. Cuantiles
El cuantil p (0 < p < 1) de un conjunto de datos x1 , x2 , ..., xn es el valor qp tal que el 100p % de
los valores del conjunto de datos sea menores o iguales a este valor y el 100(1 − p) % mayores. Por
ejemplo, el cuantil 0.5, q0.5 , será la ya definida mediana.
Un problema con los quantiles es que si el número de datos no es muy grande difı́cilmente se
podrá encontrar la posición exacta (entera) que ocupa el cuantı́l en los datos ordenados. Como
ejemplo tomemos los 6 datos del ejemplo 1.6 de la calidad del aire y supongamos nos piden el cuantil
0.7. Para determinar su posición o rango podrı́amos hacer una simple regla de tres que nos dirı́a
que ella deberı́a ocupar una posición entre la 4 y 5 y por tanto su valor estarı́a entre x(4) = 39.12 y
x(5) = 39.39. El problema radica en como encontrar este valor, lo cual nos lleva a un problema de
interpolación, para el cual existen muchas convenciones (R por citar tiene 9). Nosotros para estar en
concordancia con R usaremos la utilizada por defecto en este paquete (Excel también usa la misma).
El procedimiento es el siguiente
Ordenar los n datos desde el menor al mayor valor como: x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Calcular la posición teórica que ocupa el cuantil p, h. Ella está definida por
h = (n − 1)p + 1.
Calcular la mı́nima posición que podrı́a ocupar el cuantil, j = JhK, donde JhK denota a la
función mayor entero en h; es decir al menor valor entero que sea menor o igual que h.
El cuantil p se obtendrá interpolando linealmente los valores x(j) y x(j+1) y viene dado explı́ci-
tamente por:
qp = x(j) + (x(j+1) − x(j) )(h − j).
24
Note que esta convención respeta la definición de la mediana.

Como casos particulares de cuantiles tenemos los siguientes:
Los cuartiles: dividen a los datos en 4 partes iguales, se denotan por Q1 , Q2 y Q3 que serian
los cuantiles 0.25, 0.50 y 0.75.
Los deciles: dividen a los datos en 10 partes iguales, se denotan por D1 , D2 , .... y D9 que serian
los cuantiles 0.10, 0.20, ... y 0.90.
Los percentiles: dividen a los datos en 100 partes iguales, se denotan por P1 , P2 , ... y P99 que
serian los cuantiles 0.01, 0.02, ... y 0.99.
Ejemplo 1.10 Retomando los datos de calidad del aire, calculemos sus cuartiles. El segundo de los
cuales se pide comprobar que coincide con el dado en el ejemplo 1.7.
Para Q1 = q0.25 tenemos que h = 5 × 0.25 + 1 = 2.25, j = 2 y por tanto
Q1 = x(2) + (x(3) − x(2) )(h − j) = 32.08 + (36.09 − 32.08)(2.25 − 2) = 33.0825.
Para Q3 = q0.75 tenemos que h = 5 × 0.75 + 1 = 4.75, j = 4 y por tanto
Q3 = x(4) + (x(5) − x(4) )(h − j) = 39.12 + (39.39 − 39.12)(4.75 − 4) = 39.3225.
Ası́ el 25 % de las observaciones son aproximadamente menores o iguales a 33.0825 y 75 %

mayores. En forma similar podemos decir que el 75 % de las observaciones son aproximadamente
menores o iguales a 39.3225 y 25 % mayores. 2
Vale comentar que R posee para estos cálculos la función quantile, la cual como adelantamos
posee 9 opciones o convenciones de interpolación. Nosotros usaremos la dada por defecto (de tipo
7). Para comprobar que efectivamente es ası́ podemos simplemente escribir para nuestro ejemplo
anterior
> c(quantile(x,0.25), quantile(x,0.5),quantile(x,0.75))

25% 50% 75%
33.0825 37.6050 39.3225
o también llamar al comando summary que nos provee además de los valores mı́nimo y máximo
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
29.85 33.08 37.61 37.46 39.32 48.25
1.7. Medidas de Dispersión

En varias disciplinas, como el control de calidad, más que el buscar un valor que representa a los
datos es más importante medir que tan similares o distintos son los datos entre si. Una medida que
nos mide el grado de disimilaridad entre estos se denomina de dispersión. Detallaremos a continuación
tres de las medidas de dispersión más utilizadas.
1.7.1. La varianza
Esta se define como:
P
n P
n
(xj − x̄)2 x2j − nx̄2
j=1 j=1
S2 = = .
n−1 n−1
Note que esta medida considera las distancias xj − x̄ de cada observación a la media . Ası́ mientras
más dispersión exista, mayor será el el valor de algunas de estas distancias. La variancia considera
una especie de media de estas distancias al cuadrado.
Ejemplo 1.11 La varianza de los datos para el ejemplo de la calidad de aire es:
(39.392 + 39.122 + 32.082 + 29.852 + 48.252 + 36.092 ) − 6 × 37.462

S2 = = 42.33
6−1
En R esto se obtiene con:
> var(x)
[1] 42.32759
2
1.7.2. La desviación estándar
La variancia puede ser difı́cil de interpretar debido a que está medida en unidades al cuadrado.
Por esta razón se suele más utilizar la desviación estándar definida como la raı́z cuadrada de la
varianza
√
S= S2.
Esta medida si se encuentra en las mismas unidades que la variable de estudio.
Ejemplo 1.12 Considerando los datos del último ejemplo, la desviación estándar está dada por
√
S = 42.33 = 6.51
la cual tiene unidades en µg/m3 . 2
Las siguientes propiedades son análogas a las dadas en la proposición 1.1, pero para la varianza.
Se incluye también una desigualdad famosa conocida como de Chebychev. Ella nos da más luces
sobre el rol que desempeña la varianza o desviación estándar en la distribución de la data.
26
Proposición 1.2 Sea x1 , x2 , . . . , xn un conjunto de n datos, con media x̄ y varianza Sx2 .
a) Si a estos datos se les aplica la transformación yi = a + bxi , entonces la varianza de estos nuevos
datos vendrá dada por
Sy2 = b2 Sx2 ,
b) Si los datos están subdivididos en dos grupos de tamaños n1 y n2 , cuyas medias y varianzas son
respectivamente x̄1 y x̄2 y S12 y S22 , entonces la varianza de estos n = n1 + n2 datos viene dada
por:
1
Sx2 = (n1 − 1)S12 + (n2 − 1)S22 + n1 x̄21 + n2 x̄22 − nx̄2 .
n−1
c) Para cualquier k > 0, se cumple que la proporción de los datos que caen en el intervalo
[x̄ − kSx , x̄ + kSx ]
1
es de al menos 1 − k2
.
Demostración: a) Si a los datos se los transforma por yi = a + bxi , entonces por la parte a) de la
proposición 1.1, tenemos que:
n n
1 X 1 2X
Sy2 = (yi − ȳ)2 = b (xi − x̄)2 = b2 Sx2 .
n−1 n−1
i=1 i=1
Para la parte b), sea x1 , x2 , . . . , xn1 el primer conjunto de datos y xn1 +1 , xn1 +2 , . . . , xn el segundo.
Sabemos que para estos se cumplen las relaciones
n1
X n
X
x2i = (n1 − 1)S12 + n1 x̄21 y x2i = (n2 − 1)S22 + n2 x̄22 .
i=1 i=n1 +1
Por tanto, juntando ambas sumas y utilizando la parte b) de la proposición 1.1 se tiene que
n
1 X 2 1
Sx2 = ( xi − nx̄2 ) = (n1 − 1)S12 + n1 x̄21 + (n2 − 1)S22 + n2 x̄22 − nx̄2 .
n−1 n−1
i=1
Para la desigualdad de Chebychev en c), denotemos por I al intervalo dado y por I c a su complemento,
siendo respectivamente n(I) y n(I c ) el número de datos que caen en cada uno. Notando que para
cualquier dato xi en I c se cumple que |xi − x̄| > kSx se tiene que
1 X X 1 X 1 2 2
Sx2 = ( (xi − x̄)2 + (xi − x̄)2 ) > (xi − x̄)2 > k Sx n(I c ).
n−1 n n
{i/xi ∈I} {i/xi ∈I c } {i/xi ∈I c }
1
Ası́ la proporción de datos que caen fuera del intervalo i es menor a k2
o, equivalentemente, la
proporción de los datos que caen en el intervalo I es de al menos 1 − 1
k2
. 2
1.7.3. El Rango
Es la distancia entre el valor mı́nimo y el máximo
R = x(n) − x(1)
Ejemplo 1.13 Considerando los datos de calidad del aire, el rango es dado por
R = x(6) − x(1) = 48.25 − 29.85 = 18.4
En R el procedimiento es:
> diff(range(x))
[1] 18.4
1.7.4. El Rango intercuartı́l
Es la distancia entre el primer y tercer cuartil
RIC = Q3 − Q1
Note que entre el primer y tercer cuantil está contenido el 50 % de las observaciones, donde hemos
descartado el 25 % de las observaciones más grandes y el 25 % de las más pequeñas.
Esta es una medida alternativa al rango que no es afectada por valores extremos y que puede ser
utilizada incluso con variables cualitativas ordinales..
Ejemplo 1.14 Considerando los datos de calidad del aire, el rango intercuartı́l está dado por
RIC = 39.39 − 32.08 = 7.31
1.7.5. El coeficiente de variabilidad
El coeficiente de variabilidad es definido como la razón porcentual entre la desviación estándar y

la media,
S
CV = 100 × %
X̄
Ella es una medida relativa de dispersión que no tiene unidades. Precisamente, una de sus principales
aplicaciones esta orientada a comparar conjuntos de datos medidos en diferentes unidades o en
distintas escalas.
28
Ejemplo 1.15 Considerando los datos de la calidad del aire, el coeficiente de variabilidad es dado
por
6.51
CV = 100 × = 17.37
37.46
1.5. MEDIDAS DE FORMA 13
2
Asimetrı́a
Un conjunto de datos será simétrico si se distribuyen con igual frecuencia alrededor de un
Las medidas quepunto central, en este caso la media, mediana y moda coinciden (X = M e = M o). Se pueden
seguidamente presentaremos en esta sección son válidas sólo para conjuntos de
presentar dos tipos de asimetrı́a:
datos unimodales.
Asimetrı́a positiva o hacia la derecha: La mayor parte de los observaciones se con-
centran en valores bajos y pocos en valores altos. En este caso M o < M e < X.
Asimetrı́a negativa o hacia la izquierda: La mayor parte de los observaciones se

1.8. Medidas de asimetrı́a
concentran en valores altos y pocos en valores bajos. En este caso X < M e < M o.
Estos tipos de asimetria se encuentran ilustrados en la Figura 1.4. El coeficiente de asimetrı́a

de Pearson es dado por
Un conjunto de datos se dice que es simétrico
X −si
M ose distribuyen con igual frecuencia alrededor
A1 =
S
de un punto central. En tal caso la media, mediana y moda coinciden (x̄ = M e = M o). Se pueden
si A = 0 los datos son simétricos, si A < 0 los datos presentan asimetrı́a negativa o a la
1 1
presentar dos tipos izquierda

de asimetrı́as:
y si A1 > 0 los datos presentan asimetrı́a positiva o hacia la derecha. Una definición
alternativa de esta medida es dada por
3(X − M e)
A2 =
Asimetrı́a positiva o hacia la derecha: LaS mayor parte de los observaciones toman valores
bajos y se presentan
que se basapocos valores
en la siguiente altos.
relación En
3(X − M e)este
≈ X caso M ose <
− M o que M ecuando
cumple < x̄.los datos
presentan poca asimetrı́a. Una medida más exacta de asimetrı́a es dada por
n
X
1 3
Asimetrı́a negativa o hacia la izquierda: La
xi −mayor
X parte de los observaciones se concentran
n
i=1
en valores altos y se presentan pocos γvalores
1 =
bajos.
s3 En este caso x̄ < M e < M o.
que se interpreta de manera similar al coeficiente de asimetrı́a de Pearson.
asimetría negativa asimetría positiva

simetría
ó a la izquierda ó a la derecha
Density
Density
Media
Media Mediana Moda Moda Mediana Media
Mediana
Moda
Figura 1.4: Asimetrı́a

Figura 1.9: Tipos de simetrı́a
Curtosis
Es una medida del apuntalamiento de la distribución de frecuencias de un conjunto de datos
Aqui presentaremos dos coeficientes
con referencia de asimetrı́a:
a la distribución Normal. Se pueden presentar los siguientes tipos de curtosis:
Mesocúrtica: Tiene el mismo apuntalamiento de la distribución Normal.
1.8.1. El coeficiente de asimetrı́a de Pearson
Este está definido por:

3(x̄ − M e)
A=
S
Si A = 0 los datos son simétricos, si A < 0 los datos presentan asimetrı́a negativa o a la izquierda y
si A > 0 los datos presentan asimetrı́a positiva o hacia la derecha.
1.8.2. El coeficiente de asimetrı́a de Fisher
Ella está definida por:

1 P
n
n (xj − x̄)3
j=1
γ1 =
S3
y se interpreta de manera similar al coeficiente de asimetrı́a de Pearson.
1.9. Curtosis
Es una medida del apuntalamiento de la distribución de frecuencias a un conjunto de datos con
referencia a una distribución patrón o Normal. Se pueden presentar los siguientes tipos:
Mesocúrtica: Tiene el mismo apuntalamiento de la distribución Normal.
Leptocúrtica: Es más apuntalada que la distribución Normal, los datos se concentran en los
valores centrales y pocos en los valores extremos de la variable.
Platicúrtica: Es más achatada que la distribución Normal, los datos se encuentran más dis-
persos.
Platicúrtica Mesocúrtica Leptocúrtica

0.35
0.35
0.35
0.30
0.30
0.30
0.25
0.25
0.25
0.20
0.20
0.20
Density
Density
Density
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
-15 -5 0 5 10 -10 -5 0 5 10 -5 0 5
plat mes lepto
Figura 1.10: Tipos de curtosis
Detallaremos dos de las medidas de curtosis más usadas.

30
1.9.1. El coeficiente de curtosis de Pearson
Esta está definido en términos de los cuartiles y deciles por:

0.5(Q3 − Q1 )
κ=
D9 − D1
Si κ = 0.25 los datos son mesocúrticos, si κ > 0.25 los datos son leptocúrticos y si κ < 0.25 los datos
son platicúrticos.
1.9.2. El coeficiente de curtosis de Fisher
Este viene definido por

1 P
n
n (xj − x̄)4
j=1
γ2 =
S4
En este caso γ2 = 3 indica que los datos son mesocúrticos, γ2 > 3 indica que los datos son leptocúrticos
y γ2 < 3 indica que los datos son platicúrticos.
Ejemplo 1.16 Aquı́ crearemos nuestra primera función en R, a llamarse Mak. Ella calculará los
diferentes indicadores de asimetrı́a y kurtosis estudiados. Lo aplicaremos luego a los datos del ejemplo
1.3 para el peso de los vehı́culos. Hágalo también manualmente!!.
Mak<-function(x){#Calcula sesgos y curtosis para la data x

q=quantile(x,c(0.1,0.25,0.5,0.75,0.9),names=FALSE)
m = mean(x)
s = sd(x)
A = 3*(m - q[3])/s
G1 = mean((x-m)^3)/s^3
K = 0.5*(q[4]-q[2])/(q[5]-q[1])
G2 = mean((x-m)^4)/s^4
cat("A = ",A,"\n")
cat("G1 = ",G1,"\n")
cat("K = ",K,"\n")
cat("G2 = ",G2,"\n")}
La función anterior es recomendable escribirla en un editor de R. Luego de escrita se la debe de

marcar toda para que con Ctrl+R se active en la consola. Evaluando:
> Mak(peso)
A = -0.4009137
G1 = -0.2206919
K = 0.2157948
G2 = 3.342449
Como se aprecia, y adelantamos en el ejemplo, se presenta una asimetrı́a negativa; mientras que
para la curtosis hay resultados un tanto discordantes aunque aproximadamente podrı́amos decir que
la distribución es mesocúrtica. 2
1.10. Puntajes estandarizados

En varias situaciones prácticas se hace necesario el comparar distintos conjuntos de datos, los
cuales por la naturaleza que tienen o por la escala de medición utilizada no son posibles de com-
parar directamente. Una manera de resolver esto radica en convertir todos los datos a una misma
escala patrón que sea independiente de las unidades. Hecho esto tales datos o puntajes estandari-
zados podrán ser fácilmente comparables. Concretamente, dado un conjunto de datos x1 , x2 , . . . , xn
definiremos los puntajes estandarizados o simplemente puntajes z, a través de la transformación
lineal
xi − x̄
zi = , i = 1, 2, . . . , n
Sx
donde x̄ es la media aritmética de todos los datos y Sx su desviación estándar. Note que los nuevos
datos estandarizados carecen de unidades, pues ello se cancelan, y que la transformación es efectiva-
mente lineal, ya que tiene la forma zi = − Sx̄x + S1x xi . En tal sentido la media y varianza de los datos
estandarizados se pueden comprobar fácilmente por las proposiciones 1.1 y 1.2 que vienen dados por
respectivamente 0 y 1.
Ejemplo 1.17 Los datos siguientes muestran los tiempos de trabajo real en horas por semana que
han sido registrados en una inspección ciega para los empleados pertenecientes a las dos secciones
en que está dividida una pequeña empresa. Si bien la dedicación teórica de ellos es de 40 horas
semanales, como se aprecia no todos cumplen esta normatividad.
Sección A 40 42 36 35 45
Sección B 29 50 40 60 48 43 35 55 46
a) ¿ Cuál serı́a la media de las horas por semana de trabajo real en la empresa y cuál su desviación
estándar?
b) Suponga que para una promoción están concursado el empleado de la sección A con 40 horas de
trabajo real registradas y el empleado de la sección B con 43 horas de trabajo real registradas ¿ a
quien le darı́a la promoción y porque?
Solución: a) Las medias y desviaciónes estándar para las horas de trabajo real en las dos secciones
están dadas, respectivamente, por x̄A = 39.6 y SA = 4.159 y x̄B = 45.111 y SB = 9.65. La media y
desviación estándar pedida se pueden obtener en base a las proposiciones 1.1 y 1.2. Estas serán en
horas:
5x̄A + 9x̄B
x̄ = = 43.143
14
32
y r
1
2 + 8S 2 + 5x̄2 + 9x̄2 − 14x̄2 = 8.374
S= 4SA B A B
13
b) De otro lado, si bien el empleado de la sección B trabaja a la semana más horas que el de la
sección A, uno puede apreciar a través de sus puntajes estandarizados relativos a sus secciones que
denotaremos, respectivamente por zB y zA , que:
40 − 39.6 43 − 45.111
zA = = 0.096 > zB = = −0.219.
4.159 9.65
Ası́ el empleado de la sección A por tener un puntaje z positivo, tiene un número de horas de trabajo
semanal por encima de la media de los de su sección; mientras que lo contrario ocurre con B. La
decisión de la promoción dependerá del promotor y de otros factores. Por ejemplo, si la labor de la
sección A fuese menos exigente en la necesidad del uso del tiempo, como lo sugieren los datos, que
la labor de la sección B, entonces quizás sea una buena recomendación promocionar al empleado de
la sección A, ya que este, en relación a sus compañeros de sección, muestra una mayor dedicación. 2
1.11. Tratamiento con datos agrupados

En muchas situaciones los datos no están disponibles, pero si algún resumen de ella como su
distribución de frecuencias o un gráfico. En tales situaciones es posible aún obtener de manera
aproximada los principales indicadores de tendencia central, dispersión asimetrı́a y curtosis. La idea
es reemplazar los datos originales que desconocemos por sus marcas de clase x̂j y una vez hecho esto
aplicar las fórmulas usuales.
Supongamos que en el ejemplo 1.4 no dispongamos de los datos originales pero si de su distribución
de frecuencias. Sabemos entonces que en el segundo intervalo hay 5 datos. Como asumimos que estos
los desconocemos los reconstruiremos mediante su marca de clase x̂2 ; es decir, pensaremos en ellos
como los números 13.7, 13.7, 13.7, 13.7, 13.7.
Dada la metodologı́a anterior, queda claro entonces que la media y varianza podrı́an aproximarse
por:
k
1X
x̄ = x̂j nj
n
j=1
y
k
1 X 2
S2 = ( x̂j nj − nx̄2 ),
n−1
j=1
donde k es el número de intervalos. Note sin embargo que esta metodologı́a no es útil para cuantiles,
pues ella destruye el orden natural de los datos. En tal caso podemos aproximar linealmente los
cuartiles a través de la ojiva.
En efecto, utilizando semejanza de triángulos o la ecuación de las rectas poligonales de la ojiva
no es difı́cil deducir que el cuantil p puede aproximarse mediante la fórmula
(np − Ni−1 )c (p − Fi−1 )c (100p − Pi−1 )c
qp = Li−1 + = Li−1 + = Li−1 + ,
ni fi pi
donde i es el número del intervalo donde se ubica el cuantil, Li−1 es el extremo izquierdo del intervalo
i, c el ancho del intervalo, pi el porcentaje de datos en el intervalo i y Pi−1 el porcentaje de datos
acumulados hasta el intervalo anterior i − 1. Como se aprecia, estos últimos porcentajes pueden
también reemplazares por sus correspondientes frecuencias relativas o absolutas.
Ejemplo 1.18 Suponga que en el ejemplo 1.4 se deseen calcular los cuantiles 0.3 y 0.6 y también la
proporción de vehı́culos que pesaron entre 15 y 25 toneladas. Haga ello bajo primero la asunción de
que conoce los datos y luego de que no dispone de estos sino tan sólo de su distribución de frecuencias.
Solución: Si conociéramos los datos, los valores pedidos estarı́an dados por
> c(quantile(peso,0.3),quantile(peso,0.6))
30% 60%
24.208 29.844
y respectivamente
> sort(peso)
[1] 4.34 8.07 11.66 13.00 13.46 14.23 15.59 17.35 18.96 19.98 20.17 21.50
[13] 21.98 22.45 23.34 23.35 23.55 23.76 24.40 24.60 24.65 25.00 25.62 26.22
[25] 26.59 26.72 27.05 27.09 27.18 28.58 28.80 28.98 29.07 29.40 29.50 29.62
[37] 30.18 30.34 30.37 30.47 30.72 31.36 31.46 31.72 32.27 33.31 33.32 34.34
[49] 34.36 34.95 35.00 35.49 35.80 36.70 37.00 38.09 39.98 43.56 47.35 48.00
> 16/60
[1] 0.2666667
En tal caso serı́a ya innecesario el aproximar estas cantidades con la fórmula de datos agrupados.
De otro lado, si sólo dispusiéramos de la distribución de frecuencias, las aproximaciones pedidas
serı́an
6.24
q0.3 = 23.06 + (0.3 − 0.2333) = 24.3742
0.3167
y
6.24
q0.6 = 29.3 + (0.6 − 0.55) = 30.28516
0.3167
para el caso de los cuartiles; mientras que en el caso de la proporción pedida podrı́amos trabajar
en el sentido contrario al de los cuantiles; es decir, hallar a que cuantiles p1 y p2 corresponden los
valores 15 y 25 (que caen en los intervalos 2 y 4) ; esto es,
6.24 6.24
15 = 10.58 + (p1 − 0.0333) y 25 = 23.06 + (p2 − 0.2333) .
0.0833 0.3167
Despejando obtenemos p1 = 0.0923 y p2 = 0.33177, por lo que el proporción pedida se aproximará por
p2 − p1 = 0.24. Observe los valores bastante cercanos de estas aproximaciones con respecto a los
verdaderos valores obtenidos con los datos reales. 2
1.6. GRÁFICOS 15
34
Dibujar una caja con limites el primer y tercer cuartil.
1.12. Diagramas
Dibujar unade
lineacajas
central en la posición de la mediana.
Calcular las siguientes cantidades: LI = Q1 − 1.5RIC y LS = Q3 + 1.5RIC.

En esta sección presentamos una gráfica adicional que resulta sumamente útil, sobre todo si uno
Dibujar los bigotes, una linea desde el Q1 hasta el menor valor de los datos que no sea
desea comparar varios conjuntos de datos. Este, que llamaremos un diagrama de cajas o boxplot, es
menor a LI y una linea desde el Q3 hasta el mayor valor de los datos que no sea mayor a
un gráfico que permite
LS. visualizar la tendencia central, dispersión, asimetrı́a y la presencia de valores
atı́picos. Ella está basada en las 5 medidas estadı́sticas dadas por el comando summary: el mı́nimo,
Marcar los valores menores a LI y mayores a LS con un ∗, estos serán considerados valores
primer cuartil (Q1 ), mediana (Q2 ), tercer cuartil (Q3 ) y el máximo y tiene la forma:
outlier.
Outlier Q1−1.5 RIC Q3+1.5 RIC Outlier
* *
Q1 Mediana Q3
menor valor antes de Q1−1.5 RIC mayor valor antes de Q3+1.5 RIC
Figura 1.6: Boxplot

Figura 1.11: Esquema de un diagrama de cajas
La lı́nea central (mediana) nos da una medida de tendencia central, el ancho de la caja (rango
intercuartil) nos da una medida de dispersión y la posición de la lı́nea central en la caja nos
El procedimiento de construcción de un diagrama de cajas es el siguiente:
indica el tipo de asimetrı́a (ver Figura 1.7).
Dibujar una caja (horizontal de representarse una sola variable o vertical de representarse 2 o
asimetría negativa simetrica asimetría positiva
más variables) cuyos lı́mites sean el primer y tercer cuartil.
Dibujar una linea central en la posición de la mediana.
Calcular el intervalo tı́pico [LI, LS] = [Q1 − 1.5RIC, Q3 + 1.5RIC], donde RIC es el rango
intercuartı́l. Todo dato contenido en él se denominará tı́pico.
Figura 1.7: Asimetrı́a y Boxplot
Dibujar los bigotes, una linea desde Q1 hasta el menor valor tı́pico y una linea desde Q3 hasta
el mayor valor tı́pico.
Ejemplo 1.21.
Marcar los valores
Se registró menores
el tiempo a LI eny horas
de duración mayores
de 10 componentes un o, ∗ elegidos
a LS conelectrónicos u otroal sı́mbolo.
azar Estos serán
considerados valores atı́picos
126 130u outliers.
130 133 136 148 148 157 189 199
Ejemplo 1.19 Se registró el tiempo de duración en horas de 10 componentes electrónicos. Grafique

su boxplot.
126, 130, 130, 133, 136, 148, 148, 157, 189, 199
Solución: El primer paso consiste en calcular las 5 medidas básicas:
tiempo = c(126,130,130,133,136,148,148,157,189,199)
> summary(tiempo)
Min. 1st Qu. Median Mean 3rd Qu. Max.

126.0 130.8 142.0 149.6 154.8 199.0
Luego, el rango intercuartil es RIC = 24 con el cual obtenemos LI = 94.8 y LS = 190.8. Ası́ tenemos
que el bigote del lado izquierdo irá hasta 126 (el primer valor observado no menor a LI) y el bigote
del lado derecho irá hasta 189 (último valor observado no mayor a LS). Finalmente, el dato 199
será marcado como un valor atı́pico. El gráfico es el siguiente.
Distribución de frecuencias para

los tiempos de duración de las 10 componentes electrónicas
140 160 180 200
Figura 1.12: Diagrama de cajas para los datos del ejemplo 1.19
Este puede obtenerse en R con el comando
boxplot(tiempo, horizontal=TRUE)
title("Distribución de frecuencias para \n los tiempos de duración de las 10
componentes electrónicas")
R presenta por defecto los boxplots en forma vertical, de allı́ que hemos usado la opción horizontal
= TRUE. 2
Ejemplo 1.20 R dispone de varias bases de datos para uso público, una de las cuales es mtcars. Ella
contiene información proporcionada por Motor Trends acerca del consumo y otras 10 caracterı́sticas
de 32 modelos de autos para los años 1973-1974. Los datos se obtienen escribiendo simplemente
mtcars en la consola. Nuestro interés se centrará en comparar el consumo de gasolina (en millas
por galón) según el tipo de transmisión que poseen los autos (automática ó mecánica). Para mayor
información sobre esta base de datos escribir
36
> ?mtcars
Note que una de las variables de interes aquı́ es mpg, el consumo de gasolina. Los datos de esta
variables se podrán obtener con mcars$mpg pero no escribiendo mpg. Para que ello ocurra y podamos
traer a memoria toda la información contenida en la base de datos, se puede utilizar el comando
attach (al término de su uso se recomienda usar el comando detach) como:
> attach(mtcars)
Note que escribiendo ahora
> mpg
[1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4
[16] 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7
[31] 15.0 21.4
dispondremos de los datos de la variable mpg sin necesidad de extraer del dataframe la variable
especı́fica.
Para la comparación pedida se requiere de los siguientes comandos
boxplot(mpg~am, names= c("Automática", "Mecánica"))

title("Diagrama de cajas del consumo en millas por galón
+ según tipo de transmisión")
El gráfico es el mostrado en la figura 1.20.

Diagrama de cajas del consumo en millas por galón según
tipo de transmisión
30
25
20
15
10
Automática Mecánica
Figura 1.13: Diagrama de cajas para los datos del ejemplo 1.20
Como se ve, los autos con transmisión automática muestran marcadamente no sólo un menor
consumo promedio sino también menor variabilidad. Además mientras en los autos automáticos
hay cierta simetrı́a con una pequeña tendencia hacia consumos superiores al promedio, en los de
transmisión mecánica la asimetrı́a es fuertemente positiva con una tendencia hacia consumos bajos.
No hubo consumos atı́picos. 2
1.13. Ejercicios
1.- En la siguiente tabla se muestra la distribución de frecuencias los asistentes a una charla infor-
mativa de un nuevo programa de especialización, según su profesión.
Profesión Número de asistentes
Ingenierı́a 24
Administración 8
Contabilidad 10
Economı́a 15
Derecho 3
a) Construya un gráfico que permita observar la composición porcentual de los asistentes, según sus
profesiones, a la charla informativa. Haga ello manualmente y usando el software R.
b) Calcule una medida de tendencia central adecuada para la variable cualitativa.
2.-Indique si cada una de las afirmaciones siguientes es verdadera o falsa. Justifique sus respuestas.
a) Las notas de un grupo de alumnos tuvieron una media de 11 con una desviación estándar de 3,
siendo el porcentaje de desaprobados del 65 %. Entonces la asimetrı́a de la distribución de estas
notas es positiva.
q0.75 −q0.5
b) Se define un nuevo coeficiente de asimetrı́a cuartı́lico como AC = q0.5 −q0.25 . Se puede decir entonces
que mientras más alto y mayor a 1 sea este coeficiente más asimetrı́a positiva existirá y también se
tendrá una mayor dispersión ya que su rango intercuartil se verá incrementado.
d) Al calcularse el coeficiente de variación (CV) de los tiempos de atención por parte de un empleado
de un Banco durante una jornada de trabajo se encontró un valor del 14 %. Al conocer este valor el
empleado reclamó que este CV estaba subestimado, pues los clientes se demoraban en llegar desde
la cola hasta ser atendidos por él 2 minutos y por tanto este tiempo deberı́a de ser descontado de
los cálculos. Si se aceptó el reclamo del empleado y se encontró ahora un CV del 21 %, entonces se
puede concluir que la verdadera media de los tiempos de atención a los clientes fue de 4 minutos.
3.- Los puntajes en una prueba de aptitud de una muestra de 200 postulantes en una prueba de
selección de personal se tabularon en cinco intervalos de modo que se obtuvo :
Puntajes Marca de Clase Porcentaje Porcentaje acumulado

[3, ] 15
] , ] 7.5 45
] , ] 70
] , ]
] , ] 10
Total
a) Complete la tabla y grafique el polı́gono de frecuencias.

b) ¿Hay alguna tendencia o frecuencia que se resalte con el polı́gono?
c) Halle aproximadamente la media y desviación estándar de los puntajes en la prueba de aptitud.
38
4.- Un municipio ha llevado la siguiente contabilidad de los montos de deuda en soles por arbitrios
durante el año 2013 de las 13 familias aun morosas del distrito. Para motivar el pago de los arbitrios
durante este año la municipalidad ofreció un descuento del 20 % a las familias que pagaran todas
sus deudas y un recargo a cargarse el próximo año del 25 % al saldo de deuda más un monto fijo
adicional por gastos administrativos para quienes pagaran parcialmente o no pagaran su deuda. En
base a esta información, responda las siguientes preguntas, donde cada parte vale un punto.
Deuda al 201 425 345 119 120 175 180 332 250 175 180 732 50
01/01/2013
Pagó 2013 1 1 2 2 3 2 1 3 1 1 1 2 1
Deuda desde 0 0 501.25 218.75 120 288.75 0 360 0 0 0 985 0
el 01/01/2014
Aquı́ Pagó 2013 vale 1, si la familia pago toda su deuda; vale 2, si la familia no pago su deuda y vale
3, si la familia pago parcialmente su deuda.
a) Halle la media de los montos de deuda que tenı́an estas familias a inicios del 2013.
b)Haga un gráfico circular para la variable Pagó 2013.
c)¿Cuál es el valor del monto fijo adicional por gastos administrativos que recargo la municipalidad
a las familias aún morosas el 2014?
d)¿Cuál fue el monto total en soles que percibió el 2013 la municipalidad por el pago de estos
arbitrios?
e)Halle la desviación estándar de los montos de deudas que se contabilizarán para estas familias a
partir del primero de Enero del 2014.
f)¿Se podrı́a decir que hay datos atı́picos en la distribución de montos de deudas al 2013? Si los hay
indique que montos son. Use el criterio de los diagramas de caja.
5.- La siguiente lista contiene los tiempos de horas de permanencia en Intranet de un grupo de 50
alumnos a lo largo de un dı́a, en donde los primeros 20 alumnos (empezando de arriba hacia abajo
y de izquierda a derecha) son hombres y el resto mujeres.
0.43 0.33 1.25 0.02 3.10 0.04 0.35 1.33 0.72 0.09
0.10 0.50 0.70 0.44 0.30 0.06 1.31 0.26 3.30 0.08
0.03 0.04 1.53 1.09 0.12 0.22 0.69 0.18 2.04 2.24
0.09 0.52 5.25 0.08 0.45 0.03 1.69 2.78 0.43 1.10
0.61 2.52 2.16 0.17 1.72 0.35 1.59 0.18 1.49 0.25
a) Realice un gráfico circular con la variable sexo.

b) Obtenga manualmente y con R la distribución de frecuencias y gráficos de esta distribución.
c) Afirme o refute la siguiente aseveración: aproximadamente mas de la cuarta parte de estos alumnos
permanecen más de una hora y media al dia en Intranet.
d) Halle aproximadamente el porcentaje de alumnos que permanecen en Intranet más que el tiempo
promedio (referido a la media aritmética).
e) Compare gráficamente las distribuciones de tiempos de permanencia entre hombres y mujeres.
6.- Los datos siguientes reportan el número de hojas impresas por cada uno de los empleados de una
empresa durante el último mes de Abril:
11, 13, 22, 23, 24, 25, 26, 28, 33, 33,
34, 35, 35, 35, 35, 35, 36, 38, 39, 41,
42, 44, 45, 46, 49, 50, 53, 54, 55, 55,
56, 57, 58, 60, 61, 61, 63, 63, 63, 65,
70, 71, 72, 75, 77, 80, 87, 92, 121, 128
a) Usando la regla de Sturges halle la distribución de frecuencias correspondiente que incluya a los
porcentajes acumulados.
b) Se desea saber si se pueden detectar empleados crı́ticos; es decir, empleados que hagan ya sea un uso
muy bajo de impresiones o un uso muy alto. En base a un diagrama de cajas (no necesita graficarlo)
¿se pueden ubicar aquı́ empleados de ese tipo? Diga, si los hubiera, cuantas hojas imprimieron ellos
en el mes de Abril.
c) Si cada hoja cuesta 0.2 soles ¿cuál serı́a el coeficiente de asimetrı́a de Pearson para la distribución
de gastos que los empleados han hecho en impresiones?
7.- Un fabricante deportivo realizó un estudio sobre el diseño de un nuevo zapato para correr. Se-
guidamente se enumeran el tipo y la frecuencia de inconformidades y fallas que se encontraron.
Desarrolle un diagrama de Pareto para ilustrar los principales problemas.
Tipo de inconformidad Frecuencia

Separación de la suela 34
Separación del tacón 98
Penetración de la suela 62
Ruptura de agujetas 14
Falla en los ojales 10
Otros 16
8.- Construya una distribución de frecuencias y muestre gráficamente la distribución de los siguientes
registros de consumo de electricidad (en kWh) de 50 hogares en un cierto distrito.
589 493 531 355 469 432 415 468 617 426
300 439 464 430 403 525 478 392 432 459
398 372 488 481 620 484 509 522 488 502
596 567 466 477 580 555 520 525 425 650
384 497 438 501 521 452 508 462 457 577
40
9.- En el reporte bimestral (de 60 dı́as) de las ventas de una empresa se registró la siguiente infor-
mación:
Las ventas oscilaron entre los 5,000 soles y 20,000 soles.
El 20 % de las ventas superaron o igualaron los 14,000 soles.
En sólo 3 dı́as las ventas no superaron los 8,000 soles.
El 30 % de las ventas no llegaron a los 11,000 soles.
Las dos ventas más altas no bajaron de los 17,000 soles.
a) Construya en base a esta información una distribución de frecuencias con 5 intervalos para las
ventas bimestrales de la empresa.
b) Obtenga el histograma y polı́gono de la distribución anterior.
c) Suponga que la empresa desea identificar a los vendedores de este periodo que tuvieron las más
altas ventas en la empresa y define a estos como los que obtuvieron en el mes el 20 % de las ventas
de montos más altos ¿a partir de qué valor de ventas a un vendedor se le considerará dentro de este
grupo?
d) Halle aproximadamente el porcentaje de dı́as durante el bimestre en que las ventas oscilan entre
los 10,000 soles y 15,000 soles.
10.- Los puntajes en una prueba de aptitud a los 200 postulantes hombres en una prueba de selección
de personal se tabularon en cinco intervalos de modo que se obtuvo:
Intervalo Marca de clase Porcentaje

[3,6] 4.5 15
]6,9] 7.5 30
]9,12] 10.5 25
]12, 15] 13.5 22
]15, 18] 16.5 8
De otro lado, los puntajes en la misma prueba para las 150 mujeres postulantes dieron una media de
11.2, desviación estándar de 3 y cuartiles de 6.5, 11 y 16.5. Compare gráficamente estas distribuciones
de puntajes entre hombres y mujeres, analizando la tendencia central, dispersión y asimetrı́a.
11.- En un estudio sobre caracterı́sticas socio-demográficas de 97 paı́ses tomadas de la U.N.E.S.C.O.

1990 Demographic Year Book, se tenı́a particular interés en la expectativa de vida (en años) de la
población masculina. Como resumen de ella se muestra a continuación la ojiva de esta data, en donde
en el eje Y se muestra el porcentaje acumulado con una aproximación de dos decimales.
a) ¿Qué porcentaje de estos paı́ses tendrá aproximadamente para su población masculina una expec-
tativa de vida superior a los 68 años?
b) Halle aproximadamente la media aritmética y la mediana de la variable en estudio ¿cuál de estas

medidas considera usted serı́a más representativa para esta data? Justifique.
c) Según ciertas proyecciones se espera que en 5 años a partir de la fecha de este estudio, la expectativa
de vida se incremente en un 6 % para todos los paı́ses en estudio. Si estas proyecciones son correctas
¿cuáles serı́an la media aritmética y mediana de la expectativa de vida de la población masculina
estos paı́ses al cabo de 5 años? Justifique.
d) Los tres menores y tres mayores valores de las expectativas de vida en la población masculina
fueron de respectivamente 38.1, 39.4, 41 y 74.2, 74.3, 75.9 años. Estos correspondı́an a Malawi, Sierra
Leona y Afganistán y a Suecia, Hong Kong y Japón, respectivamente. Muestre un diagrama de cajas
para la distribución de la expectativa de vida de la población masculina de estos 97 paı́ses e indique
si en alguno de los paı́ses anteriores la expectativa de vida se podrı́a considerar extrema o atı́pica.
12.-En un ascensor hay 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60 kilos con una
desviación estándar de 8 kilos y el peso medio de los hombres es de 80 kilos con una varianza de 25
kilos2 .
a) ¿Cuál es el peso medio de las 10 personas en el ascensor?
b) ¿Cuál es la desviación estándar del peso de las personas en el ascensor?
c) Suponga que cada hombre fue pesado con una balanza mal calibrada que aumentaba 2.5 kilos cada
medición ¿cuál serı́a el coeficiente de variación de las mediciones reales del peso de los hombres?
42
13.- Una mina tiene un campamento donde residen sus operarios. La siguiente es la distribución de
frecuencias del consumo de energı́a eléctrica mensual en kilowatts por hora (KWh) de los hogares
que conforman el campamento.
Intervalo Frecuencia Frecuencia Frecuencia Frecuencia

acumulada relativa relativa en % acumulada en %
[5 , 10] 5 5 5% 5 %
]10 , 15] 15 20 15 % 20 %
]15 , 20] 42 62 42 % 62 %
]20 , 25] 30 92 30 % 92 %
]25 , 30] 8 100 8 % 100 %
a) Un hogar en el campamento ha registrado durante el mes un consumo de electricidad de sólo
6.75 KWh. En términos del boxplot ¿se podrı́a considerar que este es necesariamente un consumo
no atı́pico de electricidad?
b) Halle de manera aproximada la media y desviación estándar de los consumos de energı́a eléctrica
en el campamento.
c) Actualmente los hogares pagan por electricidad lo mismo. Para reducir el consumo se implemen-
tará una polı́tica consistente en cobrar un 10 % más a los hogares que consuman más de 21 Kwh
¿Qué porcentaje de hogares se verán aproximadamente afectados por el aumento?
d) ¿ Cómo cambiarı́a el porcentaje en c) si el criterio fuese ahora el cobrar más a los hogares
que tengan un puntaje estandarizado superior a 2? ?Cuánto deberı́a de consumir un hogar del
campamento para que se le aplique el aumento bajo este criterio?
e) Suponga que se disponen de las siguientes estadı́sticas del consumo de electricidad en Kwh de la
ciudad más cercana al campamento
Mı́nimo Máximo Cuantil 0.25 Cuantil 0.50 Cuantil 0.75

4 42 12.5 17 24
Se podrı́a decir, que en el campamento hay un mayor consumo promedio de electricidad, mayor
dispersión en estos consumos y una más marcada asimetrı́a que en la ciudad cercana? Justifique.
14.- En un exámen de 0 a 20 puntos se han obtenido los siguientes puntajes estandarizados de los 7
alumnos que asistieron al exámen: -1.04978132, -0.87481777, -0.87481777, 0, 0.34992711, 0.87481777,
1.57467198, donde la mı́nima nota fue 3 y la máxima 18.
a) Halle la media y desviación estándar de las notas en el examen.
b) Si un alumno (Juan) dio esta misma prueba en forma extemporánea y saco 16 ¿qué puesto
obtendrı́a Juan en un ranking con sus 8 compañeros?
c) Suponga que el profesor piensa hacer una “curva” en el exámen subiéndo un punto a los que están
por debajo de primer cuartı́l y por encima del tercer cuartı́l y subiéndo al resto dos puntos ¿Serán
las notas obtenidas luego de esta “curva” más similares que las obtenidas sin ella? Considere aquı́ a
los 8 alumnos, incluyendo a nuestro amigo Juan.
15.- Los datos siguientes muestran el salario mensual en soles de los 13 trabajadores de cierta división
en una empresa:
3,210 450 780 380 990 1,250 6,288 800 850 820 1,500 1,900 700
a) Halle la media y mediana de estos salarios y comente cuál promedio representa mejor a estos
datos.
b) Con el propósito de incrementar los salarios y hacer de que estos sean más equitativos, la gerencia
de la división tiene 2 propuestas. La primera consiste en incrementarles los salarios en un 10 % y
darles un bono de 100 soles. La segunda consiste en dividir a los salarios en cuartiles para luego
incrementar los sueldos en x %, a los que ganan igual o menos que el cuantil 0.25, en 2 % a los que
ganan más que el cuantil 0.75 y en 15 % al resto. ¿Cuál serı́a el valor de x para que en promedio los
nuevos salarios sean los mismos bajo las dos polı́ticas?
16.- La data chickwts que se encuentra en R ha sido obtenida de un experimento para comparar la
efectividad de varios suplementos alimenticios en la tasa de crecimiento de los pollos (para mayor
información escribir en la consola de R ?chickwts). Las variable de interés es weight, que es el peso
ganado por los pollos, y el factor para comparar es feed. Realice un diagrama de cajas para comparar
la variable weights bajo los 6 niveles de la variable feed. Interprete.
17.- En el archivo Encuesta.csv (colgado en intranet) se encuentran datos de una encuesta donde se
recolectaron las siguientes variables: edad, estado.civil, ingreso (en miles de u.m.), educacion (nivel
educativo), satlab (satisfacción laboral), genero (sexo) y familia (número de integrantes).
Utilizando en lo posible el software R, responda a lo siguiente.
a) Usando la regla de Sturges para el número de intervalos, grafique e interprete el polı́gono de la
distribución de ingresos.
b) Obtenga un gráfico apropiado para exponer la variable estado civil.
c) Calcule aproximadamente, sólo en base al polı́gono anterior, la proporción de personas en esta
encuesta que tienen ingresos entre 250 mil y 550 mil u.m.
d) Realice, en base al diagrama de cajas correspondiente, un análisis comparativo de los ingresos por
cada nivel de satisfacción laboral.
e) La desviación mediana absoluta es una medida de dispersión definida como la mediana de las
desviaciones medianas absolutas de los datos:
|x1 − M e|, |x2 − M e|, . . . , |xn − M e|,
siendo Me la mediana de los datos. Construya una función en R para calcular la desviación mediana
absoluta que tenga como único argumento a un data frame correspondiente a la información contenida
en el archivo Encuesta.csv . Su función deberá concretamente calcular la desviación mediana absoluta
de la variable edad de esta base de datos.
f) Calcule las medidas de dispersión dadas en el curso para la variable ingreso y compárela con la
definida en e).
44
18.- La base de datos Facebook.csv tomada de
http://archive.ics.uci.edu/ml/datasets/Facebook+metrics
contiene información de 500 posts de la página Facebook de una reconocida companı́a de cosméticos.
Esta información fue obtenida del artı́culo de Moro, S., Rita, P, y Vala, B. (2016). Predicting social
media performance metrics and evaluation of the impact on brand building: A data mining approach.
Journal of Business Research, 69(9), 3341-3351. Si bien la base de datos contiene muchas variables,
nosotros estaremos interesados en básicamente las siguientes:
Category : Variable (definida por los administradores de Facebook) que caracteriza el tipo de
campana a la que el post está destinado.
Page total likes: Número de personas que dieron like a la página de la compañı́a en el momento
en que el post fue publicado.
Type: Tipo de contenido del post
Paid: Si la compania pago a Facebook por hacer propaganda para el post (1 = Si, 0= No)
Lifetime post consumptions: Número de clicks en cualquier lugar del post.
Total interactions: La suma de likes, comentarios y compartires del post.
a) Descarge la base de datos y exportela a R. Escribir la opción sep=“;“ al pedir read.csv.

b) Indique que variables son cualitativas y cuales cuantitativas.
c) Construya y de una representación gráfica de la variable Type.
d) Halle la moda para la variable Page total likes e indique, según su opinión, si esta variable, pudiera
ser útil para determinar si un post resulta exitoso o no.
e) Compare, la media, mediana, desviación estándar y rango intercuartil del número total de inter-
acciones para los post que pagan y no a Facebook.
f) Usando la regla de Sturges, construya una distribución de frecuencias para la variable Total
interactions.
g) Obtenga el histograma, polı́gono y ojiva de la distribución anterior.
h) ¿Es cierto que la variable Lifetime post consumptions tiene una distribución simétrica? Halle sus
coeficientes de asimetrı́a.
i) Compare gráficamente la distribución de las variables Lifetime post consumptions y Total inter-
actions, primero según la categorı́a del post y luego según la variable Type.
j) De las conclusiones del caso para i) e indique si estas coinciden con la comparación de medias y
varianzas de las dos primeras variables para cada nivel de las variables Category y Type.
Capı́tulo 2
NOCIONES DE PROBABILIDAD

En este capı́tulo se enfoca en el desarrollo de la noción de probabilidad. En forma breve, una
probabilidad es una medida que asigna a un evento incierto un número, el cual mide el grado de
factibilidad, seguridad o verosimilitud de que este ocurra. Tal noción es fundamental para poder
enlazar la Estadı́stica Descriptiva e Inferencial, ya que la última requiere para sus propósitos de la
toma de una muestra probabilı́stica o al azar que nos permita poder controlar, precisamente con
probabilidades, los márgenes de error que pudiéramos cometer en la aproximación muestral a las
caracterı́sticas de la población.
El concepto seminal en probabilidades lo constituye el de experimento aleatorio. Este es definido
como un proceso real o hipotético cuyos resultados no son posibles de prever aún cuando éste se
repita indefinidamente. Si bien existe en todo esto un problema de incertidumbre ello no descarta la
posibilidad de listar todo lo que en el experimento pudiera pasar y agrupar estos resultados en un
conjunto Ω. Este conjunto es llamado el espacio muestral y todo subconjunto de él es denominado un
evento 1 . Diremos que un evento A ocurre, si es que el resultado del experimento aleatorio resulta
ser un elemento de A. Diremos también que dos eventos A y B son mutuamente excluyentes (o
disjuntos) si no tienen elementos comunes; es decir, si A ∩ B = ∅.
Ejemplo 2.1 Supongamos estamos en la cola de un banco y hay 6 servidores que nos pudiesen
atender, siendo dos de ellos (digamos los servidores 3 y 5) los más especializados en el trámite
que deseamos hacer. Si el experimento aleatorio consiste en observar qué servidor nos va a tocar,
entonces podrı́amos considerar el espacio muestral Ω = {1, 2, 3, 4, 5, 6}. Un posible evento serı́a el que
nos toque un servidor especializado; vale decir, el evento A = {3, 5} ⊆ Ω. Este evento ocurrirá si al
1
En términos formales, a la colección de todos los eventos se le denomina una σ−álgebra. Esta es una colección de
subconjuntos F de Ω que es cerrado bajo complementos y uniones enumerable de sus elementos. Lo que asumiremos en
nuestro curso es que F = 2Ω ; sin embargo, este conjunto potencia podrı́a ser demasiado grande como para permitir luego
que los eventos posean una medida de incertidumbre consistente. Tal hecho, por fortuna, no nos ocasionará inconveniente
práctico alguno.
45
46
llamarnos nos transfieren a alguno de los dos servidores especializados. En caso contrario el evento
A no ocurrira; pero si su complemento Ac definido como Ac = {1, 2, 4, 6}. Más aún, si definimos el
evento B = {1, 2, 6}, este resulta ser un evento disjunto a A. 2
Es importante comentar que las definiciones que hemos dado de los eventos del ejercicio anterior
fueron como subconjuntos de Ω. En este caso diremos que los eventos han sido definidos por exten-
sión. En ciertas ocasiones ello no es tan aconsejable, ya que el evento pudiera contener un número
muy grande o infinito de elementos, o pudiera ser muy complicado de explicitar todos sus elemen-
tos. En estos caso podrı́amos definir simplemente estos textualmente entre comillas, como por citar
A =”Se nos asigne a un servidor especializado”. En tal situación diremos que el evento se ha definido
por comprensión. Cualquiera de las definiciones anteriores son válidas, lo importante es que traten
siempre de definir sus eventos de interés.
Puesto que los eventos son al final de cuentas conjuntos, toda la teorı́a de probabilidades se basa
en la teorı́a de conjuntos, la cual asumiremos que es conocida por el lector. Si tenemos n eventos
A1 , A2 , . . . , An , traigamos a la mente esta para definir por ejemplo los siguientes eventos:
n
[
Alguno de los eventos ocurra: Ai
i=1
n
\
Todos los eventos ocurran: Ai
i=1
n n
!c
\ [
Ninguno de los eventos ocurra: Aci = Ai
i=1 i=1
n n
!c
[ \
Alguno de los eventos no ocurra: Aci = Ai
i=1 i=1
Dado que uno no tiene la certeza de que un evento A ocurra, será conveniente introducir una
función que nos mida tal incertidumbre. Esta medida se denomina una probabilidad. Ella asigna al
evento A un número P (A) que convendremos estará entre 0 y 1. Este nos mide el grado de factibilidad
de que A ocurra ; mientras más cercano este P (A) a 0, menos seguros estaremos de que A ocurra;
y por el contrario, mientras más cercano este P (A) a 1, más seguros estaremos de que A ocurra.
Seguidamente formalizaremos más este concepto.
2.2. Definición axiomática de probabilidad y propiedades

Formalmente una probabilidad se define como una función
P : 2Ω → [0, 1]
que satisface los dos siguientes axiomas:

(P1) P (Ω) = 1.
(P2) Para cualquier colección A1 , A2 , . . . , An de eventos disjuntos 2 a 2 (esto es que Ai ∩ Aj =

∅, ∀i 6= j) se cumple que
P (A1 ∪· A2 ∪· . . . ∪· An ) = P (A1 ) + P (A2 ) + . . . + P (An ),
donde denotaremos en adelante por A ∪· B a la unión A ∪ B cuando los eventos A y B son disjuntos.
Vale comentar que el axioma aditivo (P 2) puede también extenderse a un número infinito pero
enumerable de eventos disjuntos; es decir, a garantizar que la probabilidad de la unión de todos ellos
sea la suma de sus probabilidades.
Es directo verificar, partiendo sólo de la definición anterior, las siguientes propiedades básicas de
una probabilidad.
Proposición 2.1 Dados dos eventos A y B se cumple que:
1. P (∅) = 0.
2. P (Ac ) = 1 − P (A).
3. P (A − B) = P (A) − P (A ∩ B).
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
5. Si A ⊆ B, entonces P (A) ≤ P (B).
Ejemplo 2.2 Un proceso de control en la producción de cierto dispositivo electrónico consta de dos
procesos de inspección, digamos I y II. La probabilidad de que el dispositivo pase la inspección I es de
0.8; mientras que la probabilidad de que pase la inspección II es de 0.7. Si se sabe que la probabilidad
de que el dispositivo pase por ambas inspecciones es de 0.65. Halle la probabilidad de que el dispositivo
a) pase alguna de las inspecciones.
b) pase sólo una de las inspecciones.
c) no pase ninguna de las inspecciones.
Solución: a) Si definimos los eventos A = “El dispositivo pase por la inspección I” y el evento B =
“El dispositivo pase por la inspección II”, se nos pide P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
0.8 + 0.7 − 0.65 = 0.85
b) Se pide P (A ∩ B c ∪· Ac ∩ B) = P (A ∩ B c ) + P (Ac ∩ B) = P (A) − P (A ∩ B) + P (B) − P (A ∩ B) =
P (A) + P (B) − P (A ∩ B) = 0.8 + 0.7 − 2(0.65) = 0.2.
c) Se pide P (Ac ∩ B c ) = 1 − P (A ∪ B) = 1 − 0.85 = 0.15. 2
Aparte de las propiedades básicas de probabilidad, serán también útiles las siguientes propiedades
que versan sobre una colección de más dos eventos. La primera se refiere a la extensión de la propiedad
4 en la proposición 2.1 y la segunda se conoce como la desigualdad de Bonferroni.
48
Proposición 2.2 Dados n eventos A1 , A2 , . . . , An en Ω se cumple que
a)
n
X X X X X
P (A1 ∪ A2 ∪ · · · ∪ An ) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) + · · ·
i=1 1=i<j=n 1=i<j<k=n
. . . + (−1)n+1 P (A1 ∩ · · · ∩ An ).
b)
n
X
P (A1 ∩ A2 ∩ . . . ∩ An ) ≥ P (Ai ) − (n − 1).
i=1
Solución: Procederemos en ambos casos por inducción. En el caso de a) ya vimos en la proposición

2.1 que esta se cumple para n = 2 y obviamente para n = 1. Supongamos ahora que ella se cumple
para n ∈ N+ , debemos probar que ella se satisface también para n + 1. En efecto, sea el evento
Bn = A1 ∪ A2 ∪ · · · ∪ An para el cual asumimos se cumple a). Entonces
P (A1 ∪ A2 ∪ · · · ∪ An ∪ An+1 ) = P (Bn ∪ An+1 ) = P (Bn ) + P (An+1 ) − P (Bn ∩ An+1 ).
De otro lado, por hipótesis se cumple también que
P (Bn ∩ An+1 ) = P (∪ni=1 (Ai ∩ An+1 ))

n
X X X X X
= P (Ai ∩ An+1 ) − P (Ai ∩ Aj ∩ An+1 ) + P (Ai ∩ Aj ∩ Ak ∩ An+1 ) + · · ·
i=1 1=i<j=n 1=i<j<k=n
. . . + (−1)n+1 P (A1 ∩ · · · ∩ An ∩ An+1 ).

Ası́, reemplazando esta cantidad en la probabilidad buscada nos lleva a que
n+1
X X X X X
P (A1 ∪A2 ∪· · ·∪An+1 ) = P (Ai )− P (Ai ∩Aj )+ P (Ai ∩Aj ∩Ak )+· · ·
i=1 1=i<j=n+1 1=i<j<k=n+1
. . . + (−1)n+2 P (A1 ∩ · · · ∩ An ∩ An+1 ).

La desigualdad en b), por otro lado, se cumple trivialmente para n = 1. Para n = 2, basta despejar
en
1 ≤ P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
Supongamos ahora que b) se cumple para n ∈ N+ . Veamos ahora que se cumpla para n + 1. Para
ello sea Bn = A1 ∩ A2 ∩ . . . ∩ An . Entonces, por lo que hemos demostrado para el caso n = 2 y por
la hipótesis inductiva se tiene que
n
X
P (A1 ∩A2 ∩. . .∩An ∩An+1 ) = P (Bn ∩An+1 ) ≥ P (Bn )+P (An+1 )−1 ≥ P (Ai )−(n−1)+P (An+1 )−1
i=1
n+1
X
= P (Ai ) − n.
i=1
2
2.3. Cálculo de probabilidades

Al margen de lo que uno pueda creer, una probabilidad no siempre se define de manera única.
Consideremos por ejemplo que tenemos mañana clases a las 8 am y que deseamos calcular la proba-
bilidad de que lleguemos a la Universidad antes de esa hora. Alguien sin mayor conocimiento estarı́a
tentado a decir que es igualmente probable que llegue o no antes de esa hora; es decir, el estima esta
probabilidad en 0.5. Otro, por el contrario, conociéndolo relativamente puntual podrı́a estimar esta
probabilidad en 0.8. Desde la definición axiomática, no podrı́amos rechazar a priori ninguna de estas
aseveraciones. Algo similar ocurre en el ejemplo 2.1 de la cola para el cálculo de P (A). Esta podrı́a
1
ser 3 si asumimos que es igualmente probable que nos transfieran a cualquiera de los servidores, o
podrı́a ser otro valor mayor si por citar observamos que los servidores 3 y 5 son más eficientes y
rápidos y por tanto tienden a atender más clientes que otros cajeros.
Detallaremos ahora dos de las formas prácticas más utilizadas para definir una probabilidad.
2.3.1. Definición clásica de probabilidad
Esta asegura que si el espacio muestral Ω es finito y todos sus elementos tienen la misma facti-
bilidad de ocurrencia, entonces la probabilidad de un evento A ⊂ Ω, se define por:
n(A) número de elementos de A

P (A) = = .
n(Ω) número de elementos de Ω
Esta definición, que muchas veces se lee como “casos favorables entre casos posibles”, está en efecto
bien definida pues cumple las dos propiedades de la definición axiomática; sin embargo, presenta
dos limitaciones: una cuando Ω es un conjunto infinito y otra cuando los elementos de Ω presentan
distintas factibilidades de ocurrencia. Piense, por ejemplo, en el experimento de lanzar una caja
de fósforos y en el evento de que esta caiga sobre uno de sus lados más pequeños. De aplicarse
la definición clásica, podrı́amos pensar equı́vocamente que es tan probable que la caja caiga sobre
uno de sus lados más pequeños como sobre uno de los lados más grandes. Para subsanar este último
inconveniente que presenta la definición clásica, podrı́amos optar alternativamente por una definición
más experimental conocida como la definición frecuencial.
2.3.2. Definición frecuencial de probabilidad
Esta asegura que de repetirse un experimento aleatorio n veces y ocurrir en nA veces el evento
A, entonces su probabilidad viene aproximadamente dada por:
nA
P (A) = .
n
Decimos aproximadamente, pues la probabilidad exacta se obtendrá teóricamente de tomarse n → ∞.
La convergencia a la verdadera probabilidad es conocida en el argot estadı́stico como la ley de los
grandes números. Esta ley usted la puede comprobar por ejemplo con un moneda normal, si lanza
50
esta moneda, digamos 10 veces, supongamos que obtiene 7 sellos y 3 caras. Una estimación frecuencial
de la probabilidad de que la moneda muestre sello será entonces 0.7; sin embargo si usted continua
repitiendo este experimento muchas veces, podrá comprobar que mientras más lanzamientos realice,
la proporción de sellos que obtendrá en los lanzamientos se irá acercando cada vez más a su valor
teórico que es 0.5. Ası́, en el caso de la caja de fósforos, disponemos ahora si de una manera más
adecuada de definir la probabilidad de que la caja caiga sobre uno de sus lados más pequeños; si por
decir de las 100 veces que lanzamos la caja solo en dos ocasiones resulta caer ésta sobre uno de sus
2
lados más pequeños, entonces la probabilidad de este evento será aproximadamente 100 = 0.02 y no
equı́vocamente de un tercio como lo manifiesta la definición clásica.
2.4. Técnicas de conteo

Hemos visto que parte fundamental del cálculo de una probabilidad en la definición clásica radica
en contar la cantidad de elementos que un evento posee. Esta tarea si bien puede parecer trivial
en ciertos casos, es sumamente compleja en otros, por lo que será conveniente introducir algunas
técnicas de conteo que nos ayuden para este fin. Antes de ello será conveniente postular el siguiente
principio de multiplicación, el cual es base de todas las técnicas de conteo que definiremos.
Si una operación posee k etapas distintas y cada etapa j puede realizarse de nj maneras, entonces
toda la operación puede realizarse de n1 × n2 × . . . × nk maneras.
En adelante será también conveniente distinguir entre un arreglo y un conjunto. La diferencia es que
en el primero el orden entre sus elementos importa; mientras que en el segundo no; esto es, que una
ordenación distinta genera un nuevo arreglo mas no un nuevo conjunto.
Ejemplo 2.3 Supongamos tenemos las letras de la palabra FACI. Con ellas podrı́amos definir sólo
un conjunto, el cual denotaremos como es usual por
{F, A, C, I}
Sin embargo, estas letras generan 24 arreglos, los cuales vienen dados explı́citamente por:
F A C I, F A I C, F C I A, F C A I, F I A C, F I C A, A F C I, A F I C,
A C F I, A C I F, A I F C, A I C F, C F A I, C F I A, C A F I, C A I F,
C I F A, C I A F, I F A C, I F C A, I A F C, I A C F, I C F A, I C A F.
Si n ∈ N se define el factorial de n y se le denota por n! a
n! = n × n − 1 × n − 2 × . . . × 2 × 1 (0! = 1).
La importancia de este número radica en la siguiente proposición.

Proposición 2.3 El número de arreglos distintos que se puede formar con n elementos es n!.
Demostración: Basta considerar la formación de arreglos como una operación conformada por n
tareas. La primera corresponde a seleccionar el primer elemento para el arreglo. Ello se puede hacer
de n maneras. La segunda tarea será seleccionar el segundo elemento para el arreglo, lo cual se
puede realizar de n − 1 maneras, pues sólo nos quedan n − 1 elementos disponibles al estar uno de
ellos ya en el arreglo. Si continuamos con este procedimiento para la última tarea nos quedará un
único elemento y por tanto ella podrá realizarse de una sola manera. El principio de múltiplicacı́on
completa la prueba. 2
Una aplicación directa de la proposición anterior al ejemplo 2.3 nos permite comprobar que
efectivamente es posible formar 4! = 24 arreglos con las letras de la palabra FACI. Algo interesante
a explorar en este mismo ejemplo es por citar preguntarnos sobre cuantos arreglos de dos elementos
podrı́an formarse. Si bien no es difı́cil listar todos estos arreglos como abajo se aprecian
F A, F C, F I, A F, A C, A I, C F, C A, C I, I F, I A, I C,
en general ello podrı́a no ser tan simple. El siguiente concepto de permutación nos ayudará al respecto.
Si r ≤ n son dos números naturales, se define la permutación de n en r por:
n!
Prn = .
(n − r)!
Proposición 2.4 El número de arreglos distintos de r elementos que se puede formar con n ele-
mentos viene dado por Prn .
Demostración: La idea es exactamente la misma que en la demostración de la proposición 2.3, sólo que
al llegar a la r−ésima y última tarea, pues los arreglos son ahora de r elementos, esta podrá realizarse
de n − r + 1 maneras. El principio de multiplicación nos dice entonces que la cantidad buscada
vendrá dada por
(n − r)!
n × n − 1 × n − 2 × ... × n − r + 1 = = Prn ,
r!
donde para la primera igualdad hemos multiplicado el numerador y denominado por r! 2
4!
La proposición 2.4 justifica entonces el porque existen P24 = 2! = 12 arreglos de dos elementos
con las letras de la palabra FACI.
Al igual que en el caso anterior podrı́amos ahora estar interesados en conocer cuantos conjuntos de
r elementos se podrı́an formar con n elementos, para lo cual usaremos el concepto de combinatorias.
Si r ≤ n son dos números naturales, se define la combinatoria de n en r por:

n n!
= .
r (n − r)!r!
Proposición 2.5 El número de subconjuntos distintos de r elementos que se pueden formar con n

elementos viene dado por nr .
52
Solución: La demostración es directa de tomar en cuenta que la cantidad de arreglos de r elementos

que se pueden formar con n elementos es simplemente igual al número de conjuntos de r elementos
que se pueden formar con los n elementos multiplicado por la cantidad de arreglos que cada uno de
estos conjuntos genera, lo cual es r!. 2
En el ejemplo 2.3, por ejemplo, la cantidad de conjuntos de dos elementos que se pueden formar

con las letras de la palabra FACI son 42 = 2!2!
4!
= 6. Estos están dados explı́citamente por
{F, A}, {F, C}, {F, I}, {A, I}, {A, C}, {C, I}.
Es útil comentar que el comando en R que nos permite calcular combinatorias es choose. La combi-
natoria anterior, por ejemplo, viene dada por:
> choose(4,2)
[1] 6
Ejemplo 2.4 Una caja contienen 20 productos en apariencia idénticos, pero 5 de ellos tienen fecha
de expiración vencida. Si usted pide 4 productos de la caja y el encargado los selecciona al azar
a) ¿Cuál es la probabilidad de que le toque un producto vencido?
b) ¿Cuál es la probabilidad de que le toquen dos productos vencidos?.
Solución: Considere el experimento que consiste en seleccionar los 4 artı́culos de la caja (esto puede
hacerse a la vez o equivalentemente producto por producto, pero sin volver a reemplazarse a la
caja los productos ya extraı́dos). El espacio muestral Ω estará conformado entonces por todas las
muestras posibles que pudieran seleccionarse de la caja, lo cual equivale a encontrar la cantidad de
subconjuntos de 4 elementos que se pudieran formar con estos 20 y por tanto el número de elementos

de Ω, será n(Ω) = 20 20!
4 = 16!4! =
20×19×18×17×16!
16!×4×3×2×1 = 4, 845. Si definimos el evento A de que nos toque
un producto vencido, entonces n(A) se puede obtener usando el principio de multiplicación, ya que
esta operación la podrı́amos dividir en dos tareas. La primera consistente en seleccionar el artı́culo
vencido de los 5 que existen, para lo cual hay 5 maneras y la segunda de seleccionar los restantes 3

productos en la muestra de los no vencidos que son 15. Esto último se puede hacer de 15 3 = 455
maneras. En consecuencia, aplicando la definición clásica (ya que cualquiera de las muestra tiene la
misma chance de salir), la probabilidad pedida en a) será
5 × 455
P (A) = = 0.469556
4, 845
Bajo el mismo razonamiento, si definimos el evento B = “Nos tocan dos productos vencidos”, se
tiene en R que la probabilidad de este evento viene dada por
> choose(5,2)*choose(15,2)/choose(20,4)
[1] 0.2167183
Figura 2.1: Ejemplo de un par en una mano de poker
Ejemplo 2.5 ¿Cuál es la probabilidad de obtener exactamente un par en una mano de poker?
Solución: Este es un problema relativamente complejo, por lo cual será importante descomponer la
operación de selección en tareas más sencillas. Para empezar, el espacio muestra Ω, conformado por

todas las posibles manos (de 5 cartas), tiene n(Ω) = 52 0
5 = 2 598, 960 manos. El evento de interés es
A = “Obtener exactamente un par”. Asumiendo que tenemos una baraja sin comodines, la operación
en mención la podrı́amos entonces subdividir en las siguientes tareas:
Tarea 1: Seleccionar el número para el par. Esto se puede hacer de n1 = 13 maneras.

4

Tarea 2: Seleccionar los palos para el par. Esto se puede hacer de n2 = 2 = 6 maneras.
Tarea 3: Seleccionar los otros números que acompañen al del par. Esto se puede hacer de

n3 = 12
3 = 220 maneras.
Tarea 4: Seleccionar los palos para los tres números de la tarea 3. Esto se puede hacer de
n4 = 43 maneras.
Por tanto, utilizando la definición clásica de probabilidad y el principio de multiplicación, se tiene

que
13 × 6 × 220 × 64
P (A) = = 0.422569.
20 598, 960
2
2.5. Probabilidad Condicional

Sea B un evento con P (B) > 0. La probabilidad condicional de un evento A dado el evento B se
define por:
P (A ∩ B)
P (A | B) =
P (B)
54
Este número mide el grado de factibilidad de la ocurrencia de un evento A si se conoce de que el evento
B ya ocurrió. Vale indicar que la función P (. | B) es en efecto un medida de probabilidad en el sentido
axiomático y que esta medida no tiene porque ser igual que P (.), ya que el que sepamos que el evento
B ha ocurrido podrı́a modificar las creencias que se tiene sobre otro evento particular. Consideremos
para ilustrar el caso de una baraja de cartas y el experimento que consiste en seleccionar de ella al
azar una de las cartas. El espacio muestra está aquı́ conformado por todas las 52 cartas de la baraja.
Si definimos los eventos A = ”La carta seleccionada es de corazones” y el evento B = ”La carta
seleccionada es roja”, entonces
P (A ∩ B) 13/52
P (A | B) = = = 0.5.
P (B) 26/52
Note que esta probabilidad la podrı́amos también haber obtenido de forma intuitiva, ya que si nos
informarán que la carta seleccionada es roja, la probabilidad que nosotros proyectarı́amos para que
esta sea de corazones serı́a de 13/26 = 0.5 pues buscarı́amos las cartas de corazones sólo dentro de
las cartas rojas, pues ya sabemos que la carta seleccionada es de todas maneras roja. Note también
que P (A) 6= P (A | B), ya que P (A) es 0.25 al no tener mayor información sobre lo que aconteció en
la selección.
Una aplicación interesante de la probabilidad condicional esta centrada en la propiedad siguiente
conocida como la regla del producto. Ella básicamente extiende la definición que nos dice que
P (A ∩ B) = P (A | B)P (B)
al caso de más de dos eventos
Proposición 2.6 Si A1 , A2 , ..., An son eventos cualesquieras con intersecciones no nulas, entonces
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (An | A1 ∩ · · · ∩ An−1 )P (An−1 | A1 ∩ · · · ∩ An−2 ) . . . P (A2 | A1 )P (A1 ).
Demostración: Sea Bn = A1 ∩ A2 ∩ · · · ∩ An , entonces
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (Bn−1 ∩ An ) = P (An | Bn−1 )P (Bn−1 ) = P (An | Bn−1 )P (An−1 ∩ Bn−2 ).
Siguiendo con este desarrollo obtendremos la fórmula dada en la proposición. 2
2.5.1. Independencia
Si P (A | B) = P (A) ó P (B | A) = P (B), entonces intuitivamente de nada nos servirá saber

si B ó, respectivamente A, ocurrió o no para calcular la probabilidad del otro evento. En este caso
diremos que los eventos A y B son independientes. De manera equivalente tenemos que dos eventos
A y B son independientes si
P (A ∩ B) = P (A)P (B).
En general, una colección de eventos A1 , A2 , . . . , An se dirán independientes si la probabilidad de la

intersección de cualquier subconjunto de estos es igual al producto de sus probabilidades.
Un ejemplo tı́pico de eventos independientes se da cuando lanzamos dos monedas y definimos

A = “la primera moneda cae sobre su cara” y B =“la segunda moneda cae sobre su cara”. Saber el
resultado del primer lanzamiento no tendrá ninguna injerencia en el resultado del segundo.
La propiedad siguiente nos dice que la propiedad de independencia es heredada por los comple-
mentos.
Proposición 2.7 Si A y B son dos eventos independientes; se cumple que:
A y B c son independientes
Ac y B son independientes
Ac y B c son independientes.
Demostración: Los tres casos son similares por lo que sólo probaremos el primero. Los otros dos
quedan como ejercicio. Si A y B son dos eventos independientes, entonces
P (A ∩ B c ) = P (A − B) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ).
Ejemplo 2.6 En un torneo relámpago de fulbito, en el que jugarán todos contra todos y no habrá em-
pates, participarán 3 equipos: A,B y C. Naturalmente el torneo lo ganará quien gane sus dos partidos.
Dado que el equipo A es favorito y no se conoce mucho sobre los otros dos equipos, se plantea que
3
P (AB) = P (AC) = 4 y P (BC) = 12 , donde las notaciones X, XY y XYZ denotan respectivamente
a los eventos X vence a Y y a Z, X vence a Y y X vence a Y, quien a su vez vence a Z. Se plantea
también que P (ABC) = P (ACB), P (BAC) = P (BCA) y P (CAB) = P (CBA).
a) Calcule las probabilidades de que estos equipos ganen el torneo.
b) ¿ Son los eventos AB, AC y BC independientes?
Solución: a) El espacio muestral en este problema viene dado por Ω =

{ABC, ACB, BAC, BCA, CAB, CBA}. Note que no todos los elementos en él son igualmente
factibles en su ocurrencia (equiprobables) y que sus probabilidades individuales, que denotaremos
respectivamente por p1 = p2 , p3 = p4 y p5 = p6 , satisfacen
3
4 = P (AB) = P (ABC ∪· ACB ∪· CAB) = 2p1 + p5
3
4 = P (AC) = P (ACB ∪· ABC ∪· BAC) = 2p1 + p3
1
2 = P (BC) = P (BCA ∪· BAC ∪· ABC) = 2p3 + p1
1 1
Resolviendo obtenemos que p1 = p2 = 3 y p3 = p4 = p5 = p6 = 12 . Por tanto, las probabilidades
pedidas vienen dadas por
P (A) = P (ABC ∪· ACB) = 2P (ABC) = 2 31 = 2

3
1
P (B) = P (BAC ∪· BCA) = 2P (BAC) = 2 12 = 16
1
P (C) = P (CAB ∪· CBA) = 2P (CAB) = 2 12 = 16 .
56
b) Para la independencia deberı́a de cumplirse que P (AB ∩ AC ∩ BC) = P (AB)P (AC)P (BC),
P (AB ∩ AC) = P (AB)P (AC), P (AB ∩ BC) = P (AB)P (BC) y P (AC ∩ BC) = P (AC)P (BC).
Vemos sin embargo que
2 9 3 3
P (AB ∩ AC) = P (ABC ∪· ACB) = 2p1 = 6= = × = P (AB)P (AC)
3 16 4 4
y por tanto los eventos no son independientes. 2
2.5.2. Los teoremas de probabilidad total y Bayes
Supongamos que tenemos tres lotes, dos de 7 artı́culos y uno de 9 artı́culos. Por error en los
lotes de 7 artı́culos se colocaron en cada uno dos artı́culos defectuosos; mientras que en el lote de 9
artı́culos, 3 artı́culos defectuosos. Supongamos ahora que ud. elige al azar uno de los lotes y selecciona
de este tres artı́culos. Defı́nanse los eventos A = “El lote elegido sea uno con 7 artı́culos” y B =
“Se seleccione un artı́culo defectuoso”. Si se nos dijera que hemos elegido un lote de 7 artı́culos, la
probabilidad de eligir un artı́culo defectuoso vendrı́a dado por:
2
5

1 × 2
P (B | A) = 7
= 0.5714
3
¿ Qué es lo que pasarı́a ahora si es que no se nos diera la información A ?, ¿ cómo se modificarı́a, si
es que lo hace, la probabilidad de seleccionarse un artı́culo defectuoso ?. El siguiente teorema, nos
será para esto de gran ayuda.
Proposición 2.8 ( Teorema de probabilidad total) Sean A1 , A2 , . . . , An n eventos disjuntos dos a dos
(Ai ∩ Aj = ∅, ∀i 6= j) que unidos conforman el espacio muestral Ω. Si B es un evento cualesquiera,
entonces
n
X
P (B) = P (B | Ai )P (Ai )
i=1
Proposición 2.9 (Teorema de Bayes) En el contexto del teorema anterior, se cumple que
P (B | Aj )P (Aj )
P (Aj | B) = Pn , ∀j = 1, 2, . . . , n.
i=1 P (B | Ai )P (Ai )
Una manera práctica de resolver problemas que involucren la aplicación de estos teoremas es
mediante un diagrama de árbol. Por ejemplo, si n = 3, un diagrama de árbol viene dado por:
B

A1
@
R Bc
@

B

- A2
A @
A R Bc
@
A
A B
A
AU A3
@
R Bc
@
Ejemplo 2.7 Supongamos que en el ejemplo anterior Ud., luego de seleccionar al azar a uno de los
lotes, selecciona al azar de éste 3 artı́culos.
a) ¿Con qué probabilidad sólo uno de los artı́culos le resultará defectuoso ?
b) Si Ud. encuentra que dos artı́culos le resultaron defectuosos, ¿ de qué tipo de lote es más probable
que estos hayan sido seleccionados ?
Solución: a) Sean los eventos A = “Se selecciona un lote de 7 artı́culos” y B = “Se encuentra un
(3)×(6)
artı́culo defectuoso”. Se nos pide P (B). Dado que P (B | A) = 0.5714, P (B | Ac ) = 1 9 2 = 0.5357
(3)
2
y P (A) = 3 , el teorema de probabilidad total o el diagrama de árbol siguiente:
0.5714 B

A
@
R Bc
@
2
3

A
A
A
1
3 A 0.5357 B
A
AU Ac
@
R Bc
@
2 1
implican que P (B) = P (B | A)P (A) + P (B | Ac )P (Ac ) = 0.5714 × 3 + 0.5357 × 3 = 0.5595.
b) Sea el evento C = “Se encuentran dos artı́culos defectuosos”. Para responder la pregunta debemos
obtener solo P (A | C), ya que la otra probabilidad a compararse es el complemento de esta. Al igual
que en a), P (C) = P (C | A)P (A) + P (C | Ac )P (Ac ) = 0.1429 × 32 + 0.2143 × 13 = 0.1667 y por tanto
0.1429× 32
P (A | C) = P (C|A)P
P (C)
(A)
= 0.1667 = 0.5715. Ası́, es más probable de que estos artı́culos hayan sido
seleccionados del lote con 7 artı́culos. 2
2.6. Ejercicios
1.- En una ciudad el 40 % de los domicilios tiene conexión a Internet, el 33 % tiene conexión de
TV por cable y el 20 % disfruta de ambos servicios. Si se elige al elegir al azar un hogar, calcule la
probabilidad de que
a) nos encontremos con alguno de estos dos servicios.
b) el hogar tenga conexión a Internet, pero no TV por cable.
2.- Un canal de comunicación tiene tres componentes: una fuente emisora y dos receptoras. El usuario
final de este canal puede acceder a la información proporcionada si, y solo si, la fuente emisora y por
lo menos una de las receptoras están operativas. Para cualquiera de estas receptoras la probabilidad
de que esté operativa conjuntamente con la emisora es de 0.855. Si la probabilidad de que las 3
fuentes estén operativas simultáneamente es 0.7695.
58
3.- En la inspección de control de calidad de cierto tipo de artı́culos se pudieran presentar 3 tipos de
defectos, defectos de tipo I con probabilidad 0.1, defectos de tipo II con probabilidad 0.6 y defectos
de tipo III con probabilidad 0.4. Se sabe que los defectos de tipo I son independientes de los de tipo
II y que de las veces en que se presento un defecto de tipo III, un 7 % ocurrió también un defecto
de tipo I, en un 70 % de tipo II y un 2 % conjuntamente los defectos de tipo I y II. Si usted realiza
una inspección de control:
a) ¿Con qué probabilidad no encontrará ningún defecto ?
b) ¿Con qué probabilidad se presentará sólo uno de los tipos de defectos?
c) Si otra persona realiza independientemente otra inspección de control ¿con qué probabilidad
ninguno de los dos encontrará defecto alguno?
4.- Juan, Maria, Rosa y Pepe han llevado su ropa a una lavanderı́a self-service en la cual existen cuatro
máquinas disponibles A, B, C y D, una de las cuales, la máquina C, tiene la opción de centrifugado
rápido. Si ellos eligen al azar estas máquinas, pues desconocen las caracterı́sticas de estas:
a) Describa explı́citamente un espacio muestral apropiado para este experimento aleatorio.
b) Halle la probabilidad de que Juan, Maria, Rosa y Pepe elijan respectivamente las máquinas B, C,
A y D.
c) ¿Con qué probabilidad a Juan le tocará la máquina con centrifugado rápido?
d) ¿Con qué probabilidad a una de las mujeres le tocará la máquina con centrifugado rápido?
5.- Como gerente de una compañı́a usted ha recibido correos de las compañı́as Balbuena, Prado y
Foster y prepara sendas cartas de respuesta que las entrega a su secretaria para que las edite y remita
por fax a estas compañı́as. Desafortunadamente a usted se le olvido colocar el nombre de la compañı́a
a quién serı́a dirigida cada una de las tres cartas. Si la secretaria, ante esta falta de información,
decide enviar estas cartas al azar a las compañı́as:
a) Describa explı́citamente el espacio muestral asociado a este experimento aleatorio
b) Si se define el evento A = “Sólo una de las cartas de respuesta llega a la compañı́a correcta”describa
este evento como subconjunto del espacio muestral y halle su probabilidad.
c) Si se define el evento B = “La compañı́a Foster recibe la carta respuesta fax que le deberı́a
corresponder a la compañı́a Prado”¿es este un evento disjunto al del evento A en b)? ¿Cuál es la
probabilidad P (AU B)?
6.- Doce artı́culos, de los cuales tres están marcados han sido chocolateados y puestos al azar en 3
cajas de 4 artı́culos cada uno.
a) ¿Con qué probabilidad cada caja contendrá exactamente un artı́culo marcado?
b) ¿Con qué probabilidad quedará alguna caja sin artı́culos marcados?
7.- En el almacén de una aduana se tienen 13 autos, de las cuales, 6 corresponden a un modelo A,
4 a un modelo B y 3 a un modelo C. Si de este almacén se escogen 3 autos al azar y sin reemplazo
para inspección, calcular la probabilidad de que al menos dos autos sean del mismo modelo.
8.- Una asociación desea organizar 4 congresos, para lo cual elegirá al azar igual cantidad de sedes
en 7 paı́ses, dentro de los cuales hay dos paı́ses de Sudamérica: Perú y Brasil. Cada paı́s podrá ser
sede de sólo uno de los congresos y estos se realizarán en los años 2017, 2018, 2019 y 2020.
a) Describa un espacio muestral asociado a este experimento aleatorio de selección, listando al menos
3 elementos de este espacio e indicando el número de sus elementos.
b) ¿Con qué probabilidad el Perú será elegido para realizar uno de los congresos?
c) ¿Con qué probabilidad Brasil será elegido sede para el 2017 y el Perú sede para el 2020?
d) Si en la primera selección para el 2017 el Perú no fue elegido, ¿qué probabilidad hay de que de
que Sudamérica sea aún sede de uno de los 4 congresos?
e) ¿Con qué probabilidad sólo uno de los paı́ses sudamericanos será elegido para organizar uno de
estos cuatro congresos?
9.- Una persona tiene un reproductor MP4 que utiliza dos pilas AAA. Suponga que en una caja tiene
5 pilas AAA idénticas en apariencia, pero de las cuales 2 están gastadas. Si la persona selecciona dos
pilas al azar de la caja
a) Describa de manera explı́cita el espacio muestral asociado a este experimento aleatorio.
b) Halle la probabilidad de que sólo una de las pilas seleccionadas no este gastada.
c) Halle la probabilidad de que pueda hacer funcionar su reproductor.
10.- Un número binario está compuesto sólo de los dı́gitos 0 y 1 (por ejemplo, 1101, 0101, etc).
Estos números tienen un papel importante en el uso de computadores electrónicos. Supóngase que
un número binario está formado por n dı́gitos. Supóngase que la probabilidad de que aparezca un
dı́gito incorrecto es p y que los errores en dı́gitos diferentes son independientes uno de otro. ¿Cuál es
la probabilidad de formar un número incorrecto ?
11.- Una compañı́a cuenta actualmente con 2 proveedores de cierto insumo. Suponga que a usted
le dicen que para la elección de estos proveedores se presentaron 9 proveedores, quienes ofertaron
el insumo a un precio unitario de 10,8,12,9,15,17,11,13 y 14 nuevos soles. Le informan también de
que en un primer proceso se seleccionaron al azar a 3 de estos proveedores y en el segundo proceso
eliminó de esta lista preliminar al proveedor con el mayor precio ofertado, quedando finalmente los
dos proveedores actuales de la compañı́a.
a) Describa un espacio muestral adecuado para la selección de los proveedores en el primer proceso,
indicando cuantos elementos tiene este espacio muestral y explicitando al menos dos de sus elementos.
b) ¿Con qué probabilidad en el primer proceso de selección se habrá seleccionado al proveedor con
un precio unitario de 14 soles?
c) ¿Con qué probabilidad uno de los proveedores actuales está vendiendo a la compañı́a el insumo a
14 soles la unidad?
d) ¿Con qué probabilidad la compañı́a estará actualmente pagando a lo más 14 soles por algún
insumo?
60
12.- Diez especı́menes de distintos tipos de aleación con supuestamente distintos grados de dureza
han sido enviados a un laboratorio para sus pruebas con un durómetro. Dado que el laboratorio no
dispone del tiempo y presupuesto suficientes para realizar todas las pruebas, decide realizar sólo 5
pruebas, seleccionando al azar igual número de especı́menes una a una del envı́o para su prueba con
el durómetro.
a) Si se definen los eventos A = “El primer especı́men seleccionado es el de menor dureza” y B =
“El segundo especı́men seleccionado es el de mayor dureza” ¿son estos eventos independientes?
b) ¿Con qué probabilidad el especı́men de mayor dureza será seleccionado en la tercera prueba?
c) Halle la probabilidad de que se seleccionen los dos especı́menes con mayor dureza.
13.- Considere un bien para el cual se asume que de un mes a otro, la acción puede independientemente
subir o bajar de precio en un sol con probabilidades respectivas de 0.6 y 0.4. Si al término del mes
anterior el bien tenı́a un precio de 10 soles
a) Halle la probabilidad que dentro de 4 meses el bien culmine con un precio de 14 soles.
b) Defina un espacio muestral apropiado para la evolución de los precios del bien durante 4 meses.
c) Si se definen los eventos A = “ El precio del bien al término de 4 meses es de 10 soles”, B = “ El
precio del bien sólo sube dos veces en los próximos 4 meses” y C = “ El precio del bien disminuirá en
4 meses en un sol con respecto a su precio actual” ¿ son estos eventos disjuntos 2 a 2? ‘? son estos
eventos independientes?
14.- Tres máquinas producen un cierto artı́culo en cantidades muy grandes, de tal manera que
cualquiera de estos artı́culos puede resultar defectuoso independientemente de la máquina que lo
haya producido. La primera máquina produce 2.5 % de artı́culos defectuosos, la segunda 3.1 % y la
tercera 1.8 %. Se seleccionan al azar tres de estos artı́culos, el primero producido en la máquina 1,
el segundo en la máquina 2 y el tercero en la máquina 3.
a) ¿Cuál es la probabilidad de que al menos uno de los artı́culos seleccionados de las dos primeras
máquinas sea defectuoso?
b) ¿Cuál es la probabilidad de que el artı́culo seleccionado de la máquina 3 sea el segundo defectuoso?
c) ¿Cuál es la probabilidad de que solo uno de los artı́culos seleccionados sea defectuoso?
d) Suponga que un dı́a la primera máquina produjo 50 artı́culos, la segunda 80 y la tercera 40 y
estos se enviaron a un almacén, del cual usted seleccionó al azar 3 artı́culos, ¿con qué probabilidad
sólo uno de estos 3 artı́culos será defectuoso?
15.- Una empresa tiene un almacén donde guarda 24 dispositivos, 9 de los cuales son defectuosos.
Para renovar el almacén suponga que se seleccionan al azar y sin reemplazo 10 dispositivos de este y
se decide reemplazar todos los dispositivos defectuosos encontrados en esta muestra por dispositivos
nuevos para finalmente devolverlos al almacén. Si luego de esta operación se seleccionaran al azar y
sin reemplazo 5 dispositivos del almacén, responda a lo siguiente.
a) ¿Con qué probabilidad la empresa adquirirá 4 nuevos dispositivos, finalizada la primera selección?
b) ¿Con qué probabilidad ninguno de los dispositivos en la segunda muestra será defectuoso?
16.- Un alcoholı́metro, usado por la policı́a para saber si los conductores exceden el lı́mite permitido
de alcohol en la sangre si conducen se sabe satisface: P (A | B) = P (Ac | B c ) = p, donde A es el
evento que el alcoholı́metro indica que el conductor excedió el lı́mite legal y B es el evento de que
el conductor efectivamente consumió más alcohol de lo permitido. Si los Sábados por la noche se
sabe que aproximadamente un 5 % de conductores exceden el lı́mite legal de alcohol en la sangre a)
Describa en palabras el significado de P (B c | A).
b) Determine P (B c | A), si p = 0.95.
c) ¿Cuán grande deberá ser p para que P (B | A) = 0.9?
d) Halle, en términos de p, la probabilidad de que al parar la policı́a un Sábado por la noche a 4
conductores seleccionados al azar, a sólo 2 el alcoholı́metro le de una clasificación correcta.
17.- Suponga que el 20 % de una población sufre cierta enfermedad. En las farmacias se vende
una prueba clı́nica que detecta, con una probabilidad de 0.8, que en efecto una persona tiene la
enfermedad y que por otro lado tiene una probabilidad 0.3 de salir positiva (es decir, indicar que la
persona tiene la enfermedad) cuando en verdad la persona no tiene la enfermedad.
a) Si se elige al azar a una persona de la población y se le aplica la prueba clı́nica, ¿cuál es la
probabilidad de que esta prueba salga positiva?
b) Si se eligen al azar a 5 personas de la población y se les aplica la prueba clı́nica, ¿con qué proba-
bilidad en al menos uno de estos casos la prueba resultará positiva ?
18.- Un sistema de seguridad biométrico, que hace uso de huellas dactilares, erróneamente rechaza, a
una de cada 500 personas autorizadas en un centro de información clasificada. Este sistema, de otro
lado erróneamente admite a una de cada 5,000 personas no autorizadas al centro de información. Si
el 95 % de las personas que buscan ingresar al centro tienen autorización, y un dı́a el sistema rechaza
a una persona, ¿cuál es la probabilidad de que esta persona este realmente autorizada?
19.-Un ingeniero debe diseñar la cimentación de un edificio para esto debe conocer la profundidad
de la base rocosa. Para propósitos del diseño, la profundidad h es dividida en 4 estados: {h ≤
5m}, {5m < h ≤ 10m}, {10m < h ≤ 15m} y {h > 15m}. Un geólogo de manera preliminar asigna
las siguientes probabilidades para los cuatro estados de la siguiente manera:
P ({h ≤ 5m}) = 0.6, P ({5m < h ≤ 10m}) = 0.2,
P ({10m < h ≤ 15m}) = 0.15 y P ({h > 15m}) = 0.05.
Para medir la profundidad de la base rocosa se utiliza un cierto instrumento que está sujeto a algún
error. Por experiencias previas se conoce la probabilidad condicional de que el instrumento indique
una cierta medición dado que se conoce el verdadero estado de la profundidad de la base rocosa.
Estas probabilidades se presentan en la siguiente tabla:
62
Verdadero estado
Medición h ≤ 5m 5m < h ≤ 10m 10m < h ≤ 15m h > 15m
h ≤ 5m 0.9 0.05 0.03 0.02
5m < h ≤ 10m 0.07 0.88 0.10 0.06
10m < h ≤ 15m 0.03 0.05 0.81 0.12
h > 15m 0.00 0.02 0.06 0.80
(por ejemplo, la probabilidad que la medición haya sido dado que en verdad es es de 0.90 ó la
probabilidad que la medición haya sido dado que en verdad es es de 0.03).
a) Si la medición fue de 7m, calcule las probabilidades de cada uno de los estados dada esta infor-
mación. Interprete sus resultados.
b) Si se realiza una nueva medición independiente y esta es de 8m calcule las probabilidades de cada
uno de los estados dada esta nueva información. Interprete sus resultados.
20.- Una minera debe de tratar por ley secuencialmente sus aguas residuales por tres procesos de
limpieza independientes I, II y III antes de que estos sean vertidos en un rio. Cada proceso podrı́a
ser calificado como insatisfactorio(A), incompleto(B) o satisfactorio(C), siendo las probabilidades de
estos eventos para cada proceso las siguientes
P(A) P(B) P(C)

I 0.1 0.3 0.6
II 0.2 0.3 0.5
III 0.1 0.5 0.4
a) Si el tratamiento se considera satisfactorio si ningún proceso es insatisfactorio o al menos dos son

satisfactorios, ¿cuál es la probabilidad de que el tratamiento sea satisfactorio?
b) Suponga que al inspeccionarse el vertido de aguas residuales en el rio por una queja de que el
tratamiento sólo se hizo bajo dos de los procesos, el organismo regulador encontró que ello fue ası́ y al
tomar muestras de estas aguas, encontró evidencias de que sólo uno de estos procesos fue satisfactorio;
mientras el otro incompleto. Si inicialmente el organismo regulador pensaba que cualquiera de los
procesos podrı́a haber sido omitido con igual probabilidad, ¿cuál de los procesos tendrı́a ahora en
base a la evidencia encontrada una mayor probabilidad de haber sido omitido?
Capı́tulo 3
VARIABLES ALEATORIAS

Definición 3.1 (Variable aleatoria) Una variable aleatoria (v.a) X es cualquier función1
X:Ω→R
En otras palabras, una v.a. es una aplicación que especifica una manera particular de cuantificar
los elementos del espacio muestral o posibles resultados de un experimento aleatorio. Su nombre se
fundamenta en que el valor que tome la variable no será conocida sino hasta después que se realice
el experimento.
Al conjunto de todos los posibles valores que la v.a X pudiera tomar se le denota por RX y se
le llama el rango de X. Si RX es finito o enumerable, X se denomina una v.a discreta; mientras que
si RX es un intervalo no degenerado (un punto), X se denomina una v.a continua. Existen también
algunas variables en las que X pudiera tomar valores puntuales como infinitos valores dentro de ciertos
intervalos. Tales variables se denominan mixtas y su tratamiento es similar al de la combinación de
los dos casos anteriores, pero lo que no las veremos en estas notas.
Para ilustrar el concepto, retomemos el problema del ejemplo 2.4, en el que extraı́amos al azar y
sin reemplazo, 4 artı́culos de una caja con 5 productos vencidos. Este experimento aleatorio genera

un espacio muestral conformado por 20 4 = 4, 845 elementos, algunos de los cuales se explicitan en
Ω = {{B1 , B2 , B3 , B4 }, {B15 , V4 , B6 , B10 }, . . . , {V2 , V3 , V4 , V5 }},
donde por Bi entenderemos a que el i−ésimo producto bueno es seleccionado y por Vi a que el i−ésimo
producto vencido es seleccionado. En este contexto podrı́amos definir muchas variables aleatorias.
Una de ellas es por citar, X =Número de productos vencidos seleccionados. Esta es una v.a discreta,
1
Formalmente deberı́a ser medible en el sentido de que la imagen inversa de ella deberı́a de estar en la sigma-álgebra
F definida sobre Ω; esto es X −1 (] − ∞, a]) = {ω ∈ Ω | X(ω) ∈ F}, para cualquier a ∈ R. Puesto que para efectos
prácticos y los problemas que trabajaremos aquı́ estamos asumiendo F = 2Ω , tal condición no será necesaria.
63
64
pues su rango es RX = {0, 1, 2, 3, 4} y su valor no se podrá conocer sino hasta que realicemos el
experimento. Formalmente X se puede escribir como la función
X: Ω 7−→ R
{B1 , B2 , B3 , B4 } → 0
{B15 , V4 , B6 , B10 } → 1
.. ..
. .
{V2 , V3 , V4 , V5 } → 4.
3.2. Funciones de probabilidad, densidad y distribución

El comportamiento probabilı́stico de una v.a discreta se describe mediante
Definición 3.2 (La función de probabilidad) Si X es una v.a. discreta, la función de probabilidad
de X viene dada por:
PX (x) = P (X = x) = P ({ω ∈ Ω / X(ω) = x}).
P
Se sigue de esta definición que x∈RX PX (x) = 1 y que si x ∈
/ RX , entonces PX (x) = 0.
Ejemplo 3.1 Consideremos nuevamente el ejemplo 2.4 reincorporado al inicio de este capı́tulo. Para
obtener la función de probabilidad de la v.a X =Número de productos vencidos seleccionados, hay
que tomar en cuenta que sólo es necesario evaluar ella en los 5 valores de su rango, pues fuera de
ella es 0. Dado que todas las muestra en Ω tienen la misma factibilidad de ocurrencia, podemos usar
la definición clásica para evaluar esta función. Por ejemplo,
PX (0) = P ({ω ∈ Ω | X(ω) = 0}) = P ( {B1 , B2 , B3 , B4 }, {B1 , B2 , B3 , B5 }, . . . , {B12 , B13 , B14 , B15 } )
15

4 (15!)/(11!4!) 15 × 14 × 13 × 12
= 20 = = = 0.2817.
4
(20!)/(16!4!) 20 × 19 × 18 × 17
En general usando las técnicas de conteo dadas en el capı́tulo anterior, se sigue que en general
5
15
x 4−x
PX (x) = 20
, x = 0, 1, 2, 3, 4.
4
2
En el caso de una v.a. continua, la noción de función de probabilidad carece de sentido ya que la
probabilidad de que X tome exactamente un solo valor de entre los infinitos que pudiera tomar es
siempre nula. Esto sin embargo, no limita la posibilidad de evaluar la probabilidad de que X tome
valores en un intervalo. Para ello se utiliza el siguiente concepto.
Definición 3.3 (La función de densidad) Si X es una v.a. continua, la función de densidad de X
Rb
es una aplicación fX : R → [0, ∞[ tal que P (a ≤ X ≤ b) = a fX (x)dx y satisface que:
Z ∞
Area bajo la gráfica de fX = fX (x)dx = 1.
−∞
Cabe remarcar que fX no es una probabilidad, sino simplemente un modelo matemático que nos
permite evaluar la probabilidad de que X tome valores en el intervalo [a, b] como el área bajo su
gráfica entre los puntos a y b.
Definición 3.4 (La función de distribución) La función de distribución (acumulada) de una v.a. X
viene dada por:
FX (x) = P (X ≤ x) = P ({ω ∈ S / X(ω) ≤ x}).
Note que la definición de función de distribución se da independientemente de si la variable es

discreta o continua. Algunos autores al respecto definen una v.a discreta X como aquella cuya gráfica
de FX es de tipo escalera; mientras que una v.a continua como aquella cuya gráfica de FX es continua.
En efecto, tales caracterı́sticas se pueden formalizar en términos de las siguientes propiedades de FX .
Proposición 3.1 La función de distribución satisface las siguientes propiedades:
a) FX es una función creciente y continua por la derecha.
b) lı́mx→−∞ FX (x) = 0 y lı́mx→∞ FX (x) = 1.
c) ( P
PX (u), si X es una v.a. discreta
FX (x) = R xu≤x,u∈RX
−∞ fX (u)du , si X es una v.a. continua.
dFX (x)
d) Si X es una v.a continua, entonces fX (x) = dx .
Ejemplo 3.2 Suponga que para la licitación de la construcción de un pequeño aeropuerto se han
presentado dos postores A y B, los cuáles ofrecerán, sin saber uno la oferta del otro, indistintamente
una inversión de entre 0 y 1 millón de dólares. Halle la función de distribución y densidad de la
oferta ganadora; esto es, de la que ofrezca más inversión.
3.3. Valor esperado

Definición 3.5 Sea X una v.a y H : R → R una función que transforma a la v.a X en una nueva
v.a. H(X). Se define el valor esperado de H(X) como:
( P
x∈RX H(x)PX (x) , si X es una v.a. discreta
E(H(X)) = R∞
−∞ H(x)fX (x)dx , si X es una v.a. continua.
Si H es la función identidad, obtendremos µX = E(X). A este número se le llama la media o valor

esperado de X y es utilizado como un representante, o si se quiere, como un valor promedio de los
posibles valores que X puede tomar.
Si tomamos la función H(x) = (x − µ)2 en la definición anterior, obtendremos σX
2 = V (X) =
E((X − µ)2 ) = E(X 2 ) − µ2X . A este número se le llama la varianza de X y a su raiz la desviación
estándar de X. Ambas constituyen medidas de la dispersión de los posibles valores de X.
66
Proposición 3.2 Dada una v.a. X y las constantes a y b, se cumple que:
a) E(a + bX) = a + bE(X).
b) V (a + bX) = b2 V (X).
Ejemplo 3.3 Un comerciante desea averiguar el stock óptimo mensual K que deberı́a adquirir de
un bien perecedero. El precio de compra del bien es de a u.m. y el de venta de b u.m. Si a fin de mes,
le sobra cierta cantidad del bien, él lo rematará a c u.m.; mientras que si le falta para satisfacer la
demanda, comprará más del bien a d u.m. (se asume que los precios dados son unitarios y satisfacen
la relación: c < a < d < b). Si la demanda del bien es una v.a. continua X con función de distribución
conocida FX y se tiene un costo fijo mensual de e u.m., determine el valor óptimo de K.
Solución: La función de utilidad mensual del comerciante, que depende del stock K que él adquiere
y de la demanda del bien, viene dada por:
(
bX + c(K − X) − aK − e, si X ≤ K
U ≡ U (X, k) =
bX − aK − d(X − K) − e, si X > K.
ó (
(b − c)X + (c − a)K − e , si X ≤ K
U ≡ U (X, k) =
(b − d)X + (d − a)K − e , si X > K.
El valor esperado de la utilidad mensual del comerciante, que lo denotaremos por g(K), es entonces:
Z ∞ Z K Z ∞
g(K) = E(U (X, k)) = U (x, K)fX (x)dx = U (x, K)fX (x)dx + U (x, K)fX (x)dx
−∞ −∞ K
Z K Z ∞
= ((b − c)x + (c − a)K − e)fX (x)dx + ((b − d)x + (d − a)K − e)fX (x)dx
−∞ K
R∞ RK R∞ RK
Recordando que K fX (x)dx = 1 − −∞ fX (x)dx y que K xfX (x)dx = µX − −∞ xfX (x)dx se tiene
que:
Z K Z K
g(K) = (d − c) xfX (x)dx + (c − d)K fX (x)dx + (d − a)K + (b − d)µX − e (∗).
−∞ −∞
El stock óptimo K ∗ será aquel que maximize la utilidad esperada g(K). Para obtenerlo podrı́amos
reemplazar fX en (*); sin embargo, esta opción resulta poco práctica en los casos que la integración
resulte complicada. Una opción más recomendable será aquella consistente en resolver el problema
de maximización, utilizando el teorema fundamental del cálculo al momento de derivar g(K). La
derivada de g(K) con respecto a K viene dada por:
Z K Z K
0
g (K) = (d−c)KfX (K)+(c−d) fX (x)dx+(c−d)KfX (K)+d−a = (c−d) fX (x)dx+d−a.
−∞ −∞
00 0
Dado que g (K) = (c − d)fX (K) < 0, la solución de la ecuación g (K) = 0 nos provee del stock
óptimo buscado. Este viene dado por el valor K ∗ que satisface la relación:
d−a
FX (K ∗ ) = .
d−c
2
2 . En-
Proposición 3.3 (Desigualdad de Chevychev) Sea X una v.a. con media µX y varianza σX
tonces para cualquier K > 0 se cumple que:
1
P (|X − µX | ≤ KσX ) ≥ 1 − .
K2
Esta desigualdad, con K = 3, se aplica en el establecimiento de lı́mites de control de calidad. En
efecto, con K = 3 la desigualdad de Chevychev nos garantiza que X se ubicará en mas menos 3
8
desviaciones estándares de su media con una probabilidad de por lo menos 9; en otras palabras,
será poco probable de que X escape del intervalo
[µX − 3σX , µX + 3σX ].
Si en un proceso se diera tal situación, entonces el proceso se dice que esta fuera de control y por
tanto debe de revisarse para poder detectar las causas de tan inusual comportamiento.
Ejemplo 3.4 En una lı́nea de producción contı́nua, se ha estimado que la probabilidad de que un
artı́culo resulte defectuoso es p = 0.2. Los artı́culos se empacan en lotes de 5. Si Ud. selecciona al azar
un lote y esta interesado en estudiar la v.a. X = número de artı́culos defectuosos que se encuentran
en el lote, halle la función de probabilidad de X ası́ como su media y desviación estándar.
Solución: El experimento aleatorio que genera esta situación consiste en seleccionar al azar uno de
los lotes producidos para averiguar luego la calidad de sus artı́culos. El espacio muestral S asociado
a este experimento contiene 25 = 32 posibles resultados y está dado explı́citamente por:
S = {(1B, 2B, 3B, 4B, 5B), (1B, 2B, 3B, 4B, 5D), . . . , (1D, 2D, 3D, 4D, 5D)}
La v.a. X = número de defectos en el lote es claramente una función que va de S en R; por

ejemplo, X((1B, 2B, 3B, 4B, 5B)) = 0. El rango de esta v.a. es RX = {0, 1, 2, 3, 4, 5}, por lo que X
es una v.a. discreta. Para hallar su función de probabilidad, haremos uso de las propiedades de una
probabilidad. Ya sabemos que si x ∈
/ RX , entonces PX (x) = 0. Resta entonces hallar esta función
para los elementos del rango de X. Asumiendo independencia entre las calidades de los artı́culos que
se producen, comencemos por evaluar PX (0):
PX (0) = P (X = 0) = P ({ω ∈ S / X(ω) = 0}) = P ({(1B, 2B, 3B, 4B, 5B)})
= P ({1B} ∩ {2B} ∩ . . . ∩ {5B}) = P ({1B})P ({2B}) . . . P ({5B}) = (0.8)5 .

68
Ası́ también PX (1) = P (X = 1) = P ({ω ∈ S / X(ω) = 1})
= P ({(1B, 2B, 3B, 4B, 5D), (1B, 2B, 3B, 4D, 5B), (1B, 2B, 3D, 4B, 5B), (1B, 2D, 3B, 4B, 5B),
(1D, 2B, 3B, 4B, 5B)}) = P ({(1B, 2B, 3B, 4B, 5D)}∪·{(1B, 2B, 3B, 4D, 5B)}∪·. . .∪·{(1D, 2B, 3B, 4B, 5B)})
(P 2)
= P ({(1B, 2B, 3B, 4B, 5D)}) + P ({(1B, 2B, 3B, 4D, 5B)}) + . . . + P ({(1D, 2B, 3B, 4B, 5B)})
indep.
= P ({1B})P ({2B})P ({3B})P ({4B})P ({5D})+. . .+P ({1D})P ({2B})P ({3B})P ({4B})P ({5D})
= 5(0.2)(0.8)4 .
En general, no es difı́cil deducir que:

(
5
x 0.2x 0.85−x , si x ∈ RX
PX (x) =
0, en caso contrario.
y consecuentemente que,
5
X
µ = E(X) = xPX (x) = 5(0.2) = 1;
x=0
es decir, esperaremos obtener un artı́culo defectuoso en cada lote que elijamos al azar. Por otro lado,
v
q q u 5
uX p
σX 2 =
= σX E(X 2 ) − µ2X = t x2 PX (x) − 1 = 5(0.2)(0.8) = 0.894427.
x=0
2
Una v.a. X con las caracterı́sticas anteriores se dice que tiene distribución Binomial de parámetros
n = 5 y p = 0.2 y es denotada por X ∼ B(n = 5, p =0.2). A continuación mostramos algunas de las
distribuciones más importantes que utilizaremos recurrentemente en el curso. Comencemos con las
distribuciones de variables discretas.
3.4. Distribuciones discretas importantes
Existen, como en el caso de la última variable ejemplificada, otras variables cuyas funciones de
probabilidad resultan ser modelos de mucha utilidad para una serie de aplicaciones. Nosotros cita-
remos resumidamente algunos de los modelos de mayor importancia. Para empezar introduciremos
el quizás experimento aleatorio más sencillo llamado de Bernoulli. Este es un experimento con solo
2 posibles resultados: éxito y fracaso y en donde denotaremos por p = P (éxito) a la probabilidad de
éxito.
3.4.1. Distribución binomial
Notación: X ∼ B(n, p).

X = Número de éxitos en n experimentos independientes de Bernoulli.
Función de Probabilidad:
(
n
x px (1 − p)n−x , si x = 0,1,2,...,n.
PX (x) =
0 , en otro caso.
2 = np(1 − p).
Valor esperado: µX = np. Varianza: σX
3.4.2. Distribución de Pascal o binomial negativa.
Notación: X ∼ BN (r, p).

X = Número de ensayos ( experimentos independientes de Bernoulli) hasta conseguir el r-ésimo
éxito.
(
x−1
r−1 (1 − p)x−r pr , si x = r, r + 1, r + 2, . . .
PX (x) =
0 , en otro caso.
r(1−p) 2 = r(1−p)
Valor esperado: µX = p . Varianza: σX p2
.
NOTA: Si r = 1, X se dice que es una variable aleatoria con distribución geométrica de parámetro
p, y se le denota por X ∼ G(p).
3.4.3. Distribución hipergeométrica.
Notación: X ∼ H(N, M, n).

Considérese una población de N elementos, M de los cuales son de un tipo A, y supongamos se
extraen sin reemplazo una muestra de n elementos de esta población. Entonces:
X = Número de elementos de tipo A en la muestra.
 M N −M
 ( x )( n−x ) , si x = 0, 1, 2, . . . , n
PX (x) = (Nn )

0 , en otro caso.
Valor esperado: µX = n M 2 M
N . Varianza: σX = n N (1 −
M N −n
N )( N −1 ).

NOTAS: 1.- En PX se esta usando la convención que ab = 0, si a > b.
M
2.- Si la selección de la muestra fuera con reemplazamiento, entonces X ∼ B(n, p = N ).
70
3.4.4. Distribución de Poisson
PROCESO DE POISSON: Un conjunto de eventos discretos se dice que esta generado por un proceso
de Poisson de tasa ω, si para cualquier intervalo I(usualmente de tiempo) de longitud suficientemente
pequeña h > 0, se tiene que:
i) P (ocurrencia de un evento en I) ∼
= wh.
ii) P (ocurrencia de 2 o más eventos en I) ∼
= 0.
iii) La ocurrencia de eventos en intervalos disjuntos del tipo I son independientes.
Distribución de Poisson. Notación: X ∼ P(λ = wt).

Si se observa un proceso de Poisson de tasa ω durante t unidades, entonces
X = Número de eventos en [0, t] generados por el proceso.
Función de Probabilidad: (
λx e−λ
x! , si x = 0, 1, 2, . . .
PX (x) =
0 , en otro caso.
2 = λ.
Valor esperado: µX = λ. Varianza: σX
Ejemplo 3.5 Suponga que las imperfecciones de recubrimiento en un cable se presentan a través de
un proceso de Poisson a razón de 2 por cada 5 metros. Los cables son empacados en rollos de 20
metros cada uno. Para controlar la calidad de estos rollos, se selecciona al azar para inspección un
tramo de 5 metros de cable y se decide desechar (para otros usos) todo rollo que contenga mas de
una imperfección.
a) ¿ Con qué probabilidad este control desechara un rollo que contiene 3 imperfecciones ?
b) Si en un dı́a se han producido 20 rollos ¿ cuantos se esperará sean desechados ?
Solución: a) Sea X1 = número de imperfecciones que contiene el tramo bajo inspección del rollo y
sea X2 = número de imperfecciones que contiene el tramo no inspeccionado del rollo. Se sigue que
X1 y X2 son variables aleatorias independientes con distribución de Poisson, teniendo la primera un
parámetro de λ1 = 52 ×5 = 2 y la segunda un parámetro de λ2 = 25 ×15 = 6. Note también que la v.a.
X = X1 + X2 , que representa el número de imperfecciones en todo el rollo, tiene una distribución de
2
Poisson con parámetro λ = 5 × 20 = 8 . Se nos pide
P (X1 ≥ 2 | X1 + X2 = 3) = P (X1 = 2 | X1 + X2 = 3) + P (X1 = 3 | X1 + X2 = 3)

P (X1 = 2)P (X2 = 1) P (X1 = 3)P (X2 = 0) 72 8
= + = + = 0.15625.
P (X = 3) P (X = 3) 512 512
b) La probabilidad de que deseche un rollo es p = P (X1 ≥ 2) = 1 − P (X1 = 0) − P (X1 = 1) =
1 − 3e−2 = 0.406. Ası́, Y = número de rollos que serán descartados de los 20 producidos es una
variable aleatoria con distribución Binomial de parámetros n = 20 y probabilidad de “éxito” p =
0.406. Luego se esperarán descartar en ese dia E(Y ) = 20 × 0.406 = 8.12 rollos (entre 8 y 9 rollos).
2
3.5. Distribuciones continuas importantes

Como comentamos, para el caso de las variables aleatorias continuas la noción de función de
probabilidad carece de sentido y se introduce aquı́ mas bien el concepto de función de densidad, el cual
es un modelo matemático que describe el comportamiento de las probabilidades que la variable tome
valores en ciertas regiones de la recta. Este modelamiento en general es complejo, pues dependerá de
la experiencia que el investigador tenga con los datos que este analizando. Aquı́ mostraremos algunos
de los modelos más utilizados en las aplicaciones.
3.5.1. Distribución uniforme.
Notación: X ∼ U ([a, b]).

Esta distribución se da cuando la variable aleatoria X puede tomar indistintamente cualquier
valor en el intervalo [a, b].
Función de densidad: (
1
b−a , si x ∈ [a, b]
fX (x) =
0 , en otro caso.
a+b 2 = (b−a)2
Valor esperado: µX = 2 . Varianza: σX 12 .
3.5.2. Distribución exponencial.
Notación: X ∼ exp(β).
βe−βx , si x ≥ 0
fX (x) =
0 , en otro caso.
Valor esperado: µX = β1 . Varianza: σX

2 = 1
β2
.
NOTA: Si para un proceso de Poisson de tasa ω se define la variable aleatoria X = tiempo (u otra
magnitud) hasta la ocurrencia del primer evento, entonces X ∼ exp(β = ω)
3.5.3. Distribución gamma.
Notación: X ∼ Γ(α, β).

1 α α−1 e−βx
Γ(α) β x , si x > 0
fX (x) =
0 , en otro caso.
Valor esperado: µX = αβ . Varianza: σX

2 = α
β2
.
NOTAS: 1.- Si α = 1, entonces X ∼ exp(β).
2.- Si para un proceso de Poisson de tasa ω se define la variable aleatoria
X = tiempo (u otra magnitud) hasta la ocurrencia del α−ésimo evento,

72
entonces X ∼ Γ(α, ω)
n
3.- Si α = 2 y β = 21 , X se dice que es una variable aleatoria con distribución chi-cuadrado de n
grados de libertad, y se le denota por: X ∼ χ2 (n).
3.5.4. Distribución beta.
Notación: X ∼ B(α, β).

Función de densidad:
( Γ(α+β) α−1
Γ(α)Γ(β) x (1 − x)β−1 , si 0 < x < 1
fX (x) =
0 , en otro caso.
α 2 = αβ
Valor esperado: µX = α+β . Varianza: σX (α+β)2 (α+β+1)
.
NOTA: Si α = β = 1, entonces X ∼ U (]0, 1[).
3.5.5. Distribución de Weibull.
Notación: X ∼ W (α, β).

Función de densidad: ( α
αβxα−1 e−βx , si x > 0
fX (x) =
0 , en otro caso.
1 2 1 2
Γ(1+ α ) 2 = Γ(1+ α )−(Γ(1+ α ))
Valor esperado: µX = 1 . Varianza: σX 2 .
βα βα
NOTA: Si α = 1, entonces X ∼ exp(β).
3.5.6. Distribución normal.
Notación: X ∼ N (µ, σ 2 ).
Función de densidad:
1 1 2
fX (x) = √ e− 2σ2 (x−µ)
2πσ
2 = σ2.
Valor esperado : µX = µ. Varianza : σX
NOTA: Cuando µ = 0 y σ 2 = 1, a X se le denota por Z y se le llama una variable aleatoria
con distribución normal estándar; vale decir, Z ∼ N (0, 1). Toda v.a. normal X ∼ N (µ, σ 2 ) puede
convertirse en una v.a. normal estándar (estandarizarse) a través de la transformación:
X −µ
Z=
σ
3.5.7. Distribución lognormal.
Notación: X ∼ Ln(µ, σ 2 ). Una v.a. X tiene distribución lognormal de parámetros µ y σ 2 , si es

que su logaritmo natural tiene distribución normal de parámetros µ y σ 2 ; vale decir:
X ∼ Ln(µ, σ 2 ) ⇔ LnX ∼ N (µ, σ 2 ).

σ2 2 2
Valor esperado: µX = eµ+ 2 2 = e2µ+σ (eσ − 1).
. Varianza: σX
Ejemplo 3.6 Suponga que para el ejemplo 3.5 de los cables, el precio por metro de estos es una
variable aleatoria con distribución normal de media 5 soles y desviación estándar 0.5 soles y una
empresa interesada descuenta por cada imperfección que se de en un rollo 0.5 soles
a) ¿ Cuánto esperará pagar la empresa por cada rollo que adquiera? ¿ Con qué probabilidad la
empresa pagará menos de 90 soles por un rollo sin imperfecciones ?
b) Suponga que existe otra alternativa de control que consiste en determinar la longitud del rollo
apenas se ubique en la inspección una quinta imperfección ¿ Con qué longitud se esperarı́a
salgan los rollos bajo esta polı́tica de control ?
Solución: a) Si P ∼ N (5, 0.25) denota a la variable del precio por metro (sin imperfecciones) que
pagará la empresa, entonces se espera que ella pague por un rollo cualquiera E[20P − 0.5X] =
20E[P ] − 0.5E[X] = 20(5) − 0.5(8) = 96 soles. De otro lado, la probabilidad de que la empresa pague
menos de 90 soles por un rollo sin imperfecciones es P (20P < 90) = P (P < 4.5) = P (Z < 4.5 −5
0.5 )
= P (Z < −1) = 0.15866.
b) Definamos la variable aleatoria continua L = longitud de cable inspeccionado hasta ubicar una
quinta imperfección (en metros). Entonces L tiene una distribución Gamma con parámetros α = 5
y β = 25 . Se nos pide luego E[L] = α
β = 12.5; es decir, se esperarán obtener cables de 12 metros y
medio de longitud. 2
3.6. Distribuciones y R
Todas las distribuciones vistas y muchas otras más se encuentran implementadas en R. Para
ilustrar algunos de los desarrollos supongamos que tengamos la distribución XXX. R ha implementado
básicamente 4 funciones con cualquier distribución, las cuales tienen como sufijo el nombre de la
distribución. Estas son:
dXXX(x, . . . ): Calcula la función de densidad o probabilidad en el punto x de una v.a que

tiene distribución XXX.
pXXX(q, . . . ): Calcula la función de distribución (acumulada) en el punto q de una v.a que

tiene distribución XXX.
qXXX(p, . . . ): Calcula el cuantı́l p ∈ [0, 1] de una v.a X que tiene distribución XXX; esto es,
el valor q tal que P (X ≤ q) = p.
rXXX(n,. . . ): Simula n valores de una v.a con distribución XXX.

74
Los puntos suspensivos en los argumentos de estas funciones, son para especificar los parámetros de
la distribución y otras opciones como el cálculo del logaritmo de la función.
Es importante documentarse, cuando se trabaja con una distribución, sobre la parametrización
que R utiliza, ya que ella no es estándar. Ası́ también en caso de no especificarse los parámetros
siempre es bueno saber cual o cuales son los valores que por defecto utiliza R para esta distribución.
Para ilustrar el uso de estas funciones, tomemos como ejemplo la distribución gamma, la cual
recordemos que no tiene una forma explı́cita para su función de distribución, al menos que su paráme-
tros α sea entero. Sea concretamente X una v.a con distribución gamma de parámetros α = 7.5 y
β = 3; es decir, X ∼ Γ(7.5, 3). Entonces la gráfica de la función de densidad de esta v.a se puede
obtener con
x = seq(0,10,by=0.01)
plot(x,dgamma(x,shape=7.5,rate=3),type=’l’)
0.4
dgamma(x, shape = 7.5, rate = 3)
0.3
0.2
0.1
0.0
0 2 4 6 8 10
La probabilidad de que X tome un valor menor o igual que 4 viene dada por ejemplo por
> pgamma(4,shape=7.5,rate=3)
[1] 0.9349065
De otro lado, si queremos hallar la mediana de X; es decir, el valor M e tal que FX (M e) = P (X ≤

M e) = 0.5 entonces
> Me = qgamma(0.5,shape=7.5,rate=3)
> Me
[1] 2.38981
Finalmente, si deseamos simular; es decir, recrear de manera artificial 100 valores de la v.a X,
podemos escribir
m = rgamma(100,shape=7.5,rate=3)
> m = rgamma(100,shape=7.5,rate=3)
> m
[1] 2.6625452 0.7689917 1.9509386 4.1744743 1.9735547 2.3865520 2.5124263
[8] 3.5265864 3.3402294 2.0263015 3.5027949 4.4196460 1.3363469 1.8591059
[15] 2.7135067 1.2708783 2.5711275 2.7407072 1.1118715 3.0520331 1.6617308
[22] 2.2574728 3.2765931 1.7374397 1.7587716 1.6213503 1.8458460 1.9939204
[29] 2.2040888 4.7502856 2.5213610 1.3531028 2.9146931 3.1393688 1.1337547
[36] 4.0450105 1.1419313 2.2882722 1.7693570 2.4043660 2.4873355 2.4853267
[43] 3.5090830 3.0595274 2.2183418 1.4812468 1.6009753 2.8598354 3.8990242
[50] 2.8164115 3.0552297 1.4212291 3.0077369 2.1654346 3.6788579 2.5966048
[57] 3.7653787 2.8141862 1.0664568 1.6569692 0.8524715 1.1203978 2.9679778
[64] 2.4124678 2.5499479 1.9701130 3.3493241 4.5065630 2.6929781 3.7927157
[71] 1.3895163 1.1951270 2.6142309 1.9591438 2.2448915 1.5469290 1.6097168
[78] 3.8347860 2.7320566 1.3422471 2.0883957 3.1403752 1.6114541 5.2458691
[85] 4.0222283 1.0934773 2.2559728 1.7023896 2.9762142 2.6192685 2.3024607
[92] 2.0523902 1.9925179 3.2425290 3.2584707 1.0434340 1.8838496 4.3667586
[99] 1.7343816 1.7741992
Para verificar que estos últimos efectivamente proviene de una distribución gamma con los parámetros
dados, podemos pedir el histograma de estos valores y compararlos con la verdadera función de
densidad. Como se aprecia, los datos parecen bien ajustar a la distribución teórica de la cual han
sido simulados.
hist(m, freq = FALSE, ylim=c(0,0.5))

x = seq(0,10,by=0.01)
lines(x,dgamma(x,shape=7.5,rate=3))
76
Histogram of m
0.5
0.4
0.3
Density
0.2
0.1
0.0
1 2 3 4 5
3.7. Aplicación a la confiabilidad

La confiabilidad de un producto se relaciona con la cualidad de éste de cumplir su función durante
el tiempo para el cual ha sido diseñado en condiciones medio ambientales controladas. Denotemos
por T a la variable aleatoria tiempo de vida útil del producto y supongamos se especifica que este
debe funcionar correctamente durante t0 unidades de tiempo. Entonces la confiabilidad del producto,
que la denotaremos por R, viene dada simplemente por:
R = P (T > t0 ).
Obviamente, al ser la confiabilidad la probabilidad de que el producto supere su tiempo de vida

especificado, el producto será más confiable mientras R este más cerca a uno y menos confiable,
mientras R este más cerca a 0.
Con frecuencia, un producto denota a un sistema conformado por varias componentes, cuya arqui-
tectura puede ser muy diversa. Nosotros estudiaremos los siguientes tipos de sistemas y veremos como
obtener la confiabilidad de estos conocidas las confiabilidades de cada una de sus n componentes.
a) Sistema en serie: En este sistema, todas las componentes deben funcionar para que el sistema
funcione. Esquemáticamente el sistema es del tipo:
b) Sistema en paralelo: En este sistema, basta que alguna de las componentes funcione para que
todo el sistema funcione: Esquemáticamente el sistema es del tipo:
c) Sistemas mixtos: Son sistemas conformados por una combinación de subsistemas en serie y en
paralelo. Esquemáticamente, un sistema de estos podrı́a ser el siguiente:
A fin de obtener las confiabilidades de los sistemas en serie y paralelo, supondremos en adelante un
tiempo de especificación t0 y la siguiente asunción natural: si Ti , i = 1, 2, ..., n denota el tiempo de
vida útil de cada componente i, entonces T1 , T2 , . . . , Tn son variables aleatorias independientes.
Por definición, el tiempo de vida útil del sistema en serie, digamos TS , se relaciona con el tiempo
de vida útil de cada componente como TS = mı́n{T1 , T2 , . . . , Tn }. La confiabilidad de éste sistema
viene luego dada por:
Rs = P (TS > t0 ) = P (mı́n{T1 , T2 , . . . , Tn } > t0 ) = P (T1 > t0 )P (T2 > t0 ) . . . P (Tn > t0 ),
78
donde la última igualdad se desprende de la asunción de independencia. En resumen, la confiabilidad

de un sistema en serie, Rs , es:
Rs = R1 R2 . . . Rn ,
donde Ri es la confiabilidad de la i-ésima componente.

Por definición, el tiempo de vida útil de un sistema en paralelo, digamos Tp , se relaciona con el
tiempo de vida de cada componente como TS = máx{T1 , T2 , . . . , Tn }. Entonces la confiabilidad de
éste sistema viene dada por:
Rp = P (Tp > t0 ) = P (máx{T1 , T2 , . . . , Tn } > t0 ) = 1 − P (máx{T1 , T2 , . . . , Tn } ≤ t0 )
= 1 − P (T1 ≤ t0 , T2 ≤ t0 , . . . , Tn ≤ t0 ) = 1 − P (T1 ≤ t0 )P (T2 ≤ t0 ) . . . P (Tn ≤ t0 )
o brevemente por:
Rp = 1 − ((1 − R1 )(1 − R2 ) . . . (1 − Rn )),
donde Ri es la confiabilidad de la i-ésima componente.

En el caso mixto, la confiabilidad del sistema es obtenida reemplazando los subsistemas en serie
o paralelo por componentes que tengan exactamente la misma confiabilidad.
Estando capacitados para obtener la confiabilidad de un sistema complejo a través del de sus
componentes, nos ocuparemos ahora del estudio de una sola componente. Para ello supondremos que
el tiempo de vida útil de esta componente es una v.a T con función de densidad fT . Comenzaremos
extendiendo la noción de confiabilidad al de función de confiabilidad.
Definición 3.6 (Función de confiabilidad)
R(t) = P (T > t) = 1 − FT (t).
Nótese que la confiabilidad de la componente se obtiene simplemente de evaluar esta función en su

tiempo de vida de especificación.
Supongamos ahora que observamos a la componente funcionando normalmente hasta el tiempo
t, entonces la probabilidad de que la componente falle un instante después (digamos antes de t + h)
es:
P (t < T < t + h) FT (t + h) − FT (t)
P (t ≤ T < t + h | T > t) = = .
P (T > t) R(t)
Si dividimos esta probabilidad entre h, obtendremos lo que se conoce como la razón de falla promedio
de la componente en el intervalo [t, t + h]. Al lı́mite de esta expresión cuando h → 0 se le conoce
como la razón de falla instantánea en t, y se le denota por Z(t); concretamente:
FT (t + h) − FT (t) fT (t)
Z(t) = lı́m = .
h→0 hR(t) R(t)
Definición 3.7 (Función razón de falla)
fT (t)
Z(t) = .
R(t)
La función razón de falla nos mide la propensión a falla de la componente a lo largo del tiempo.
Una tı́pica función razón de falla puede tener en la práctica la gráfica siguiente:
Como se aprecia se distinguen aqui tres zonas claramente diferenciadas: una zona de fallas ini-
ciales (Z(t) decreciente), una zona de fallas accidentales (Z(t) constante) y una zona de fallas por
desgaste (Z(t) creciente). Antes de mostrar algunos modelos que ajustan a gráficas como la anterior,
será interesante mostrar una relación que nos permite obtener la función de densidad del tiempo
dFT (t)
de vida útil de la componente en base a su función razón de falla. Como fT (t) = dt = − dR(t)
dt ,
entonces
fT (t) dLn(R(t))
Z(t) = =−
R(t) dt
Rt
y R(t) = e− 0 Z(u)du
. Luego, fT (t) = Z(t)R(t) puede escribirse como:
Rt
fT (t) = Z(t)e− 0 Z(u)du
. (3.1)
El modelo exponencial. Este modelo asume que las fallas de la componente ocurren solo por accidente;
vale decir que:
Z(t) = β = constante > 0, ∀t ≥ 0.
De (1.1) se sigue que el tiempo de vida útil T de una componente bajo este modelo tiene función de
densidad:
fT (t) = βe−βt , ∀t ≥ 0.
En otras palabras, T ∼ exp(β).

El modelo de Weibull. Este modelo asume que la función razón de falla de la componente toma la
forma:
Z(t) = αβtα−1 , ∀t ≥ 0.
Nótese que si α < 1, se estará modelando a una componente que tiene una alta propensión a sufrir
fallas iniciales; mientras que si α > 1, se estará modelando a una componente con alta propensión
80
a sufrir fallas por desgaste. El modelo exponencial resulta un caso particular del modelo de Weibull
de tomarse α = 1.
De (1.1) la función de densidad del tiempo de vida útil T de la componente bajo este modelo es:
α
fT (t) = αβtα−1 e−βt , ∀t ≥ 0.
En otras palabras, T ∼ W (α, β). En este modelo la función de confiabilidad de una componente
viene dada por:
fT (t) α
R(t) = = e−βt .
Z(t)
Ejemplo 3.7 Considerese el siguiente sistema:
en donde las primeras 2 componentes: C1 y C2 son idénticas y siguen en su razón de falla un modelo
exponencial de parámetro β = 1; mientras que la componente C3 en lı́nea sigue en su razón de falla
un modelo de Weibull de parámetros α = 2 y β = 1. Considere el tiempo en años.
a) Halle la función de confiabilidad del sistema y su confiabilidad si se especifica que este debe
funcionar medio año.
b) ¿ Qué tiempo se espera este funcionando el sistema ?
Solución: a) Si Ri (t) denota a la función de confiabilidad de la i-ésima componente en este sistema,

entonces la confiabilidad de este sistema viene dada por:
2 2 2)
R(t) = (1 − (1 − R1 (t))(1 − R2 (t)))R3 (t) = (1 − (1 − e−t )2 )e−t = 2e−(t+t ) − e−(2t+t
Como se especifica una duración de 6 meses, entonces t = 0.5 y la confiabilidad de este sistema es
R(0.5) = 0.658.
b) Si T es el tiempo de vida del sistema, deseamos hallar E[T ]. Para esto necesitaremos la función
de densidad de T , la cual se puede obtener por
0 2 2
fT (t) = −R (t) = 2(1 + 2t)e−(t+t ) − 2(1 + t)e−(2t+t ) .
R∞
Por tanto, E[T ] = 0 tfT (t)dt = 1.47 años. 2
Ejemplo 3.8 Una tienda ha puesto en remate un lote de 60 pilas no etiquetadas, 12 de las cuales
son alcalinas de alta duración y el resto son pilas convencionales. Suponga que usted adquiere 4 de
estas pilas y las coloca en un dispositivo que necesita utilizarlo durante al menos 18 horas. Suponga
que según especificaciones, las razones de falla (en horas) de las pilas alcalinas siguen un modelo de
Weibull de parámetros α = 2 y β= 0.001 y la pilas convencionales siguen en su razón de falla un
modelo exponencial de parámetro β = 0.05.
a) Si el dispositivo utiliza sus pilas en un sistema en paralelo, ¿ con qué probabilidad el dispositivo
le será de utilidad ?.
b)Si el dispositivo puede funcionar hasta con 3 pilas, ¿ con qué probabilidad el dispositivo le será de
utilidad ?
Solución a) Sea X = número de pilas alcalinas de las 4 adquiridas y sea T Tiempo de vida útil del
sistema. Se sigue que X ∼ H(60, 12, 4) y que la confiabilidad del sistema viene dado por R(18) =
P (T > 18). Por el teorema de probabilidad total esta última probabilidad puede escribirse como:
4
X
R(18) = P (T > 18) = P (T > 18 | X = x)PX (x)
x=0
Por tanto, si R1 = e−0. 001(182 ) = 0.72325 y R2 = e−0.05(18) = 0.40657 denotan respectivamente a las
confiabilidades de las pilas alcalinas y convencionales a las 18 horas, se tiene que:
C012 C448 12 48
3 C1 C3
R(18) = (1 − (1 − R2 )4 ) + (1 − (1 − R1 )(1 − R2 ) )
C460 C460
C212 C248 C 12 C 48 C 12 C 48
+(1 − (1 − R1 )2 (1 − R2 )2 ) 60 + (1 − (1 − R1 )3 (1 − R2 )) 3 601 + (1 − (1 − R1 )4 ) 4 600
C4 C4 C4
= 0.921475
b) Sea Y = número de pilas de las 4 adquiridas que están funcionando pasadas las 18 horas. Se nos
pide la probabilidad de que Y sea al menos 3. Por el teorema de probabilidad total:
4
X
P (Y = 3) = P (Y = 3 | X = x)PX (x)
x=0
= 4(1 − R2 )R23 PX (0) + ((1 − R1 )R23 + 3R1 (1 − R2 )R22 )PX (1) + (2(1 − R1 )R1 R22 + 2R12 (1 − R2 )R2 )PX (2)
+ (R13 (1 − R2 ) + 3(1 − R1 )R12 R2 )PX (3) + 4(1 − R1 )R13 PX (4) = 0.2199121,
donde por ejemplo P (Y = 3 | X = 1) se obtiene al notar que la pila que no esta funcionando pudiera
ser la única alcalina o cualquiera de las otras 3 convencionales. Similarmente
4
X
P (Y = 4) = P (Y = 4 | X = x)PX (x)
x=0
= R24 PX (0) + R1 R23 PX (1) + R12 R22 PX (2) + R13 R2 PX (3) + R14 PX (4) = 0.0484
Luego, P (Y ≥ 3) = P (Y = 3) + P (Y = 4) =0.2683. 2
82
Ejemplo 3.9 Una máquina posee el siguiente modelo para su función razón de falla:
(
1 , si 0 < t ≤ 2
Z(t) = t2
4 , si t > 2
(Considere al tiempo en meses y que un mes tiene 30 dı́as)
a) Halle la función de densidad del tiempo de vida de la máquina.
b) Halle la función de confiabilidad de esta máquina.
c) Un empresario desea alquilar una máquina nueva de este tipo. El precio de alquiler es de $ 10
por dı́a y la ganancia que le brinda la máquina de estar funcionando es de $ 15 por dı́a. En caso
contrario (de no funcionar la máquina) su ganancia se reducirá a solo $ 2 por dı́a. Si el alquiler se
realiza por un tiempo fijo y continuo K ¿ cuál debe ser el valor de K que le permita al empresario
maximizar su utilidad esperada?
Solución: a) Sea T el tiempo de vida útil de la máquina en meses. Por (1.1) se tiene que si t ≤ 2,
u2 t3
2
R2 Rt 2 4
fT (t) = e−t . De otro lado, si t > 2, fT (t) = t4 e−( 0 1du+ 2 4 du) = t4 e−( 3 + 12 ) . En resumen,
(
e−t , si 0 < t ≤ 2
fT (t) = 2 4 t3
t −( 3 + 12 )
4e , si t > 2
fT (t)
b) Por definición R(t) = Z(t) , luego:
(
e−t , si 0 < t ≤ 2
R(t) = 3
−( 43 + t4 )
e , si t > 2
c) La función de utilidad del empresario viene dada por:
(
390T − 240K , si 0 ≤ T ≤ K
U (T, K) =
150K , si T > K.
Por tanto, él esperará obtener de utilidad al alquilar la máquina durante K meses:
Z K Z ∞
g(K) = E[U (T, K] = (390t − 240K)fT (t)dt + 150KfT (t)dt.
0 K
R∞ RK
Recordando que K fT (t)dt = 1 − fT (t)dt, podemos luego escribir que:
0
Z K Z K
g(K) = 390 tfT (t)dt − 390K fT (t)dt + 150K.
0 0
Derivando e igualando a 0, el tiempo de alquiler óptimo viene dado por K ∗ tal que este resuelve:
5
FT (K ∗ ) =
.
13
5
Dado que FT (2) = 1 − e−2 = 0.8646 > 13 , se sigue entonces que K ∗ < 2 y que por tanto
5 ∗
1 − e−K =
.
13
Consecuentemente, el empresario deberá de alquilar la máquina por un periodo de K ∗ =0.4855 meses.
2
3.8. Ejercicios
1.- El error de medición de un instrumento de calibración (en milı́metros) se supone que es una v.a
continua X con función de densidad:
(
3 x2
8 (1 − 4 ), si |x| < 2
fX (x) =
0, en otro caso.
a) ¿ Con qué probabilidad este instrumento hará una medición con un error superior a los 1.8
milı́metros ?
b) Halle la función de distribución FX de X y realiza un bosquejo de su gráfica.
c) ¿ Qué error de medición se esperará que este instrumento produzca en una medición ?
2.- Suponga que se lanzan dos dados y se defiene la v.a X como el mayor valor obtenido en este
1
lanzamiento. Muestre que la función de probabilidad de esta X tiene la forma PX (x) = 36 (2x − 1).
Halle su valor esperado y desviación estándar, ası́ como la gráfica de su función de distribución.
3.- Un lote de 10 artı́culos contiene exactamente 4 unidades defectuosas. Si usted examina el lote
seleccionando las unidades una por una y sin reemplazo, halle el rango y la función de probabilidad
de la v.a. X = número de revisiones hasta lograr encontrar los 4 artı́culos defectuosos.
4.- Considere nuevamente el problema 3 del capı́tulo anterior y halle la función de probabilidad del
número de defectos que se le pudieran presentar. Además, si se realizarán 10 de estas inspecciones ¿
con qué probabilidad se encontrarán más defectos de tipo I que lo esperado?
5.- El tiempo de espera de una persona (en minutos) en un banco se mide por una variable aleatoria
continua cuya función de distribución es
1
FX (x) = 1 − , x > 1.
xα+1
a) Encuentre el parámetro α > 0 si se sabe que en promedio una persona espera 3 minutos.
b) Si hay 3 personas en el banco, calcule la probabilidad que al menos una se demore más de dos
minutos en ser atendida.
c) Si el costo de atención de una persona depende del tiempo de espera de modo que si el tiempo de
espera es menor a dos minutos el costo es de 5 soles y si el tiempo de espera es mayor a dos minutos
el costo es de 10 soles más 2 soles por cada minuto adicional de espera. Calcule el costo esperado.
6.- Una tienda ha adquirido una remesa de 40 productos perecederos, cuyos tiempos de vida en
dı́as(desde la compra hasta la fecha de expiración) siguen una distribución exponencial de parámetro
común β = 0.02. La tienda pago por todos ellos $ 120. Suponga que estos productos se venden a $
5 cada uno en estado normal y se los remata a $ 2 si pasan de la fecha de expiración.
a) ¿ Con qúe probabilidad un producto estará vencido, pasados 30 dı́as de la compra ?
b) Si se deciden revender todos los productos (juntos) después de 15 dı́as de haberlos comprado, ¿
con qué probabilidad la tienda habrá hecho una inversión rentable ? ¿ Cuánto se espera reciba la
tienda por la reventa ?
84
7.- Supóngase que X, la resistencia a la ruptura de una cuerda (en libras) es una v.a. con distribución
normal de media 100 y varianza 16. Cada 100 pies de esta cuerda (paquete) produce una utilidad de
$ 25, si X > 95. Si X ≤ 95, la cuerda puede utilizarse con un propósito diferente y se obtienen una
utilidad de $ 10 por paquete. Encontrar la utilidad esperada por paquete.
8.- En un sistema hay 2 resistencias que funcionan de manera independiente. Los tiempos de vida de
cada resistencia se suponen que tienen distribución lognormal con parámetros µ = 4 horas y σ 2 = 4.
Halle la probabilidad de que la primera resistencia en fallar tenga una duración de vida útil menor
que las 2,000 horas.
9.- Para controlar la calidad de un lote de 50 unidades, se seleccionan al azar de este 10 unidades. Si
se encuentra a lo más una unidad defectuosa el lote sale al mercado. En caso contrario, se lo manda
a inspeccionar completamente a un costo de 20 soles, saliendo al mercado con 0 % de defectos.
El lote en el mercado se vende a 100 soles y su costo de producción es de 50 soles. Cada unidad
de las 10 inspeccionadas genera un costo de 0.2 soles y si se ubica una unidad defectuosa en estas
inspecciones esta es reemplazada por una unidad buena con un costo adicional de un sol. Suponga
que un lote con 5 unidades defectuosas pasa por este control de calidad y que la empresa productora
garantiza con indemnizar a todo consumidor que adquiera este lote en el mercado con 3 soles por
unidad defectuosa.
a) ¿ Con qué probabilidad el lote saldrá al mercado con 0 % de defectos?
b) ¿ Cuál es el número esperado de defectos que un consumidor esperará encontrar al adquirir este
lote en el mercado ?
c) Halle la utilidad esperada que obtendrá la empresa productora por vender este lote.
10.- Se planea hacer un control para lotes de 25 artı́culos en dos etapas: En la primera se sacan 5
artı́culos al azar del lote. Si se encuentra a lo más un defectuoso el lote pasa el control, si se encuentran
4 o más defectuosos el lote es rechazado mandándose a revisión completa y si se encuentran 2 o 3
artı́culos se pasa a una segunda etapa. En la segunda etapa, se sacan del lote 8 artı́culos (los 5
anteriores ya no se incluyen) y si se encuentran a lo más dos defectuosos, el lote pasa el control;
en caso contrario es rechazado y pasa a revisión total. Suponiendo que los lotes tienen 6 artı́culos
defectuosos (esto es irreal; pero muy ilustrativo):
a) Halle la probabilidad de que un lote sea rechazado en el control.
b) Si un lote es rechazado en el control ¿ con qué probabilidad se lo habrá mandado a revisión total
en la primera etapa ?
c) Suponga ahora, como sucede en la realidad, que no sabemos la cantidad de artı́culos defectuosos
en un lote y que el lote es grande ( ya no con 25 artı́culos). Use una aproximación Binomial para
responder las partes a) y b).
Nota: Suponga para c) que en controles anteriores se han seleccionado hasta la fecha 1,250 artı́culos,
encontrándose en total 105 artı́culos defectuosos (estime con esto p).
11.- En el control de calidad de los lotes producidos por una industria se tiene que:
i) Cada unidad inspeccionada genera un costo de 10 u.m.
ii) Reemplazar una unidad defectuosa, ubicada en una inspección, por una unidad buena genera
un costo de 25 u.m.
iii) Reemplazar una unidad defectuosa por una unidad buena,luego de vendido el lote, genera
un costo de 60 u.m.
Suponga que se disponen de las siguientes 3 polı́ticas para un lote de 15 unidades:
Polı́tica 1: Inspeccionar todo el lote y reemplazar las unidades defectuosas por buenas antes de
venderlo.
Polı́tica 2: Seleccionar una muestra al azar de 5 unidades y seguir la polı́tica 1 sólo si en la
muestra se ubican 2 o más unidades defectuosas. En caso contrario, el lote se sacará a la venta,
reeemplazando por una unidad buena, de existir alguna unidad defectuosa en la muestra.
Polı́tica 3: Sacar a la venta el lote sin ninguna inspección.
Si hipotéticamente el lote en mención tuviera 4 unidades defectuosas:
a) Halle la probabilidad de se ubiquen todas las unidades defectuosas del lote bajo la polı́tica 2 .
b) Indique la polı́tica de comercialización más conveniente para el lote, en el sentido de que con ella
se minimizen los costos esperados de inspección y reemplazo.
12.- Una fábrica posee tres lı́neas de producción operativas A1 , A2 y A3 , las cuales se estiman tienen
respectivamente una probabilidad de 0.1, 0.08 y 0.012 de producir un artı́culo defectuoso. La mitad
de la producción es realizada por la lı́nea A1 ; mientras que el 60 % de la producción restante lo
realiza la máquina A2 .
a) Si usted adquiere un artı́culo producido por la fábrica, ¿ qué probabilidad hay de que este le
resulte defectuoso ?
b) Si usted adquiere 10 artı́culos producidos por la fábrica, halle la función de probabilidad del
número de artı́culos que le resultaran defectuosos.
c) Suponga que usted adquiere un lote de 9 artı́culos, donde sabe de que estos provienen de una
sola lı́nea de producción. Si usted selecciona al azar una muestra de 4 artı́culos del lote, halle la
probabilidad de que en su muestra encuentre 2 artı́culos defectuosos.
13.- Un distribuidor tiene la polı́tica de ordenar mensualmente un stock de K unidades de un bien.

El compra cada unidad a 0.5 unidades monetarias (u.m) y las vende a p ≥ 1 u.m. Si a fin de mes
le sobra del bien, el las remata a 0.3 u.m cada uno y en caso contrario, si le falta para cubrir su
demanda, el tiene la posibilidad de comprar inmediatamente más del bien pero ahora a un precio
unitario de 0.7 u.m. Si la demanda del bien X es una variable aleatoria con distribución exponencial
p
de parámetro p ( X ∼ exp( 1,000 )) y el tiene un costo fijo mensual de 50 u.m.
a) Halle el stock óptimo K, en función de p, que deberá adquirir este distribuidor del bien a fin de
que maximize sus utilidades esperadas mensuales.
b) ¿ Qué valor de p permitirá mensualmente al distribuidor duplicar en promedio su inversión inicial?
86
14.- En la fabricación de conductores, el número de fallas en su recubrimiento, se producen a razón

de 0.2 fallas por unidad de longitud, a través de un proceso de Poisson.
a) Si se fabrican conductores de 20 unidades de longitud, ¿ con qué probabilidad un conductor
tendrá una o menos fallas de revestimiento ?
b) Cada unidad de longitud fabricada tiene un costo de s/. 60 y se puede vender a s/. 101 , pero
con el compromiso de indemnizar al cliente por cada falla que se presente, a razón de 4X + X 2 por
conductor, si hay X fallas en él. Halle la longitud más conveniente de un conductor de tal manera
que el fabricante maximice su utilidad esperada.
15.- Una empresa adquiere rollos de alambre de cobre de 150 metros de longitud de cierto fabricante
y utiliza el siguiente procedimiento para la inspección de recibo:
Se inspecciona 14 metros de alambre de un rollo, si no se encuentra ninguna falla se acepta

el rollo, si se encuentran 3 o más fallas se rechaza, en cualquier otro caso se inspeccionan 12
metros adicionales.
Si el número total de fallas (en ambas inspecciones) es mayor a 3 se rechaza el rollo.
Finalmente si se rechaza un rollo, se inspecciona al 100 % y el fabricante debe pagar los costos
de inspección.
Si el número de fallas del alambre de cobre está descrito por una distribución de Poisson con media
de 0.05 fallas por metro y el costo por metro de inspección es de un sol:
a) Halle la probabilidad de rechazar un rollo.
b) ¿ Cuánto esperará gastar por inspección la empresa ?
c) ¿ Cuánto esperará gastar por inspección el fabricante ?
16.- Una obra requiere de una maquinaria especial, la cual se debe rentar a un costo de 50 u.m. por
mes o fracción de mes bajo un contrato que especifica un número fijo de meses de contrato . Este
contrato; sin embargo, posee una cláusula que especifica que si el periodo de obra excede al número
de meses de contrato , los contratistas podrı́an aún contar con la maquinaria pero por un alquiler de
70 u.m. por mes o fracción de mes adicional que se rente. Si la función de probabilidad del número
de meses que al contratista le toma terminar una obra de similares caracterı́sticas es
( x
C 5x! , si x = 1, 2, 3, 4, 5
fX (x) =
0, en otro caso.
a) Halle el valor de C.
b) Halle el número esperado de meses en que se espera se culmine la obra.
c) Halle el costo esperado en alquiler, si el contrato estipula K = 2 meses.
d) Halle el valor óptimo de K en el sentido de que este minimice el costo total esperado de alquiler
de la maquinaria.
17.- En una empresa se desea determinar el nivel de producción óptimo K ∗ de un solvente quı́mico
para una temporada. Cada litro producido del solvente le cuesta a la empresa 10 soles; mientras que
ella lo vende a 15 soles. Si al final de la temporada le sobra del solvente, la empresa rematará cada
litro de él a 8 soles; mientras que si le falta para cubrir la demanda podrá pedir más a otra empresa
asociada a un costo de 13 soles el litro y satisfacer la demanda. Si se supone que la demanda por
temporada del solvente en miles de litros a la empresa es una variable aleatoria X ∼ B(α = 1, β = 2)
y se tiene un costo fijo de producción de 150 soles.
a) Halle el valor de K ∗ .
b) Suponga que el gerente de la empresa esta pensando en incrementar los precios de venta del
solvente a 18 soles el litro. Si bajo esta medida un estudio revela que la demanda se contraerı́a siendo
ahora X ∼ B(α = 1, β = 3), ¿ recomendarı́a ud. que se incrementen los precios ? Justifique.
18.- Una tienda necesita saber cuantas bolsas K de un tipo de harina especial (de 50kg cada bolsa)
debe comprar en la semana para maximizar su utilidad esperada. Cada bolsa se vende en la tienda
a 120 soles y la tienda lo compra a 85 soles. De no venderse una bolsa en la semana, la harina se
rancia, por lo que la bolsa de esta harina debe rematarse a 50 soles, existiendo siempre compradores
para esta. Si la demanda de bolsas de esta harina es una v.a. discreta X con la siguiente función de
probabilidad:
(
Cx2 , si x = 1, 2, 3, 4, 5
PX (x) =
0, en otro caso.
a) Halle el valor de C.
b) Halle la función de distribución (acumulada) de X para x = 3. Interprete este último valor.
c) Muestre que la función de utilidad semanal para la tienda, como función de la demanda X y del
número de bolsas K que la tienda adquiere, viene dada por:
(
70X − 35K, si X ≤ K
U (X, K) =
35K, si X > K.
y determine el valor óptimo de K.
19.- Suponga que el monto anual de pérdidas en miles de soles que incurre una fábrica por pago de
indemnizaciones a sus trabajadores es una v.a. continua con distribución de Weibull de parámetros
1
α=2yβ= 2θ2
a) Si la probabilidad de que un año se tenga un monto en indemnizaciones superior a los 5,000 soles
es de 0.25, halle el valor de θ.
b) Considere y suponga que al cabo de 9 meses de iniciado el año los montos por indemnizaciones
suman ya 3,000 soles, ¿con qué probabilidad se terminará el año con un monto en indemnizaciones
superior a los 5,000 soles?
c) Halle la probabilidad de que el monto de indemnizaciones en el año supere a lo que se esperarı́a
de él.
88
20.- Debido a los problemas financieros por los que atraviesa una empresa, se planea vender parte de
su accionariado. Un gran consorcio está interesado en adquirir un porcentaje Y del total de acciones
de esta empresa y los directivos actuales de la empresa postulan que luego de las negociaciones este
porcentaje será de Y = 100X , donde X ∼ B(4, 1).
a) ¿Qué porcentaje se espera sea adquiridos por el consorcio?
b) ¿Con qué probabilidad el consorcio adquirirá la mayorı́a de las acciones de la empresa?
c) Suponga que de lograr el consorcio hacerse dueña de la mayorı́a de las acciones, ella invertirá en
la empresa un monto de 50,000 dólares; y de no ser ası́ su inversión se reducirá a sólo 5,000 dólares
¿Cuánto se espera y con qué desviación estándar sean los montos de inversión del consorcio?
21.- La razón de falla de una componente se modela como:

(
0.05 , si 0 ≤ t < t0
Z(t) =
0.05 + β(t − t0 ) , si t ≥ t0
Asumiendo que el tiempo se esta midiendo en horas:

a) Grafique la razón de falla de esta componente y comente que es lo que supone el modelo planteado.
b) Determine la función de confiabilidad de esta componente.
c) Si t0 = 10 y β = 2, halle la función de densidad del tiempo de vida útil de la componente y la
probabilidad de que esta componente supere las 20 horas de vida útil.
22.- Un ingeniero Industrial debe comprar componentes electrónicas de un mismo tipo. De acuerdo
a sus especificaciones existen en el mercado solo 3 tipos de componentes A1, A2 o A3 que le podrı́an
ser de utilidad. Las componentes que él adquiera las instalará en un sistema como el siguiente:
Las componentes A1, A2 y A3 tienen tiempos de vida (en horas) modelados por distribuciones de
Weibull de parámetro α = 2 y parámetros β iguales a 0.0002, 0.0004 y 0.0005 respectivamente. El
objetivo del sistema es realizar una tarea que demandará 40 horas. Si se logra el objetivo se ganarán
1,800 dólares, pero si no es asi sólo 200 dólares. De otro lado los costos de cada componente del
tipo A1, A2 y A3 son respectivamente 120, 50 y 20 dólares. Según esta información, ¿ qué tipo de
componente le recomendarı́a adquirir al Ingeniero?
23.- Tres componentes idénticas, cuyas razones de falla siguen un modelo de Weibull de parámetros
α = 2 y β = 1 se instalan en un sistema en serie. Halle la media y varianza del tiempo de vida útil
del sistema.
24.- Un artı́culo está compuesto por 2 componentes en paralelo, en donde cada una sigue en su razón
de falla un modelo exponencial con parámetro β. Un plan de muestreo para aceptación de un lote
de estos artı́culos requiere probar una muestra de 2 artı́culos durante 80 horas. Se acepta el lote si
no falla ningún artı́culo. Si el fabricante desea tener una probabilidad máxima de rechazo del lote de
0.078 ¿ cuál debe ser el tiempo de duración medio de los artı́culos?
25.- En un sistema en paralelo de tres componentes, todas las componentes poseen una función razón
de falla constante de parámetro β = 0.00757 (en horas), siendo el costo de cualquier componente de
$ 20. Si el sistema falla, el costo por mal funcionamiento es de $ 3,500.
a) Halle el costo esperado del sistema en cualquier instante t.
b) ¿ Cuántas componentes deberán quitarse o agregarse en paralelo al sistema a fin de que este
funcione durante 38 horas con un costo esperado óptimo?
c) Calcule el costo esperado óptimo de la parte b).
26.- Suponga que la duración en años de una componente electrónica sigue en su razón de falla
un modelo de Weibull, cuyos parámetros ud. debe de estimar. Para tal efecto, suponga que usted
dispone de la siguiente información obtenida en las pruebas de vida de 50 de estas componentes y
en las cuales se registró el número de componentes aún operativas al final de cada año, durante un
periodo de 8 años:
Año 1 2 3 4 5 6 7 8
Número de componentes operativas 47 39 29 18 11 5 3 1
Usted esta interesado en adquirir algunas de estas componentes para instalarlas en el sistema:
a) Estime los parámetros asociados a la distribución de las componentes. Para ello se le recomienda
que utilize el método de mı́nimos cuadrados. Explique detalladamente el procedimiento seguido.
b) Determine el tiempo de vida esperado para un sistema como el arriba descrito.
c) Si usted instala 7 sistemas, como el de arriba, halle mediante simulación sus tiempos de vida útil.
90
Capı́tulo 4
DISTRIBUCIONES MUESTRALES
4.1. Propiedades de la distribución normal

En este capı́tulo abordaremos el estudio de la distribución normal y de otras distribuciones
asociadas a funciones de una muestra al azar de esta variable. El porque de la importancia de la
distribución normal se ilustra a través de las siguientes propiedades.
Proposición 4.1 Con relación a una distribución normal se cumple que:
a) Propiedad reproductiva: Si X1 , X2 , . . . , Xn son n v.a’s independientes, donde cada Xi ∼

N (µi , σi2 ), entonces
n
X n
X n
X
Y = c0 + ci Xi ∼ N (c0 + ci µi , c2i σi2 ) ,
i=1 i=1 i=1
siendo c0 , c1 , . . . , cn constantes arbitrarias. En particular, si todas las medias y varianzas son

iguales:
σ2
X̄ ∼ N (µ, ).
n
X̄−µ
Recuerde que esta v.a. puede estandarizarse como: Z = √
σ/ n
∼ N (0, 1).
b) Teorema del lı́mite central (TLC): Si X1 , X2 , ..., Xn son n v.a’s independientes, donde cada Xi
tiene la misma distribución de valor esperado µ y varianza σ 2 , entonces para n suficientemente
grande (en la práctica n ≥ 30) se cumple que aproximadamente
Pn
Xi − nµ X̄ − µ
Zn = i=1√ = √ ∼ N (0, 1).
nσ σ/ n
c) Aproximación de la Binomial por la Normal: Si X ∼ B(n, p) y n es suficientemente grande,

entonces aproximadamente:
X − np
Z=p ∼ N (0, 1).
np(1 − p)
91
92
Aquı́, para el cálculo de probabilidades, se recomienda utilizar la llamada corrección por conti-
nuidad: Si a ≤ b son dos números naturales, entonces aproximadamente:
1 1 b + 1 − np a − 1 − np
P (a ≤ X ≤ b) = P (a − ≤ X ≤ b + ) = FZ ( p 2 ) − FZ ( p 2 ).
2 2 np(1 − p) np(1 − p)
De todas las propiedades listadas, el teorema del lı́mite central ocupa un lugar preponderante en
la teorı́a de inferencia estadı́stica. Lo que el teorema plantea es que si uno tiene un conjunto suficien-
temente grande de variables independendientes con una distribución común cualquiera, entonces por
más asimétrica o extraña que sea esta distribución, la suma o el promedio de estas v.a.’s tenderá a
tener una distribución acampanada tipo la de la distribución normal.
Ejemplo 4.1 Suponga que en una linea continua de producción, la probabilidad de que un artı́cu-
lo resulte defectuoso es de p = 0.1. Si estos artı́culos se empacan en lotes de 1,000 unidades, ¿
qué probabilidad existe de que un lote contenga entre 90 y 120 artı́culos defectuosos?
Solución: Formalmente, la variable aleatoria X = número de artı́culos defectuosos que contiene un

lote tiene distribución Binomial de parámetros n = 1, 000 y p = 0.1. Por tanto, si queremos evaluar
la probabilidad pedida tendrı́amos que calcular una suma de 31 términos con combinatorias grandes
de por medio. Dado que el lote es grande, podemos usar la aproximación de la binomial por la normal
y evaluar de manera aproximada esta probabilidad. Utilizando la correción por continuidad tenemos
que:
89.5 − 1, 000(0.1) 120.5 − 1, 000(0.1)

P (90 ≤ X ≤ 120) = P (89.5 ≤ X ≤ 120.5) ≡ P ( p ≤Z≤ p )
1, 000(0.1)(0.9) 1, 000(0.1)(0.9)
= P (−1.1 ≤ Z ≤ 2.16) = P (Z ≤ 2.16) − P (Z < −1.1) = 0.98461 − 0.13567 = 0.84894.
Se puede comprobar que el valor exacto de esta probabilidad es 0.849339. Como se aprecia la apro-
ximación normal ha hecho un gran trabajo. 2
4.2. Distribuciones muestrales asociadas a la normal

El primer paso en un estudio inferencial sobre una v.a. X consiste en la definición de su pobla-
ción estadı́stica; esta es la colección de las posibles observaciones que puedan hacerse de X en una
población fı́sica determinada1 . Por ejemplo, la población estadı́stica si se indaga sobre la calidad
(defectuoso o no) de 1,500 artı́culos producidos por una lı́nea en un dı́a, estará constituida por las
1,500 calidades de los artı́culos y no por los 1,500 artı́culos en si.
Una muestra es un subconjunto de la población estadı́stica. Por ejemplo, al elegir en el control
de calidad 100 de los 1,500 artı́culos para luego anotar la calidad de estos, estamos obteniendo una
muestra de tamaño 100. Una muestra será representativa, si esta es seleccionada de forma aleatoria.
1
En este texto asumiremos, salvo se indique lo contrario, poblaciones infinitas o muy grandes.
Una muestra aleatoria (m.a.) de tamaño n de la v.a. X es un conjunto de n v.a’s: X1 , X2 , ..., Xn

independientes y con la misma distribución de X.
Una estadı́stica es cualquier función de los elementos de una m.a. que no dependa de parámetros
desconocidos. La idea es que de tomarse la muestra y observarse sus valores uno pueda siempre
evaluar la estadı́stica y con ello resumir alguna información de interés.
Una Distribución muestral es la distribución de una estadı́stica.
Ejemplo 4.2 Retomando el ejemplo del control de calidad, supongamos que estemos interesados en
estudiar ahora X = Peso de un artı́culo producido en el dı́a. Esta v.a. X puede pensarse, como es
usual, tenga distribución normal de media µ y varianza σ 2 , siendo ambos parámetros desconocidos.
Ahora, al tomarse al azar 50 artı́culos producidos durante el dı́a para luego anotar sus pesos, estamos
realmente tomando una m.a de tamaño 50 de X: X1 , X2 , ..., X50 . Nuestro interés por esta m.a es
variado. Nos podrı́a interesar, por ejemplo, estimar el peso medio de los artı́culos producidos en
el dı́a ( esto es, tener una idea aproximada de µ). Si este es el caso, nos será útil la estadı́stica
P 1 P50
media muestral X̄ = n1 ni=1 Xi = 50 2
i=1 Xi . Por otro lado podrı́a ser de interés estimar σ , por
citar, para medir la confiabilidad de la estimación anterior. En este caso, uno podrı́a considerar la
1 Pn 1 P50
estadı́stica varianza muestral S 2 = n−1 2
i=1 (Xi − X̄) = 49
2
i=1 (Xi − X̄) . Queda claro que tanto
X̄ como S 2 dependen de los elementos de la m.a. y por tanto son también v.a’s ( no conoceremos sus
valores sino hasta después de haber seleccionado los 50 artı́culos y anotado sus pesos). En tal sentido,
el preguntarse acerca de las distribuciones de estas estadı́sticas tiene sentido y su respuesta una gran
importancia práctica . Las siguientes distribuciones nacen precisamente del intento de encontrar las
distribuciones de X̄ , S 2 y de otras v.a’s asociadas.
4.2.1. La distribución chi-cuadrado
Una v.a. X tiene distribución chi-cuadrado con n grados de libertad, y se le denota por X ∼ χ2 (n),
si es que X ∼ Γ( n2 , 12 ). Es decir, la distribución chi-cuadrado es un caso particular de una distribución
gamma.
Proposición 4.2 Se cumple que:

a) Si Z ∼ N (0, 1), entonces Z 2 ∼ χ2 (1).
b) Propiedad reproductiva: Si W1 , W2 , ...., Wk son k variables aleatorias independientes con distri-

buciones chi-cuadrado de respectivamente n1 , n2 , . . . , nk grados de libertad, entonces
k
X
W = Wi
i=1
Pk
es también una v.a. con distribución chi-cuadrado de n = i=1 ni grados de libertad.
c) Si X1 , X2 , ..., Xn es una m.a de X ∼ N (µ, σ 2 ), entonces

(n − 1)S 2
W = ∼ χ2 (n − 1).
σ2
94
4.2.2. La distribución t de Student
Una v.a. X tiene distribución t de Student con n grados de libertad, y se le denota por X ∼ t(n),
si su función de densidad es:
Γ( n+1
2 )
fX (x) = √ .
x2 n+1
πnΓ( n2 )(1 + n)
2
2 = n
Valor esperado: µX = 0. Varianza : σX n−2 (n > 2).
Proposición 4.3 a) Sea X ∼ t(n). Si n es grande, entonces aproximadamente X ∼ N (0, 1).
b) Si Z ∼ N (0, 1) y W ∼ χ2 (n) son v.a’s independientes, entonces T = qZ ∼ t(n). En particular,

W
n
dada una m.a. X1 , X2 , ..., Xn de X ∼ N (µ, σ 2 ), se cumple que:
X̄ − µ
T = √ ∼ t(n − 1).
S/ n
4.2.3. La distribución F de Fisher
Una v.a. X tiene distribución F de Fisher con n grados de libertad en el numerador y m grados
de libertad en el denominador, y se le denota por X ∼ F (n, m), si su función de densidad es:
n n
Γ( n+m
2 )(n/m) x
2 2
−1
fX (x) = n+m , x > 0.
Γ( n2 )Γ( m
2 )(1 + (n/m)x)
2
m 2 = 2m2 (n+m−2)
Valor esperado: µX = m−2 (m > 2). Varianza σX n(m−2)2 (m−4)
(m > 4).
1
Proposición 4.4 a) Si X ∼ F (n, m), entonces X ∼ F (m, n).
W1 /n
b) Si W1 ∼ χ2 (n) y W2 ∼ χ2 (m) son v.a’s independientes, entonces F = W2 /m ∼ F (n, m). En
particular, si X1 , X2 , ...., Xn es una m.a de una v.a. X ∼ N (µ1 , σ12 ), e Y1 , Y2 , ..., Ym una m.a
de una v.a. Y ∼ N (µ2 , σ22 ), donde X e Y son independientes, entonces
S12 σ22
F = ∼ F (n − 1, m − 1),
S22 σ12
siendo S12 y S22 las varianzas muestrales asociadas a las poblaciones estadı́sticas determinadas
por X e Y , respectivamente.
Nota: La distribución normal estándar, t de Student, chi-cuadrado y F de Fisher poseen todas tablas
en la que se tabulan algunos valores de su función de distribución. Estas tablas, que se incluyen en el
apéndice de este texto, han sido generadas en nuestro caso con R. Por ejemplo la tabla t de Student,
calcula los cuantı́les q para esta distribución; es decir, el valor q en la distribución t de student con n
grados de libertad para el cual la función de distribución acumulada de esta variable toma distintas
probabilidades dadas. El gráfico siguiente, cuyo código en R se ilustra seguidamente, nos muestra
por citar cómo calcular el cuantı́l 0.95 para una distribución t de Student con 7 grados de libertad
q = qt(0.95,7)
xc = c(-5,seq(-5,q,0.01),q)
yc = c(0,dt(seq(-5,q,0.01),7),0)
curve(dt(x,7),xlim=c(-5,5),main=’Distribución t de Student con 7 gl’,ylab=’Función de densid
polygon(xc,yc,co=’skyblue’)
text(-0.2,0.15,’p = 0.95’)
arrows(3,0.1,q,0)
text(3.2,0.15,’q = 1.894579’)
Distribución t de Student con 7 gl

0.4
0.3
Función de densidad
0.2
p = 0.95
q = 1.894579
0.1
0.0
-4 -2 0 2 4
4.3. Intervalos de Confianza

Como una primera aplicación del estudio de las distribuciones muestrales, veamos como obtener
intervalos de confianza para los parámetros de una v.a. X ∼ N (µ, σ 2 ). Recuerde que un intervalo de
confianza (IC) al 100(1 − α) % para un parámetro poblacional θ de una v.a. X es un intervalo con
estadı́sticas L1 y L2 en los extremos (IC = [L1 , L2 ]) tal que P (L1 ≤ θ ≤ L2 ) = 1 − α.
Una técnica para obtener IC’s es utilizar las v.a’s Z, T, W y F de este capı́tulo como variables
pivotes en su construcción. Una pivote es por definición una v.a. con distribución conocida, que
depende solo como valor desconocido del parámetro cuyo intervalo deseamos hallar. Una aplicación
de esta técnica nos lleva a los siguientes intervalos de confianza:
X̄−µ
IC al 100(1 − α) % para µ, cuando σ 2 es conocida: Se obtiene usando como pivote a Z = √
σ/ n
∼
N (0, 1) y vienen dado por
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ] ,
n n
96
donde z1− α2 denota al valor de la distribución normal estándar que acumula un área por debajo de
la función de densidad de 1 − α2 .
Es importante destacar que gracias al TLC este IC es aún válido para la media de cualquier
distribución, siempre que n sea lo suficientemente grande y se tenga una estimación de σ 2 .
IC al 100(1 − α) % para µ, cuando σ 2 es desconocida: Se obtiene usando como pivote a T =
X̄−µ
√
S/ n
∼ t(n − 1) y viene dado por
S S
IC = [X̄ − t1− α2 (n-1) √ , X̄ + t1− α2 (n-1) √ ] ,
n n
donde t1− α2 (n-1) denota al valor de la distribución t de Student con n − 1 grados de libertad que
tiene un área por debajo de la función de densidad de 1 − α2 .
(n−1)S 2
IC al 100(1 − α) % para σ 2 : Se obtiene usando como pivote a W = σ2
∼ χ2 (n − 1) y viene
dado por
(n − 1)S 2 (n − 1)S 2
IC = [ , ],
χ21− α (n- 1) χ2α (n- 1)
2 2
donde χ2α (n-1) y χ21− α (n- 1) denotan a los valores en la distribución chi- cuadrado con n − 1 grados
2 2
α
de libertad que tienen áreas por debajo de la función de densidad de 2 y 1 − α2 , respectivamente.
Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de elementos en
la población que comparten cierta caracterı́stica común E. A fin de obtener un intervalo de confianza
aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población y consideremos

las v.a’s Xi definidas como 1 si es que en la i-ésima selección se encuentra un elemento con la
caracterı́stica E y 0 en caso contrario. Vale aclarar que los elementos de esta muestra sólo podrán
garantizarse distintos, si es que la muestra es tomada sin reemplazamiento. Este hecho ocasiona que
las variables X1 , . . . , Xn no sean independientes; sin embargo, si el tamaño de la población N , es
como lo hemos estado asumiendo grande o infinito, podrı́a garantizarse una casi independencia entre
X1 , . . . , Xn . En la práctica si N es grande estas variables son consideradas independientes, por lo que
P
la distribución de X = ni=1 Xi , que representa al número de elementos en la muestra que comparten
la caracterı́stica E, puede asumirse Binomial de parámetros n y p. Más aún, si n es grande, podremos
utilizar la aproximación de la distribución Binomial por la Normal y utilizar la v.a:
X − np p̄ − p
Z=p =q ∼ N (0, 1) ,
np(1 − p) p(1−p)
n
X
con p̄ = n, como variable pivote para la construcción del IC para p. En efecto, tomando simétrica-
mente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que:
p̄ − p
P (−z1− α2 ≤ q ≤ z1− α2 ) = 1 − α.
p(1−p)
n
A fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente siguiente:

p̄ − p 2 2
P (| q | ≤ z1− α) = 1 − α
p(1−p) 2
n
ó
2
z1− 2
z1−
α α
P (p2 (1 + 2
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
n n
Esta probabilidad, puede escribirse como:
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raices de la ecuación cuadrática correspondiente. Si ahora en la fórmula

2
z1− α
del discriminante de esta ecuación cuadrática despreciamos los términos n
2
, que son pequeños al
ser n grande, obtendremos el IC = [p1 , p2 ] al 100(1 − α) % para p siguiente:
r r
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Nota: Como el lector habrá apreciado, cada vez que construimos un IC al 100(1 − α) % para un
parámetro poblacional utilizamos, para la distribución de la variable pivote, valores con áreas iguales
α
en las colas de 2. En realidad, podrı́amos haber utilizado cualquier otra distribución de áreas con la
única restricción de que entre los valores respectivos se tenga un área de 1 − α. La razón de tomar
áreas iguales radica en que es posible probar matemáticamente que tales intervalos son óptimos bajo
esta distribución, en el sentido que el IC correspondiente tendrá la menor longitud esperada posible.
Cualquier otra elección de áreas en las colas que sumadas den α nos generarán IC’s al 100(1 − α) %
con longitudes media mayores que la de los intervalos considerados en esta sección.
98
4.3.1. Corrección por finitud y tamaños de muestra
La “independencia” entre las variables X1 , . . . , Xn del desarrollo previo, que indicaban si es

que en cada selección de la muestra se obtenı́a o no a un elemento con la caracterı́stica E, sólo se
podı́a garantizar si N era grande o infinito. En caso contrario, vale decir si N no es lo suficientemente
grande, la distribución exacta del número de elementos en la muestra que comparten la caracterı́stica
P
E, X = ni=1 Xi , es hipergeométrica de parámetros N ,M y n, siendo M el número de elementos de
la población que comparten la caracterı́stica E. En tal situación, es posible aún utilizar un teorema
del lı́mite central especial que nos garantize para un n suficientemente grande que la distribución
hipergeométrica puede aproximarse por la distribución normal. Esto se logra mediante la siguiente
estandarización:
X − E[X] X − np p̄ − p
Z= p =q =q q ∼ N (0, 1).
V (X) N −n
np(1 − p) N −1 p(1−p) N −n
n N −1
M
Si procedemos a la construcción del IC al 100(1 − α) % para p = N, bajo la misma técnica utilizada
en la sección anterior, obtendremos el siguiente IC:
r r r r
p̄(1 − p̄) N − n p̄(1 − p̄) N − n
IC = [p̄ − z1− α2 , p̄ + z1− α2 ]
n N −1 n N −1
q
N −n
Nótese que este IC para p difiere del anterior sólo por el factor N −1 , al cual se le acostumbra
llamar el factor de corrección para poblaciones finitas. Nótese también que si N → ∞, este factor
tiende a 1 y por tanto uno obtiene el IC anterior para p.
Es posible también realizar un estudio inferencial para poblaciones finitas en el caso de la esti-
mación de la media poblacional de una v.a. X. Si la población es finita, digamos con N elementos,
se puede deducir que un IC aproximado al 100(1 − α) % para µ cuando n es grande es:
r r
σ N −n σ N −n
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ]
n N −1 n N −1
Nuevamente, la diferencia con el IC tradicional radica en el factor de corrección, el cual tiende a 1 si
N → ∞.
Establecidas las fórmulas de los IC aproximados al 100(1−α) % para cualquier media y proporción
poblacional, nos interesará ahora saber qué tamaño de muestra n deberı́a uno considerar para poder
garantizar a un nivel de confianza del 100(1 − α) % un error máximo de estimación e. Esto se
obtiene directamente de los IC obtenidos. En efecto, si queremos estimar µ, su IC correspondiente
al 100(1 − α) % puede escribirse como:
r
σ N −n
P (|X̄ − µ| ≤ z1− α2 √ ) = 1 − α,
n N −1
luego, según las condiciones establecidas, se debe tener que:
r
σ N −n
e = z1− α2 √ ,
n N −1
de donde despejando obtenemos la siguiente fórmula para el tamaño de muestra:

2
z1− 2
ασ N
2
n= 2 2 2
z1− α σ + e (N − 1)
2
y si N → ∞:
(z1− α2 σ)2
n= .
e2
De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para la estimación
de p con un error máximo de estimación de e y un nivel de confianza del 100(1 − α) %:
2
z1− α p̄(1 − p̄)N
2
n= 2 2
z1− α p̄(1 − p̄) + e (N − 1)
2
y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Un aspecto problemático en estas fórmulas lo constituyen tanto σ como p̄, ya uno es un parámetro
poblacional desconocido y el otro no puede calcularse sin haberse tomado la muestra. En la práctica
estas cantidades se estiman mediante un muestreo piloto previo (es decir, una réplica en una escala
menor del muestreo final) o por cantidades similares de otros estudios semejantes. Más aún, en el caso
de la estimación de p, se acostumbra tomar p̄ = 12 . Esta es una regla conservadora, que simplemente
asigna el valor de p̄ que maximiza el tamaño de la muestra de tal manera que uno pueda siempre
garantizar, al margen del verdadero p̄, un error de estimación de a lo más e.
Ejemplo 4.3 La facultad de Ingenierı́a de una Universidad cuenta con 1,200 alumnos y esta intere-
sada en realizar una encuesta con el fin de determinar, entre otras cosas, el número de sus alumnos
que tienen una PC en su casa. El coordinador de la facultad desea estimar este total con un error
máximo no mayor a los 30 alumnos y una confianza del 99 % ¿ A cuantós alumnos de la facultad
se les deberı́a aplicar la encuesta?
Solución: Se desea estimar T = número los alumnos de la facultad que poseen un PC en su casa
con un margen de error no mayor a los 30 alumnos y un nivel de confianza del 99 %. Dado que
la población de alumnos en la facultad es finita ( N = 1, 200) y T = N p, donde p denota a la
porporción de alumnos de la facultad que poseen un PC en su casa, el problema equivale a estimar
30
p con un margen de error no mayor a e = 1,200 = 0.025 y un nivel de confianza del 99 %. Por tanto
se deberá tomar la encuesta a
z02.995 (0.52 )(1, 200)

n= = 880.639 ≡ 891 alumnos.
z02.995 (0.52 ) + 0.0252 (1, 199)
2
100
4.4. Ejercicios
1.- Dada una muestra aleatoria X1 , X2 , . . . , X400 de una variable aleatoria X con distribución expo-
nencial con parámetro β.
a) Hallar, en términos de β, la probabilidad P (X > 10).
b) Usando el teorema del Lı́mite Central, encuentre un intervalo de confianza al 95 % para la
probabilidad P (X > 10).
c) Evalue el intervalo anterior, si es que la muestra dió una media de 23.6.
2.- Sea X1 , X2 , . . . , Xn una muestra aleatoria de una variable N (0, σ 2 ) y supongamos se toma una
nueva medición Xn+1 de esta v.a.
a) Muestre que la v.a
r
(Xn+1 − X̄) n
T =
S n+1
sigue una distribución t de Student.
b) Si n = 21, ¿con qué probabilidad la varianza de la muestra superará a más del doble del valor de
la varianza de la población?
3.- Ciertas tarjetas de video son automáticamente empaquetadas en grupos de 35 por una máquina.
Con el fin de verificar la exactitud de la máquina, los paquetes se pesan antes de enviarlos a las
tiendas de expendio. Se sabe que el peso de cada tarjeta es una variable aleatoria con media 40
gramos y desviación estándar 2 gramos. Si un paquete se considera que tiene 35 tarjetas cuando su
peso está comprendido entre los 1,365 y 1,435 gramos, hallar:
a) La probabilidad de que un paquete que tiene 34 tarjetas sea considerado como si tuviera 35.
b) La probabilidad de que un paquete que realmente tiene 35 tarjetas no sea considerado como si
tuviese 35.
4.- El número de quejas que semanalmente recibe una sucursal de comida rápida, X, se supone que
es una v.a discreta con la siguiente función de probabilidad:
(
Cx + 0.1 , si x = 0, 1, 2, 3, 4, 5
PX (x) =
0 , en otro caso
a) Halle el valor de C y la media y varianza de esta distribución.

b) Suponga que en la ciudad hay 49 sucursales de la cadena. Halle de manera aproximada la proba-
bilidad de que en esta ciudad la cadena reciba durante una semana más de 150 quejas.
5.- La inversión anual (en miles de dólares) de las microempresas de una ciudad se asume es una v.a.
continua con distribución normal de media µ y varianza 1. Si se toma una m.a de tamaño n = 16
de esta v.a ¿con qué probabilidad la mayor inversión anual de las microempresas en la muestra
superará en 20 dólares a la media de la población?
6.- Para realizar una cierta tarea se tienen dos tipos de máquinas A y B. Las fallas en las máquinas
ocurren de acuerdo a procesos de Poisson independientes con tasas de una falla por mes y 0.8 fallas
por mes, respectivamente. Asuma un mes de 4 semanas.
a) Se ha estimado que en cierto sector de la industria, el 60 % del total de máquinas que se utilizan
para realizar esta tarea son de tipo A y el resto son de tipo B. Si una de estas máquinas, seleccionada
al azar, presentó fallas durante un perı́odo de prueba de una semana ¿cuál es la probabilidad de que
haya sido una máquina del tipo A?
b) Considere el siguiente enunciado: Para un proyecto se alquilan durante un mes 45 máquinas de
tipo A y 50 de tipo B ¿con qué probabilidad, p, el número total de fallas en las máquinas de tipo
A superará al número total de fallas en las máquinas de tipo B? En base a este enunciado se han
propuesto varias “soluciones”, las cuales se listan a continuación. Usted debe de indicar si ellas son
correctas o incorrectas y especı́ficamente si no lo son debe de indicar el porqué. Halle finalmente el
valor que aproximadamente deberı́a de tener p. En el desarrollo Xi , Yi o las mismas variables sin
subı́ndices denotarán respectivamente número de fallas en cada una de las máquinas de tipo A y B,
respectivamente, durante un mes y Z a la variable normal estándar.
p = (X̄ > Ȳ ) = P (X̄ − Ȳ > 0) = P (Z > −1.02), donde se ha utilizado para la segunda
igualdad el TLC y la propiedad reproductiva.
Se define Y1 ∼ B(45, 0.2212) e Y2 ∼ B(50, 0.182) y p = P (Y1 > Y2 ).

P P50
p = P ( 45
i=1 Xi >
√5
i=1 Yi ) = P (Z > − 85 ), donde se ha utilizado para la segunda igualdad
el TLC y la propiedad reproductiva.
P P50
p = P ( 45
i=1 Xi > i=1 Yi ) = P (U > 0), donde U ∼ P(5), ya que la primera suma es Poisson
de parámetro 45 y la segunda Poisson de parámetro 40.
p = P (45X > 50Y ) = p(Z > −0.078), donde se usa el TLC.
7.- Dada una muestra aleatoria X1 , X2 , ..., Xn de una v.a. X ∼ exp(β) , se puede probar que
Y = 2nβ X̄
es una v.a con distribución chi cuadrado de 2n grados de libertad.

a) Use este resultado para deducir un intervalo de confianza al 95 % para β.
b) Otra manera de obtener un IC aproximado para β es mediante el TLC. Usando un nivel de con-
fianza del 95 % y asumiendo que se tiene una muestra suficientemente grande, obtenga tal intervalo.
c) Suponga que los tiempos de vida útil (en horas) de una marca de bombillas eléctricas tienen
razones de fallas constantes e iguales a un parámetro β. ¿ Entre qué valores estima se encuentre β
con un nivel de confianza del 95 %, si es que en una muestra de 45 de estas bombillas se encontró un
tiempo promedio de vida útil de 120 horas ?. Use los métodos obtenidos en a) y en b) e indique con
cuál de estas estimaciones se quedarı́a. Justifique.
102
8.- Con el fin de medir el nivel de contaminación de nitratos en una laguna se han seleccionado al
azar 10 cuadrı́culas de ella obteniéndose las siguientes mediciones de concentración en miligramos
por litro en cada una de estas cuadrı́culas
37.75, 40.58, 49.08, 41.99, 23.52, 29.53, 24.27, 40.56, 38.57, 30.33
Asumiéndose normalidad en las concentraciones de nitrato

a) Obtenga un intervalo de confianza al 95 % para la concentración media de nitratos en la laguna e
indique si fue suficiente tomar tan sólo 10 mediciones si era de interés estimar esta cantidad con un
margen de error no mayor a los 5 miligramos por litro.
b) Suponga que antes de tomar las mediciones se planteó que el nivel medio de contaminación de
esta laguna superaba los 35 miligramos por litro, ¿muestran estos datos a un nivel de significación
del 5 % que esto es cierto?
c) Debido a la instalación de una fábrica que colinda con la laguna, se tiene sospechas de que el nivel
medio de contaminación por nitratos de la laguna ha aumentado. Si una muestra en 16 cuadrı́culas
tomadas al azar hace 3 meses (antes de que comenzara a operar la nueva fábrica) arrojó una media de
concentración de nitratos de 29.5 miligramos por litro con una desviación estándar de 7.3 miligramos
por litro, ¿se puede decir en base a los nuevos datos tomados que esta sospecha es válida a un nivel
de significación del 5 %?
9.- Sea X1 , X2 , ...., Xn1 una m.a de una v.a. X ∼ N (µ1 , σ 2 ) y sea Y1 , Y2 , ..., Yn2 una m.a de una v.a.
Y ∼ N (µ2 , σ 2 ), donde X e Y son independientes.
(n1 −1)S12 +(n2 −1)S22
a) Muestre que W = σ2
∼ χ2 (n1 + n2 − 2).
b) Muestre que
X̄ − Ȳ − (µ1 − µ2 )
T = q ∼ t(n1 + n2 − 2),
Sp n11 + n12
donde s
(n1 − 1)S12 + (n2 − 1)S22
Sp = .
n1 + n2 − 2
c) Utilice la v.a. anterior T como variable pivote para construir un intervalo de confianza al
100(1 − α) % para µ1 − µ2 .
d) Para comparar los gastos medios mensuales de los alumnos de dos universidades particulares
se han seleccionado de manera aleatoria dos muestras de 9 y 10 alumnos respectivamente de cada
universidad, encontrándose los siguientes valores en dólares:
Muestra de la U. A 390 395 380 390 400 380 370 390 380
Muestra de la U. B 400 410 420 380 390 410 400 405 405 400
Asumiendose normalidad e igual variabililidad de gastos en ambas universidades ¿podrı́a asegurar,

a un nivel de confianza del 95 %, que los gastos medios en ambas universidades no son los mismos?
10.- Con el fin de medir el nivel de contaminación de nitratos en una laguna se han seleccionado al
azar 10 cuadrı́culas de ella obteniéndose las siguientes mediciones de concentración en miligramos
por litro en cada una de estas cuadrı́culas
37.75, 40.58, 49.08, 41.99, 23.52, 29.53, 24.27, 40.56, 38.57, 30.33
Asumiéndose normalidad en las concentraciones de nitrato a) Obtenga un intervalo de confianza al

95 % para la concentración media de nitratos en la laguna e indique si fue suficiente tomar tan
sólo 10 mediciones si era de interés estimar esta cantidad con un margen de error no mayor a los 5
miligramos por litro.
b) Suponga que antes de tomar las mediciones se planteó que el nivel medio de contaminación de
esta laguna superaba los 35 miligramos por litro, ¿muestran estos datos a un nivel de significación
del 5 % que esto es cierto?
c) Debido a la instalación de una fábrica que colinda con la laguna, se tiene sospechas de que el nivel
medio de contaminación por nitratos de la laguna ha aumentado. Si una muestra en 16 cuadrı́culas
tomadas al azar hace 3 meses (antes de que comenzara a operar la nueva fábrica) arrojó una media de
concentración de nitratos de 29.5 miligramos por litro con una desviación estándar de 7.3 miligramos
por litro, ¿se puede decir en base a los nuevos datos tomados que esta sospecha es válida a un nivel
de significación del 5 %?
11.- Se piensa que la concentración del ingrediente activo de un detergente lı́quido para ropa, es
afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación
estándar de esta concentración, σ, es de 3.5 g/l (gramos por litro), sin importar el tipo de catalizador
utilizado. Se toman dos muestras aleatorias, una con cada catalizador y se obtienen los siguientes
datos:
Tamaños de Media muestral de la

muestra concentración activa
Concentración bajo el catalizador 1 (X) 10 88.5
Concentración bajo el catalizador 2 (Y) 15 87.0
Asumiendo que las distribuciones poblacionales de X e Y son normales:

a) Encuentre un intervalo de confianza al 95 % para la diferencia entre las medias de las concentracio-
nes activas para los dos catalizadores. Use, en la construcción del intervalo, a la variable estandarizada
de la diferencia de medias muestrales de X e Y .
b) ¿ Se podrı́a afirmar con una confianza del 95 % que las concentraciones activas medias dependen
del catalizador utilizado ?
c) ¿ Qué tamaño de muestra se requiere para cada población si se desea tener una confianza del 95 %
de que el error al estimar la diferencia entre las medias de las concentraciones activas para los dos
catalizadores sea menor que 1.2 g/l ? Suponga que se mantiene la relación actual entre los tamaños
muestrales.
104
12.- Se desea estimar el gasto total en adquisición de libros, para cada perı́odo, efectuado por los
alumnos de una universidad. A fin de reducir la variabilidad, se decide considerar 3 grupos de acuerdo
al nivel de estudios: Estudios Generales, Pre-grado y Post-grado. Se selecciona una muestra aleatoria
en cada grupo y se halla un estimado del total gastado en adquisición de libros durante un perı́odo
por cada alumno obteniéndose los siguientes resultados:
Estudios Generales Pre-Grado Post-Grado

Ni 6,000 8,000 2,000
ni 120 160 40
X̄i 46.8 59.0 37.2
Si 6.6 9.6 18.2
a) Halle un intervalo de confianza al 95 % para el gasto total en libros efectuado por los alumnos de
Post-grado.
b) Si se desea que el margen de error en la estimación del inciso a) sea de 8,000 u.m, ¿ cuántos
alumnos de Post-grado se deben muestrear ?
c) Halle una estimación puntual del gasto total en adquisición de libros en la universidad.
d) Halle un intervalo de confianza al 95 % para el gasto total en adquisición de libros efectuado por
los alumnos de la universidad.
13.- a) ¿ Qué tamaño de muestra debe de usted considerar a fin de estimar la proporción de defectos
de un lote de 500 unidades de tal manera que el error máximo en su estimación sea de 0.1 con un
nivel de confianza del 95 %?
b) Un circuito tiene una duración T con distribución exponencial de parámetro β = 0.01.
b1) Si se prueban 5 de estas componentes, determine la probabilidad de que el mayor valor
observado supere las 720 horas.
b2) Si se prueban 81 de estas componentes, determine la probabilidad que el tiempo promedio
de todas ellas supere las 720 horas.
14.- Se desea estimar la proporción de votantes p a favor de un candidato para las elecciones del
presidente de un club que cuenta en su padrón electoral con 1,500 socios inscritos. Para esto se ha
decidido realizar una encuesta de opinión entre los socios. Si p̄ representa la proporción muestral
de votantes a favor del candidato que se obtendrá en la encuesta y se desea cometer un error de
estimación
E = |p̄ − p|
de a lo más 0.025 con una confianza del 95 %, ¿ qué tamaño de muestra n deberı́a considerarse en
la encuesta? ¿ Cuál serı́a el tamño de muestra en la encuesta, si ahora se desea un nivel de confianza
del 99 %?
15.- Una compañı́a eléctrica esta interesada en estimar, mediante muestreo, el total en kilowatts-hora
(kwh) del consumo de electricidad de las viviendas en las dos zonas que conforman una región A:
la zona urbana y la zona industrial. Es de interés también para la compañı́a conocer la proporción
p de viviendas, en cada zona, que cuentan con un medidor de marca AFA, pues la compañı́a esta
muy interesada en reemplazar estos a corto plazo. Dado que los consumos son bastante diferenciados
en ambas zonas se ha previsto hacer estudios independientes en cada uno de ellos. Para tal efec-
to se dispone de los resultados siguientes de un estudio muestral ya realizado a otra región B de
caracterı́sticas muy similares a la región de interés:
Número Tamaño Total de consumo Desv. Est. de los Número de viviendas

total de de la en kwh consumos en la en la muestra
viviendas muestra en la muestra muestra (en kwh) con medidores AFA
Zona urbana 1,200 50 8,500 15.2 22
Zona industrial 120 20 40,000 40.8 5
A un nivel de confianza del 95 %:

a) ¿ Cuál fue el máximo error de estimación considerado en la estimación de la proporción de viviendas
con medidores AFA para la zona urbana de la región B?
b) ¿ Cuál fue el máximo error de estimación considerado en la estimación del consumo total de
electricidad para la zona urbana de la región B?
c) Asumiendo normalidad ¿cuál fue el máximo error de estimación considerado en la estimación del
consumo total de electricidad para la zona Industrial de la región B? Note que el tamaño muestral 20
es aquı́ pequeño por lo que usted deberá de utilizar la distribución exacta de la variable de interés.
d) Si ahora en la región A se desean estimar los consumos totales por zona con un máximo error de
estimación de 4,000 kwh y la proporción de viviendas con medidores AFA en cada zona con un error
máximo de estimación de 0.1 ¿ cuál debe de ser el tamaño de muestra apropiado para cada zona de
estudio?
e) Si se tomaran al azar de la región A n viviendas, donde n es el número total de viviendas, calculadas
en d) para encuestarse en la región A ¿ cuál serı́a el máximo error de estimación que se obtendrı́a al
estimarse el consumo medio en esta región?
16.- Una madererı́a minorista inspecciona los embarques de madera que llegan, a través de camiones
de carga, de sus proveedores. Para los embarques de pino de calidad selecta, de 8 pies (2 por 4),
el supervisor escoge aleatoriamente una gruesa (12 docenas o 144 hojas) de un embarque de varias
docenas de miles de hojas. En la muestra, 18 hojas no pueden venderse como de calidad selecta.
a) Obtenga un intervalo de confianza al 95 % para la proporción de hojas de todo el embarque que
no pueden venderse como de calidad selecta.
b) Si el 20 % o más del embarque no puede venderse como madera de calidad selecta el embarque no
es rentable. ¿ Indica el intervalo de confianza anterior que hay razones para pensar que el embarque
106
no es rentable ?
c) La muestra se toma siempre de la plataforma ubicada en la parte posterior derecha del camión de
carga. Cada plataforma contiene 4 gruesas ubicadas en una misma linea, de modo que la madererı́a
selecciona, las 144 hojas de la muestra por rotación: del primer embarque, las 144 de arriba a la
izquierda; del siguiente embarque, las 144 de arriba a la derecha, y ası́ sucesivamente. ¿ Por qué ésta
no es una muestra aleatoria de hojas ? ¿ No podrı́a un proveedor falto de ética tomar ventajas de
este proceso ? En su opinión, ¿serı́a factible tomar una muestra aleatoria simple en esta situación ?
¿ Cómo tomarı́a la muestra para dificultar que un proveedor falto de ética lo engañe?
17.-El Ingreso mensual de las 400 microempresas de metal-mecánica de una ciudad, se asume que
es una v.a. X normal con media µ y varianza 2, y para reactivar el sector se quiere establecer una
lı́nea de crédito cuyos pagos mensuales sean iguales al 10 % del ingreso de la empresa. Una muestra
de n = 70 microempresarios dió una media de 710 dólares y una desviación estándar de 26 dólares.
a) Construya un IC para µ al 95 % de confianza y determine el rango de pagos esperados de un
microempresario que toma el crédito.
b) ¿ Entre que valores se encontrará a un nivel de confianza del 95 % el total de pagos mensuales
que efectuaran las microempresas, si se asume que se otorgará crédito a todo el sector ?
c) Determine el máximo error de estimación que se pudiera cometer en la estimación en b).
Capı́tulo 5
CONTRASTES DE HIPÓTESIS
5.1. Generalidades
Consideremos una variable aleatoria X cuya función de distribución FX (x) = P (X ≤ x) depende
de un parámetro (o vector de parámetros) θ. A esto lo denotaremos en adelante por X ∼ θ.
Definición 5.1 Una hipótesis (estadı́stica) es cualquier enunciado o conjetura que podamos hacer
con respecto a la v.a. X ∼ θ.
En general estos enunciados pueden ir dirigidos a θ (hipótesis paramétricas), la forma de FX

(pruebas de bondad de ajuste) u otras relaciones basadas en la interrrelación de X con otras v.a’s.
Nosotros discutiremos inicialmente las denominadas pruebas paramétricas.
Todo contraste de hipótesis paramétrico posee la forma siguiente:


 θ1 simple


 >θ a cola derecha
0
H0 : θ = θ0 vs H1 : θ =

 < θ0 a cola izquierda



6= θ0 a dos colas
donde a H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa (θ0 y θ1 conocidos).
La hipótesis nula H0 puede, en base a una muestra aleatoria X1 , X2 , ..., Xn de X, probarse
verdadera o falsa. La idea es construir mediante algún procedimiento adecuado, una regla de decisión
con una estadı́stica de prueba
Y0 = f (X1 , X2 , ..., Xn ) : S → R
que tenga distribución conocida bajo H0 . Aquı́ S denota a la colección de todas las posibles mues-
tras de tamaño n que pudieran elegirse de la población de X. La estadı́stica de prueba resume la
información contenida en la muestra y ,con la regla de decisión, particiona el espacio muestral S en
dos regiones: la región de aceptación de H0 y la región crı́tica o de rechazo de H0 . Luego, un expe-
rimentador al observar los valores que toma su muestra, evaluar su estadı́stica de prueba y apreciar
en que región cae, tomará finalmente la decisión que corresponda.
107
108
Definición 5.2 Un contraste, o prueba de hipótesis, es una partición del espacio muestral S en dos
regiones: una llamada la región de aceptación de H0 y la otra la región crı́tica o de rechazo de H0 .
Cuando un experimentador toma la decisión de rechazar o de aceptar H0 , él podrı́a cometer dos
tipos de error. Estos errores se miden como sigue
Definición 5.3
α = P (Error tipo I) = P (Rechazar H0 | H0 es verdadera)
β = P (Error tipo II) = P (Aceptar H0 | H0 es falsa).
Obviamente un buen contraste es aquel en el que α y β son los más pequeños posibles. Desafor-
tunadamente se prueba que α y β están en relación inversamente proporcional. Por tal motivo, se
ha convenido en fijar a α a fin de tratar de encontrar la mejor prueba; es decir, aquella que con este
α dado tenga el β más pequeño o si se quiere la potencia
Φ = P (Rechazar H0 | H0 es falsa) = 1 − β
máxima. Esta convención hace de que a α se le denomine también el nivel de significación de la

prueba y a H1 la hipótesis de trabajo, ya que de probarse que H0 es falsa, uno tendrı́a controlado
mediante α el error en su decisión. Note que bajo una hipótesis compuesta, no existe un único valor
para β, pues este depende del valor que se especifique para θ cuando H1 es verdadera.
Definición 5.4 La curva caracterı́stica de operación (curva OC) viene dada por la gráfica de β en
función del valor del parámetro bajo la hipótesis alternativa.
Ejemplo 5.1 Un inspector piensa que las balanzas que se utilizan en los mercados de abastos de
un distrito de la capital están siendo adulteradas. Para tal efecto, se eligieron al azar 25 puestos de
expendio, registrándose en cada uno de ellos el peso de un kilo real en las balanzas de estos puestos.
Asumiendo normalidad:
a) Plantee las hipótesis del caso.
b) Si el inspector decide concluir que las balanzas de los mercados de abastos de este distrito estan
adulteradas de ocurrir que el promedio de pesos en la muestra supera un cierto valor C. Halle C de
tal manera que el nivel de significación de la prueba sea de α = 0.05.
c) ¿ Qué es lo que el inspector determinarı́a si al registrar los pesos encuentra que en promedio estos
dan 1.075 kgs con una desviación estándar de 0.2 kgs? Use α = 0.05.
d) Si la verdadera media del peso del kilo real en las balanzas de los mercados fuera de 1.05 kgs, halle
la probabilidad de cometerse el error de tipo II.
Solución: a) Sea X = Peso de un kilo real en una balanza de un puesto de expendio del distrito.
Asumiendo, como se indica, que X ∼ N (µ, σ 2 ), estaremos interesados en contrastar a nivel α:
H0 : µ = 1 vs H1 : µ > 1.
Notese que H1 : µ > 1 es aquı́ la hipótesis de trabajo del inspector, pues él piensa que al estar
adulteradas las balanzas, ellas tenderán a registrar un mayor peso del que realmente miden.
b) El inspector plantea una región crı́tica de la forma:
R.C : X̄ > C.
Para que el nivel de significación de la prueba sea de α = 0.05 se debe de cumplir que
C −1
0.05 = P (RechazarH0 | H0 es verdadera) = P (X̄ > C | µ = 1) = P (T0 > ),
S/5
X̄−1
donde T0 = S/5 ∼ t(24) es el estadı́stico de prueba (σ 2 desconocido). Equivalentemente
C −1
0.95 = P (T0 ≤ ),
S/5
C−1
de donde se sigue que S/5 = t0.95 (24) = 1.711 y que
C = 1 + 0.3422 S,
siendo S la desviación estándar de la muestra.

c) Como la región crı́tica del contraste es
X̄ > 1 + 0.3422 S
y se ha observado en la muestra que X̄ = 1.075 y S = 0.2, entonces esta región crı́tica se satisface
(1.075 > 1.06844). En conclusión se rechazará H0 y el inspector podrá asegurar, con una probabilidad
de equivocarse del 5 %, que las balanzas que se utilizan en los mercados de abastos del distrito si
están siendo adulteradas.
d) Se nos pide β, si es que supiéramos que en verdad (algo que en general no se sabe) la verdadera
media, siendo esta superior al kilo real. Esta viene dada por
(1.06844 − 1.05)5
β = P (Error tipo II) = P (X̄ > 1.06844 | µ = 1.05) = P (T > ) = P (T > 0.461)
0.2
X̄−µ
donde T = √
S/ 25
∼ t(24). Puesto que este valor no se encuentra en la tabla, usaremos como ayuda
R. El cálculo de β se podrı́a obtener alternativamente con:
> 1 - pt(0.461,24)
[1] 0.3244745
> pt(0.461,24,lower.tail=FALSE)
[1] 0.3244745
2
Dada la relevancia de la distribución normal, mostraremos a continuación un resumen de los
distintos contrastes de hipótesis paramétricos sobre la media y la varianza de una y de dos poblaciones
normales independientes. Estos si bien parecen restrictivos, son pruebas asintóticamente válidas para
la medias de una y dos poblaciones cualesquieras en muestras grandes.
110
CONTRASTES SOBRE LOS PARAMETROS DE UNA O DOS POBLACIONES

NORMALES INDEPENDIENTES DE LAS V.A’ S X E Y .
Hipótesis
Nula Alternativa Estadı́stica de Prueba Región crı́tica
H1 : µ 6= µ0 |Z0 | > z1− α2
X̄−µ
H0 : µ = µ0 vs H1 : µ > µ0 Z0 = √0
σ/ n
∼ N (0, 1) Z0 > z1−α
σ 2 conocido H1 : µ < µ0 Z0 < −z1−α
H1 : µ 6= µ0 |T0 | > t1− α2 (n-1)

X̄−µ
H0 : µ = µ0 vs H1 : µ > µ0 T0 = √0
S/ n
∼ t(n-1) T0 > t1−α (n-1)
σ2 desconocido H1 : µ < µ0 T0 < −t1−α (n-1)
H1 : µ1 6= µ2 |Z0 | > z1− α2

H0 : µ1 = µ2 vs H1 : µ1 > µ2 Z0 = rX̄−Ȳ ∼ N (0, 1) Z0 > z1−α
2
σ1 σ2
n1
+ n2
2
σ12 y σ22 conocidos H1 : µ1 < µ2 Z0 < −z1−α
H1 : µ1 6= µ2 |T0 | > t1− α2 (n1 + n2 − 2)

X̄−Ȳ
H0 : µ1 = µ2 vs H1 : µ1 > µ2 T0 = q
1
∼ t(n1 +n2 -2) T0 > t1−α (n1 + n2 − 2)
Sp + n1
q n 1 2
(n1 −1)S12 +(n2 −1)S22
σ12 = σ22 desconocidos H1 : µ1 < µ2 Sp = n1 +n2 −2 T0 < −t1−α (n1 + n2 − 2)
H1 : µ1 6= µ2 |T0 | > t1− α2 (v)

H0 : µ1 = µ2 vs H1 : µ1 > µ2 T0 = rX̄−Ȳ ∼ T (v) T0 > t1−α (v)
2
S1 S2
n1
+ n2
2
S2 S2
( n1 + n2 )2
σ12 6= σ22 desconocidos H1 : µ1 < µ2 v= 2 /n )2
(S1
1 2
(S22 /n )2 T0 < −t1−α (v)
1 2
n1 −1
+ n2 −1
H1 : σ 2 6= σ02 χ20 < χ2α (n-1) ó χ20 > χ21− α (n-1)

2 2
(n−1)S 2
H0 : σ 2 = σ02 vs H1 : σ 2 > σ02 χ20 = σ02
∼ χ2 (n-1) χ20 > χ21−α (n-1)
H1 : σ 2 < σ02 χ20 < χ2α (n-1)
H1 : σ12 6= σ22 F0 < F α2 (n1 -1, n2 -1) ó F0 > F1− α2 (n1

S12
H0 : σ12 = σ22 vs H1 : σ12 > σ22 F0 = S22
∼ F (n1 -1, n2 -1) F0 > F1−α (n1 - 1, n2 -1)
H1 : σ12 < σ22 F0 < Fα (n1 − 1, n2 − 1)
NOTA: Si X e Y no son variables independientes y se desea contrastar a nivel α H0 : µ1 = µ2

vs H1 , uno puede definir la variable diferencia D = X − Y y convertir este contraste en uno sobre
el de una sola población (H0 : µD = 0 ). Este contraste sobre la población de la nueva v.a. D de
diferencias se indica en el segundo juego de hipótesis de la última tabla.
Ejemplo 5.2 Una operación de montaje en una fábrica manufacturera requiere aproximadamente de
un entrenamiento de un mes para que un nuevo empleado alcance la máxima eficiencia. Se sugirió un
nuevo método para el entrenamiento y se realizó una prueba para comparar el método nuevo con el
procedimiento estándar. Dado que la fábrica tenı́a 2 turnos de trabajo, se entrenaron estos durante
un periodo de cuatro semanas; un turno utilizó el nuevo método y el otro el procedimiento estándar.
Se midió el tiempo (en minutos) que necesitó cada empleado para montar el dispositivo al término del
periodo de entrenamiento. Las mediciones de los 9 empleados que conforman cada turno se muestran
a continuación
Procedimiento
Estándar 32 37 35 28 41 44 35 31 34
Nuevo 35 31 29 25 34 40 27 32
donde debido a problemas, uno de los empleados no pudo completar el entrenamiento con el nuevo
método . Asumiendo normalidad en los tiempos y planteando claramente sus hipótesis y parámetros:
a) ¿ Se podrı́a decir que estos métodos originan diferente variabilidad en los tiempos de montaje de
los empleados ? Use α = 0.05.
b) ¿ Se podrı́a decir que efectivamente el nuevo método resulta mejor que el procedimiento
estándar ? Use α = 0.05.
Solución: a) Sean X e Y las variables aleatorias que denotan al tiempo en minutos que ne-
cesita un empleado para realizar la operación de montaje al término del entrenamiento con el
método estándar y con el nuevo método, respectivamente. Se asume que X ∼ N (µ1 , σ12 ) e
Y ∼ N (µ2 , σ22 ). Estaremos inicialmente interesados en contrastar a nivel α = 0.05:
H0 : σ12 = σ22 vs H1 : σ12 6= σ22 .
Se rechazará H0 si se satisface la región crı́tica

S12 S12
R.C: F0 = < F0.025 (8, 7) ó F0 = > F0.975 (8, 7).
S22 S22
De la tabla F en el apéndice del texto obtenemos F0.975 (8, 7) = 4.9 y por una de las propiedades de
24.4444
la distribución F se tiene que F0.025 (8, 7) = F0.9751 (7,8) = 4.153 = 0.22. Dado que F0 = 22.83929 = 1.07
no cae en la región crı́tica podemos asumir que ambos métodos originan variabilidades similares en
los tiempos de montaje del dispositivo.
b) Se desea contrastar a nivel α = 0.05:
H0 : µ1 = µ2 vs H1 : µ1 > µ2 .
112
Dado que σ12 y σ22 son desconocidos y por a) podemos asumir σ12 = σ22 , se rechazará H0 a nivel
α =0.05 si se satisface la región crı́tica R.C: T0 > t0.95 (15) =1.753. Evaluando el estadı́stico de
prueba T0 = r 2 X̄−2Ȳq obtenemos que T0 = r 2 X̄−2Ȳq = 1.52 no cae en la región crı́tica.
8S1 +7S2 1 8S1 +7S2
15 9
+ 18 15
1
9
+ 18
Por tanto, no podemos garantizar que el nuevo método resulte mejor que el método tradicional. 2
Ejemplo 5.3 Suponga en el ejemplo previo que antes de entrenarse a los 9 empleados con el método
estándar, se les hubiera medido (en el mismo orden) los tiempos en minutos que necesitaron cada
uno de ellos en montar el dispositivo, encontrándose los siguientes datos:
35 39 35 34 40 47 40 38 36
¿ Podrı́a afirmarse con una probabilidad de equivocarse del 5 % que el entrenamiento es efectivo?
Solución: Se desea comparar los tiempos medios de montaje entre las poblaciones de empleados antes
y despúes del entrenamiento estándar. Dado que se trata de los mismos empleados, estas poblaciones
no son lógicamente independientes. En este sentido, si denotamos por XA y XB a los tiempos de
montaje antes y después del entrenamiento y asumimos que ambas tienen distribución normal con
medias respectivas µ1 y µ2 , estaremos interesados en contrastar a nivel α = 0.05:
H0 : µ1 = µ2 vs H1 : µ1 > µ2 .
Por la nota previa a estos ejemplos, debemos de proceder a construir la siguiente tabla de datos:
XA (Antes) XD (Después) D = XA − XB (Diferencia)
35 32 3
39 37 2
35 35 0
34 28 6
40 41 -1
47 44 3
40 35 5
38 31 7
36 34 2
de la cual obtenemos D̄ = 3 y SD = 2.646. Nuestra toma de decisiones consistirá en rechazar
√
D̄ n
H0 a nivel α = 0.05 si se satisface la región crı́tica R.C: T0 = SD > t0.95 (8) = 1.86. Dado que
T0 = 3.4 > 1.86, sı́ podemos garantizar, con una probabilidad de equivocarnos de α = 0.05, que el
entrenamiento resulta efectivo. 2
5.2. Tamaños de muestra y curvas OC

Sea X ∼ N (µ, σ 2 ), con σ 2 conocida, y supongamos deseamos contrastar a nivel α:
H0 : µ = µ0 vs H1 : µ > µ0 .
Supongamos que H0 es falsa y que el verdadero valor de µ es µ = µ0 + δ, con δ > 0. Luego, la

probabilidad de cometer el error tipo II viene dada por:
σ
β = P ( Aceptar H0 | H0 es f alsa ) = P (X̄ ≤ µ0 + z1−α √ /µ = µ0 + δ)
n
µ0 + z1−α √σn − µ0 − δ √
δ n
= P (Z ≤ ) = FZ (z1−α − )
√σ σ
n
Como se aprecia existen aquı́ 3 cantidades de interés relacionadas para un α fijo: β, n y δ. Dadas 2
de ellas la tercera puede obtenerse analı́ticamente. Permitámonos realizar el siguiente análisis:
X̄−µ0
Si H0 es verdadera, entonces Z0 = √σ ∼ N (0, 1).
n
√
X̄−µ0 −δ δ n
Si H1 es verdadera, entonces Z1 = √σ = Z0 − σ ∼ N (0, 1).
n
De aqui que:
1. La relación entre α y β es inversamente proporcional.
2. Si α y n son dados, uno minimiza la probabilidad de cometer el error tipo II o, equivalentemente

maximiza la potencia de la prueba, incrementando la divergencia entre el verdadero valor de µ
y el µ0 especificado; es decir, aumentando δ = µ − µ0 .
3. Si α y δ son dados, uno maximiza la potencia de la prueba tomando un n más grande.
Definición 5.5 Una carta de control es una gráfica conjunta de las curvas caracterı́sticas de opera-
ción para distintos tamaños de muestra n y para un valor fijo de α. En ella las curvas OC utilizan
como parámetro de β a un término d que nos indica en cuantas desviaciones estándares se desvia el
verdadero parámetro del que se especifica en H0 .
δ µ−µ0
En el caso que hemos discutido el parámetro d vienen dado por: d = σ = σ . Ası́, la carta de
control para, por ejemplo un α = 0.05 (se acostumbra también dar para un α = 0.01), viene dada
√
por la yuxtaposición de las gráficas de la función β(d) = FZ (1.645 − d n) para distintos valores de
n. Esta carta de control se aprecia en la figura siguiente:
114
Carta de control a cola derecha y

nivel de significación 0.05
1.0
0.8
Probabilidad de aceptar Ho
0.6
0.4
3 2 n=1
75 15 5
6 4
9
0.2
50 20
7
30
8
n = 100
40 10
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Al igual que lo desarrollado para el contraste anterior, uno puede deducir, de manera similar,
las siguientes probabilidades de error tipo II para los contrastes a nivel α sobre µ en una v.a.
X ∼ N (µ, σ 2 ) de varianza conocida.
Si se desea contrastar
H0 : µ = µ0 vs H1 : µ < µ0 ,
entonces √
δ n
β = 1 − FZ (−z1−α + ) (donde δ = µ0 − µ > 0)
σ
Si se desea contrastar
H0 : µ = µ0 vs H1 : µ 6= µ0 ,
entonces √ √
δ n δ n
β = FZ (z1− α2 − ) − FZ (−z1− α2 − ) (donde δ = |µ − µ0 | > 0)
σ σ
Nota: Si n es grande estas fórmulas son, por el TLC, válidas aún si X no tiene distribución normal. Si
σ se desconoce, ella puede reemplazarse por alguna estimación o por S. Por otro lado, si n es pequeño
(n < 30), uno deberá utilizar bajo normalidad no Z ∼ N (0, 1) sino T ∼ t(n − 1) e igualmente alguna
estimación de σ ó S.
Ejemplo 5.4 Unos pasadores de aluminio fabricados para la industria de la aviación tienen un
diámetro aleatorio cuya distribución es normal con media µ = 10 mm y desviación estándar σ = 0.5
mm. En las placas de aluminio se barrenan agujeros cuyos diámetros tienen distribución normal de
media µ mm y desviación estándar de 0.5 mm.
a) ¿ Cuál debe de ser el valor de µ para que la probabilidad de que un pasador no entre en un agujero
sea 0.01 ?
b) Suponga que el ingeniero de control en la producción de los pasadores sospecha de que los diámetros
medios de estos no estan cumpliendo la especificación dada. Si el desea detectar una desviación de
la especificación de 1 mm con una probabilidad de al menos 0.99 y un nivel de significación de α =
0.05 ¿ cuál serı́a el tamaño de muestra que deberı́a utilizar en un contraste tendiente a aclarar sus
sospechas ?
Solución: a) Sea X ∼ N (10, 0.52 ) el diámetro de un pasador y sea Y ∼ N (µ, σ 2 ) el diámetro de una
agujero barrenado (ambos en mm). Se plantea que
0.01 = P (X > Y ) = P (X − Y > 0).
Como X − Y ∼ N (10 − µ, 2(0.5)2 ), al ser X e Y independientes, se tiene que:
µ − 10
0.99 = P (Z ≤ √ ).
2(0.5)
2(µ−10)
Luego de tabla, √
2
= 2.325 y por tanto µ = 11.644 mm.
b) El ingeniero estará interesado en contrastar a nivel α = 0.05:
H0 : µX = 10 vs H1 : µX 6= 10.
y especifı́ca una potencia de al menos 0.99 (o β ≤ 0.01) a fin de detectar una desviación de los 10
mm de δ = 1 mm. Luego se tiene que:
√ √
n n
FZ (1.96 − ) − FZ (−1.96 − ) ≤ 0.01.
0.5 0.5
Dado que el segundo término en esta expresión es pequeño podrı́amos inicialmente considerar sólo el
√
primero y por tanto ubicar un n tal que 1.96 − 0.n5 ≤ −2.325, lo cual nos da que n > 4.59. Tomando
n = 5, vemos que
√ √
n n
FZ (1.96 − ) − FZ (−1.96 − ) = FZ (−2.51) − FZ (−6.432) = 0.006 ≤ 0.01.
0.5 0.5
Luego, el ingeniero podrı́a utilizar una muestra de al menos 5 pasadores. Notese que este tamaño de
muestra es pequeño; sin embargo válido, pues no estamos realizando aquı́ una aproximación normal,
sino considerando que los diámetros de los pasadores tienen distribución normal. 2
116
5.3. Muestreo por aceptación

El muestreo por aceptación es una técnica de control de calidad para lotes que se realiza mediante
el muestreo de sus unidades. Consideremos un lote de N unidades y supongamos que este contiene M
unidades defectuosas. Si se extrae al azar del lote una muestra de n unidades (sin reemplazamiento)
y se define la v.a. X = número de unidades defectuosas encontradas en la muestra, entonces es
conocido que X ∼ H(N, M, n).
M
Siendo el parámetro de interés la proporción de defectos por lote p = N , uno querrá contrastar:
H0 : p = p0 vs H1 : p > p0 (∗) ,
donde p0 se denomina el AQL (acceptance quality level) o nivel de calidad aceptable del productor
y en H1 se acostumbra escribir p = p1 (p1 > p0 ), donde p1 se denomina el LTPD (limit tolerance
percentage of defects) o la proporción de defectos por lote que un consumidor estarı́a como máximo
dispuesto a tolerar.
Si se rechaza H0 en (*), entonces el lote bajo control deberá ser rechazado por el productor y
mandado a revisión total para la inspección y reemplazo de todas sus unidades defectuosas; mientras
que si no se rechaza H0 el lote podrá salir al mercado para su libre distribución a los consumidores.
En este contexto las probabilidades de cometer los errores tipo I y tipo II pueden interpretarse como:
α = Riesgo del productor = proporción de lotes buenos que serán rechazados por el control
β = Riesgo del consumidor = proporción de lotes malos que serán aceptados por el control.
La región crı́tica o de rechazo de H0 en (*) viene dada por:
R.C: X > c.
Definición 5.6 Un plan de muestreo simple consiste en la especificación del número de aceptación
c y del tamaño de muestra n.
Un plan de muestreo puede mejor especificarse mediante su curva OC extendida. Esta es la

gráfica de la probabilidad de aceptación de un lote en términos de p; vale decir, de L(p) = P (X ≤ c).
Explı́citamente L(p) viene dada por:
c Np

N (1−p)
X x n−x
L(p) = N

x=0 n
Esta expresión en la práctica es poco utilizada ya que por lo general los lotes a inspeccionarse son lo
suficientemente grandes (N grande) como para aproximar la distribución hipergeométrica de X por
una distribución binomial X ∼ B(n, p). En este caso:
c
X n
L(p) = px (1 − p)n−x
x
x=0
Más aún, si n es grande (n ≥ 30) podemos , gracias al TLC, escribir:
c + 1 − np − 1 − np
L(p) = P (0 ≤ X ≤ c) = FZ ( p 2 ) − FZ ( p 2 ).
np(1 − p) np(1 − p)
Ejemplo 5.5 En un plan de muestreo simple con n = 12 y c = 1 el nivel de calidad aceptable es

p =0.01. Halle el riesgo del productor y el riesgo del consumidor si el LTPD es de 0.15.
Solución: Al ser el lote grande, L(p) = (1 − p)12 + 12p(1 − p)11 y la curva OC del contraste de control:
H0 : p = 0.01 vs H1 : p > 0.01
viene dada por:
El riesgo del productor bajo este plan es:
α = P (Rechazar H0 | H0 es verdadera) = 1 − P (Aceptar H0 | H0 es verdadera)
= 1 − P (X ≤ 1 | p = 0.01) = 1 − L(0.01) = 0.0061745,
donde X denota al número de artı́culos defectuosos encontrados en la muestra. De otro lado, el riesgo
del consumidor para un LTPD de 0.15 es:
β = P (Aceptar H0 | H0 es falsa) = P (X ≤ 1 | p = 0.15) = L(0.15) = 0.44346.
2
118
La bondad de un plan de muestreo puede medirse también mediante su curva de calidad aceptable
o curva AOQ. Esta nos mide el grado de protección que ofrece el plan a un consumidor una vez
finalizado el control de calidad. Especı́ficamente, si P = proporción de defectos de un lote a la salida
del control, entonces: (
M −X
N , si el lote es aceptado (X ≤ c)
P =
0 , si el lote es rechazado (X > c)
Pc M −x M −X
y AOQ(p) = E(P ) = x=0 ( N )pX (x). Puesto que M se desconoce, podemos aproximar N por
p y escribir:
AOQ(p) = pL(p).
Luego, la curva AOQ viene dada por la gráfica de esta función. Un elemento importante relacionado
con esta curva, y que nos da una medida de calidad puntual del plan, es la calidad lı́mite de salida
o AOQL. Este no es sino el máximo valor que toma la función AOQ.
Ejemplo 5.6 Halle la curva AOQ del problema anterior ası́ como su AOQL.
Solución: La curva AOQ de este problema viene dada por la gráfica de
AOQ(p) = p((1 − p)12 + 12p(1 − p)11 ).
El valor que maximiza esta función es p∗ =0.1256 y por tanto se sigue que AOQL =
AOQ(0.1256) = 0.068339 ; es decir, un consumidor que adquiere un lote con este plan de control
esperará obtener un 6.8339 % de artı́culos defectuosos en el lote. 2
5.4. La distribución multinomial

Consideremos un experimento aleatorio cuyos resultados pueden caer en cualquiera de k categorı́as
excluyentes C1 , C2 , . . . , Ck con probabilidades respectivas p1 , p2 , . . . , pk . Si este experimento se repite
de manera independiente n veces y se definen las variables aleatorias:
Xi = número de veces en que ocurre la categorı́a Ci , i = 1, 2, . . . , k,
entonces el vector aleatorio (X1 , X2 , . . . , Xk ) se dice tiene distribución multinomial de parámetros n,

p1 , p2 , . . . , pk , y se le denota por (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ).
Proposición 5.1 Si (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ) , entonces

a) La función de probabilidad conjunta de este vector aleatorio viene dada por:
(
n! x1 x2
x1 !x2 !...xk ! p1 p2 . . . pxk k , si (x1 , x2 , . . . , xk ) ∈ R
P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) =
0 , en caso contrario
Pk
donde R = {(n1 , n2 , . . . , nk ) ∈ {0, 1, . . . , n}k / i=1 ni = n} denota rango del vector.
b) Xi ∼ B(n, pi ), ∀i = 1, 2, . . . , k.
Demostración: a) La probabilidad de que en las primeras x1 repeticiones ocurra C1 , en las siguientes

x2 repeticiones ocurra C2 y ası́ sucesivamente hasta que en las últimas xk repeticiones ocurra Ck
es por la independencia px1 1 px2 2 . . . pxk k . Sin embargo, estas ocurrencias podrı́an darse de otras formas
en términos del orden de ocurrencia de cada categorı́a. Todas las ordenaciones posibles de los n
experimentos en donde x1 serán de tipo C1 y asi sucesivamente hasta xk del tipo Ck , viene dada por
n!
x1 !x2 !...xk ! . Por tanto, la probabilidad pedida viene dada por la fórmula indicada en a).
b) Basta notar que los experimentos que generan la multinomial podrı́an redefinirse como experi-
mentos de Bernoulli. En efecto, si llamamos éxito a que ocurra la categorı́a Ci y fracaso que ocurra
cualquier otra categorı́a, el número de éxitos en las n repeticiones independientes tiene distribución
binomial de parámetros n y pi . 2
La primera parte de la siguiente proposición es una consecuencia directa de la parte b) de la
proposición 9 y de lo que vimos en el capı́tulo sobre distribuciones muestrales. La otra parte nos
provee de un intervalo más interesante sobre la diferencia de proporciones de la ocurrencia de dos
categorı́as distintas Ci y Cj , tanto en el contexto multinomial de dependencia, como en el caso que
las proporciones correspondan mas bien a dos poblaciones independientes.
Proposición 5.2 a) Si n es grande, un intervalo de confianza al 100(1 − α) % para pi es:

r r
p̄i (1 − p̄i ) p̄i (1 − p̄i )
[p̄i − z1− α2 , p̄i + z1− α2 ],
n n
donde p̄i denota la proporción de veces que ocurre la categorı́a Ci en los n experimentos.
120
b) Si n es grande, un intervalo de confianza al 100(1 − α) % para pi − pj , con i 6= j, es:

r r
p̄i (1 − p̄i ) + p̄j (1 − p̄j ) + 2p̄i p̄j p̄i (1 − p̄i ) + p̄j (1 − p̄j ) + 2p̄i p̄j
[p̄i − p̄j − z1− α2 , p̄i − p̄j + z1− α2 ],
n n
donde p̄i y p̄j denotan, respectivamente, a la proporción de veces que ocurre la categorı́a Ci y la
categorı́a Cj en los n experimentos.
c) Un intervalo de confianza al 100(1 − α) % para p1 − p2 , donde p1 y p2 representan las proporciones
de ocurrencia de un evento de interés en dos poblaciones independientes, viene dado por:
s s
p̄1 (1 − p̄1 ) p̄2 (1 − p̄2 ) p̄1 (1 − p̄1 ) p̄2 (1 − p̄2 )
[p̄1 − p̄2 − z1− α2 + , p̄1 − p̄2 + z1− α2 + ],
n1 n2 n1 n2
donde p̄1 y p̄2 denotan a las proporciones de veces en que ocurre el evento de interés en muestras
grandes de tamaños n1 y n2 de ambas poblaciones.
Un problema clásico en la inferencia estadı́stica consiste en poder garantizar un nivel de confianza

o de significación fijo cuando uno realiza conjeturas múltiples. Por ejemplo, supongamos que en un
estudio de Marketing deseamos jerarquizar, con un nivel de confianza del 95 %, las proporciones de
sujetos p1 , p2 y p3 que estarı́an dispuestos a adquirir un nuevo producto en cada uno de los estratos
socioeconómicos bajo (1), medio (2) y alto (3), respectivamente. Para realizar esto podrı́amos tomar
tres muestras en cada una de estas poblaciones y con ellas construir intervalos de confianza al 95 %
para las diferencias p1 − p2 , p1 − p3 y p2 − p3 . Si definimos los eventos A1 , A2 y A3 , donde A1 denota
al evento que el IC contenga a p1 − p2 , A2 a que el IC contenga a p1 − p3 y A3 a que el IC contenga a
p2 − p3 , entonces por definición P (Ai ) = 0.95, ∀i = 1, 2, 3 ; sin embargo, como deseamos comparar la
aceptación del producto en los tres estratos, nosotros quisieramos garantizar una probabilidad 0.95
de que simultáneamente p1 − p2 , p1 − p3 y p2 − p3 se ubiquen en sus IC respectivos; es decir, que
P (A1 ∩ A2 ∩ A3 ) = 0.95. Esta probabilidad en teorı́a es mucho menor. Una manera de resolver este
problema es recurriendo a la desigualdad de Bonferroni, descrita en el ejercicio 3 del primer capı́tulo.
Esta nos provee de una cota inferior para la intersección de cualquier número de eventos en términos
de las probabilidades individuales de cada evento. Concretamente, si deseamos garantizar de que
simultáneamente se satisfagan m eventos con una probabilidad de al menos q, podrı́amos fijar una
probabilidad individual q0 en:
m
X
q = P (A1 ∩ A2 ∩ . . . ∩ Am ) ≥ P (Ai ) − (m − 1) = mq0 − (m − 1)
i=1
q+m−1
para despejar y obtener que q0 = m . Si los eventos A1 , . . . , Am fueran independientes, entonces
q = P (A1 ∩ A2 ∩ . . . ∩ Am ) = P (A1 )P (A2 ) . . . P (Am ) = q0m

1
y en este caso, podrı́amos tomar q0 = q m .
Adaptando estos desarrollos al caso de los intervalos de confianza, vemos que para garantizar
intervalos de confianza simultáneos de la ubicación de m parámetros poblacionales con un nivel de
confianza de al menos 100(1 − α) %, deberemos tomar IC’s al 100(1 − α0 ) % para cada parámetro
1
α
con un α0 = m ó con un α0 = 1 − (1 − α) m si las poblaciones involucradas son independientes.
Ejemplo 5.7 Una empresa ha encuestado a 640 personas sobre sus preferencias hacia 4 presenta-
ciones de un nuevo producto, encontrando que 220, 160, 80 y 180 de ellas preferı́an, respectivamente,
las presentaciones 1,2,3 y 4. De otro lado, se sabe que el costo de producción bajo estas presentacio-
nes varia siendo la menos costosa la presentación 4, la siguiente menos costosa la presentación 3 y
la más costosa la presentación 1.
a) Si antes del estudio los gerentes de la empresa pensaban sacar el producto con la presentación
1 ¿ podrı́a usted asegurarles con una confianza de al menos 95 %, que la proporción de personas
potenciales que adquirirán esta presentación superará al de las otras presentaciones ?
b) Si usted tuviera que recomendar alguna presentación ¿ cuál recomendarı́a? Justifique su elección.
Solución: a) Sea Xi = número de personas encuestadas que prefieren la presentación i. Entonces el

vector aleatorio (X1 , X2 , X3 , X4 ) tiene distribución multinomial de parámetros n = 640 y probabi-
lidades p1 , p2 , p3 y p4 , donde pi representa la probabilidad, o visto frecuencialmente, la proporción
poblacional, de que una persona prefiera el producto con la presentación i. Construiremos intervalos
de confianza al 100(1 − α0 ) % para las diferencias entre todas estas proporciones a fin de analizar si
es que efectivamente p1 supera a las otras proporciones. Por la desigualdad de Bonferroni, el valor
de α0 vienen dado por α0 = 0.605 = 0.00833, pues se tienen que efectuar C24 = 6 comparaciones
con un nivel de al menos 95 %. En otras palabras, cada intervalo que compara a dos proporciones se
tomarán con un nivel de confianza del 100(1 − α0 ) % = 99.167 %. Estos intervalos de la forma
r r
p̄i (1 − p̄i ) + p̄j (1 − p̄j ) + 2p̄i p̄j p̄i (1 − p̄i ) + p̄j (1 − p̄j ) + 2p̄i p̄j
[p̄i −p̄j −z0.9958 , p̄i −p̄j +z0.9958 ] , son:
640 640
IC al 99.167 % para p1 − p3 : [0.151048, 0.286452] ( p1 > p3 )
IC al 99.167 % para p1 − p2 : [0.013936, 0.173564] ( p1 > p2 )
IC al 99,167 % para p1 − p4 : [−0.144742, 0.019742] (no existen diferencias)
IC al 99.167 % para p4 − p3 : [0.091766, 0.220734] (p4 > p3 )
IC al 99.167 % para p4 − p2 : [−0.044741, 0.107241] ( no existen diferencias)
IC al 99.167 % para p2 − p3 : [0.062441, 0.187559] ( p2 > p3 )
Luego, a un nivel de al menos 95 % no es posible garantizar que la presentación 1 sea la más
preferida, pues vemos que no se han ubicado diferencias significativas con la presentación 4.
b) En base al análisis anterior podemos inferir, con un nivel de confianza global de al menos 95 %,
la siguiente relación entre las proporciones de preferencia por las presentaciones:
p3 < p2 = p4 = p1 .
Por tanto, se podrı́a recomendar la presentación 4, ya que ella tiene los menores costos de producción
y una alta preferencia. 2
122
El siguiente resultado asintótico será la base para todos los contrastes de hipótesis relacionados
a una distribución multinomial.
Teorema 1 Sea (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ). Si n es grande y se cumple que ∀i, Ei =

npi ≥ 5, entonces aproximadamente
k
X (Xi − Ei )2
U= ∼ χ2 (k − 1).
Ei
i=1
Este teorema nos provee de un estadı́stico de prueba adecuado para contrastar a nivel α:
H0 : p1 = p01 , p2 = p02 , . . . , pk = p0k vs H1 : ∃i / pi 6= p0i
donde los valores p01 , . . . , p0k son conocidos. En efecto, si reemplazamos los p0i en U y este término
resulta ser suficientemente grande, entonces al menos algunas de las frecuencias observadas Xi van a
diferir considerablemente de las frecuencias E(Xi ) = np0i = Ei0 que se esperan de ser H0 verdadera.
En este sentido no es difı́cil apreciar que la siguiente región crı́tica, constituye un regla razonable (y
lo es formalmente) de decisión:
Rechazar H0 a nivel α si
k
X (Xi − E 0 )2
RC: U0 = i
> χ21−α (k − 1).
i=1
Ei0
En muchas circunstancias las probabilidades de ocurrencia pi de cada categorı́a Ci dependen de

otros parámetros poblacionales desconocidos. En este caso, antes uno de aplicar el contraste anterior
debrá primero ver como estimar las frecuencias esperadas Ei0 . El método canónico de estimación en
estadı́stica viene dado por el método de máxima verosimilitud.
Definición 5.7 Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ θ y x1 , x2 , . . . , xn son sus valores

observados, la función de verosimilitud de esta m.a. viene dada por:
(
PX (x1 )PX (x2 ) . . . PX (xn ) , si X es una v.a discreta
L(θ) =
fX (x1 )fX (x2 ) . . . fX (xn ) , si X es una v.a. contı́nua.
En el caso discreto L(θ) representa la probabilidad de que una muestra aleatoria cualquiera de X
tome precisamente los valores que ya se han observado de ella. Como lo observado en la muestra es
para nosotros la única información fiable de la que disponemos es lógico pensar que la distribución
de X será más idónea mientras esta probabilidad sea mayor. Al depender esta probabilidad de θ, lo
natural es entonces seleccionar el valor de θ que maximice la probabilidad en mención.
Definición 5.8 En el contexto anterior, sea θ∗ = g(x1 , x2 , . . . , xn ) el valor de θ que maximiza L(θ).
Entonces el estimador de máxima verosimilitud de θ viene dado por θ̂ = g(X1 , X2 , . . . , Xn ).
Nota: Dado que los valores de θ que maximizan a las funciones L(θ) y K(θ) = LnL(θ) son los
mismos, uno puede maximizar K(θ) en lugar de L(θ). Esta práctica es muy común pues la gran
mayorı́a de distribuciones estudiadas tienen forma exponencial y por tanto la toma de logaritmos
simplifica considerablemente el problema de maximización.
Proposición 5.3 (Propiedad de invarianza) Sea γ = h(θ) un nuevo parámetro definido como una
función del parámetro θ cuyo estimador de máxima verosimilitud es conocido y viene dado por θ̂.
Entonces el estimador de máxima verosimilitud del parámetro γ vienen dado por γ̂ = h(θ̂).
Ejemplo 5.8 Una componente electrónica se asume que sigue en su razón de falla un modelo de
Weibull de parámetros α = 3 y β desconocido, donde el tiempo se mide en años.
a) Halle el estimador de máxima verosimilitud de β y el estimador de máxima verosimilitud de la
función de confiabilidad de la componente.
b) Suponga que se seleccionaron al azar 15 de estas componentes y luego se registraron sus tiempos
de vida útil, obteniéndose en años los siguientes datos: 0.808, 1.060, 0.749, 0.476, 0.498, 0.925,
0.916, 1.021, 0.618, 0.336, 0.710, 0.445, 0.711, 0.757, 0.614. Estime la confiabilidad de esta
componente, si se especifica para ella un tiempo de vida útil de 7 meses.
Solución: a) Sea X ∼ W (4, β) el tiempo de vida útil de la componente en años. Dada una m.a.
X1 , X2 , . . . , Xn de X, junto con sus valores observados x1 , x2 , . . . , xn , se tiene que la función de
verosimilitud de esta m.a. viene dada por:
n
Y Pn
4 4 4
L(β) = fX (x1 ) . . . fX (xn ) = 4βx31 e−βx1 . . . 4βx3n e−βxn = 4 β ( x3i )e−β i=1 xi
n n
i=1
y por tanto
n
X n
X
K(β) = Ln(L(β)) = nLn(4) − nLn(β) − 3 Ln(xi ) − β x4i .
i=1 i=1
00
Derivando, igualando a 0 y verificando que K (β) = − βn2 < 0, obtenemos que el estimador de
máxima verosimilitud de β viene dado por β̂ = Pn n . Más aún, por la propiedad de invarianza,
i=1 Xi4
la estimación de la función de confiabilidad de la componente viene dada por:
4 −( Pn n )t4
R̂(t) = e−β̂t = e i=1
X4
i .
b) La confiabilidad de la componente para una especificación de 7 meses viene dada por R =

R(0.583) = e−0.115789β . Según datos el valor estimado de β viene dado por β̂ =2.578618.
Luego, por la propiedad de invarianza, la confiabilidad de esta componente se estimará en
R̂ = e−0.115789(2.578618) =0.7418743. 2
El siguiente resultado nos da una versión del teorema 5 cuando se requiera estimar una cierta
cantidad r de parámetros desconocidos.
124
Teorema 2 Sea (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ) , con n grande y sean p̂i estimadores

de los pi obtenidos al estimarse r parámetros desconocidos por el método de máxima verosimilitud.
Entonces si ∀i, Êi = np̂i ≥ 5, se sigue que aproximadamente:
k
X (Xi − Êi )2
V = ∼ χ2 (k − r − 1).
i=1 Êi
Ejemplo 5.9 En una gran tienda una muestra aleatoria de 100 personas comprará cada una un
producto que tiene cuatro marcas: 1, 2 , 3 , 4 y tres presentaciones: 1 , 2 , 3. Considérese las
siguientes 12 variables aleatorias: Xi,j = Número de clientes que comprarán la marca i y con la
presentación j, para i = 1, 2, 3, 4 y j = 1, 2, 3. Asuma que la compra de cada cliente se produce bajo
condiciones similares y con resultados independientes.
P4
a) Si se consideran las variables X.j = i=1 Xi,j , para j = 1, 2, 3, realice una descripción de la
distribución conjunta de estas 3 variables.
b) El gerente de ventas sostiene que la frecuencia de compras para las presentaciones 1 y 3 son
iguales. Si al tomarse los datos, 20 personas compraron la presentación 1 y 30 la presentación 3 ¿
puede desecharse la afirmación del gerente? Para responder utilice un intervalo apropiado al 95 % de
confianza.
Solución: a) El vector aleatorio (X.1 , X.2 , X.3 ) tiene distribución multinomial de parámetros n = 100,
p.1 , p.2 y p.3 , donde p.j denota a la probabilidad de que una persona compre un producto con la
presentación j.
b) Obtengamos un IC al 95 % para p.1 − p.3 . Como n = 100 es grande, este IC viene dado por:
r r
p̄1 (1 − p̄1 ) + p̄3 (1 − p̄3 ) + 2p̄1 p̄3 p̄1 (1 − p̄1 ) + p̄3 (1 − p̄3 ) + 2p̄1 p̄3
[p̄1 − p̄3 −z0.975 , p̄1 − p̄3 +z0.975 ],
100 100
r r
0.2(0.8) + 0.3(0.7) + 2(0.2)(0.3) 0.2(0.8) + 0.3(0.7) + 2(0.2)(0.3)
= [−0.1 − 1.96 , −0.1 + 1.96 ]
100 100
= [−0.2372, 0.0372]
Como 0 pertenece al intervalo, no es posible descartar la afirmación del gerente al 95 % de confianza.

2
5.5. Contrastes de bondad de ajuste
Sea Y una variable aleatoria con función de distribución FY desconocida y supongamos deseamos
contrastar a nivel α:
H0 : FY = F0 vs H1 : FY 6= F0 , (5.1)
donde F0 es una función de distribución conocida. Para realizar este contraste tomemos una muestra
aleatoria Y1 , Y2 , . . . , Yn de Y y con sus valores observados construyamos la siguiente distribución de
frecuencias con k intervalos1 :
Intervalo Marca de clase Frecuencia observada
ŷi Oi
[a0 , a1 [ ŷ1 O1
[a1 , a2 [ ŷ2 O2
.. .. ..
. . .
[ak−1 , ak ] ŷk Ok
n
donde a0 es el menor valor de los datos observados. En esta distribución cada intervalo tiene un
maximo valor observado−a0
ancho de c = k e ŷi es el punto medio del i-ésimo intervalo.
Si definimos las variables aleatorias Xi = número de elementos de la m.a. de tamaño n de Y que
caen en el i-ésimo intervalo, entonces (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ), donde
pi = P (Y pertenezca al i−ésimo intervalo) = FY (ai ) − FY (ai−1 ).
En consecuencia, podemos transformar nuestro juego de hipótesis (3.1) sobre la distribución de Y

en el siguiente contraste:
H0 : (X1 , X2 , . . . , Xk ) ∼ M ul(n, p01 , . . . , p0k )
vs
H1 : (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , . . . , pk ) con algún pi 6= p0i ,
siendo p0i = F0 (ai ) − F0 (ai−1 ).

Al ser este último un contraste sobre una multinomial, rechazaremos H0 : FY = F0 a nivel α si:
k
X (0i − E 0 )2
RC: U0 = i
> χ21−α (k − 1),
i=1
Ei0
donde Ei0 = np0i es denominada la frecuencia esperada bajo H0 .

Hasta aquı́ hemos supuesto que los p0i = F0 (ai ) − F0 (ai−1 ) pueden obtenerse directamente; sin
embargo, F0 podrı́a depender de parámetros desconocidos. Si precisamos estimar los r parámetros
no conocidos de F0 a fin de especificar completamente F0 , tendremos que apelar al teorema 6 y con
ello decidir rechazar H0 : FY = F0 a nivel α si:
k
X (0i − Ê 0 )2
R.C : V0 = i
> χ21−α (k − r − 1),
i=1 Êi0
1
Puede, si uno no tiene experiencia, determinar k con la llamada fórmula de Sturgles k = 1 + 3.3 × log10 (n). Este
valor se aproxima al entero mayor
126
siendo Êi0 = np̂0i y los p̂0i obtenidos de estimarse r parámetros de F0 por el método de máxima
verosimilitud.
Pk−1
OBSERVACIONES: 1.- Tómese en cuenta que p01 = F0 (a1 ) y p0k = 1 − i=1 p0i , relaciones que
también se cumplen para las probabilidades estimadas.
2.- Estos contrastes pueden sólo realizarse si n es grande y si las frecuencias esperadas son mayores
o iguales a 5. Si esto último no se cumple uno podrı́a juntar dos o más intervalos a fin de satisfacer
tal condición.
3.- El cálculo de las estimaciones por máxima verosimilitud se realiza con las fórmulas de datos
agrupados. Por ejemplo, si F0 es la función de distribución de una v.a. normal con media µ y varianza
n−1 2
σ 2 , se prueba que sus estimadores de máxima verosimilitud son respectivamente Ȳ y n S . Luego,
las estimaciones correspondientes deben calcularse respectivamente con las fórmulas:
k k
1X 1X 2
Ȳ = ŷi Oi y S2 = ŷi Oi − ȳ 2 .
n n
i=1 i=1
Ejemplo 5.10 Un ingeniero de control piensa que la proporción de artı́culos no defectuosos encon-
trados en el muestreo por aceptación de sus lotes tiene una distribución Beta con parámetro β = 1. Si
tomados al azar controles de calidad en 60 de estos lotes se encontraron las siguientes proporciones
de artı́culos no defectuosos:
0.858 0.867 0.812 0.958 0.886 0.861 0.924 0.724 0.928 0.769 0.996 0.599 0.924 0.900 0.964 0.892
0.901 0.521 0.948 0.965 0.903 0.846 0.807 0.985 0.620 0.784 0.950 0.933 0.754 0.566 0.983 0.988
0.839 0.583 0.734 0.879 0.905 0.965 0.835 0.784 0.687 0.870 0.624 0.780 0.869 0.822 0.987 0.856
0.785 0.860 0.924 0.796 0.984 0.862 0.921 0.798 0.872 0.972 0.966 0.958.
¿ Muestran los datos que el ingeniero tiene razón? Use un nivel de significación de α =0.05.
Solución: Estaremos interesados en contrastar a nivel α = 0.05:
H0 : Y ∼ B(α, 1) vs H1 : Y ∼ B(α, 1)
donde Y representa la proporción de artı́culos no defectuosos que se encuentran en un muestreo por

aceptación de sus lotes. Puesto que α es un parámetro desconocido, tendremos que estimarlo por
máxima verosimilitud. Dado que la función de densidad de Y bajo H0 viene dada por:
(
αy α−1 , si 0 ≤ y ≤ 1
fY (y) =
0 , en otro caso.
la función de distribución de Y es


 0
 , si y < 0
F0 (y) = yα , si 0 ≤ y ≤ 1


 1 , si y > 1
y la función de verosimilitud de una m.a. de tamaño n de Y viene dada por:

n
Y
L(α) = αn yiα−1 .
i=1
Pn
Tomando logaritmos K(α) = nLn(α)+(α−1) i=1 Ln(yi ). Derivando e igualando a 0, se comprueba
que el valor que maximiza a K(α) es α∗ = − Pn nLn(yi ) . En tal sentido el estimador de máxima
i=1
n
verosimilitud de α es α̂ = − Pn . Este se evaluará mediante la fórmula de datos agrupados
i=1 Ln(Yi )
α̂ = − Pk n , siendo k el número de intervalos en la distribución de frecuencias. Usaremos
i=1 Ln(ŷi )Oi
k = 1 + 3.3log10 (60) = 6.8679 ≡ 7 intervalos.
Para nuestro contraste necesitamos estimar las frecuencias esperadas y con ello obtener la dis-
tribución de frecuencias de los datos con los k = 7 intervalos. De los datos se observa que el menor
valor es 0.521 y el mayor 0.996. Por tanto, el rango es R = 0.996 − 0.521 =0.475 y cada uno de los
7 intervalos tendrá un ancho de c = R = 0.475 = 0.067857 ≡ 0.068 (aquı́ aproximamos siempre por
k 7
exceso al número de decimales de los datos). Haciendo el conteo respectivo, obtenemos entonces la
siguiente distribución de frecuencias:
Intervalo Marca de clase (ŷi ) Frecuencia observada (Oi ) F̂0 (li+ ) Êi0
[0.521, 0.589] 0.555 3 0.04920 2.9520
]0.589, 0.657] 0.623 3 0.09161 2.5448
]0.657, 0.725] 0.691 2 0.16045 4.1300
]0.725, 0.793] 0.759 7 0.26722 6.4064
]0.793, 0.861] 0.827 11 0.42675 9.5716
]0.861, 0.929] 0.895 18 0.65768 13.8556
]0.929, 0.997] 0.963 16 1 20.5395
donde F̂0 (li+ ) denota a la función de distribución estimada en el extremo derecho de cada intervalo
60 60
con α̂ = − P7 Ln(ŷi )Oi
= 10.5449 =5.6899. Dado que las 3 primeras frecuencias estimadas son
i=1
menores a 5, debemos de juntar estos intervalos. Esto significará formalmente un recálculo de la
estimación de α y por tanto de las frecuencias esperadas; sin embargo, para evitar un desborde de
cálculos optaremos (sólo para efectos del curso) a consignar el mismo α̂ y a sumar directamente las
frecuencias esperadas. Este procedimiento modifica mı́nimamente al estadı́stico de prueba. Optando
por tal alternativa obtendremos entonces la siguiente distribución final de frecuencias:
Intervalo Marca de clase (ŷi ) Frecuencia observada (Oi ) F̂0 (li+ ) Êi0
[0.521, 0.725] 0.623 8 0.16045 9.6269
]0.725, 0.793] 0.759 7 0.26722 6.4064
]0.793, 0.861] 0.827 11 0.42675 9.5716
]0.861, 0.929] 0.895 18 0.65768 13.8556
]0.929, 0.997] 0.963 16 1 20.5395
128
La región crı́tica de nuestro contraste a nivel α =0.05 viene dada por:
5
X (0i − Ê 0 )2
R.C : V0 = i
> χ20.95 (3) = 7.815,
i=1 Êi0
donde en los grados de libertad se ha considerado r = 1 al estar estimándose tan solo un parámetro.
Evaluándose V0 obtenemos V0 = (8−9 .6269)2 + . . . + (16−20.5395)2 = 2.786 y por tanto no se satisface
9.6269 20.5395
la región crı́tica; es decir, se podrı́a decir que el Ingeniero tiene razón. 2
Ejemplo 5.11 Se desea contrastar a nivel α =0.05 la hipótesis de que el número mensual Y de
suicidios en una ciudad es una variable aleatoria con distribución de Poisson, en base a los siguientes
números de suicidios por mes encontrados en un plazo de 5 años.
Número de suicidios Frecuencia observada (número de meses)

0 33
1 17
2 7
3 ó más 3
Solución: Cuando se realiza una prueba de bondad de ajuste sobre una v.a. discreta se trabaja
de manera análoga al caso de una v.a. contı́nua, solo que ahora cada posible valor de la variable
constituye un intervalo por si solo. Veamos:
Para el contraste a nivel α =0.05:
H0 : Y ∼ P(λ) vs H1 : Y ∼ P(λ)
no conocemos λ, por lo que debemos estimarlo a través del método de máxima verosimilitud. Pa-
ra esto, sea Y1 , Y2 , ..., Yn una m.a. de Y y sean y1 , y2 , ..., yn sus valores observados. La función de
P n yi
−λ y −λ yn −nλ
verosimilitud de esta muestra es L(λ) = PY (y1 )....PY (yn ) = e y1λ! 1 ... e ynλ! = e Q
λ i=1
yi ! o me-
Pn Pn
jor K(λ) = Ln(L(λ)) = −nλ + ( i=1 yi )Ln(λ) − i=1 Ln(yi ). Derivando esta última función
P
con respecto a λ e igualando a 0, K 0 (λ) = −n + λ1 ni=1 yi = 0. Como K 00 (λ) < 0, entonces el
estimador de máxima verosimilitud de λ es λ̂ = Ȳ . Este luego de ser estimado con la fórmula
0×33+1×17+2×7+3×3
de datos agrupados nos da λ̂ = 60 = 0.667 y por tanto, las frecuencias espera-
das estimadas de observar (si es que Y fuera Poisson) 0, 1, 2 y 3 o más suicidios por mes son
Ê1 = 60 × 0.513 = 30.78, Ê2 = 60 × 0.342 = 20.52, Ê3 = 60 × 0.114 = 6.84 y Ê4 = 60 × 0.031 =1.86.
Como Ê4 = 1.86 < 5, se deben juntar los dos últimos intervalos. De esta manera obtenemos:
Número de suicidios Oi = Frecuencia observada Êi = Frecuencia esperada

0 33 30.78
1 17 20.52
2 0 más 10 8.7
Se rechazará H0 al nivel dado si:

3
X (Oi − Ê 0 )2
V0 = i
> χ20.95 (1) = 3.84.
i=1 Êi0
Como V0 =0.096, no se rechaza H0 y se puede entonces suponer que el número mensual Y de suicidios
en la ciudad sigue una distribución de Poisson. 2
5.6. Contrastes de Independencia y proporciones

Sean U y V dos v.a’s discretas con rangos RU = {1, 2, . . . , r} y RV = {1, 2, . . . , s}, respectiva-
mente. Estaremos interesados en contrastar a nivel α:
H0 : U y V son independientes vs H1 : U y V no son independientes. (5.2)
Sean pij = P (U = i, V = j), pi. = P (U = i) y p.j = P (V = j). Por la definición de independencia el

contraste (3.2) equivale a contrastar a nivel α:
H0 : pij = pi. p.j , ∀(i, j) vs H1 : ∃(i, j) / pij 6= pi. p.j .
Para realizar el contraste debemos tomar una m.a. conjunta de las variables U y V :
(U1 , V1 ), (U2 , V2 ), . . . , (Un , Vn ) y con ella construir la siguiente tabla de contingencia que nos
revela cuantos elementos en la muestra tienen pares especı́ficos de valores de U y de V :
V
1 2 ... j ... s Total
1 O11 O12 ... O1j ... O1s O1.
2 O21 O22 ... O2j ... O2s O2.
.. .. .. .. .. .. .. ..
. . . . . . . .
U i Oi1 Oi2 ... Oij ... Ois Oi.
.. .. .. .. .. .. .. ..
. . . . . . . .
r Or1 Or2 ... Orj ... Ors Or.
Total O.1 O.2 ... O.j ... O.s n
siendo Oij = frecuencia de elementos de la m.a. que tienen valor de U = i y valor de V = j,
P P
Oi. = sj=1 Oij = frecuencia de elementos de la m.a. que tienen valor de U = i y O.j = ri=1 Oij =
frecuencia de elementos de la m.a. que tienen valor de V = j .
No es difı́cil apreciar que (O11 , O12 , . . . , Ors ) ∼ M ul(n, p11 , p12 , . . . , prs ) y de aquı́ que (3.2)
equivalga a un contraste sobre una multinomial; sin embargo antes de plantearlo y tomar una de-
cisión es necesario primero estimar r − 1 de los parámetros p0i. y s − 1 de los parámetros p0.j . Los
estimadores de máxima verosimilitud de estos vienen dados por:
Oi. O.j
p̂0i. = y p̂0.j = .
n n
130
Ası́, se rechazará H0 : U y V son independientes a nivel α si:

r X
X s 0 )2
(Oij − Êij
R.C : V0 = 0
> χ21−α ((r − 1)(s − 1))
i=1 j=1 Êij
donde
0 Oi. O.j
Êij = np̂0i. p̂0.j =
n
denota a la frecuencia esperada en la celda (i, j) de ser H0 verdadera.
Ejemplo 5.12 Suponga que en el ejemplo 5.7 se obtuvo la siguiente tabla de contingencia:
Presentación
1 2 3 Total
1 5 13 7 25
2 6 15 8 29
Marca 3 4 9 8 21
4 5 13 7 25
Total 20 50 30 100
El gerente de ventas de la tienda sostiene que al abastecerse de cada marca del producto no se necesita
tener en cuenta la presentación. ¿Qué le dicen los datos?. Use un nivel de significación de α =0.05.
Solución: Si definimos las variables aleatorias: U = Marca del producto que compra una persona y
V = Presentación del producto que compra una persona, estaremos interesados en contrastar:
H0 : U y V son independientes vs H1 : U y V no son independientes.

P4 P3 0 )2
(0ij −Êij
Se rechazará H0 si V0 = i=1 j=1 0 > χ20.95 (6) = 12.592. Con el fin de evaluar V0 mostra-
Êij
mos en la tabla de contingencia siguiente tanto a las frecuencias observadas Oij como sus frecuencias
esperadas estimadas Êij (en negrita), las cuales se obtienen multiplicando los totales marginales de
la celda (i, j) y dividiéndolas entre n = 100
Presentación
1 2 3 Total
1 5 5.0 13 12.5 7 7.5 25
2 6 5.8 15 14.5 8 8.7 29
Marca 3 4 4.2 9 10.5 8 6.3 21
4 5 5.0 13 12.5 7 7.5 25
Total 20 50 30 100
Haciendo los cálculos obtenemos V0 = 0.8697 y por tanto se podrı́a decir que el gerente de ventas
está en lo correcto. 2
Dadas s poblaciones independientes, estaremos ahora interesados en determinar si la proporción

poblacional pi de éxito en cada una de estas poblaciones es la misma o si existe al menos una
población en la cual esta proporción difiera. Formalmente, deseamos contrastar a nivel α :
H0 : p1 = p2 = . . . = ps = p vs H1 : ∃i / pi 6= p.
Este contraste podrı́a verse intuitivamente como un caso particular del contraste de independencia
para las variables U y V , que denotan la primera a una condición de éxito o no (presentación de
la caracterı́stica o no) y la otra a la pertenencia a una de las s poblaciones. En tal sentido, se
rechazará H0 a nivel α si
2 X
X s 0 )2
(Oij − Êij
R.C : V0 = 0
> χ21−α (s − 1)
i=1 j=1 Êij
0 = np̂0 p̂0 = Oi. nj

donde como antes Êij i. .j n , denotando nj al tamaño de muestra tomado en la población
j, O1. al número total de éxitos y O2. al número total de fracasos.
5.7. Ejercicios
1.- Supóngase que X tiene una distribución de Poisson con parámetro λ. Para contrastar:
H0 : λ = 0.2 vs H1 : λ > 0.2
se toma una muestra aleatoria de tamaño n de X y se decide rechazar H0 si X̄ > C.

a) Si n = 10 y C =0.3, ¿ cuál es el nivel de significación del contraste ?
b) Si n = 10 y se fija un nivel de significación de α =0.05, ¿ cuál deberı́a ser el valor de C ?
c) Si n = 50 y se fija un nivel de significación de α =0.05, halle (utilizando el teorema del lı́mite
central) el valor de C y determine luego que decisión deberı́a de tomarse si se observa que la media
muestral dió un valor de 0.248.
Nota: Como en una v.a discreta no siempre es posible alcanzar exactamente el nivel de significación,
halle C en b) de modo que α para este C sea el mayor valor que no supere a 0.05. Use el hecho que
la suma de n v.a’s independientes P(λ) es también una v.a. Poisson de parámetro nλ.
2.- En una planta generadora de energı́a eléctrica se especifica que la presión en cierta lı́nea debe
ser en promedio de 100 lbs/pulg 2 durante un periodo de 4 horas. Si la presión media es mayor
que 103 lbs/pulg 2 durante un periodo de 4 horas podrı́an surgir complicaciones de gravedad. Si el
ingeniero a cargo de planta piensa que en este periodo la presión esta superando su valor medio
especificado y él desea detectar que podrı́an darse complicaciones de gravedad con una probabilidad
de 0.99, ¿ cuál serı́a el tamaño de muestra que le sugerirı́a tome el ingeniero para probar su conjetura
a un nivel de significación de α =0.01 ? ¿ Qué valor promedio deberı́a encontrar el ingeniero en la
muestra que ud. propone para mostrar que efectivamente él tenı́a razón ? Use como una estimación
de σ 2 a 25.
132
3.- Las especificaciones de construcción en cierta ciudad requieren que las tuberı́as de desague em-
pleadas en áreas residenciales tengan una resistencia media a la ruptura de más de 2,500 psi. Un
fabricante que desea proveer a la ciudad de tubos para desague ha presentado una licitación junto
con la siguiente información: un contratista independiente seleccionó al azar 7 secciones de los tubos
del fabricante y determinóó su resistencia a la ruptura. Los resultados en psi son los siguientes:
2,610 , 2,750 , 2,420 , 2,510 , 2,540 , 2,490 , 2,680
a) A un nivel de significacióón del 5 %, ¿ existe suficiente evidencia para llegar a la conclusión de

que los tubos del fabricante cumplen con las especificaciones requeridas?
b) Si la verdadera media de resistencia a la ruptura del fabricante fuera de 2,633.87 psi, ¿ qué pro-
babilidad existe de que una muestra cualquiera al azar como la anterior pueda llevar a la conclusión
de que él no cumple con las especificaciones ? Siga asumiendo α = 0.05.
4.- Se ha determinado que el consumo de agua potable en una ciudad es una v.a. con distribución
normal de media desconocida y desviación estándar 500 pies3 . La oficina del sector está revisando
la posibilidad de iniciar una campaña educativa en la ciudad para no hacer uso indiscriminado del
agua. La campaña no será iniciada si el promedio de agua consumida es menor que 2,500 pies3 . Ante
la posibilidad de saber si el promedio es menor que 2,500 se toma una muestra de tamaño n y se
pretende contrastar:
H0 : µ = 2, 500 vs H1 : µ < 2, 500.
¿ Cuál debe ser el tamaño de muestra n y la regla de decisión a tomar si se desea que la probabilidad
de cometer el error tipo I sea de 0.05 y que la probabilidad de cometer el error tipo II sea de 0.01
cuando el verdadero consumo medio es de 2,300 pies3 ?
5.- La presión a la que es sometida una placa debe, como es de esperarse para ser normal, ser inferior
a los 30 psi. Para verificarse si esto se esta cumpliendo se toma una m.a. X1 , X2 , . . . , Xn de la v.a.
X que denota a la presión a la que es sometida la placa. Se asume que esta variable es normal con
media µ y varianza conocida σ 2 = 9. Un ingeniero A decidirá que la presión en la placa es normal si
en la muestra:
1
(X1 + Xn ) ≤ C.
2
Otro ingeniero B decidirá mas bien que la presión en la placa es normal si en la muestra X̄ ≤ K.
a) Halle de fijarse un nivel de significación de α =0.05 las constantes C y K.
b) Si luego de tomarse la muestra se obtuvieron las siguientes presiones (en este orden):
28.50, 29.26, 33.18, 24.00, 26.55, 27.81, 26.05, 22.72, 33.49.
Determine la decisión de cada ingeniero.

c) Halle la función de potencia del contraste de cada ingeniero e indique cuál de estos contrastes es
el más potente a un nivel de significación de α = 0.05.
6.- El tiempo de vida X, en horas, de un cierto tipo de resistencia tiene una distribución exponencial
con esperanza θ; y el fabricante de las resistencias dice que θ = 1,000. Un comprador duda que θ sea
tan grande y planea probar la tesis nula H0 : θ = 1, 000 comprando una resistencia y determinando
su tiempo de vida X1 . Si X1 es pequeño digamos X1 < A él rechazará H0 .
a) Determine A si desea rechazar H0 al nivel de significación α = 0.05.
b) ¿ Con qué probabilidad la prueba detecta una diferencia de 10 unidades sobre la media indicada
por el fabricante ?
7.- Un empresa produce cables de 100 metros de longitud. Se asume que las fallas en sus cables
se producen a través de un proceso de Poisson y según las especificaciones de control estas deben
darse a una tasa de una por cada 20 metros. Cada cable tiene un costo de producción de 80 soles
y se vende en el mercado a 175 soles. La empresa garantiza restituir todo cable que no cumpla las
especificaciones de control (es decir, que tenga mas de 5 fallas) y más aún indenmizar por este motivo
al consumidor con 50 soles. Para verificarse la calidad de un cable se selecciona de él al azar una
sección de 10 metros de longitud y se concluirá que la tasa de ocurrencia de fallas en él es mayor a la
especificada si es que en esta sección se ubican 3 o más fallas. En este caso el cable será reemplazado
por uno nuevo. En caso contrario el cable pasará el control y se venderá en el mercado.
a) Plantee este problema como un contraste de hipótesis definiendo claramente sus hipótesis y obte-
niendo el nivel de significación del contraste.
b) Si un cable con una tasa de ocurrencia de fallas de ω =0.1 por metro es sometido al control,
¿ qué probabilidad existe de que pase el control ?
c) Halle la utilidad esperada que generará un cable producido con una tasa de ocurrencia de falla de
ω = 0.1 por metro.
8.- Se asegura que la distribución de los tiempos que necesitan los operarios de una compañı́a es
normal con media 15 minutos y desviación estándar de 2 minutos. Para detectar, entre otras cosas,
si es que estos tiempos son más variables se realizará un muestreo de los tiempos obtenidos y se
usará el contraste de hipótesis usual para este tipo de problemas. Además, el tamaño de muestra que
se elegirá debe estar entre 20 y 25 operarios y el nivel de significación debe ser de 0.05.
a) Para un tamaño de muestra n = 20, obtenga la probabilidad de detectar un incremento en la
desviación estándar especificada de 1.45 minutos.
b) Determine el menor tamaño de muestra, dentro de las condiciones requeridas, que asegure una
potencia de por lo menos 90 % para detectar un incremento en la desviación estándar especificada
de 1.2 minutos.
9.- En una fábrica donde se producen tuberı́as de desague se piensa que la adición de un nuevo
compuesto en la producción de cada tuberı́a incrementará su nivel medio de resistencia a la ruptura.
Por tal motivo el gerente de la fábrica lo ha contratado a usted para que realice un contraste con-
ducente a ver si es que esto es cierto o no. Se asume que las distribuciones de las resistencias a la
ruptura sin y con la nueva componente son normales e independientes con varianzas iguales a 144 y
134
100 psi, respectivamente. El gerente le dice además que para realizar este contraste usted tiene un
presupuesto de solo 500 soles y que cada ensayo de medición de la resistencia a la ruptura cuesta
sin la adición del compuesto 7 soles y con la adición del compuesto 11 soles. Además el uso de la
máquina que hace las mediciones genera en total un costo de 80 soles.
a) Halle el número ensayos por tipo de tuberı́as para que su contraste tenga potencia máxima.
b) En base a la cantidad de ensayos obtenidos en a), determine la potencia de este contraste si se
desea detectar que el nivel medio de resistencia de las tuberı́as con el nuevo compuesto supera al
actual en 10 psi. Use un nivel de significación de α =0.05.
c) ¿ Cómo cambiarı́a este problema si es que los costos de ensayo con y sin la adición del compuesto
fueran los mismos ?
10.- Un ingeniero tiene que adquirir para la empresa con la cual trabaja un insumo, que se vende
en latas selladas de litro y medio. Este insumo para que tenga mejor calidad deberı́a de tener mayor
contenido de una sustancia X. Actualmente en el mercado se tienen 2 marcas A y B del insumo. Por
tradición, se ha manifestado siempre que el insumo de marca A es de mejor calidad que el insumo
de marca B, pero el ingeniero debe de probar si esto es o no cierto. En base a un estudio previo, se
puede asumir que el contenido en mililitros de la sustancia X en cada lata del insumo A es una v.a.
X ∼ N (µ1 , 400); mientras que el contenido en mililitros de la sustancia X en cada lata del insumo B
es una v.a. Y ∼ N (µ2 , 100). Para realizar el experimento de comparación de los insumos en cuanto
a sus contenidos de la sustancia, el ingeniero tiene un presupuesto suficiente para adquirir como
máximo 72 latas del insumo (todas las latas tienen el mismo costo).
a) Si él prueba 36 latas al azar del insumo A, encontrando una media de 102.85 mililitros y prueba
36 latas al azar del insumo B, encontrando una media de 94.78 mililitros, ¿ está él en capacidad de
afirmar con una probabilidad de equivocarse de 0.05 que lo que se dice por tradición es correcto ?
b) ¿ Cuál es la probabilidad de que el ingeniero pueda detectar en a) que efectivamente el insumo A
tiene 10 mililitros más de la sustancia X que el insumo B ?
c) El gerente de la empresa, al leer el informe del ingeniero, le indica que debió mejor distribuir
la compra de las 72 latas para que este contraste tenga la máxima potencia. Hallar n1 y n2 que
cumplan este requerimiento, siendo n1 el número de latas del insumo A y n2 del insumo B, donde
n1 + n2 = 72. Use α = 0.05.
d) Para α = 0.05, indique de manera explı́cita en cuánto se incrementarı́a la potencia del contraste
de seguir el consejo del gerente en comparación a la potencia que se encontró en la parte b).
11.- Se prueban 2 fórmulas diferentes de un combustible oxigenado para motor en cuanto al octanaje.
La varianza del octanaje para la fórmula 1 es σ12 = 3, mientras que para la fórmula 2 es σ22 = 2.16. Al
fabricante le han entregado un informe en el cual se afirma que la fórmula 2 produce un rendimiento
mayor en carretera que la fórmula 1, sin embargo, él pide al departamento de ingenierı́a que efectúe
una prueba para comprobar si lo que dice el informe es correcto con un riesgo máximo de 0.05 si no
lo es. Por otra parte no desea correr un riesgo mayor de 0.10 al afirmar que el informe no es correcto
si realmente el rendimiento promedio por ambas fórmulas difiere en 2 kms/galón. Si las pruebas con
la fórmula 2 cuestan el doble que con la fórmula 1, ¿ cuáles son los tamaños de muestra y los lı́mites
de aceptación que debe utilizar el departamento a fin de minimizar los costos de la prueba ?
12.- Doce inspectores midieron el diámetro de un cojinete usando dos calibradores diferentes. Los
resultados fueron los siguientes:
Inspector Calibrador 1 Calibrador 2
1 0.265 0.264
2 0.265 0.265
3 0.266 0.264
4 0.267 0.266
5 0.267 0.267
6 0.265 0.268
7 0.267 0.264
8 0.267 0.265
9 0.265 0.265
10 0.268 0.267
11 0.268 0.268
12 0.265 0.269
a) ¿ Hay una diferencia significativa en las medias de las poblaciones representadas por las dos
muestras ? Use α = 0.05.
b) Si en el experimento anterior, hubiese sido de interés detectar una diferencia de mediciones
de aproximadamente 0.002064 unidades, ¿ cuál serı́a la potencia del contraste anterior ? Asuma
normalidad en la distribución de ambas mediciones.
13.- Un fabricante de aspiradoras afirma que la intensidad de ruido promedio es de 75.2 db (decibeles).
Los consumidores sospechan que dicha intensidad es mayor. Para tomar una decisión, se tomó una
m.a de 15 de estas máquinas y se midió en cada una la intensidad de ruido, obteniéndose una media
de x̄ = 80 db. Se asume un nivel de significación de α =0.05 y normalidad en la intensidad de ruido
con una desviación estándar supuesta de 3.6 db. Con base en la información recibida de la muestra, ¿
cuál serı́a la decisión a tomar ? ¿ Serı́a suficiente este tamaño de muestra para detectar una diferencia
de 0.5 db a favor de los consumidores con una probabilidad 0.6 ?
14.- En cierto control de la calidad de la producción, los lotes son de 20 unidades, el plan de muestreo
para cada lote se hace con una muestra de 6 unidades y el nivel de calidad aceptable es 15 .
a) Si el productor desea un riesgo de 0.07 , ¿cuál debe ser la polı́tica para descartar un lote ?
b) Considerando la polı́tica anterior, ¿cuál serı́a el riesgo de los consumidores correspondientes a
1
lotes con una proporción de defectuosos igual a 4 ?
c) Si realmente se tuviera la calidad aceptable, ¿qué porcentaje de defectuosos por lote esperarı́a los
consumidores luego de efectuarse este control ?
136
15.- En un plan de muestreo simple se tienen un tamaño de muestra de n = 10 y un número de

aceptación de c = 1. Este plan está destinado para controlar la calidad de lotes grandes de 100
unidades, donde el productor tiene un AQL de 0.08.
a) Si un consumidor de estos lotes estarı́a dispuesto a tolerar como máximo un 12 % de unidades
defectuosas en sus lotes, ¿ serı́a su riesgo menor que el del productor ?
b) Suponga que el productor gasta 0.5 soles por cada unidad que inspeccione en su plan. Si la
verdadera proporción de unidades defectuosas en uno de sus lotes fuera de 0.1, ¿ cuánto es lo que
este productor esperarı́a gastar por inspeccionar este lote ?
16.- En un plan de muestreo simple con n = 60 para lotes grandes de 250 unidades, se tiene un AQL
de 0.03.
a) Halle el número de aceptación de este plan si se quiere que el productor tenga un riesgo no mayor
a 0.1.
b) Con el valor hallado en a), determine el riesgo del consumidor si es que éste está dispuesto a
tolerar como máximo un 8 % de unidades defectuosas en los lotes que él adquiera.
c) Si inspeccionar cada unidad cuesta 0.25 soles y se va a realizar inspección al 100 % de los lotes
rechazados, ¿ cuánto es lo que esperarı́a gastar por inspección el productor en un lote A que satisface
exactamente su nivel de calidad aceptable ? Siga asumiendo el valor hallado en a).
d) Si para otro lote B, distinto al A de c), la proporción real de defectos difiere en un 2 %, ¿ cómo y
en cuánto se modificarı́a el costo de inspección esperado entre ambos lotes ? Siga asumiendo el valor
hallado en a).
17.- El productor de un bien ha implementado un plan de muestreo simple con n = 15 y c = 2

para controlar la calidad de sus lotes. Sus lotes son pequeños y contienen tan solo 40 unidades.
Cada unidad inspeccionada genera un costo de 2 u.m. y toda unidad que se encuentre defectuosa es
reemplazada por una buena, al margen de que el lote pase el control o se envı́e a revisión total. Si
cada unidad producida tiene un costo de 10 u.m, el AQL del productor es 0.1 y los lotes se venden
en el mercado a 600 u.m.:
a) Determine el riesgo del productor.
b) ¿ Serı́a el riesgo de este productor mayor, de contener sus lotes 10 unidades más ?
c) Si un lote con 5 unidades defectuosas está por pasar el control, ¿ qué probabilidad existe de que
éste salga al mercado con tan solo tres unidades defectuosas ? ¿ Cuál es la proporción esperada de
unidades defectuosas con las que este lote saldrá al mercado ?
d) Determine, en función de la verdadera proporción p de defectos por lote, la utilidad que este
productor esperará obtener por cada lote. Evalúe e interprete su valor si p = 0.2.
18.- Un plan de muestreo doble requiere seleccionar en un lote una m.a. de tamaño n1 . Si la muestra
0
contiene c1 o menos unidades defectuosas, el lote se acepta; si contiene c1 o más unidades defectuosos
0
(c1 > c1 ) el lote se rechaza; en caso contrario una segunda muestra de tamaño n2 se extrae del lote
y el lote es aceptado a menos que el número total de unidades defectuosas en la muestra combinada
de tamaño n1 + n2 exceda a c2 .
Se dispone del siguiente plan de muestro doble (para lotes grandes):
Muestras combinadas
Muestra Tamaño muestral Tamaño Número de aceptación Número de rechazo

0
Primera n1 = 15 15 c1 = 1 c1 = 5
Segunda n2 = 35 50 c2 = 5 6
destinado a contrastar H0 : p = 0.1 vs H1 : p > 0.1, siendo p la proporción de unidades defectuosas

en un lote. Utilizando la aproximación normal (cuando sea válida) halle:
a) El riesgo del productor.
b) Un esbozo de la curva AOQ y el AOQL.
c) Suponga que otro ingeniero propone para simplificar un plan de muestreo simple con un tamaño
de muestra de 50 y un número de aceptación de c = 5. Halle a) y b) para este plan y compárelo con
el de muestreo doble. ¿ Qué aspectos relevantes saca de este estudio comparativo ?
19.- Una empresa recibe lotes de 500 artı́culos de cierto fabricante y utiliza el siguiente plan de
muestreo doble para la inspección de recibo:
i) Se toma una muestra de 15 unidades, si no se encuentra ningún artı́culo defectuos se acepta el

lote, si se encuentran 3 o más artı́culos defectuosos se rechaza el lote, en cualquier otro caso se
toma una segunda muestra de 13 unidades.
ii) Si el número total de unidades defectuosas (en ambas muestras) es mayor a 3 se rechaza el lote.
iii) Finalmente si se rechaza el lote, se inspeccionan el 100 % de sus unidades y el fabricante debe
cambiar las unidades defectuosas por unidades buenas y pagar los costos de inspección.
Si los lotes recibidos tienen un 5 % de unidades defectuosas y el costo de inspección de una unidad
es de un sol, halle:
a) la probabilidad de rechazar el lote.
b) cuánto esperará gastar por inspección la empresa y cuánto el fabricante.
20.- Un distribuidor de leche, desea controlar el contenido de grasas de mantequilla de la leche que
compra para distribución. Investigaciones anteriores indican que en condiciones normales la cantidad
de grasa de mantequilla por cuarto, varı́a de acuerdo con una distribución normal. El promedio
por cuarto de grasa de mantequilla varı́a significativamente, pero la desviación estándar permanece
constante en aproximadamente 0.10 onzas por cuarto. Las latas con menos de 1.00 onza de grasa
de mantequilla por cuarto son consideradas, como situadas abajo del estándar de su negocio (es
decir ”defectuosas”). Para controlar la calidad de sus compras, desea encontrar un procedimiento de
muestreo por variables que haga lo siguiente:
138
Aceptar el 95 % de los lotes que tengan solamente 3 latas de cada 200 por abajo del estándar.
Aceptar el 7 % de los lotes cuando tengan 13 latas de cada 200 por abajo del estándar.
Si los lotes tienen 1,500 latas:

a) Encuentre un proceso de muestreo por variables que cumpla estos criterios.
b) Dibuje la curva OC extendida, es decir la gráfica de L(p) = probabilidad de aceptar un lote; donde
p es la fracción de no conformidad en el lote.
c) Encuentre un plan de muestreo simple (n, c) que cumpla los mismos criterios como su proceso por
variables.
d) Dibuje la curva OC extendida de este último plan.
e) Compare ambos planes, ¿ cuál le parece más recomendable ? Justifique.
f) Se va a emplear un plan de muestreo para aceptación mixto en la inspección de recibo de lotes de
la siguiente forma:
Primero se extrae la muestra por variables del lote. Si cumple con el criterio del inciso a) se
acepta el lote.
De lo contrario se extrae una segunda muestra según el inciso c) y finalmente se decide si se

acepta o se rechaza el lote.
Si llegan lotes con 2.5 % de latas por debajo del estáándar:
f1) ¿ Cuál es la probabilidad de aceptar un lote ?
f2) ¿ Cuál es el número promedio de latas muestreadas ?
f3) Genere mediante simulación las muestras necesarias para aplicar el plan de muestreo mixto a 5
lotes con 2.5 % de latas por debajo del estándar, luego determine cuántos lotes se aceptan y
el número promedio de latas muestreadas.
Nota: Si la caracterı́stica de calidad que se desea medir es una variable que sigue una distribución
normal, se puede aplicar un plan de muestreo para aceptación por variables. Para esta prueba,
cuando se tiene una especificación de tipo mı́nimo L, se toma una muestra de tamaño n, se mide
X̄−L
la caracterı́stica de calidad (X) de cada artı́culo y se halla el promedio muestral (X̄ ). Si σ ≥k
se acepta el lote, de lo contrario se rechaza. En este caso, la probabilidad de aceptación de un lote
√
es P ( X̄−L
σ ≥ k), lo que equivale a P (Z ≥ (k − zp ) n), donde zp es el valor de Z ∼ N (0, 1) tal que
P (Z < −zp ) = p y p = P (X < L) es la fracción de no conformidad en el lote
Si se desea hallar un plan de muestreo por variables que tenga un riesgo del productor igual a α
y un riesgo del consumidor igual a β, se utilizan las siguientes fórmulas:
z α + zβ 2 z 1 zβ + z2 z α
n=( ) y k= ,
z1 − z2 zα + z β
siendo para Z ∼ N (0, 1): z1 tal que P (Z < −z1 ) = AQL, z2 tal que P (Z < −z2 ) = LT P D, zα tal
que P (Z > −zα ) = 1 − α y zβ tal que P (Z > zβ ) = β.
21.- Un empresa, que produce bolsas de frutas secas mixtas, asegura que estas, salvo variaciones
aleatorias, se empacan con un 40 % de unidades conformadas por pasas, un 20 % de unidades
conformadas por pecanas y el resto de unidades conformadas por manı́. Realizada la mezcla, las
bolsas son llenadas con aproximadamente 40 unidades. Suponga que el costo de cada unidad de
pasa, pecana y manı́ es de respectivamente 0.025, 0.5 y 0.01 soles.
a) De ser correctas las especificaciones del productor, determine cuál es el costo que esperará tener
él por cada bolsa de frutas mixtas que saque al mercado.
b) De ser correctas las especificaciones del productor, determine la probabilidad de que en una bolsa
de 40 unidades usted obtenga menos de 3 pecanas y exactamente 12 pasas.
c) Suponga que usted duda de las especificaciones del productor. Para ello adquiere 3 bolsas de frutas
mixtas y encuentra que ellas en total contienen 40 unidades de pasas y 50 de manı́ ¿ Confirman estos
datos sus dudas a un nivel de significación de α =0.05 ?
22.- Un exámen estandarizado de Inglés tiene 4 modalidades A, B, C y D y las personas que lo toman
deben de decidir su preferencia por alguna de estas modalidades.
a) De tener estas modalidades igual preferencia, ¿ qué probabilidad existe de que al examinarse 5
exámenes tomados al azar se encuentre que nunca se elijan las modalidades B y D?
b) Se piensa que las personas que toman el examen, muestran un distinto nivel de preferencia por
las 4 modalidades. Por tal motivo se seleccionó al azar una muestra de 210 exámenes evaluados,
encontrándose que 40, 60, 100 y 10 de estos se dieron respectivamente con las modalidades A, B, C
y D. Muestran estos datos, que a un nivel de significación del 5 %, lo que se pensaba era correcto.
Si esto es ası́, ¿ podrı́a garantizar alguna o algunas modalidades como las más preferidas y alguna o
algunas modalidades como las menos preferidas ?
23.- Un distribuidor de artı́culos deportivos desea comprar grandes lotes de éstos para la venta. En
cada lote pueden venir de clase A, de clase B y de clase C. La clasificación depende del menor número
de defectos que éstos presentan. Ası́, los de la clase A presentan entre 0 y 2 defectos, los de la clase
B, entre 3 y 5 defectos y los de la clase C más de 5 defectos. Cualquiera que sea la composición del
lote, el precio es el mismo por lo que al distribuidor le interesarı́a que:
PA > PB > PC ,
donde PA = Proporción de artı́culos de clase A en el lote, PB = Proporción de artı́culos de clase B

en el lote y PC = Proporción de artı́culos de clase C en el lote. El distribuidor para decidir la compra
toma de un lote una muestra de 185 artı́culos y ahı́ encuentra 68 de clase A, 62 de clase B y 55 de
clase C. Al nivel de confianza del 95 %; ¿ podrı́a decirse que:
PA > PB > PC ?
140
24.- Una financiera asume que los montos de los ahorros de sus clientes tiene una distribución
lognormal de parámetros µ = 8 y σ 2 = 4. Con la finalidad de comprobar la veracidad de la asunción
se toman al azar 140 cuentas. La distribución de éstas fue como sigue:
Intervalo de clase Frecuencia

Menos de 500 20
]500 − 600] 50
]600 − 700] 30
]700 − 800] 25
]800 − 900] 10
Más de 900 5
Usando un nivel de significación de α =0.05 compruebe la asunción.
25.- Un programa de “números aleatorios” generó los siguientes números:
0.57 0.94 0.89 0.08 0.32 0.57

0.30 0.32 0.73 0.16 0.18 0.59
0.71 0.95 0.96 0.60 0.58 0.29
0.74 0.91 0.46 0.88 0.98 0.49
0.48 0.86 0.89 0.36 0.21 0.09
A un nivel de significación de α = 0.05, ¿ podrı́a decirse que realmente los números generados son
aleatorios ? Use 5 intervalos.
26.- En el proceso de llenado de sacos de arroz de 50 kilos se asume, como es usual, que el peso
de un saco que pasa por este proceso, X, tiene una distribución normal con una media de 50 kilos.
Un ingeniero piensa que si bien el peso medio de llenado de un saco es de efectivamente 50 kilos,
la distribución de pesos de los sacos llenados con el proceso tiene un cierto grado de asimetrı́a y
por tanto sospecha que el modelo normal que se ha venido asumiendo no es adecuado para esta
distribución . Para estudiarse el problema, se seleccionaron al azar 70 sacos de arroz llenados bajo
el proceso. Luego del pesaje (en kilos) de estos sacos de arroz, se obtuvo la siguiente distribución de
frecuencias:
Intervalos Frecuencia Observada

[36.946, 41.264] 5
]41.264, 45.582] 15
]45.582, 49.900] 18
]49.900, 54.218] 13
]54.218, 58.536] 9
]58.536, 62.854] 6
]62.854, 67.172] 4
a) Asumiendo que la distribución de pesos de los sacos de arroz llenados con este proceso es la usual,
estime por máxima verosimilitud la desviación estándar de estos pesos.
b) A un nivel de significación de α = 0.05, ¿ proveen estos datos al ingeniero de evidencia empı́rica

suficiente para validar sus sospechas ?
27.- Un fabricante piensa que el tiempo de vida útil de un tipo de circuito tiene una distribución
exponencial. Para comprobarlo él ha seleccionado 45 de estos circuitos y luego de someterlos a uso
continuo en condiciones ambientales controladas ha encontrado los siguientes tiempos de vidas en ho-
ras: 56.964220 16.727451 14.419384 11.693030 11.062747 20.731942 12.039204 249.734139 7.070935
24.330959 122.033890 17.056974 21.796482 16.677012 22.347398 30.389092 40.785651 39.138552
53.541172 63.871099 58.777938 62.624475 61.745463 9.925660 27.187030 11.707706 39.823348
133.639951 61.693134 4.860883 21.926937 33.479360 97.816661 79.735347 24.875191 6.419568
32.638556 13.018685 158.881303 62.466969 7.179301 65.765316 36.691724 21.199193 27.071903. A
un nivel de significación α =0.01, ¿ es válida la conjetura del fabricante ?
28.- En un laboratorio se inspecciona según color una etapa de la producción de un fármaco. Para
evitar errores de observación, se han dispuesto turnos de inspección, donde cada cambio de turno se
realiza inmediatamente después de que un controlador ubique 2 unidades del fármaco con un color
que denote problemas de concentración. El ingeniero a cargo de la producción cree que la aparición
de fármacos defectuosos en el proceso se da a través de un proceso de Poisson y que por tanto el
tiempo de observación de cada turno tiene distribución Gamma de parámetro α = 2 y un cierto
parámetro β. Para analizar esto, el ingeniero ha ordenado registrar los tiempos de observación del
proceso para 48 turnos seleccionados al azar, encontrando en minutos: 228.374, 99.733, 230.503,
214.352, 350.384, 88.892, 445.805, 68.282 , 145.961, 370.382, 68.428, 79.606, 308.906, 46.467,
293.379, 129.357, 410.636, 321.654, 453.652, 245.655, 273.724, 127.523 , 330.817, 28.072,
129.220, 120.474, 74.527, 348.326, 172.764, 153.049 , 205.517, 64.548, 100.410, 202.744,
469.416, 207.480, 249.156, 112.023, 287.380, 34.858, 111.865, 34.381, 78.239, 130.892, 302.128,
51.523, 92.375, 136.403. A un nivel de significación de α =0.05, ¿ tiene razón el ingeniero ?
29.- Al usar varias leyes de falla se ha encontrado que la distribución exponencial desempeña un papel
muy importante y que, por tanto, interesa poder decidir si una muestra particular de tiempos para
que se presente la falla proviene de una distribución exponencial. Supóngase que un ingeniero piensa
que la duración de una marca particular de bombillas (en horas) tiene una distribución exponencial
con una media de 124 horas y para ello él ha seleccionado al azar 327 bombillas de esta marca
encontrándose la siguiente distribución de frecuencias de sus duraciones en horas:
142
Intervalo Frecuencia observada

[4, 100] 82
]100, 196] 70
]196, 292] 67
]292, 388] 60
]388, 484] 48
¿ Muestran estos datos, a un nivel de significación de α =0.05, que la hipótesis del ingeniero es
correcta ?
30.- Un algoritmo de búsqueda de archivos logra localizar el archivo buscado en un tiempo menor al
requerido en el 100 p % de las veces. El algoritmo será puesto a prueba en 5 oportunidades, en cada
una se efectuará la búsqueda de un archivo, y se desea averiguar cuántos se localizarán dentro del
tiempo requerido. Suponga condiciones similares en cada busqueda y también independencia.
a) ¿Qué modelo probabilı́stico serı́a el más adecuado para describir la variable de interés ?
b) Halle el estimador de máxima verosimilitud de p.
c) A partir de una muestra aleatoria de 100 oportunidades, en las que el algoritmo realizó cinco
búsquedas, se obtuvieron los siguientes resultados:
Número de achivos localizados antes de lo requerido 0 1 2 3 4 5

Frecuencia registrada 1 7 19 28 33 12
A un nivel de significación de α =0.05, ¿ descartan estos datos al modelo propuesto por usted ?
31.- Una encuestadora, a pedido del canal de televisión A, ha realizado un estudio de medición de
la teleaudiencia en el horario de las 8 pm. En este estudio se seleccionaron al azar 225 personas de
ambos sexos, a quienes se les pregunto por el canal que más frecuentemente sintonizaban de Lunes a
Viernes en el horario de las 8 pm. Los resultados de este estudio se muestran en el siguiente gráfico
de barras componentes:
a) ¿ Podrı́a afirmarse a un nivel de significación de α =0.05, que existen diferencias significativas en

las proporciones de personas que sintonizan cada uno de estos canales de TV a las 8 pm. ?
b) ¿ Podrı́a afirmarse a un nivel de significación de α =0.05, que la preferencia por un canal en el
horario de las 8 pm, es independiente del sexo de la teleaudiencia ?
c) Antes del estudio, los directivos del canal A pensaban que ellos junto con su principal competencia,
el canal C, cubrı́an en el horario de las 8pm. más del 50 % de toda la teleaudiencia. Utilice un intervalo
de confianza al 95 % para afirmar o refutar la conjetura de estos directivos.
32.- En un proceso de producción se fabrica cierto artı́culo de veinte en veinte unidades. La ca-
lidad resultante asume uno de tres valores aleatorios (1, 2 y 3 con probabilidades p.1 , p.2 y p.3 ,
respectivamente) y en el proceso se suele necesitar uno de cuatro tipos de ajuste también aleatorios
(1, 2, 3 y 4 con probabilidades p1. , p2. , p3. y p4. respectivamente). Suponga que se escogerán al azar
cien producciones y se registrará el tipo de calidad que resulte, ası́ como el tipo de ajuste que sea
necesario en cada producción de veinte unidades. Se asume condiciones similares e independencia
entre los resultados de las producciones.
Los resultados obtenidos se muestran en la siguiente tabla:
Calidad
Ajuste 1 2 3 T otal
1 13 5 7 25
2 15 6 8 29
3 9 4 8 21
4 13 5 7 25
T otal 50 20 30 100
a) ¿Los tipos de calidad resultantes se dan con igual frecuencia? Use un nivel de significación de α =
0.05.
b) ¿Puede afirmarse que el tipo de calidad y ajuste son independientes? Use un nivel de significación
de α = 0.05.
c) Determine, usando un intervalo de confianza del 95 %, si se puede descartar que la frecuencia con
la cual se produce el tipo de calidad 1 y se necesita realizar un ajuste del tipo 3, es la misma que la
correspondiente al tipo de calidad 2 y ajuste del tipo 1.
33.- Un operador manifiesta con una probabilidad de equivocarse de 0.05 que la proporción de defectos
de las 3 lı́neas de producción de la planta difieren entre si. Ud. ha tomado en un dia una muestra de
50, 35 y 40 productos de cada lı́nea y encontrado 4, 10 y 5 productos defectuosos, respectivamente.
a) ¿ Estará en lo correcto el operador ?
b) En caso de encontrar diferencias significativas, utilice la desigualdad de Bonferroni con el fin de
jerarquizar las proporciones de defectos en las tres lı́neas de producción. Utilice un nivel de confianza
global de al menos 95 %.
144
Capı́tulo 6
DISEÑOS EXPERIMENTALES
6.1. Análisis de varianza a una via

Supongamos que a una variable aleatoria Y se la desea comparar bajo a tratamientos de un factor
A y que con este fin recolectamos las siguientes n observaciones de Y bajo cada tratamiento:
Totales Medias
1 Y11 Y12 ... Y1j ... Y1n Y1. Ȳ1.
2 Y21 Y22 ... Y2j ... Y2n Y2. Ȳ2.
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
Tratamientos i Yi1 Yi2 ... Yij ... Yin Yi. Ȳi.
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
a Ya1 Ya2 ... Yaj ... Yan Ya. Ȳa.
Y.. Ȳ..
donde Yij = j-ésimo elemento de la m.a. de Y bajo el i-ésimo tratamiento,
Pn Yi. Pa Y..
Yi. = j=1 Yij , Ȳi. = n , Y.. = i=1 Yi. e Ȳ.. = N .
Cada elemento de la m.a de Y puede modelarse linealmente como:
Yij = µ + τi + ij , ∀i = 1, 2, ..., a ; j = 1, 2, ..., n , (6.1)
siendo µ la llamada media total, el cual es un parámetro común a todos los tratamientos, τi el efecto
del i-ésimo tratamiento del factor A sobre Y y ij un término de error aleatorio con distribución
normal de media 0 y varianza σ 2 . Estos últimos errores se asumen independientes entre si.
Uno de los objetivos centrales en el análisis de varianza a una via consiste en determinar si es
que existen o no diferencias significativas en el valor medio de la variable dependiente Y , bajo los a
tratamientos del factor A.
Una cuestión clave para distinguir la naturaleza del modelo radica en determinar el significado
de los efectos de los tratamientos. Estos pueden ser
145
146
(i) Parámetros fijos definidos como desviaciones de la media total ó
(ii) Elementos de una m.a. de una v.a. τ ∼ N (0, στ2 ).
En (i) al modelo se le conoce como de efectos fijos y si µi denota el valor medio de Y bajo el i-ésimo
tratamiento, entonces los efectos de los tratamientos son definidos como desviaciones de la media
total: τi = µi − µ, ∀i. Luego, se cumple que
a
X
τi = 0.
i=1
. Este modelo es aplicable cuando uno solo desea comparar Y bajo a tratamientos prefijados de
interés. Obviamente las conclusiones serán válidas solo para los tratamientos comparados.
En (ii) al modelo se le conoce como de efectos aleatorios. Este modelo se emplea cuando uno
tiene una gran población de tratamientos y por tanto resulta poco práctico el compararlos todos. En
este caso se elijen al azar solo a tratamientos de los muchos existentes y luego de comparar Y bajo
tales, uno tiene la posibilidad de extender sus conclusiones a toda la población de tratamientos.
Antes de entrar a mayores detalles, vale indicar que el desarrollo que presentaremos se basará pre-
ferentemente en un contexto experimental; es decir, en un contexto donde existe un factor con a
tratamientos cuyos efectos en la variable respuesta Y deseamos investigar, pues pensamos que estos
tratamientos afectan solo la posición o tendencia central de las a poblaciones de Y asociadas. Existe,
por otro lado, otro contexto muy común en investigación, llamado contexto cuasi-experimental o de
encuesta. En él las poblaciones de Y son naturales (existen antes de tomarse las muestras) y lo que
se desea es ver si es que estas poblaciones son o no en cierta sentido equivalentes. En este caso, se
procede a una adaptación del presente análisis y a una más cuidadosa revisión de los supuestos del
modelo, en particular el concerniente a la homocedasticidad o igualdad de varianzas.
Otra diferencia de fondo en los contextos descritos es que las conclusiones de un estudio cuasi-
experimental son sólo de carácter tentativo ya que no es posible asegurar una relación causa-efecto
entre la caracterı́stica que define a las a poblaciones y la variable dependiente Y . Esta relación podrı́a
ser, por ejemplo, originada por otras variables no consideradas ni controladas en la comparación. Solo
las investigaciones experimentales pueden establecer verdaderas relaciones de causa-efecto.
Sea el contexto experimental o cuasi-experimental, los diseños que desarrollaremos serán comple-
tamente aleatorios. En un contexto cuasi-experimental, esto se logra al tomárse muestras aleatorias
de Y bajo cada tratamiento. En un contexto experimental, tal metodologı́a carece de sentido pues
las poblaciones como tales no existen y en cierta manera son definidas por los tratamientos. En este
caso uno selecciona al azar a las unidades experimentales en un número igual al total de réplicas de
Y para todos los tratamientos y asigna estas unidades a los a tratamientos, aleatorizando el orden
de ejecución del experimento. En pocas palabras esto significa que los tratamientos deben de ser
asignados de manera completamente aleatoria a las unidades experimentales.
6.1.1. El modelo de efectos fijos
Estaremos interesados en contrastar a nivel α:
H0 : τ1 = τ2 = ... = τa = 0 vs H1 : ∃i / τi 6= 0
o equivalentemente,
H0 : µ1 = µ2 = ... = µa = µ vs H1 : ∃i / µi 6= µ.
Esta contraste se basa en la descomposición de la variabilidad total de Y , SCT = (N − 1)SY2 , donde
N = an, mediante el siguiente artificio:
a X
X n a X
X n
SCT = (Yij − Ȳ.. )2 = (Yij − Ȳi. + Ȳi. − Ȳ.. )2 .
i=1 j=1 i=1 j=1
Se demuestra que al desarrollarse los cuadrados y operarse los productos cruzados, estos últimos se
cancelan quedándonos la siguiente descomposición fundamental de análisis de varianza:
a X
X n a
X a X
X n
2 2
(Yij − Ȳ.. ) = n (Ȳi. − Ȳ.. ) + (Yij − Ȳi. )2
i=1 j=1 i=1 i=1 j=1
o respectivamente,
SCT = SCT r + SCE (6.2)
Suma de cuadrados totales = Suma de cuadrados de los trataminentos (entre tratamientos)

+ Suma de cuadrados del error (dentro de los tratamientos).
Por las asunciones de normalidad en el modelo, se cumplen que

a
X (n − 1)SY2
SCT (N − 1)SY2 SCE
= ∼ χ2 (N − 1) y = i.
∼ χ2 (N − a).
σ2 σ2 σ2 σ2
i=1
SCT r
Más aún, se prueba que si H0 es verdadera entonces σ2
∼ χ2 (a − 1) es una v.a. independiente de
SCE
σ2
y por tanto:
SCT r SCT r
σ2
/(a − 1) a−1 M CT r
F0 = SCE
= SCE
= ∼ F (a − 1, N − a).
σ2
/(N − a) N −a
M CE
Observando atentamente (4.2) y la definición de F0 vemos claramente que existe mayor evidencia de
que H0 sea falsa, mientras F0 sea mayor. En efecto, se puede concluir que a un nivel de significación
α la región crı́tica o de rechazo de H0 estará determinada por:
RC : F0 > F1−α (a − 1, N − a).
OBSERVACIONES: 1.- Para efectos de cálculo pueden utilizarse las siguientes fórmulas simplificadas
de las sumas de cuadrados:
Xa X
n a
2 2 Y..2 1 X 2 Y..2
SCT = (N − 1)SY = Yij − , SCT r = Yi. − y SCE = SCT − SCT r.
N n N
i=1 j=1 i=1
2.- A modo de resumen, es recomendable utilizar la siguiente tabla de análisis de varianza a una via
(tabla ANOVA):
148
Fuente de variabilidad Sumas de cuadrado Grados de libertad Medias cuadráticas F0

SCT r M CT r
Tratamientos SCTr a−1 M CT r = a−1 F0 = M CE
SCE
Error SCE N −a M CE = N −a
Total SCT N −1
3.- Si bien los tamaños de muestra por tratamiento pueden diferir (diseño no balanceado), debe de
considerarse que por la asunción de homocedasticidad en el modelo (varianza común σ 2 de Y bajo
cualquier tratamiento) uno puede garantizar un contraste de máxima potencia sólo si los tamaños
de muestra por tratamiento son iguales (diseño balanceado). En un diseño no balanceado, el análisis
previo es, por fortuna, el mismo con la excepción de que las sumas de cuadrados se evaluan ahora
por:
X ni
a X a
XY2 Y2
Y2
SCT = (N − 1)SY2 = Yij2 − .. , SCT r = i.
− .. y SCE = SCT − SCT r,
N ni N
i=1 j=1 i=1
Pa
siendo ni el tamaño de muestra de Y bajo el i-ésimo tratamiento y N = i=1 ni .
Ejemplo 6.1 En un experimento se quiere ver como influye en la resistencia a la tensión de un

tejido de fibra sintética, el agregar distintos porcentajes de un tipo de fibra de algodón. Se fijaron 5
porcentajes y se midió la resistencia a la tracción (en unidades psi) en muestras de n = 5 unidades
de tejido, obteniéndose:
Totales Medias
15 % 7 7 15 11 9 49 9.8
20 % 12 17 12 18 18 77 15.4
Porcentajes 25 % 14 18 18 19 19 88 17.6
30 % 19 25 22 19 23 108 21.6
35 % 7 10 11 15 11 54 10.8
¿ Existen diferencias significativas en la resistencia media a la tensión debido a los porcentajes de

algodón utilizados en la fibra ? Use α = 0.05.
Solución: Se desea contrastar a nivel α = 0.05:
H0 : µ1 = µ2 = µ3 = µ4 = µ5 = µ vs H1 : ∃i / µi 6= µ.
donde µi = media de la resistencia a la tensión al utilizarse un 10 + 5i % de algodón en la fibra.

Se rechazará H0 si:
R.C : F0 > F0.95 (4, 20) = 2.87.
Evaluemos F0 : De los datos obtenemos que: Y.. = 376 , Ȳ.. = 15.05,
3762
SCT = (72 + ... + 112 ) − = 636.96,
25
492 + ... + 542 3762

SCT r = − = 475.76,
5 25
y una tabla ANOVA:
Fuente de variabilidad Sumas de cuadrados Grados de libertad Medias cuadráticas F0

Tratamientos 475.67 4 118.94 F0 = 14.76
Error 161.2 20 8.06
Total 636.96 24
Como se aprecia F0 > 2.87 y por tanto sı́ existen diferencias significativas en la resistencia media a
la tracción según el porcentaje de algodón utilizado en la fibra. Nótese que esta conclusión resulta de
alguna manera exigua, pues no se nos dice donde es que se ubican las diferencias. De esto trataremos
en una próxima sección. 2
6.1.2. Estimación de los parámetros del modelo
Los estimadores puntuales (de mı́nimos cuadrados) de los parámetros en el modelo (4.1) se pueden
probar que vienen dados por:
µ̂ = Ȳ.. , τ̂i = Ȳi. − Ȳ.. , y µ̂i = Ȳi. , ∀i = 1, 2, ..., a.
Es factible también obtener intervalos de confianza al 100(1 − α) % para los parámetros del
modelo. Para ello uno solo tiene que encontrar una variable pivote adecuada para la construcción del
intervalo. Por ejemplo, supongamos que deseamos obtener un intervalo de confianza al 100(1 − α) %
para la diferencia de medias de Y bajo dos tratamientos distintos i y j: µi − µj . Dadas las asunciones
de normalidad, no resulta difı́cil deducir que
Ȳi. − Ȳj. − (µi − µj )

T = √ q ∼ t(N − a).
M CE n1i + n1j
Como T posee una distribución conocida (en tablas) que solo depende como parámetro desconocido
de µi − µj , esta constituye nuestra variable pivote. Determinada la variable pivote lo que sigue es
rutinario. Por la simetrı́a en la distribución t, uno debe elegir en la tabla t el valor t1− α2 (N-a) de tal
manera que el área bajo la curva t entre −t1− α2 (N-a) y t1− α2 (N-a) sea de 1 − α. Formalmente,
P [−t1− α2 (N-a) ≤ T ≤ t1− α2 (N-a)] = 1 − α.
Reemplazando T y ordenando de tal manera que nuestro parámetro quede en la posición central,
resulta que:
s s
√ 1 1 √ 1 1
P [Ȳi. − Ȳj. −t1− α2 (N-a) M CE + ≤ µi −µj ≤ Ȳi. − Ȳj. +t1− α2 (N-a) M CE + ] = 1−α.
ni nj ni nj
150
Esto quiere decir que un intervalo de confianza al 100(1 − α) % para µi − µj es:

s s
√ 1 1 √ 1 1
[Ȳi. − Ȳj. − t1− α2 (N-a) M CE + , Ȳi. − Ȳj. + t1− α2 (N-a) M CE + ].
ni nj ni nj
Como ejercicio utilice las variables pivotes
Ȳi. − µi SCE
T =q ∼ t(N − a) y W = ∼ χ2 (N − a)
M CE σ2
ni
y obtenga para los µi y σ 2 los intervalos de confianza al 100(1 − α) %:

r r
M CE M CE
[Ȳi. − t1− 2 (N-a)
α , Ȳi. + t1− 2 (N-a)
α ].
ni ni
y
SCE SCE
[ , ],
χ21− α (N-a) χ2α (N-a)
2 2
respectivamente.
6.1.3. El modelo de efectos aleatorios
Como se precisó, en este modelo los efectos de los tratamientos τ1 , τ2 , ..., τa constituyen una m.a.
de tamaño a de la v.a. τ ∼ N (0, στ2 ). Aquı́ se desea contrastar a nivel α:
H0 : στ2 = 0 vs H1 : στ2 > 0.
Los cálculos en este modelo y la región crı́tica del contraste son por fortuna los mismos que en el
modelo de efectos fijos; aunque tengase en cuenta que si uno rechaza H0 no solo esta probando que
algunos de los efectos de los a tratamientos sobre la v.a. dependiente Y es no nulo sino, y eso es lo
trascendental, que algunos de los efectos de todos los tratamientos de la población de tratamientos
es no nulo.
6.1.4. Comparaciones múltiples
Comparaciones planeadas
Estas comparaciones se realizan cuando, antes de la toma de datos, existı́a la intención de com-
parar algunos pares especı́ficos. Estas comparaciones pueden hacerse con una prueba t de Student
modificada, a la cual se denomina LSD (de Least Significance Difference). Se presentan los siguientes
casos:
(A) Para someter a prueba H0 : µi = µj :

Se utiliza básicamente una prueba t de Student para dos muestras independientes, en donde Sp2
es reeemplazada por M CE. Esto es, se forma el estadı́stico:
Ȳi. − Ȳj.
T0 = q
M CE M CE
ni + nj
y se consideran las siguientes regiones crı́ticas:
Hipótesis alternativa Región crı́tica

H1 : µi 6= µj |T0 | > t1− α2 (N-a)
H1 : µi > µj T0 > t1−α (N-a)
H1 : µi < µj T0 < −t1−α (N-a).
OBSERVACIONES: 1.- Notese de que la región crı́tica de la prueba anterior a dos colas no es sino
el complemento del intervalo de confianza al 100(1 − α) % para µi − µj .
2.- Si se desean comparar muchos pares de medias a la vez, aparece de inmediato el problema
del incremento en el nivel de significación α. Este problema lo analizaremos cuando veamos las
comparaciones no planeadas.
(B) Contrastes
Un contraste poblacional es por definición cualquier combinación lineal de medias poblacionales:
P P
CP = ci µi que satisface la condición ni ci = 0. Este parámetro poblacional CP se estima
ˆ = P ˆ un estimador que posee, bajo los supuestos en (4.1), las
puntualmente por CP ci Ȳi. , siendo CP
propiedades siguientes:
ˆ ∼ N (CP, σ 2 P ci ).
2
CP ni
ˆ −P ci µi
CP
T = r ∼ t(N − a).
P c2i
M CE n
i
El interés aquı́ radica en someter a prueba H0 : CP = 0. Esto se hace utilizando el estadı́stico:
ˆ
CP
T0 = q P c2i
M CE ni
y considerando las siguientes regiones crı́ticas:
Hipótesis alternativa Región crı́tica

H1 : CP 6= 0 |T0 | > t1− α2 (N-a)
H1 : CP > 0 T0 > t1−α (N-a)
H1 : CP < 0 T0 < −t1−α (N-a)
Ejemplo 6.2 Supongamos que en el ejemplo de la resistencia a la tensión se tenı́a el interés adicional
de saber (antes de tomarse los datos) si a un nivel de significación de α = 0.05 existı́an o no
diferencias significativas en la resistencia media a la tensión de la fibra bajo un 35 % de algodón y
bajo un promedio de los dos primeros tratamientos( con 15 y 20 % de algodón).
Formalmente, si CP = 21 µ1 + 21 µ2 − µ5 , se tenı́a interés en contrastar:
H0 : CP = 0 vs H1 : CP 6= 0.
152
Nuestra regla de decisión indica que se rechazará H0 si |T0 | > t0.975 (20) = 2.086. Una directa
evaluación nos da
X c2
ˆ = 9.8 + 15.4 − 10.8 = 1.8
CP y M CE i
= 2.58.
2 2 5
Luego, T0 = 1.121 y consecuentemente no existe evidencia empı́rica suficiente que nos lleve al rechazo
de H0 .
(C) Contrastes ortogonales.

P P
Dos contrastes poblacionales CP1 = ci µi ó {ci } y CP2 = di µi ó {di } se denominan orto-
P
gonales si ni ci di = 0. Con a tratamientos un conjunto de a − 1 contrastes ortogonales estimados
particiona la suma de cuadrados debido a los tratamientos en a − 1 componentes independientes
de un grado de libertad, implicando que los a − 1 contrastes sean independientes. Las sumas de
cuadrados de estos contrastes vienen dados por:
Pa
( ci Yi. )2
SCC = Pi=1
a 2
i=1 ni ci
y tienen un sólo grado de libertad. Estas sumas de cuadrados divididas entre la media cuadratica del
error nos proporcionan los F de contrastes que se van a comparar con el valor de tabla F1−α (1, N-a).
Los contrastes cuyos F superen el valor de tabla serán entonces significativos. Es interesante apreciar
que si el diseño es balanceado, entonces estos estadı́stico F coinciden con los cuadrados de los
estadı́sticos respectivos del contraste; vale decir, con T02 .
Existen muchas maneras de elegir los coeficientes de los contrastes ortogonales para un conjunto
dado de tratamientos. Usualmente, algo de la naturaleza del experimento debe sugerir las compara-
ciones que resultan de interés. Por ejemplo, si se desean comparar los efectos de a = 3 tratamientos
en la reducción de la presión arterial, siendo control el tratamiento 1 (un placebo por ejemplo), y
los tratamientos 2 y 3 los fármacos de interés, los contrastes ortogonales apropiados (para un diseño
balanceado) podrı́an ser los siguientes:
Coeficientes
Contraste 1 Contraste 2
1 (placebo) -1 0
1
Tratamiento 2 (fármaco 1) 2 − 12
1 1
3 (fármaco 2) 2 2
Debe observarse que el contraste {c1 , c2 , c3 } = {−1, 21 , 12 } compara el efecto promedio de los dos
fármacos con el efecto del placebo en cuanto a reducir la presión arterial, mientras que el contraste
{d1 , d2 , d3 } = {0, − 12 , 12 } compara los efectos de los dos fármacos de interés en la reducción de la
presión arterial.
Ejemplo 6.3 Suponga que antes de realizarse el experimento del efecto de los cinco porcentajes de
algodón sobre la resistencia a la tracción de la fibra, el investigador hubiese estado interesado en
realizar los siguientes 4 contrastes (ortogonales) poblacionales a un nivel de significación de α =
0.05:
H0 : µ4 = µ5
µ1 +µ3 µ4 +µ5
H0 : 2 = 2
H0 : µ1 = µ3
µ1 +µ3 +µ4 +µ5
H0 : µ2 = 4
µ1 µ3 µ4 µ5
Las sumas de cuadrados de los cuatro contrastes (CP1 = µ4 − µ5 , CP2 = 2 + 2 − 2 − 2 ,
µ1 µ3 µ4 µ5
CP3 = µ1 − µ3 y CP4 = 4 − µ2 + 4 + 4 + 4 ) pueden resumirse en la siguiente tabla ANOVA:
Fuente de variabilidad Sumas de cuadrados Grados de libertad Medias cuadráticas F

CP1 291.6 1 291.6 36.18
CP2 31.25 1 31.25 3.88
CP3 152.1 1 152.1 18.87
CP4 0.81 1 0.81 0.1
Tratamientos 475.67 4 118.94 F0 = 14.76
Error 161.2 20 8.06
Total 636.96 24
Comparando F con F0.95 (1, 20) = 4.35, vemos que CP1 y CP3 son significativos; es decir, con un
error de equivocarnos del 5 %, si podemos afimar que existen diferencias en la resistencia media a la
tensión entre fibras con un 30 % y 35 % de algodón y entre fibras con un 15 % y 25 % de algodón. 2
Comparaciones no planeadas o a posteriori
Después de detectar que en un análisis de varianza de efectos fijos no todas las medias son iguales,
podrı́amos estar interesados en detectar cuáles son diferentes. Uno de los muchos procedimientos para
realizar esta tarea, manteniendo bajo control un mismo nivel de significación α, consiste en utilizar
la desigualdad de Bonferroni que expusimos en la sección 3.4. Bajo este procedimiento podrı́amos

construir, como en 4.1.2, IC’s al 100(1 − α0 ) % para todas las a2 de diferencias de medias de Y
bajo pares de tratamientos. Dado que estos IC’s son equivalentes a las regiones de aceptación de la
hipótesis de igualdad de medias de Y bajo los tratamientos comparados, uno podrá garantizar un
nivel de significación global de α o menos en todas las comparaciones, si es que toma para cada IC
α 2α
un valor de α0 = = a(a−1) .
(a2)
Otro método muy popular y de buenos resultados, lo constituye el método de rangos de Duncan.

Este método consiste en comparar todas las a2 diferencias de medias muestrales con un conjunto
de rangos que se encuentran tabulados en una tabla especial (ver apéndice E). Dado que los detalles
154
de un tratamiento formal resultan engorrosos, optaremos por ilustrar el método con los datos del
ejemplo de la subsección 4.1.1. Usaremos un nivel de significación de α = 0.05
Los pasos a seguir se detallan a continuación:
Paso 1. Se ordenan las medias muestrales de menor a mayor . Ası́, en nuestro ejemplo:
Ȳ1. < Ȳ5. < Ȳ2. < Ȳ3. ≤ Ȳ4.

9.8 < 10.8 < 15.4 < 17.6 < 21.6.
q
M CE
Paso 2. Se calcula el error estándar de estimación de las medias muestrales, SȲi. = n , donde
si el diseño es no balanceado n se calcula como la media armónica de losqtamaños de muestra bajo
cada tratamiento; es decir por: n = Pa a 1 . En nuestro ejemplo, SȲi. = 8.506 = 1.27.
i=1 ni
Paso 3. Se obtienen en la tabla de Duncan (véase el apéndice E) los valores rα (p; f ), para p = 2, ..., a,
donde α es el nivel de significación fijado previamente y f son los grados de libertad del error (en el
análisis a una via f = N − a). Para nuestro ejemplo, α = 0.05 , f = 20 y de tabla obtenemos:
r0,05 (2; 20) = 2.95

r0,05 (3; 20) = 3.10
r0,05 (4; 20) = 3.18
r0,05 (5; 20) = 3.25.
Paso 4. Se calculan los rangos de ”mı́nima significancia”: Rp = SȲi. × rα (p; f ), para p = 2, ..., a. En
nuestro ejemplo:
R2 = 1.27 × 2.95 = 3.75

R3 = 1.27 × 3.10 = 3.94
R4 = 1.27 × 3.18 = 4.04
R5 = 1.27 × 3.25 = 4.13.
Paso 5. Se evaluan las diferencias observadas entre las medias, comenzando por el valor más alto
contra el más pequeño y comparándola con el rango de mı́nima significancia Ra . Después se calcula
la diferencia entre el valor más alto y el segundo más pequeño, y se compara con el rango de mı́nima
significancia Ra−1 . Este procedimiento continúa hasta que todas las medias hayan sido comparadas
con la más grande. A continuación, la diferencia entre la segunda media más grande y la más pequeña
es calculada y comparada con el rango de mı́nima significancia Ra−1 . Este procedimiento continúa

hasta que hayan sido consideradas las diferencias entre todos los a2 = a(a−1)
2 posibles pares. Si una
diferencia observada es mayor que la del rango de mı́nima significancia correspondiente, se concluye
que la pareja de medias en cuestión es significativamente diferente. Para evitar contradicciones,
ninguna diferencia entre una pareja de medias se considera significativa si las dos medias se encuentran
entre dos que no difieren. Finalmente una vez ubicadas las diferencias estaremos en capacidad de
jerarquizar la medias poblacionales de Y bajo todos los tratamientos. En nuestro ejemplo:
Diferencias de medias muestrales Rangos de mı́nima significancia

Ȳ4. − Ȳ1. = 21.6 - 9.8 = 11.8 > 4.13 (= R5 ) : significativa
Ȳ3. − Ȳ2. = 17.6 - 15.4 = 2.2 < 3.75 (= R2 ) : no significativa
Ȳ5. − Ȳ1. = 10.8 - 9.8 = 1.0 < 3.75 (= R2 ) : no significativa
A partir de este análisis se observa que existen diferencias significativas entre todas los pares de
medias a excepción de las del tercer tratamiento y del segundo, y las del quinto tratamiento y el
primero. La conclusión final serı́a que, a un nivel de significación del 5 %, podemos afirmar que:
µ1 = µ5 < µ2 = µ3 < µ4 .
Esto es de vital importancia en la toma de decisiones. Imagı́nese, por ejemplo, que el manufacturero
debe decidir que % de algodón utilizar para obtener fibras de buena calidad (alta resistencia) y
bajos costos de producción (reflejados en un menor uso de algodón por ser una fibra cara). Bajo
estas premisas una buena sugerencia podrı́a ser el recomendarle fibras con un 20 % de algodón.
6.2. Diseños de bloques completamente aleatorizados
Cuando existe una fuente no evitable de variabilidad extraña sobre una variable de estudio Y
(aparte del de la variabilidad debido a los tratamientos de un factor A), es posible aún utilizar un
diseño experimental llamado de bloques a fin de reunir información válida para la comparación de
los efectos de los tratamientos del factor A sobre la v.a. dependiente Y . Formalmente, un diseño de
bloques aleatorios consiste en un plan para reunir datos en el que cada uno de los a tratamientos se
mide una sola vez en cada uno de los k bloques existentes, siendo el orden de los tratamientos dentro
de cada bloque aleatorio.
El objetivo de este diseño es el de comparar una v.a. dependiente Y bajo a tratamientos de un
factor A, controlando estadı́sticamente la fuente extraña de variabilidad mediante el uso de bloques.
Al realizarse un diseño de bloques uno obtiene la siguiente información:
Bloques
156
1 2 ... j ... k Totales Medias

1 Y11 Y12 ... Y1j ... Y1k Y1. Ȳ1.
2 Y21 Y22 ... Y2j ... Y2k Y2. Ȳ2.
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
Tratamientos i Yi1 Yi2 ... Yij ... Yik Yi. Ȳi.
.. .. .. .. .. .. .. .. ..
. . . . . . . . .
a Ya1 Ya2 ... Yaj ... Yak Ya. Ȳa.
Totales Y,1 Y,2 ... Y.j ... Y.k Y..
Medias Ȳ,1 Ȳ,2 ... Ȳ.j ... Ȳ.k Ȳ..
Pk Yi.
donde Yij = observación de Y bajo el i-ésimo tratamiento en el bloque j, Yi. = j=1 Yij , Ȳi. = k ,
P P
Y.. = ai=1 Yi. = kj=1 Y.j e Ȳ.. = YN.. (N = ak).
Cada elemento de la tabla se escribe según el siguiente modelo lineal:
Yij = µ + τi + βj + ij , i = 1, 2, ..., a; j = 1, 2, ..., k. (6.3)
donde µ es la llamada media total, el cual es un parámetro común a todos los tratamientos, τi el
efecto del i-ésimo tratamiento del factor A sobre Y , βj el efecto del j-ésimo bloque sobre Y y ij un
término de error aleatorio de distribución normal con media 0 y varianza σ 2 . Estos últimos errores
se asumen independientes entre si.
El objetivo central del análisis de varianza con un diseño de bloques consiste como siempre en
encontrar si existen o no diferencias significativas en el valor medio de la variable dependiente Y , bajo
los a tratamientos del factor A; pero controlando mediante bloques la fuente extraña de variabilidad.
Formalmente, se desea contrastar a nivel α:
H0 : τ1 = τ2 = ... = τa = 0 vs H1 : ∃i / τi 6= 0.
La prueba se basa como antes en descomponer la variabilidad total de Y , SCT = (N − 1)SY2

escribiendo:
X k
a X a X
X k
SCT = (Yij − Ȳ.. )2 = (Yij − Ȳi. + Ȳi. − Ȳ.j + Ȳ.j − Ȳ.. + Ȳ.. − Ȳ.. )2 .
i=1 j=1 i=1 j=1
Simples cálculos nos conducen luego a la siguiente descomposición de variabilidad:

a
X k
X a X
X k
2 2
SCT = k (Ȳi. − Ȳ.. ) + a (Ȳ.j − Ȳ.. ) + (Yij − Ȳi. − Ȳ.j + Ȳ.. )2
i=1 j=1 i=1 j=1
SCT = SCT r + SCb + SCE (6.4)
Suma de cuadrados totales = Suma de cuadrados de los tratamientos

+ Suma de cuadrados de bloques + Suma de cuadrados del error.
En base a esta descomposición se obtiene la siguiente tabla ANOVA de bloques:

Tratamientos SCTr a−1 M CT r = SCT
a−1
r
F0 = M CT r
M CE
Bloques SCb k−1 M Cb = SCb
k−1 Fb = M Cb
M CE
SCE
Error SCE (a − 1)(k − 1) M CE = (a−1)(k−1)
Total SCT N −1
y se rechaza H0 a nivel α si:
RC : F0 > F1−α (a − 1, (a − 1)(k − 1)).
Si bien es el interés del análisis, es encontrar si existen o no diferencias significativas de Y bajo

los a tratamientos de A, es importante comprobar si realmente el diseño de bloques utilizado ha
sido el adecuado para la experimentación; es decir, comprobar si la fuente de las observaciones, que
suponemos es un factor extraño de variabilidad, en realidad lo es. Para ello podemos plantear a nivel
α el siguiente juego de hipótesis:
H0 : β1 = β2 = ... = βk = 0 vs H1 : ∃j / βj 6= 0.
y se rechazará H0 (lo cual indicará que el diseño en bloques fue adecuado) si:
RC : Fb > F1−α (k − 1, (a − 1)(k − 1)).
OBSERVACIONES: 1.- Para efectos prácticos se pueden utilizar las siguientes fórmulas simplificadas
de las sumas de cuadrados:
a X
X k a k
Y..2 1 X 2 Y..2 1 X 2 Y..2
SCT = (N − 1)SY2 = Y ij 2 − , SCT r = Yi. − y SCb = Y.j − .
N k N a N
i=1 j=1 i=1 j=1
2.- Al igual que en un modelo ANOVA, uno puede utilizar la desigualdad de Bonferroni o la prueba
de rangos de Duncan para detectar a que se deben las discrepancias halladas de rechazarse H0 . Para
un diseño de bloques completamente aleatorizado, se puede deducir que un intervalo de confianza al
100(1 − α) % para la diferencia de medias de Y bajo dos tratamientos, µi − µj , vienen dada por:
r r
√ 2 √ 2
[ Ȳi. − Ȳj. − t1− α2 ((a-1)(k-1)) M CE , Ȳi. − Ȳj. + t1− α2 ((a-1)(k-1)) M CE ].
k k
Ejemplo 6.4 Se van a comparar 4 tratamientos quı́micos en cuanto a su capacidad de resistencia

a las manchas (medida con una escala hecha para tal fin). Se disponen de dos tipos de tela para
el experimento, los cuales se sospecha podrı́an constituir una fuente de variabilidad extraña para la
comparación. Por tal razón se decidió aplicar cada tratamiento a una muestra de cada uno de los
tipos de tela. El resultado es un diseño de bloques aleatorizados con las siguientes observaciones:
158
Tipos de tela
1 2 Totales
1 5 9 14
2 3 8 11
Tratamientos 3 8 13 21
4 4 6 10
Totales 20 36 56
¿ Se puede decir a un nivel de α = 0,05, que los tratamientos producen distintas resistencias a las
manchas en las telas? ¿ Fue apropiado usar un diseño de bloques para esta comparación ?. Asuma
normalidad.
Solución: Sea Y = Resistencia a las manchas, τi = Efecto de usar el tratamiento i en Y (i = 1, 2, 3, 4)

y βj = Efecto de usar la tela j en Y .
Se desea contrastar a nivel α = 0.05:
H0 : τ1 = τ2 = τ3 = τ4 = 0 vs H1 : ∃i / τi 6= 0.
Se rechazará H0 si:
R.C : F0 > F0.95 (3, 3) = 9.28.
142 +112 +212 +102 562
De los datos obtenemos que: SCT = 7SY2 = 72, SCT r = 2 − 8 = 37,
202 +362 562
SCb = 4 − 8 = 32 y una tabla ANOVA:

Tratamientos 37 3 12.33 F0 = 12.33
Bloques 32 1 32 Fb = 32
Error 3 3 1
Total 72 7
Como F0 > 9.28 si existen a un nivel α = 0.05 diferencias significativas en la resistencia media a las
manchas según el tratamiento utilizado. Además, como Fb > F0.95 (1, 3) = 10.13, podemos también
concluir que nuestro diseño de bloques fue adecuado para reducir el error en nuestra comparación. 2
6.3. Análisis de varianza a dos vias

En este análisis, se intenta averiguar si es que una una v.a. dependiente Y se ve afectada por los
niveles de dos factores A y B que contienen respectivamente a y b tratamientos. Para ello es necesario
recolectar la data ya sea tomándose una m.a. de Y bajo cada par de tratamientos, asignandose al azar
los pares de tratamientos a las unidades experimentales y/o realizando las corridas del experimento en
un orden completamente aleatorizado. Sea como sea el plan de recolección de datos, uno obtendrá al
final una tabla como la siguiente:
B
1 ... j ... b Total
1 Y111 , Y112 , ..., Y11n ... Y1j1 , Y1j2 , ..., Y1jn ... Y1b1 , Y1b2 , ..., Y1bn Y1..
2 Y211 , Y212 , ..., Y21n ... Y2j1 , Y2j2 , ..., Y2jn ... Y2b1 , Y2b2 , ..., Y2bn Y2..
.. .. .. .. .. .. ..
. . . . . . .
A i Yi11 , Yi12 , ..., Yi1n ... Yij1 , Yij2 , ..., Yijn ... Yib1 , Yib2 , ..., Yibn Yi..
.. .. .. .. .. .. ..
. . . . . . .
a Ya11 , Ya12 , ..., Ya1n ... Yaj1 , Yaj2 , ..., Yajn ... Yab1 , Yab2 , ..., Yabn Ya..
Total Y.1. ... Y.j. ... Y.b. Y...
donde Yijk =k-ésimo elemento de la m.a.de Y bajo el i−ésimo tratamiento de e A y el j−ésimo de B,

P P P P P Y
Yi.. = bj=1 nk=1 Yijk , Ȳi.. = Ybn
i..
, Y.j. = ai=1 nk=1 Yijk , Ȳ.j. = Yan
i..
, Yij. = nk=1 Yijk , Ȳij. = nij.
P P P
, Y... = ai=1 bj=1 nk=1 Yijk e Ȳ... = YN... ( con N = abn).
El modelo de análisis de varianza a dos vias plantea que cada elemento dentro de la tabla de
arriba, puede escribirse como:
Yijk = µ + τi + βj + (τ β)ij + ijk ,
siendo µ = media global poblacional, τi = Efecto del i-ésimo tratamiento de A sobre Y , βj = Efecto
del j-ésimo tratamiento de B sobre Y , (τ β)ij = Efecto de la interacción entre el i-ésimo tratamiento
de A y el j−ésimo tratamiento de B y ijk = Error aleatorio.
Se asume que los 0ijk s son todos independientes y con distribución normal de media 0 y varianza
común σ 2 y que los efectos de los tratamientos son desviaciones de la media global: Si µi. = media
poblacional de Y bajo el i−ésimo tratamiento y µ.j = media poblacional de Y bajo el j−ésimo
P P
tratamiento, entonces τi = µi. − µ y βj = µ.j − µ. Consecuentemente, ai=1 τi = bj=1 βj = 0. Se
P P
concluye también que ai=1 bj=1 (τ β)ij = 0.
Es vital en el análisis aclarar el papel que desempeña la interacción. Se dice que existe interacción
entre los factores A y B, cuando las diferencias entre las medias o totales de Y bajo los tratamientos
de uno de los factores, no mantiene el mismo patrón bajo los tratamientos del otro factor.
Ejemplo 6.5 Supongamos que estamos estudiando Y = porcentaje de pureza de un metal después
de un proceso de mezclado y pensamos que este porcentaje se ve afectado por el método que se emplea
en el mezclado (factor A) y/o por el operario que esta a cargo del proceso de mezclado (factor B). Se
disponen de dos métodos y dos operarios y se mide el porcentaje de pureza eligiendo al azar una sola
observación por cada método y operario. La información obtenida se presenta en la tabla siguiente:
160
B
1 2 Total
A 1 70 50 120
2 40 20 60
Total 110 70 180
Si graficamos los totales de Y bajo el factor máquinas por cada nivel del factor operarios, obtendremos
la figura siguiente, la cual nos dice de que no existe interacción entre los factores.
Aquı́ podrı́amos pensar fácilmente que el operario 1 muestra una mayor eficiencia e igualmente que
el mejor método es el primero. Sin embargo, si hubiésemos obtenido la siguiente información:
B
1 2 Total
A 1 70 20 90
2 30 60 90
Total 100 80 180
cuyo gráfico de lı́neas es:

sı́ existe interacción y las conclusiones dadas anteriormente no tienen sentido, ya que por ejemplo,
el método 1 no es superior al método 2 si es que esta cargo el operario 2. 2
En el análisis de varianza a dos vias se desean contrastar a nivel α:
(I) H0 : τ1 = τ2 = ... = τa = 0 vs H1 : ∃i / τi 6= 0.
(H1 nos dice de que existen diferencias significativas o efectos significativos en el valor medio de Y
según los tratamientos del factor A)
(II) H0 : β1 = β2 = ... = βb = 0 vs H1 : ∃j / βj 6= 0.
(H1 nos dice de que existen diferencias significativas o efectos significativos en el valor medio de Y
según los tratamientos del factor B)
(III) H0 : (τ β)ij = 0, ∀i, j vs H1 : ∃(i, j) / (τ β)ij 6= 0.
(H1 nos dice de que existe una interacción significativas entre los tratamientos de los factores A y
B)
Si se rechaza H0 en (III), existirá interacción significativa entre los factores A y B. En este caso,
las conclusiones de las pruebas en (I) y (II) serán relativas y en algunos casos inválidas ya que no
existirá uniformidad en los efectos de los tratamientos de A o B bajo los tratamientos del otro factor.
Las contrastes de hipótesis se basan como antes en descomponer la variabilidad total SCT =
(N − 1)SY2 :
a X
X b X
n a X
X b X
n
2
SCT = (Yijk − Ȳ... ) = (Yijk − Ȳi.. + Ȳi.. − Ȳ.j. + Ȳ.j. − Ȳij. + Ȳij. − Ȳ... + Ȳ... − Ȳ... )2 .
i=1 j=1 k=1 i=1 j=1 k=1
162
Se prueba que al desarrollarse los cuadrados, los productos cruzados se cancelan quedándonos la
siguiente descomposición de variabilidad:
a X
X b X
n a
X b
X
(Yijk − Ȳ... )2 = bn (Ȳi.. − Ȳ... )2 + an (Ȳ.j. − Ȳ... )2
i=1 j=1 k=1 i=1 j=1
a X
X n a X
X b X
n
+n (Ȳij. − Ȳi.. − Ȳ.j. + Ȳ... )2 + (Yijk − Ȳij. )2
i=1 j=1 i=1 j=1 k=1
o respectivamente,
SCT = SCA + SCB + SCAB + SCE
Suma de cuadrados totales = Suma de cuadrados de A + Suma de cuadrados de B

+ Suma de cuadrados de la interacción + Suma de cuadrados del error.
A manera de resumen se obtiene la siguiente tabla ANOVA a dos vias:
Fuente de variabilidad Sumas de Grados de Medias cuadráticas F

variabilidad cuadrados libertad
SCA M CA
Factor A SCA a-1 M CA =
a−1 FA = M CE
Factor B SCB b-1 M CB = SCB
b−1 FB = M CB
M CE
SCAB M CAB
Interacción SCAB (a-1)(b-1) M CAB = (a−1)(b−1) FAB = M CE
SCE
Error SCE ab(n-1) M CE = ab(n−1)
Total SCT N-1
Se puede deducir luego, bajo las asunciones del modelo, las siguientes regiones crı́ticas:
Se rechazará H0 en (I) a nivel α si:
FA > F1−α (a − 1, ab(n − 1)).
Se rechazará H0 en (II) a nivel α si:
FB > F1−α (b − 1, ab(n − 1)).
Se rechazará H0 en (III) a nivel α si:
FAB > F1−α ((a − 1)(b − 1), ab(n − 1)).
OBSERVACIONES 1.- Para efectos de cálculo pueden utilizarse las siguientes fórmulas de sumas de
cuadrados:
a X
X b X
n a j
Y2 1 X 2 Y...2 1 X 2 Y2
SCT = (N − 1)SY2 = 2
Yijk − ... , SCA = Yi.. − , SCB = Y.j. − ... ,
N bn N an N
i=1 j=1 k=1 i=1 j=1
a b
1 XX 2 Y2
SCAB = ( Yij. − ... ) − SCA − SCB y SCE = SCT − SCA − SCB − SCAB.
n N
i=1 j=1
2.- Una técnica descriptiva para detectar la presencia de interacción consiste en hacer una gráfica
para las medias muestrales (o totales) de Y con los tratamientos de un factor, bajo los distintos
tratamientos del otro factor (vease el ejemplo anterior). Si las lı́neas divergen del paralelismo se
puede pensar en interacción. Se dice pensar, pues la decisión definitiva sobre si esa interacción es
significativa o no nos las dará la prueba de hipótesis (III).
3.- Se pueden también realizar aqui pruebas de Duncan. En este caso se podrı́a, de existir por decir
interacción, fijar un tratamiento de un factor a fin de comparar las medias poblacionales de Y bajo
todos los tratamientos del otro factor. En el caso de no interacción uno puede aplicar Duncan a cada
factor por separado. Vale aclarar que en estas pruebas debe utilizarse:
r
M CE
SȲi. = ,
m
siendo M CE la media cuadrática de la tabla ANOVA a dos vias y m el tamaño de muestra con el
cual se calcula cada media muestral en comparación.
4.- Hemos asumido hasta el momento que nuestro modelo es de efectos fijos en los dos factores. Sin
embargo, uno podrı́a tener modelos de efectos aleatorios o mixtos. En cada caso el análisis anterior
es el mismo; pero cambian las hipótesis y conclusiones. Estas se plantean ahora como:
Modelo de efectos aleatorios (A y B aleatorios)

Se rechazará H0 : στ2 = 0 en (I) a nivel α si:
M CA
FA = > F1−α (a − 1, (a − 1)(b − 1)).
M CAB
Se rechazará H0 : σβ2 = 0 en (II) a nivel α si:
M CB
FB = > F1−α (b − 1, (a − 1)(b − 1)).
M CAB
La prueba de interacción es la misma.
Modelo de efectos mixtos (A fijo y B aleatorio)

Se rechazará H0 : τi = 0, ∀i en (I) a nivel α si:
M CA
FA = > F1−α (a − 1, (a − 1)(b − 1)).
M CAB
Se rechazará H0 : σβ2 = 0 en (II) a nivel α si:
M CB
FB = > F1−α (b − 1, ab(n − 1)).
M CE
La prueba de interacción es la misma.
164
Ejemplo 6.6 El voltaje máximo de salida de un tipo particular de baterı́a se piensa que esta influen-
ciado por el material usado en las placas y la temperatura del lugar de instalación. Para estudiarse
esto se han tomado al azar 36 observaciones del voltaje máximo de salida, 4 por tipo de material y
temperatura obteniéndose:
TEMPERATURA oF
50 65 80
1 130, 155, 74, 180 34, 40, 80, 75 20, 70, 82, 58
Tipo de Material 2 150, 188, 159, 126 136, 122, 106, 115 25, 70, 58 45
3 138, 110, 168, 160 174, 120, 150, 139 96, 104, 82, 60
A un nivel de α = 0.05 ¿ qué es lo que se puede concluir de este estudio?
Solución: Sea Y = Voltaje máximo de salida. Asumiremos a falta de aclaración que Y tiene distri-
bución normal. Se disponen de 2 factores A = Material en la placa con 3 niveles o tratamientos y
B = Temperatura del lugar de instalación con también 3 niveles o tratamientos. Sean: τi = Efecto
de usar el material i en Y , βj = Efecto de la temperatura j en Y y (τ β)ij = Efecto de la interacción
entre A y B.
Lo primero que nos será útil es hallar los estadı́sticos de la tabla de datos.
TEMPERATURA (oF)
50 65 80 Totales
1 Y11. = 539 Y12. = 229 Y13. = 230 Y1.. = 998
Material 2 Y21. = 623 Y22. = 479 Y23. = 198 Y2.. = 1,300
3 Y31. = 576 Y32. = 583 Y33. = 342 Y3.. =1,501
Totales Y.1. = 1,738 Y.2. = 1,291 Y.3. = 770 Y... = 3,799
Antes de realizar las pruebas del caso, veamos si existe aparente evidencia de interacción entre los
factores dados. Para ello realizemos un gráfico de lı́neas sobre los totales de voltaje por temperaturas
para cada tipo de material en las placas.
Dado de que la desviación del paralelismo en esta gráfica es algo considerable se puede sospechar
la presencia de interacción. Realicemos ahora el contraste de interacción
H0 : (τ β)ij = 0 vs H1 : ∃(i, j) / (τ β)ij 6= 0.
Para ello construyamos nuestra tabla ANOVA comenzando por calcular las sumas de cuadrados:
SCT = 35SY2 = 77, 646.96 ,
1 3, 7992
SCA = (9982 + 1, 3002 + 1, 5012 ) − = 10, 683.72 ,
12 36
1 3, 7992
SCB = (1, 7382 + 1, 2912 + 7702 ) − = 39, 118.72
12 36
y
1 3, 7992
SCAB = (5392 + 2292 + ... + 3422 ) − − 10, 683.72 − 39, 118.72 = 9, 613.77.
4 36
Entonces la tabla ANOVA resulta:
Fuente de variabilidad Sumas de cuadrado Grados de libertad Medias cuadráticas F

A = Tipo de Material 10,638.72 2 5,341.86 FA = 7.91
B = Temperatura 39,118.72 2 19,558.36 FB = 28.97
A × B = Interacción 9,613.77 4 2,403.44 FAB = 3.56
Error 18,230.75 27 675.21
Total 77,646 35
Dado que
FAB = 3.56 > F0.95 (4, 27) = 2.73 ,
rechazaremos H0 a un nivel de significación de α = 0.05. Esto quiere decir, tal como lo sospechamos,
que si existe interacción significativa entre los dos factores. En tal sentido, no tiene ya sentido realizar
los contrastes sobre los efectos principales de A y B, pues no existe uniformidad en los efectos de los
tratamientos. 2
6.4. El diseño 2K
Este es un diseño que involucra a K factores y en el cual cada factor posee 2 niveles o tratamientos.
Los diseños 2K son particulamente útiles en las primeras fases de un trabajo experimental, cuando
es probable que existan muchos factores por investigar. A lo largo de este trabajo asumiremos que
los factores son fijos, los diseños completamente aleatorizados y que se satisface la suposición usual
de normalidad y de homocedasticidad.

El modelo estadı́stico del diseño 2K incluye a K efectos principales, K2 interacciones de 2 factores,
K

3 interacciones de 3 factores y asi sucesivamente hasta una interacción de los K factores; es decir, el
166
modelo incluye un total de 2K−1 efectos. Si bien podemos tratar al diseño 2K como un diseño factorial
genérico, este tratamiento resulta poco práctico y lo mejor será intimar con algunas simplificaciones en
el cálculo de las estimaciones de los efectos y de sus sumas de cuadrados. Para guiarnos, consideremos
el diseño más simple de la familia, el diseño 22 .
Supongamos que disponemos de n replicas por cada par de tratamientos (a los cuales denotaremos
con los signos - y +). Denotemos por (1), a, b y ab a los siguientes totales por celda:
Factor B
- + Total
- Y111 . . . Y11n Y121 . . . Y12n Y1.. = (1) + b
Factor A Y11. = (1) Y12. = b
+ Y211 . . . Y21n Y221 . . . Y22n Y2.. = a + ab
Y21. = a Y22. = ab
Total Y,1. = (1) + a Y,2. = b + ab Y...
Los efectos estimados de cada factor y de la interacción se definen por respectivamente:
ab + a − b − (1)
A = Ȳ2.. − Ȳ1.. =
2n
ab + b − a − (1)
B = Ȳ,2. − Ȳ,1. =
2n
ab + (1) − a − b
AB = (Ȳ22. − Ȳ12. ) − (Ȳ21. − Ȳ11. ) = (Ȳ22. − Ȳ21. ) − (Ȳ12. − Ȳ11. ) = ,
2n
Note que los numeradores de estos efectos:
CA = ab + a − b − (1), CB = ab + b − a − (1) y CAB = ab + (1) − a − b
no son otra cosa que un conjunto de contrastes ortogonales sobre los totales. En vista de ello, sus
sumas de cuadrados vienen dados respectivamente por:
2
CA 2
CB 2
CAB
SCA = , SCB = y SCAB = ,
4n 4n 4n
donde hemos utilizado las mismas notaciones que en un análisis de varianza a dos vias, pues es-
tas sumas coinciden, como no es difı́cil probar, con las sumas de cuadrados de la descomposición
fundamental del ANOVA a dos vias.
Antes de apreciar un ejemplo concreto, es importante apuntar el hecho de que cualquiera de los
contrastes dados previamente podrı́an haber sido también obtenidos con la fórmula:
CAB = (a ± 1)(b ± 1),
donde el signo (-) aparecerá si es que si incluye al factor en ese contraste y el signo (+) en caso
contrario. Obviamente “1” será reemplazado por (1) en el cálculo final.
Ejemplo 6.7 Se llevó a cabo un experimento para comparar las resistencias de dos marcas de papeles
faciales M1 y M2 en condiciones tanto secas como húmedas. Se probaron 4 papeles faciales por marca
y condición en un orden completamente aleatorizado. La medición de resistencia se hizo como sigue:
se tensó un papel sobre la boca de una taza de plástico y se la sujetó con una liga. A continuación se
dejó caer una canica sobre el papel tenso. La altura mı́nima, en pulgadas, desde la que se dejo caer
para atravesar el papel es la medición de resistencia. Los datos se muestran en la tabla siguiente:
Condición
seca (-) húmeda (+)

Marca M1 (-) 14, 14 , 12, 11 4, 4, 3, 5
M2 (+) 10, 11, 11, 12 5, 5, 6, 6
En este experimento tenemos como variable dependiente a la resistencia Y y como factores fijos a
A = marca del papel y B = condición del papel. La tabla de datos con sus totales marginales y por
celda viene dada por
Condición
seca (-) húmeda (+) Total

M1 (-) 14, 14 , 12, 11 4, 4, 3, 5 67
Marca (1) = 51 b = 16
M2 (+) 10, 11, 11, 12 5, 5, 6, 6 66
a = 44 ab = 22
Total 95 38 133
Los efectos estimados de los factores A, B y de la interacción vienen dados por:

22 + 44 − 16 − 51 22 + 16 − 44 − 51
A= = −0,125, B = = −7,125
8 8
y
22 + 51 − 44 − 16
AB = = 1,625.
8
Esto, a nivel descriptivo, nos indica aparentemente pocas diferencias en las resistencias de las marcas
de papel, mucho mayor resistencia del papel en condiciones secas (lo cual es obvio) y cierta interacción
entre los factores.
En pocas palabras, los papeles de la marca M1 parecen ser más resistentes que los de la marca
M2 cuando están secos, pero los de la marca M2 parecen ser ligeramente más resistentes que los de
la marca M1 cuando están húmedos.
La tabla ANOVA se obtiene calculándose primero la suma de cuadrados totales SCT = 11SY2 =
225,437, las sumas de cuadrados de los efectos principales e interacción con las fórmulas anterior-
mente descritas, y la suma de cuadrados del error por diferencia. Esta es:
168
Fuente de variabilidad Sumas de Grados Medias F

cuadrados de libertad cuadráticas
A ( Marca) 0.063 1 0.063 FA = 0.06435
B (Condición) 203.062 1 203.062 FB = 207.417
A × B (Interacción) 10.563 1 10.563 FAB = 10.78958
Error 11.75 12 0.979
Total 225.437 15
Dado que FAB = 10.78958 > F0.95 (1, 12) = 4.75, se podrá afirmar, con una probabilidad de
equivocarnos del 5 %, de que si existe una interacción significativa entre los dos factores A y B
considerados. 2
Para analizar un diseño general 2K , denotaremos con su correspondiente letra minúscula f al

total de la celda donde el factor F toma su nivel alto (+) y todos los demás K − 1 factores sus niveles
bajos (-). El contraste para el efecto de AB . . . K se determina desarrollando el segundo miembro de:
CAB...K = (a ± 1)(b ± 1) . . . (k ± 1).
En este desarrollo se usa álgebra ordinaria, y se reemplaza 1 por (1) en la expresión final. Además,
en cada conjunto de paréntesis debe usarse el signo negativo si se incluye el factor en este efecto y
el signo positivo en caso contrario. Por ejemplo, en un diseño 24 , el contraste para el efecto de ACD
(que corresponde a una interacción de tercer orden) viene dado por:
CACD = (a − 1)(b + 1)(c − 1)(d − 1)
= abcd + acd + bd + d + bc + c + ab + a − bcd − cd − abd − ad − abc − ac − b − (1).
Una vez determinados los contrastes para todos los efectos, estos pueden estimarse por:
CAB...K
AB . . . K = .
n2K−1
2
CAB...K
Además, las sumas de cuadrados para todos los factores vienen dados por SCAB . . . K = n2K
,en
donde n corresponde al número de réplicas.
Seguidamente mostramos la tabla ANOVA de un diseño 2K :
Fuente de variabilidad Sumas de Grados Medias F

cuadrados de libertad cuadráticas
K Efectos principales
M CA
A SCA 1 MCA FA = M CE
.. .. .. .. ..
. . . . .
M CK
K SCK 1 MCK FK = M CE
C2K interacciones de 2 factores
M CAB
AB SCAB 1 MCAB FAB = M CE
.. .. .. .. ..
. . . . .
M CJK
JK SCJK 1 MCJK FJK = M CE
C3K interacciones de 3 factores
M CABC
ABC SCABC 1 MCABC FABC = M CE
.. .. .. .. ..
. . . . .
M CIJK
IJK SCIJK 1 MCIJK FIJK = M CE
.. .. .. .. ..
. . . . .
K interacciones de K factores
CK
M CABC...K
ABC. . . K SCABC. . . K 1 MCABC. . . K FABC...K = M CE
Error SCE 2K (n − 1) MCE
Total SCT n2K −1
Aquı́, la suma de cuadrados totales se halla con la fórmula usual SCT = (n2K − 1)SY2 y la suma
de cuadrados del error por diferencia. Además, siempre que tenga sentido, los indicadores F se
comparan con los valores de la tabla F de Fisher con los grados de libertad correspondientes a las
medias cuadráticas de las cuales F es su cociente.
6.4.1. Una sola réplica en el diseño 2K
Debido a las limitaciones naturales de dinero, tiempo, equipos y otros, el número de réplicas que
pueden efectuarse puede ser restringido. Es frecuente que en muchos experimentos sólo se pueda
efectuar una réplica de Y por cada combinación de los K tratamientos a menos, claro esta, que se
deseen omitir algunos factores originales. Con una sola réplica no es posible calcular una estimación
del error. Una aproximación al análisis de un factorial no replicado consiste en suponer que ciertas
interacciones de orden superior son despreciables y que por tanto sus cuadrados medios pueden
combinarse para la estimación del error. Esta es una aplicación al principio de dispersividad de
efectos; esto es, la mayorı́a de los sistemas son dominados en general por algunos de los efectos
principales e interaciones de bajo orden y la mayorı́a de las interacciones de orden superior son
despreciables.
Aún con un diseño no replicado, la cantidad de datos a tomarse en un diseño 2K pueden ser todavı́a
no manejable. En estos casos se han creado una serie de técnicas avanzadas de fraccionamiento y
170
bloqueo con las cuales un investigador puede analizar efectos principales e interacciones de bajo
orden a costo de sacrificar, o más técnicamente confundir, interacciones de ordenes superiores. Estas
técnicas, que constituyen la base de los métodos modernaos de control de calidad fuera de lı́nea,
pueden consultarse en [4] ó [5].
6.5. Ejercicios
1.- Un campus universitario tiene cuatro facultades. Se quiere estudiar la variable tiempo en minutos
que tarda un alumno en hacer una consulta en la base de datos de la biblioteca de su facultad. Para
ello se ha tomado una muestra aleatoria cuyos resultados son los de la tabla adjunta.
Arquitectura 48, 31, 31, 36, 39, 37, 29, 24, 38, 41
Facultad Ingenierı́a 24,16, 22, 10, 25, 11, 18, 6, 24, 30, 24, 15
Derecho 37, 40, 51, 49, 36, 24, 35, 26, 43, 40, 35, 33, 39, 55, 40
Humanidades 19, 26, 31, 13, 12, 16, 30, 13, 21, 26, 24, 12, 21
a) Realice un diagrama de cajas para comparar los tiempos de consulta por facultad ¿qué le dice
este gráfico?
b) Analice inferencialmente la influencia del factor facultad en la variable de interés. Fije usted para
este caso su nivel de significación.
2.- La estructura financiera de una firma se refiere a la forma en que se dividen los activos de la
empresa por debe y haber, y el apalancamiento financiero al porcentaje de activos financiados por
deuda. En un estudio se afirma que el apalancamiento financiero puede utilizarse para aumentar las
tasas de rendimiento sobre la inversión; es decir que, los accionistas puedan recibir rendimientos más
altos con la misma inversión gracias a su uso. Los siguientes datos muestran las tasas de rendimientos
utilizando tres diferentes niveles de apalancamiento financiero y un nivel de control (deuda cero) de
20 empresas seleccionadas al azar. A un nivel de significación de α = 0.05:
Control 4.6 2 6.8 4.2 1.6

Bajo 2 7.4 1.8 3.2 4
Apalancamiento Medio 7 4.5 11.6 6 6.8
Alto 7.9 6.8 5.8 9.2 11
a) ¿ Existen diferencias en las tasas medias de rendimiento bajo los 4 niveles de apalancamiento ?
b) ¿ Se puede decir que las tasas medias de rendimiento en los niveles bajo medio y alto son más
altas que las del nivel de control ? Use, de ser factible, la prueba de rangos de Duncan.
3.- Se realizó un estudio de tránsito sobre los retrasos en las intersecciones con semáforos en las calles
de una ciudad. Se usaron 3 tipos de semáforos: 1) programado, 2) semiactivado y 3) activado. Se
usaron 5 intersecciones para cada tipo de semáforo. La medida de retraso fué el promedio de tiempo
que cada vehı́culo permanece detenido en cada intersección (segundos/vehı́culo). Los datos son:
Programado 36.6 39.2 30.4 37.1 34.1

Tipo de Semáforo Semiactivado 17.5 20.6 18.7 25.7 22.0
Activado 15.0 10.4 18.9 10.5 15.2
a) Defina claramente la variable dependiente y los parámetros de un modelo lineal para este problema.
Estime e interprete el efecto de utilizarse un semáforo activado en el valor medio de la variable
dependiente.
b) A un nivel de significación de α = 0.05, ¿ podrı́a decirse de que si existen diferencias entre las
medias de retraso para los tipos de semáforo ?
c) Mediante el método de Bonferroni, ¿ podrı́a decirse con un nivel de confianza de al menos 95 %
que existe algún tipo de semáforo que ocasione una media de retraso menor al resto ?
d) Aplique, de ser factible, la prueba de rangos de Duncan a un nivel de significación de α = 0.05. ¿
Difieren estos resultados de los obtenidos en c) ? Comente sus resultados.
4.- Si se desean comparar las medias de dos poblaciones normales independientes, ¿ será el análisis
de varianza en este contexto, equivalente a la prueba de comparación de medias vista anteriormente?
Analice esto empı́ricamente aplicándolo al problema 3 con sólo los tipos de semáforo Programado y
Semiactivado. ¿ Es esto en general cierto ?
5.- Con la esperanza de atraer más usuarios, una compañı́a de transportes urbano planea ofrecer
servicios de autobuses a partir de una terminal suburbana hacia el centro de la ciudad. Estos auto-
buses deben reducir el tiempo de traslado. La municipalidad decide realizar un estudio del efecto de
4 diferentes proyectos ( tales como un carril especial para los autobuses y una señalización secuencial
del tráfico) sobre el tiempo de traslado de los autobuses. Se miden los tiempos (en minutos) durante
varios dı́as de la semana durante un viaje, a la hora de mayor afluencia en la mañana, cuando cada
proyecto esta en operación. Los resultados se muestran en la tabla siguiente:
1 27 25 29 26
Proyecto 2 25 28 30 27 24
3 34 29 32 31 36
4 30 33 31
a) Existe evidencia de una diferencia en los tiempos medios de traslado para los 4 proyectos ?
b) ¿ En cuanto estima Ud. el efecto del tercer proyecto en el tiempo de traslado ?
c) Realice la prueba de rangos de Duncan a nivel α = 0.05, para decidir cuál seria a su consideración
el o los mejores proyectos. Haga lo mismo utilizando la desigualdad de Bonferroni.
6.- Una compañı́a textil utiliza 3 telares. Se desea que los telares sean homogéneos con el objeto
de producir telas de resistencia uniforme. El ingeniero de procesos piensa que, puede existir una
variación significativa de la resistencia entre los distintos telares. Para ello realiza un experimento y
obtiene los siguientes datos:
172
Observaciones
1 98 97 99 96
Telar 2 91 90 93 92
3 96 95 97 95
a) Escriba el modelo adecuado para analizar el experimento y pruebe si existe diferencia en la

resistencia de las telas producidas entre los telares. Use α = 0.05.
b) ¿ Se podrı́a decir que el promedio de las resistencias de las telas que producen los dos primeros
telares es igual a la resistencia promedio del tercer telar ? Use α = 0.05.
7.- ¿ Cómo afecta el tiempo flexible a la satisfacción de un trabajador por su empleo ?. En un estudio
para este fin se seleccionaron al azar un grupo de trabajadores a 3 tipos de horario de trabajo. Estos
fueron evaluados 4 meses, al término de los cuales se obtuvieron los datos de satisfacción:
Grupo
Tiempo Flexible Entrada Alternada Entrada Fija
Tamaño de la muestra 27 59 24
Media muestral 35.22 31.05 28.71
Desviación estándar muestral 10.22 7.22 9.28
Usando un nivel de significación de α = 0.05:

a) ¿ Existen diferencias entre las calificaciones promedios de satisfacción para los tres grupos ?
b) Determine un intervalo de confianza del 98 % para la diferencia entre las calificaciones medias de
satisfacción por el trabajo entre trabajadores con tiempo flexible y horario fijo.
8.- Un ingeniero en electrónica está interesado en el efecto sobre la conductividad de una válvula
electrónica que tienen cinco tipos diferentes de recubrimiento para los tubos de rayos catódicos
utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se obtienen los
datos siguientes sobre la conductividad:
Conductividad
1 143 141 150 146

2 152 149 137 143
Tipo de recubrimiento 3 134 133 132 127
4 129 127 132 129
5 147 148 144 142
a) Defina la variable dependiente y el factor de interés. Estime e interprete la diferencia media de

conductividad al usar el recubrimiento tipo 2 y el tipo 3.
b) ¿ Existe alguna diferencia en la conductividad debida al tipo de recubrimiento ? Utilice α = 0.01.
c) Utilice la prueba de rangos múltiples de Duncan para analizar las 5 medias de los tipos de
recubrimiento. Utilice α = 0.01.
d) Considere el experimento descrito y suponga que antes de realizarlo, se le pide averiguar si se
produce mejores resultados en la conductividad media al utilizar una combinación en partes iguales
de los recubrimientos tipo 1 y 2 versus los tipos 3, 4 y 5. Si se utiliza α = 0.01, ¿ qué conclusiones
pueden obtenerse ?
e) Si los 5 tipos de recubrimientos se hubieran elegido al azar entre una gran variedad, ¿ cuál hubiera
sido su conclusión ?
9.- En un estudio de Marketing se desea comparar la calidad del servicio de los 4 supermercados A, B,
C y D de una ciudad. Los supermercados A y C pertenecen a un grupo de inversiones I; mientras que
los supermercados B y D a otro gran grupo de inversionistas II. Con este fin se seleccionaron al azar
a 20 sujetos y se les pidió su opinión sobre uno de los 4 supermercados en un orden completamente
aleatorio. Los resultados en una escala de opinión de 0 a 100 se muestran en la tabla siguiente:
A 40 45 50 58 42
Supermercado B 59 70 61 63 69
C 60 52 49 56 55
D 54 52 66 60 68
a) ¿ Se podrı́a asegurar, a un nivel de significación de α = 0.05, que la calidad de servicio difiere

entre los 4 supermercados ?
b) Antes del estudio se pensaba que los supermercados del grupo II brindaban un mejor servicio que
los supermercados del grupo I, ¿ muestran los datos que esto es cierto ? Use un nivel de significación
de α = 0.05.
c) Un objetivo del estudio era estimar con una confianza del 95 % las diferencias entre las calidades
medias de servicios de los supermercados del grupo I a través de las diferencias entre sus medias
muestrales respectivas. Si era la intención de que este proceso tuviera un error de estimación no
mayor a los 5 puntos, ¿ fué adecuado el número de sujetos entrevistados por cada supermercado ?
10.- Juan y Pepe estan en discusión acerca de la metodologı́a a emplearse en comparar el volumen de
ventas promedio diarias (en dólares) de 4 sucursales de una cadena de comida rápida. Ambos tienen
tiempo solo los martes y fines de semana para registrar estos volumenes. Juan ha decidido escoger
una sucursal en cada dia durante todo un mes, encontrándo las siguientes volumenes de ventas para
cada sucursal: En la sucursal 1 para los 5 martes del mes: 200, 310, 275, 228, 290; en la sucursal 2
para los 4 Viernes del mes: 460, 490, 420, 508; en la sucursal 3 para los 4 Sábados del mes: 500, 510,
475, 600; y en la sucursal 4 para los 5 Domingos del mes: 350, 340, 425, 328, 495.
De otro lado, Pepe utilizó un diseño de bloques encontrando los siguientes volúmenes:
174
DIA
Martes Viernes Sabado Domingo
300 2 400 1 500 3 340 4
280 3 410 4 520 1 320 2
320 1 415 2 580 4 360 3
300 4 408 3 560 2 350 1
en donde se anota al costado derecho en negrita la sucursal de donde se obtuvo la información.

a) A un nivel α = 0.05, ¿ muestran sus datos a Juan y a Pepe que existen diferencias significativas
en los volumenes de ventas promedios de las 4 sucursales ?
b) ¿ Cuál de los dos tiene para Ud. razón ? Justifique.
11.- Se les pidió a 4 agentes inmobiliarios que dieran cada uno la valoración de 6 casas situadas
en un vecindario y los datos se recopilaron usando un diseño de bloques. Las apreciaciones fueron
realizadas en miles de dólares, obteniéndose los resultados de la siguiente tabla:
Fuente de Variación Suma de Cuadrados

Agente 1,019.667
Casa 691.500
Error 440.833
a) Contrastar la hipóótesis nula de que la valoración media para los 4 agentes es la misma. Utilice
α = 0.01.
b) Si, en base a la muestra, las estimaciones de las valoraciones medias de los agentes 2 y 4 son
respectivamente 90.1667 y 81.3333, ¿ se puede concluir que las valoraciones medias de los agentes 2
y 4 son iguales ? Utilice α = 0.05.
c) Un investigador que no sabı́a cómo se recolectaron los datos consideró al modelo como de una vı́a,
c1) ¿ variarán sus conclusiones en el inciso a)?
c2) ¿ el resultado del inciso b) se modificará ? Explique porqué.
12.- Se realizó, a un nivel de α = 0.05, un estudio de movimientos para determinar el mejor de tres
métodos de montar un mecanismo. Para esto se diseño un experimento de un factor por bloques
aleatorios seleccionando 5 operarios con supuestamente la misma velocidad. El número de montajes
terminados diarios por cada operario y con cada método se dan en la tabla siguiente:
Operarios
1 2 3 4 5
1 3 4 3 5 4
Método 2 9 8 7 9 6
3 5 6 8 7 9
a) ¿ Se puede concluir que los tres métodos de montaje son significativamente diferentes ?
b) ¿ Fue correcto asumir que los operarios tenı́an en promedio la misma velocidad ?
c) Realice, de ser factible, una prueba de rangos de Duncan e indique explı́citamente las conclusiones
que sacarı́a en esta prueba. Haga lo mismo utilizando la desigualdad de Bonferroni.
d) ¿ Porque cree usted que la aleatorización del método de montaje a cada operario es importante
en esta experimentación ?
13.- En un experimento se comparan cuatro mezclas diferentes de las componentes de un propelente

para cohetes; las mezclas contienen proporciones distintas de carburante, oxidante, combustible y
sustancias aglutinantes. Para comparar las mezclas , se preparan cinco muestras diferentes de prope-
lente con cada una de ellas. Después, a cada uno de los 5 investigadores se le asigna aleatoriamente
una muestra de cada una de las cuatro mezclas y se le pide que midan el empuje del propelente. Los
datos son los siguientes:
Investigador
Mezcla 1 2 3 4 5
1 2340 2355 2362 2350 2348
2 2658 2650 2665 2640 2653
3 2449 2458 2432 2437 2445
4 2403 2410 2418 2397 2405
a) A un nivel de significación de α = 0.05, existen diferencias significativas en el empuje medio del

propelente bajo estas 4 mezclas ?. ¿ Pudiera decirse que los investigadores podrı́an haber afectado
el resultado en la comparación del empuje del propelente bajo las 4 mezclas ?
b) A un nivel de significación de α = 0.05, use la pruebas de rangos de Duncan para decidir sobre la
mejor mezcla.
14.- Se hace una evaluación de la adhesión por difusión de componentes de zircaloy. El principal
objeto es determinar cuál de los tres elementos, nı́quel, hierro o cobre, es el mejor adhesivo. Para ello
se reportó en el informe del experimento que se pegaron varias componentes de zircaloy con cada
uno de los adhesivos y que como existı́a mucha variación en los componentes maquinados de zircaloy
que procedı́an de lingotes diferentes, se usó un diseño de bloques completamente aleatorizados para
agrupar los lingotes en bloques. El informe reporta también la siguiente información de la presión
necesaria en miles de libras por pulgada cuadrada que se necesita para separar las partes:
Lingote
1 2 3 4 5 6 7
Nı́quel 67.0 67.5 76.0 72.7 73.1 65.8 75.6
Adhesivo Hierro 71.9 68.8 82.6 78.1 74.2 70.8 84.9
Cobre 72.2 66.4 74.5 67.3 73.2 68.7 69.0
176
a) Indique de manera explı́cita cómo cree usted que debió de diseñarse la recolección de estos datos
para este estudio comparativo.
b) ¿ Existe evidencia de una diferencia en la presión necesaria para separar las partes con respecto
a los tres agentes adhesivos ? Use α = 0.05.
c) Aplique, de tener sentido, el método de Bonferroni, e interprete las conclusiones que obtenga. Use
α = 0.05.
15.- Una compañı́a de servicios informáticos dispone de tres bases de datos a las que pueden acceder
sus clientes. La compañı́a dispone de cuatro operadores los cuales se encargan de una sola base cada
dı́a. Se desea hacer un estudio para determinar si la base de datos es un factor que explica el tiempo
que demoran los clientes en acceder y verificando al mismo tiempo si se puede considerar al operador
como una causa adicional de variación en el tiempo de acceso. Para este fin se dispone de la siguiente
información correspondiente a los tiempos promedios de acceso de pedidos registrados bajo un diseño
de bloques completamente aleatorizado :
Base de Operador Operador Operador Operador

Totales
datos 1 2 3 4
1 4.2 4.5 4.7 4.5 17.9
2 8.4 8.7 8.1 8.3 33.5
3 4.8 5.0 5.2 5.1 20.1
Totales 17.4 18.2 18.0 17.9 71.5
a) Describa la ecuación del modelo subyacente y las hipótesis estadı́sticas que se deben contrastar.
Luego, utilizando un nivel de significación del 5 % y determine cuáles son las conclusiones.
b) Usando un nivel de significación global del 5 % ordenar las bases de datos de acuerdo a su
correspondiente tiempo promedio de acceso. Utilce para ello la prueba de rangos de Duncan y la
desigualdad de Bonferroni indicando, si existiera, la diferencias en los resultados que proveen los dos
métodos.
16.- Una agencia estatal para el medio ambiente prueba dos métodos diferentes para quemar carbón
bituminoso para generar electricidad, en conexión con 4 purificadores diferentes que han sido di-
señados para reducir la contaminación del aire. El interés primordial es la emisión de partı́culas. Se
llevan a cabo cuatro ensayos con cada purificador combinándolos con cada método de combustión.
La emisión de partı́culas se mide en cada ensayo. De los datos resultantes se obtuvieron los resultados
descriptivos siguientes:
Método Purificador Número de datos Media muestral de emisión

A 1 4 16.650
A 2 4 12.500
A 3 4 18.450
A 4 4 20.325
B 1 4 19.900
B 2 4 24.200
B 3 4 12.350
B 4 4 13.000
junto con la tabla ANOVA:
Fuente de variabilidad Sumas de cuadrados Grados de libertad Medias cuadráticas

Método 1.16281250 1 1.16281250
Purificador 48.0309375 3 16.0103125
Interacción (Método × Purificador) 475.4734375 3 158.491146
Error 240.9768 24 10.0407
Total 765.6439875 31
a) Haga un gráfico de lı́neas e indique, a nivel descriptivo, si es que se podrı́a suponer o no interacción
entre los dos factores considerados.
b) ¿ Existe interacción significativa entre los factores considerados ? Use α = 0.05
c) Mediante una prueba de rangos de Duncan a un nivel de significación de α = 0.05, determine, de
ser factible, el tipo de purificador adecuado para cada método de quemado.
d) Aplique, de ser factible, la prueba de rangos de Duncan a las combinaciones de método y purificador
¿ Qué concluye de este análisis ? Use α = 0.05.
17.- Se realiza un experimento para estudiar la influencia de la temperatura de operación y 3 tipos

de vidrio sobre la luminosidad producida por un tubo de osciloscopio. Se obtuvieron los datos:
Temperatura
100 125 150
580 1,090 1,392
1 568 1,087 1,380
570 1,085 1,386
550 1,070 1,328
Tipo de vidrio 2 530 1,035 1,312
579 1,000 1,299
546 1,045 867
3 575 1,053 904
599 1,066 889
178
a) ¿ Existe alguna interacción entre los factores ? ¿ Qué es lo que podrı́a decir del efecto de la
temperatura y el tipo de vidrio en la luminosidad ? Utilice α = 0.05.
b) ¿ A qué temperatura deberá operar este proceso para obtener tubos con una mayor luminosidad
? Utilice α = 0.05.
18.- Se realizó un experimento para comparar el efecto de 4 diferentes productos quı́micos A, B, C y

D en producir resistencia al agua en textiles. Se cortó en cuatro una tira del material, seleccionada
aleatoriamente de un rollo, y se asignaron aleatoriamente las piezas para ser tratadas con uno de los
productos quı́micoa A,B,C o D. Se repitió el proceso tres veces para producir ası́ un diseño de bloques
completamente aleatorizados. El diseño, con mediciones de resistencia a la humedad, es como se ve
en la tabla siguiente (lecturas bajas indican una baja penetración de la humedad):
Bloques( Muestras de los rollos)
1 2 3
C D B
9.9 13.4 12.7
A B D
10.1 12.9 12.9
B A C
11.4 12.2 11.4
D C A
12.1 12.3 11.9
a) ¿ Proporcionan los datos anteriores suficiente evidencia para indicar una diferencia en la pene-
tración media de la humedad para telas tratadas con los cuatro productos quı́micos ? Use α =
0.05.
b) Un investigador opina que fué innecesario el uso de un diseño de bloques aleatorizado y que
simplemente se pudiesen haber comparado el efecto de los productos quı́micos sobre la resistencia
con un análisis de varianza a una via. ¿ Estarı́a usted de acuerdo con este investigador ? Use un nivel
de significación de α = 0.05.
19.- Un factor importante para determinar qué lugar es más adecuado para un negocio de ventas al
menudeo es la intensidad de tránsito qué pasa por el lugar cada dı́a hábil. Se colocaron contadores en
4 lugares distintos los 5 dı́as de la semana , y se anotó el número de vehı́culos que pasaron por cada
lugar. Los datos, que se obtuvieron a través de un diseño de bloques completamente aleatorizado,
son los siguientes:
Dı́a
Lunes Martes Miércoles Jueves Viernes

I 453 500 392 441 427
Lugar II 482 605 400 450 431
III 444 505 383 429 440
IV 395 490 390 405 430
a) De alguna razón por la cual cree usted que se halla tenido que utilizar un diseño de bloques
completamente aleatorizado.
b) ¿ Se podrı́a concluir con una probabilidad de equivocarse del 5 % que existen diferencias en el
número medio de vehı́culos por dı́a en los cuatro lugares ?
c) A un nivel de significación de α = 0.05, podrı́a usted asegurar algún lugar especı́fico adecuado
para un negocio de venta ¿ Porqué ? Use la prueba de rangos de Duncan.
20.- Se desea verificar si las pérdidas, en porcentaje, ocasionados en la operación de baño electrolı́tico
de joyas de oro dependen del tipo de oro usado (en kilates) y de la cantidad empleada en el trata-
miento. Para el experimento se utilizó oro de 24, 22, 18 y 14 kilates, siendo éstos números medidas
nominales. Por lo tanto los niveles de este factor son cualitativos. Además, se escogieron tres niveles
de cantidad tratada: 50, 100 y 150 gramos. Otros factores como el tiempo del baño, solución elec-
trolı́tica, balanza, equipo y operador se mantuvieron constantes durante el experimento. La tabla
siguiente muestra los datos sobre los porcentajes de pérdida.
Cantidad usada en el Baño

Tipo de Oro
50 100 150
24 0.8 ,1.0 ,1.2 ,0.8 0.8 ,1.3 , 1.1 , 1.0 0.5 , 0.9 , 0.7 , 1.1
22 1.8 , 1.6 , 1.6 , 2.0 1.7 , 1.3 , 1.3 ,1.4 1.1 , 1.1 , 0.9 , 1.0
18 2.2 , 2.0 , 2.2 , 1.4 2.2 , 1.8 , 2.0 , 1.9 1.5 , 1.4 , 1.2 , 1.3
14 15.2 , 4.8 , 10.0 , 4.0 2.0 , 3.6 , 4.2 , 2.6 2.2 , 4.4 ,5.8 , 3.2
Con α = 0.05 y suponiéndo que se tenia solo interés en las tres cantidades usadas.
a) ¿ Existe interacción significativa entre los factores considerados en el experimento ? Haga un
gráfico para apreciar esto.
b) ¿ Qué podrı́a decir de la influencia del tipo de Oro y la cantidad usada en los porcentajes medios
de pérdidas ?
c) Si tuviera que estimar el efecto en la pérdida de utilizar oro de 22 dilates, ¿ en cuanto estimarı́a
este efecto? ¿ cuál serı́a su interpretación?
d) Suponiendo se decida utilizar una cantidad de 50 gramos en los baños electrolı́ticos, haga una
prueba de rangos de Duncan para determinar que tipo ( o tipos) de Oro es el que produce las mayores
pérdidas medias.
e) Si las tres cantidades hubiesen sido escogidas al azar, ¿ qué es lo que responderı́a en b) ?
180
21.- Un constructor de casas con fines especulativos, utiliza 3 diseños posibles y asigna cada casa a la
supervisión de uno de 4 ingenieros. Al observar una variación de la utilidad por casa, el constructor
decide investigar el efecto de los factores ”diseño de casa” y ”supervisor” en la utilidad por casa.
El constructor utilizó cada ingeniero como supervisor de cada diseño y realizó 3 casas por cada
combinación ingeniero-diseño. Los datos (en utilidades en miles de dólares por casa) fueron:
Supervisor
Diseño A1 A2 A3 A4
12.8 9.2 11.6 8.7
B1 9.4 7.8 12.9 7.4
10.3 10.9 9.6 8.5
9.2 11.4 8.7 10.3
B2 7.4 9.6 7.5 10.9
8.6 8.3 9.0 11.7
13.7 10.7 10.1 7.3
B3 12.0 10.2 8.7 8.6
14.6 11.1 9.1 6.9
a) Realize un diagrama de lı́neas, que le permita analizar gráficamente la presencia de interacción.

b) A un nivel de significación de α = 0.05 ¿ existe interacción significativa entre los factores de
diseño y de supervisión? ¿Qué puede decir del efecto de los factores de diseño y de supervisor en las
utilidades?
22.- Se efectúa un experimento para investigar el alabeo de placas de cobre. Los dos factores estudia-
dos son la temperatura y el contenido de cobre de las placas. La variable de respuesta es la magnitud
del alabeo. Los datos son los siguientes:
Contenido de cobre
40 60 80 100
50 17, 20 16, 21 24, 22 28, 27
Temperatura 75 12, 9 18, 13 17, 12 27, 31
(oC) 100 16, 12 18, 21 25, 23 30, 23
125 21, 17 23, 21 23, 22 29, 31
a) ¿ Qué es lo que usted podrı́a decir del efecto de estos factores sobre la magnitud del alabeo? ¿
Existe alguna interacción entre los factores? Utilice α = 0.05.
b) Si lo deseable es que el alabeo sea bajo, ¿ qué contenido de cobre es necesario especificar en
ambientes donde el cobre está a temperaturas de 75 y 125 grados centı́grados ? Realice la prueba de
rangos de Duncan a un nivel de α = 0.05, para justificar su respuesta.
23.- Con el fin de estudiar los efectos que en el tiempo de sobrevivencia (en horas) de animales de
laboratorio tienen 3 drogas A1, A2 y A3 y 4 tratamientos B1, B2, B3 y B4, un laboratorio realizó un
experimento que consistió en seleccionar 48 animales con las mismas caracterı́sticas a los cuales se
les inoculó un agente patógeno. Luego, se dividieron los animales en grupos de 4 y a cada animal de
un mismo grupo se le administró una de las tres drogas y uno de los 4 tratamientos, registrándose
finalmente los siguientes tiempos de sobrevivencia:
Tratamiento
B1 B2 B3 B4
3.1 8.2 4.3 4.5
A1 4.5 11.0 4.5 7.1
4.6 8.8 6.3 6.6
4.3 7.2 7.6 6.2
3.6 9.2 4.4 5.6
Droga A2 2.9 6.1 3.5 10.2
4.0 4.9 3.1 7.1
2.3 12.4 4.0 3.8
2.2 3.0 2.3 3.0
A3 2.1 3.7 2.5 3.6
1.8 3.8 2.4 3.1
2.3 2.9 2.2 3.3
Al realizar un análisis exploratorio de estos datos se encontró que no era posible asumir una varianza
constante en Y para los distintos tratamientos, por lo cual al consultársele a un estadı́stico, él sugi-
1
rió tomar como variable dependiente en este experimento a Y , donde Y es el tiempo de sobrevivencia.
Algunos cálculos con la variable transformada son los siguientes:
SC(Droga) = 0.349, SC(Tratamiento) = 0.204,
SC(Interacción) = 0.01571 y SCT = 0.655.
Siguiendo la recomendación de estadı́stico:

a) Realice un gráfico de lı́neas y explore si podrı́a pensarse que existan aquı́ efectos de interacción.
Luego, a un nivel de significación del 5 %, decida si se pueda hablar o no de interacción en este
modelo.
b) El principal objetivo del estudio era determinar la existencia de una mejor droga y un mejor
tratamiento (en el sentido de prolongar los tiempos de vida de los animales). En base a los datos
encontrados, ¿ podrı́a usted garantizar que tales existen y decir cuááles son ? Use un nivel de
significación del 5 %.
182
24.- Con el fin de precisar las condiciones óptimas de un baño de niquel, son estudiados los efectos
de la concentración de sulfona y la temperatura en el poder de reflexión de un metal niquelado. Los
datos obtenidos de poder de reflexión en este experimento factorial fueron:
Temperatura ( grados F)
75 100 125 150 175

Concentración (gramos por litro) 5 35, 39, 36 31, 37, 36 30, 31, 33 28, 20, 23 19,18,22
10 38, 46, 41 36, 44, 39 39, 32, 38 35, 47, 40 30, 38, 31
Asumiendo que los factores en estudio son fijos y usando un nivel de significación de α = 0.01
a) ¿ Puede concluirse que no existe uniformidad en los efectos de los tratamientos de los dos factores
en estudio sobre el poder de reflexión ?
b) Use la prueba de Duncan y determine para cada concentración la condición de temperatura
óptima.
25.- Un Ingeniero Industrial que trabaja en una embotelladora está interesado en el efecto de dos
tipos de botellas de 32 onzas sobre el tiempo de reparto de cajas de 12 botellas de este producto. Los
dos tipos de botellas son de plástico y de vidrio. Con el fin de analizar esto, él utiliza dos repartidores
para que realicen la tarea que consiste en mover 40 cajas del producto a una distancia de 50 pies
sobre un carrito repartidor, y acomodarlos. Se realizaron 4 réplicas de un diseño factorial 22 ; y los
tiempos que se observaron fueron los que a continuación se detallan:
Operario
1 2
Tipo de Vidrio 5.12, 4.89, 4.98, 5.00 6.65, 6.24, 5.49, 5.55
botella Plástico 4.95, 4.27, 4.43, 4.25 5.28, 4.75, 4.71, 4.91
A un nivel de significación de α = 0.05,

a) ¿ Es posible hablar aquı́ de una interacción significativa entre los factores analizados? Haga primero
un gráfico que le permita explorar este asunto.
b) ¿ Qué hay de los efectos principales ?
26.- Se realizó un diseño 24 replicado tres veces para estudiar cómo influyen cuatro factores en la
velocidad de rebobinado de una cinta de cassette. Estos factores son: A = calidad de la cinta; B =
alimentación (red (+), pilas(-)); C = posición del equipo (vertical (+), horizontal (-)) y D = tipo de
equipo (con radio(+), sin radio (-)). Los resultados fueron los siguientes:
Velocidad
A B C D
+ + + + 8.7, 4.9, 8.9
+ + + - 8.3, 8.6, 8.3
+ + - + 12.9, 12.6, 13.5
+ + - - 12.8, 12.4 , 13.5
+ - + + 10.8 , 10.8 , 10.5
+ - + - 10.8, 10.3 , 10.1
+ - - + 14.3, 14.4 , 14.8
+ - - - 12.8, 13.7, 13.1
- + + + 10.7, 11.2, 10.5
- + + - 9, 8.6 , 8.5
- + - + 12.7 , 14 , 13.5
- + - - 14.3 , 15.3, 15.4
- - + + 10.6 , 11 , 10.5
- - + - 10.6, 11, 10.8
- - - + 15.2, 14.2 , 15
- - - - 15.1, 15.7, 16
¿ Qué conclusiones saca de este estudio a un nivel de significación de α = 0.01 ?

184
Capı́tulo 7
ANÁLISIS DE REGRESIÓN
7.1. El modelo de regresión lineal simple
Consideremos una v.a. continua Y , que la llamaremos dependiente, y una variable X que la lla-
maremos independiente o predictora. El modelo de regresión lineal simple plantea que Y se relaciona
con X según:
Y = β0 + β1 X + , (7.1)
donde es un error aleatorio que usualmente se asume tiene distribución normal con media 0 y
varianza σ 2 .
Antes de analizar (5.1), es importante distinguir la naturaleza del modelo. El modelo se denomina
de efectos fijos cuando X es una variable no aleatoria y controlada por el investigador. En este caso
el investigador seleccionará valores prefijados x1 , x2 , . . . , xn de X y observará los correspondientes
valores que toma Y ; por decir, y1 , y2 . . . , yn . De otro lado el modelo se denomina de efectos aleatorios,
cuando tanto X como Y son variables aleatorias. En este caso el investigador tomará al azar n
“sujetos” y observará conjuntamente los correspondientes valores que X e Y toman en estos “sujetos”;
por decir: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).
De (5.1) obtenemos que:
yx = E[Y | X = x] = β0 + β1 x
El análisis de regresión lineal simple busca una estimación ŷx de yx ; vale decir, una estimación del
valor medio de Y para un x dado. Notese que para esto requerimos tan solo estimar los parámetros
β0 y β1 .
Supongamos que ahora al graficar los pares de datos (x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ) obtenidos por
el investigador 1 , obtenemos la nube de puntos o gráfico de dispersión siguiente:
1
Asumiremos en adelante, para simplicidad, un modelo de efectos fijos.
185
186
Claramente este gráfico da pie a pensar que (5.1) es un modelo válido para estos datos, pues los
puntos se encuentran más o menos alineados y cada Yi puede escribirse como:
Yi = β0 + β1 xi + i , ∀i = 1, 2, . . . , n ,
donde es natural asumir que los errores son independientes. El método de mı́nimos cuadrados consiste
en obtener las estimaciones de β0 y β1 que minimizen las sumas de los cuadrados de todos los errores.
En otras palabras, los estimadores de mı́nimos cuadrados β̂0 y β̂1 vienen dados por la solución al
problema:
n
X n
X
mı́n 2i ≡ mı́n (Yi − β0 − β1 xi )2 .
β0 ,β1 β0 ,β1
i=1 i=1
Vale decir por:

Pn Pn
(x − x̄)(Yi − Ȳ ) i=1 xi Yi − nx̄Ȳ
βˆ0 = Ȳ − β̂1 x̄ y β̂1 = Pn i
i=1
2
= .
i=1 (xi − x̄) (n − 1)Sx2
Esto nos provee de la estimación ŷx buscada, la cual se llama también la recta de mı́nimos cuadrados:
ŷx = β̂0 + β̂1 x
De las asunciones de normalidad e independencia de los errores, se desprenden las siguientes propie-
dades básicas:
2
Proposición 7.1 1) ŷx ∼ N (yx , σ 2 ( n1 + Pn(x−x̄) 2 )).
(x
i=1 i −x̄)
1 Pn n−1
p
2) Si S2 = n−2 i=1 (Yi − β̂0 − β̂1 xi )2 = 2
n−2 (SY − β̂12 Sx2 ), a S = S2 , se le denomina el
error estándar de estimación. Este error es una v.a. independiente de ŷx y se cumple que
(n−2)S2
W = σ2
∼ χ2 (n − 2).
Con base en esta proposición, uno puede construir la variable pivote T = qZ ∼ t(n − 2),
W
n−2
ŷx −yx
donde Z = r
(x−x̄)2
∼ N (0, 1) a fin de construir el siguiente intervalo de confianza al
1
σ + Pn
n (x −x̄)2
i=1 i
100(1 − α) % para yx ; vale decir, para el valor esperado de Y dado un x dado:
s s
1 (x − x̄)2 1 (x − x̄)2
[ŷx − t1− α2 (n-2)S + Pn 2
ŷx + t1− α2 (n-2)S + Pn 2
]
n i=1 (xi − x̄) n i=1 (xi − x̄)
En algunas circunstancias, estimar el valor medio de Y para un x dado no es tan útil como
predecir el valor especı́fico que Y tomará para un x dado. En este caso, se puede contruir lo que se
denomina un intervalo de confianza al 100(1 − α) % para la predicción de un valor particular de Y
para un x dado. Esta predicción, que la denotaremos por ŷ(x), puede escribirse simplemente como
ŷ(x) = ŷx + , por lo que su intervalo de predicción resulta ser:
s s
1 (x − x̄)2 1 (x − x̄)2
[ŷx − t1− α2 (n-2)S 1 + + Pn 2
ŷx + t 1− α (n-2)S 1 + + Pn 2
]
n i=1 (xi − x̄) n i=1 (xi − x̄)
2
Si graficamos los extremos de ambos intervalos como funciones de x, obtendremos las denomi-
nadas bandas de confianza. Estas bandas son claramente más anchas en la predicción que en la
estimación del valor medio de Y y ambas son más angostas (y por tanto dan mejores estimaciones
y/o predicciones) si x se encuentra más cerca de x̄. Esto nos provee de la siguiente moraleja: ¡ no
deben de hacerse estimaciones o predicciones de Y fuera del rango de valores de los datos de x !
Ejemplo: Un instituto del mar ha realizado un estudio acerca de la cantidad de peces que una flota
recolecta en función de la temperatura de las aguas. Ellos han obtenido en 9 dias, para temperaturas
medias fijas, los siguientes volumenes de recolección en cientos de toneladas métricas:
Volumen de recolección 100 95 80 75 60 55 52 48 40

Temperatura (en ◦ c) -2 -1 0 2 3 4 5 7 8
A la flota le interesarı́a saber si mañana su volumen de pesca será de por lo menos 52 toneladas
métricas a fin de que le sea rentable salir a la mar.
a) Haga su diagrama de dispersión y ajuste la recta de mı́nimos cuadrados.
b) Si el instituto del mar pronostica para mañana un temperatura media de 2.5 ◦ c, ¿ recomendarı́a
o no, con un nivel de confianza del 95 %, que la flota salga a la mar ? ¿ Porqué ?
Solución: a) El diagrama de dispersión siguiente muestra claramente una tendencia lineal inversa.
188
De los datos del problema, obtenemos: x̄ = 2.89 , Sx = 3.48, ȳ = 67.22 , Sy = 21.25,

P9
i=1 xi yi = 1,171 y la recta de mı́nimos cuadrados:
ŷx = 84.419725 − 5.952982x.
Esta nos estima el volumen medio de pesca para una temperatura dada x.
b) Si bien ŷ2.5 = 69.53727 TN; es decir, que el volumen medio de pesca para un dia con 2.5 ◦ c de
temperatura supera en la estimación fácilmente las 52 TN, no se puede garantizar que el volumen
de pesca para este dia especı́fico lo supere. En tal sentido para tomar la decisión, debemos hallar su
intervaloqde predicción al 95 %. De los datos obtenidos, tenemos que el error estándar de estimación
8(SY2 −(β1 Sx )2 )
es S = 7 = 5.07104 y por tanto, el intervalo buscado es:
s s
1 (2.5 − 2.889)2 1 (2.5 − 2.889)2
[ŷ2.5 − t0.975 (7)S 1 + + , ŷ 2,5 + t0 .975 (7)S 1 + + ]
9 8(3.480)2 9 8(3.480)2
o
[56.88, 82.18575]
Dado que el intervalo supera el volumen de 52 toneladas mı́nimo requerido, si se recomendarı́a salir
a la mar. ¿ Qué hubiese usted concluido si es que el volumen mı́nimo requerido hubiese sido de 65
TN ?
7.2. El modelo de regresión lineal múltiple

En el modelo de regresión lineal múltiple se trata de expresar una v.a. dependiente Y como una
función de k variables independientes X1 , X2 , . . . , Xk , según:
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ,
donde se asume que el error aleatorio tiene distribución normal de media 0 y varianza σ 2 .
Al igual que antes, el modelo de regresión lineal múltiple puede ser de efectos fijos (si las Xj ’s
no son variables aleatorias y las prefija el investigador) aleatorios (si los Xj ’s son también variables
aleatorias que se observan en una muestra de ”sujetos”junto con Y ) o mixtos, que es una combinación
de los dos anteriores. Para simplificar asumiremos en adelante un modelo de efectos fijos y comenta-
remos, solo cuando existan diferencias, el caso del modelo aleatorio. Para estimar el valor medio de
Y dados los valores ~x = (x1 , . . . , xk ) de las variables independientes, vale decir para estimar:
y~x = E[Y | X1 = x1 , . . . , Xk = xk ] = β0 + β1 x1 + β2 x2 + . . . + βk xk ,
~ =
uno deberá observar el correspondiente valor de Y para n valores dados del vector X
(X1 , X2 , . . . , Xk ) (en un modelo aleatorio tanto los valores del vector como de Y se observan simul-
taneamente al tomarse una muestra aleatoria de ”sujetos”). El modelo en términos de esta muestra
se escribe como:
yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + i , ∀i = 1, 2, . . . , n

o en forma matricial como:

Yn×1 = Xn×(k+1) B(k+1)×1 + En×1 .
Podemos aplicar ahora el método de mı́nimos cuadrados a fin de estimar B. El estimador B̂ de

mı́nimos cuadrados viene dado por aquel vector de parámetros B que resuelve:
n
X
mı́n 2i = mı́n Et E = mı́n(Y − XB)t (Y − XB).
i=1
La solución de este problema nos conduce a resolver el siguiente sistema lineal de k + 1 ecuaciones
con k + 1 incognitas:
(Xt X)B̂ = Xt Y
o explı́citamente
B̂ = (Xt X)−1 Xt Y.
Luego, la estimación buscada del valor medio de Y para un ~x dado, al cual también llamaremos el
hiperplano de regresión, vienen dada por:
ŷ~x = ~x B̂ = β̂0 + β̂1 x1 + . . . + βˆk xk .
7.3. El ajuste de los datos al modelo

Tanto en el modelo de regresión lineal simple como en el múltiple hemos asumido hasta el momen-
to que los datos ajustan bien a tales modelos teóricos. Una manera de verificarse esto, en el modelo
de regresión lineal simple, es simplemente viendo si los puntos se encuentran mas o menos alineados o
no en el gráfico de dispersión. En el modelo múltiple, tal criterio tiene obviamente poco sentido por la
dimensionalidad inherente. Por esta razón necesitaremos contar con alguna herramienta cuantitativa
para medir un ajuste lineal. La idea para ubicar un indicador se basa en el ya consabido análisis de
varianza. No es difı́cil probar que la variabilidad total de la v.a. dependiente Y , SCT = (n − 1)SY2 ,
se puede descomponer como:
n
X n
X n
X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + (Yi − Ŷi )2
i=1 i=1 i=1
Suma de cuadrados de Y = Suma de cuadrados de la regresión + Suma de cuadrados del error.
SCT = SCR + SCE, (7.2)
donde Ŷi = β̂0 + β̂1 xi1 + . . . + βˆk xik es la estimación del valor medio de Y para el i−ésimo ~x dado.
Notese que de la descomposición última se tiene que:
SCR SCE
1= + .
SCT SCT
SCR
Luego R2 = SCT (∈ [0, 1]) representa la proporción de la variabilidad total de Y que es explicada por
el modelo de regresión lineal múltiple. Mientras R2 → 1, mejor será el ajuste de los datos al modelo.
190
R2 se denomina el coeficiente de determinación y una manera de obtenerlo es usando la siguiente

fórmula:
k
X
SCR = β̂j SjY ,
j=1
Pn 1 Pn
donde SjY = i=1 xij Yi −nx̄j Ȳ ( con x̄j = n i=1 xij ) y SCT = (n−1)SY2 . Es importante destacar,
que R2 presenta el inconveniente de crecer con k. Por esta razón, y a la luz de comparar de manera
descriptiva dos o más modelos con desigual número de variables independientes, se aconseja utilizar
el coeficiente de determinación ajustado:
2 (1 − R2 )(n − 1)
RA =1− .
n−k−1
Nota: En el caso de un modelo de regresión lineal simple, es común utilizar como medida del ajuste
el coeficiente de correlación de Pearson entre x e Y :
Pn
xi Yi − nx̄Ȳ Sx
rxY = i=1 = β̂1 .
(n − 1)Sx SY SY
Este coeficiente, que sólo toma valores entre -1 y 1, nos indica un mejor ajuste lineal entre x e Y
mientras rxY se encuentre más cerca a estos extremos. El signo positivo o negativo de rxY indicará,
respectivamente, si la relación es inversa o directa. Puede probarse que en el modelo de regresión
lineal simple: R2 = rxY
2 .
Otro criterio práctico para medir el ajuste del modelo, lo constituye la variabilidad de los resi-
duales ei = Yi − Ŷi . Este se mide, como en el caso del modelo simple, a través del error estándar de
estimación S : v
u n r
u 1 X SCE
S = t e2i = .
n−k−1 n−k−1
i=1
Mientras más pequeño sea S , mejor ajuste tendran los datos al modelo.
Si bien R2 , RA
2 y S son indicadores descriptivos para medir el ajuste de los datos al modelo de

regresión lineal, ellos no nos proveen de una decisión definitiva en cuanto a que si el modelo es idóneo
o no para relacionar de manera lineal Y con las variables independientes del estudio.
7.4. Contrastes de hipótesis en el modelo de regresión lineal

7.4.1. El contraste de adecuación del modelo
Se desea contrastar a nivel α:
H0 : β1 = β2 = . . . = βk = 0 vs H1 : ∃j / βj 6= 0.
Si rechazamos H0 , se concluirá que el modelo podrı́a ser útil para estimar el valor medio de Y , pues
algunas de las k variables independientes contribuyen con información significativa para ello. De
darse esto, es posible aún continuar con el análisis, entendiéndose que el contraste solo nos dice que
nuestro modelo es aceptable, pero no el mejor.
El contraste de hipótesis se basa en la descomposición (5.2), por lo que no es de extrañar se tenga
la siguiente tabla ANOVA
Fuente de variabilidad Suma de cuadrados Grados de libertad Medias cuadráticas

SCR M CR
Regresión SCR k M CR = k F0 = M CE
SCE
Error SCE n-k-1 M CE = n−k−1
Total SCT n-1
y que se rechaze H0 si F0 > F1−α (k, n − k − 1).
7.4.2. Contrastes sobre los parámetros individuales βj ’s
Estas pruebas tratan de ver si una variable independiente xj contribuye o no con información
significativa en la estimación del valor medio de Y en presencia de las otras variables independientes.
El contraste se resume como sigue:
Hipótesis nula Hipótesis alternativa Región crı́tica

H1 : βj > 0 T0j > t1−α (n − k − 1)
H0 : βj = 0 H1 : βj < 0 T0j < t1−α (n − k − 1)
H1 : βj 6= 0 |T0j | > t1− α2 (n − k − 1)
β̂
donde el estadı́stico T0j = √ j tiene bajo H0 una distribución t de Student con n − k − 1
S cj+1,j+1
grados de libertad y cj+1,j+1 es la entrada j + 1, j + 1 de la matriz (Xt X)−1 .
Si por ejemplo se rechaza H0 : βj = 0 en favor de H1 : βj 6= 0 podremos decir con una probabilidad
de equivocarnos de α que la variable xj si contribuye con información significativa en la estimación
del valor medio de Y .
7.4.3. Contrastes sobre un grupo de variables independientes
En algunas situaciones será de interés contrastar si un grupo de variables independientes tienen

parámetros de regresión nulos o no. Concretamente estaremos interesados en contrastar a nivel α:
H0 : βm+1 = βm+2 = . . . = βk = 0 vs H1 : ∃j ∈ {m + 1, . . . , k} / βj 6= 0, (7.3)
donde por simplificar hemos colocado que las variables de interés son las últimas del modelo, lo cual
obviamente es un caso particular y la prueba puede hacerse sobre cualquier grupo de k − m variables.
El procedimiento para realizar el contraste es intuitivamente el siguiente. Primero ajustamos
el modelo reducido (sin las variables xm+1 , . . . , xk ) y calculamos la suma de cuadrados del error
SCER . Luego ajustamos el modelo completo (con las k variables independientes) y calculamos la
suma de cuadrados del error SCEC . Después comparamos SCER con SCEC calculando la diferencia
192
SCER −SCEC . Si las variables xm+1 , . . . , xk contribuyen al modelo, SCEC será mucho más pequeño
que SCER y por tanto SCER − SCEC será más grande. Cuanto más grande sea la diferencia, más
contundentes serán las pruebas de que el modelo completo produce mejores estimaciones de E[Y ]
que el modelo reducido y que por tanto H0 es falsa. Formalmente, se rechazará H0 en (5.3) a nivel
α si:
SCER −SCEC
k−m
R.C : F1 = SCEC
> F1−α (k − m, n − k − 1).
n−k−1
Ejemplo: El rendimiento de una reacción quı́mica parece depender de la concentración de un cierto
reactivo y de la temperatura de operación. Para estudiar, esto se registraron, los siguientes rendi-
mientos a concentraciones y temperaturas dadas:
Y = Rendimiento 78 84 89 90 92 90 91 92 97 98
x = Concentración 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50
z = Temperatura 135 150 165 180 190 160 165 188 195 195
a) Ajuste los datos a un modelo de regresión múltiple y analice la correlación.

b) Realice el contraste de significación del modelo. Use α = 0.05. ¿ Se podria decir que este modelo
es mejor que uno de regresión lineal simple con solo la temperatura como variable predictora ?
c) ¿ En cuánto estimarı́a el rendimiento medio de una reacción quı́mica en la cual se utiliza una
concentración de 0.78 a una temperatura de 177 grados ?
Solución: a) Matricialmente en cualquier modelo de regresión lineal multiple con dos variables in-
dependientes se tiene que la matriz de variables independientes y el vector columna de la variable
dependiente es:
X =

... .
1x1 z1 1x2 z2 ......1xn zn e Y = Y1 Y2 ..Yn
Luego, el sistema (Xt X)B = Xt Y nos conduce al siguiente sistema de ecuaciones normales:
P P P
nβ0 + ni=1 xi β1 + ni=1 zi β2 = ni=1 Yi
Pn Pn 2
Pn Pn
i=1 xi β0 + i=1 xi β1 + i=1 xi zi β2 = i=1 xi Yi
Pn Pn Pn 2
P n
i=1 zi β0 + i=1 xi zi β1 + i=1 zi β2 = i=1 zi Yi .
P10 P10 2 P10 P10 2
En nuestro caso: i=1 xi = 7.25, i=1 xi = 5.4625, i=1 zi = 1,723, i=1 zi = 300, 669,
P10 P10 2
i=1 Yi = 901 , i=1 Yi = 81, 483 y el sistema de ecuaciones normales queda:
10β0 + 7.25β1 + 1, 723β2 = 901

7.25β0 + 5.4625β1 + 1, 226.8β2 = 646.05
1, 723β0 + 1, 226.8β1 + 300, 669β2 = 156, 231.
La solución de este sistema nos provee de las estimaciones de mı́nimos cuadrados β̂0 , β̂1 y β̂2 y el
hiperplano (en este caso un plano) de regresión :
ŷ(x,z) = 76.760212 − 18.118188x + 0.153659z.
Para medir el grado de ajuste de los datos a un modelo lineal, hallemos el coeficiente de de-
terminación y el error estándar de estimación. De los datos tenemos que la suma de cuadrados
Pn
totales SCT = 9SY2 = 2
i=1 Yi − 10Ȳ
2 = 302.8644 y la suma cuadrados de la regresión es
P P
SCR = βˆ1 ( ni=1 xi Yi − 10x̄Ȳ ) + βˆ2 ( ni=1 zi Yi − 10z̄ Ȳ ) = 281.92081. Por tanto R2 = SCR
SCT = 0.93074
q
y el ajuste es muy bueno. Además S = SCTn−3 −SCR
= 1.73119, lo cuál nos indica también al parecer
un muy buen ajuste lineal.
b) Para la significación del modelo, debemos contrastar a nivel α = 0.05
H0 : β1 = β2 = 0 vs H1 : ∃j ∈ {1, 2} / βj 6= 0.
Para esto la tabla ANOVA es:
Fuente de variabilidad Suma de cuadrados G. de libertad Medias cuadraticas F0

Regresion 281.92081 2 140.96041 47.03341
Error 20.9792 7 2.99703
Total 302.8644 9
Como F0 = 47.03341 > F0.95 (2, 7) = 4.74, se rechaza H0 y el modelo lineal dado es aceptable.
Para ver si el modelo de regresión múltiple es mejor que el lineal indicado, debemos probar que
la variable predictora x contribuya significativamente con información adicional para la estimación
del valor medio de Y . Es decir contrastar a nivel α = 0.05:
H0 : β1 = 0 vs H1 : β1 6= 0.
Se rechazará H0 si
β̂1
|T01 = √ | > t0.975 (7) = 2.365,
S c22
donde c22 es la entrada 2,2, de la matriz (Xt X)−1 . Realizando los cálculos respectivos, obtenemos
que T01 = −2.854 y consecuentemente se rechaza H0 . Esto es, la concentración si contribuye con
información significativa en la predicción de Y y por tanto es mejor un modelo de regresión lineal
multiple que el simple propuesto.
c) Como el modelo múltiple es mejor, se nos pide
ŷ(0.78,177) = 76.760212 − 18.118188(0.78) + 0.153659(177) = 89.825668.

194
7.5. Intervalos de estimación y predicción

Al igual que en el caso del modelo de regresión lineal simple, se disponen para el modelo de
regresión lineal múltiple de intervalos de confianza al 100(1 − α) % para estimar el valor medio de Y
y predecir un valor particular de Y para un ~x dado. Estos intervalos toman en el modelo múltiple
las formas siguientes:
Intervalo de confianza al 100(1 − α) % para el valor medio de Y dado un ~x = (x1 , x2 , . . . , xk )t :
q q
[ ŷ~x − t1− α2 (n-k-1)S at (Xt X)−1 a , ŷ~x + t1− α2 (n-k-1)S at (Xt X)−1 a ] ,
Intervalo de predicción al 100(1 − α) % de un valor particular de Y dado un ~x = (x1 , x2 , . . . , xk )t :

q q
[ ŷ~x − t1− 2 (n-k-1)S 1 + a (X X) a , ŷ~x + t1− 2 (n-k-1)S 1 + at (Xt X)−1 a ] ,
α t t −1 α
En ambos casos S es el error estándar de estimación y a representa al vector columna

a = (1, x1 , x2 , . . . , xk )t .
7.6. Contribución relativa de las variables independientes

La contribución de una variable xj en la estimación del valor medio de Y se mide en apariencia
por β̂j . Sin embargo, a pesar de trabajarse con un modelo de efectos fijos, uno debe de tener cuidado,
pues β̂j presenta el inconveniente de verse afectada por las unidades de medición de xj y la no
conmensurabilidad de las distintas variables involucradas en el modelo. Por esta razón se recomienda,
cuando exista tal incompatibilidad, medir la contribución real de xj en E[Y ] mediante los β̂j ’s
estandarizados:
S xj
b̂j = β̂j .
SY
Estos b̂j ’s no son otros que los coeficientes estimados en el modelo, pero de trabajarse con las variables
estandarizadas
Yi − Ȳ xij − x̄j
zYi = y zxji = (j = 1, 2, . . . , k).
SY Sxj
Si el modelo es de efectos aleatorios (es decir, si los Xj son variables aleatorias) entonces la
contribución de Xj sobre Y se mide a través de la correlación parcial entre Xj e Y . Esta se define
como sigue:
Llamemos a X1 , X2 , . . . , Xk (sin Xj ) las variables de control y realizemos un análisis de regresión
de Y con estas variables para luego calcular los residuales:
k
X
(1) 0 0 0
ei = Yi − Ŷi = Yi − β̂0 − β̂h Xih , ∀i = 1, 2, . . . , n.
h=1,h6=j
Asimismo realizemos un análisis de regresión de Xj con las variables de control, para calcular luego
los residuales:
k
X
(2) 00 00
ei = Xij − X̂ij = Xij − β̂0 − β̂h Xih , ∀i = 1, 2, . . . , n.
h=1,h6=j
Al estar estos residuales depurados del efecto de las otras variables de control, el coeficiente de corre-
lación lineal de Pearson entre e(1) y e(2) representa la relación entre Y y Xj que no puede explicarse
por el efecto de las variables restantes. Esta correlación, es justamente la llamada correlación parcial
entre Y y Xj y la denotaremos por rY Xj |X1 ...Xj−1 Xj+1 ...Xk . Se puede probar que
s
2
T0j
|rY Xj |X1 ...Xj−1 Xj+1 ...Xk | = 2 +n−k−1 ,
T0j
donde el signo de la correlación es el mismo que el de T0j .
Nota: En este capı́tulo y en el anterior, pues algunos enfocan el análisis de varianza como un caso
particular del análisis de regresión (véase el ejercicio 1 al respecto), debe tomarse en cuenta que
el análisis realizado se ha hecho con la asunción de que todos los supuestos teóricos en el modelo
son válidos. Este punto es muy delicado, pues los datos podrı́an indicar algunas inconsistencias
al respecto como por ejemplo, presentar problemas de multicolinealidad (variables independientes
que esten muy correlacionadas entre si), heterocedasticidad (varianza del error σ 2 no constante),
autocorrelación (errores que no son independientes) y no normalidad, entre otros. Para la detección
y corrección de tales problemas es vital realizar un estudio de residuales. Las técnicas descriptivas
estándares sobre residuales se encuentran implementadas en muchos de los paquetes estadı́sticos. El
lector interesado puede consultar [9], [12] ó algún texto econométrico.
7.7. Ejercicios
1.- Se condujo un experimento en un supermercado para estudiar la relación entre la cantidad de
espacio destinado a una determinada marca de café y el volumen de ventas semanales de este café.
La cantidad de espacio destinado en la estanterı́a se varió en exhibidores (“displays”) de 3, 6 y
9 anaqueles aleatoriamente durante 12 semanas, mientras que para las otras marcas de café, se
mantuvieron constantes en exhibidores de 3 anaqueles. Los datos del experimento se encuentran en
la tabla siguiente:
Ventas semanales 526 421 581 630 412 560 434 443 590 570 346 672
Número de anaqueles 6 3 6 9 3 9 6 3 9 6 3 9
a) De una medida del ajuste de los datos a un modelo lineal.

b) Suponga que durante la semana entrante se presentará el café en un exhibidor de 6 anaqueles.
Encuentre un intervalo de predicción al 95 % para las ventas semanales que se obtendrán en esa
semana.
c) ¿ Es posible analizar este problema mediante un análisis de varianza ? De ser esto factible, plantee
las hipótesis del caso y de las conclusiones que obtendrı́a de este estudio. Use α = 0.05.
2.- Un distribuidor de cerveza está estudiando el sistema de reparto de su producto. Especı́ficamente,

el distribuidor está interesado en predecir el tiempo de servicio a un expendio al menudeo. El ingeniero
196
a cargo del estudio ha sugerido que los dos factores más importantes que intervienen en el tiempo de
reparto son el número de cajas de cerveza que se entregan y la máxima distancia que debe recorrer
el repartidor. El ingeniero reunió la siguiente información, para 15 repartos elegidos al azar:
x1 10 15 10 20 25 18 12 14 16 22 24 17 13 30 24
x2 30 25 40 18 22 31 26 34 29 37 20 25 27 23 33
y 24 27 29 31 25 33 26 28 31 39 33 30 25 42 40
donde x1 = número de cajas de cerveza x2 = distancia recorrida (en kmts) y = tiempo en minutos.
a) Realize la prueba de adecuación de estos datos a un modelo lineal, y de un indice del grado de
ajuste de los datos al modelo. Use α = 0.05.
b) Ajuste el plano de regresión y estime el tiempo medio de servicio que se requerirá para satsfacer
un pedido 18 cajas de cerveza que se ubica a 35 kmts de distancia.
c) ¿ Contribuyen significativamente cada una de las variables independientes en la estimación del
tiempo medio de servicio ?. Use α = 0.05. Cuál de las dos variables da una mayor contribución ?
Nota: Para su ayuda, si X es la matriz de variables independientes, entonces la matriz (Xt X)−1 viene
dada por:
 
3.4779 −0.06857 −0.07775
 
 −0.06857 0.002374 0.0009228 
 
−0.07775 0.0009228 0.0021835
3.- Los siguientes datos provienen del número de torsiones necesarias para romper una barra , Y ,
hecha con cierto tipo de aleación y los porcentajes X y Z de los metales A y B que respectivamente,
la integran:
Y 38 40 85 40 60 68 31 35 42 18 34 29
X 1 2 3 1 2 3 1 2 3 1 2 3
Z 5 5 5 10 10 10 15 15 15 20 20 20
a) Ajuste el plano de regresión y haga la prueba de significación del modelo. Halle también R2 para
medir el ajuste. Comente.
b) ¿ Contribuye el porcentaje de metal A empleado en la aleación, con información significativa para
estimar el número medio de torsiones necesarias para romper una barra ? Use α = 0.05. ¿ Es esta
contribución mayor que la del porcentaje del metal B ? Asuma un modelo de efectos fijos.
c) Estime el número medio de torsiones necesarias para romper una barra si se utiliza un 2.5 % de
metal A y un 12 % de metal B en la aleación.
Nota: Si X es la matriz de variables independientes en este problema, la matriz (Xt X)−1 es:
 
1 −0.25 −0.0333
 
(Xt X)−1 = 
 −0.25 0.125 0 

−0.0333 0 0.00267
4.- Un criador de patos esta interesado en determinar la relación entre la utilidad unitaria de sus
ventas en función del tiempo de crianza. Para ello, el ha seleccionado 10 tiempos de crianza y
observado las siguientes utilidades en las ventas de cada uno de 10 patos elegidos al azar bajo los
tiempos considerados de crianza.
Meses de crianza 4.75 5 5.25 5.5 5.75 6 6.25 6.5 6.75 7

Utilidad (en soles) 2.2 2.45 2.6 2.85 2.75 2.45 2.3 2.25 1.9 1.2
a) Haga un diagrama de dispersión, y en base a este proponga un modelo adecuado para la relación
de interés del criador.
b) Ajuste su modelo propuesto y haga la prueba de significación de este modelo. Use α = 0.05.
c) Estime el tiempo óptimo de crianza, de tal manera que el criador obtenga las mayores utilidades
esperadas por la venta de cada pato.
5.- El departamento de transporte de una juridicción desea elaborar un modelo que relacione el
precio de licitación (Y ) para un proyecto de construcción de carretera con la longitud de la carretera
(x1 ) por construir o reparar y el número de licitadores (x2 ). Puesto que el departamento cree que
el precio licitado aumenta linealmente con la longitud de la carretera y el número de licitadores, ha
propuesto para el efecto un modelo lineal. Para el análisis se usaron datos recabados sobre el precio
de la licitación, longitud de la carretera y número de licitadores para 32 proyectos seleccionados al
azar, obteniéndose la tabla ANOVA:

Regresión 4’277,159.7074 2 2’138,579.8517
Error 514,034.5153 29 17,725.3281
el plano de regresión ajustado ŷx1 ,x2 = −1336.7220 + 12.7362x1 + 85.8151x2 y los estadı́sticos para
las pruebas individuales sobre las dos variables independientes T01 = 14.114 y T02 = 9.857.
a) ¿ Es útil el modelo para estimar el precio medio licitado ? Use α = 0.01.
b) De una medida del ajuste de los datos a este modelo.
c) Suponga que en dos licitaciones se presentan el mismo número de licitadores; pero en la segunda
la longitud de la carretera en licitación supera en 5 unidades al de la primera licitación. ¿ Cómo y
en cuánto estimarı́a varie el precio entre una y otra licitación ?
d) Pruebe la hipótesis de que el precio medio licitado aumenta al aumentar el número de licitadores
para proyectos de contrucción de carreteras de la misma longitud. Use α = 0.01.
6.- Al parecer las ventas de un producto en una compañı́a dependen del tamaño de la compañı́a y
del capital invertido en publicidad. Para investigar sobre esta cuestión se tomaron 25 compañı́as y se
midió para cada una de ellas las variables antes indicadas. Al ajustar un modelo de regresión lineal
simple usando sólo el tamaño de la compañı́a se obtuvo como suma de cuadrados para la regresión
0
el valor 15 351, 880. Posteriormente se ajustó un modelo de regresión lineal múltiple y en donde se
consideró además el capital invertido en publicidad. En este caso se obtuvo las siguientes sumas de
198
0 0
cuadrados: Para la regresión = 24 996, 987 y para los errores = 15 771, 404. Al nivel de significación
de α = 0.05:
a) ¿ Se podrı́a decir que el modelo de regresión lineal simple es útil para estimar las ventas medias ?
b) ¿ Se podrı́a decir que el modelo de regresión lineal múltiple contribuye con mayor eficacia que el
modelo de regresión lineal simple para la estimación de las ventas medias ?
7.- Los siguientes datos son acerca de la cantidad de calor desprendido en el fraguado de un cubo de
cemento (en calorı́as por gramo de cemento) y el porcentaje de cuatro sustancias en el cemento, en
relación con el peso total de la mezcla a partir de la cual se preparó el cemento. Los cuatro regresores
son:
X1 : cantidad de aluminato tricálcico
X2 : cantidad de silicato tricálcico
X3 : cantidad de aluminoferrito tetracálcico
X4 : cantidad de silicato dicálcico
La respuesta Y es la cantidad de calor desprendido.
Y X1 X2 X3 X4
78 7 29 6 60
74 1 29 15 52
104 11 56 8 20
95 7 52 6 33
102 3 71 17 6
72 1 31 22 44
93 2 54 18 22
115 21 47 4 26
83 1 40 23 34
113 11 66 9 12
Se realizó la prueba de adecuación de estos datos a un modelo lineal y se obtuvo la siguiente tabla
de análisis de varianza:

Regresión 2,190.805 4 547.701
Error 26.095 5 5.219
Total 2,216.90 9
a) Mida el grado de adecuación de estos datos al modelo. ¿ Es este significativo ?

b) ¿ Contribuyen significativamente las variables X3 y X4 (en forma conjunta) en la estimación de
la cantidad de calor desprendido ?
NOTA: Para su ayuda se le indica a continuación la matriz (Xt X−1 , donde X es la matriz de variables
independientes con sólo las variables X1 y X2 .
 
1.208528514 −0.003334522 −0.022881139
 
(Xt X)−1 = 
 −0.003334522 0.002867689 −0.00032222 

−0.022881139 −0.00032222 0.000525801
8.- Se realizaron pruebas de laboratorio para determinar el contenido de asfalto sobre la estabilidad
y la permeabilidad de concreto asfaltado de clasificación abierta. Se prepararon 4 especı́menes de
concreto con cada uno de los siguientes contenidos de asfalto (porcentaje del peso total de la mezcla):
3, 4, 5, 6, 7 y 8. Se determinó la permeabilidad al agua de cada espécimen de concreto haciendo fluir
sobre el espécimen agua al que se le extrajo el aire y midiendo la pérdida de agua. Las mediciones
de permeabilidad para los 24 espécimenes fueron:
Contenido de asfalto en % Permeabilidad en pulgadas por hora

3 1,189
3 840
3 1,020
3 980
4 1,440
4 1,227
4 1,022
4 1,293
5 1,227
5 1,180
5 980
5 1,210
6 707
6 927
6 1,067
6 822
7 853
7 900
7 733
7 585
8 395
8 270
8 310
8 208
a) Haga un gráfico que le permita visualizar la relación entre las dos variables en estudio. ¿ Se podrı́a
pensar en una relación lineal ?
200
b) Se tienen dudas entre plantear un modelo de regresión lineal simple o un modelo cuadrático:
Y = β0 + β1 x + β2 x2 + .
A un nivel de significación de α = 0.05, ¿ hay pruebas suficientes que indiquen que se debe incluir al
término cuadrático ? Para su ayuda se dispone de la siguiente tabla ANOVA del modelo cuadrático:

Regresión 2’203,970.7494 2 1’101,985.3747 52.85
Error 437,878.20893 21 20,851.34328
Total 2’641,848.9583
y de la matriz de variables independientes x, z con z = x2 :

 
5.4768 −2.092 0.18304
 
(Xt X)−1 = 
 −2.092 0.82455 −7.3661 × 10−2 

0.18304 −7.3661 × 10−2 6.6964 × 10−3
c) Obtenga a un nivel de confianza del 95 % una predicción de la permeabilidad en un espécimen de

concreto con un 5.5 % de asfalto.
9.- El gerente de ventas de una compañı́a que vende paquetes de soya a través de una cadena
nacional de supermercados, está interesado en estudiar la relación que tienen el precio al mayoreo
de su producto y la publicidad con las ventas del producto. Para lo anterior, él registró las ventas
anuales Y (en miles de dólares) que su compañı́a obtuvo a diferentes precios al mayoreo (X1 ) (en
dólares) y proporciones X2 de gastos en publicidad en cada una de n = 25 regiones respecto al total
gastado en el año pasado. Un resumen de sus resultados al realizar un análisis de regresión múltiple
es el siguiente:
Variable Media Desviación estándar

y 30.6519 7.9602
x1 0.3604 0.0357
x2 6.36 1.7049

Regresión 1,042.917 2 521.458 F0 = 24.009
Error 477.826 22 21.719
Total 1,520.743 24
Los elementos de entradas 2,2 y 3,3 de (Xt X)−1 ; siendo X la matriz de variables independientes, fueron
c22 = 33.2263 y c33 = 0.01462; y finalmente el plano de mı́nimos cuadrados ajustado resultó ser:
Ŷx1 ,x2 = 35.617 − 72.8205x1 + 3.3458x2

a) A un nivel de significación de α = 0.05, ¿ qué que le dice la tabla ANOVA anterior ?

b) Halle el coeficiente de determinación R2 e indique si es que el ajuste de los datos al modelo lineal
hallado es bueno.
c) ¿ Contribuyen, a un nivel de significación de α = 0.05, las dos variables independientes con
información significativa en la estimación de las ventas medias anuales ? ¿ Cuál de las dos variables
da mayor contribución y porqué?
10.- En un estudio para relacionar el salario actual de los empleados Y en relación a sus años de
trabajo X y al salario con el cual comenzaron Z. Se registraron estas 3 variables para todos los 474
empleados de un Banco. Los datos obtenidos fueron:
Variable Media Desviación estándar

y 13,767.83 6,830.26
x 37.19 11.79
z 6,806.43 3,148.26
Asimismo las distintas tres correlaciones de Pearson obtenidas fueron:
rxy = −0.1459, rxz = −0.0110 y rzy = 0.8801.
El gerente de la compañı́a le da a ud. esta información resumida y le pide que le realice una análisis
de regresión lineal. El desea estimar el salario medio actual que un empleado con 25 y medio años
de trabajo y un sueldo inicial de 7,500 u.m deberı́a tener.
Sugerencia: Para hallar los estimadores de mı́nimos cuadrados, resuelva las ecuaciones normales
que aparecen en las notas con k = 2 y expreselas en términos de las correlaciones y desviaciones
estándares.
11.- Muchas universidades elaboran modelos de regresión para predecir el promedio de calificaciones
(Y ) de los alumnos de nuevo ingreso. Este promedio puede entonces ayudar a tomar decisiones en
la admisión. Aunque la mayor parte de los modelos emplean muchas variables independientes para
predecir el promedio de calificaciones, para esta aplicación se escogerán las variables x1 = calificación
de expresión oral (percentil) del examen de admisión y x2 = calificación de Matemáticas (percentil)
del examen de admisión.
Se obtuvieron los datos para una muestra aleatoria de 40 ex-candidatos a nuevo ingreso de una
Universidad y al ajustar un modelo de regresión lineal múltiple con ambas variables, se obtuvo la
siguiente tabla ANOVA:
Fuente de variabiliadad Suma de Cuadrados g.l. Medias cuadráticas F0

Regresión 319.649 2 159.824 39.505
Error 149.689 37 4.046
Total 469.337 39
202
a) Dé una medida del grado de ajuste de los datos al modelo y diga a un nivel de significación de
α = 0.05, si es que este modelo podrı́a ser de utilidad.
b) Un profesor plantea que serı́a mejor emplear un modelo de regresión general de segundo orden
(no lineal):
Y = β0 + β1 x1 + β2 x2 + β3 x21 + β4 x22 + β5 x1 x2 + .
Al linealizarse este modelo con las variables x1 , x2 , x3 = x21 , x4 = x22 y x5 = x1 x2 se obtuvo la

Fuente de variabiliadad Suma de Cuadrados g.l. Medias cuadráticas F0

Regresión 439.569 5 87.914 100.409
Error 29.769 34 0.876
Total 469.337 39
¿ Puede decirse, a un nivel de significacióón de α = 0.05, si es que algunos de los nuevos términos
en el modelo de segundo orden, contribuyen con información significativa en la estimación del valor
medio de Y ? Compare luego de manera descriptiva, cual de los dos modelos propuestos da un mejor
ajuste a los datos e indique si le darı́a o no la razón al profesor.
c) Al realizarse el contraste de significación con α = 0.05 para β5 se obtuvo un estadı́stico de prueba
de T05 = 1.675, puede entonces usted asegurar con una probabilidad de equivocarse del 5 % que la
variable de interacción x1 x2 si contribuye con información significativa en la estimación de Y .
12.- Con la finalidad de estudiar la influencia que pudiera existir entre el porcentaje del pulpa de
madera en la resistencia de bolsas de papel fabricadas, se tomaron 19 observaciones del porcentaje
de pulpa y las correspondientes resistencias medidas en psi.
En un comienzo se ajusto un modelo de regresión lineal entre la variable Y = resistencia y x =
concentración, encontrándose en el análisis una suma de cuadrados de la regresión de 1,044.584.
Posteriormente se ajustó un modelo de segundo orden Y = β0 + β1 x + β2 x2 + encontrándose la

Regresión 3,105.038 2 1,552.519 F0 = 79.242
Error 313.473 16 19.592
Total 3,418.512 18
a) A un nivel de significación de α = 0.05, ¿ se podrı́a decir que el primer modelo de regresión lineal
simple es de utilidad para estimar la resistencia media ?
b) A un nivel de significación de α = 0.05, ¿ podrı́a asegurarse que el modelo de segundo orden
contribuye con una mayor información significativa (que al modelo de regresión lineal simple) para
la estimación del valor medio de la resistencia ?
13.- Se realizó un experimento con objeto de investigar el efecto de la presión de extrusión P (en
psi) y la temperatura durante la extrusión T (en grados centigrados) sobre la resistencia Y de un
nuevo tipo de plástico. Se prepararon dos especı́menes de plástico para cada una de 5 combinaciones
de presión y temperatura. A continuación, los especı́menes se ensayaron en orden aleatorio y se
registró la resistencia a la ruptura de cada especı́men. Las variables independientes se codificaron
como sigue a fin de simplificar los cálculos:
P − 200 T − 400
x1 = y x2 = .
10 25
Los n = 10 puntos de datos se listan a continuación:
x1 -2 -2 -1 -1 0 0 1 1 2 2
x2 2 2 -1 -1 -2 -2 -1 -1 2 2
Y 5.2 5.0 0.3 -0.1 -1.2 -1.1 2.2 2.0 6.2 6.1
a) Realice la prueba de significación del modelo yx1 ,x2 = β0 + β1 x1 + β2 x2 y estime, de tener sentido,
cómo y en cuánto se modificarı́a la resistencia media del plástico si la temperatura durante la extrusión
se aumentara en 50 grados y la presión se mantuviera constante. Use α = 0.05.
b) Contraste a un nivel de significación de α = 0.05, la hipótesis nula H0 : β1 = 0 contra la hipótesis
alternativa H1 : β1 6= 0. ¿Qué implicación práctica tiene el resultado de este contraste ?
c) Mida la contribución de la presión de extrusión y la temperatura durante extrusión en la resistencia
del plástico e indique cuál de estas variables da una mayor contribución.
d) A un consumidor, que ha adquirido un especı́men del plástico producido a una presión de extrusión
de 200 psi y a una temperatura durante la extrusión de 450 grados centigrados, se le ha garantizado la
devolución de su dinero si es que la resistencia de su especı́men tiene 4.8 ó menos unidades . ¿ Podrı́a
asegurarse, con un nivel de confianza del 95 %, que no le será devuelto el dinero a este consumidor ?
204
REFERENCIAS
[1] BOWKER Y LIEBERMAN. Estadı́stica para Ingenieros. Prentice Hall. Madrid.

[2] CORDOVA. Estadı́stica Inferencial. Aplicaciones. Editorial Moshera.
[3] HILDEBRAND,DAVID Y OTT, LYMAN. Estadı́stica Aplicada a la Administración y
Economı́a. Addison-Wesley Iberoamericana.
[4] HINES Y MONTGOMERY. Probabilidad y Estadı́stica para Ingenierı́a y Administración.
Cecsa. México.
[5] KENETT Y ZACS. Estadı́stica Industrial Moderna. International Thomsom Editores.
[6] LARSON. Introducción a la Teorı́a de Probabilidades e Inferencia Estadı́stica. Limusa.
[7] MENDENHALL Y REINMUTH. Estadı́stica para Administración y Economı́a.
Grupo Editorial Iberoamericana.
[8] MENDENHALL SCHEAFFER Y WACKERLY. Estadı́stica Matemática con Aplicaciones.
Grupo Editorial Iberoamericana.
[9] MENDENHALL Y SINCICH. Probabilidad y Estadı́stica para Ingenierı́a y Ciencias.
Prentice Hall.
[10] MEYER. Probabilidad y Aplicaciones Estadı́sticas. Fondo Educativo Interamericano.
[11] MILLER Y FREUNDT. Probabilidad y Estadı́stica para Ingenieros.
Prentice Hall. Madrid.
[12] PEÑA SANCHEZ DE RIVERA. Estadı́stica, Modelos y Métodos. Tomos 1 y 2. Alianza
Editorial S.A. Madrid.
[13] SCHEAFFER Y MC. CLAVE. Probabilidad y Estadı́stica para Ingenierı́a. Grupo Editorial
Iberoamericana.
205
206
Apéndice A
Tablas estadı́sticas
207
208
Tabla de la función de distribución de una v.a normal estándar FZ (z) = P (Z ≤ z)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Tabla de cuantiles q de una v.a con distribución t de Student con gl grados de libertad, FT (q) = p
p
gl 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 0.975 0.99 0.995
1 0.3249 0.5095 0.7265 1.0000 1.3764 1.9626 3.0777 6.3138 12.7062 31.8205 63.6567
2 0.2887 0.4447 0.6172 0.8165 1.0607 1.3862 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.2767 0.4242 0.5844 0.7649 0.9785 1.2498 1.6377 2.3534 3.1824 4.5407 5.8409
4 0.2707 0.4142 0.5686 0.7407 0.9410 1.1896 1.5332 2.1318 2.7764 3.7469 4.6041
5 0.2672 0.4082 0.5594 0.7267 0.9195 1.1558 1.4759 2.0150 2.5706 3.3649 4.0321
6 0.2648 0.4043 0.5534 0.7176 0.9057 1.1342 1.4398 1.9432 2.4469 3.1427 3.7074
7 0.2632 0.4015 0.5491 0.7111 0.8960 1.1192 1.4149 1.8946 2.3646 2.9980 3.4995
8 0.2619 0.3995 0.5459 0.7064 0.8889 1.1081 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.2610 0.3979 0.5435 0.7027 0.8834 1.0997 1.3830 1.8331 2.2622 2.8214 3.2498
10 0.2602 0.3966 0.5415 0.6998 0.8791 1.0931 1.3722 1.8125 2.2281 2.7638 3.1693
11 0.2596 0.3956 0.5399 0.6974 0.8755 1.0877 1.3634 1.7959 2.2010 2.7181 3.1058
12 0.2590 0.3947 0.5386 0.6955 0.8726 1.0832 1.3562 1.7823 2.1788 2.6810 3.0545
13 0.2586 0.3940 0.5375 0.6938 0.8702 1.0795 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.2582 0.3933 0.5366 0.6924 0.8681 1.0763 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.2579 0.3928 0.5357 0.6912 0.8662 1.0735 1.3406 1.7531 2.1314 2.6025 2.9467
16 0.2576 0.3923 0.5350 0.6901 0.8647 1.0711 1.3368 1.7459 2.1199 2.5835 2.9208
17 0.2573 0.3919 0.5344 0.6892 0.8633 1.0690 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.2571 0.3915 0.5338 0.6884 0.8620 1.0672 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.2569 0.3912 0.5333 0.6876 0.8610 1.0655 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.2567 0.3909 0.5329 0.6870 0.8600 1.0640 1.3253 1.7247 2.0860 2.5280 2.8453
21 0.2566 0.3906 0.5325 0.6864 0.8591 1.0627 1.3232 1.7207 2.0796 2.5176 2.8314
22 0.2564 0.3904 0.5321 0.6858 0.8583 1.0614 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.2563 0.3902 0.5317 0.6853 0.8575 1.0603 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.2562 0.3900 0.5314 0.6848 0.8569 1.0593 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.2561 0.3898 0.5312 0.6844 0.8562 1.0584 1.3163 1.7081 2.0595 2.4851 2.7874
26 0.2560 0.3896 0.5309 0.6840 0.8557 1.0575 1.3150 1.7056 2.0555 2.4786 2.7787
27 0.2559 0.3894 0.5306 0.6837 0.8551 1.0567 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.2558 0.3893 0.5304 0.6834 0.8546 1.0560 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.2557 0.3892 0.5302 0.6830 0.8542 1.0553 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.2556 0.3890 0.5300 0.6828 0.8538 1.0547 1.3104 1.6973 2.0423 2.4573 2.7500
31 0.2555 0.3889 0.5298 0.6825 0.8534 1.0541 1.3095 1.6955 2.0395 2.4528 2.7440
32 0.2555 0.3888 0.5297 0.6822 0.8530 1.0535 1.3086 1.6939 2.0369 2.4487 2.7385
33 0.2554 0.3887 0.5295 0.6820 0.8526 1.0530 1.3077 1.6924 2.0345 2.4448 2.7333
34 0.2553 0.3886 0.5294 0.6818 0.8523 1.0525 1.3070 1.6909 2.0322 2.4411 2.7284
35 0.2553 0.3885 0.5292 0.6816 0.8520 1.0520 1.3062 1.6896 2.0301 2.4377 2.7238
40 0.2550 0.3881 0.5286 0.6807 0.8507 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045
50 0.2547 0.3875 0.5278 0.6794 0.8489 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778
70 0.2543 0.3869 0.5268 0.6780 0.8468 1.0442 1.2938 1.6669 1.9944 2.3808 2.6479
90 0.2541 0.3866 0.5263 0.6772 0.8456 1.0424 1.2910 1.6620 1.9867 2.3685 2.6316
100 0.2540 0.3864 0.5261 0.6770 0.8452 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259
210
Tabla de cuantiles q de una v.a con distribución chi cuadrado de gl grados de libertad, FW (q) = p
p
gl 0.005 0.01 0.025 0.05 0.1 0.5 0.9 0.95 0.975 0.99 0.995
1 0.000 0.000 0.001 0.004 0.016 0.455 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 1.386 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 2.366 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 3.357 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 4.351 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 5.348 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 6.346 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 7.344 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 8.343 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 9.342 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 10.341 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 11.340 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.042 12.340 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 13.339 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 14.339 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 15.338 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 16.338 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 17.338 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 18.338 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 19.337 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 21.337 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 22.337 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 24.337 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 25.336 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 19.768 28.336 39.087 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892 53.672
31 14.458 15.655 17.539 19.281 21.434 30.336 41.422 44.985 48.232 52.191 55.003
32 15.134 16.362 18.291 20.072 22.271 31.336 42.585 46.194 49.480 53.486 56.328
33 15.815 17.074 19.047 20.867 23.110 32.336 43.745 47.400 50.725 54.776 57.648
34 16.501 17.789 19.806 21.664 23.952 33.336 44.903 48.602 51.966 56.061 58.964
35 17.192 18.509 20.569 22.465 24.797 34.336 46.059 49.802 53.203 57.342 60.275
40 20.707 22.164 24.433 26.509 29.051 39.335 51.805 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 37.689 49.335 63.167 67.505 71.420 76.154 79.490
70 43.275 45.442 48.758 51.739 55.329 69.334 85.527 90.531 95.023 100.425 104.215
90 59.196 61.754 65.647 69.126 73.291 89.334 107.565 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 82.358 99.334 118.498 124.342 129.561 135.807 140.169
Cuantiles para p = 0.95 de una v.a con distribución F de n gl en el numerador y d gl en el denominador.

n: Grados de libertad en el numerador
d 1 2 3 4 5 6 7 8 9 10 12 13 15
1 161 200 216 225 230 234 237 239 241 242 244 245 246
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.42 19.43
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.73 8.70
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.89 5.86
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.66 4.62
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.98 3.94
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.55 3.51
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.26 3.22
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.05 3.01
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.89 2.85
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.76 2.72
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.66 2.62
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.58 2.53
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.51 2.46
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.45 2.40
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.40 2.35
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.35 2.31
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.31 2.27
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.28 2.23
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.25 2.20
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.22 2.18
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.20 2.15
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.18 2.13
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.15 2.11
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.14 2.09
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.06 2.01
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.97 1.92
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.89 1.84
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.89 1.86 1.81
80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.88 1.84 1.79
90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94 1.86 1.83 1.78
100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.85 1.82 1.77
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.80 1.75
150 3.90 3.06 2.66 2.43 2.27 2.16 2.07 2.00 1.94 1.89 1.82 1.79 1.73
200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.80 1.77 1.72
212

d 1 2 3 4 5 6 7 8 9 10 12 13 15
1 648 800 864 900 922 937 948 957 963 969 977 980 985
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.42 39.43
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.30 14.25
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.71 8.66
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.49 6.43
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.33 5.27
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.63 4.57
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.16 4.10
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.83 3.77
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.58 3.52
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.39 3.33
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.24 3.18
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.12 3.05
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 3.01 2.95
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.92 2.86
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.85 2.79
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.79 2.72
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.73 2.67
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.68 2.62
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.64 2.57
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.60 2.53
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.56 2.50
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.53 2.47
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.50 2.44
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.48 2.41
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.37 2.31
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.25 2.18
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.13 2.06
70 5.25 3.89 3.31 2.97 2.75 2.59 2.47 2.38 2.30 2.24 2.14 2.10 2.03
80 5.22 3.86 3.28 2.95 2.73 2.57 2.45 2.35 2.28 2.21 2.11 2.07 2.00
90 5.20 3.84 3.26 2.93 2.71 2.55 2.43 2.34 2.26 2.19 2.09 2.05 1.98
100 5.18 3.83 3.25 2.92 2.70 2.54 2.42 2.32 2.24 2.18 2.08 2.04 1.97
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 2.01 1.94
150 5.13 3.78 3.20 2.87 2.65 2.49 2.37 2.28 2.20 2.13 2.03 1.99 1.92
200 5.10 3.76 3.18 2.85 2.63 2.47 2.35 2.26 2.18 2.11 2.01 1.97 1.90

d 1 2 3 4 5 6 7 8 9 10 12 13 15
1 4052 5000 5403 5625 5764 5859 5928 5981 6022 6056 6106 6126 6157
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.42 99.43
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.98 26.87
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.31 14.20
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.82 9.72
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.66 7.56
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.41 6.31
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.61 5.52
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 5.05 4.96
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.65 4.56
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.34 4.25
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.10 4.01
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.91 3.82
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.75 3.66
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.61 3.52
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.50 3.41
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.40 3.31
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.32 3.23
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.24 3.15
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.18 3.09
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.12 3.03
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 3.07 2.98
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 3.02 2.93
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.98 2.89
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.94 2.85
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.79 2.70
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.61 2.52
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.44 2.35
70 7.01 4.92 4.07 3.60 3.29 3.07 2.91 2.78 2.67 2.59 2.45 2.40 2.31
80 6.96 4.88 4.04 3.56 3.26 3.04 2.87 2.74 2.64 2.55 2.42 2.36 2.27
90 6.93 4.85 4.01 3.53 3.23 3.01 2.84 2.72 2.61 2.52 2.39 2.33 2.24
100 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.37 2.31 2.22
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.28 2.19
150 6.81 4.75 3.91 3.45 3.14 2.92 2.76 2.63 2.53 2.44 2.31 2.25 2.16
200 6.76 4.71 3.88 3.41 3.11 2.89 2.73 2.60 2.50 2.41 2.27 2.22 2.13
214

d 1 2 3 4 5 6 7 8 9 10 12 15
1 16211 20000 21615 22500 23056 23437 23715 23925 24091 24224 24426 24630
2 198.5 199.0 199.2 199.3 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4
3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69 43.39 43.08
4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44
5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.15
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03 9.81
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.81
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.03
10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47
11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.05
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.46
14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.25
15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07
16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.92
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25 4.14 3.97 3.79
18 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 4.03 3.86 3.68
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.59
20 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50
21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.43
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.36
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.30
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.25
25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.20
30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01
40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.78
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57
70 8.40 5.72 4.66 4.08 3.70 3.43 3.23 3.08 2.95 2.85 2.68 2.51
80 8.33 5.67 4.61 4.03 3.65 3.39 3.19 3.03 2.91 2.80 2.64 2.47
90 8.28 5.62 4.57 3.99 3.62 3.35 3.15 3.00 2.87 2.77 2.61 2.44
100 8.24 5.59 4.54 3.96 3.59 3.33 3.13 2.97 2.85 2.74 2.58 2.41
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37
150 8.12 5.49 4.45 3.88 3.51 3.25 3.05 2.89 2.77 2.67 2.51 2.33
200 8.06 5.44 4.41 3.84 3.47 3.21 3.01 2.86 2.73 2.63 2.47 2.30

Estadística Pucp

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Pucp

Cargado por

Copyright:

Formatos disponibles

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

Facultad de Ciencias e Ingenierı́a

Luis Hilmar Valdivieso Serrano

Prof. Luis Valdivieso

4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5. CONTRASTES DE HIPÓTESIS 107

A. Tablas estadı́sticas 119

1.2. Conceptos básicos

La Estadı́stica engloba un conjunto de métodos cientı́ficos destinados a la recolección, organi-

x = Peso de una bolsa de cemento de la producción de un dı́a de una fábrica,

y = Ingreso mensual de un hogar de una región

z = Nivel socioeconómico de un alumno de Ingenierı́a Industrial de la PUCP.

En adelante a un conjunto de n datos de una variable x, lo acostumbraremos denotar por

• Nominales: si no existe orden entre las categorı́as.

1.3. Organización de datos

1.3.1. Distribución de frecuencias para el caso cualitativo

nj : frecuencia (absoluta) o número de veces que ocurre la categorı́a j.

pj : porcentaje de la categorı́a j, calculado como pj = 100 × fj .

Categorı́as Frecuencia Frecuencia relativa Porcentaje

Distribución de frecuencias del estado de la calidad del aire

Muy Malo Malo Moderado Bueno

Figura 1.1: Gráfico de Barras

1.3.2. Distribución de frecuencias para el caso cuantitativo discreto

Distribución de la calidad del aire

Muy Malo 3.3 %

Figura 1.2: Gráfico de Sectores circulares

Número de Frecuencia Frecuencia Porcentaje Porcentaje

Distribución de frecuencias del número mensual de accidentes en el distrito

Figura 1.3: Gráfico de bastones

1.3.3. Diagramas de Pareto

Un diagrama de Pareto es similar a un gráfico de barras para frecuencias relativas o porcentuales

Causa del problema Frecuencia

Obtenga e interprete el diagrama de Pareto para estos datos.

Causa del problema Frecuencia Porcentaje Porcentaje acumulado

Con ello el diagrama de Pareto será el mostrado en la figura 1.4.

1.3.4. Distribución de frecuencias para el caso cuantitativo continuo

Figura 1.4: Diagrama de Pareto

Establecer el número de intervalos k, usualmente se consideran entre 5 y 10 intervalos, esta es

donde n es el número de datos y k se aproxima siempre a un número entero por exceso.

En adelante consideraremos la siguiente notación:

x̂j : Marca de clase o punto medio del intervalo j.

nj : Frecuencia (absoluta) o número de casos para el intervalo j.

pj : Porcentaje para el intervalo j, calculado como pj = 100 × fj .

Finalmente la tabla de distribución de frecuencias podrá representarse gráficamente a través de

4.34 10.58 16.82 23.06 29.30 35.54 41.78 48.02

1.4. Una breve introducción a R

Distribución de frecuencias acumuladas

4.34 10.58 16.82 23.06 29.30 35.54 41.78 48.02

Figura 1.7: Sitio web de R

nombrefuncion(argumentos separados por comas)

> x <- c(0,5,7,9,1,2,8)

Recuerde que lo último ocurre pues R distingue entre minúsculas y mayúsculas.

> y <- c(4,2,0,9,5,3,10,3)

R permite extraer elementos o subconjuntos cualesquieras de un vector o arreglo. Por citar el

Ejemplo 1.5 (Ejemplo 1.2 en R) Para introducir los datos escribamos

La distribución de frecuencias de esta variable se obtiene con el comando table

La distribución porcentual se podrı́a obtener con

Las frecuencias acumuladas de estos datos podrı́an obtenerse con:

> cbind(n = tab, f = tab/length(x),F=cumsum(tab/length(x)))

Finalmente el gráfico de bastones correspondiente se obtiene con:

Distribución de frecuencias del número mensual de accidentes en el distrito

Figura 1.8: Hoja Excel con la data del ejemplo 1.3.

en la consola se hará con: