Está en la página 1de 158

Métodos Estadísticos en la Ingeniería

Prof. Dr. Delia Montoro Cazorla


ii
Índice general

I Estadística Descriptiva 1

1. Estadística Descriptiva Unidimensional 3


1.1. Conceptos básicos. Población y variable. . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Organización de los datos. Tablas de frecuencias. . . . . . . . . . . . . . . . . . . 4
1.3. Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1. Diagrama de barras o rectángulos . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3. Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.4. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.5. Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.6. Diagrama de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Descripción numérica de una variable . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.3. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.4. Observaciones sobre las medidas numéricas descriptivas . . . . . . . . . . 22
1.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2. Estadística Descriptiva Bidimensional 27


2.1. Distribución de frecuencias bidimensional. Tabla de doble entrada. . . . . . . . . 27
2.2. Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 31

iii
iv ÍNDICE GENERAL

2.3. Medidas de asociación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


2.3.1. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.2. La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3. El coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4. Regresión lineal. Ajuste por mínimos cuadrados. . . . . . . . . . . . . . . . . . . 36
2.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

II Probabilidad 45

3. Introducción a la Probabilidad 47
3.1. Experimentos aleatorios. Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2. Interpretaciones de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.1. Definición clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2. Definición frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.3. Definición axiomática (Kolmogorov) . . . . . . . . . . . . . . . . . . . . . 50
3.3. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5. Teorema de la probabilidad total. Teorema de Bayes. . . . . . . . . . . . . . . . . 54
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4. Variable aleatoria 61
4.1. Definición de variable aleatoria. Clasificación. . . . . . . . . . . . . . . . . . . . . 61
4.1.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.1.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2. Características de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . 68
4.2.3. Otras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5. Algunas distribuciones importantes de probabilidad 75


5.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
ÍNDICE GENERAL v

5.1.1. El modelo de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75


5.1.2. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.3. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.4. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.5. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.6. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.2. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.3. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.4. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2.5. Distribución Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2.6. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.2.7. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.2.8. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3. Relación entre Poisson, Exponencial y Gamma . . . . . . . . . . . . . . . . . . . 86
5.4. Aproximaciones entre distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.5. Teorema Central del Límite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

III Inferencia Estadística 95

6. Introducción a la Inferencia Estadística 97


6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2. Muestra aleatoria simple. Estadísticos muestrales . . . . . . . . . . . . . . . . . . 98
6.3. Distribuciones de muestreo (poblaciones normales) . . . . . . . . . . . . . . . . . 99
6.3.1. Media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.3.2. Varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.3. Diferencia de medias muestrales . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.4. Cociente de varianzas muestrales . . . . . . . . . . . . . . . . . . . . . . . 101
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


vi ÍNDICE GENERAL

7. Estimación puntual y por Intervalos de Confianza 105


7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.1. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3. Estimación por Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 107
7.3.1. Construcción de un Intervalo de Confianza (I.C.) . . . . . . . . . . . . . . 107
7.3.2. Intervalos de Confianza para medias, varianzas y proporciones . . . . . . 109
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

8. Contrastes de Hipótesis 117


8.1. Introducción. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2. Pasos a seguir para realizar un contraste . . . . . . . . . . . . . . . . . . . . . . . 119
8.3. Contrastes de hipótesis clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.3.1. Contraste para la media de una normal con varianza conocida . . . . . . . 121

8.3.2. Contraste para la media de una normal con varianza desconocida . . . . . 122

8.3.3. Contraste para la varianza de una normal con media conocida . . . . . . . 124

8.3.4. Contraste para la varianza de una normal con media desconocida . . . . . 124

8.3.5. Contraste para el cociente de varianzas de dos normales independientes


con medias conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.6. Contraste para el cociente de varianzas de dos normales independientes
con medias desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.7. Contraste para la diferencia de medias de dos normales independientes
con varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.3.8. Contraste para la diferencia de medias de dos normales independientes


con varianzas desconocidas pero iguales . . . . . . . . . . . . . . . . . . . 126

8.3.9. Contraste para la diferencia de medias de dos normales relacionadas


(muestras apareadas) con varianzas desconocidas pero iguales . . . . . . . 128
8.3.10. Contraste para una proporción . . . . . . . . . . . . . . . . . . . . . . . . 130

8.3.11. Contraste para la comparación de dos proporciones . . . . . . . . . . . . . 131

8.4. Relación entre intervalos de confianza y contrastes de hipótesis . . . . . . . . . . 133


ÍNDICE GENERAL vii

8.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9. Análisis de la varianza (un factor): ANOVA 139


9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
9.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
9.3. Contraste de igualdad de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9.4. Descomposición de la variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
9.5. Tabla Anova. Contraste de la F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
9.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


viii ÍNDICE GENERAL
Introducción. La Estadística y su
papel en la Ingeniería.

Como la mayoría de vosotros sabéis, el papel más destacado de la Estadística es la recopi-


lación, presentación, análisis y uso de datos experimentales, a partir de los cuales obtener unas
conclusiones y tomar decisiones. En este sentido, el conocimiento de la Estadística puede re-
sultar de gran utilidad en cualquier campo y en particular en la Ingeniería. Por ejemplo, en
el diseño, desarrollo y mejora de los procesos de producción (control de la variabilidad en el
proceso, control de la calidad, etc...). Otros ámbitos de aplicación podrían ser: el estudio de
materiales (duración, dureza, elasticidad, etc...), análisis de rendimientos en procesos químicos
según empleo de catalizadores, análisis de procesos hidrológicos (cálculo de avenidas, caudales
generados por cuencas hidrográficas, etc...), análisis de dimensionamiento de estructuras y obras
basados en el análisis de riesgo, etc...
La asignatura de Métodos Estadísticos en la Ingeniería persigue enseñar a los alumnos de
I.T.I. las herramientas estadísticas básicas que le puedan ser de utilidad en sus futuros ejercicios
profesionales. La asignatura consta de tres partes: Estadística Descriptiva, Probabilidad e Infer-
encia Estadística. La Estadística Descriptiva se encarga de resumir (gráfica y numéricamente)
la información contenida en un conjunto de datos, destacando sus rasgos más relevantes. La
Inferencia Estadística permite obtener conclusiones y tomar decisiones en una población (no
observable completamente) analizando sólamente una parte representativa de ella a la que lla-
mamos muestra. La Probabilidad sirve de puente entre ambas ramas, que constituye la base
teórica para poder hacer inferencias en la población a partir de lo observado y crear modelos
para problemas concretos.

ix
x ÍNDICE GENERAL
Parte I

Estadística Descriptiva

1
Capítulo 1

Estadística Descriptiva
Unidimensional

El objetivo básico de la Estadística es extraer la información contenida en un conjunto de


observaciones. Resumir los datos es un procedimiento útil para conseguirlo y puede hacerse
mediante tablas, gráficos o valores numéricos. A lo largo de este tema veremos las principales
técnicas numéricas y gráficas que nos permiten describir una característica de interés observada
en una población, poniendo en relieve sus rasgos más importantes.

1.1. Conceptos básicos. Población y variable.


El universo de objetos al cual se refiere el estudio que se pretende realizar recibe el nombre
de población. Por ejemplo, todas las piezas terminadas en una cadena de montaje, los nacidos
en un día determinado, los coches de una determinada marca, etc. Las poblaciones pueden ser
finitas e infinitas (p.e. población de bacterias). En general, estudiar todos los individuos de una
población (aún siendo finita) es difícil, fundamentalmente por cuestiones de tiempo y costo. Se
suele entonces analizar únicamente una parte representativa de ella a la que llamamos muestra.
A las características objeto de estudio en la población se les llama variables, ya que pueden
variar de un individuo a otro. Por ejemplo, el grosor de una pieza, peso al nacer, consumo de
gasolina, partido al que va a votar un individuo, etc. Según los valores que puedan tomar las
variables, se clasifican en:

3
4 Capítulo 1. Estadística Descriptiva Unidimensional

Cualitativas (categóricas): No toman valores numéricos. Por ejemplo, causa de fallo de un


componente eléctrico, tipo de defecto presente en un material, partido al que se va a votar.
Supongamos que se distinguen tres causas de fallo para los componentes en estudio: A, B
y C. Estas son entonces las modalidades de la variable çausa de fallo". Las modalidades
han de ser exhaustivas e incompatibles. Eso significa en este caso que en A, B y C están
recogidas todas las posibles causas de fallo (exhaustivas), y cualquier componente ha de
presentar sólo una de esas causas de fallo (incompatibles).

Cuantitativas (numéricas): Toman valores numéricos. Por ejemplo, tiempo de fallo de un


componente, grosor de una pieza, altura, peso, etc. Estas a su vez se clasifican en:

• Discretas: Toman un número finito o infinito numerable de valores (toman valores


enteros). Por ejemplo, número de piezas defectuosas en un lote, número de hijos, etc.

• Continuas: Pueden tomar cualquier valor dentro de uno o varios intervalos de la


recta real (pueden tomar valores con decimales). Por ejemplo, altura, temperatura,
tiempo de fallo, etc.

1.2. Organización de los datos. Tablas de frecuencias.


Un primer resumen de la información contenida en un conjunto de datos observado se
obtiene al organizarlos en lo que se llama una tabla de frecuencias. En ésta se recogen los
distintos valores (números o categorías) que toma la variable junto con sus correspondientes
frecuencias de aparición.
Supongamos que hemos medido una variable X (numérica) sobre un conjunto de N indivi-
duos. Llamamos xi al valor que presenta el individuo i en la variable X, con i = 1, ..., N. Si
observamos entre ellos k valores distintos, diremos que X toma valores x1 , x2 , ..., xk y deter-
minaremos la frecuencia asociada a cada uno de ellos.
Para un valor xi , i = 1, ..., k, definimos las siguientes frecuencias:

Frecuencia absoluta, ni : Número de individuos que presentan el valor xi .

k
X
ni = n1 + ... + nk = N
i=1
1.2. Organización de los datos. Tablas de frecuencias. 5

Frecuencia relativa, fi : Proporción de individuos que presentan el valor xi .

ni
fi = ,
N
k
X
fi = 1
i=1

Frecuencia absoluta acumulada, Ni : Número de individuos que presentan un valor inferior


o igual a xi .
i
X
Ni = nj = n1 + ... + ni ,
j=1
Nk = N

Frecuencia relativa acumulada, Fi : Proporción de individuos que presentan un valor


inferior o igual a xi .
i
X Ni
Fi = fj = f1 + ... + fi = ,
j=1
N
Fk = 1

Observad que el cálculo de las frecuencias acumuladas sólo tiene sentido en variables numéri-
cas.
Sobre tres ejemplos vemos cómo construir la tabla de frecuencias.
Ejemplo 1.1: Supongamos que unas resistencias de cierto tipo son agrupadas en paquetes
de 50 unidades. Se seleccionaron 60 de esos paquetes y se contó el número de resistencias que
no cumplían con las especificaciones, resultando los siguientes datos:

Tabla 1.1. Número de resistencias defectuosas en cada caja de 50 unidades

2 1 2 4 0 1 3 2 0 5
3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1
2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2
1 6 0 3 3 3 6 1 2 3

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


6 Capítulo 1. Estadística Descriptiva Unidimensional

Lo primero que observamos es que la variable X = Número de resistencias defectuosas en un


paquete podría tomar valores 0,1,...,50, pero de entre ellos tan sólo 0,...,8 presentan frecuencia
no nula. Se trata de una variable cuantitativa discreta, y la tabla de frecuencias resulta:

Tabla 1.2. Tabla de frecuencias

xi ni fi Ni Fi
0 7 0.1167 7 0.1167
1 12 0.2 19 0.3167
2 13 0.2167 32 0.5334
3 14 0.2333 46 0.7667
4 6 0.1 52 0.8667
5 3 0.05 55 0.9167
6 3 0.05 58 0.9667
7 1 0.0167 59 0.9834
8 1 0.0167 60 1
N = 60 1

En la tabla se observa, por ejemplo, que tan sólo un 11.67 % de los paquetes no presentan
resistencias defectuosas, y que un elevado porcentaje de paquetes, concretamente el 86.67 %,
presentan como mucho cuatro resistencias defectuosas.
Ejemplo 1.2: Un artículo de la revista Transactions of the Institution of Chemical En-
gineers presenta datos de un experimento donde se investigó el efecto de varias variables de
un proceso sobre la oxidación en fase de vapor del naftaleno. A continuación se presenta una
muestra del porcentaje de conversión de moles de naftaleno a anhídrido maleico:

Tabla 1.3. Porcentaje de conversión de moles de naftaleno a anhídrido maleico

4.2 4.7 4.7 5.0 3.8 3.6 3.8 3.0 5.1 4.0
3.1 3.8 4.8 4.0 5.2 4.3 2.8 2.0 2.8 5.0

En este caso, la variable X = Porcentaje de conversión de moles de naftaleno a anhídrido


maleico es cuantitativa continua. Las variables continuas, al contener decimales, suelen presentar
muchos valores distintos (rara vez tendremos valores con frecuencia mayor que uno o dos) , por
lo que se suelen agrupar por intervalos. Lo mismo podría ocurrir en determinadas variables
1.2. Organización de los datos. Tablas de frecuencias. 7

discretas. ¿Cúantos intervalos hacemos y de qué amplitudes?. El número de intervalos o clases


depende del número de datos y de la dispersión de los mismos (si son parecidos o no entre sí),
pero en realidad no hay ninguna regla establecida. En la práctica se suele tomar un número de
intervalos aproximadamente igual a la raíz cuadrada del número de observaciones.

No de intervalos ' N

En cuanto a la amplitud, se suele tomar la misma en todos los intervalos. Una forma de
obtenerla es:
valor máximo de la variable-valor mínimo de la variable
Amplitud=
número de intervalos
Entonces, el valor máximo sería el extremo superior del último intervalo, y el valor mínimo
el extremo inferior del primer intervalo. Como normalmente los extremos inferiores se abren y
los superiores se cierran, en lugar de tomar exactamente el mínimo de la variable, se toma un
valor próximo inferior, ya que en otro caso el valor mínimo no podría incluirse en el primer
intervalo.
Nota: Hacer intervalos con la misma amplitud puede no ser una elección sensata si el con-
junto de datos contiene puntos extremos (raros en relación al resto). En tal caso se podrían
tomar intervalos más estrechos en la zona de más concentración y más amplios en la de menos
concentración.
En este ejemplo tenemos 20 observaciones, por lo que podemos tomar 4 intervalos. Si quiero
que el primer intervalo empiece en 1.5 y que el último termine en 5.5, tendrán una amplitud de
1.

Tabla 1.4. Tabla de frecuencias

% Moles ni fi Ni Fi
(1.5-2.5] 1 0.05 1 0.05
(2.5-3.5] 4 0.2 5 0.25
(3.5-4.5] 8 0.4 13 0.65
(4.5-5.5] 7 0.35 20 1
Al punto central de un intervalo se le llama marca de clase. La del primer intervalo es
1,5 + 2,5
2= .
2
Ejemplo 1.3: Se pregunta a un grupo de 20 alumnos de la asignatura de Métodos Estadís-
ticos, entre otras cosas, si hacen o no frecuentemente "botellón". Los resultados son:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


8 Capítulo 1. Estadística Descriptiva Unidimensional

Tabla 1.4. Hábito "botellón"

sí sí no sí no no no sí no no
no sí sí sí sí sí no sí no sí

Tabla 1.5. Tabla de frecuencias

ni fi
sí 11 0.55
no 9 0.45

Un 55 % hacen botellón frente a un 45 % que no lo hacen.

1.3. Representaciones gráficas


Veremos las representaciones gráficas más comunes para cada tipo de variable.

Cualitativas

• Diagrama de barras o rectángulos

• Diagrama de Pareto

• Diagrama de sectores

Cuantitativas

• Histograma

• Polígono de frecuencias

• Diagrama de puntos

1.3.1. Diagrama de barras o rectángulos

Se construye dibujando sobre la categoría correspondiente un rectángulo con altura igual


a la frecuencia (absoluta o relativa). También es válido para variables cuantitativas discretas,
considerando en el eje de abcisas los valores de la variable en orden creciente en lugar de las
categorías.
1.3. Representaciones gráficas 9

Diagrama de barras

12
10
8

frecuencia
6
4
2
0
n s

1.3.2. Diagrama de Pareto

Se ordenan las categorías de mayor a menor frecuencia y se dibujan los rectángulos corre-
spondientes. Es muy utilizado en controles de la calidad, donde cada clase representa un tipo
de disconformidad o problema de producción.

1.3.3. Diagrama de sectores

Se dibujan en un círculo sectores con áreas proporcionales a las frecuencias de cada una de
las categorías.

Diagrama de sectores
Hábito botellón
n
s

45,00%

55,00%

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


10 Capítulo 1. Estadística Descriptiva Unidimensional

1.3.4. Histograma

Es igual que el diagrama de rectángulos, considerando ahora en el eje de abcisas los intervalos
y en el ordenadas las frecuencias (absolutas o relativas). Si los intervalos tienen la misma
amplitud, las frecuencias son proporcionales a las alturas de los rectángulos del histograma, ya
que el área se obtiene multiplicando la base por la altura. Por lo tanto, cada altura da idea de la
densidad o concentración de datos en esa zona: donde hay más altura, aparecen frecuentemente
valores de la variable, donde hay menos, los datos son escasos. Sin embargo, esto no ocurre si
las amplitudes no son iguales, por lo que, en tal caso, se representa la frecuencia dividida por
la amplitud.
La forma del histograma -como el diagrama de barras- refleja propiedades importantes de la
variable en cuestión. Cuando el histograma presenta un único máximo, la distribución se dice
unimodal, bimodal si presenta dos, y plurimodal si presenta más de dos. Si el histograma es
simétrico respecto de un valor central, la distribución se dice simétrica, en cuyo caso todos los
puntos equidistantes a tal valor central presentan la misma frecuencia. Si la cola de la derecha se
extiende más que la de la izquierda la distribución se dice asimétrica a la derecha o positiva, lo
cual indica que la variable toma más valores bajos que altos. Si la cola de la izquierda se extiende
más que la de la derecha, asimétrica a la izquierda o negativa, predominando los valores altos.

20 8

16
6
12
4
8

4 2

0 0
-1 1 3 5 7 9 11 1,5 2,5 3,5 4,5 5,5
Asimétrico a la derecha Asimétrico a la izquierda

0
0,82 1,02 1,22 1,42 1,62 1,82
Simétrico

El histograma de la variable Porcentaje de moles de naftaleno convertidos es:


1.3. Representaciones gráficas 11

Histograma
6

frecuencia
4

3
2
1

0
1,5 2,5 3,5 4,5 5,5
Porcentaje de conversión de moles de naftaleno

1.3.5. Polígono de frecuencias

El polígono de frecuencias resulta esencialmente equivalente al histograma o al diagrama


de barras, y se obtiene uniendo mediante segmentos los centros de las bases superiores de sus
rectángulos.

Polígono de frecuencias
6

3
2

0
1,5 2,5 3,5 4,5 5,5
Porcentaje de moles de conversión de naftaleno

1.3.6. Diagrama de puntos

El diagrama de puntos resulta de utilidad cuando el conjunto de datos es razonablemente


pequeño o hay relativamente pocos datos distintos. Cada dato se representa con un punto
encima de la correspondiente localización en una escala horizontal de medida. Cuando un valor
se repite, hay un punto por cada ocurrencia y se colocan verticalmente. Permite por ejemplo
analizar la dispersión y detectar datos atípicos.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


12 Capítulo 1. Estadística Descriptiva Unidimensional

Diagrama de puntos

0 2 4 6 8
Nº de resistencias defectuosas

1.4. Descripción numérica de una variable


Las técnicas estudiadas anteriormente permiten una descripción visual de la distribución de
una variable. En muchos casos, el resumen puede hacerse eficazmente de una forma más sencilla
y precisa: utilizando valores numéricos que den idea de la ubicación o del centro de los datos
-medidas de posición- usando cantidades que informen de la concentración de las observaciones
alrededor de dicho centro -medidas de dispersión- y mediante números que reflejen la forma
(asimetría y apuntamiento) de la distribución -medidas de forma.
La conjunción de técnicas numéricas y gráficas permite una buena descripción de la variable.

1.4.1. Medidas de posición

Entre ellas estudiamos:

La media

La mediana

La moda

Cuantiles: deciles, cuartiles y percentiles

La media

Supongamos que hemos medido la variable X sobre N individuos y tenemos los valores
x1 , x2 , ...., xN . La media aritmética, o simplemente media, se calcula como:
1.4. Descripción numérica de una variable 13

- Si se dispone de los datos sin tabular:


PN
− xi x1 + ... + xN
x = i=1 =
N N

- Si los datos están tabulados:


Pk k
X
− i=1 ni xi
x= = fi xi
N i=1

La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse
muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos
atípicos).
Ejemplo 1.4: Cálculo de la media de los datos del ejemplo 1.1.

− 2 + 1 + 2 + 4 + ... + 6 + 1 + 2 + 3
x= = 2,53 resistencias defectuosas por caja.
60

A partir de la tabla de frecuencias,

xi ni ni xi
0 7 0
1 12 12
2 13 26
3 14 42
4 6 24
5 3 15
6 3 18
7 1 7
8 1 8
N = 60 152
Pk
− i=1 ni xi 152
x= = = 2,53
N 60
Ejemplo 1.5: Cálculo de la media de los datos del ejemplo 1.2
Si trabajamos con los datos sin tabular,

− 4,2 + 4,7 + ... + 2,8 + 5,0


x= = 3,985
20

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


14 Capítulo 1. Estadística Descriptiva Unidimensional

Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase.

% Moles ni xi ni xi
(1.5-2.5] 1 2 2
(2.5-3.5] 4 3 12
(3.5-4.5] 8 4 32
(4.5-5.5] 7 5 35
20 81

− 81
x= = 4,05
20
Nótese que 4.05 no es la media real, es un valor aproximado, ya que se está suponiendo que
los datos son:
2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5.

En adelante, si es posible, siempre calcularemos las medidas a partir de los datos sin agrupar
en intervalos, para no perder precisión innecesariamente.

La mediana

Es el valor que divide al conjunto de observaciones ordenado de menor a mayor en dos partes
iguales, ocupa el lugar central. Deja por tanto al 50 % de las observaciones por debajo y al 50 %
por encima.
Mín 50 % Mediana 50 % Máx

Se calcula de las siguientes formas:

- Si los datos están sin tabular: una vez ordenados de menor a mayor se toma el valor
central si el número de observaciones N es impar; si es par se toma la media de los dos
valores centrales.

- Si los datos están tabulados: si existe un valor con frecuencia relativa acumulada igual a
0.5, se toma como mediana la media de tal valor y el siguiente. En otro caso, se toma
aquel valor que supere por primera vez en frecuencia relativa acumulada 0.5.
1.4. Descripción numérica de una variable 15

A diferencia de la media, la mediana no se ve afectada por la presencia de datos extremos.


Por lo tanto, en un conjunto de datos con valores extremos, la mediana será una medida de
centralización más representativa que la media.
Ejemplo 1.6: Cálculo de la mediana de los datos del ejemplo 1.2
Los datos ordenados de menor a mayor son:

2, 2,8, 2,8, 3, 3,1, 3,6, 3,8, 3,8, 3,8, 4, 4, 4,2, 4,3, 4,7, 4,7, 4,8, 5, 5, 5,1, 5,2
4+4
M ediana ==4
2
Interpretación: en el 50 % de los experimentos se obtiene un porcentaje de conversión de
moles inferior o igual a 4.
Nótese que en el primer 4 se obtiene una frecuencia relativa acumulada de 0.5.
Ejemplo 1.7: Cálculo de la mediana de los datos del ejemplo 1.1

xi ni Fi
0 7 0.1167
1 12 0.3167
2 13 0.5334
3 14 0.7667
4 6 0.8667
5 3 0.9167
6 3 0.9667
7 1 0.9834
8 1 1
N = 60
El valor 2 es la mediana, ya que presenta una frecuencia relativa acumulada de 0.5334,
inmediatamente superior a 0.5
Interpretación: El 50 % de los cajas presentan un número de resistencias defectuosas inferior
o igual a 2.

La moda

Es el valor más frecuente de la variable (mayor ni o fi ). Es el valor que presenta mayor


altura en el diagrama de barras (caso discreto) o el intervalo con mayor altura en el histograma

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


16 Capítulo 1. Estadística Descriptiva Unidimensional

(caso continuo). La moda puede no ser única o no existir.


Ejemplo 1.8: Cálculo de la moda de los datos del ejemplo 1.1
El valor con máxima frecuencia (13) es el 3.

M oda = 3

Interpretación: lo más frecuente es encontrar cajas con 3 resistencias defectuosas.


Ejemmplo 1.9: Cálculo de la moda de los datos del ejemplo 1.2
En este caso señalamos el intervalo modal: (3.5-4.5]
Interpretación: el porcentaje de conversión de moles más frecuente está entre el 3.5 y el
4.5 %.

Cuantiles: deciles, cuartiles y percentiles

Son medidas basadas en la ordenación de los datos. Dividen al conjunto de datos ordenado
en partes iguales. Según el número de partes, hablamos de:

Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de las cuales engloba
un 10 % de datos. Hay por tanto 9 deciles, D1 , ..., D9.

Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una de las cuales engloba
un 25 % de datos. Hay por tanto 3 cuartiles, Q1 , Q2 , Q3.

Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una de las cuales
engloba un 1 % de datos. Hay por tanto 99 percentiles, P1 , ..., P99.

La mediana, al dejar por debajo a un 50 % de los datos, coincide con el D5 , Q2 y P50 .


La forma de cálculo de los cuantiles es similar a la de la mediana.
Una franja de interés es [P25 - P75 ] , que contiene al 50 % de los datos centrales. Por debajo
del P25 quedan el 25 % de los datos más pequeños, y por encima del P75 quedan el 25 % de los
datos más grandes.
Ejemplo 1.10: Cálculo de los percentiles 25 y 75 de los datos del ejemplo 1.1

P25 = 1 (Fi = 0,3167 > 0,25)

P75 = 3 (Fi = 0,7667 > 0,75)


1.4. Descripción numérica de una variable 17

Otra forma de calcularlos: el P25 es aquel valor que deja por debajo al 25 % de los datos,
que en este caso son 15 (25 % de 60). Análogamente, el P75 es el valor que deja 45 datos (75 %)
por debajo y 15 datos (25 %) por arriba.
Interpretación: El 25 % de los paquetes con menos resistencias defectuosas presentan como
mucho 1, y el 25 % de los paquetes con más resistencias defectuosas presentan como mínimo 3.
Ejemplo 1.11: Cálculo de los percentiles 25 y 75 de los datos del ejemplo 1.2

P25 = 3,35,

P75 = 4,75

1.4.2. Medidas de dispersión

Las medidas de posición o centralización no siempre proporcionan información suficiente


para describir un conjunto de datos de manera adecuada. Por ejemplo, veamos los tres conjuntos
de datos siguientes:
Ejemplo 1.12:

Tabla 1.5: Conjunto de datos ejemplo 1.12

Conjunto 1: 10,20,30,40,50
Conjunto 2: 10,30,30,30,50
Conjunto 3: 30,30,30,30,30

Las medidas de centralización de cada uno de los conjuntos son:

Media Mediana Moda


Conjunto 1 30 30 No existe
Conjunto 2 30 30 30
Conjunto 3 30 30 30

A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, hay una clara diferencia entre los tres
conjuntos: en el primero, hay gran dispersión en los datos (datos poco parecidos), en el tercero
la concentración de los datos es total, y en el segundo se da una situación intermedia. Es por
esto por lo que es necesario recurrir a otras medidas, las medidas de dispersión, que sean capaces

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


18 Capítulo 1. Estadística Descriptiva Unidimensional

de diferenciar estas situaciones. Claramente, el tercer conjunto de datos es el mejor; en él las


medidas de centralización serán plenamente representativas.
Entre las medidas de dispersión estudiamos:

Rango. Rango Intercuartílico

Varianza. Desviación típica

Coeficiente de variación

Rango. Rango Intercuartílico

Una medida de variabilidad basada en la ordenación de las observaciones es el rango, R,


definido como la difencia entre el valor máximo y el mínimo,

R = Max − M in

El rango de un conjunto de datos es muy fácil de calcular, pero ignora toda la información
contenida entre las observaciones más grande y más pequeña. Por ejemplo, las muestras 1,3,5,8,9
y 1,5,5,5,9 tienen el mismo rango igual a 8. Sin embargo, en la segunda muestra sólo existe
variabilidad en los valores extremos, mientras que en la primera los tres valores intermedios
cambian de manera considerable. Algunas veces, cuando el tamaño de la muestra es pequeño,
la pérdida de información no es muy seria. Por ejemplo, el rango se utiliza mucho en el control
de la calidad, donde se suelen utilizar muestras de tamaño 4 o 5. En general, lo que se desea
es tener una medida de variabilidad que dependa de todas las observaciones, más que de unas
cuantas.
Una medida menos sensible a los valores extremos es el rango intercuartílico, RI, definido
como la diferencia entre el tercer y primer cuartil,

RI = Q3 − Q1

Esta medida informa acerca de la representatividad de la mediana (Q2 ) : si el RI es pequeño,


el 50 % de las observaciones centrales están muy concentradas entorno a la mediana.

Varianza. Desviación típica

La varianza y desviación típica miden la dispersión de los datos entorno a la media, y hacen
uso de todas las observaciones. Una forma intuitiva de medir la concentración de los datos
1.4. Descripción numérica de una variable 19

entorno a la media es calcular lo que distan los mismos de la media,


− −
x1 − x, ..., xN − x

Si todas estas diferencias son pequeñas entonces las observaciones xi estarán próximas a x
y diremos que hay poca variabilidad. Una forma sencilla de combinar todas las desviaciones
en una única medida es promediarlas, pero al sumarlas, desviaciones positivas y grandes en
magnitud pueden ser compensadas con desviaciones negativas grandes en magnitud.
N
X N
X
− −
(xi − x) xi − N x
i=1 i=1
= =0
N N
Una alternativa es promediar tales diferencias en valor absoluto o al cuadrado. Al promedio
de las desviaciones al cuadrado se le conoce como varianza, σ2 ,
N
X N
X

(xi − x)2 x2i
i=1 i=1 −2
σ2 = = −x
N N
Si los datos están tabulados,
k
X k
X

k
ni (xi − x)2 ni x2i
X − i=1 i=1 −2
σ2 = fi (xi − x)2 = = −x
i=1
N N

Se expresa en el cuadrado de las unidades de la variable.


Observad que σ2 ≥ 0 y que σ 2 = 0 sí y sólo sí todas las observaciones son idénticas y por lo
tanto coinciden con la media (mejor de los casos).
A la raíz cuadrada de la varianza se le conoce como desviación típica,

σ= σ2

En general podríamos pensar que a mayor valor en la varianza o desviación típica, mayor
dispersión y menor concentración de los datos entorno a la media. En relación a esta idea, se
presenta el problema de que ambas medidas dependen de las unidades de medida (o dimensión)
de los datos. Por ejemplo, una misma muestra de alturas en centímetros y en metros da lugar a
varianzas distintas, mayor en el primer caso. Por lo tanto la varianza y desviación típica no nos
permiten cuantificar la variabilidad ni comparar la dispersión de variables medidas en unidades
distintas.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


20 Capítulo 1. Estadística Descriptiva Unidimensional

Nota: si en lugar de dividir en tales medidas por N dividimos por N − 1, se obtienen la


cuasivarianza y cuasidesviación típica, que denotamos respectivamente por S 2 y S,
N
X N
X
− −2
(xi − x)2 x2i − N x
i=1 i=1
S2 = = ,
√ N −1 N −1
S = S2

Ejemplo 1.13: Cálculo de la varianza y desviación típica en datos de ejemplo 1.1

xi ni ni xi ni x2i
0 7 0 00
1 12 12 12
Pk
2 13 26 52 − i=1 ni xi 152
x= = = 2,53,
3 14 42 126 N 60
N
X
4 6 24 96 x2i
−2 582
σ2 = i=1 −x = − 2,532 = 3,3
5 3 15 75 N 60

6 3 18 108 σ = 3,3

7 1 7 49
8 1 8 64
N = 60 152 582

Coeficiente de variación

Como solución al problema de dependencia de las unidades de medida de las variables que
presentan la varianza y desviación típica, se crea una nueva medida adimensional (no depende
de las unidades de medida) conocida como coeficiente de variación, definido como el cociente
entre la desviación típica y la media (en valor absoluto),
σ
CV = ¯¯−¯¯
¯ x¯

Mide la concentración relativa de los datos entorno a la media. Cuanto más próximo a cero
esté (vale 0 cuando σ = 0), menor dispersión habrá, y por lo tanto más representativa será la
media.
Ejemplo 1.14: Con un micrómetro se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm y una desviación típica de 0.012 mm; con otro micrómetro se
1.4. Descripción numérica de una variable 21

toman mediciones de la longitud de un tornillo, que tienen una media de 1.76 pulgadas y una
desviación típica de 0.0075 pulgadas. Los coeficientes de variación son:
0,012
CVbalero = = 0,003
4,03
0,0075
CVtornillo = = 0,004
1,76
En consecuencia, las mediciones realizadas con el primer micrómetro presentan una vari-
abilidad relativamente menor que las efectuadas con el segundo.

1.4.3. Medidas de forma

Ya vimos cómo a partir de una representación gráfica se pueden estudiar algunos rasgos
importantes de la variable; comentamos cómo hacernos una idea de la simetría o asimetría
de una variable según la forma del histograma. La simetría o asimetría también puede estudi-
arse con una medida numérica, el coeficiente de asimetría. Exiten varios coeficientes, el que a
continuación vemos se debe a Fisher y presenta la siguiente expresión:
PN − 3
i=1 (xi − x)
γ1 = ,
N σ3
y
Pk − Pk −
i=1 fi (xi − x)3 i=1 ni (xi − x)3
γ1 = =
σ3 N σ3
si los datos están tabulados.
Si un coeficiente de asimetría vale 0, la distribución es simétrica, si es mayor que 0, asimétrica
a la derecha o positiva, y si es menor que cero, asimétrica a la izquierda o negativa.
También podemos hacernos una idea acerca de la simetría o asimetría de una variable
comparando su media y mediana. Claramente, en variables simétricas la media, la mediana y
la moda (si es única) coinciden. Si la distribución es marcadamente asimétrica a la derecha,
su media será bastante mayor que la mediana, ya que aunque sean pocos los valores altos que
tome (cola de la derecha) , tirarán de la media hacia arriba, mientras que a la mediana según
comentamos no le afectan los valores extremos. Si la distribución es marcadamente asimétrica
a la izquierda, la media será bastante menor que la mediana.
En relación a la forma aparece también el término curtosis, que hace referencia al apun-
tamiento de la distribución. Por ejemplo, si una variable presenta un histograma muy apuntado
(alta frecuencia ) y estrecho, sus datos estarán muy concentrados.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


22 Capítulo 1. Estadística Descriptiva Unidimensional

1.4.4. Observaciones sobre las medidas numéricas descriptivas

1. Cambios de variable lineales: Supongamos que a, b, son dos números reales. Hacemos una
transformación en los datos de la forma yi = axi + b, i = 1, .., N, es decir, Y = aX + b.
Entonces,
− −
y = ax + b,

σ 2y = a2 σ 2x ,

σy = |a| σx ,

2. Variable tipificada: Tipificar una variable consiste en hacer una transformación lineal tal
que la nueva variable tenga media 0 y varianza 1. La transformación es

X−x
Z=
σx
3. Variable clasificada en grupos o estratos: Supongamos que tenemos N observaciones clasi-

ficadas en L grupos. El grupo i presenta un tamaño ni , una media xi , una varianza σ2i ,
ni
y su peso en el total de la población es wi = . Entonces, la media total y la varianza
N
total (de las N observaciones) vienen dadas por:
L
X
− −
x = wi xi ,
i=1
L
X L
X − −
σ 2x = wi σ 2i + wi (xi − x)2
i=1 i=1

1.5. Ejercicios
1. Los ingenieros industriales realizan periódicamente un análisis de la medición del trabajo
con el fin de determinar el tiempo requerido para generar una unidad de producción. En
una planta de procesamiento se registró durante 20 días el número de horas-obrero totales
requeridas para realizar cierta tarea. Los datos recogidos son:

128 119 95 97
113 109 124 132
146 128 103 135
124 131 133 131
100 112 111 150
1.5. Ejercicios 23

a) Obtén la tabla de frecuencias absolutas y relativas.

b) Construye el histograma.

c) Calcula la media, mediana y moda. Interpreta resultados.

d) ¿Cuánto tiempo requieren como máximo el 25 % de los obreros más rápidos?. ¿Cuánto
tiempo requieren como mínimo el 25 % de los que más tiempo emplean?.

e) En base al histograma estudia la simetría o asimetría de la distribución.

f ) Decide qué medida de posición puede ser representativa.

g) Calcula una medida de dispersión asociada a la medida de posición anterior.

2. Describe las características de los cuatro histogramas siguientes, y razona cuál es la medida
de centralización y dispersión más adecuada para la distribución correspondiente.

8 40

6 30

4 20

2 10

0 0
0 1 2 3 4 5 6 -1 1 3 5 7 9 11

40

30

20

10

0
-2,5 -1,5 -0,5 0,5 1,5 2,5 3,5

3. El técnico responsable del funcionamiento de una empaquetadora automática la ajustó,


en principio, para 450 g. Media hora después del principio de la producción se apartaron
10 paquetes para verificar su peso. Los resultados son:

Peso (g) 448 450 453 451 447 449 446 451 448 447

a) ¿Cuál es el peso medio de esa muestra?. Calcula la varianza y la desviación típica,


así como la mediana y los percentiles 25 y 75.

b) Se considera que la empaquetadora funciona correctamente si la media de una mues-


tra de 10 paquetes se sitúa en el intervalo [448,452]. ¿Cuál es la conclusión en el caso

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


24 Capítulo 1. Estadística Descriptiva Unidimensional

de la muestra anterior?. ¿Te parece correcta la elección de tal método de decisión?.


¿Alguna idea para mejorar?.

4. El responsable en control industrial de una empresa somete a un test de fiabilidad 50


dispositivos electrónicos idénticos y anota su duración (tiempo hasta el fallo en horas).
La recogida de datos lleva a la distribución de frecuencias siguiente:

Duración (horas) No de dispositivos


0 < X ≤ 200 17
200 < X ≤ 400 9
400 < X ≤ 600 7
600 < X ≤ 800 7
800 < X ≤ 1000 6
1000 < X ≤ 1200 2
1200 < X ≤ 1400 1
1400 < X ≤ 1600 1

a) Obtén la tabla de frecuencias relativas y relativas acumuladas.

b) Representa el histograma. Señala el intervalo modal.

c) ¿Cuál es el tiempo medio de fallo de este tipo de dispositivos?.

d) ¿En qué intervalo se encontrará la mediana?.

e) ¿Qué porcentaje de dispositivos tienen una duración superior a 200h? ¿y a 600?.


¿Qué porcentaje de dispositivos tienen una duración comprendida en el intervalo
200 < X ≤ 400?.¿Qué porcentaje supera el tiempo medio de fallo?.

5. En una empresa se clasifican los accidentes laborales según causen o no la baja en el


trabajador. Los datos medidos mensualmente durante un año son:

No Accidentes
No causan baja 498
Causan baja 152
650

a) Calcula los porcentajes correspondientes a cada tipo de accidente.


1.5. Ejercicios 25

b) Obtén una representación gráfica.

6. En una empresa, los empleados se clasifican en dos categorías: técnicos y especialistas. El


número de empleados, el salario medio anual en miles de euros y la desviación típica se
muestran en la tabla siguiente:

Categoría No de empleados Salario medio Desv. típica


Especialista 20 24 3
Técnico 100 18 4

a) Calcula el salario medio y varianza del salario para el conjunto de trabajadores de


la empresa.

b) En la negociación del salario del año siguiente, se proponen dos alternativas. La


primera consiste en elevar los salarios un 5 % a todo el personal. La segunda, en
elevar el salario 1.2 miles de euros al año a todo el personal. Calcula la media y
varianza para el conjunto de los trabajadores en ambas alternativas. ¿Qúe alternativa
es mejor?. Razona la respuesta.

7. En una liga de rugby femenino se contabilizaron y clasificaron las lesiones que tienen lugar
(A=rotura de menisco, B=rotura de ligamentos, C=rotura de tibia, D=rotura de rótula,
E=rotura de fémur). Los resultados son:

A B B A C A A D B A C
E B B A A C D C A C B
C C C A B B C A A B C
C A C B B D A B A C B
C C A B B A D E C A B

Realiza una tabla de frecuencias y dibuja el diagrama de Pareto. Interpreta resultados.

8. Se tienen dos proveedores en dos áreas geográficas diferentes. En la primera zona los
proveedores tienen una puntuación media de 6.23 con una desviación típica de 2.3. En
la segunda zona tienen una media de 5.2 con una desviación de 1.3. El proveedor de la
primera zona tiene una puntuación de 6.84 y el de la segunda tiene una puntuación de
6.31. ¿Cuál de los dos dos es mejor en relación a su zona?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


26 Capítulo 1. Estadística Descriptiva Unidimensional
Capítulo 2

Estadística Descriptiva
Bidimensional

Hasta ahora hemos estudiado sobre cada individuo de una población el comportamiento
de una variable X. En ocasiones se está interesado en el estudio simultáneo de dos (o más)
variables, X e Y, con el fin de observar una posible relación entre ellas.

2.1. Distribución de frecuencias bidimensional. Tabla de


doble entrada.

Consideremos una población de N individuos sobre los que medimos conjuntamente dos
variables, X e Y. Cada individuo vendrá dado entonces por un par de valores (xi , yi ), i = 1, ..., N.
Al igual que en el caso unidimensional, debemos buscar una forma organizada de presentar las
observaciones. Esto se consigue con las tablas de doble entrada.

Supongamos que la variable X presenta k valores distintos, x1 , ..., xk , y la variable Y


presenta p valores distintos, y1 , ..., yp . La tabla de doble entrada se construye de la siguiente
forma:

27
28 Capítulo 2. Estadística Descriptiva Bidimensional

Tabla 2.1: Tabla de doble entrada

X\Y y1 ··· yj ··· yp


x1 n11 n1j n1p n1.
..
.
xi ni1 nij nip ni. ,
..
.
xk nk1 nkj nkp nk.
n,1 n.j n.p N

donde nij es la frecuencia absoluta del par (xi , yj ), es decir, el número de individuos que
presentan el valor xi en X e yj en Y. La frecuencia relativa correspondiente, fij , se calcula sin
más que dividir la frecuencia absoluta por el total de observaciones, N,

nij
fij =
N

Claramente,

p
k X
X
nij = N,
i=1 j=1
p
k X
X
fij = 1.
i=1 j=1

Ejemplo 2.1: 20 alumnos de la asignatura de Métodos Estadísticos se asignan los siguientes


2.1. Distribución de frecuencias bidimensional. Tabla de doble entrada. 29

grados -de 1 a 10- de atractivo personal (GAPER) e inteligencia (GINTE),

Individuo GINTE GAPER


1 6 6
2 7 8
3 8 8
4 7 8
5 8 9
6 6 7
7 8 10
8 6 6
9 7 8
10 4 5
11 6 5
12 6 4
13 5 3
14 7 7
15 5 8
16 5 5
17 5 2
18 8 9
19 6 5
20 5 5

La tabla de doble entrada queda de la siguiente forma:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


30 Capítulo 2. Estadística Descriptiva Bidimensional

Tabla 2.2

GINTE\GAPER 2 3 4 5 6 7 8 9 10
4 0 0 0 1 0 0 0 0 0 1
5 1 1 0 2 0 0 1 0 0 5
6 0 0 1 2 2 1 0 0 0 6
7 0 0 1 0 3 0 0 0 0 4
8 0 0 0 0 0 0 1 2 1 4
1 1 2 5 5 1 2 2 1 N =20

En la tabla se observa ya una cierta relación lineal entre ambas variables.


Ejemplo 2.2. Pesos y alturas de los alumnos.

ALTURA\PESO (45-55] (55-65] (65-75] (75-85] ni.


(1.55-1.65] 3 (15 %) 1 0 0 4
(1.65-1.75] 1 4 (20 %) 3 1 9 (40 %)
(1.75-1.85] 1 0 1 4 6
(1.85-1.95] 0 0 1 0 1
n.j 5 5 5 5 N =20

2.2. Distribuciones marginales y condicionadas

2.2.1. Distribuciones marginales

Surgen al estudiar el comportamiento de cada una de las variables por separado.

Distribución marginal de la variable X : anotamos los distintos valores de la variable X


junto con sus frecuencias.

Denotamos por ni. el número de individuos que presentan el valor xi en X (independien-


temente del valor que presenten en Y ),
p
X
ni. = nij = ni1 + ... + nip,
j=1

por fi. la proporción de individuos que presentan el valor xi ,

ni.
fi. =
N
2.2. Distribuciones marginales y condicionadas 31

Distribución marginal de la variable Y :

Análogamente denotamos por n.j el número de individuos que presentan el valor yi en Y


(independientemente del valor que presenten en X),
k
X
n.j = nij = n1j + ... + nkj
i=1

por f.j la proporción de individuos que presentan el valor yj ,

n.j
f.j =
N

Lógicamente debe suceder que:


k
X p
X
ni. = n.j = N,
i=1 j=1
k
X p
X
fi. = f.j = 1
i=1 j=1

2.2.2. Distribuciones condicionadas

Expresan cómo se distribuye una de las variables sobre un conjunto de individuos que
verifican una determinada condición en la otra variable.

Distribución de X condicionada al valor yj de Y ( X/Y = yj ) : estudia el comportamiento


de la variable X sobre aquellos individuos que presentan el valor yj en Y. La tabla de
frecuencias presenta la siguiente forma:
nij
X/Y = yj nij fi/j =
n.j
x1 n1j f1/j
.. .. .. ,
. . .
xk nkj fk/j
n.j 1

donde fi/j es la proporción de individuos que presentan el valor xi en X de entre los que
presentan el valor yj en Y.

Distribución de Y condicionada al valor xi de X ( Y/X = xi ) : estudia el comportamiento


de la variable Y sobre aquellos individuos que presentan el valor xi en X. La tabla de

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


32 Capítulo 2. Estadística Descriptiva Bidimensional

frecuencias presenta la siguiente forma:


nij
Y/X = xi nij fj/i =
ni.
y1 ni1 f1/i
.. .. .. ,
. . .
yp nip fp/i
ni. 1

donde fj/i es la proporción de individuos que presentan el valor yj en Y de entre los que
presentan el valor xi en X.

Ejemplo 2.3: Distribución marginal de la variable GINTE (datos del ejemplo 2.1)

GINTE frec. abs. frec. rel.


4 1 0.05
5 5 0.25
6 6 0.3
7 4 0.2
8 4 0.2
N = 20 1

Ejemplo 2.4: Estudiamos el grado de atractivo personal (GAPER) sobre aquellos indivi-
duos que se asignan un grado de inteligencia inferior o igual a 5. Los resultados son:

GAPER/GINTE≤ 5 frec. abs. frec. rel.


2 1 0.16
3 1 0.16
4 0 0
5 3 0.5
6 0 0
7 0 0
8 1 0.16
6 1

Observamos que el 82 % de los individuos con GINTE≤ 5 presentan un GAPER≤ 4. Ya


advertíamos una clara asociación entre valores bajos y altos de ambas variables.
2.3. Medidas de asociación 33

2.3. Medidas de asociación


Según comentábamos, uno de los motivos por los que se estudian conjuntamente dos variables
es para ver si existe relación entre ellas, pudiendo "predecir"en caso de haberla valores de una a
partir de la otra. Una forma de detectar la posible relación entre las variables es gráficamente,
y el gráfico utilizado es conocido como diagrama de dispersión o nube de puntos. Otra forma
es a través de medidas numéricas tales como la covarianza o el coeficiente de correlación de
Pearson. Centramos fundamentalmente nuestro interés en la asociación de tipo lineal.

2.3.1. Diagrama de dispersión

Se construye representando los pares de valores observados en un eje cartesiano. Proporciona


una buena descripción de la relación existente entre las variables.
Ejemplos de casos que pueden darse:

102 102

99 99

96 96

93 93

90 90

87 87
0 0,01 0,02 0,03 0,04 0,87 1,07 1,27 1,47 1,67

a) b)

(X 1000)
10 1

8 0,8

6 0,6

4 0,4

2 0,2

0 0
0 2 4 6 8 10 12 0 2 4 6 8 10

c) d)

En a) hay ausencia de relación (independencia).

En b) existe asociación lineal positiva (varían en general en el mismo sentido).

En c) existe asociación lineal negativa (varían en sentido contrario).

En d) existe fuerte asociación, pero no lineal.

Ejemplo 2.5: Diagrama de dispersión de (GAPER, GINTE), datos de ejemplo 2.1

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


34 Capítulo 2. Estadística Descriptiva Bidimensional

10

GAPER
6

0
4 5 6 7 8
GINTE

Figura 2.1:

2.3.2. La covarianza

Es una medida de la asociación lineal existente entre dos variables. Resume la información
contenida en el diagrama de dispersión. Presenta la siguiente expresión:

- Datos sin tabular :


PN − − PN
i=1 (xi − x)(yi − y) i=1 xi yi −−
σx,y = = − xy
N N

- Datos tabulados:
Pk Pp − − Pk Pp
i=1 j=1 nij (xi − x)(yj − y) i=1 j=1 nij xi yj −−
σx,y = = − xy
N N

Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe
es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay
asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida
de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación
existente entre distintos pares de variables. Para dar solución a este problema se obtiene el
coeficiente de correlación.

2.3.3. El coeficiente de correlación

Es una medida adimensional del grado de asociación lineal existente entre dos variables. Se
define como:
σ x,y
ρx,y =
σx σ y
Algunas observaciones y propiedades:
2.3. Medidas de asociación 35

Su signo viene determinado por el de la covarianza. Indicará por tanto si la asociación es


positiva o negativa, y vale 0 cuando la covarianza vale 0 (ausencia de asociación lineal).

−1 ≤ ρx,y ≤ 1. Valores próximos a -1 indican fuerte asociación lineal negativa, valores


próximos a 1 indican fuerte asociación lineal positiva, y valores próximos a 0 indican
ausencia de asociación lineal (pero puede existir otro tipo de asociación, por ejemplo
exponencial, cuadrática, etc.)

No se debe interpretar el coeficiente sin haber visto previamente el diagrama de dispersión


(podría por ejemplo haber algún dato atípico).

Un coeficiente de correlación alto (en valor absoluto) indica que las variables toman val-
ores relacionados entre sí entre los elementos observados, pero no permite concluir la
existencia de ninguna relación de causalidad entre las variables. Por ejemplo, suponed
que se estudian conjuntamente las variables X=No de matrimonios mensuales (en una
ciudad) y Y ="Temperatura del mes", obteniéndose un coeficiente de correlación de 0.7.
Eso significa que, en efecto, suele haber más matrimonios a medida que mejoran las tem-
peraturas, pero esto no implica que un aumento de matrimonios aumente la temperatura
del mes, ni que una ola de calor cause una avalancha de matrimonios.

Ejemplo 2.6: Cálculo de la covarianza y coeficiente de correlación de (GAPER, GINTE),


datos de ejemplo 2.1

Media Desv. típica


GAPER 6.4 2.083
GINTE 6.25 1.178

6 ∗ 6 + 7 ∗ 8 + 8 ∗ 8 + ... + 6 ∗ 5 + 5 ∗ 5
σGAP ER,GINT E = − 6,25 ∗ 6,4 = 1,9
20
(datos sin tabular),
4 ∗ 1 ∗ 5 + 5 ∗ 1 ∗ 2 + ... + 8 ∗ 2 ∗ 9 + 8 ∗ 1 ∗ 10
σGAP ER,GINT E = − 6,25 ∗ 6,4
20
= 1,9

(datos tabulados, tabla 2.2)

1,9
ρGAP ER,GINT E = = 0,774
2,083 ∗ 1,178

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


36 Capítulo 2. Estadística Descriptiva Bidimensional

La asociación lineal entre las variables es positiva y relativamente fuerte.

2.4. Regresión lineal. Ajuste por mínimos cuadrados.


En la sección anterior hemos visto cómo medir la asociación lineal entre dos variables X e
Y . En caso de haber una buena asociación lineal entre ellas, nuestro objetivo será encontrar la
mejor recta que permita predecir valores en una de las variables a partir de la otra. Hablamos
de la mejor recta en el sentido de que los errores que podamos cometer al predecir sean mínimos.
Este es un problema de regresión lineal.
Supongamos que queremos encontrar la recta que mejor exprese el comportamiento de Y en
función de X con el fin de predecir con el mínimo error posible valores en Y para valores dados
en X. La recta será de la forma Y = aX + b, y debemos encontrar los valores de a y b. Nuestras
observaciones son (xi , yj ) con frecuencias nij o fij , de forma que para un valor observado xi
ˆ
tenemos un valor observado yj en Y, frente a un valor y j = axi + b que predeciría la recta. El
error cometido en la predicción en este caso vendría dado por
ˆ
eij = yj − y j = yj − axi − b,

con una frecuencia de nij o fij .


P
El promedio de todos los errores de predicción vendría dado por fij eij . Sin embargo,
esta medida no nos sirve para cuantificar el error global de predicción, ya que errores grandes
positivos y negativos podrían ser compensados. Por ello se consideran los errores al cuadrado,
P
fij e2ij .
P
Debemos encontrar a, b tal que la cantidad fij e2ij sea mínima. De ahí el nombre de ajuste
por mínimos cuadrados.
X X
Min fij e2ij = M in fij (yj − axi − b)2
a,b a,b

Derivando y operando se obtiene que:


σ x,y
a = ,
σ2x
− −
b = y − ax,

de forma que
σ x,y − σx,y −
Y = x + ( y − 2 x)
σ 2x σx
2.4. Regresión lineal. Ajuste por mínimos cuadrados. 37

es la recta de regresión de Y sobre X.


Análogamente se obtendría la recta de regresión de X sobre Y,

σx,y − σ x,y −
X= y + (x − 2 y)
σ 2y σy

Una forma de medir la bondad del ajuste y por lo tanto la fiabilidad de las estimaciones
es mediante el coeficiente de determinación, R2 = ρ2 , o simplemente con el coeficiente de
correlación. El coeficiente de determinación R2 toma valores entre 0 y 1; cuanto más se aproxime
a 1, mayor será la asociación lineal entre las variables, mejor será por lo tanto el ajuste de la
recta a la nube de puntos, y mayor fiabilidad tendrán las predicciones.
Ejemplo 2.7: Recta de regresión de GAPER sobre GINTE (datos ejemplo 2.1)

GAP ER = aGIN T E + b,

donde

1,9
a = = 1,369
1,1782
b = 6,4 − 1,369 ∗ 6,25 = −2,156

GAP ER = 1,369GINT E − 2,156

Para un individuo con GINTE=9 se predice un GAPER de aproximadamente 10.

ˆ
GAP ER(9) = 1,369 ∗ 9 − 2,156 ' 10

La estimación es fiable en un R2 ∗ 100 % = 60 %.


Ejemplo 2.8: Se desea investigar si existe relación entre la pureza del oxígeno produci-
do en un proceso de destilación químico (Y ) y el porcentaje de hidrocarburos presentes en el
condensador principal de la unidad de destilación (X). Con este fin, se obtienen las siguientes
observaciones:

X 0.99 1.02 1.15 1.29 1.46 1.36 0.87 1.23 1.55 1.40
Y 90.01 89.05 91.43 93.74 96.73 94.45 87.59 91.77 99.12 93.65

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


38 Capítulo 2. Estadística Descriptiva Bidimensional

a) Obtén una tabla de doble entrada, agrupando las variables en intervalos.

X\Y (87-90.75] (90.75-94.5] (94.5-98.25] (98.25-102] ni.


(0.8-1] 2 0 0 0 2
(1-1.2] 1 1 0 0 2
(1.2-1.4] 0 4 0 0 4
(1.4-1.6] 0 0 1 1 2
n.j 0 0 1 1 N =10

b) Calcula la media y desviación típica de cada variable, a partir del conjunto de datos
original (no agrupados por intervalos). ¿Qué variable presenta mayor dispersión entorno
a su media?.
Media Desv. típica Coef. variación
X 1.232 0.2103 0.1707
Y 92.773 3.3962 0.0366

Como el coeficiente de variación de Y es más pequeño que el de X, la variable Y pre-


senta datos más concentrados entorno a su media que X. La media es por tanto más
representativa en Y que en X.

c) Compara la pureza del oxígeno ( %) en procesos en los que el nivel de hidrocarburo es


inferior o igual a 1.25 con la de aquellos en el que es superior a 1.25. Para ello obtén la
distribución de frecuencias en ambos casos y determina por ejemplo las medias e intervalos
modales. ¿Qué se observa?.

La variable Y /X ≤ 1,25 presenta los siguientes valores: 90.01, 89.05, 91.43, 87.59, 91.77

Su distribución de frecuencias es:

Y/X ≤ 1,25 frec. abs. frec. rel.


(87-88.25] 1 0.2
(88.25-89.5] 1 0.2
(89.5-90.75] 1 0.2
(90.75-92] 2 0.4
2.4. Regresión lineal. Ajuste por mínimos cuadrados. 39

La de Y /X > 1,25 es:

Y/X > 1,25 frec. abs. frec. rel.


(93-94.75] 3 0.6
(94.75-96.5] 0 0
(96.5-98.25] 1 0.2
(98.25-100] 1 0.2

Medidas descriptivas:

Media Mediana Moda CV


Y /X ≤ 1,25 89.97 90.01 (90.75-92] 0.018
Y /X > 1,25 95.576 94.45 (93-94.75] 0.024

Se observa que la pureza del oxígeno ( %) producido en el proceso de destilación parece


aumentar con el porcentaje de hidrocarburos presentes en el condensador principal de la
unidad de destilación.

d) Calcula la covarianza y el coeficiente de correlación. Interpreta los resultados obtenidos.

1149,5142
σx,y = − 1,232 ∗ 92,773 = 0,6550,
10
0,6550
ρx,y = = 0,917
0,2103 ∗ 3,3962

Como el coeficiente de correlación está muy próximo a 1, podemos decir que existe una
fuerte asociación lineal positiva entre las variables.

e) Estima la pureza del oxígeno ( %) producido cuando el nivel de hidrocarburo es del 1.25 %.
¿En qué medida es fiable esta predicción?.

Diagrama de dispersion
102
Pureza del oxígeno (%)

99

96

93

90

87
0,87 1,07 1,27 1,47 1,67
Nivel de hidrocarburo (%)

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


40 Capítulo 2. Estadística Descriptiva Bidimensional

Y = 14,819X + 74,516,
ˆ
Y (1,25) = 93,039

R2 = 0,9172 = 0,8412

Las predicciones con la recta serán bastante fiables al ser el coeficiente de correlación o
el de determinación muy elevados. Concretamente, la bondad del ajuste de la recta a la
nube de puntos es del 84.12 %.

2.5. Ejercicios

1. Se supone que el alargamiento de un cable de acero está relacionado linealmente con la


intensidad de la fuerza aplicada. Cinco especímenes idénticos de cable dieron los resultados
siguientes:
Fuerza (X) 1.0 1.5 2 2.5 3
Alargamiento (Y ) 3 3.5 5.4 6.9 8.4

a) Estudia el grado de asociación lineal entre ambas variables.

b) Predice el alargamiento para una fuerza de 2.2. ¿En qué medida es fiable tal predic-
ción?.

2. Las bodegas modernas utilizan vehículos guiados computarizados y automatizados para


el manejo de materiales. En consecuencia, la disposición física de la bodega debe diseñarse
con cuidado a modo de evitar el congestionamiento de los vehículos y optimar el tiempo
de respuesta. En The journal of Engineering for Industry (agosto 1993) se estudió el
diseño óptimo de una bodega automatizada. La disposición empleada supone que los
vehículos no se bloquean entre sí cuando viajan dentro de la bodega, es decir, no hay
congestionamiento. La validez de este supuesto se verificó simulando por ordenador las
operaciones de la bodega. En cada simulación se varió el número de vehículos y se registró
el tiempo de congestionamiento (tiempo total que un vehículo bloquea a otro). Los datos se
muestran en la tabla de abajo. Los investigadores están interesados en conocer la relación
2.5. Ejercicios 41

entre el tiempo de congestionamiento (Y) y el número de vehículos (X).

X 1 2 3 4 5 6 7 8 9 10
Y 0 0 0.02 0.01 0.01 0.01 0.03 0.03 0.02 0.04

a) Cuantifica la dependencia lineal existente entre ambas variables.

b) Obtén la recta de regresión que expresa el tiempo de congestión en función del número
de vehículos.

c) Predice linealmente el tiempo de congestión cuando el número de vehículos es de 12.


¿Es fiable tal predicción?.

3. Insertar el de la temperatura y deformacion

4. Insertar el de las bodegas

5. Los siguientes datos se refieren al crecimiento de una colonia de bacterias en un medio de


cultivo:
X 3 6 9 12 15 18
,
Y 115000 147000 239000 356000 579000 864000
siendo X el número de días desde la inoculación e Y el número de bacterias.

Comprobar gráfica y numéricamente que el tipo de asociación entre ambas variables no


es lineal.

6. Se ha realizado un estudio para investigar el efecto de un determinado proceso térmico


en la dureza de una determinada pieza. Once piezas se seleccionaron para el estudio.
Antes del tratamiento se realizaron pruebas de dureza para determinar la dureza de cada
pieza. Después, las piezas fueron sometidas a un proceso térmico de templado con el fin
de mejorar su dureza. Al final del proceso, se realizaron nuevamente pruebas de dureza y
se obtuvo una segunda lectura. Se recogieron los siguientes datos (Kg. de presión):

Dureza previa 182 232 191 200 148 249 276 213 241 480 262
Dureza post. 198 210 194 220 138 220 219 161 210 313 226

a) Calcula la media, mediana, percentiles 25 y 75 de la dureza antes y después del


proceso.

b) Calcula la desviación típica en ambos casos. ¿En qué caso hay mayor variabilidad?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


42 Capítulo 2. Estadística Descriptiva Bidimensional

c) ¿Se puede afirmar que el proceso de templado mejora la dureza de las piezas?.

d) Decide si un modelo lineal es adecuado para explicar la dureza posterior en función


de la dureza previa. En caso afirmativo obtenlo y predice la dureza tras el proceso
de templado de una pieza con un dureza previa de 215.

7. En un estudio sociológico se postula que la actitud racista viene determinada fundamen-


talmente por el nivel de paro que en dicha sociedad existe. Para valorar esta afirmación,
el estudio proporciona los datos relativos a una muestra de 10 localidades, cuyos niveles
de paro (en %) y racismo (medidos a partir de un índice) son los siguientes:

Paro 7.5 13 5 23.2 33 21 18 30 15 27


Racismo 22 29 15 37.1 50 35 32 40 30.3 38

a. Calcula medidas de posición central (media, mediana, moda) que resuman ambas
variables.

b. ¿Qué variable presenta menor dispersión?.

c. Estudiar el grado de asociación lineal entre las variables. ¿Muestran los datos que
por término medio cuanto mayor sea la tasa de paro en la localidad, mayor será su
índice de racismo?. Razona la respuesta.

d. ¿Qué valor de índice de racismo se predice para una localidad con una tasa de paro
del 20 % ?. ¿Consideras fiable esta predicción?.

8. Una compañía eléctrica está interesada en desarrollar un modelo que relacione la demanda
pico por hora (Y, en kw) con el uso de energía total al mes (X, en kwh). La tabla siguiente
muestra los datos obtenidos de una muestra de 15 clientes:
2.5. Ejercicios 43

X(kwh) Y(kw)
679 0.79
292 0.44
1012 0.56
493 0.79
582 2.70
1156 3.64
997 4.73
2189 9.50
1097 5.34
2078 6.85
1818 5.84
1700 5.21
747 3.25
2030 4.43
5300 2.70

a) Estudia el grado de asociación lineal entre las variables.

Diagrama de dispersion
Demanda por hora (Kwh)

10

0
0 1 2 3 4 5 6
(X 1000)
Consumo energía al mes (Kwh)

b) Obtén una recta para predecir la demanda por hora en función del consumo mensual.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


44 Capítulo 2. Estadística Descriptiva Bidimensional

Estima la demanda correspondiente a un consumo de 3000 kwh. ¿En qué medida es


fiable esta predicción?

9. La hidrólisis de un cierto éster tiene lugar en medio ácido según un proceso cinético
de primer orden. Partiendo de una concentración inicial (por 103 (M )) desconocida del
éster, se han medido las concentraciones del mismo a diferentes tiempos (en minutos)
obteniéndose los resultados siguientes:

Tiempo 3 5 10 15 20 30 40 50 60 75 90
Conc. 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4

a) Realiza una nube de puntos de las dos variables. La teoría cinética de este tipo
de reacciones nos indica que la evolución de la concentración del éster en función
del tiempo se rige por Ct = C0 e−kt , donde C0 es la concentración inicial. ¿Qué
transformación de los datos nos lleva a un modelo lineal?. Realiza esta transformación
y obtén la concentración inicial C0 y la velocidad k de desaparición del éster.

b) Suponemos ahora que nos comunican que la concentración inicial del éster es C0 =
3,10−2 (M ). ¿Cómo incorporar esta información a nuestro análisis anterior?. Obtén
el nuevo valor de k.

10. La densidad del éter dimetílico a 25 o C y diferentes presiones se indica en la tabla.

Presión (mmHg) 91.74 277.3 452.8 760


Densidad (gr/cm3 ) 0.2276 0.6898 1.1291 1.9029

a. Estudia el grado de asociación lineal entre la presión y densidad del éter dimetílico
a la temperatura dada.

b. Determina la recta de regresion para predecir la densidad del éter dimetílico para
una presión dada. ¿Qué densidad se predice para una presión de 600 mmHg?

c ¿Te parece fiable tal predicción?. Razona la respuesta.


Parte II

Probabilidad

45
Capítulo 3

Introducción a la Probabilidad

Para extender los resultados del estudio descriptivo de las variables estadísticas a poblaciones
que no se observan completamente, es necesario utilizar la idea de modelo probabilístico. En esta
parte, se introduce, en primer lugar, la noción de probabilidad como idealización del concepto
de frecuencia relativa. A continuación se presenta la probabilidad condicionada y la definición
de independencia. El concepto básico para la construcción de modelos probabilísticos es el de
variable aleatoria; el estudio que aquí se realiza es paralelo al que se ha hecho en la primera
parte con las variables estadísticas, considerándose su distribución de probabilidad, su media
(o valor esperado), varianza, etc. Esta parte finaliza con el estudio de algunas distribuciones de
probabilidad bien conocidas.

3.1. Experimentos aleatorios. Sucesos.

Hay que distinguir entre dos tipos de experimentos o fenómenos: aleatorios y determinísticos.
Los fenómenos determinísticos son los que obedecen a una relación causa-efecto y al variar poco
las causas varía poco el efecto. Por ejemplo, al disparar un proyectil con el mismo ángulo de ele-
vación y las mismas condiciones siempre describe la misma parábola. Los fenómenos aleatorios
se caracterizan porque al repetirse en condiciones análogas presentan resultados impredecibles
de antemano. Por ejemplo, un experimento consistente en medir la corriente que circula por
un alambre de cobre. Al repetir varias veces la medición durante varios días, los resultados
que se obtienen podrían diferir un poco debido a pequeñas variaciones en las variables que

47
48 Capítulo 3. Introducción a la Probabilidad

no están controladas en el experimento, como cambios en la temperatura del ambiente, ligeras


variaciones en el instrumento de medida, etc., además de las propias variaciones en la fuente de
corriente. En ocasiones, las variaciones aleatorias son pequeñas en relación a los objetivos del
experimento y podrían despreciarse, en otras son de importancia y hay que analizarlas, si no
las conclusiones obtenidas podrían no ser válidas.
El objetivo del Cálculo de Probabilidades es el estudio de métodos de análisis del compor-
tamiento de fenómenos aleatorios.
El primer paso para estudiar un experimento aleatorio es registrar todos sus posibles re-
sultados. Al conjunto de todos los posibles resultados de un experimento se le llama espacio
muestral y lo denotamos por Ω. Puede estar formado por un número finito o infinito de valores.
Ejemplo 3.1:

- Lanzamiento de un dado, Ω = {1, 2, ..., 6},

- Medición del tiempo de vida de un componente elétrico: Ω = R+

Un evento o suceso es un conjunto de resultados del espacio muestral. Si está formado por
un único elemento se dice elemental. Los denotaremos con letras, A, B, C, etc.
Ejemplo 3.2:

- A=En el lanzamiento del dado se obtiene un número par ={2,4,6}

- B=En un lote de 3 piezas hay al menos una defectuosa={(def,no def, no def), (no def,
def, no def), (no def, no def, def), (def, def, no def), (def, no def, def), (no def, def, def),
(def, def, def)}.

Si el suceso contiene todos los resultados del espacio muestral se dice suceso seguro, ya que
ocurre siempre. Si no contiene ningún resultado del espacio muestral se dice suceso imposible o
nulo. Lo denotamos por ∅.
Dados dos sucesos A y B, podemos realizar las siguientes operaciones:

Suceso A ∪ B : está formado por la unión de resultados de A y B. Ocurre si ocurre A o


B (o ambos).

Suceso A ∩ B : está formado por los resultados comunes de A y B. Ocurre siempre que
ocurran A y B simultáneamente.
3.1. Experimentos aleatorios. Sucesos. 49

A y B son incompatibles, mutuamente excluyentes o disjuntos si no pueden ocurrir si-


multáneamente, A ∩ B = ∅.

Si cualquier resultado de A es también resultado de B, entonces A está contenido en B,


A ⊂ B.

− −
A es el suceso complementario de A si ocurre siempre que no ocurre A, A = Ω − A,

A ∩ A = ∅.

− − − − − −
Leyes de Morgan: A ∪ B = A ∩ B, A ∩ B = A ∪ B.

Ejemplo 3.3: Consideremos el siguiente sistema:

Figura 3.1:

LLamamos F =La componente funciona. Analizamos cada una de las componentes.


El espacio muestral es:

− − − − − − − − − − − −
Ω = {(F, F, F ), (F, F, F ), (F, F , F ), (F, F , F ), (F , F, F ), (F , F, F ), (F , F , F ), (F , F , F )}.

− − − −
- A = La primera componente funciona={(F, F, F ), (F, F, F ), (F, F , F ), (F, F , F )}

− − − −
- B = La segunda componente funciona={(F, F, F ), (F, F, F ), (F , F, F ), (F , F, F )}

− − − −
- C = La tercera componente funciona={(F, F, F ), (F, F , F ), (F , F, F ), (F , F , F )}

El sistema funciona si funciona A y B o C, por lo tanto,

− −
- D = El sistema funciona=A ∩ (B ∪ C) ={(F, F, F ), (F, F, F ), (F, F , F )}.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


50 Capítulo 3. Introducción a la Probabilidad

3.2. Interpretaciones de la probabilidad

3.2.1. Definición clásica

Sea Ω un espacio muestral finito con n elementos. La probabilidad de cada elemento es la


1
misma, igual a (espacio equiprobable). Se define la probabilidad de un suceso A como:
n
Número de casos favorables a A (en Ω)
P (A) =
Número de casos posibles
3 1
Por ejemplo, la probabilidad de que al lanzar un dado se obtenga un no par es = , ya
6 2
que la probabilidad de obtener cada uno de los resultados es la misma e igual a 1/6.
En general, la probabilidad de un suceso es la suma de las probabilidades de sus elementos.
Si el espacio muestral es equiprobable, la expresión es la dada anteriormente.

3.2.2. Definición frecuentista

Si un experimento se repite n veces y nA resultados son favorables a un suceso A, el límite


cuando n es suficientemente grande (n− > ∞) se toma como probabilidad de A. Esta definición
relaciona probabilidad con frecuencia relativa.

nA
P (A) = lı́m
n−>∞ n

Por ejemplo, si lanzamos una moneda 5 veces y en esas 5 veces se obtienen 4 caras, no
podemos decir que la probabilidad de obtener una cara en un lanzamiento es 4/5. Sin embar-
go, si lanzamos la moneda un número de veces suficientemente grande los resultados se van
28 50
estabilizando, 60 , ..., 100 − > 12 .

3.2.3. Definición axiomática (Kolmogorov)

Se llama función de probabilidad a una aplicación

P : Ω −→ R
A −→ P (A)

tal que:

(i) P (A) ≥ 0, ∀A ⊂ Ω
3.2. Interpretaciones de la probabilidad 51

(ii) P (Ω) = 1

(iii) Para toda sucesión de sucesos disjuntos dos a dos, {A1 , A2, ...} tales que Ai ∩ Aj = ∅
∀i 6= j, entonces Ã∞ !
[ ∞
X
P Ai = P (Ai )
i=1 i=1

En consecuencia se obtienen las propiedades de la probabilidad:

(i) P (∅) = 0

(ii) P (A) = 1 − P (A)

(iii) 0 ≤ P (A) ≤ 1

(iv) Si A ⊂ B, P (A) ≤ P (B)

(v) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

Ejemplo 3.4: Los resultados obtenidos de 266 muestras de aire se clasifican según la pres-
encia o no de dos moléculas raras. En 212 muestras de aire no hay ninguna de esas moléculas,
en 24 sólo está presente la molécula 1, en 18 sólo la molécula 2, y en 12 están presentes las dos
simultáneamente.
Definimos los siguientes sucesos:
A = En la muestra está presente la molécula 1
B = En la muestra está presente la molécula 2
Los datos tabulados son:

A A
B 12 18 30

B 24 212 236
36 230 266

Calculamos las siguientes probabilidades:

- Probabilidad de encontrar en una muestra la molécula 1

36
P (A) = = 0,1353
266

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


52 Capítulo 3. Introducción a la Probabilidad

- Probabilidad de encontrar en una muestra la molécula 2

30
P (B) = = 0,1127
266

- Probabilidad de que una muestra presente las dos moléculas

12
P (A ∩ B) = = 0,0451
266

- Probabilidad de que una muestra presente alguna de las moléculas

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0,2029

- Probabilidad de que ninguna de las moléculas esté presente


− − 212 −
P (A ∩ B) = = P (A ∪ B) = 1 − P (A ∪ B) = 0,7971
266

- Probabilidad de que sólo esté presente la molécula 1


− 24
P (A ∩ B) = = 0,0902
266

- Probabilidad de que sólo esté presente la molécula 2


− 28
P (B ∩ A) = = 0,067
266

Se observa que efectivamente las moléculas rara vez aparecen, pero cuando aparecen suelen
hacerlo juntas.

3.3. Probabilidad condicionada


Hasta ahora hemos visto el concepto de probabilidad partiendo de que la única información
que tenemos sobre el experimento es el espacio muestral. Sin embargo, en ocasiones se conoce
que un determinado suceso ha ocurrido. ¿Modificará esta información adicional la probabilidad
de que ocurra otro suceso?. Veremos que generalmente sí.
En el ejemplo anterior hemos observado que la probabilidad de que en una muestra de aire
aparezca alguna de las moléculas es pequeña, 0.20, y que de aparecer, suelen aparecer juntas
(ver las últimas dos probabilidades). Por lo tanto, en este caso, el conocimiento de que una de
3.4. Independencia de sucesos 53

las moléculas está presente en la muestra aumenta de manera muy marcada la probabilidad de
que la otra lo esté. En concreto, la probabilidad de que aparezca la molécula 1 en una muestra
es P (A) = 0,1353, y la probabilidad de que aparezca tal molécula en una muestra en la que
12
hemos detectado la presencia de la molécula 2 es P (A/B) = = 0,4. Definimos a continuación
30
formalmente la probabilidad condicionada.

- Probabilidad de A condicionada a B, P (A/B): probabilidad de que ocurra A si ha ocurrido


B
P (A ∩ B)
P (A/B) = , P (B) 6= 0
P (B)

- Probabilidad de B condicionada a A, P (B/A) : probabilidad de que ocurra B si ha


ocurrido A
P (A ∩ B)
P (B/A) = , P (A) 6= 0
P (A)

Si despejamos en ambas se obtiene que:

P (A ∩ B) = P (A)P (B/A) = P (B)P (A/B)

A esta expresión se le conoce como regla de la multiplicación, que en general para un número
k de sucesos viene dada por:

P (A1 ∩ A2 ∩ ... ∩ Ak ) = P (A1 )P (A2 /A1 )....P (Ak /A1 ∩ A2 ∩ ... ∩ Ak−1 )

Ejemplo 3.5: Una urna contiene tres bolas negras y tres rojas. Si extraemos tres bolas sin
reemplazamiento (no se devuelven a la urna), la probabilidad de que las tres sean rojas es igual
a:

P (R1 , R2 , R3 ) = P (R1 ∩ R2 ∩ R3 ) = P (R1 )P (R2 /R1 )P (R3 /R1 ∩ R2 ) =


321
=
654

3.4. Independencia de sucesos


Sean A y B dos sucesos del espacio muestral. El suceso A se dice independiente del suceso
B si el conocimiento de la ocurrencia de B no modifica la probabilidad de aparición de A, es
decir, si
P (A/B) = P (A)

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


54 Capítulo 3. Introducción a la Probabilidad

En consecuencia,

P (A ∩ B) = P (B)P (A/B) = P (B)P (A)

y
P (B)P (A)
P (B/A) = = P (B),
P (A)
por lo que también B es independiente de A. Diremos entonces que A y B son sucesos indepen-
dientes.
Ejemplo 3.6: Consideremos un sistema en serie formado por n componentes que funcionan
de manera independiente. Si llamamos P (Ai ) probabilidad de que la componente i funcione,
i = 1, ..., n, la probabilidad de que el sistema funcione, P (S), viene dada por
n
Y
P (S) = P (A1 ∩ A2 ∩ ... ∩ An ) = P (Ai )
i=1

Si el sistema está en paralelo,

− − −
P (S) = P (A1 ∪ A2 ∪ ... ∪ An ) = 1 − P (A1 ∩ A2 ∩ ... ∩ An )
Yn
= 1 − (1 − P (Ai ))
i=1

Ejemplo 3.7: Una urna contiene tres bolas negras y tres rojas. Si extraemos tres bolas con
reemplazamiento (se devuelven a la urna), la probabilidad de que las tres sean rojas es igual a:

P (R1 , R2 , R3 ) = P (R1 ∩ R2 ∩ R3 ) = P (R1 )P (R2 /R1 )P (R3 /R1 ∩ R2 ) =


333
= P (R1 )P (R2 )P (R3 ) =
666

3.5. Teorema de la probabilidad total. Teorema de Bayes.

Sean B1 , B2 , ..., Bn sucesos tales que:

(i) Bi ∩ Bj = ∅ ∀i 6= j (disjuntos dos a dos),


n
[
(ii) Ω = Bi ,
i=1

(iii) P (Bi ) 6= 0 ∀i,


3.5. Teorema de la probabilidad total. Teorema de Bayes. 55

y sea A otro suceso de Ω para el que se conocen las probabilidades P (A/Bi ), i = 1, ..., n.
Entonces,
n
X
P (A) = P (A/Bi )P (Bi ),
i=1
P (A ∩ Bi ) P (A/Bi )P (Bi )
P (Bi /A) = = Pn , i = 1, ..., n
P (A) i=1 P (A/Bi )P (Bi )
La primera fórmula constituye el teorema de la probabilidad total y la segunda el de Bayes.
Ejemplo 3.8: Una empresa dispone de tres fábricas, A, B, y C para producir un cierto
artículo. La fábrica A produce el 30 % de la cantidad total, la fábrica B produce otro 30 %, y
la fábrica C el 40 % restante. Se sabe que el 2 % de la producción de A, el 3 % de la de B y el
5 % de la de C es defectuosa.

(a) ¿Cuál es la probabilidad de que un artículo producido sea defectuoso?.

Si llamamos:

A =Artículo producido en la fábrica A,

B =Artículo producido en la fábrica B,

C =Artículo producido en la fábrica C,

D =Artículo defectuoso,

P (D) = P (D/A)P (A) + P (D/B)P (B) + P (D/C)P (C)

= 0,02 ∗ 0,3 + 0,03 ∗ 0,3 + 0,05 ∗ 0,4 = 0,035,

es decir, un 3.5 % de la producción es defectuosa.

(b) Si al hacer un control de la calidad se detecta un artículo defectuoso, ¿cuál es la probabi-


lidad de que provenga de cada una de las fábricas?.
P (A ∩ D) P (D/A)P (A)
P (A/D) = =
P (D) P (D/A)P (A) + P (D/B)P (B) + P (D/C)P (C)
0,02 ∗ 0,3
= = 0,17
0,035
P (B ∩ D) 0,03 ∗ 0,3
P (B/D) = = = 0,26
P (D) 0,035
P (C ∩ D) 0,05 ∗ 0,4
P (C/D) = = = 0,57
P (D) 0,035
El 17 % de los artículos defectuosos han sido fabricados por A, el 26 % por B, y el 57 %
restante por C.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


56 Capítulo 3. Introducción a la Probabilidad

3.6. Ejercicios

1. Sean A, B y C sucesos de un espacio muestral. Encontrar las expresiones de:

a) Sólamente ocurre A.

b) Ocurren A y B pero no C.

c) Los tres sucesos ocurren.

d) Ocurre por lo menos uno.

e) No ocurre ninguno.

2. Consideremos dos sucesos A y B, con P (A) = 0,5 y P (A ∪ B) = 0,7. Calcula:

a) P (B), suponiendo que A y B son independientes.

b) P (B), suponiendo que A y B son disjuntos o mutuamente excluyentes.

c) P (B), sabiendo que P (A/B) = 0,5.

3. En un laboratorio se diseña un test para detectar la presencia de una bacteria en el


agua. Para probar el test, se considera un gran número de probetas con agua, que pueden
contener o no la bacteria. La probabilidad de que una probeta escogida al azar contenga la
bacteria es de 0.2. Por otra parte, si una probeta contiene la bacteria, el test da positivo
en el 90 % de los casos. En cambio, si una probeta no contiene la bacteria, el test da
positivo en el 5 % de los casos.

a) Traducir los datos del enunciado, introduciendo los sucesos convenientes.

b) Al escoger al azar una probeta, ¿cuál es la probabilidad de que de positivo en el


test?. ¿Y negativo?.

c) Si una probeta ha dado positivo en el test, ¿cuál es la probabilidad de que contenga


la bacteria?.

d) Entre las probetas que han dado negativo en el test, ¿cuál es la proporción de probetas
que tienen la bacteria?.

e) Decidir si el test es apropiado o no para la detección de la bacteria.


3.6. Ejercicios 57

4. El siguiente circuito trabaja sí y sólo sí existe una trayectoria en el funcionamiento de


izquierda a derecha. En el dibujo se indica la probabilidad de que cada dispositivo fun-
cione. Si suponemos que la probabilidad de que un dispositivo funcione no depende del
funcionamiento de los demás (independientes),

a) Determina el espacio muestral asociado al experimento consistente en analizar el


funcionamiento de los cuatros dispositivos (funcionan o no funcionan).

b) Calcula la probabilidad de que el circuito funcione.


0.85 0.85

0.85 0.85

5. Una cervecería utiliza dos máquinas embotelladoras, pero no operan simultáneamente.


La segunda máquina solo opera cuando la primera deja de funcionar durante las horas
de trabajo. La probabilidad de que la primera máquina deje de operar es de 0.20. Si
la primera máquina deja de funcionar entra en funcionamiento la segunda y tiene una
probabilidad de fallar de 0.30. ¿Qué probabilidad hay de que el sistema embotellador de
la cervecería no esté disponible durante las horas de trabajo?.

6. 5 líneas de producción en una fábrica producen un fusible electrónico. Los fusibles se


envían a los distribuidores en lotes de 100 unidades. Los compradores realizan un control
de calidad sobre el producto que reciben, inspeccionando un número pequeño de fusibles
por lote antes de decidir si aceptan o rechazan la totalidad de los lotes recibidos. Las
5 líneas de producción producen fusibles a la misma velocidad y normalmente con un
porcentaje de defectuosos del 2 %, que se distribuyen aleatoriamente en el proceso de
producción. Desafortunadamente, el mes pasado la línea 1 sufrió un fallo mecánico y
produjo un 5 % de defectuosos, pero el gerente se enteró después de haber enviado a los
distribuidores lotes de fusibles. Un cliente adquirió un lote producido ese mes, probó 3
fusibles del lote y vio que uno de ellos era defectuoso. ¿Cuál es la probabilidad de que el
lote que compró no haya salido de la línea 1?.

7. Una pieza producida en una empresa puede tener dos tipos de defectos, A y B. El 8 %
de la producción presenta el defecto A, el 5 % de la producción presenta el defecto B,

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


58 Capítulo 3. Introducción a la Probabilidad

y se supone que no hay piezas que presenten ambos tipos de defecto. Después de ser
producida cada pieza es sometida de manera automática a un test de ruptura, con las
siguientes posibilidades: si la pieza tiene el defecto tipo A, tiene una probabilidad 0.9 de
romperse, si la pieza tiene el defecto tipo B, tiene una probabilidad 0.95 de romperse, y
si no presenta ningún tipo de defecto, tiene una probabilidad 0.01 de romperse.

a) ¿Cuál es la probabilidad de que una pieza escogida al azar en la producción se rompa


durante el test?.

b) Si una pieza se ha roto durante el test, ¿cuál es la probabilidad de que no fuese


defectuosa?.

8. Con objeto de apreciar la eficiencia de dos inspectores de control, A y B, se les encomendó


la verificación de un lote de artículos que contenía exactamente un 6 % de defectuosos.
El inspector A afirmó que el 8 % de los artículos del lole eran defectuosos, mientras que
el inspector B afirmó que sólo eran defectuosos un 5 %. El 4 % de los artículos fueron
identificados como defectuosos por A, y sólo el 3 % por B, siendo realmente defectuosos.
El 2 % fueron indicados como defectuosos tanto por A como por B. El 1 % fueron indicados
como defectuosos por A y por B siendo realmente defectuosos.

¿Qúe tanto por ciento de los artículos son realmente defectuosos y no fueron detectados
como tales por ambos inspectores?.

9. Un trasnochador dispone de un llavero con tres llaves totalmente indistinguibles en la


oscuridad, de las cuales sólo una abre la puerta de su casa. Para dar con la llave en
cuestión, suele seguir uno de los siguientes métodos:

- M.1: Prueba una llave, y si no sirve, agita el llavero y prueba otra vez, con lo cual
corre el riesgo de volverla a usar.

- M.2: Prueba las llaves una tras otra teniendo cuidado de no usar la misma llave.

a. ¿Cuál es la probabilidad de que abra al tercer intento si usa el segundo método?.

b. Se sabe además que el trasnochador utiliza el método 1 cuando vuelve a casa después
de haber bebido en exceso (lo cual ocurre uno de cada tres días) y el método 2 cuando
vuelve sobrio. Si se sabe que en los dos primeros intentos ha fracasado, ¿cuál es la
probabilidad de que esté borracho?.
3.6. Ejercicios 59

10. Una fábrica de bujías para motores produce un 98 % de buenas y un 2 % de defectuosas.


Antes de enviarlas a los almacenes para su venta se someten a una verificación en la que
se admiten como buenas las que lo son con una probabilidad de 0.95 y las que no lo son
con una probabilidad de 0.04.

a) Calcula la probabilidad de que una bujía sea considerada como buena en un control.
b) Calcula la probabilidad de que una bujía buena sea considerada como tal en dos
controles.
c) Si una bujía fue considerada como buena en dos verificaciones, ¿cuál es la probabi-
lidad de que sea realmente buena?.

11. Se analizan muestras de policarbonato de plástico para determinar su resistencia a los


golpes y a las rayaduras. La resistencia a las rayaduras y a los golpes se clasifica en Alta y
Baja. A continuación se presenta el resumen de los resultados obtenidos en 49 muestras.

Resistencia rayaduras\Resistencia golpes Alta Baja


Alta 40 4
Baja 2 3

Calcula:

a) Probabilidad de que una muestra presente alta resistencia tanto a los golpes como a
las rayaduras.
b) Si una muestra presenta una alta resistencia a los golpes, ¿qué es más probable, que
presente alta o baja a las rayaduras?.
c) Si una muestra presenta una alta resistencia a las rayaduras, ¿qué es más probable,
que presente alta o baja a las golpes?.
d) Si una resistencia es baja, ¿cómo suele ser la otra?.
e) Conclusiones.

12. El blanco para practicar tiro con arco tiene dos sectores. Cada acierto en el sector central
vale 10 puntos y en el sector exterior 9 puntos. Una jugada consiste en realizar 2 tiros
consecutivos (e independientes) y sumar los puntos obtenidos. De un arquero se sabe que
la probabilidad de acertar en el sector central es 0.3, y en el sector exterior 0.6. Calcula
la probabilidad de que el arquero obtenga al menos 19 puntos en una jugada.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


60 Capítulo 3. Introducción a la Probabilidad
Capítulo 4

Variable aleatoria

Una variable aleatoria es un valor numérico que corresponde a un resultado de un exper-


imento aleatorio. Algunos ejemplos son: número de caras obtenidas al lanzar seis veces una
moneda, número de llamadas que recibe un teléfono durante una hora, tiempo de fallo de una
componente eléctrica, etc. El estudio que haremos en este capítulo será análogo al que lleva-
mos a cabo en el capítulo uno con las variables estadísticas. Así retomaremos el concepto de
distribución y las características numéricas, como la media y varianza. El papel que allí jugaba
la frecuencia relativa lo juega ahora la probabilidad.

4.1. Definición de variable aleatoria. Clasificación.

Sea (Ω, ℘(Ω), P ) un espacio probabilístico. Una función

X:Ω→ R
s→ X(s)

es una variable aleatoria, transforma los resultados del espacio muestral en números reales.
Las variables aleatorias se clasifican en:

- Discretas: toman un número finito o infinito numerable de valores. Por ejemplo, número
de caras obtenidas al lanzar dos monedas.

Ω = {(c, c), (c, +), (+, c), (+, +)},

61
62 Capítulo 4. Variable aleatoria

X:Ω→ R
(c, c) 2
(c, +) 1
(+, c) 1
(+, +) 0

X =Número de caras obtenidas es una variable aleatoria que toma valores 0,1,2, y cada
uno de ellos lo tomará con una probabilidad.

- Continuas: pueden tomar cualquier valor en R. Por ejemplo, tiempo de fallo de una
componente.

4.1.1. Variable aleatoria discreta

Sea (Ω, ℘(Ω), P ) un espacio probabilístico y X una variable aleatoria discreta (v.a.d) que
toma valores {xi }∞
i=1 Se llama función de probabilidad p(x) a la función que indica la probabi-

lidad de cada posible valor de la v.a.d. X, es decir,

p(xi ) = P (X = xi ) = pi ,∀i

Se ha de verificar que:

(i) 0 ≤ pi ≤ 1 ∀i
P∞
(ii) i=1 pi =1

Función masa probabilidad


0,4
0,1,10
probabilidad

0,3

0,2

0,1

0
0 2 4 6 8 10

Ejemplo de f.m.p. de v.a.d.


4.1. Definición de variable aleatoria. Clasificación. 63

Sea (Ω, ℘(Ω), P ) un espacio probabilístico, X una v.a.d, {xi }∞


i=1 los valores que toma y

{pi }∞
i=1 la función de probabilidad de X. Se llama función de distribución de la v.a.d. X, F (x),

con x ∈ R, a la probabilidad de que X sea menor o igual que x :


X
F (x) = P (X ≤ x) = pi
xi ≤x

La función de distribución de una v.a.d. presenta las siguientes propiedades:

(i) F (−∞) = 0

(ii) F (+∞) = 1

(iii) F es monótona no decreciente, es decir, si xi ≤ xj entonces F (xi ) ≤ F (xj )

(iv) F es continua a la derecha, tiene límites a la izquierda y es constante en [xi−1 , xi ), donde


P
toma el valor k<i pk .

Función de distribución
1

0,8
probabilidad acumulada

0,6

0,4

0,2

0
0 2 4 6 8 10

Ejemplo de F.D.D. de v.a.d.

Observaciones:

(i) P (X > x) = 1 − P (X ≤ x) = 1 − F (x)

(ii) P (xi ≤ X ≤ xj ) = P (X ≤ xj ) − P (X ≤ xi−1 ) = F (xj ) − F (xi−1 )

(iii) P (xi < X ≤ xj ) = F (xj ) − F (xi )

(iv) P (X = xi ) = P (X ≤ xi ) − P (X ≤ xi−1 ) = F (xi ) − F (xi−1 )

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


64 Capítulo 4. Variable aleatoria

La v.a.d. queda caracterizada por su función de probabilidad, p(x), o por su función de


distribución F (x).
Ejemplo 4.1: En ocasiones algunas líneas aéreas venden más pasajes que los disponibles
en un vuelo. Una compañía ha vendido 250 billetes que corresponden a un avión de 200 plazas.
Sea X la variable aleatoria que expresa el número de viajeros que se presentan en el aeropuerto
para tomar el vuelo. La distribución de X es:

xi 198 199 200 201 202 203 204 205


pi 0.05 0.09 0.15 0.20 0.23 0.17 0.09 0.02

a. Calcula la probabilidad de que todos los pasajeros que llegan a tomar el vuelo tengan
plaza.
P (X ≤ 200) = F (200) = P (198) + P (199) + P (200) = 0,29

b. Calcula la probabilidad de que se quede sin plaza alguno de los viajeros

P (X > 200) = 1 − P (X ≤ 200) = 0,71

c. Calcula la probabilidad de que lleguen al aeropuerto entre 195 y 200 pasajeros

P (195 ≤ X ≤ 200) = P (198) + P (199) + P (200) = 0,29

d. ¿Cuál es la probabilidad de que la primera persona que está en lista de espera tenga sitio
en el vuelo?.
P (X < 200) = P (X ≤ 199) = 0,14

4.1.2. Variable aleatoria continua

Decíamos que las variables aleatorias continuas (v.a.c.) pueden tomar cualquier valor de
la recta real. Generalmente presentarán muchos valores distintos (cada uno con muy escasa
frecuencia o probabilidad), por lo que en este caso carece de sentido hablar de probabilidad en
un punto aislado y se toman probabilidades por intervalos.
Sea (Ω, ℘(Ω), P ) un espacio probabilístico y X una v.a.c. con valores en R.Se llama función
de densidad de la v.a.c. X a una función f (x) tal que:

(i) f(x) ≥ 0, ∀x ∈ R
4.1. Definición de variable aleatoria. Clasificación. 65

Z
+∞

(ii) f(x)dx = 1
−∞

La probabilidad de que X tome valores en un intervalo [a, b], a, b ∈ R, viene dada por:
Zb
P (a ≤ X ≤ b) = f (x)dx
a

P(a<X<b)

0,4
0,1
0,3

0,2
f(x)

0,1

0
-5 -3 -1 1 3 5
a b

Por lo tanto, la probabilidad en un punto a es igual a cero.


Za
P (X = a) = f (x)dx = 0
a

Observaciones:

(i) f(x) no representa la probabilidad de que la variable X tome el valor x. Sólamente al


integrarla se obtienen probabilidades.

(ii) La función de densidad presenta la forma del histograma.

(iii) P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) al ser la probabilidad


en un punto cero.

Sea (Ω, ℘(Ω), P ) un espacio probabilístico, X una v.a.c. con valores en R.y f(x) su función
de densidad. Se llama función de distribución de la v.a.c. X, F (x), a la probabilidad de que X
tome valores inferiores o iguales a x,
Zx
F (x) = P (X ≤ x) = f (u)du, x ∈ R
−∞

La función de distribución de una v.a.c. presenta las siguientes propiedades:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


66 Capítulo 4. Variable aleatoria

(i) F (−∞) = 0

(ii) F (+∞) = 1

(iii) F es monótona no decreciente, es decir, si x ≤ y entonces F (x) ≤ F (y)

(iv) F es continua

Observaciones:

(i) Si f(x) es continua, f(x) = F´(x)

(ii) P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a)

0,8

0,6

0,4

0,2

0
0 10 20 30 40

Ejemplo de F.D.D. de v.a.c.

Ejemplo 4.2: El número de artículos vendidos en una fábrica cada mes (en millones) es
una variable aleatoria con función de densidad:

 k(1 − x)2 0<x<1
f(x) =
 0 en otro caso
a. Calcula el valor de k para que f (x) sea una función de densidad.
Z
+∞ Z1 Z1
f(x)dx = f(x)dx = k(1 − x)2 dx = 1,
−∞ 0 0
k = 3

b. Obtén la función de distribución de X.




 0 x≤0




 Zx Zx
x3
F (x) = f (u)du = 3(1 − u)2 du = 3(x + − x2 ) 0<x<1

 3

 −∞ 0


 1 x≥1
4.2. Características de una variable aleatoria 67

c. Calcula la probabilidad de que en un mes se supere una venta de 0.8 (millones).

P (X > 0,8) = 1 − F (0,8) = 1 − 0,99 = 0,01

d. Calcula la probabilidad de que en un mes el número de ventas esté comprendido entre 0.6
y 0.8 (millones).

P (0,6 ≤ X ≤ 0,8) = F (0,8) − F (0,6) = 0,99 − 0,94 = 0,05

e. Si se quiere tener una garantía del 95 % de que no se agote el producto en un mes deter-
minado, ¿qué cantidad c del mismo debe pedirse a fábrica?.

P (X ≤ c) = F (c) = 0,95,

c3
3(c + − c2 ) = 0,95,
3
c = 0,63.

4.2. Características de una variable aleatoria

4.2.1. Esperanza matemática

Se define la esperanza matemática (o simplemente esperanza) de una v.a. X como su valor


medio. Se denota por E(X) o µ, y se calcula de la siguiente forma:

- Si X es discreta:

X
E(X) = xi pi
i=1

- Si X es continua: Z +∞
E(X) = xf(x)dx
−∞

Propiedades de la esperanza:

(i) Si C es una constante, E(C) = 0.

(ii) ∀ a, b ∈ R, E(aX + b) = aE(X) + b

(iii) Si g(X) es una función de X, entonces:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


68 Capítulo 4. Variable aleatoria

- Si X es discreta:

X
E(g(X)) = g(xi )pi
i=1
- Si X es continua: Z +∞
E(g(X)) = g(x)f (x)dx
−∞
Pn Pn
(iv) Si X1 , ..., Xn son variables aleatorias, E( i=1 Xi ) = i=1 E(Xi ).

4.2.2. Momentos de una variable aleatoria

Dada una v.a X, se define su momento de orden k (k = 0, 1, 2, ...) respecto a la media o


momento central de orden k como la esperanza de (X − µ)k :

µk = E((X − µ)k )

Se define su momento de orden k (k = 0, 1, 2, ...) respecto al origen o momento no central


de orden k como la esperanza de X k :

αk = E(X k )

Observaciones:

- α0 = 1

- α1 = µ

- µ0 = 1

- µ1 = 0

El segundo momento central se llama también varianza, y se denota por V ar(X) o σ 2 ,


 P
 ∞ 2
i=1 (xi − µ) pi si X es discreta
V ar(X) = E((X − µ)2 ) = R
 +∞ (x − µ)2 f(x)dx si X es continua
−∞

A la raiz cuadrada de la varianza se le llama desviación típica y se denota por σ.


Propiedades de la varianza:

(i) V ar(X) = E(X 2 ) − E 2 (X)

(ii) Si C es una constante, V ar(C) = 0.

(iii) Si a, b son constantes: V ar(aX + b) = a2 V ar(X).


4.3. Función generatriz de momentos 69

4.2.3. Otras medidas

Todas las medidas de centralización, dispersión y forma vistas en el Tema 1 pueden calcularse
sin más que sustituir en aquellas fórmulas la frecuencia relativa por la probabilidad. Así por
ejemplo, la mediana de una v.a X será aquel valor x tal que F (x) = 0,5; la moda el valor con
mayor probabilidad (caso discreto) o máxima función de densidad (caso continuo); el coefiente
de variación µ/σ, etc.
Ejemplo 4.3: Calculamos la media y varianza de la variable dada en el ejemplo 4.1
8
X
E(X) = µ = xi pi = 198 ∗ 0,05 + 199 ∗ 0,09 + ... + 205 ∗ 0,02 ' 201,
i=1

es decir, se esperan 201 viajeros para tomar el vuelo.


Para la varianza calculamos previamente E(X 2 ),
8
X
E(X 2 ) = x2i pi = 1982 ∗ 0,05 + 1992 ∗ 0,09 + ... + 2052 ∗ 0,02 = 40580,88,
i=1

por lo tanto
V ar(X) = σ2 = E(X 2 ) − E 2 (X) = 179,88

Ejemplo 4.4: Calculamos la media y varianza de la variable dada en el ejemplo 4.2.

Z1
E(X) = µ = 3x(1 − x)2 dx = 0,25,
0

Z1
2
E(X ) = 3x2 (1 − x)2 dx = 0,1,
0

V ar(X) = σ = E(X 2 ) − E 2 (X) = 0,037


2

4.3. Función generatriz de momentos


Dada una v.a X se define su función generatriz de momentos en t, t > 0, como:
 P
 ∞ txi
i=1 e pi si X es discreta
GX (t) = E(etX ) = R
 +∞ tx
−∞ e f (x)dx si X es continua

Sus propiedades son:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


70 Capítulo 4. Variable aleatoria

(i) Esta función determina unívocamente la distribución de probabilidad de la variable aleato-


ria

(ii) A partir de ella se pueden generar los momentos no centrados de la variable:


¯
k ∂ k GX (t) ¯¯
αk = E(X ) = ,
∂tk ¯t=0
esto es, el momento no central de orden k es igual a la derivada k-ésima respecto a t de
la función generatriz de momentos evaluada en t = 0.

Por ejemplo,

µ = G´(0),

σ2 = G´(0) − [G´(0)]2

4.4. Ejercicios
1. El control de la calidad de ciertos productos se realiza contando el número de defectos por
unidad y comprobando si dicho número está comprendido entre ciertos límites llamados
límites de control. Si el número de defectos por unidad en cierto proceso de fabricación es
una variable aleatoria X con función masa de probabilidad dada por:
e−0,6 0,6x
P (X = x) = , x = 0, 1, 2, ...
x!
a) Determina el número medio de defectos por unidad.
Nota:

x! = x(x − 1)(x − 2)....


X∞
xn
ex =
n=0
n!

b) Si los límites de control vienen dados por



Límite inferior de control: λ−3 λ

Límite superior de control: λ+3 λ

siendo λ = E[X], y se considera que el proceso está bajo control estadístico cuan-
do el número de defectos que se van observando en una muestra de unidades está
comprendido entre dichos límites.
4.4. Ejercicios 71

• Calcula la probabilidad de que una unidad de producción no caiga entre los


límites de control.
• Calcula la probabilidad de que en una muestra de 5 unidades, al menos 1 no
caiga entre los límites de control.

2. El tiempo necesario en milisegundos para completar una reacción química está aproximado
por una función de distribución dada por:

F (x) = 1 − e−0,01x , x ≥ 0

a) Obtén la función de densidad.

b) Calcula el tiempo esperado para completar la reacción.

c) Calcula el porcentaje de reacciones completas antes de 200 milisegundos.

3. El espesor de un recubrimiento conductor (en micrometros) tiene una función de densidad


dada por
f (x) = 600x−2 , 100 < x < 120

a) Obtén la función de distribución.

b) Calcula la probabilidad de que el espesor sea inferior a 110 µm

c) Calcula la probabilidad de que el espesor esté comprendido entre 115 y 118 µm.

d) Si el costo promedio del recubrimiento es de 0.5 euros por micrometro de espesor en


cada pieza, ¿cuál es el costo promedio del recubrimiento por pieza?.

4. La ley de probabilidad de una variable aleatoria X viene dada por:





 k

si x = 0
p(x) = 2k si x = 1



 3k si x = 2

a) Determina k así como P (X ≤ 2), P (0 < X < 2).

b) Encuentra el menor valor x0 tal que P (X ≤ x0 ) > 0,5.

c) Calcula la media y la varianza.

d) Determina la función de distribución de X y represéntala.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


72 Capítulo 4. Variable aleatoria

5. La función de distribución de una v.a.c. X está dada por:




 0 si x < 0


F (x) = 2x − x2 si 0 ≤ x < 1



 1 si x ≥ 1

a) Representa F (x).

b) Calcula P (X < 1/2) y P (X > 3/4).

c) Determina f(x).

d) Calcula la esperanza y varianza.

6. Indica si pueden ser o no variables aleatorias discretas. En caso de que no lo sean, da la


razón. En caso de que lo sean, calcula y representa su función de distribución.

a) 

 0 con probabilidad 1/2




 1 con probabilidad 1/10
X=
 2
 con probabilidad 2/10




 3 con probabilidad 2/10

b) 

 0 con probabilidad 1/2


X= 1 con probabilidad 2/15



 2 con probabilidad 8/15

c) 
 0 con probabilidad k/3
X=
 1 con probabilidad 1 − k/3

7. Indica cuáles de las siguientes funciones puede ser función de densidad de una variable
aleatoria continua. En el caso de que no lo sean da la razón. En caso de que lo sean,
calcula la función de distribución.

a) 
 1/3 si x ∈ [0, 2]
f(x) =
 0 en otro caso
4.4. Ejercicios 73

b) 
 2e−2x si x ∈ [0, ∞)
f (x) =
 0 en otro caso

8. El kilometraje (en miles de km) que los automovilistas logran de cierto tipo de neumáticos
es una variable aleatoria con función de densidad

 1 e− 20
x
si x > 0
f (x) = k
 0 en otro caso

a) Calcula el valor de k para que f (x) sea función de densidad.

b) Calcula la probabilidad de que el neumático dure a lo sumo 10.000 km.

c) Calcula la probabilidad de que el neumático dure entre 16.000 y 24.000 km.

d) Calcula la probabilidad de que el neumático supere el kilometraje medio o esperado.

9. Consideremos el experimento aleatorio de seleccionar 4 bolas al azar sin reemplazamiento


de una urna que contiene 7 bolas rojas y 3 negras. Definamos la v.a X como el número
de bolas rojas extraidas. Calcula:

a) La función de probabilidad y la de distribución de X.

b) P (1 ≤ X ≤ 3), P (1 < X ≤ 3) y P (1 ≤ X < 3).

c) Contesta las cuestiones anteriores si el experimento se realiza con reemplazamiento.

10. Se lanza una serie de cohetes hasta que se alcanza el primer lanzamiento con éxito. Si no
tiene lugar el éxito en la quinta prueba, finalizan los lanzamientos. La probabilidad de
éxito es 0.8 y los lanzamientos son independientes. El costo del primer lanzamiento es C
y el de los sucesivos C/3. Cada vez que tiene lugar un éxito se obtienen unos ingresos de
valor I. Sea X el resultado económico del proceso (ingresos-costos).

a) Obtener su función de probabilidad.

b) Si I = 90 euros y C = 30 euros, ¿se esperan ganancias o pérdidas?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


74 Capítulo 4. Variable aleatoria
Capítulo 5

Algunas distribuciones
importantes de probabilidad

En los temas anteriores se presentaban ejemplos de distintos experimentos aleatorios y de


variables aleatorias que expresan sus resultados. En este tema se estudian algunas distribuciones
de probabilidad para variables aleatorias discretas y continuas que son de uso frecuente y
aplicables a una amplia gama de experimentos o situaciones.

5.1. Distribuciones discretas

5.1.1. El modelo de Bernoulli

Sea (Ω, ℘(Ω), P ) un espacio de probabilidad y A un suceso de Ω tal que P (A) = p, 0 ≤ p ≤ 1.



Denotaremos como éxito a la ocurrencia del suceso A y como fracaso a la ocurrencia de A (es
decir, a la no ocurrencia de A).
Definimos la v.a. X como:

 1 si sucede A
X= − ,
 0 si sucede A

siendo P (X = 1) = p y P (X = 0) = 1 − p = q. Se dice entonces que X sigue una distribución


de Bernoulli de parámetro p, a la que denotamos por Bernoulli(p).
La esperanza y varianza de X vienen dadas, respectivamente, por E(X) = p y V ar(X) = pq.

75
76 Capítulo 5. Algunas distribuciones importantes de probabilidad

Ejemplos: clasificación de una pieza en defectuosa o no defectuosa, lanzamiento de una


moneda, opinión a favor o en contra de algo, etc.

5.1.2. Distribución Binomial

Realizamos el experimento anterior (ensayo de Bernoulli) n veces de manera independiente,


donde la probabilidad de éxito es constantemente p. Entonces la v.a. X definida como el número
de éxitos obtenidos en las n realizaciones sigue una distribución Binomial con parámetros n y
p, que denotamos por B(n, p). Esta variable puede tomar los valores 0, 1, ..., n y su función de
probabilidad es: µ ¶
n x
P (X = x) = p (1 − p)n−x , x = 0, 1, ..., n
x
Además, E(X) = np y V ar(X) = npq.
Nota: µ ¶
n n!
=
x x!(n − x)!
Ejemplo 5.1: Una máquina produce artículos defectuosos en un porcentaje del 5 %. Calcular
la probabilidad de que en una muestra de 10 artículos al menos 1 lo sea.
Aquí el ensayo de de Bernoulli consiste en analizar si un artículo es defectuoso o no. Es
defectuoso (éxito) con probabilidad p = 0,05 y no defectuoso (fracaso) con probabilidad q =
1 − p = 0,95. Estamos interesados en el número total de artículos defectuosos en el lote de 10,
por lo que tenemos que realizar 10 veces de manera independiente tal ensayo y sumar los éxitos.
Es claro entonces que X =No de artículos defectuosos en el lote de 10 sigue una B(10, 0,05),
toma valores 0, 1, ..., 10, y
µ ¶
10
P (X ≥ 1) = 1 − P (X = 0) = 1 − 0,050 0,9510 = 0,401
0

5.1.3. Distribución Hipergeométrica

Supongamos que tenemos una urna con N bolas, de las cuales Np son rojas y Nq negras. La
proporción de bolas rojas es por lo tanto p = Np /N y la proporción de negras q = 1−p = Nq /N.
Si extraemos de la urna n bolas sin reemplazamiento, entonces X =No de bolas rojas obtenidas
sigue una distribución Hipergeométrica de parámetros (N, n, p), que denotamos por H(N, n, p).
Su función de probabilidad es:
¡Np ¢¡ Nq ¢
x
P (X = x) = ¡Nn−x
¢ , M áx{0, n − Nq }x ≤ Mı́n{n, Np }
n
5.1. Distribuciones discretas 77

N −n
Además, E(X) = np y V ar(X) = npq .
N −1
Nota: Cuando se realiza un muestreo, éste puede ser sin o con reemplazamiento. Si es con
reemplazamiento se utiliza la distribución binomial para contar el número de éxitos (en este caso
la probabilidad de éxito permanece constante en las realizaciones), y si es sin reemplazamiento
se utiliza la distribución hipergeométrica (la probabilidad de éxito no permanece constante).
Ejemplo 5.2: En una determinada universidad, el 20 % de los alumnos están a favor de
la L.O.U. y el 80 % restante no lo está. Si un medio de comunicación realiza una encuesta a 5
alumnos elegidos al azar para exponer su opinión en directo, ¿cuál es la probabilidad de que
ninguno de ellos se muestre a favor de la reforma?.

X = No de alumnos en la muestra a favor de la reforma → H(100, 5, 0,2)


¡20¢¡80¢
0
P (X = 0) = ¡100¢5
5

5.1.4. Distribución Binomial Negativa

Realizamos ahora el experimento de forma independiente hasta conseguir k éxitos, donde la


probabilidad de éxito en cada realización es constante e igual a p. Entonces, la v.a. X =No de
fracasos antes del k−ésimo éxito sigue una distribución Binomial Negativa de parámetros k y
p, que denotamos por BN (k, p). Su función de probabilidad viene dada por:
µ ¶
k+x−1 k
P (X = x) = p (1 − p)x , x = 0, 1, 2, ...
x

n(1 − p) n(1 − p)
Además, E(X) = y V ar(X) = .
p p2
Nota: Existe una relación entre la distribución Binomial Negativa y la distribución Bino-
mial: sea X =No de fracasos hasta el k−ésimo éxito→ BN (k, p). Si X = x, hay x fracasos y k
éxitos, luego se ha realizado el experimento x + k veces. Si definimos ahora la v.a. Y =No de
éxitos en las x + k realizaciones, es claro que Y → B(x + k, p) y

P (X ≤ x) = P (Y ≥ k)

5.1.5. Distribución Geométrica

Es un caso particular de la distribución Binomial Negativa; se obtiene cuando k = 1 y por


tanto contabiliza el número de fracasos anteriores al primer éxito. La denotamos por G(p).

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


78 Capítulo 5. Algunas distribuciones importantes de probabilidad

Ejemplo 5.3: La probabilidad de recibir de manera errónea un bit enviado por un canal
de transmisión digital es 0.1. Calcula:

a. La probabilidad de que haya 15 bits correctamente transmitidos anteriores el tercer error

X = No de bits correctamente transmitidos antes del tercero erróneo → BN (3, 0,1)


µ ¶
17
P (X = 15) = 0,13 0,915
15

b. La probabilidad de que haya como mucho 4 transmisiones correctas anteriores al tercer


error.
4 µ
X ¶
2+x
P (X ≤ 4) = 0,13 0,9x ,
x=0
x
o bien P (Y ≥ 3) siendo Y → B(7, 0,1),

P (Y ≥ 3) = 1 − P (X ≤ 2) = 1 − 0,9743 = 0,0257

c. Número medio de transmisiones correctas hasta que se presente el primer error.

X = No de bits correctamente transmitidos antes del primero erróneo → G(0,1)

q 0,9
E(X) = = =9
p 0,1

5.1.6. Distribución de Poisson

Suele representar el número de sucesos independientes que ocurren a velocidad constante


en un intervalo de tiempo o espacio. Así por ejemplo, X =No de ocurrencias por unidad de
tiempo sigue una distribución de Poisson de parámetro λ, λ > 0, que denotamos por P (λ), si
su función de probabilidad es:
e−λ λx
P (X = x) = , x = 0, 1, 2, ...
x!
En esta distribución el parámetro coincide con la media y varianza, E(X) = V ar(X) = λ,
por lo tanto λ en este caso es interpretado como el número medio de ocurrencias por unidad de
tiempo.
Si consideramos ahora Y =No de ocurrencias en el intervalo (0,t], entonces Y → P (λt).
Ejemplos: Número de clientes que llegan a un banco durante una hora o una mañana,
número de defectos en un trozo de material, etc. Sin embargo, de llegar muchos clientes en una
5.2. Distribuciones continuas 79

determinada franja horaria y pocos en otra, o no estar los defectos igualmente distribuidos en
el material, la distribución de Poisson no sería apropiada.
Ejemplo 5.4: Una central telefónica recibe una media de 480 llamadas por hora. Si el
número de llamadas se distribuye según una Poisson y la central tiene una capacidad para
atender a lo sumo 12 llamadas por minuto, ¿cuál es la probabilidad de que en un minuto
determinado no sea posible dar línea a todos los clientes?

X = No de llamadas por minuto → P (8)

P (X > 12) = 1 − P (X ≤ 12) = 1 − 0,9362 = 0,0638

5.2. Distribuciones continuas

5.2.1. Distribución Uniforme

Una v.a. X tiene una distribución Uniforme en el intervalo [a, b], y lo denotamos por X →
U (a, b), si su función de densidad es:

 1
si a ≤ x ≤ b
b−a
f (x) =
 0 en otro caso

a+b (b − a)2
Su media y varianza vienen dadas por: E(X) = y V ar(X) = .
2 12

5.2.2. Distribución Normal

Se dice que una v.a. X sigue una distribución Normal de parámetros µ, σ, X → N (µ, σ), si
su f.d.d. es:
1 −(x−µ)2
f (x) = √ e 2σ2 , -∞ < x < +∞, µ ∈ R, σ > 0
2πσ
Los parámetros µ, σ coinciden con la media y desviación típica de la variable respectiva-
mente.
La función de densidad es simétrica respecto a µ.
Teorema: Sean X1 , ..., Xn v.a independientes, con Xi → N(µi , σ i ). Entonces,
 v 
n n u n
X X uX
Y = ai Xi → N  ai µi , t a2i σ2i  ,
i=1 i=1 i=1

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


80 Capítulo 5. Algunas distribuciones importantes de probabilidad

0,4
0,1
0,3

0,2

0,1

0
-5 -3 -1 1 3 5

Figura 5.1: Función de densidad N(0,1)

es decir, una combinación lineal de variables Normales independientes presenta también dis-
tribución Normal.
En consecuencia, si X → N (µ, σ), entonces
X −µ
Z= → N (0, 1)
σ
A esta variable Z se le llama Normal tipificada o estándar.
En adelante denotamos por za al valor de la variable Z que deja por debajo de él una
probabilidad α, es decir,
P (Z ≤ za ) = α

0,4
0,1
0,3

0,2
α/2 α/2
0,1

0
-5 -3 -1 1 3 5

-Z1−α/2 Z1−α/2

Figura 5.2:

Ejemplo 5.5: Una empaquetadora automática se programa para producir paquetes de 500
g. Un estudio concluye que el peso en gramos de un paquete de la producción es una variable
aleatoria X normal de media 498 g. y varianza 16. Sabemos que producir un gramo de producto
5.2. Distribuciones continuas 81

cuesta a la empresa 0.05 euros, mientras que lo vende a 0.09 euros. Llamemos B a la variable
beneficio de la empresa por paquete vendido.

a. ¿Cuál es la probabilidad de que un paquete presente un peso inferior a 490 g?.

X → N (498, 4)
µ ¶
X − 498 490 − 498
P (X ≤ 490) = P ≤ = P (Z ≤ −2) = 0,0228
4 4
b. ¿Cuál es la probabilidad de que un paquete presente un peso comprendido entre 480 y
490 gr.?

P (480 ≤ X ≤ 490) = P (−2,5 ≤ Z ≤ −2) =

= P (Z ≤ −2) − P (Z ≤ −2,5) = 0,0228 − 0,0062 = 0,0166

c. Expresa la relación que existe entre la variable B y la variable X. ¿Cuál es el beneficio


promedio realizado por la empresa por paquete?.

B = (I − C)X = 0,04X

E(B) = 0,04E(X) = 19,92

V ar(B) = 0,042 V ar(X) = 0,0256

B → N (19,92, 0,16)

d. ¿Cuál es la proporción de paquetes entre la producción para los cuales la empresa tiene
un beneficio mayor de 20 euros?
µ ¶
20 − 19,92
P (B > 20) = P Z> = P (Z > 0,5) =
0,16
= 1 − P (Z ≤ 0,5) = 1 − 0,6915 = 0,3085

e. ¿Qué beneficio se obtiene como máximo en el 95 % de los casos?

P (B ≤ bmáx ) = 0,95
µ ¶
bmáx − 19,92
P Z≤ = 0,95
0,16
bmáx − 19,92
z0,95 = = 1,65
0,16
bmáx = 20,1840

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


82 Capítulo 5. Algunas distribuciones importantes de probabilidad

5.2.3. Distribución Exponencial

Se utiliza fundamentalmente para modelizar tiempos de vida o tamaños.


Se dice que una v.a X sigue una distribución Exponencial de parámetro λ, X → Exp(λ), si
su función de densidad viene dada por:

f(x) = λe−λx , x ≥ 0, λ > 0

1 1
Su media y varianza son: E(X) = y V ar(X) = 2 .
λ λ
Presenta la propiedad de falta de memoria: Sea X una v.a. con distribución Exp(λ), y
s, t ≥ 0. Entonces se verifica que:

P (X ≥ s + t/X ≥ s) = P (X ≥ t)

Ejemplo 5.6: Una empresa suministra una serie de componentes con una vida media de
3000 horas. El riesgo de rotura de los mismos crece a lo largo del tiempo según una función

f(t) = λe−λt , t > 0,

y por lo tanto el tiempo de vida de las componentes, X, sigue una distribución Exp(λ).

a. Obtén el valor de λ
1
E(X) = = 3000 =⇒ λ = 0,0003
λ

b. Calcula la probabilidad de que una componente se rompa antes de llevar 1000 horas de
funcionamiento.
Z
1000

P (X ≤ 1000) = 0,0003e−0,0003x dx = 0,2592


0

c. Si las componentes tienen una garantía de un mes, calcula la probabilidad de que una
componente se rompa estando en garantía. En un lote de 50 componentes, ¿cuántas se
esperan que se devuelvan estando en garantía?
Z720
P (X ≤ 720) = 0,0003e−0,0003x dx = 0,1943
0

Y =No de componentes del lote que fallan estando en garantía→ B(50, 0,1943)

E(Y ) = 50 ∗ 0,1943 ' 10


5.2. Distribuciones continuas 83

0,1
10
0,08

0,06

0,04

0,02

0
0 10 20 30 40

Figura 5.3: Ejemplo de f.d.d. de una Chi-cuadrado

5.2.4. Distribución Gamma

Una v.a X sigue una distribución Gamma de parámetros α, λ, X → G(α, λ), si su f.d.d. es:

λα α−1 −λx
f(x) = x e , x ≥ 0, α, λ > 0,
Γ(α)

donde
Z
+∞

Γ(α) = xα−1 e−x dx.


0

α α
Su media y varianza son: E(X) = y V ar(X) = 2 .
λ λ
La distribución Exponencial es un caso particular de la Gamma, Exp(λ) = G(1, λ).

5.2.5. Distribución Chi-cuadrado

La distribución Chi-cuadrado con parámetro n (grados de libertad), denotada por χ2n , resulta
n 1
también un caso particular de la Gamma al considerar α = , λ = . Su función de densidad
2 2
es por tanto:
1 n x
f(x) = 2 −1 e− 2 , x ≥ 0
n n x
Γ( 2 )2 2

Su media y varianza son: E(X) = n y V ar(X) = 2n.


Teorema: Si X1 , ..., Xn son variables aleatorias independientes e idénticamente distribuidas
según una N(0, 1), entonces
n
X
Y = Xi → χ2n
i=1

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


84 Capítulo 5. Algunas distribuciones importantes de probabilidad

En adelante llamamos χ2α,n al valor de la variable χ2n que deja por debajo de él una proba-
bilidad α, es decir, si X → χ2n ,

P (X ≤ χ2α,n ) = α

5.2.6. Distribución Beta

Una v.a X sigue una distribución Gamma de parámetros α, β, X → Beta(α, β), si su f.d.d
viene dada por:

Γ(α + β) α−1
f (x) = x (1 − x)β−1 , 0 < x < 1, α, β > 0
Γ(α)Γ(β)

α αβ
Su media y varianza son: E(X) = y V ar(X) = .
α+β (α + β)2 (α + β + 1)

5.2.7. Distribución t de Student

La distribución t de Student de parámetro n, que denotamos por tn , se genera a partir de


dos variables independientes, una con distribución N (0, 1) y la otra con distribución χ2n . Veamos
cómo en el siguiente teorema:
Teorema: Sean Z → N (0, 1) y X → χ2n variables independientes. Entonces:

Z
T =r → tn ,
X
n

de ahí que al parámetro n se le llame también grados de libertad.


Su función de densidad es:

Γ( n+1 ) x2 n+1
f(x) = √ 2 n (1 + )− 2 , -∞ < x < +∞, n > 0,
nπΓ( 2 ) n

simétrica respecto al cero.


n
Su media y varianza son: E(X) = 0 y V ar(X) = , n > 2.
n−2
En adelante llamamos tα,n al valor de la variable tn que deja por debajo de él una probabi-
lidad α, es decir,

P (T ≤ tα,n ) = α
5.2. Distribuciones continuas 85

0,4
10
0,3

0,2

0,1

0
α
-6 -4 -2 0 2 4 6
T α ,n

Figura 5.4: Ejemplo de f.d.d. de una t-Student

5.2.8. Distribución F de Snedecor

A la distribución Snedecor de parámetros n1 , n2 la denotamos por Fn1 ,n2 y se genera a


partir de dos distribuciones Chi-cuadrado independientes, χ2n1 y χ2n2 .
Teorema: Sea X → χ2n1 e Y → χ2n2 v.a. independientes. Entonces:

X
n
F = 1 → Fn1 ,n2 ,
Y
n2

y a n1 , n2 se les llaman grados de libertad.


Su función de densidad es:
n /2 n /2
Γ(n1 + n2 )n1 1 n2 2 n1 −2 n1 +n2
f (x) = x 2 (n1 x + n2 )− 2 , x>0
Γ( n21 )Γ( n22 )

n2 n2 (2n2 + 2n1 − 4)
Su media y varianza son: E(X) = , n2 > 2. y V ar(X) = 2 , n2 > 4
n2 − 2 n1 (n2 − 2)2 (n2 − 4)
En adelante llamamos Fα,n1 ,n2 al valor de la variable F que deja por debajo de él una
probabilidad α, es decir,

P (F ≤ Fα,n1 ,n2 ) = α

Se verifica que:
1
Fα,n1 ,n2 =
F1−α,n2 ,n1

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


86 Capítulo 5. Algunas distribuciones importantes de probabilidad

0,8
10,10
0,6

0,4

0,2

0
0 1 2 3 4 5

Figura 5.5: Ejemplo de f.d.d. de una F-Snedecor

5.3. Relación entre Poisson, Exponencial y Gamma


Sea X =No de llegadas u ocurrencias por unidad de tiempo→ P (λ).
Entonces:

Y =Tiempo entre dos llegadas consecutivas→ Exp(λ)

Z = Tiempo hasta la k-ésima llegada→ G(k, λ)

Ejemplo 5.7: Un sistema está sometido a la ocurrencia de shocks que llegan según un
proceso de Poisson a razón de 0.0014 por hora. Calcula:

a. Probabilidad de que el primer shock llegue después de 20 días de funcionamiento.

X =Número de shocks que llegan al sistema por hora→ P (0,0014)

Y =Tiempo que transcurre hasta la llegada del primer shock→ Exp(0,0014)

P (Y > 480) = e−0,0014∗480 = 0,5107

b. Probabilidad de que transcurran menos de 15 días entre dos llegadas consecutivas

P (Y < 360) = 1 − e−0,0014∗360 = 0,6041

c. Tiempo medio hasta la llegada del tercer shock

Z =Tiempo hasta la llegada del tercer shock→ G(3, 0,0014)


3
E(Z) = = 2142h.
0,0014
5.4. Aproximaciones entre distribuciones 87

5.4. Aproximaciones entre distribuciones

Aproximación Condición

B(n, p) ≈ N (np, npq) np > 5, p > 0,05
B(n, p) ≈ P (np) np < 5

P (λ) ≈ N (λ, λ) λ > 10
n
H(N, n, p) ≈ B(n, p) N < 0,1
Observación: Sea Xd una variable discreta cuya distribución es aproximada por una la de
una continua Xc . Entonces, la aproximación de probabilidades en Xd por probabilidades en Xc
exige lo que se llama una corrección por continuidad:

P (a ≤ Xd ≤ b) ≈ P (a − 0,5 ≤ Xc ≤ b + 0,5)

Ejemplo 5.8: Un cuestionario de opción múltiple contiene 200 preguntas, cada una de ellas
con cuatro respuestas posibles, y de ellas sólo una es la correcta. ¿Cuál es la probabilidad de
que por simple conjetura el alumno obtenga entre 25 y 30 respuestas correctas para 80 de las
200 preguntas cuya respuesta ignora por completo?.
Definimos X =No de respuestas correctas por suerte → B(80, 0,25) ≈ N (20, 3,87)

P (25 ≤ XB ≤ 30) ≈ P (24,5 ≤ XN ≤ 30,5),

donde XB hace referencia a la Binomial y XN a la Normal.

P (24,5 ≤ XN ≤ 30,5) = P (1,163 ≤ Z ≤ 2,713) = 0,9966 − 0,8770 = 0,1196

5.5. Teorema Central del Límite


Sean X1 , ..., Xn v.a. independientes con idéntica distribución (no especificada), con media
µ y varianza finita σ2 . Entonces:
µ ¶
− X1 + ... + Xn σ
X= → N µ, √
n (n→∞) n

Ejemplo 5.9: Un oleoducto se forma uniendo tuberías cuya longitud varía aleatoriamente
según una distribución de media 10m y varianza 1m2 . Calcula la probabilidad de que uniendo
100 tuberías de manera independiente se complete un recorrido superior a 1025m.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


88 Capítulo 5. Algunas distribuciones importantes de probabilidad

Llamamos Xi =Longitud de la tubería i, µi = µ = 10, σ2i = σ2 = 1, para i = 1, ..., 100.


100
X
La longitud de 100 tuberías será Xi , y se verifica que
i=1
µ ¶
− X1 + ... + X100 1
X= → N 10, √
100 100
Por lo tanto,
à 100 ! µ ¶ µ ¶
X − −
P Xi > 1025 = P 100X > 1025 = P X > 10,25
i=1
= P (Z > 2,5) = 1 − P (Z ≤ 2,5) = 1 − 0,9938 = 0,0062

5.6. Ejercicios
1. El número de baches en una sección de carretera interestatal que requieren reparación
urgente puede modelarse con una distribucion de Poisson que tiene de media de 2 baches
por cada 20km.

a. ¿Cual es la probabilidad de que no haya baches que reparar en un tramo de 15 kms?.

b. ¿Cual es la probabilidad de que haya que reparar al menos 1 bache en un tramos de


25 kms?.

c. Si el número de baches está relacionado con la carga vehicular de la carretera, y


algunas secciones de ésta tienen una carga muy pesada mientras que otras no, ¿qué
puede decirse sobre la hipótesis de que el número de baches que es necesario reparar
tiene una distribución de Poisson?.

2. En un cierto servicio telefónico, la probabilidad de que una llamada sea contestada en


menos de 30 segundos es de 0.75. Suponga que las llamadas son independientes.

a. Si una persona llama 10 veces, ¿cuál es la probabilidad de que exactamente 9 de las


llamadas sean contestadas en un espacio de 30 seg?.

b. Si una persona llama 20 veces, ¿cuál es la probabilidad de que al menos 16 de las


llamadas sean contestadas en un espacio de 30 seg?.

c. Si una persona llama 20 veces, ¿cuál es el número de llamadas se espera que sean
contestadas en menos de 30 seg?
5.6. Ejercicios 89

3. Un sistema está sometido a la ocurrencia de fallos externos e internos. En cuanto ocurre


alguno de estos dos tipos de fallo el sistema falla . El sistema sufre un fallo interno por
desgaste en su funcionamiento con el paso del tiempo, sin embargo, los fallos externos,
como su nombre indica, se deben a factores ajenos al sistema. Se sabe que el tiempo (en
años) hasta el fallo interno del sistema sigue una distribución Exponencial con parámetro
0.25, y los fallos externos llegan al sistema según un proceso de Poisson a razón de 1 fallo
por año. Los fallos externos e internos son independientes.

a) Obtén la distribución del tiempo hasta la ocurrencia de un fallo externo en el sistema.

b) Calcula la probabilidad de que el sistema falle después de 2 años de funcionamiento.

4. Se supone que el número medio de defectos en rollos de tela de cierta industria textil es
una variable aleatoria Poisson con una media de 0.1 defectos por metro cuadrado.

a. ¿Cuál es la probabilidad de encontrar un defecto en un metro cuadrado de tela?

b. ¿Cuántos defectos se esperan en 10 m de tela?.

5. Los resultados obtenidos de 266 muestras de aire se clasifican de acuerdo con la presencia
de dos moléculas raras. En 212 muestras de aire no hay ninguna de estas moléculas, en 24
está solo presente la molécula 1, en 18 sólo la molecula 2 y en 12 las dos simultáneamente.
Suponiendo que las muestras de aire son independientes con respecto a la presencia de
la moléculas, calcular la probabilidad de que si se analizan otras 50 muestras de aire al
menos dos contengan las moléculas raras.

6. Una persona pasa todas las mañanas a la misma hora por un semáforo que está en verde el
20 % de las veces. ¿ Cuál es la probabilidad de que en 5 mañanas consecutivas se encuentre
el semáforo en verde tan solo un día?.

7. La escala electrónica de un proceso de llenado automático detiene la línea de producción


después de haber detectado 3 paquetes con un peso menor que el especificado. Suponga
que la probabilidad de llenar un paquete con un peso menor es de 0.001 y que cada
operación de llenado es independiente.Calcula

a. Probabilidad de que la línea de producción se detenga después de haber llenado el


décimo paquete.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


90 Capítulo 5. Algunas distribuciones importantes de probabilidad

b. Número esperado de operaciones de llenado antes de que se detenga la linea de


producción.

8. El siguiente sistema está formado por 4 componentes idénticas con funcionamiento in-
dependiente y exponencialmente distribuido. Se estima que el tiempo de fallo de una
componente es de 1000 horas.

Calcula:

a. Probabilidad de que una componente falle antes de las 1000 horas de funcionamiento.

b. Si una componente lleva funcionando 800 horas, ¿cuál es la probabilidad de que


funcione 200 horas más?.

c. Probabilidad de que el sistema falle después de las 3000 horas de funcionamiento.

9. El tiempo entre llegadas consecutivas de mensajes al móvil de un individuo sigue una


distribución exponencial con media 30 minutos.

a. Si un individuo enciende el móvil a las 10 de la mañana y no ha recibido ningún


mensaje, ¿cuál es la probabilidad de que entre las 10 y las 12 reciba al menos uno?.

b. Si el móvil no puede almacenar más de 15 mensajes en memoria, ¿qué tiempo medio


transcurrirá desde que el individuo limpia la memoria hasta que ésta se satura?.

10. El tiempo de baja por enfermedad de los empleados de una empresa en un mes tiene
distribución normal con media 100 horas y desviación estándar 20 horas. Calcula:

a. Probabilidad de que el tiempo de baja del siguiente mes esté entre 50 y 80 horas.

b. Cúanto tiempo de baja deberá planear la empresa para que la probabilidad de ex-
cederlo sea sólo de 0.1
5.6. Ejercicios 91

11. Supóngase que en la detección de una señal digital el ruído de fondo tiene una distribución
normal con media 0 voltios y desviación estándar 0.45 voltios. Si el sistema supone que se
ha transmitido un uno digital cuando el voltaje es superior a 0.9 (detección falsa), ¿cuál es
la probabilidad de detectar un uno digital cuando en realidad no se ha enviado ninguno?.

12. El funcionamiento de un sistema se clasifica en ”correcto” y ”deteriorado”. El tiempo que


transcurre hasta el fallo del sistema (en horas) cuando su funcionamiento es correcto sigue
una distribución exponencial de parámetro λc = 0,001, y una distribución exponencial
de parámetro λd = 0,02 cuando su funcionamiento está deteriorado. Los datos de una
muestra de este tipo de sistemas indican que de cada 100 horas que el sistema opera, 80
lo hace correctamente y el resto en estado deteriorado.

Si en un instante de tiempo t el sistema está operativo (funciona),

a. calcula la probabilidad de que su funcionamiento esté deteriorado.

b. calcula la probabilidad de que falle 1000 horas después de ese instante t.

13. El número de toneladas de mineral que produce una mina semanalmente es una variable
aleatoria con media 10 y desviación típica 16. Si se observa la producción durante 50
semanas, calcula:

a) Probabilidad de que el número medio de toneladas por semana esté entre 6 y 14.

b) Probabilidad de que la producción de 50 semanas sea superior a 60 toneladas.

14. El número medio de automóviles que llega a una estación de sumunistro de gasolina es
de 210 por hora. Si dicha estación puede atender a un máximo de 10 automóviles por
minuto, determinar la probabilidad de que en un minuto dado lleguen a la gasolinera más
automóviles de los que se pueden atender.

15. Se sabe que la concentración de amoniaco en sagre venosa de individuos sanos se distribuye
según una Normal con media 110 microgramos/mm3 y varianza desconocida.

a) Sabiendo que el 99 % de la concentración de amoniaco de los individuos se encuentra


en el intervalo [85,135], calcular la desviación típica de la distribución.

b) Si un individuo tiene una concentración de 120, qué porcentaje de la población


presenta una concentración inferior a él?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


92 Capítulo 5. Algunas distribuciones importantes de probabilidad

c) Si se somete a una prueba al 5 % de los individuos con mayor concentración, ¿a partir


de qué valor se hará?

d) Si se considera atípica una concentración que diste de la media más de 20, ¿cuántos
individuos se esperarían con esta característica en una muestra seleccionada al azar
de 60 individuos?.

16. En un proceso de fabricación, la probabilidad de que una pieza sea defectuosa es de 0.01.
Si la producción diaria es de 10000 piezas y se empaquetan en lotes de 100 unidades:

a) Calcular la probabilidad de que en un lote haya por lo menos dos piezas defectuosas.

b) Si un lote es rechazado cuando contiene más de 5 piezas defectuosas, ¿cuántos lotes


serán rechazados diariamente por término medio?.

17. Una partida de bujías con alta proporción de inservibles (20 %) sale al mercado en paquetes
de 4 unidades y en cajas de 10 paquetes. Calcular la probabilidad de que:

a) Elegido un paquete al azar contenga 2 o más bujías inservibles.

b) Elegida una caja al azar contenga más de 10 bujías inservibles.

c) Elegida una caja al azar contenga tres paquetes sin bujías inservibles.

18. En una fábrica que envasa agua mineral, se ha establecido que el volumen envasado por
máquina automática sigue una distribución Normal de media 150cl. y desviación típica
2cl.

a) Los criterios de la empresa implican que no se venda una botella que contenga menos
de 147cl. ¿Cuál es la proporción de botellas en la producción que no se pueden
vender?.

b) Las botellas se empaquetan por 6 unidades, ¿cuál es la probabilidad de que un


paquete contenga al menos una botella con menos de 147cl?.

c) En un día se producen 10000 botellas, ¿cuál es la probabilidad de que haya en un


día más de 600 botellas invendibles?.

d) Utilizando el apartado anterior, ¿cuál es, en un mes, el número medio de días en los
que se producen más de 600 botellas invendibles?.
5.6. Ejercicios 93

19. Consideremos dos interruptores eléctricos fabricados por dos marcas A y B.

a) El tiempo de vida de un interruptor de la marca A sigue una distribución exponencial


Exp(λA ) de vida media 2 años. Calcula la probabilidad de que no falle a lo largo del
primer año.

b) Si sabemos que un interruptor de la marca A lleva funcionando 6 meses, ¿cuál es la


probabilidad de que dure al menos 1 año más?.

c) El tiempo de vida de un interruptor de la marca B sigue también una distribución


exponencial, Exp(λB ). Sabiendo que la probabilidad de que falle durante el primer
año es 0.25, calcula el valor de λB y el tiempo medio de fallo de esta marca de
interruptores.

d) Si conectamos en serie dos interruptores, uno de cada tipo, ¿qué distribución pre-
senta el tiempo de fallo del sistema resultante?. Calcula el tiempo medio de fallo del
sistema.

e) Si se instalan 10 interruptores de la marca B en diferentes sistemas (no conectados),


calcula la probabilidad de que a lo sumo 2 de ellos fallen a lo largo del primer año.

f ) Si instalamos ahora 100 interruptores de la marca B, ¿cuál es la probabilidad de que


a lo sumo 30 de ellos fallen durante el primer año?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


94 Capítulo 5. Algunas distribuciones importantes de probabilidad
Parte III

Inferencia Estadística

95
Capítulo 6

Introducción a la Inferencia
Estadística

6.1. Introducción
El principal objetivo de la Estadística es inferir o estimar características de una población
que no es completamente observable (o no interesa observarla en su totalidad) a través del
análisis de una parte de ella a la que llamamos muestra. Las razones por las que generalmente
se trabaja con muestras son principalmente:

- Económicas.

- Tiempo: si la población es muy grande llevaría tanto tiempo analizarla que incluso la
característica de interés podría variar en ese período. Por ejemplo, la tasa de paro.

- Destrucción: la medición de cierta característica podría llevar a la destrucción del indi-


viduo. Por ejemplo, al estudiar la supervivencia de ciertos animales a un tratamiento.

Lo que se hace entonces es analizar la muestra y extrapolar conclusiones desde la muestra


a la población. Ahora bien, para considerar válidas en la población las conclusiones obtenidas
en la muestra, ésta ha de representar bien a la población (representativa). Por lo tanto, la
selección de la muestra es de suma importancia, y para ello hay diversos métodos (métodos de
muestreo). Cuando se intuye que la característica en estudio puede presentar valores homogéneos

97
98 Capítulo 6. Introducción a la Inferencia Estadística

en la población, una forma de obtener una muestra representativa es eligiéndola al azar. A este
método de selección de la muestra se le llama muestreo aleatorio simple y es el más sencillo.
La Inferencia Estadística se puede clasificar en inferencia paramétrica e inferencia no paramétri-
ca. La inferencia paramétrica tiene lugar cuando se conoce la distribución de la variable de
estudio en la población, y el interés recae sobre los parámetros desconocidos de la misma. La in-
ferencia no paramétrica tiene lugar si no se conoce la distribución y sólo se suponen propiedades
generales de la misma. Nosotros nos centramos en la inferencia paramétrica, y nuestro objetivo
será inferir o estimar parámetros poblacionales a partir de la información que nos proporciona
una muestra.
Supongamos que estudiamos una variable X en una población y sabemos que presenta una
distribución Fθ , donde θ es el parámetro de la distribución y es desconocido. Los problemas
de inferencia que pueden darse son: de estimación, en los que se busca un valor (estimación
puntual) para θ o un conjunto de valores posibles para el mismo (estimación por intervalos
de confianza), y de contraste, cuyo objetivo es comprobar si es cierta o falsa cierta hipótesis
formulada sobre el parámetro θ. En el Tema 7 se estudia la estimación puntual y por intervalos
de confianza, y en Tema 8 estudiaremos problemas de contraste de hipótesis.
Ejemplo: Supongamos que queremos estudiar el tiempo de fallo de una población de cierto
tipo de componentes. Intuimos (por estudios anteriores por ejemplo) que el tiempo de fallo X
sigue una distribución Exponencial, X → Exp(λ), con λ desconocido, ya que no observamos
el tiempo de fallo de todos los componentes de la población. Tendremos que estimar su valor
en base a la información que proporciona una muestra. Dado que E(X) = 1/λ, y parece lógico
− ˆ −
estimar la media poblacional con la media muestral x, tenemos que λ = 1/x.

6.2. Muestra aleatoria simple. Estadísticos muestrales


Sea X la variable aleatoria de interés en la población, con función de probabilidad o densidad
f (x; θ), donde θ denota el parámetro o parámetros desconocidos. Una muestra aleatoria simple
(m.a.s.) de tamaño n es un conjunto de variables X1 , ..., Xn tales que:

- X1 , ..., Xn son independientes

- X1 , ..., Xn son idénticamente distribuidas, con la misma distribución que la variable pobla-
cional X.
6.3. Distribuciones de muestreo (poblaciones normales) 99

Nota: una vez observada la variable sobre los n individuos de la muestra, tendremos n valores
u observaciones x1 , ..., xn .
Un estadístico es una función de las variables aleatorias de la muestra, en la cual no aparecen
parámetros desconocidos. Un estadístico es por lo tanto una variable aleatoria, y lo denotamos
por T (X1 , ..., Xn ). El valor que toma el estadístico una vez observada la muestra es T (x1 , ..., xn ).
Al ser los estadísticos variable aleatorias, presentarán distribuciones de probabilidad, a las que
llamamos distribuciones de muestreo. Si un estadístico lo usamos para estimar un parámetro
desconocido de la población (por ejemplo la media µ, varianza σ 2 , etc.) lo llamaremos estimador
de ese parámetro. Al valor que toma una vez observada la muestra se le llama estimación puntual
del parámetro. Para cada parámetro habrá que encontrar "el mejor estimador", para cometer
en la estimación el menor error posible. El error de estimación depende fundamentalmente de
la variabilidad poblacional y del tamaño de la muestra.
Ejemplos de estadísticos son los siguientes:

- Media muestral:
− X1 + ... + Xn
X=
n
- Varianza muestral: n
X −
(Xi − X)2
i=1
S2 =
n−1

6.3. Distribuciones de muestreo (poblaciones normales)

6.3.1. Media muestral

Sea X1 , ..., Xn una m.a.s. de una población X con E(X) = µ y V ar(X) = σ 2 . El estadís-
tico media muestral hemos visto que se define como
− X1 + ... + Xn
X= ,
n
Se puede comprobar que:
− σ2
E(X) = µ y V ar(X) =
n
El Teorema Central del Límite según vimos establece que:
µ ¶
− X1 + ... + Xn σ
X= → N µ, √
n (n→∞) n

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


100 Capítulo 6. Introducción a la Inferencia Estadística

Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces,
µ ¶
− X1 + ... + Xn σ
X= → N µ, √ ,
n n
al ser combinación lineal de variables normales e independientes.

6.3.2. Varianza muestral

Sea X1 , ..., Xn una m.a.s. de una población X con E(X) = µ y V ar(X) = σ 2 . El estadís-
tico varianza muestral se define como
n
X
(Xi − µ)2
i=1
S2 =
n−1

Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces:
(n − 1)S 2
→ χ2n−1
σ2

y X y S 2 son independientes.

6.3.3. Diferencia de medias muestrales

Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales
N (µ1 , σ 21 ) y N(µ2 , σ22 ) respectivamente.
Se pueden presentar los siguientes casos:

(a) σ21 , σ 22 conocidas:  


s
− − σ21 σ22 
X − Y → N µ1 − µ2 , + ,
n1 n2

o equivalentemente
− −
X − Y − (µ1 − µ2 )
Z= q 2 → N (0, 1)
σ1 σ 22
n1 + n2

(b) σ21 = σ 22 = σ 2 desconocidas:


− −
X − Y − (µ1 − µ2 )
T = q → tn1 +n2 −2,
Sp n11 + n2
1
6.3. Distribuciones de muestreo (poblaciones normales) 101

siendo s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2

y S12 y S22 las varianzas muestrales de X e Y respectivamente.

6.3.4. Cociente de varianzas muestrales

Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales
N (µ1 , σ 21 ) y N(µ2 , σ22 ) respectivamente.
Entonces,
S12
σ2
F = 12 → Fn1 −1,n2 −1
S2
σ 22
Estudiamos además la distribución de una proporción muestral y de la diferencia de dos
proporciones muestrales, con muestras no necesariamente procedentes de poblaciones indepen-
dientes.

Proporción muestral

Sea X1 , ..., Xn una m.a.s. de una población X. Sea p la proporción de inviduos en la


ˆ
población que presentan una determinada característica, y p la proporción muestral. En-
tonces,
r
ˆ p(1 − p)
p → N(p, )
n

Nota: El número de individuos que presentan la característica en la muestra sigue una dis-
p
tribución B(n, p), que con n suficientemente grande se puede aproximar a una N (np, np(1 − p)).
Por lo tanto, la proporción muestral sigue también una distribución Normal con los pa-
rámetros arriba indicados.

Diferencia de proporciones muestrales

Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes. Denotamos por p1 y p2 las
ˆ ˆ
proporciones poblacionales y por p1 y p2 las correspondientes proporciones muestrales.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


102 Capítulo 6. Introducción a la Inferencia Estadística

Entonces:  s 
ˆ ˆ p1 (1 − p1 ) p2 (1 − p2 ) 
p1 − p2 → N p1 − p2 , +
n1 n1

Por lo tanto:
ˆ ˆ
p1 − p2 − (p1 − p2 )
Z=q → N (0, 1)
p1 (1−p1 )
n1 + p2 (1−p
n1
2)

6.4. Ejercicios

1. Una cementera elabora un tipo de cemento que tiene un contenido medio de aditivo B542
de 100mg/kg con una desviación típica de 10 mg/kg. Suponemos que la distribución es
Normal. Calcula la probabilidad de que al tomar una muestra de 20kg de la producción
diaria el contenido de aditivo sea, en media, menor de 95 mg/kg.

2. En una industria se fabrican unos cables cuya resistencia sigue una distribución Normal
de media 200 ohmios y desviación típica de 15 ohmios. Se toma una muestra de 15 cables.

a) ¿Qué probabilidad hay de que la media muestral sea menor que 195 ohmios?.

b) ¿Qué tamaño de la muestra se debe tomar para garantizar una duración media de
la muestra superior a 195 ohmios con una probabilidad mayor o igual que el 95 %.

3. Se toma una muestra de 25 observaciones de una población Normal que tiene una varianza
σ2 = 10. ¿Cuál es la probabilidad de que la varianza muestral sea mayor que 16?.

4. La vida eficaz de un componente sigue una distribución Normal de media 5000 horas y
desviación típica de 40 horas. Nos proponen un nuevo componente y nos garantizan una
vida media de 5050 horas y desviación típica de 30 horas. Decidimos hacer una prueba y
tomamos 25 componentes de cada grupo. Decidimos cambiar de proveedor si la diferencia
de duración es, en media, al menos de 25 horas. Si el nuevo proveedor está en lo cierto,
¿qué probabilidad tiene de que le compremos sus componentes?.

5. Si S12 y S22 son las varianzas muestrales de m.a.s. independientes de tamaños n1 = 10 y


n2 = 20 tomadas de poblaciones normales que tienen las mismas varianzas, calcular la
probabilidad de que el cociente de varianzas muestrales S12 / S22 sea menor que 2.42.
6.4. Ejercicios 103

6. El resultado de una encuesta de opiniones fue que el 59 % de la población española piensa


que la situación económica es buena o muy buena. Supongamos, extrapolando los resul-
tados del sondeo a la población entera que la proporción de todos los españoles con esta
opinión es efectivamente 0.59.

a) Muchos de los sondeos tienen un margen de error de orden ±3 puntos. ¿Cuál es la


probabilidad de que una muestra aleatoria de 300 españoles presente una proporción
muestral que no se aleje en más de 0.03 de la proporción auténtica p = 0,59?.

b) Constesta a la pregunta anterior para una muestra de 600 individuos y otra de 1200.
¿Cuál es el efecto de aumentar el tamaño muestral?.

7. En condiciones normales, una máquina produce piezas con una tasa de defectuosas del
1 %. Para comprobar que la máquina sigue bien ajustada, se escogen al azar cada día
100 piezas en la producción y se les somete a un test. ¿Cuál es la probabilidad de que,
si la máquina está bien ajustada, haya en una de esas muestras más del 2 % de piezas
defectuosas?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


104 Capítulo 6. Introducción a la Inferencia Estadística
Capítulo 7

Estimación puntual y por


Intervalos de Confianza

7.1. Introducción

Consideremos una v.a X con distribución Fθ con θ desconocido. En este tema vemos cómo
dar una estimación puntual para el parámetro θ y cómo construir un intervalo de confianza
para el mismo, dos formas según se comentó de estimar el parámetro.

7.2. Estimación puntual

Sea X una variable poblacional con distribución Fθ , siendo θ desconocido. El problema de


estimación puntual consiste en, seleccionada una muestra X1 , ..., Xn , encontrar el estadístico
T (X1 , ..., Xn ) que mejor estime el parámetro θ. Una vez observada o realizada la muestra, con
ˆ
valores x1 , ..., xn , se obtiene la estimación puntual de θ, T (x1 , ..., xn ) = θ .

Vemos a continuación dos métodos para obtener la estimación puntual de un parámetro:


método de los momentos y método de máxima verosimilitud.

105
106 Capítulo 7. Estimación puntual y por Intervalos de Confianza

7.2.1. Métodos de estimación puntual

Método de los momentos: consiste en igualar momentos poblacionales a momentos mues-


trales. Deberemos tener tantas igualdades como parámetros a estimar.

Momento poblacional de orden r αr = E(X r )


Xn

Xir
i=1
Momento muestral de orden r ar = n

Método de máxima verosimilitud: consiste en tomar como valor del parámetro aquel que
maximice la probabilidad de que ocurra la muestra observada.

Si X1 , ..., Xn es una muestra seleccionada de una población con distribución Fθ o densidad


fθ (x), la probabilidad de que ocurra una realización x1 , ..., xn viene dada por:
n
Y
Lθ (x1 , ..., xn ) = fθ (xi )
i=1

A Lθ (x1 , ..., xn ) se le llama función de verosimilitud.(credibilidad de la muestra observa-


da).

Buscamos entonces el valor de θ que maximice la función de verosimilud, y al valor


obtenido se le llama estimación por máxima verosimilitud de θ.

Nota: si la variable X es discreta, en lugar de fθ (xi ) consideramos la función masa de


probabilidad pθ (xi ).

Ejemplo 7.1: Sea X → N (µ, σ), con µ desconocido. Seleccionada una m.a.s. X1 , ..., Xn ,
con realización x1 , ..., xn , estimamos el parámetro µ por ambos métodos.
Según el método de los momentos:
n
X
Xi

i=1
E(X) = = X,
n
ˆ −
y al ser µ = E(X) se obtiene que µ = x.
Por el método de máxima verosimilitud:
n
Y
Lµ (x1 , ..., xn ) = fµ (xi ) =
i=1
Yn
1 −(xi −µ)2
= √ e 2σ2 ,
i=1
2πσ
7.3. Estimación por Intervalos de confianza 107

y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo:
n
1 X √
ln Lµ (x1 , ..., xn ) = − 2
(xi − µ)2 − n ln( 2πσ)
2σ i=1

n −
∂ 1 X nx − nµ ˆ −
ln Lµ (x1 , ..., xn ) = 2 (xi − µ) = = 0 ⇐⇒ µ = x
∂µ σ i=1 σ2

7.3. Estimación por Intervalos de confianza


En lugar de dar una estimación puntual para el parámetro θ buscamos ahora un intervalo

[θ (x1 , ..., xn ), θ(x1 , ..., xn )] que contenga al parámetro con una alta probabilidad. Esta proba-

bilidad recibe el nombre de nivel de confianza del intervalo, se denota por (1 − α) y la fija el
investigador.

7.3.1. Construcción de un Intervalo de Confianza (I.C.)

Sea X → Fθ , con θ desconocido.


Seguimos los siguientes pasos para construir un I.C. para θ :

1. Seleccionamos una m.a.s. X1 , ..., Xn .

2. Buscamos un estadístico que incluya el parámetro a estimar θ y que tenga distribución


conocida.

3. Fijamos el nivel de confianza (1 − α).



4. Encontramos θ (x1 , ..., xn ) y θ(x1 , ..., xn ) tal que

µ ¶

P θ (x1 , ..., xn ) ≤ θ ≤ θ(x1 , ..., xn ) ≥ 1 − α


Diremos entonces que [θ (x1 , ..., xn ), θ(x1 , ..., xn )] es un I.C. para θ al (1 − α)100 % de con-

fianza. Eso significa que de cada 100 intervalos que pudieran obtenerse (según distintas muestras
que pudieran haber sido seleccionadas al azar), (1 − α)100 contendrían el verdadero valor del
parámetro θ.
Ejemplo 7.2: Como ejemplo construimos un I.C. al (1−α)100 % de confianza para la media
µ de una normal con varianza conocida σ 20 .

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


108 Capítulo 7. Estimación puntual y por Intervalos de Confianza

En este caso el estadístico es:



X −µ
Z= √ → N (0, 1)
σ0 / n

Por lo tanto,  

X −µ
P −z1− α2 ≤ √ ≤ z1− α2  = 1 − α,
σ0/ n

y despejando se obtiene que


µ ¶
− σ0 − σ0
P x− √ z1− 2 ≤ µ ≤ x +
α √ z1− 2 = 1 − α.
α
n n
· ¸
− σ0
El Intervalo para µ al (1 − α)100 % de confianza es entonces x ± √ z1− α2 .
n
Observaciones:

- El intervalo depende de la muestra seleccionada

- La amplitud del intervalo mide la precisión de la estimación. Concretamente, el error


¯ ¯
− ¯ −¯
cometido en la estimación de µ por x viene dado por E = ¯µ − x¯ y es menor o igual que
σ
√0 z1− α2 con una probabilidad (1 − α).
n
- A mayor tamaño muestral n, menor amplitud, y por lo tanto mayor precisión en la esti-
mación. Por otro lado, cuanto mayor es el nivel de confianza, mayor es la amplitud del
intervalo.

Supongamos que llevan a cabo pruebas de la resistencia a la tensión de una clase de largueros
de aluminio utilizado en la fabricación de alas de aeroplanos. De la experiencia se considera
una desviación típica de 1 kg/mm2 . Una muestra de 10 largueros proporciona una resistencia
promedio de 87.6 kg/mm. Vamos a obtener un I.C. al 95 % de confianza para la resistencia
promedio de esta clase de largueros.

X = Resistencia a la tensión → N (µ, 1)


· ¸
− σ0
Sabemos que el I.C. al (1 − α)100 % es x ± √ z1− α2 . En este caso, el nivel de confianza
n
es del 95 %, por lo que (1 − α) = 0,95 y α = 0,05. El intervalo resulta por lo tanto:
· ¸ · ¸
− σ0 1
x ± √ z1− α2 = 87,6 ± √ 1,96 = [86,98, 88,22]
n 10
7.3. Estimación por Intervalos de confianza 109

7.3.2. Intervalos de Confianza para medias, varianzas y proporciones

- Intervalo de confianza para la media de una normal

Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ).


· ¸
− σ
Varianza conocida (σ 20 ) µ∈ x± √0 z1− α2
n
· ¸
− S
Varianza desconocida µ∈ x± √ t1− α2 ,n−1
n

- Intervalo de confianza para la varianza de una normal

Sea X1 , ..., Xn una m.a.s. de X → N (µ, σ).


P
n P
n 
(xi − µ0 )2 (xi − µ0 )2
 i=1 
Media conocida (µ0 ) σ2 ∈ 
 χ2 , i=1 

1− α χ2
α
2 ;n 2 ;n

" #
2 (n − 1)S 2 (n − 1)S 2
Media desconocida σ ∈ ,
χ21− α ;n−1 χ2α ;n−1
2 2

- Intervalo de confianza para la diferencia de medias de dos poblaciones nor-


males e independientes

Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ 21 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 22 ),
independientes.
· ¸
r
− − σ1 σ2
Varianzas conocidas µ1 − µ2 ∈ x − y ± z +
1− α
n1 n2 2
· r ¸
− − 1 1
Varianzas desconocidas pero iguales (σ2 ) µ1 − µ2 ∈ x − y ± t1− 2 ;n1 +n2 −2 Sp
α +
n1 n2

con
s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2

- Intervalo de confianza para el cociente de varianzas de dos poblaciones nor-


males e independientes

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


110 Capítulo 7. Estimación puntual y por Intervalos de Confianza

Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ 21 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 22 ),
independientes.
P
n2 P
n2 
(yi − µ2 )2 (yi − µ2 )2
σ 22  n1 n1 
Medias conocidas ∈  i=1 F α2 ;n1 ,n2 , i=1 F1− α2 ;n1 ,n2 
σ 21  P n1
n Pn1
n 
(xi − µ1 )2 2 (xi − µ1 )2 2
" i=1 i=1
#
2 2 α 2
σ2 S F
2 2 ;n1 −1,n2 −1 S F α
2 1− 2 ;n1 −1,n2 −1
Medias desconocidas ∈ ,
σ 21 S12 S12

- Intervalo de confianza para una proporción

Sea X1 , ..., Xn una m.a.s. de X → Bernoulli(p).


 s 
ˆ ˆ
ˆ p(1 − p) 
p ∈ p ± z1− α2
n

- Intervalo de confianza para la diferencia de proporciones

Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y →
Bernoulli(p2 ).
 s 
ˆ ˆ ˆ ˆ
pˆ1 ˆ pT (1 − pT ) pT (1 − pT ) 
p1 − p2 ∈ − p2 ± z1− α2 + ,
n1 n2

siendo
ˆ ˆ
ˆ n1 p1 + n2 p2
pT =
n1 + n2

Ejemplo 7.3: El hundimiento de un petrolero en las proximidades de la costa de una


determinada región ha provocado un gran desastre tanto económico como ecológico. Con el fin
de analizar la composición del fuel que desprende el buque, han sido seleccionadas 17 galletas
de chapapote sobre las que medir la concentración de cinc, obteniéndose por término medio 140
mg/l, con una desviación típica de 30 mg/l.

(a) Obtén un intervalo de confianza al 95 % para la concentración media de cinc en el fuel


que desprende el petrolero.

X = Composición de cinc → N (µ, σ), con µ, σ desconocidas


7.3. Estimación por Intervalos de confianza 111

El I.C. para µ al 95 % es:


· ¸ · ¸
− S 30
x ± √ t1− 2 ,n−1 = 140 ± √ 2,12 = [124,575, 155,425]
α
n 17

(b) ¿Qué ocurriría al incrementar el tamaño de la muestra?. Razona la respuesta.

Al incrementar el tamaño de la muestra, se reduce el error de estimación de la media


S
√ t1− α2 ,n−1 y se consigue por tanto mayor precisión.
n

Ejemplo 7.4 : Un ingenierio de control de la calidad midió el espesor de la pared de 20


botellas de vidrio de 2 litros. La media muestral resultó 4.05 mm y la desviación típica 0.08
mm. Obtén un intervalo de confianza al 90 % para la variabilidad del espesor de la pared de las
botellas.
X = Espesor → N (µ, σ), con µ, σ desconocidas

El I.C. para σ2 al 90 % es:


" # · ¸
(n − 1)S 2 (n − 1)S 2 24(0,08)2 24(0,08)2
, = , = [0,005, 0,015]
χ21− α ;n−1 χ2α ;n−1 30,15 10,11
2 2

Ejemplo 7.5: Se piensa que la concentración del ingrediente activo de un detergente líquido
para ropa está afectado por el tipo de catalizador utilizado en el proceso de fabricación. Por
experiencias anteriores se supone que la desviación estándar de la concentración activa es de 3
g/l, sin importar el tipo de catalizador utilizado. Se toman 10 observaciones con cada catalizador
y se obtienen los siguientes datos:

Cat.1 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71
Cat.2 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8

(a) Obtén un intervalo de confianza al 90 % para el cociente de varianzas?. ¿Puede suponerse


la misma variabilidad en la concentración con el empleo de ambos catalizadores?.

X = Concentración con catalizador 1 → N (µ1 , σ 1 )

Y = Concentración con catalizador 2 → N (µ2 , σ 2 ),

son independientes y todos los parámetros se desconocen.


σ22
El I.C. para σ21
al 90 % es:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


112 Capítulo 7. Estimación puntual y por Intervalos de Confianza

· ¸ · ¸
S22 F0,05;9,9 S22 F0,95;9,9 4,946(0,314) 4,946(3,18)
, = , = [0,116, 1,180],
S12 S12 13,343 13,343
Al estar el 1 contenido en el intervalo, las varianzas podrían considerarse iguales.

(b) Obtén un intervalo de confianza al 95 % para la diferencia en la concentración activa bajo


la presencia de ambos catalizadores.¿Depende la concentración activa del catalizador?.

El I.C. al 95 % para µ1 − µ2 es:


· r ¸ " r #
− − 1 1 1 1
x − y ± t1− α2 ;n1 +n2 −2 Sp + = (65,2 − 68,42) ± 2,101(3,024) +
n1 n2 10 10
= [−6,061, −0,379]

La concentración del ingrediente activo depende por lo tanto del catalizador; con el se-
gundo catalizador se consigue mayor concentración que con el primero.

Ejemplo 7.6: Para poder controlar la fabricación de un producto se toman 85 muestras de


un determinado componente y se concluye que 10 de ellos no cumplen las especificaciones.

(a) Calcula un intervalo de confianza al 95 % para la proporción de defectuosos.

X = No de defectuosos → B(85, p)

El I.C. para p al 95 % es:


 s  " #
ˆ ˆ r
ˆ
p ± z0,975 p(1 − p)  = 0,118 ± 1,96 0,118(1 − 0,118) = [0,05, 0,186]
n 85

(b) ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la
proporción sea menor de 0.05 con una probabilidad 0.95?.
ˆ
Puesto que p es el estimador puntual de p, puede definirse el error
 cometido s al estimar

¯ ¯ ˆ
p(1 −
ˆ
p)
ˆ ¯ ˆ¯ ˆ
p por p como E = ¯p − p¯ . Si el I.C. al (1-α)100 % para p es p ± z1− α2 ,
n
s
ˆ ˆ
p(1 − p)
eso significa que el error de estimación E es menor o igual que z1− α2 con una
n
probabilidad de (1 − α). En consecuencia, el tamaño de muestra n para obtener un error
en la estimación inferior o igual a E con una probabilidad (1 − α) debe ser:
³ z1− α ´2 ˆ ˆ
2
n= p(1 − p)
E
7.4. Ejercicios 113

En este caso: µ ¶2
1,96
n= 0,118(1 − 0,118) = 160
0,05

7.4. Ejercicios
1. El tiempo de fallo en horas de un componente electrónico (en horas) puede modelizarse
según una distribución Exponencial con función de densidad

f(x) = λ exp{−λx}, x ≥ 0

a. Encuentra el estimador de máxima verosimilitud de λ, basado en una muestra aleato-


ria de tamaño n.

b. Encuentra el estimador de λ haciendo uso del método de los momentos.

c. Estima el tiempo medio de las componentes en base a la información que proporciona


la siguiente muestra:

300,305,329,325,310,314,302,356,325,309,351,305,322,349

2. El número de accidentes de tráfico diarios en una localidad puede ser modelizado por
una distribución de Poisson de parámetro λ. Una muestra de 45 días proporciona un no
medio de accientes por día de 2 con una desviación estándar de 1.4. Obtén una estimación
puntual para λ.

3. En la siguiente tabla se recogen 15 medidas del tiempo (en segundos) de aceleración de


un vehículo.

10.9 9.63 6.5 11.06 11.39 9.76 12.52 7.68


9.25 12.40 9.84 10.45 7.67 8.77 9.63

Suponiendo que el tiempo de aceleración sigue una distribución normal,

a) Obtén un intervalo de confianza para el tiempo medio de aceleración.

b) Calcula el tamaño de muestra necesario para que el error de estimación de la media


sea menor que 0.75 con probabilidad 0.95.

c) ¿Se puede afirmar que la aceleración media es de 10 segundos?.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


114 Capítulo 7. Estimación puntual y por Intervalos de Confianza

4. Si realizamos una estimación de un parámetro mediante un intervalo de confianza al


90 % y obtenemos un intervalo de muy poca amplitud, ¿qué se puede concluir?. Indica
razonadamente cuáles de las siguientes afirmaciones son verdaderas o falsas:

a) Va a ser muy difícil la obtención de una estimación fiable.

b) El rango de valores entre los que está el parámetro, al 90 %, es muy pequeño.

c) De 90 intervalos que hiciéramos con muestras al azar, 90 contendrían el verdadero


valor del parámetro.

d) Para poder obtener resultados satisfactorios, el nivel de confianza ha de ser superior


al 90 %.

e) Si el nivel de confianza hubiera sido del 95 % la amplitud habría sido todavía menor
y por lo tanto mayor la precisión en la estimación.

5. Se desea comparar la variabilidad de la resistencia a la compresión de dos cementos A y B.


Para ello se fabrican 51 bloques con cada tipo de cemento a los que se mide la resistencia
2 2
a la compresión. Se obtienen los siguientes datos: SA = 120, SB = 96.

Suponiendo que ambas poblaciones son normales e independientes, obtén un intervalo de


confianza al 90 % para el cociente de varianzas. ¿Pueden considerarse significativamente
distintas?.

6. Se tienen dos métodos para medir la resistencia de un cable. Se seleccionan aleatoriamente


9 cables, a los que se aplica el primer método, y otros 9 cables a los que se aplica el segundo
método. Los datos son:

Mét. 1 1.186 1.151 1.322 1.339 1.2 1.402 1.365 1.537 1.559
Mét. 2 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052

Obtén un intervalo de confianza al 95 % para la diferencia entre los métodos. ¿Pueden


considerarse diferentes?.

7. Un ingeniero químico está interesado en comparar el rendimiento de un proceso químico


bajo dos temperaturas distintas. La realización de 5 ensayos consecutivos a cada una de
las temperaturas proporcionan los siguientes rendimientos ( %):
7.4. Ejercicios 115

Temperatura 1 85 83 82 85 84
Temperatura 2 90 92 91 93 90

Obtén un intervalo de confianza al 99 % para la diferencia de rendimientos promedios.


¿Pueden suponerse los rendmientos medios iguales?.

Suponer ambas poblaciones normales e independientes.

8. Los tiempos de fallo en horas de una muestra aleatoria de 10 componentes electrónicos


de una determinada marca son:

2300 2000 1980 2500 2432


2300 2429 1970 2100 2200

Si suponemos que estos tiempos proceden de una distribución exponencial,

a. Estima el parámetro de tal distribución.

b. Calcula el tiempo medio de fallo de una componente de este tipo.

c. Si una componente no ha fallado pasadas 500 horas desde su puesta inicial en fun-
cionamiento, ¿cuál es la probabilidad de que dure por lo menos otras 200 horas
más?.

d. Si tienen un período de garantía de 1000 horas, calcula la probabilidad de que una


componente falle estando en período de garantía. De un lote de 30 componentes,
¿cuántas se esperan que sean devueltas por fallar estando en garantía?.

9. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Con
el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una de
cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los
siguientes resultados:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


116 Capítulo 7. Estimación puntual y por Intervalos de Confianza

Granja A Granja B

0.32 0.28
0.29 0.30
0.30 0.32
0.28 0.29
0.33 0.31
0.31 0.29
0.30 0.33
0.29 0.32
0.33 0.29
0.32 0.32
0.30 0.31
0.29 0.32
0.29
0.30

a. Obtén un intervalo de confianza al 95 % para el cociente de varianzas. ¿Podrían


considerarse las varianzas iguales?.

b. Obtén un intervalo de confianza al 95 % para la diferencia en el contenido graso


promedio de los productos de ambas granjas.

c. Si la central rechaza aquellos productos con un contenido graso superior a 0.32, obtén
un intervalo de confianza al 90 % para la diferencia de proporciones de productos que
habría que rechazar procendentes de ambas granjas.
Capítulo 8

Contrastes de Hipótesis

8.1. Introducción. Conceptos básicos


Una hipótesis estadística es una afirmación acerca de una característica poblacional formu-
lada en base a los parámetros de su distribución.
Existen diversos tipos de hipótesis:

- Hacen referencia a un parámetro de una población.

Por ejemplo, consideremos el rendimiento obtenido en un proceso químico,X, con dis-


tribución N (µ, σ), siendo µ desconocido. Podríamos plantear las siguientes hipótesis:

µ = 90
µ 6= 90
µ > 90
µ < 90
Si la hipótesis asigna un único valor al parámetro se le llama hipótesis simple, en ca-
so contrario, hipótesis compuesta. En este ejemplo, la primera es simple y el resto son
compuestas.

- Comparan parámetros de varias poblaciones.

Por ejemplo, supongamos que queremos contrastar si el fumar provoca cáncer. Esto equiv-
ale a contrastar si la proporción de fumadores con cáncer, p1 , es significativamente menor
que la proporción de no fumadores con cáncer, p2 .

117
118 Capítulo 8. Contrastes de Hipótesis

Contrastar una hipótesis es comparar lo que dice la hipótesis con la información que nos
proporciona una muestra. Si hay coincidencia, dentro de un margen de error admisible entre la
hipótesis planteada (hipótesis nula, H0 ) y la información muestral entonces la mantendremos
como cierta, en caso contrario la rechazaremos. Rechazar una hipótesis es sustituirla por otra
que sea capaz de explicar la realidad observada en la muestra (hipótesis alternativa, H1 ).
Por ejemplo, supongamos que nos planteamos si el rendimiento del proceso puede ser en
media del 90 %, H0 : µ = 90. Realizamos una serie de pruebas y el rendimiento medio muestral

resulta ser x = 75, menor que 90. La información muestral parece ir más a favor de H1 : µ < 90
que de H0 : µ = 90.
Una cosa en la que hay que hay que hacer hincapié es la siguiente: nunca podemos afirmar
el que una hipótesis sea verdadera o falsa, ya que para ello tendríamos que tener observaciones
de toda la población. Por lo tanto, al realizar un contraste y tomar una decisión siempre cabe
la posibilidad de equivocarnos. Existen dos tipos de errores asociados a cualquier contraste:
error tipo I, que tiene lugar cuando rechazamos H0 siendo cierta, y error tipo II, que ocurre si
aceptamos H0 siendo falsa.

H0 cierta H0 falsa
Acepto H0 No hay error Error tipo II
Rechazo H0 Error tipo I No hay error

A la probabilidad de que ocurra el error tipo I se le llama nivel de significación del contraste,
que denotamos por α y que fijamos antes de realizar un contraste. A la probabilidad de error
tipo II la denotamos por β.
A 1 − α se le llama nivel de confianza, y a 1 − β potencia del test.

α = P (error tipo I)=P (rechazar H0 /H0 es cierta ) ,

β = P (error tipo II)=P (aceptar H0 /H0 es falsa )

Lógicamente, a medida que uno disminuye el otro aumenta.


Un ejemplo clásico es el siguiente: supongamos que un juez tiene que declarar a un individuo
culpable o inocente.

H0 : inocente

H1 : culpable
8.2. Pasos a seguir para realizar un contraste 119

Si rechaza H0 declara culpable al individuo, y si la acepta lo declara inocente. Comete un


error de tipo I si declara culpable al acusado siendo inocente, y un error de tipo II si lo declara
inocente siendo culpable. Desde el punto de vista moral parece más grave este segundo error,
de ahí que en un contraste se fije el nivel de significación α y se minimice β.

8.2. Pasos a seguir para realizar un contraste

1. Planteamos la hipótesis nula H0 (de tipo igualdad) y la alternativa H1 (a favor de la


información muestral).
H0 : θ = θ0
H1 : θ 6= θ 0
θ < θ0
θ > θ0

2. Fijamos el nivel de significación del contraste α.Generalmente se fija en 0.05, 0.01 o 0.1.

3. Determinamos una medida de discrepancia entre la hipótesis nula y la información mues-


tral. Esta medida estará en función de la diferencia del valor que especifica H0 para el
parámetro y el estimador muestral del parámetro, que tendrá distribución conocida. A
tal medida la llamamos estadístico de contraste bajo H0 .

4. Determinamos la discrepancia máxima que estamos dispuestos a admitir para aceptar H0 .


Este valor dependerá de la distribución del estadístico de contraste bajo H0 , del nivel de
significación α especificado y del tipo de hipótesis alternativa que tengamos. Delimita las
regiones de aceptación y rechazo de H0 .

5. Concluimos: si el estadístico de contraste observado (empírico) cae en la región de rechazo,


rechazamos H0 , en caso contrario, la mantendremos como cierta.

Ejemplo 8.1: Sea X → N (µ, σ) con µ, σ desconocidas, y sobre µ planteamos el siguiente


contraste:

H0 : µ = 90

H1 : µ > 90

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


120 Capítulo 8. Contrastes de Hipótesis

Seleccionamos una muestra de tamaño n y el estadístico de contraste bajo H0 (suponiendo


H0 cierta) es:

X − 90
T = → tn−1 ,
√S
n

X−µ (n−1)S 2 Z
ya que Z = √σ → N (0, 1), χ2 = σ2 → χ2n−1 , son independientes, y T = q 2 .
n χ
n−1

Observemos que valores observados en X mucho mayores que 90 irían claramente a favor
de H1 (en contra de H0 ). A su vez tales valores llevarían a un estadístico de contraste T
muy grande y positivo. En consecuencia, valores muy grandes y positivos en T nos llevarían a
rechazar H0 .(siendo cierta). De ahí que la región de rechazo esté en este caso en la cola de la
derecha (de la distribución tn−1 ) y presente un aréa igual a α (probabilidad de rechazar H0
siendo cierta). El valor que delimita la región de rechazo es por lo tanto t1−α,n−1 . Entonces
rechazaremos H0 si el estadístico de contraste observado, t, es mayor o igual que t1−α,n−1 .
A la probabilidad de que el estadístico de contraste teórico, este caso T, sea mayor que el
observado, en este caso t, se le llama p-valor. Por lo tanto, el criterio de rechazo en base al
p-valor será: rechazar H0 siempre que el p-valor sea menor o igual que α.

Supongamos que una muestra seleccionada de tamaño 20 nos proporciona una media x = 98
y una desviación típica s = 2,21. El estadístico observado es por tanto

98 − 90
t= 2,21 = 16,188

20

Para un nivel de significación α = 0,05, t1−α,n−1 = t0,95,19 = 1,73. Como 16,188 no es mayor
que 1,73 no podemos rechazar H0 .
Ejemplo 8.2: Sobre el ejemplo anterior, consideremos ahora la hipótesis alternativa H1 :
µ < 90.

H0 : µ = 90

H1 : µ < 90

En este caso, valores en X mucho menores que 90 irían a favor de H1 (en contra de H0 ).
Por lo tanto, valores muy grandes en valor absoluto y negativos en el estadístico de contraste
llevarían a rechazar H0 . La región de rechazo está ahora en la cola de la izquierda, y el valor
que la delimita es tα,n−1 . Rechazamos entonces H0 si t ≤ tα,n−1 .
8.3. Contrastes de hipótesis clásicos 121


Si observamos una muestra de tamaño 20 y se obtiene una media muestral x = 83 y una
desviación típica s = 1,96, el estadístico observado es:

t = −3,068,

y tα,n−1 = t0,05,19 = −1,73. Como −1,73 no es menor que −3,068, no podemos rechazar H0 para
un nivel de significación del 5 %. Por lo tanto, el rendimiento medio no es significativamente
menor que 90.

Ejemplo 8.3: Consideremos por último la hipótesis alternativa H1 : µ 6= 90.

H0 : µ = 90

H1 : µ 6= 90

En este caso valores en el estadístico muy grandes en valores absoluto, negativos y positivos,
llevarían a rechazar H0 . Existen ahora por lo tanto dos regiones de rechazo, una a la izquierda y
otra a la derecha, cada una de las cuales engloba un área de α/2. Los valores que las delimitan
son respectivamente tα/2,n−1 =-t1−α/2,n−1 y t1−α/2,n−1 . Rechazamos H0 si t ≤-t1−α/2,n−1 o
t =≥ t1−α/2,n−1 .

Para una muestra de tamaño 20 con media x = 80 y desviación muestral s = 1,86,

t = −24,044,

y t1−α/2,n−1 = t0,975,19 = 2,09. Como −24,044 es menor que −2,09, rechazamos H0 para un
nivel de significación del 5 %. El rendimiento medio es significativamente distinto de 90.

8.3. Contrastes de hipótesis clásicos

8.3.1. Contraste para la media de una normal con varianza conocida

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), σ conocida.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


122 Capítulo 8. Contrastes de Hipótesis

Hipótesis nula Estadístico de contraste


X̄ − µ0
H0 : µ = µ0 Z= √
σ/ n
Hipótesis alternativa Criterios de rechazo

H1 : µ 6= µ0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : µ > µ0 Z ≥ z1−α
H1 : µ < µ0 Z ≤ zα

Ejemplo 8.4: Los sistemas de escape de emergencia para las tripulaciones de aeronaves son
impulsados por un combustible sólido. Una de las características de este producto es la rapidez
de combustión, que se supone con distribución Normal. Las especificaciones requieren que la
rapidez promedio de combustión sea de 50 cm/s. Se sabe que la rapidez estándar de la rapidez
de combustión es σ = 2cm/s. El experimentador decide especificar una probabilidad para el
error tipo I de α = 0,05. Selecciona una muestra aleatoria de tamaño 25 y se obtiene una media
muestral de 53.1 cm/s. ¿A qué conclusiones llega?.
Planteamos el siguiente contraste:

H0 : µ = 50

H1 : µ 6= 50

con varianza conocida.


El estadístico de contraste es:

53,1 − 50
Z= √ = 7,75
2/ 25

Rechazamos H0 si Z ≤ zα/2 o Z ≥ z1−α/2 , siendo zα/2 = z0,025 = −1,96 y z1−α/2 =


z0,975 = 1,96. Por lo tanto rechazamos H0 para un nivel de significación del 5 %. La rapidez de
combustión es significativamente distinta de 50 cm/s.

8.3.2. Contraste para la media de una normal con varianza descono-


cida

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), σ desconocida.
8.3. Contrastes de hipótesis clásicos 123

Hipótesis nula Estadístico de contraste


X̄ − µ0
H0 : µ = µ0 T = √
S/ n
Hipótesis alternativa Criterios de rechazo

H1 : µ 6= µ0 T ≤ tα/2,n−1 o T ≥ t1−α/2,n−1
H1 : µ > µ0 T ≥ t1−α,n−1
H1 : µ < µ0 T ≤ tα,n−1

Ejemplo 8.5: Un artículo publicado en la revista Materials Engineering describe los resul-
tados de pruebas de resistencia a la adhesión de 22 especímenes de aleación U-700. La carga
para la que cada especimen falla es la siguiente (en MPa):

19.8 18.5 17.6 16.7 15.8


15.4 14.1 13.6 11.9 11.4
11.4 8.8 7.5 15.4 15.4
19.5 14.9 12.7 11.9 11.4
10.1 7.9

¿Sugieren los datos que la carga promedio de fallo es mayor que 10 MPa?. Realizar el
contraste a un 10 % de significación.
El contraste a realizar es:

H0 : µ = 10

H1 : µ > 10

con varianza σ 2 desconocida.


La media y desviación típica muestrales resultan 13.71 y 3.55 respectivamente, con lo cual:

13,71 − 10
t= √ = 4,90
3,55/ 22

Dado que t = 4,90 > t1−α,n−1 = t0,95,21 = 1,72, rechazamos H0 al 5 % de significación. La


carga promedio de fallo es significativamente mayor que 10.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


124 Capítulo 8. Contrastes de Hipótesis

8.3.3. Contraste para la varianza de una normal con media conocida

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), con µ conocida.

Hipótesis nula Estadístico de contraste


Pn
(xi − µ)2
H0 : σ2 = σ 20 χ = i=1 2
2
σ0
Hipótesis alternativa Criterios de rechazo

H1 : σ2 6= σ 20 χ2 ≤ χ2α/2,n o χ2 ≥ χ21−α/2,n
H1 : σ2 > σ 20 χ2 ≥ χ21−α,n
H1 : σ2 < σ 20 χ2 ≤ χ2α,n

8.3.4. Contraste para la varianza de una normal con media descono-


cida

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N(µ, σ), con µ desconocida.

Hipótesis nula Estadístico de contraste


(n − 1) S 2
H0 : σ2 = σ20 χ2 =
σ 20
Hipótesis alternativa Criterios de rechazo

H1 : σ2 6= σ 20 χ2 ≤ χ2α/2,n−1 o χ2 ≥ χ21−α/2,n−1
H1 : σ2 > σ 20 χ2 ≥ χ21−α,n−1
H1 : σ2 < σ 20 χ2 ≤ χ2α,n−1

Ejemplo 8.6: Un fabricante de detergente líquido está interesado en la uniformidad de la


máquina que utiliza para llenar las botellas. De manera específica, es deseable que la varianza
del proceso de llenado sea menor que 0.01, de otro modo existe un porcentaje mayor que el
deseable de botellas con un contenido menor de detergente. Supóngase que la distribución del
volumen de llenado es aproximadamente Normal. Al tomar una muestra aleatoria de 20 botellas
se obtiene una varianza muestral de 0.0153. ¿Tiene el fabricante problemas en el proceso de
llenado de las botellas?. Realizar el contraste al 5 % de significación.
El contraste a realizar es:
8.3. Contrastes de hipótesis clásicos 125

H0 : σ2 = 0,01

H1 : σ2 > 0,01

con media desconocida.


El estadístico de contraste resulta:
19 ∗ 0,0153
χ2 = = 29,07
0,01
Puesto que 29.07 no es mayor que χ21−α,n−1 = χ20,95,19 = 30,14, no podemos rechazar H0 ,
no hay suficiente evidencia empírica para concluir que la varianza del proceso de llenado es
superior a la deseada.

8.3.5. Contraste para el cociente de varianzas de dos normales inde-


pendientes con medias conocidas

Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.

Hipótesis nula Estadístico de contraste


Pn1
(xi − µ1 )2 /n1
H0 : σ21 = σ 22 F = Pi=1
n2 2
i=1 (yi − µ2 ) /n2

Hipótesis alternativa Criterios de rechazo

H1 : σ21 6= σ 21 F ≤ 1/f1−α/2,n2 ,n1 o F ≥ f1−α/2,n1 ,n2


H1 : σ21 > σ 22 F ≥ f1−α,n1 ,n2
H1 : σ21 < σ 22 2
F ≤ 1/f1−α,n2 ,n1

8.3.6. Contraste para el cociente de varianzas de dos normales inde-


pendientes con medias desconocidas

Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


126 Capítulo 8. Contrastes de Hipótesis

Hipótesis nula Estadístico de contraste


S 21
H0 : σ21 = σ 22 F =
S 22
Hipótesis alternativa Criterios de rechazo

H1 : σ21 6= σ 22 F ≤ 1/f1−α/2,n2 −1,n1 −1 o F ≥ f1−α/2,n1 −1,n2 −1


H1 : σ21 > σ 22 F ≥ f1−α,n1 −1,n2 −1
H1 : σ21 < σ 22 F ≤ 1/f1−α,n2 −1,n1 −1

8.3.7. Contraste para la diferencia de medias de dos normales inde-


pendientes con varianzas conocidas

Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.

Hipótesis nula Estadístico de contraste


X̄−Ȳ −δ0
H0 : µ1 − µ2 = δ 0 Z= r
σ2
1 σ2
n1 + n2
2

Hipótesis alternativa Criterios de rechazo

H1 : µ1 − µ2 6= δ 0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : µ1 − µ2 > δ 0 Z ≥ z1−α
H1 : µ1 − µ2 < δ 0 Z ≤ zα

8.3.8. Contraste para la diferencia de medias de dos normales inde-


pendientes con varianzas desconocidas pero iguales

Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N (µ1 , σ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N(µ2 , σ). Ambas poblaciones se suponen inde-
pendientes.
8.3. Contrastes de hipótesis clásicos 127

Hipótesis nula Estadístico de contraste


X̄ − Ȳ − δ 0
H0 : µ1 − µ2 = δ 0 T =s µ ¶
2
1 1
Sp +
n1 n2
,
Hipótesis alternativa Criterios de rechazo

H1 : µ1 − µ2 6= δ 0 T ≤ tα/2,n o T ≥ t1−α/2,n
H1 : µ1 − µ2 > δ 0 T ≥ t1−α,n
H1 : µ1 − µ2 < δ 0 T ≤ tα,n

donde

n = n1 + n2 − 2
(n1 − 1) S 21 + (n2 − 1) S 22
Sp2 =
n

Ejemplo 8.7: Se analizan dos catalizadores para determinar la forma en la que afectan
el rendimiento promedio de un proceso químico. De manera específica, el catalizador 1 es el
que se está empleando en este momento, pero el catalizador 2 también es aceptable. Como el
catalizador 2 es más caro, sólo interesará emplearlo siempre y cuando aumente el rendimiento
promedio del proceso. Se hace una prueba piloto, y los rendimientos obtenidos en % son los
siguientes:
Catalizador 1 Catalizador 2

91.5 89.19
94.18 90.95
92.18 90.46
95.39 93.21
91.79 97.19
89.07 97.04
94.72 91.07
89.21 92.75

(a) Contrastar al 10 % de significación si la variabilidad en el rendimiento del proceso puede


considerarse independiente del catalizador empleado.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


128 Capítulo 8. Contrastes de Hipótesis

El contraste es:

H0 : σ 21 = σ22

H1 : σ 21 6= σ21

con medias desconidas.

El estadístico de contraste resulta:


S 21 5,688
F = = = 0,639
S 22 8,901

Como F no es menor que 1/f1−α/2,n2 −1,n1 −1 = 1/f0,95,7,7 = 0,264 ni F es mayor que


f1−α/2,n1 −1,n2 −1 = f0,95,7,7 = 3,79, no podemos rechazar H0 , por lo tanto, la variabilidad
en el rendimiento del proceso puede considerarse independiente del catalizador empleado.

(b) Contrastar al 5 % si interesa emplear el catalizador 2.

Veamos si el catalizador 2 aumenta el rendimiento promedio del proceso.

Planteamos entonces el siguiente contraste:

H0 : µ1 − µ2 = 0

H1 : µ1 − µ2 < 0

con varianzas desconocidas pero iguales (según el contraste realizado anteriormente).

X̄ − Ȳ − δ 0 92,255 − 92,733 − 0
T =s µ ¶= s µ ¶ = −0,354
1 1 1 1
Sp2 + 7,295 +
n1 n2 8 8

Como T no es menor que tα,n = t0,05,14 = −1,761 no podemos rechazar H0 para un nivel
de significación del 5 %. Por lo tanto, el catalizador 2 no aumenta significativamente el
rendimiento promedio del proceso.

8.3.9. Contraste para la diferencia de medias de dos normales rela-


cionadas (muestras apareadas) con varianzas desconocidas pero
iguales

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ1 , σ), apareada con
una muestra Y1 , Y2 , ..., Yn de una población Y → N(µ2 , σ).
8.3. Contrastes de hipótesis clásicos 129

Hipótesis nula Estadístico de contraste


D̄ − δ 0
H0 : µ1 − µ2 = δ 0 T = q 2
SD
n

Hipótesis alternativa Criterios de rechazo

H1 : µ1 − µ2 6= δ 0 T ≤ tα/2,n−1 o T ≥ t1−α/2,n−1
H1 : µ1 − µ2 > δ 0 T ≥ t1−α,n−1
H1 : µ1 − µ2 < δ 0 T ≤ tα,n−1

donde D = X − Y

Ejemplo 8.8: Se desea comparar dos métodos para predecir la resistencia al corte de vigas
de placa de acero. Con este fin se selecciona una muestra de 9 vigas, a las que se aplican los
dos métodos. Los datos se presentan en la siguiente tabla:

Mét. 1 1.186 1.151 1.322 1.339 1.2 1.402 1.365 1.537 1.559
Mét. 2 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052
Contrastar al 5 % de significación si existe alguna diferencia entre estos dos métodos.
Claramente se trata de un contraste de igualdad de medias en muestras apareadas (se aplica
a las mismas vigas los dos métodos). Llamamos D a la diferencia de resistencia entre el método
1 y el método 2 y el contraste es:

H0 : µD = 0

H1 : µD 6= 0

Los valores muestrales de D son:

D 0.119 0.159 0.259 0.277 0.138 0.224 0.328 0.451 0.507 ,

que proporcionan una media de 0.2736 y una desviación de 0.1356.


El estadístico de contraste observado es:
0,2736
t= q = 6,05,
0,13562
9

tα/2,n−1 = t0,025,8 = −2,306 y t1−α,n−1 = t0,975,8 = 2,306.


Al ser 2.306 mayor que 6.05, rechazamos H0 , es decir, los métodos proporcionan resultados
diferentes.
Sea X → B(n1 , p).

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


130 Capítulo 8. Contrastes de Hipótesis

8.3.10. Contraste para una proporción

Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X →Bernoulli(p).

Hipótesis nula Estadístico de contraste


p̂ − p0
H0 : p = p0 Z=r
p0 (1 − p0 )
n
Hipótesis alternativa Criterios de rechazo

H1 : p 6= p0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : p > p0 Z ≥ z1−α
H1 : p < p0 Z ≤ zα

Ejemplo 8.9: Un distribuidor adquirirá un lote de equipos si el porcentaje de defectuosos


no es mayor que el 3 %, y se quiere una probabilidad del 10 % de rechazar la compra aunque
verifique la condición requerida. Prueba 30 equipos y 2 de ellos resultan defectuosos. ¿Qué
decisión debe adoptar?.
Llamamos p a la proporción de equipos defectuosos en el lote, y queremos comprobar si es
mayor que 0.03. Realizamos para ello el siguiente contraste:

H0 : p = 0,03

H1 : p > 0,03

En este caso el nivel de significación viene dado por:

α = P (Rechazar H0 /H0 cierta )

= P (Rechazar el lote/no contiene más del 3 % de defectuosos)=0.01

ˆ
La proporción de defectuosos en la muestra es p = 2/30 = 0,067,con lo cual:

0,067 − 0,03
Z=r = 1,188
0,03 ∗ 0,97
30

Al ser no ser Z mayor que z1−α = z0,95 = 1,65 no se rechaza H0 . Es decir, no hay suficiente
evidencia empírica para concluir que el porcentaje de defectuosos por lote es superior al 3 %.
8.3. Contrastes de hipótesis clásicos 131

8.3.11. Contraste para la comparación de dos proporciones

Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y → Bernoulli(p2 ).
Ambas poblaciones se suponen independientes.

Hipótesis nula Estadístico de contraste


p̂1 − p̂2
H0 : p1 = p2 Z=r ³ ´ ³ ´
ˆ ˆ ˆ ˆ
pT 1 − pT /n1 + pT 1 − pT /n2

Hipótesis alternativa Criterios de rechazo

H1 : p1 6= p2 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : p1 > p2 Z ≥ z1−α
H1 : p1 < p2 Z ≤ zα

donde

n1 p̂1 + n2 p̂2
p̂T =
n1 + n2

Ejemplo 8.10: Una central de productos lácteos recibe diariamente la leche de dos granjas
A y B. Con el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una
de cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los
siguientes resultados:

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


132 Capítulo 8. Contrastes de Hipótesis

Granja A Granja B

0.32 0.28
0.29 0.30
0.30 0.33
0.28 0.29
0.33 0.31
0.31 0.29
0.30 0.33
0.29 0.32
0.33 0.29
0.32 0.32
0.30 0.31
0.29 0.32
0.29
0.33
Si la central rechaza aquellos productos con un contenido graso superior a 0.32, ¿existen
diferencias significativas entre los porcentajes de productos de A y B que se tendrían que
rechazar?. Realizar el contraste al 5 % de significación.
El contraste es:

H0 : p1 = p2

H1 : p1 6= p2

donde el subíndice 1 hace refencia a la granja A y el 2 a la B. Las proporciones de productos


que superan un contenido graso de 0.32 en las muestras son p̂1 = 0,167 y p̂2 = 0,214, y la
proporción muestral total es p̂T = 0,192. Por lo tanto, el estadístico de contraste resulta:

0,167 − 0,214
Z=p = −0,303
0,192 (1 − 0,192) /12 + 0,192 (1 − 0,192) /14
Como Z no es menor que z0,025 = −1,96 ni Z es mayor que z0,975 = 1,96 no podemos
rechazar H0 . No existen diferencias significativas en las proporciones de productos a rechazar
en ambas granjas.
8.4. Relación entre intervalos de confianza y contrastes de hipótesis 133

8.4. Relación entre intervalos de confianza y contrastes de


hipótesis

Existe una estrecha relación entre la prueba de una hipótesis estadística sobre un parámetro
θ y el intervalo de confianza de θ. Si denotamos por [θL , θU ] el intervalo de confianza para θ a
un nivel de confianza del (1 − α)100 %, entonces el contraste bilateral (dos colas)

H0 : θ = θ0

H1 : θ 6= θ 0

a un nivel de significación α conduce a rechazar H0 si θ0 no pertenece al intervalo [θL , θ U ].

8.5. Ejercicios

1. Se utilizan dos máquinas diferentes de moldeo por inyección para la fabricación de piezas
de plástico. Una pieza se considera defectuosa si tiene un encogimiento excesivo o si le
falta color. Se toman dos muestras aleatorias, ambas de tamaño 300, y se encuentan 15
piezas defectuosas en la muestra de la máquina 1 y 8 defectuosas en la muestra de la
máquina 2. ¿Podemos concluir que la máquina 2 produce menos piezas defectuosas que
la máquina 1?. Realizar el contraste para un nivel de significación a = 0,05. Suponer que
sendas muestras proceden de poblaciones normales e independientes.

2. En un proceso de fabricación de tubos de aluminio, la longitud de éstos se distribuye


según una normal de media 100 cm y varianza 16 cm2 . Se realiza una reparación y ahora
se desea discernir si ha habido un cambio en la longitud media de los tubos. Para ello se
selecciona una muestra de tamaño 9, obteniéndose una media muestral de 102 cm. Para
un nivel de significación del 5 %, ¿a qué conclusión se llega?.

3. Dos laboratorios farmacéuticos presentan sendas vacunas contra la alergia en el mercado


al mismo tiempo. Una organización de consumidores desea comprobar cuál es más efectiva
de las dos. Con este fin, aplican cada vacuna a una muestra de 10 personas alérgicas y se
mide el nivel de alergia (de 0 a 3) que presentan en la primavera del año siguiente. Los

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


134 Capítulo 8. Contrastes de Hipótesis

resultados son:

Vacuna 1 1 2 1 2 1 1 2 1 1 2
Vacuna 2 2 3 3 2 1 3 2 2 2 3

¿Es la vacuna 1 significativamente más eficaz que la 2? Realizar el contraste al 5 % de


significación.

4. Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si pro-


ducen un flujo de corriente distinto. El departamento de ingeniería ha obtenido los datos
siguientes:

Diseño 1 n1 = 15 x1 = 24,2 S21 = 10

Diseño 2 n2 = 10 x2 = 23,9 S22 = 10,89

Determinar si existe alguna diferencia significativa en el flujo de corriente de los dos


diseños. Tomar α = 0,05.

5. Dos compañías de compuestos químicos pueden surtir materia prima, y la concentración


de un elemento en particular en este material es importante. La concentración promedio
de ambos proveedores es la misma, pero se sospecha que la variabilidad en la concentración
puede diferir en las dos compañías. La desviación estándar de la concentración en una
muestra aleatoria de 15 lotes producidos por la compañía 1 es 4.7g/l, mientras para la
compañía 2, una muestra de 20 lotes proporciona una desviación estándar de 5.8 g/l.
¿Existe suficiente evidencia en los datos para concluir que la variabilidad en la compañía
1 es mayor que la variabidad de la compañía 2? Realizar el constraste para un nivel de
significación del 5 %.

6. Un fabricante de lentes intraoculares evalúa una nueva máquina pulidora. El fabricante


aprobará la máquina si el porcentaje de lentes pulidos que contienen defectos en la su-
perficie no es mayor del 2 %. Se toma una muestra aleatoria de 250 lentes y se encuentra
que 6 de ellos tienen defectos. ¿Aprueba el fabricante la nueva máquina pulidora?. Tomar
α = 0,1

7. Se utilizan dos máquinas diferentes de moldeo por inyección para la fabricación de piezas
de plástico. Una pieza se considera defectuosa si tiene un encogimiento excesivo o si le
falta color. Se toman dos muestras aleatorias, cada una de tamaño 300, y se encuentran 15
8.5. Ejercicios 135

defectuosas en la primera y 8 en la segunda. ¿Es razonable concluir que la proporción de


defectuosas es la misma en ambas máquinas?. Realizar el contraste al 5 % de significación.

8. Quince hombres adultos con edades comprendidas entre 35 y 50 años participan en un


estudio para evaluar el efecto de la dieta y el ejercicio sobre el nivel de colesterol en la
sangre. Los niveles de colesterol medidos sobre cada individuo antes y después de haber
realizado el programa (dieta baja en grasas y ejercicio) aparecen en la siguiente tabla:

Sujeto Antes Después


1 265 229
2 240 231
3 258 227
4 295 240
5 251 238
6 245 241
7 287 234
8 314 256
9 260 247
10 279 239
11 283 246
12 240 218
13 238 219
14 225 226
15 247 233

Contrastar con un nivel de significación del 5 % si el programa reduce el nivel de colecterol.

9. En la fabricación de semiconductores, a menudo se utiliza una sustancia química para


quitar el sicilio de la parte trasera de las obleas antes de la metalización. En este proceso
es importante la rapidez con la que actúa la sustancia. Se han comparado dos soluciones
químicas, utilizando para ello dos muestras aleatorias de 10 obleas para cada solución. La
rapidez de acción observada es la siguiente (en mils/min):

Solución 1 9.9 9.4 9.3 9.6 10.2 10.1 10.3 10.0 9.3 10.1
Solución 2 10.2 10.6 10.7 11.4 10.5 11.0 10.2 10.7 10.4 10.3

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


136 Capítulo 8. Contrastes de Hipótesis

a) Contrastar la igualdad de varianzas para un nivel de significación del 10 %.

b) ¿Es significativamente mayor la rapidez (media) de actuación de la sustancia em-


pleada en la solución 2 ?. Realizar el contraste para un nivel de significación del
5%

10. Se mide la producción diaria de 2 máquinas durante 9 días seleccionados al azar. Los
datos obtenidos se recogen en la siguiente tabla:

Máquina 1 Máquina 2

103 101
115 98
101 110
105 99
107 98
110 110
105 109
110 99
115 100

a. Obtener un intervalo de confianza para la producción media de cada máquina con


un nivel de confianza del 95 %. ¿Pueden suponerse las varianzas iguales?.

b. Contrastar si la producción media diaria de la máquina 1 es significativamente mayor


que la producción media diaria de la máquina 2. Realizar el contraste para un nivel
de significación del 5 %.

11. Un sindicato pretende analizar los accidentes laborales en los sectores de la construcción
y la siderometalurgia. Para ello, toma una muestra aleatoria de 125 empresas dedicadas
a la construcción y otra de 75 pertenecientes al sector de la siderometalurgia. Una vez
analizados los porcentajes de accidentes en cada una de estas empresas, se obtienen los
siguientes datos:
N o de empresas por sector con un % N o de empresas p or sector con un %
de accidentes menor del 10 % de accidentes mayor o igual del 10 %

Construcción 98 27
Siderometalurgia 54 21
8.5. Ejercicios 137

¿Puede afirmarse que el porcentaje de accidentes laborales es independiente del sector al


que pertenece la empresa?.

12. La Consejería de Obras Públicas y Urbanismo de una Comunidad engarga un estudio para
comparar el precio de las viviendas nuevas de dos municipios, A y B. Con tal fin, se recoge
información sobre el precio del m2 de 42 viviendas de promotoras distintas, seleccionadas
al azar en el municipio A y de 40 viviendas en el municipio B. En la muestra de viviendas
del municipio A, el precio medio del m2 ha resultado ser de 0.98 miles de euros con
una desviación típica de 0.09 miles de euros, mientras que en la muestra de viviendas
del municipio B, el precio medio del m2 es de 0.95 y la desviación típica de 0.07. A
partir de esta información, ¿puede aceptarse que en los dos municipios no hay diferencias
significativas en el precio medio de las viviendas de nueva construcción para un nivel de
significación del 5 %?.

13. Se investiga la temperatura de deflexión bajo carga para dos tipos diferentes de tubería de
plástico. Para ello se toman dos muestras aleatorias, cada una de 10 unidades, anotando
las temperaturas de deflexión observadas (o F). Los resultados son los siguientes.

Tipo 1 Tipo 2

206 177
188 197
205 206
187 201
194 180
193 176
207 185
185 200
189 197
213 192

Suponiendo que sendas muestras proceden de poblaciones normales e independientes,

a. Obtén un intervalo de confianza para el cociente de varianzas con un nivel de con-


fianza del 95 %. ¿Pueden considerarse iguales las varianzas?

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


138 Capítulo 8. Contrastes de Hipótesis

b. ¿Apoyan los datos la afirmación de que la temperatura de deflexión bajo carga para
la tubería de tipo 2 es mayor que para la tubería de tipo 1?. Tomar α = 0,05.
Capítulo 9

Análisis de la varianza (un


factor): ANOVA

9.1. Introducción
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e indepen-
dientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de
poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable
o característica:

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta,

siendo I el número de poblaciones. Surge así el análisis de la varianza.


El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer
la variabilidad de un experimento en componentes independientes que puedan asignarse a causas
distintas.
El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se
diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de dis-
tintas marcas (factor marca), componentes producidos por distintas máquinas (factor máquina),
etc. En cada elemento observamos una característica continua (X) que varía aleatoriamente de
un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida

139
140 Capítulo 9. Análisis de la varianza (un factor): ANOVA

de los componentes, etc. A esta característica se le llama variable respuesta. Nuestro objetivo
será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en
las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas
el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas
la misma duración?.
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza.
Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I
máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que
la duración de las piezas producidas por una misma máquina varía debido a muchos factores
no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la
máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada
máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida
por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas,
P
tendremos un total de n = Ii=1 ni observaciones:

Máq1 Máq2 MáqI

y11 y21 yi1


.. .. ..
. . .
y1j y2j ... yij
.. .. ..
. . .
y1n1 y2n2 yinI

9.2. El modelo
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi +
uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la
duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de
un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las
diferencias entre los valores observados para esta máquina, yij , y su media, µi , son el resultado
de múltiples factores que no controlamos y que influyen en la variable respuesta, en este caso
en la duración. Las englobamos en un término uij llamado error experimental o perturbación,
uij = yij − µi .
9.3. Contraste de igualdad de medias 141

Hipótesis del modelo:

E(uij ) = 0 ∀i, j o E(yij ) = µi .

V ar(uij ) = σ2 ∀i, j (homoscedasticidad).

E(uij urk ) = 0 ∀i 6= r o j 6= k. (incorrelación).

uij → N (0, σ 2 ) o yij → N (µi , σ 2 ) (normalidad).

las dos hipótesis anteriores implican independencia.

En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza
es la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.

Estimación de los parámetros del modelo:

Los parámetros a estimar son: µi , i = 1, ..., I, y σ2 . Utilizamos para ello el método de


máxima verosimilitud, y resultan:

Xni
ˆ −
yij
j=1
µi = yi. = , i = 1, .., I,
ni
XI Xni ³ − 2
´
ˆ yij − yi.
i=1 j=1
σ2 = ,
n
ˆ −
Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de
comprobar si se verifican o no las hipótesis del modelo. Si no se verifican, este modelo no sería
el adecuado.

9.3. Contraste de igualdad de medias


Hemos visto que los yij → N (µi , σ 2 ) y son independientes. Por lo tanto los grupos (máquinas)
sólo difieren en las medias, las varianza es la misma en todos. Esto significa que contrastar si
los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son:

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


142 Capítulo 9. Análisis de la varianza (un factor): ANOVA

9.4. Descomposición de la variabilidad


Según se comentó al principio, el análisis de la varianza es un procedimiento para descom-
poner la variabilidad total presente en un experimento en componentes independientes que
puedan asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabil-
idad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos
más la variabilidad existente entre los grupos.
− − − −
yij − y.. = (yi. − y.. ) + (yij − yi. ),
XX − X − − XX
(yij − y.. )2 = ni (yi. − y.. )2 + e2ij
i j i i j

V T = V E + V NE

V T : Variabilidad total

V E : Variabilidad explicada por el modelo; variabilidad entre grupos

V NE : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos.

VE
La medida R2 = VT indica la variabilidad que explica el modelo de entre toda la presente
en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no
es válido.

9.5. Tabla Anova. Contraste de la F


El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad
V T = V E + V N E.

Tabla ANOVA:

Fuentes de variabilidad S. cuadrados G. libert. Varianza


P − − ˆ 2
VE
Entre grupos (VE) V E = i ni (yi. − y.. )2 I −1 Se = I−1
P P
V N E = i j e2ij = ˆ 2
Dentro de grupos (VNE) P n−I SR = V NE ,
n−I
= i ni σ2ni
P P −
V T = i j (yij − y.. )2 = ˆ 2
VT
Total (VT) n−1 Sy = n−1
= nσ2n
9.5. Tabla Anova. Contraste de la F 143


siendo yi. y σ2ni respectivamente la media y varianza de los datos de la muestra del grupo

i , y y.. y σ2n la media y varianza del total de las observaciones.

La media total puede calcularse de la siguiente forma:


I
X −
ni yi.
− i=1
y.. =
n

Contraste de la F :

H0 : µ1 = µ2 = .... = µI

H1 : Alguna distinta,

El estadístico de contraste (bajo H0 ) es:


ˆ 2
Se
F = → FI−1,n−I
ˆ 2
SR

Rechazamos H0 cuando F > F1−α,I−1,n−I . En tal caso, podremos decir que no se han
detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para
un nivel del significación del αx100 %.

Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan.
Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la
conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para
los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:

Tipo de recubrimiento Conductividad


1 143 141 150 146
2 152 149 137 143
3 134 133 132 127

Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto
sobre la conductividad.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


144 Capítulo 9. Análisis de la varianza (un factor): ANOVA

Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.
Solución: Queremos comprobar si la conductividad media de la válvula será la misma con
los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto
sobre la conductividad.
Planteamos el contraste:

H0 : µ1 = µ2 = µ3

H1 : Alguna distinta

y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:

Muestra Media (yi. ) Varianza (σ2ni ) Tamaño (ni )
Tipo 1 145 11.5 4
,
Tipo 2 145.25 33.188 4
Tipo 3 131.5 7.25 4

y la media y varianza totales resultan: y.. = 140,583 y σ2n = 58,576
Calculamos ahora las variabilidades explicada, no explicada y total.
X
V NE = ni σ2ni = 4(11,5 + 33,188 + 7,25) = 207,752
i

V T = nσ2n = 12(58,576) = 702,912

V E = V T − V N E = 495,160

Las varianzas explicada y no explicada son entonces:


ˆ 2 VE 495,160
Se = = = 247,58
I −1 2
ˆ 2 V NE 207,752
SR = = = 23,084,
n−I 9
y el estadístico resulta:
ˆ 2
Se 247,58
F = = = 10,725
ˆ 2 23,084
SR
Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos H0 . Existen
por tanto diferencias significativas entre los tres tipos de rucubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la válvula.
9.6. Ejercicios 145

9.6. Ejercicios

1. Un fabricante está interesado en estudiar la resistencia a la tensión de una fibra sintética,


y sospecha que puede estar relacionada con el porcentaje de algodón en su composición.
Con este fin, estudia la resistencia de la fibra considerando 5 niveles de porcentaje de
algodón en su composición. Los datos observados se muestran en la siguiente tabla.

Porcentaje de algodón Tensión de ruptura


15 7 7 15 11 9
20 12 17 12 18 18
25 14 18 18 19 19
30 19 25 22 19 23
35 7 10 11 15 11

2. Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad


de una válvula electrónica que tienen cinco tipos diferentes de recubriminento para los
tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:

Tipo de recubrimiento Conductividad


1 143 141 150 146
2 152 149 137 143
3 134 133 132 127
4 129 127 132 129
5 147 148 144 142

Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún


efecto sobre la conductividad.

3. Un artículo publicado en el Journal of the Association of Asphalt Paving Technologists


(1998) describe un experimento para determinar el efecto de las burbujas de aire sobre
la resistencia del asfalto. Para fines del experimento, las burbujas se controlan en tres
niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


146 Capítulo 9. Análisis de la varianza (un factor): ANOVA

tabla siguiente.

Resistencia del asfalto


Bajo 106 90 103 90 79 88 92 95
Burbujas de aire Medio 80 69 94 91 70 83 87 83
Alto 78 80 62 69 76 85 69 85

¿Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia


del asfalto?. Tomar α = 0,05

Suponer que las muestras proceden de poblaciones normales, independientes, con la misma
varianza.◦

4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas
hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen
la misma constante G. Tomar un nivel de significación del 5 %.

Oro 6.683 6.681 6.676 6.678 6.679 6.672


Platino 6.661 6.661 6.667 6.667 6.664
Vidrio 6.678 6.671 6.675 6.672 6.674

5. Un artículo publicado en el Material Research Bulletin (1991) investigó cuatro métodos


diferentes para preparar el compuesto superconductor P bMo6 S8 . Los autores sostienen
que la presencia de oxígeno durante el proceso de preparación afecta la temperatura
de transición Tc de superconducción del material. Los métodos de preparación 1 y 2
utilizan técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que
los métodos 3 y 4 permiten que el oxígeno esté presente. Para cada método se toman 5
observaciones de Tc (en 0 K). Los resultados son:

Método Temperatura de transición Tc


1 14.8 14.8 14.7 14.8 14.9
2 14.6 15.0 14.9 14.8 14.7
3 12.7 11.6 12.4 12.7 12.1
4 14.2 14.4 14.4 12.2 11.7
9.6. Ejercicios 147

a. ¿Tiene algún efecto la presencia de oxígeno durante la preparación del compuesto en


la temperatura de transición?. Realizar el contraste con un nivel de significación del
5 %.

b. ¿Existen diferencias significativas entre métodos de un mismo tipo?. Tomar α = 0,01.

6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si
existen diferencias significativas en la forma de enseñanza de los tres profesores. Para ello
se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en
el examen.

Prof. 1 Prof. 2 Prof. 3

43 48 29
35 47 31
44 44 28
46 46 42
39 39 31
44 45 36
38 49 35
42 48 36
45 45 39

7. Un grupo de químicos están interesados en estudiar la cantidad de radón liberado en las


duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radón,
y se prueban tres diámetros diferentes para los orificios de las alcachofas. La siguiente
tabla recoge el radón liberado (en %) para cada diámetro:

Diámetro 1 80 83 83 84 85 84 81
Diámetro 2 74 75 76 74 75 78 76
Diámetro 3 60 62 59 61 62 63 64
En base a los datos obtenidos, ¿podemos afirmar que el tamaño del orificio afecta el
porcentaje de radón liberado?. Realizar el contraste con un nivel de significación del 5 %.

Delia Montoro Cazorla. Dpto. de Estadística e I.O. Universidad de Jaén.


148 Capítulo 9. Análisis de la varianza (un factor): ANOVA

Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas
en las poblaciones.

También podría gustarte