Documentos de Académico
Documentos de Profesional
Documentos de Cultura
I Estadística Descriptiva 1
iii
iv ÍNDICE GENERAL
II Probabilidad 45
3. Introducción a la Probabilidad 47
3.1. Experimentos aleatorios. Sucesos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2. Interpretaciones de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.1. Definición clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2. Definición frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.3. Definición axiomática (Kolmogorov) . . . . . . . . . . . . . . . . . . . . . 50
3.3. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5. Teorema de la probabilidad total. Teorema de Bayes. . . . . . . . . . . . . . . . . 54
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Variable aleatoria 61
4.1. Definición de variable aleatoria. Clasificación. . . . . . . . . . . . . . . . . . . . . 61
4.1.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.1.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2. Características de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . 68
4.2.3. Otras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8.3.2. Contraste para la media de una normal con varianza desconocida . . . . . 122
8.3.3. Contraste para la varianza de una normal con media conocida . . . . . . . 124
8.3.4. Contraste para la varianza de una normal con media desconocida . . . . . 124
ix
x ÍNDICE GENERAL
Parte I
Estadística Descriptiva
1
Capítulo 1
Estadística Descriptiva
Unidimensional
3
4 Capítulo 1. Estadística Descriptiva Unidimensional
k
X
ni = n1 + ... + nk = N
i=1
1.2. Organización de los datos. Tablas de frecuencias. 5
ni
fi = ,
N
k
X
fi = 1
i=1
Observad que el cálculo de las frecuencias acumuladas sólo tiene sentido en variables numéri-
cas.
Sobre tres ejemplos vemos cómo construir la tabla de frecuencias.
Ejemplo 1.1: Supongamos que unas resistencias de cierto tipo son agrupadas en paquetes
de 50 unidades. Se seleccionaron 60 de esos paquetes y se contó el número de resistencias que
no cumplían con las especificaciones, resultando los siguientes datos:
2 1 2 4 0 1 3 2 0 5
3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1
2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2
1 6 0 3 3 3 6 1 2 3
xi ni fi Ni Fi
0 7 0.1167 7 0.1167
1 12 0.2 19 0.3167
2 13 0.2167 32 0.5334
3 14 0.2333 46 0.7667
4 6 0.1 52 0.8667
5 3 0.05 55 0.9167
6 3 0.05 58 0.9667
7 1 0.0167 59 0.9834
8 1 0.0167 60 1
N = 60 1
En la tabla se observa, por ejemplo, que tan sólo un 11.67 % de los paquetes no presentan
resistencias defectuosas, y que un elevado porcentaje de paquetes, concretamente el 86.67 %,
presentan como mucho cuatro resistencias defectuosas.
Ejemplo 1.2: Un artículo de la revista Transactions of the Institution of Chemical En-
gineers presenta datos de un experimento donde se investigó el efecto de varias variables de
un proceso sobre la oxidación en fase de vapor del naftaleno. A continuación se presenta una
muestra del porcentaje de conversión de moles de naftaleno a anhídrido maleico:
4.2 4.7 4.7 5.0 3.8 3.6 3.8 3.0 5.1 4.0
3.1 3.8 4.8 4.0 5.2 4.3 2.8 2.0 2.8 5.0
En cuanto a la amplitud, se suele tomar la misma en todos los intervalos. Una forma de
obtenerla es:
valor máximo de la variable-valor mínimo de la variable
Amplitud=
número de intervalos
Entonces, el valor máximo sería el extremo superior del último intervalo, y el valor mínimo
el extremo inferior del primer intervalo. Como normalmente los extremos inferiores se abren y
los superiores se cierran, en lugar de tomar exactamente el mínimo de la variable, se toma un
valor próximo inferior, ya que en otro caso el valor mínimo no podría incluirse en el primer
intervalo.
Nota: Hacer intervalos con la misma amplitud puede no ser una elección sensata si el con-
junto de datos contiene puntos extremos (raros en relación al resto). En tal caso se podrían
tomar intervalos más estrechos en la zona de más concentración y más amplios en la de menos
concentración.
En este ejemplo tenemos 20 observaciones, por lo que podemos tomar 4 intervalos. Si quiero
que el primer intervalo empiece en 1.5 y que el último termine en 5.5, tendrán una amplitud de
1.
% Moles ni fi Ni Fi
(1.5-2.5] 1 0.05 1 0.05
(2.5-3.5] 4 0.2 5 0.25
(3.5-4.5] 8 0.4 13 0.65
(4.5-5.5] 7 0.35 20 1
Al punto central de un intervalo se le llama marca de clase. La del primer intervalo es
1,5 + 2,5
2= .
2
Ejemplo 1.3: Se pregunta a un grupo de 20 alumnos de la asignatura de Métodos Estadís-
ticos, entre otras cosas, si hacen o no frecuentemente "botellón". Los resultados son:
sí sí no sí no no no sí no no
no sí sí sí sí sí no sí no sí
ni fi
sí 11 0.55
no 9 0.45
Cualitativas
• Diagrama de Pareto
• Diagrama de sectores
Cuantitativas
• Histograma
• Polígono de frecuencias
• Diagrama de puntos
Diagrama de barras
12
10
8
frecuencia
6
4
2
0
n s
Se ordenan las categorías de mayor a menor frecuencia y se dibujan los rectángulos corre-
spondientes. Es muy utilizado en controles de la calidad, donde cada clase representa un tipo
de disconformidad o problema de producción.
Se dibujan en un círculo sectores con áreas proporcionales a las frecuencias de cada una de
las categorías.
Diagrama de sectores
Hábito botellón
n
s
45,00%
55,00%
1.3.4. Histograma
Es igual que el diagrama de rectángulos, considerando ahora en el eje de abcisas los intervalos
y en el ordenadas las frecuencias (absolutas o relativas). Si los intervalos tienen la misma
amplitud, las frecuencias son proporcionales a las alturas de los rectángulos del histograma, ya
que el área se obtiene multiplicando la base por la altura. Por lo tanto, cada altura da idea de la
densidad o concentración de datos en esa zona: donde hay más altura, aparecen frecuentemente
valores de la variable, donde hay menos, los datos son escasos. Sin embargo, esto no ocurre si
las amplitudes no son iguales, por lo que, en tal caso, se representa la frecuencia dividida por
la amplitud.
La forma del histograma -como el diagrama de barras- refleja propiedades importantes de la
variable en cuestión. Cuando el histograma presenta un único máximo, la distribución se dice
unimodal, bimodal si presenta dos, y plurimodal si presenta más de dos. Si el histograma es
simétrico respecto de un valor central, la distribución se dice simétrica, en cuyo caso todos los
puntos equidistantes a tal valor central presentan la misma frecuencia. Si la cola de la derecha se
extiende más que la de la izquierda la distribución se dice asimétrica a la derecha o positiva, lo
cual indica que la variable toma más valores bajos que altos. Si la cola de la izquierda se extiende
más que la de la derecha, asimétrica a la izquierda o negativa, predominando los valores altos.
20 8
16
6
12
4
8
4 2
0 0
-1 1 3 5 7 9 11 1,5 2,5 3,5 4,5 5,5
Asimétrico a la derecha Asimétrico a la izquierda
0
0,82 1,02 1,22 1,42 1,62 1,82
Simétrico
Histograma
6
frecuencia
4
3
2
1
0
1,5 2,5 3,5 4,5 5,5
Porcentaje de conversión de moles de naftaleno
Polígono de frecuencias
6
3
2
0
1,5 2,5 3,5 4,5 5,5
Porcentaje de moles de conversión de naftaleno
Diagrama de puntos
0 2 4 6 8
Nº de resistencias defectuosas
La media
La mediana
La moda
La media
Supongamos que hemos medido la variable X sobre N individuos y tenemos los valores
x1 , x2 , ...., xN . La media aritmética, o simplemente media, se calcula como:
1.4. Descripción numérica de una variable 13
La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse
muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos
atípicos).
Ejemplo 1.4: Cálculo de la media de los datos del ejemplo 1.1.
− 2 + 1 + 2 + 4 + ... + 6 + 1 + 2 + 3
x= = 2,53 resistencias defectuosas por caja.
60
xi ni ni xi
0 7 0
1 12 12
2 13 26
3 14 42
4 6 24
5 3 15
6 3 18
7 1 7
8 1 8
N = 60 152
Pk
− i=1 ni xi 152
x= = = 2,53
N 60
Ejemplo 1.5: Cálculo de la media de los datos del ejemplo 1.2
Si trabajamos con los datos sin tabular,
Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase.
% Moles ni xi ni xi
(1.5-2.5] 1 2 2
(2.5-3.5] 4 3 12
(3.5-4.5] 8 4 32
(4.5-5.5] 7 5 35
20 81
− 81
x= = 4,05
20
Nótese que 4.05 no es la media real, es un valor aproximado, ya que se está suponiendo que
los datos son:
2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5.
En adelante, si es posible, siempre calcularemos las medidas a partir de los datos sin agrupar
en intervalos, para no perder precisión innecesariamente.
La mediana
Es el valor que divide al conjunto de observaciones ordenado de menor a mayor en dos partes
iguales, ocupa el lugar central. Deja por tanto al 50 % de las observaciones por debajo y al 50 %
por encima.
Mín 50 % Mediana 50 % Máx
- Si los datos están sin tabular: una vez ordenados de menor a mayor se toma el valor
central si el número de observaciones N es impar; si es par se toma la media de los dos
valores centrales.
- Si los datos están tabulados: si existe un valor con frecuencia relativa acumulada igual a
0.5, se toma como mediana la media de tal valor y el siguiente. En otro caso, se toma
aquel valor que supere por primera vez en frecuencia relativa acumulada 0.5.
1.4. Descripción numérica de una variable 15
2, 2,8, 2,8, 3, 3,1, 3,6, 3,8, 3,8, 3,8, 4, 4, 4,2, 4,3, 4,7, 4,7, 4,8, 5, 5, 5,1, 5,2
4+4
M ediana ==4
2
Interpretación: en el 50 % de los experimentos se obtiene un porcentaje de conversión de
moles inferior o igual a 4.
Nótese que en el primer 4 se obtiene una frecuencia relativa acumulada de 0.5.
Ejemplo 1.7: Cálculo de la mediana de los datos del ejemplo 1.1
xi ni Fi
0 7 0.1167
1 12 0.3167
2 13 0.5334
3 14 0.7667
4 6 0.8667
5 3 0.9167
6 3 0.9667
7 1 0.9834
8 1 1
N = 60
El valor 2 es la mediana, ya que presenta una frecuencia relativa acumulada de 0.5334,
inmediatamente superior a 0.5
Interpretación: El 50 % de los cajas presentan un número de resistencias defectuosas inferior
o igual a 2.
La moda
M oda = 3
Son medidas basadas en la ordenación de los datos. Dividen al conjunto de datos ordenado
en partes iguales. Según el número de partes, hablamos de:
Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de las cuales engloba
un 10 % de datos. Hay por tanto 9 deciles, D1 , ..., D9.
Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una de las cuales engloba
un 25 % de datos. Hay por tanto 3 cuartiles, Q1 , Q2 , Q3.
Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una de las cuales
engloba un 1 % de datos. Hay por tanto 99 percentiles, P1 , ..., P99.
Otra forma de calcularlos: el P25 es aquel valor que deja por debajo al 25 % de los datos,
que en este caso son 15 (25 % de 60). Análogamente, el P75 es el valor que deja 45 datos (75 %)
por debajo y 15 datos (25 %) por arriba.
Interpretación: El 25 % de los paquetes con menos resistencias defectuosas presentan como
mucho 1, y el 25 % de los paquetes con más resistencias defectuosas presentan como mínimo 3.
Ejemplo 1.11: Cálculo de los percentiles 25 y 75 de los datos del ejemplo 1.2
P25 = 3,35,
P75 = 4,75
Conjunto 1: 10,20,30,40,50
Conjunto 2: 10,30,30,30,50
Conjunto 3: 30,30,30,30,30
A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, hay una clara diferencia entre los tres
conjuntos: en el primero, hay gran dispersión en los datos (datos poco parecidos), en el tercero
la concentración de los datos es total, y en el segundo se da una situación intermedia. Es por
esto por lo que es necesario recurrir a otras medidas, las medidas de dispersión, que sean capaces
Coeficiente de variación
R = Max − M in
El rango de un conjunto de datos es muy fácil de calcular, pero ignora toda la información
contenida entre las observaciones más grande y más pequeña. Por ejemplo, las muestras 1,3,5,8,9
y 1,5,5,5,9 tienen el mismo rango igual a 8. Sin embargo, en la segunda muestra sólo existe
variabilidad en los valores extremos, mientras que en la primera los tres valores intermedios
cambian de manera considerable. Algunas veces, cuando el tamaño de la muestra es pequeño,
la pérdida de información no es muy seria. Por ejemplo, el rango se utiliza mucho en el control
de la calidad, donde se suelen utilizar muestras de tamaño 4 o 5. En general, lo que se desea
es tener una medida de variabilidad que dependa de todas las observaciones, más que de unas
cuantas.
Una medida menos sensible a los valores extremos es el rango intercuartílico, RI, definido
como la diferencia entre el tercer y primer cuartil,
RI = Q3 − Q1
La varianza y desviación típica miden la dispersión de los datos entorno a la media, y hacen
uso de todas las observaciones. Una forma intuitiva de medir la concentración de los datos
1.4. Descripción numérica de una variable 19
En general podríamos pensar que a mayor valor en la varianza o desviación típica, mayor
dispersión y menor concentración de los datos entorno a la media. En relación a esta idea, se
presenta el problema de que ambas medidas dependen de las unidades de medida (o dimensión)
de los datos. Por ejemplo, una misma muestra de alturas en centímetros y en metros da lugar a
varianzas distintas, mayor en el primer caso. Por lo tanto la varianza y desviación típica no nos
permiten cuantificar la variabilidad ni comparar la dispersión de variables medidas en unidades
distintas.
xi ni ni xi ni x2i
0 7 0 00
1 12 12 12
Pk
2 13 26 52 − i=1 ni xi 152
x= = = 2,53,
3 14 42 126 N 60
N
X
4 6 24 96 x2i
−2 582
σ2 = i=1 −x = − 2,532 = 3,3
5 3 15 75 N 60
√
6 3 18 108 σ = 3,3
7 1 7 49
8 1 8 64
N = 60 152 582
Coeficiente de variación
Como solución al problema de dependencia de las unidades de medida de las variables que
presentan la varianza y desviación típica, se crea una nueva medida adimensional (no depende
de las unidades de medida) conocida como coeficiente de variación, definido como el cociente
entre la desviación típica y la media (en valor absoluto),
σ
CV = ¯¯−¯¯
¯ x¯
Mide la concentración relativa de los datos entorno a la media. Cuanto más próximo a cero
esté (vale 0 cuando σ = 0), menor dispersión habrá, y por lo tanto más representativa será la
media.
Ejemplo 1.14: Con un micrómetro se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm y una desviación típica de 0.012 mm; con otro micrómetro se
1.4. Descripción numérica de una variable 21
toman mediciones de la longitud de un tornillo, que tienen una media de 1.76 pulgadas y una
desviación típica de 0.0075 pulgadas. Los coeficientes de variación son:
0,012
CVbalero = = 0,003
4,03
0,0075
CVtornillo = = 0,004
1,76
En consecuencia, las mediciones realizadas con el primer micrómetro presentan una vari-
abilidad relativamente menor que las efectuadas con el segundo.
Ya vimos cómo a partir de una representación gráfica se pueden estudiar algunos rasgos
importantes de la variable; comentamos cómo hacernos una idea de la simetría o asimetría
de una variable según la forma del histograma. La simetría o asimetría también puede estudi-
arse con una medida numérica, el coeficiente de asimetría. Exiten varios coeficientes, el que a
continuación vemos se debe a Fisher y presenta la siguiente expresión:
PN − 3
i=1 (xi − x)
γ1 = ,
N σ3
y
Pk − Pk −
i=1 fi (xi − x)3 i=1 ni (xi − x)3
γ1 = =
σ3 N σ3
si los datos están tabulados.
Si un coeficiente de asimetría vale 0, la distribución es simétrica, si es mayor que 0, asimétrica
a la derecha o positiva, y si es menor que cero, asimétrica a la izquierda o negativa.
También podemos hacernos una idea acerca de la simetría o asimetría de una variable
comparando su media y mediana. Claramente, en variables simétricas la media, la mediana y
la moda (si es única) coinciden. Si la distribución es marcadamente asimétrica a la derecha,
su media será bastante mayor que la mediana, ya que aunque sean pocos los valores altos que
tome (cola de la derecha) , tirarán de la media hacia arriba, mientras que a la mediana según
comentamos no le afectan los valores extremos. Si la distribución es marcadamente asimétrica
a la izquierda, la media será bastante menor que la mediana.
En relación a la forma aparece también el término curtosis, que hace referencia al apun-
tamiento de la distribución. Por ejemplo, si una variable presenta un histograma muy apuntado
(alta frecuencia ) y estrecho, sus datos estarán muy concentrados.
1. Cambios de variable lineales: Supongamos que a, b, son dos números reales. Hacemos una
transformación en los datos de la forma yi = axi + b, i = 1, .., N, es decir, Y = aX + b.
Entonces,
− −
y = ax + b,
σ 2y = a2 σ 2x ,
σy = |a| σx ,
2. Variable tipificada: Tipificar una variable consiste en hacer una transformación lineal tal
que la nueva variable tenga media 0 y varianza 1. La transformación es
−
X−x
Z=
σx
3. Variable clasificada en grupos o estratos: Supongamos que tenemos N observaciones clasi-
−
ficadas en L grupos. El grupo i presenta un tamaño ni , una media xi , una varianza σ2i ,
ni
y su peso en el total de la población es wi = . Entonces, la media total y la varianza
N
total (de las N observaciones) vienen dadas por:
L
X
− −
x = wi xi ,
i=1
L
X L
X − −
σ 2x = wi σ 2i + wi (xi − x)2
i=1 i=1
1.5. Ejercicios
1. Los ingenieros industriales realizan periódicamente un análisis de la medición del trabajo
con el fin de determinar el tiempo requerido para generar una unidad de producción. En
una planta de procesamiento se registró durante 20 días el número de horas-obrero totales
requeridas para realizar cierta tarea. Los datos recogidos son:
128 119 95 97
113 109 124 132
146 128 103 135
124 131 133 131
100 112 111 150
1.5. Ejercicios 23
b) Construye el histograma.
d) ¿Cuánto tiempo requieren como máximo el 25 % de los obreros más rápidos?. ¿Cuánto
tiempo requieren como mínimo el 25 % de los que más tiempo emplean?.
2. Describe las características de los cuatro histogramas siguientes, y razona cuál es la medida
de centralización y dispersión más adecuada para la distribución correspondiente.
8 40
6 30
4 20
2 10
0 0
0 1 2 3 4 5 6 -1 1 3 5 7 9 11
40
30
20
10
0
-2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Peso (g) 448 450 453 451 447 449 446 451 448 447
No Accidentes
No causan baja 498
Causan baja 152
650
7. En una liga de rugby femenino se contabilizaron y clasificaron las lesiones que tienen lugar
(A=rotura de menisco, B=rotura de ligamentos, C=rotura de tibia, D=rotura de rótula,
E=rotura de fémur). Los resultados son:
A B B A C A A D B A C
E B B A A C D C A C B
C C C A B B C A A B C
C A C B B D A B A C B
C C A B B A D E C A B
8. Se tienen dos proveedores en dos áreas geográficas diferentes. En la primera zona los
proveedores tienen una puntuación media de 6.23 con una desviación típica de 2.3. En
la segunda zona tienen una media de 5.2 con una desviación de 1.3. El proveedor de la
primera zona tiene una puntuación de 6.84 y el de la segunda tiene una puntuación de
6.31. ¿Cuál de los dos dos es mejor en relación a su zona?.
Estadística Descriptiva
Bidimensional
Hasta ahora hemos estudiado sobre cada individuo de una población el comportamiento
de una variable X. En ocasiones se está interesado en el estudio simultáneo de dos (o más)
variables, X e Y, con el fin de observar una posible relación entre ellas.
Consideremos una población de N individuos sobre los que medimos conjuntamente dos
variables, X e Y. Cada individuo vendrá dado entonces por un par de valores (xi , yi ), i = 1, ..., N.
Al igual que en el caso unidimensional, debemos buscar una forma organizada de presentar las
observaciones. Esto se consigue con las tablas de doble entrada.
27
28 Capítulo 2. Estadística Descriptiva Bidimensional
donde nij es la frecuencia absoluta del par (xi , yj ), es decir, el número de individuos que
presentan el valor xi en X e yj en Y. La frecuencia relativa correspondiente, fij , se calcula sin
más que dividir la frecuencia absoluta por el total de observaciones, N,
nij
fij =
N
Claramente,
p
k X
X
nij = N,
i=1 j=1
p
k X
X
fij = 1.
i=1 j=1
Tabla 2.2
GINTE\GAPER 2 3 4 5 6 7 8 9 10
4 0 0 0 1 0 0 0 0 0 1
5 1 1 0 2 0 0 1 0 0 5
6 0 0 1 2 2 1 0 0 0 6
7 0 0 1 0 3 0 0 0 0 4
8 0 0 0 0 0 0 1 2 1 4
1 1 2 5 5 1 2 2 1 N =20
ni.
fi. =
N
2.2. Distribuciones marginales y condicionadas 31
n.j
f.j =
N
Expresan cómo se distribuye una de las variables sobre un conjunto de individuos que
verifican una determinada condición en la otra variable.
donde fi/j es la proporción de individuos que presentan el valor xi en X de entre los que
presentan el valor yj en Y.
donde fj/i es la proporción de individuos que presentan el valor yj en Y de entre los que
presentan el valor xi en X.
Ejemplo 2.3: Distribución marginal de la variable GINTE (datos del ejemplo 2.1)
Ejemplo 2.4: Estudiamos el grado de atractivo personal (GAPER) sobre aquellos indivi-
duos que se asignan un grado de inteligencia inferior o igual a 5. Los resultados son:
102 102
99 99
96 96
93 93
90 90
87 87
0 0,01 0,02 0,03 0,04 0,87 1,07 1,27 1,47 1,67
a) b)
(X 1000)
10 1
8 0,8
6 0,6
4 0,4
2 0,2
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10
c) d)
10
GAPER
6
0
4 5 6 7 8
GINTE
Figura 2.1:
2.3.2. La covarianza
Es una medida de la asociación lineal existente entre dos variables. Resume la información
contenida en el diagrama de dispersión. Presenta la siguiente expresión:
- Datos tabulados:
Pk Pp − − Pk Pp
i=1 j=1 nij (xi − x)(yj − y) i=1 j=1 nij xi yj −−
σx,y = = − xy
N N
Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe
es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay
asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida
de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación
existente entre distintos pares de variables. Para dar solución a este problema se obtiene el
coeficiente de correlación.
Es una medida adimensional del grado de asociación lineal existente entre dos variables. Se
define como:
σ x,y
ρx,y =
σx σ y
Algunas observaciones y propiedades:
2.3. Medidas de asociación 35
Un coeficiente de correlación alto (en valor absoluto) indica que las variables toman val-
ores relacionados entre sí entre los elementos observados, pero no permite concluir la
existencia de ninguna relación de causalidad entre las variables. Por ejemplo, suponed
que se estudian conjuntamente las variables X=No de matrimonios mensuales (en una
ciudad) y Y ="Temperatura del mes", obteniéndose un coeficiente de correlación de 0.7.
Eso significa que, en efecto, suele haber más matrimonios a medida que mejoran las tem-
peraturas, pero esto no implica que un aumento de matrimonios aumente la temperatura
del mes, ni que una ola de calor cause una avalancha de matrimonios.
6 ∗ 6 + 7 ∗ 8 + 8 ∗ 8 + ... + 6 ∗ 5 + 5 ∗ 5
σGAP ER,GINT E = − 6,25 ∗ 6,4 = 1,9
20
(datos sin tabular),
4 ∗ 1 ∗ 5 + 5 ∗ 1 ∗ 2 + ... + 8 ∗ 2 ∗ 9 + 8 ∗ 1 ∗ 10
σGAP ER,GINT E = − 6,25 ∗ 6,4
20
= 1,9
1,9
ρGAP ER,GINT E = = 0,774
2,083 ∗ 1,178
de forma que
σ x,y − σx,y −
Y = x + ( y − 2 x)
σ 2x σx
2.4. Regresión lineal. Ajuste por mínimos cuadrados. 37
σx,y − σ x,y −
X= y + (x − 2 y)
σ 2y σy
Una forma de medir la bondad del ajuste y por lo tanto la fiabilidad de las estimaciones
es mediante el coeficiente de determinación, R2 = ρ2 , o simplemente con el coeficiente de
correlación. El coeficiente de determinación R2 toma valores entre 0 y 1; cuanto más se aproxime
a 1, mayor será la asociación lineal entre las variables, mejor será por lo tanto el ajuste de la
recta a la nube de puntos, y mayor fiabilidad tendrán las predicciones.
Ejemplo 2.7: Recta de regresión de GAPER sobre GINTE (datos ejemplo 2.1)
GAP ER = aGIN T E + b,
donde
1,9
a = = 1,369
1,1782
b = 6,4 − 1,369 ∗ 6,25 = −2,156
ˆ
GAP ER(9) = 1,369 ∗ 9 − 2,156 ' 10
X 0.99 1.02 1.15 1.29 1.46 1.36 0.87 1.23 1.55 1.40
Y 90.01 89.05 91.43 93.74 96.73 94.45 87.59 91.77 99.12 93.65
b) Calcula la media y desviación típica de cada variable, a partir del conjunto de datos
original (no agrupados por intervalos). ¿Qué variable presenta mayor dispersión entorno
a su media?.
Media Desv. típica Coef. variación
X 1.232 0.2103 0.1707
Y 92.773 3.3962 0.0366
La variable Y /X ≤ 1,25 presenta los siguientes valores: 90.01, 89.05, 91.43, 87.59, 91.77
Medidas descriptivas:
1149,5142
σx,y = − 1,232 ∗ 92,773 = 0,6550,
10
0,6550
ρx,y = = 0,917
0,2103 ∗ 3,3962
Como el coeficiente de correlación está muy próximo a 1, podemos decir que existe una
fuerte asociación lineal positiva entre las variables.
e) Estima la pureza del oxígeno ( %) producido cuando el nivel de hidrocarburo es del 1.25 %.
¿En qué medida es fiable esta predicción?.
Diagrama de dispersion
102
Pureza del oxígeno (%)
99
96
93
90
87
0,87 1,07 1,27 1,47 1,67
Nivel de hidrocarburo (%)
Y = 14,819X + 74,516,
ˆ
Y (1,25) = 93,039
R2 = 0,9172 = 0,8412
Las predicciones con la recta serán bastante fiables al ser el coeficiente de correlación o
el de determinación muy elevados. Concretamente, la bondad del ajuste de la recta a la
nube de puntos es del 84.12 %.
2.5. Ejercicios
b) Predice el alargamiento para una fuerza de 2.2. ¿En qué medida es fiable tal predic-
ción?.
X 1 2 3 4 5 6 7 8 9 10
Y 0 0 0.02 0.01 0.01 0.01 0.03 0.03 0.02 0.04
b) Obtén la recta de regresión que expresa el tiempo de congestión en función del número
de vehículos.
Dureza previa 182 232 191 200 148 249 276 213 241 480 262
Dureza post. 198 210 194 220 138 220 219 161 210 313 226
b) Calcula la desviación típica en ambos casos. ¿En qué caso hay mayor variabilidad?.
c) ¿Se puede afirmar que el proceso de templado mejora la dureza de las piezas?.
a. Calcula medidas de posición central (media, mediana, moda) que resuman ambas
variables.
c. Estudiar el grado de asociación lineal entre las variables. ¿Muestran los datos que
por término medio cuanto mayor sea la tasa de paro en la localidad, mayor será su
índice de racismo?. Razona la respuesta.
d. ¿Qué valor de índice de racismo se predice para una localidad con una tasa de paro
del 20 % ?. ¿Consideras fiable esta predicción?.
8. Una compañía eléctrica está interesada en desarrollar un modelo que relacione la demanda
pico por hora (Y, en kw) con el uso de energía total al mes (X, en kwh). La tabla siguiente
muestra los datos obtenidos de una muestra de 15 clientes:
2.5. Ejercicios 43
X(kwh) Y(kw)
679 0.79
292 0.44
1012 0.56
493 0.79
582 2.70
1156 3.64
997 4.73
2189 9.50
1097 5.34
2078 6.85
1818 5.84
1700 5.21
747 3.25
2030 4.43
5300 2.70
Diagrama de dispersion
Demanda por hora (Kwh)
10
0
0 1 2 3 4 5 6
(X 1000)
Consumo energía al mes (Kwh)
b) Obtén una recta para predecir la demanda por hora en función del consumo mensual.
9. La hidrólisis de un cierto éster tiene lugar en medio ácido según un proceso cinético
de primer orden. Partiendo de una concentración inicial (por 103 (M )) desconocida del
éster, se han medido las concentraciones del mismo a diferentes tiempos (en minutos)
obteniéndose los resultados siguientes:
Tiempo 3 5 10 15 20 30 40 50 60 75 90
Conc. 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4
a) Realiza una nube de puntos de las dos variables. La teoría cinética de este tipo
de reacciones nos indica que la evolución de la concentración del éster en función
del tiempo se rige por Ct = C0 e−kt , donde C0 es la concentración inicial. ¿Qué
transformación de los datos nos lleva a un modelo lineal?. Realiza esta transformación
y obtén la concentración inicial C0 y la velocidad k de desaparición del éster.
b) Suponemos ahora que nos comunican que la concentración inicial del éster es C0 =
3,10−2 (M ). ¿Cómo incorporar esta información a nuestro análisis anterior?. Obtén
el nuevo valor de k.
a. Estudia el grado de asociación lineal entre la presión y densidad del éter dimetílico
a la temperatura dada.
b. Determina la recta de regresion para predecir la densidad del éter dimetílico para
una presión dada. ¿Qué densidad se predice para una presión de 600 mmHg?
Probabilidad
45
Capítulo 3
Introducción a la Probabilidad
Para extender los resultados del estudio descriptivo de las variables estadísticas a poblaciones
que no se observan completamente, es necesario utilizar la idea de modelo probabilístico. En esta
parte, se introduce, en primer lugar, la noción de probabilidad como idealización del concepto
de frecuencia relativa. A continuación se presenta la probabilidad condicionada y la definición
de independencia. El concepto básico para la construcción de modelos probabilísticos es el de
variable aleatoria; el estudio que aquí se realiza es paralelo al que se ha hecho en la primera
parte con las variables estadísticas, considerándose su distribución de probabilidad, su media
(o valor esperado), varianza, etc. Esta parte finaliza con el estudio de algunas distribuciones de
probabilidad bien conocidas.
Hay que distinguir entre dos tipos de experimentos o fenómenos: aleatorios y determinísticos.
Los fenómenos determinísticos son los que obedecen a una relación causa-efecto y al variar poco
las causas varía poco el efecto. Por ejemplo, al disparar un proyectil con el mismo ángulo de ele-
vación y las mismas condiciones siempre describe la misma parábola. Los fenómenos aleatorios
se caracterizan porque al repetirse en condiciones análogas presentan resultados impredecibles
de antemano. Por ejemplo, un experimento consistente en medir la corriente que circula por
un alambre de cobre. Al repetir varias veces la medición durante varios días, los resultados
que se obtienen podrían diferir un poco debido a pequeñas variaciones en las variables que
47
48 Capítulo 3. Introducción a la Probabilidad
Un evento o suceso es un conjunto de resultados del espacio muestral. Si está formado por
un único elemento se dice elemental. Los denotaremos con letras, A, B, C, etc.
Ejemplo 3.2:
- B=En un lote de 3 piezas hay al menos una defectuosa={(def,no def, no def), (no def,
def, no def), (no def, no def, def), (def, def, no def), (def, no def, def), (no def, def, def),
(def, def, def)}.
Si el suceso contiene todos los resultados del espacio muestral se dice suceso seguro, ya que
ocurre siempre. Si no contiene ningún resultado del espacio muestral se dice suceso imposible o
nulo. Lo denotamos por ∅.
Dados dos sucesos A y B, podemos realizar las siguientes operaciones:
Suceso A ∩ B : está formado por los resultados comunes de A y B. Ocurre siempre que
ocurran A y B simultáneamente.
3.1. Experimentos aleatorios. Sucesos. 49
− −
A es el suceso complementario de A si ocurre siempre que no ocurre A, A = Ω − A,
−
A ∩ A = ∅.
− − − − − −
Leyes de Morgan: A ∪ B = A ∩ B, A ∩ B = A ∪ B.
Figura 3.1:
− − − − − − − − − − − −
Ω = {(F, F, F ), (F, F, F ), (F, F , F ), (F, F , F ), (F , F, F ), (F , F, F ), (F , F , F ), (F , F , F )}.
− − − −
- A = La primera componente funciona={(F, F, F ), (F, F, F ), (F, F , F ), (F, F , F )}
− − − −
- B = La segunda componente funciona={(F, F, F ), (F, F, F ), (F , F, F ), (F , F, F )}
− − − −
- C = La tercera componente funciona={(F, F, F ), (F, F , F ), (F , F, F ), (F , F , F )}
− −
- D = El sistema funciona=A ∩ (B ∪ C) ={(F, F, F ), (F, F, F ), (F, F , F )}.
nA
P (A) = lı́m
n−>∞ n
Por ejemplo, si lanzamos una moneda 5 veces y en esas 5 veces se obtienen 4 caras, no
podemos decir que la probabilidad de obtener una cara en un lanzamiento es 4/5. Sin embar-
go, si lanzamos la moneda un número de veces suficientemente grande los resultados se van
28 50
estabilizando, 60 , ..., 100 − > 12 .
P : Ω −→ R
A −→ P (A)
tal que:
(i) P (A) ≥ 0, ∀A ⊂ Ω
3.2. Interpretaciones de la probabilidad 51
(ii) P (Ω) = 1
(iii) Para toda sucesión de sucesos disjuntos dos a dos, {A1 , A2, ...} tales que Ai ∩ Aj = ∅
∀i 6= j, entonces Ã∞ !
[ ∞
X
P Ai = P (Ai )
i=1 i=1
(i) P (∅) = 0
−
(ii) P (A) = 1 − P (A)
(iii) 0 ≤ P (A) ≤ 1
Ejemplo 3.4: Los resultados obtenidos de 266 muestras de aire se clasifican según la pres-
encia o no de dos moléculas raras. En 212 muestras de aire no hay ninguna de esas moléculas,
en 24 sólo está presente la molécula 1, en 18 sólo la molécula 2, y en 12 están presentes las dos
simultáneamente.
Definimos los siguientes sucesos:
A = En la muestra está presente la molécula 1
B = En la muestra está presente la molécula 2
Los datos tabulados son:
−
A A
B 12 18 30
−
B 24 212 236
36 230 266
36
P (A) = = 0,1353
266
30
P (B) = = 0,1127
266
12
P (A ∩ B) = = 0,0451
266
Se observa que efectivamente las moléculas rara vez aparecen, pero cuando aparecen suelen
hacerlo juntas.
las moléculas está presente en la muestra aumenta de manera muy marcada la probabilidad de
que la otra lo esté. En concreto, la probabilidad de que aparezca la molécula 1 en una muestra
es P (A) = 0,1353, y la probabilidad de que aparezca tal molécula en una muestra en la que
12
hemos detectado la presencia de la molécula 2 es P (A/B) = = 0,4. Definimos a continuación
30
formalmente la probabilidad condicionada.
A esta expresión se le conoce como regla de la multiplicación, que en general para un número
k de sucesos viene dada por:
P (A1 ∩ A2 ∩ ... ∩ Ak ) = P (A1 )P (A2 /A1 )....P (Ak /A1 ∩ A2 ∩ ... ∩ Ak−1 )
Ejemplo 3.5: Una urna contiene tres bolas negras y tres rojas. Si extraemos tres bolas sin
reemplazamiento (no se devuelven a la urna), la probabilidad de que las tres sean rojas es igual
a:
En consecuencia,
y
P (B)P (A)
P (B/A) = = P (B),
P (A)
por lo que también B es independiente de A. Diremos entonces que A y B son sucesos indepen-
dientes.
Ejemplo 3.6: Consideremos un sistema en serie formado por n componentes que funcionan
de manera independiente. Si llamamos P (Ai ) probabilidad de que la componente i funcione,
i = 1, ..., n, la probabilidad de que el sistema funcione, P (S), viene dada por
n
Y
P (S) = P (A1 ∩ A2 ∩ ... ∩ An ) = P (Ai )
i=1
− − −
P (S) = P (A1 ∪ A2 ∪ ... ∪ An ) = 1 − P (A1 ∩ A2 ∩ ... ∩ An )
Yn
= 1 − (1 − P (Ai ))
i=1
Ejemplo 3.7: Una urna contiene tres bolas negras y tres rojas. Si extraemos tres bolas con
reemplazamiento (se devuelven a la urna), la probabilidad de que las tres sean rojas es igual a:
y sea A otro suceso de Ω para el que se conocen las probabilidades P (A/Bi ), i = 1, ..., n.
Entonces,
n
X
P (A) = P (A/Bi )P (Bi ),
i=1
P (A ∩ Bi ) P (A/Bi )P (Bi )
P (Bi /A) = = Pn , i = 1, ..., n
P (A) i=1 P (A/Bi )P (Bi )
La primera fórmula constituye el teorema de la probabilidad total y la segunda el de Bayes.
Ejemplo 3.8: Una empresa dispone de tres fábricas, A, B, y C para producir un cierto
artículo. La fábrica A produce el 30 % de la cantidad total, la fábrica B produce otro 30 %, y
la fábrica C el 40 % restante. Se sabe que el 2 % de la producción de A, el 3 % de la de B y el
5 % de la de C es defectuosa.
Si llamamos:
D =Artículo defectuoso,
3.6. Ejercicios
a) Sólamente ocurre A.
b) Ocurren A y B pero no C.
e) No ocurre ninguno.
d) Entre las probetas que han dado negativo en el test, ¿cuál es la proporción de probetas
que tienen la bacteria?.
0.85 0.85
7. Una pieza producida en una empresa puede tener dos tipos de defectos, A y B. El 8 %
de la producción presenta el defecto A, el 5 % de la producción presenta el defecto B,
y se supone que no hay piezas que presenten ambos tipos de defecto. Después de ser
producida cada pieza es sometida de manera automática a un test de ruptura, con las
siguientes posibilidades: si la pieza tiene el defecto tipo A, tiene una probabilidad 0.9 de
romperse, si la pieza tiene el defecto tipo B, tiene una probabilidad 0.95 de romperse, y
si no presenta ningún tipo de defecto, tiene una probabilidad 0.01 de romperse.
¿Qúe tanto por ciento de los artículos son realmente defectuosos y no fueron detectados
como tales por ambos inspectores?.
- M.1: Prueba una llave, y si no sirve, agita el llavero y prueba otra vez, con lo cual
corre el riesgo de volverla a usar.
- M.2: Prueba las llaves una tras otra teniendo cuidado de no usar la misma llave.
b. Se sabe además que el trasnochador utiliza el método 1 cuando vuelve a casa después
de haber bebido en exceso (lo cual ocurre uno de cada tres días) y el método 2 cuando
vuelve sobrio. Si se sabe que en los dos primeros intentos ha fracasado, ¿cuál es la
probabilidad de que esté borracho?.
3.6. Ejercicios 59
a) Calcula la probabilidad de que una bujía sea considerada como buena en un control.
b) Calcula la probabilidad de que una bujía buena sea considerada como tal en dos
controles.
c) Si una bujía fue considerada como buena en dos verificaciones, ¿cuál es la probabi-
lidad de que sea realmente buena?.
Calcula:
a) Probabilidad de que una muestra presente alta resistencia tanto a los golpes como a
las rayaduras.
b) Si una muestra presenta una alta resistencia a los golpes, ¿qué es más probable, que
presente alta o baja a las rayaduras?.
c) Si una muestra presenta una alta resistencia a las rayaduras, ¿qué es más probable,
que presente alta o baja a las golpes?.
d) Si una resistencia es baja, ¿cómo suele ser la otra?.
e) Conclusiones.
12. El blanco para practicar tiro con arco tiene dos sectores. Cada acierto en el sector central
vale 10 puntos y en el sector exterior 9 puntos. Una jugada consiste en realizar 2 tiros
consecutivos (e independientes) y sumar los puntos obtenidos. De un arquero se sabe que
la probabilidad de acertar en el sector central es 0.3, y en el sector exterior 0.6. Calcula
la probabilidad de que el arquero obtenga al menos 19 puntos en una jugada.
Variable aleatoria
X:Ω→ R
s→ X(s)
es una variable aleatoria, transforma los resultados del espacio muestral en números reales.
Las variables aleatorias se clasifican en:
- Discretas: toman un número finito o infinito numerable de valores. Por ejemplo, número
de caras obtenidas al lanzar dos monedas.
61
62 Capítulo 4. Variable aleatoria
X:Ω→ R
(c, c) 2
(c, +) 1
(+, c) 1
(+, +) 0
X =Número de caras obtenidas es una variable aleatoria que toma valores 0,1,2, y cada
uno de ellos lo tomará con una probabilidad.
- Continuas: pueden tomar cualquier valor en R. Por ejemplo, tiempo de fallo de una
componente.
Sea (Ω, ℘(Ω), P ) un espacio probabilístico y X una variable aleatoria discreta (v.a.d) que
toma valores {xi }∞
i=1 Se llama función de probabilidad p(x) a la función que indica la probabi-
p(xi ) = P (X = xi ) = pi ,∀i
Se ha de verificar que:
(i) 0 ≤ pi ≤ 1 ∀i
P∞
(ii) i=1 pi =1
0,3
0,2
0,1
0
0 2 4 6 8 10
{pi }∞
i=1 la función de probabilidad de X. Se llama función de distribución de la v.a.d. X, F (x),
(i) F (−∞) = 0
(ii) F (+∞) = 1
Función de distribución
1
0,8
probabilidad acumulada
0,6
0,4
0,2
0
0 2 4 6 8 10
Observaciones:
a. Calcula la probabilidad de que todos los pasajeros que llegan a tomar el vuelo tengan
plaza.
P (X ≤ 200) = F (200) = P (198) + P (199) + P (200) = 0,29
d. ¿Cuál es la probabilidad de que la primera persona que está en lista de espera tenga sitio
en el vuelo?.
P (X < 200) = P (X ≤ 199) = 0,14
Decíamos que las variables aleatorias continuas (v.a.c.) pueden tomar cualquier valor de
la recta real. Generalmente presentarán muchos valores distintos (cada uno con muy escasa
frecuencia o probabilidad), por lo que en este caso carece de sentido hablar de probabilidad en
un punto aislado y se toman probabilidades por intervalos.
Sea (Ω, ℘(Ω), P ) un espacio probabilístico y X una v.a.c. con valores en R.Se llama función
de densidad de la v.a.c. X a una función f (x) tal que:
(i) f(x) ≥ 0, ∀x ∈ R
4.1. Definición de variable aleatoria. Clasificación. 65
Z
+∞
(ii) f(x)dx = 1
−∞
La probabilidad de que X tome valores en un intervalo [a, b], a, b ∈ R, viene dada por:
Zb
P (a ≤ X ≤ b) = f (x)dx
a
P(a<X<b)
0,4
0,1
0,3
0,2
f(x)
0,1
0
-5 -3 -1 1 3 5
a b
Observaciones:
Sea (Ω, ℘(Ω), P ) un espacio probabilístico, X una v.a.c. con valores en R.y f(x) su función
de densidad. Se llama función de distribución de la v.a.c. X, F (x), a la probabilidad de que X
tome valores inferiores o iguales a x,
Zx
F (x) = P (X ≤ x) = f (u)du, x ∈ R
−∞
(i) F (−∞) = 0
(ii) F (+∞) = 1
(iv) F es continua
Observaciones:
0,8
0,6
0,4
0,2
0
0 10 20 30 40
Ejemplo 4.2: El número de artículos vendidos en una fábrica cada mes (en millones) es
una variable aleatoria con función de densidad:
k(1 − x)2 0<x<1
f(x) =
0 en otro caso
a. Calcula el valor de k para que f (x) sea una función de densidad.
Z
+∞ Z1 Z1
f(x)dx = f(x)dx = k(1 − x)2 dx = 1,
−∞ 0 0
k = 3
d. Calcula la probabilidad de que en un mes el número de ventas esté comprendido entre 0.6
y 0.8 (millones).
e. Si se quiere tener una garantía del 95 % de que no se agote el producto en un mes deter-
minado, ¿qué cantidad c del mismo debe pedirse a fábrica?.
P (X ≤ c) = F (c) = 0,95,
c3
3(c + − c2 ) = 0,95,
3
c = 0,63.
- Si X es discreta:
∞
X
E(X) = xi pi
i=1
- Si X es continua: Z +∞
E(X) = xf(x)dx
−∞
Propiedades de la esperanza:
- Si X es discreta:
∞
X
E(g(X)) = g(xi )pi
i=1
- Si X es continua: Z +∞
E(g(X)) = g(x)f (x)dx
−∞
Pn Pn
(iv) Si X1 , ..., Xn son variables aleatorias, E( i=1 Xi ) = i=1 E(Xi ).
µk = E((X − µ)k )
αk = E(X k )
Observaciones:
- α0 = 1
- α1 = µ
- µ0 = 1
- µ1 = 0
Todas las medidas de centralización, dispersión y forma vistas en el Tema 1 pueden calcularse
sin más que sustituir en aquellas fórmulas la frecuencia relativa por la probabilidad. Así por
ejemplo, la mediana de una v.a X será aquel valor x tal que F (x) = 0,5; la moda el valor con
mayor probabilidad (caso discreto) o máxima función de densidad (caso continuo); el coefiente
de variación µ/σ, etc.
Ejemplo 4.3: Calculamos la media y varianza de la variable dada en el ejemplo 4.1
8
X
E(X) = µ = xi pi = 198 ∗ 0,05 + 199 ∗ 0,09 + ... + 205 ∗ 0,02 ' 201,
i=1
por lo tanto
V ar(X) = σ2 = E(X 2 ) − E 2 (X) = 179,88
Z1
E(X) = µ = 3x(1 − x)2 dx = 0,25,
0
Z1
2
E(X ) = 3x2 (1 − x)2 dx = 0,1,
0
Por ejemplo,
µ = G´(0),
σ2 = G´(0) − [G´(0)]2
4.4. Ejercicios
1. El control de la calidad de ciertos productos se realiza contando el número de defectos por
unidad y comprobando si dicho número está comprendido entre ciertos límites llamados
límites de control. Si el número de defectos por unidad en cierto proceso de fabricación es
una variable aleatoria X con función masa de probabilidad dada por:
e−0,6 0,6x
P (X = x) = , x = 0, 1, 2, ...
x!
a) Determina el número medio de defectos por unidad.
Nota:
siendo λ = E[X], y se considera que el proceso está bajo control estadístico cuan-
do el número de defectos que se van observando en una muestra de unidades está
comprendido entre dichos límites.
4.4. Ejercicios 71
2. El tiempo necesario en milisegundos para completar una reacción química está aproximado
por una función de distribución dada por:
F (x) = 1 − e−0,01x , x ≥ 0
c) Calcula la probabilidad de que el espesor esté comprendido entre 115 y 118 µm.
a) Representa F (x).
c) Determina f(x).
a)
0 con probabilidad 1/2
1 con probabilidad 1/10
X=
2
con probabilidad 2/10
3 con probabilidad 2/10
b)
0 con probabilidad 1/2
X= 1 con probabilidad 2/15
2 con probabilidad 8/15
c)
0 con probabilidad k/3
X=
1 con probabilidad 1 − k/3
7. Indica cuáles de las siguientes funciones puede ser función de densidad de una variable
aleatoria continua. En el caso de que no lo sean da la razón. En caso de que lo sean,
calcula la función de distribución.
a)
1/3 si x ∈ [0, 2]
f(x) =
0 en otro caso
4.4. Ejercicios 73
b)
2e−2x si x ∈ [0, ∞)
f (x) =
0 en otro caso
8. El kilometraje (en miles de km) que los automovilistas logran de cierto tipo de neumáticos
es una variable aleatoria con función de densidad
1 e− 20
x
si x > 0
f (x) = k
0 en otro caso
10. Se lanza una serie de cohetes hasta que se alcanza el primer lanzamiento con éxito. Si no
tiene lugar el éxito en la quinta prueba, finalizan los lanzamientos. La probabilidad de
éxito es 0.8 y los lanzamientos son independientes. El costo del primer lanzamiento es C
y el de los sucesivos C/3. Cada vez que tiene lugar un éxito se obtienen unos ingresos de
valor I. Sea X el resultado económico del proceso (ingresos-costos).
Algunas distribuciones
importantes de probabilidad
75
76 Capítulo 5. Algunas distribuciones importantes de probabilidad
Supongamos que tenemos una urna con N bolas, de las cuales Np son rojas y Nq negras. La
proporción de bolas rojas es por lo tanto p = Np /N y la proporción de negras q = 1−p = Nq /N.
Si extraemos de la urna n bolas sin reemplazamiento, entonces X =No de bolas rojas obtenidas
sigue una distribución Hipergeométrica de parámetros (N, n, p), que denotamos por H(N, n, p).
Su función de probabilidad es:
¡Np ¢¡ Nq ¢
x
P (X = x) = ¡Nn−x
¢ , M áx{0, n − Nq }x ≤ Mı́n{n, Np }
n
5.1. Distribuciones discretas 77
N −n
Además, E(X) = np y V ar(X) = npq .
N −1
Nota: Cuando se realiza un muestreo, éste puede ser sin o con reemplazamiento. Si es con
reemplazamiento se utiliza la distribución binomial para contar el número de éxitos (en este caso
la probabilidad de éxito permanece constante en las realizaciones), y si es sin reemplazamiento
se utiliza la distribución hipergeométrica (la probabilidad de éxito no permanece constante).
Ejemplo 5.2: En una determinada universidad, el 20 % de los alumnos están a favor de
la L.O.U. y el 80 % restante no lo está. Si un medio de comunicación realiza una encuesta a 5
alumnos elegidos al azar para exponer su opinión en directo, ¿cuál es la probabilidad de que
ninguno de ellos se muestre a favor de la reforma?.
n(1 − p) n(1 − p)
Además, E(X) = y V ar(X) = .
p p2
Nota: Existe una relación entre la distribución Binomial Negativa y la distribución Bino-
mial: sea X =No de fracasos hasta el k−ésimo éxito→ BN (k, p). Si X = x, hay x fracasos y k
éxitos, luego se ha realizado el experimento x + k veces. Si definimos ahora la v.a. Y =No de
éxitos en las x + k realizaciones, es claro que Y → B(x + k, p) y
P (X ≤ x) = P (Y ≥ k)
Ejemplo 5.3: La probabilidad de recibir de manera errónea un bit enviado por un canal
de transmisión digital es 0.1. Calcula:
P (Y ≥ 3) = 1 − P (X ≤ 2) = 1 − 0,9743 = 0,0257
q 0,9
E(X) = = =9
p 0,1
determinada franja horaria y pocos en otra, o no estar los defectos igualmente distribuidos en
el material, la distribución de Poisson no sería apropiada.
Ejemplo 5.4: Una central telefónica recibe una media de 480 llamadas por hora. Si el
número de llamadas se distribuye según una Poisson y la central tiene una capacidad para
atender a lo sumo 12 llamadas por minuto, ¿cuál es la probabilidad de que en un minuto
determinado no sea posible dar línea a todos los clientes?
Una v.a. X tiene una distribución Uniforme en el intervalo [a, b], y lo denotamos por X →
U (a, b), si su función de densidad es:
1
si a ≤ x ≤ b
b−a
f (x) =
0 en otro caso
a+b (b − a)2
Su media y varianza vienen dadas por: E(X) = y V ar(X) = .
2 12
Se dice que una v.a. X sigue una distribución Normal de parámetros µ, σ, X → N (µ, σ), si
su f.d.d. es:
1 −(x−µ)2
f (x) = √ e 2σ2 , -∞ < x < +∞, µ ∈ R, σ > 0
2πσ
Los parámetros µ, σ coinciden con la media y desviación típica de la variable respectiva-
mente.
La función de densidad es simétrica respecto a µ.
Teorema: Sean X1 , ..., Xn v.a independientes, con Xi → N(µi , σ i ). Entonces,
v
n n u n
X X uX
Y = ai Xi → N ai µi , t a2i σ2i ,
i=1 i=1 i=1
0,4
0,1
0,3
0,2
0,1
0
-5 -3 -1 1 3 5
es decir, una combinación lineal de variables Normales independientes presenta también dis-
tribución Normal.
En consecuencia, si X → N (µ, σ), entonces
X −µ
Z= → N (0, 1)
σ
A esta variable Z se le llama Normal tipificada o estándar.
En adelante denotamos por za al valor de la variable Z que deja por debajo de él una
probabilidad α, es decir,
P (Z ≤ za ) = α
0,4
0,1
0,3
0,2
α/2 α/2
0,1
0
-5 -3 -1 1 3 5
-Z1−α/2 Z1−α/2
Figura 5.2:
Ejemplo 5.5: Una empaquetadora automática se programa para producir paquetes de 500
g. Un estudio concluye que el peso en gramos de un paquete de la producción es una variable
aleatoria X normal de media 498 g. y varianza 16. Sabemos que producir un gramo de producto
5.2. Distribuciones continuas 81
cuesta a la empresa 0.05 euros, mientras que lo vende a 0.09 euros. Llamemos B a la variable
beneficio de la empresa por paquete vendido.
X → N (498, 4)
µ ¶
X − 498 490 − 498
P (X ≤ 490) = P ≤ = P (Z ≤ −2) = 0,0228
4 4
b. ¿Cuál es la probabilidad de que un paquete presente un peso comprendido entre 480 y
490 gr.?
B = (I − C)X = 0,04X
B → N (19,92, 0,16)
d. ¿Cuál es la proporción de paquetes entre la producción para los cuales la empresa tiene
un beneficio mayor de 20 euros?
µ ¶
20 − 19,92
P (B > 20) = P Z> = P (Z > 0,5) =
0,16
= 1 − P (Z ≤ 0,5) = 1 − 0,6915 = 0,3085
P (B ≤ bmáx ) = 0,95
µ ¶
bmáx − 19,92
P Z≤ = 0,95
0,16
bmáx − 19,92
z0,95 = = 1,65
0,16
bmáx = 20,1840
1 1
Su media y varianza son: E(X) = y V ar(X) = 2 .
λ λ
Presenta la propiedad de falta de memoria: Sea X una v.a. con distribución Exp(λ), y
s, t ≥ 0. Entonces se verifica que:
P (X ≥ s + t/X ≥ s) = P (X ≥ t)
Ejemplo 5.6: Una empresa suministra una serie de componentes con una vida media de
3000 horas. El riesgo de rotura de los mismos crece a lo largo del tiempo según una función
y por lo tanto el tiempo de vida de las componentes, X, sigue una distribución Exp(λ).
a. Obtén el valor de λ
1
E(X) = = 3000 =⇒ λ = 0,0003
λ
b. Calcula la probabilidad de que una componente se rompa antes de llevar 1000 horas de
funcionamiento.
Z
1000
c. Si las componentes tienen una garantía de un mes, calcula la probabilidad de que una
componente se rompa estando en garantía. En un lote de 50 componentes, ¿cuántas se
esperan que se devuelvan estando en garantía?
Z720
P (X ≤ 720) = 0,0003e−0,0003x dx = 0,1943
0
Y =No de componentes del lote que fallan estando en garantía→ B(50, 0,1943)
0,1
10
0,08
0,06
0,04
0,02
0
0 10 20 30 40
Una v.a X sigue una distribución Gamma de parámetros α, λ, X → G(α, λ), si su f.d.d. es:
λα α−1 −λx
f(x) = x e , x ≥ 0, α, λ > 0,
Γ(α)
donde
Z
+∞
α α
Su media y varianza son: E(X) = y V ar(X) = 2 .
λ λ
La distribución Exponencial es un caso particular de la Gamma, Exp(λ) = G(1, λ).
La distribución Chi-cuadrado con parámetro n (grados de libertad), denotada por χ2n , resulta
n 1
también un caso particular de la Gamma al considerar α = , λ = . Su función de densidad
2 2
es por tanto:
1 n x
f(x) = 2 −1 e− 2 , x ≥ 0
n n x
Γ( 2 )2 2
En adelante llamamos χ2α,n al valor de la variable χ2n que deja por debajo de él una proba-
bilidad α, es decir, si X → χ2n ,
P (X ≤ χ2α,n ) = α
Una v.a X sigue una distribución Gamma de parámetros α, β, X → Beta(α, β), si su f.d.d
viene dada por:
Γ(α + β) α−1
f (x) = x (1 − x)β−1 , 0 < x < 1, α, β > 0
Γ(α)Γ(β)
α αβ
Su media y varianza son: E(X) = y V ar(X) = .
α+β (α + β)2 (α + β + 1)
Z
T =r → tn ,
X
n
Γ( n+1 ) x2 n+1
f(x) = √ 2 n (1 + )− 2 , -∞ < x < +∞, n > 0,
nπΓ( 2 ) n
P (T ≤ tα,n ) = α
5.2. Distribuciones continuas 85
0,4
10
0,3
0,2
0,1
0
α
-6 -4 -2 0 2 4 6
T α ,n
X
n
F = 1 → Fn1 ,n2 ,
Y
n2
n2 n2 (2n2 + 2n1 − 4)
Su media y varianza son: E(X) = , n2 > 2. y V ar(X) = 2 , n2 > 4
n2 − 2 n1 (n2 − 2)2 (n2 − 4)
En adelante llamamos Fα,n1 ,n2 al valor de la variable F que deja por debajo de él una
probabilidad α, es decir,
P (F ≤ Fα,n1 ,n2 ) = α
Se verifica que:
1
Fα,n1 ,n2 =
F1−α,n2 ,n1
0,8
10,10
0,6
0,4
0,2
0
0 1 2 3 4 5
Ejemplo 5.7: Un sistema está sometido a la ocurrencia de shocks que llegan según un
proceso de Poisson a razón de 0.0014 por hora. Calcula:
Aproximación Condición
√
B(n, p) ≈ N (np, npq) np > 5, p > 0,05
B(n, p) ≈ P (np) np < 5
√
P (λ) ≈ N (λ, λ) λ > 10
n
H(N, n, p) ≈ B(n, p) N < 0,1
Observación: Sea Xd una variable discreta cuya distribución es aproximada por una la de
una continua Xc . Entonces, la aproximación de probabilidades en Xd por probabilidades en Xc
exige lo que se llama una corrección por continuidad:
P (a ≤ Xd ≤ b) ≈ P (a − 0,5 ≤ Xc ≤ b + 0,5)
Ejemplo 5.8: Un cuestionario de opción múltiple contiene 200 preguntas, cada una de ellas
con cuatro respuestas posibles, y de ellas sólo una es la correcta. ¿Cuál es la probabilidad de
que por simple conjetura el alumno obtenga entre 25 y 30 respuestas correctas para 80 de las
200 preguntas cuya respuesta ignora por completo?.
Definimos X =No de respuestas correctas por suerte → B(80, 0,25) ≈ N (20, 3,87)
Ejemplo 5.9: Un oleoducto se forma uniendo tuberías cuya longitud varía aleatoriamente
según una distribución de media 10m y varianza 1m2 . Calcula la probabilidad de que uniendo
100 tuberías de manera independiente se complete un recorrido superior a 1025m.
5.6. Ejercicios
1. El número de baches en una sección de carretera interestatal que requieren reparación
urgente puede modelarse con una distribucion de Poisson que tiene de media de 2 baches
por cada 20km.
c. Si una persona llama 20 veces, ¿cuál es el número de llamadas se espera que sean
contestadas en menos de 30 seg?
5.6. Ejercicios 89
4. Se supone que el número medio de defectos en rollos de tela de cierta industria textil es
una variable aleatoria Poisson con una media de 0.1 defectos por metro cuadrado.
5. Los resultados obtenidos de 266 muestras de aire se clasifican de acuerdo con la presencia
de dos moléculas raras. En 212 muestras de aire no hay ninguna de estas moléculas, en 24
está solo presente la molécula 1, en 18 sólo la molecula 2 y en 12 las dos simultáneamente.
Suponiendo que las muestras de aire son independientes con respecto a la presencia de
la moléculas, calcular la probabilidad de que si se analizan otras 50 muestras de aire al
menos dos contengan las moléculas raras.
6. Una persona pasa todas las mañanas a la misma hora por un semáforo que está en verde el
20 % de las veces. ¿ Cuál es la probabilidad de que en 5 mañanas consecutivas se encuentre
el semáforo en verde tan solo un día?.
8. El siguiente sistema está formado por 4 componentes idénticas con funcionamiento in-
dependiente y exponencialmente distribuido. Se estima que el tiempo de fallo de una
componente es de 1000 horas.
Calcula:
a. Probabilidad de que una componente falle antes de las 1000 horas de funcionamiento.
10. El tiempo de baja por enfermedad de los empleados de una empresa en un mes tiene
distribución normal con media 100 horas y desviación estándar 20 horas. Calcula:
a. Probabilidad de que el tiempo de baja del siguiente mes esté entre 50 y 80 horas.
b. Cúanto tiempo de baja deberá planear la empresa para que la probabilidad de ex-
cederlo sea sólo de 0.1
5.6. Ejercicios 91
11. Supóngase que en la detección de una señal digital el ruído de fondo tiene una distribución
normal con media 0 voltios y desviación estándar 0.45 voltios. Si el sistema supone que se
ha transmitido un uno digital cuando el voltaje es superior a 0.9 (detección falsa), ¿cuál es
la probabilidad de detectar un uno digital cuando en realidad no se ha enviado ninguno?.
13. El número de toneladas de mineral que produce una mina semanalmente es una variable
aleatoria con media 10 y desviación típica 16. Si se observa la producción durante 50
semanas, calcula:
a) Probabilidad de que el número medio de toneladas por semana esté entre 6 y 14.
14. El número medio de automóviles que llega a una estación de sumunistro de gasolina es
de 210 por hora. Si dicha estación puede atender a un máximo de 10 automóviles por
minuto, determinar la probabilidad de que en un minuto dado lleguen a la gasolinera más
automóviles de los que se pueden atender.
15. Se sabe que la concentración de amoniaco en sagre venosa de individuos sanos se distribuye
según una Normal con media 110 microgramos/mm3 y varianza desconocida.
d) Si se considera atípica una concentración que diste de la media más de 20, ¿cuántos
individuos se esperarían con esta característica en una muestra seleccionada al azar
de 60 individuos?.
16. En un proceso de fabricación, la probabilidad de que una pieza sea defectuosa es de 0.01.
Si la producción diaria es de 10000 piezas y se empaquetan en lotes de 100 unidades:
a) Calcular la probabilidad de que en un lote haya por lo menos dos piezas defectuosas.
17. Una partida de bujías con alta proporción de inservibles (20 %) sale al mercado en paquetes
de 4 unidades y en cajas de 10 paquetes. Calcular la probabilidad de que:
c) Elegida una caja al azar contenga tres paquetes sin bujías inservibles.
18. En una fábrica que envasa agua mineral, se ha establecido que el volumen envasado por
máquina automática sigue una distribución Normal de media 150cl. y desviación típica
2cl.
a) Los criterios de la empresa implican que no se venda una botella que contenga menos
de 147cl. ¿Cuál es la proporción de botellas en la producción que no se pueden
vender?.
d) Utilizando el apartado anterior, ¿cuál es, en un mes, el número medio de días en los
que se producen más de 600 botellas invendibles?.
5.6. Ejercicios 93
d) Si conectamos en serie dos interruptores, uno de cada tipo, ¿qué distribución pre-
senta el tiempo de fallo del sistema resultante?. Calcula el tiempo medio de fallo del
sistema.
Inferencia Estadística
95
Capítulo 6
Introducción a la Inferencia
Estadística
6.1. Introducción
El principal objetivo de la Estadística es inferir o estimar características de una población
que no es completamente observable (o no interesa observarla en su totalidad) a través del
análisis de una parte de ella a la que llamamos muestra. Las razones por las que generalmente
se trabaja con muestras son principalmente:
- Económicas.
- Tiempo: si la población es muy grande llevaría tanto tiempo analizarla que incluso la
característica de interés podría variar en ese período. Por ejemplo, la tasa de paro.
97
98 Capítulo 6. Introducción a la Inferencia Estadística
en la población, una forma de obtener una muestra representativa es eligiéndola al azar. A este
método de selección de la muestra se le llama muestreo aleatorio simple y es el más sencillo.
La Inferencia Estadística se puede clasificar en inferencia paramétrica e inferencia no paramétri-
ca. La inferencia paramétrica tiene lugar cuando se conoce la distribución de la variable de
estudio en la población, y el interés recae sobre los parámetros desconocidos de la misma. La in-
ferencia no paramétrica tiene lugar si no se conoce la distribución y sólo se suponen propiedades
generales de la misma. Nosotros nos centramos en la inferencia paramétrica, y nuestro objetivo
será inferir o estimar parámetros poblacionales a partir de la información que nos proporciona
una muestra.
Supongamos que estudiamos una variable X en una población y sabemos que presenta una
distribución Fθ , donde θ es el parámetro de la distribución y es desconocido. Los problemas
de inferencia que pueden darse son: de estimación, en los que se busca un valor (estimación
puntual) para θ o un conjunto de valores posibles para el mismo (estimación por intervalos
de confianza), y de contraste, cuyo objetivo es comprobar si es cierta o falsa cierta hipótesis
formulada sobre el parámetro θ. En el Tema 7 se estudia la estimación puntual y por intervalos
de confianza, y en Tema 8 estudiaremos problemas de contraste de hipótesis.
Ejemplo: Supongamos que queremos estudiar el tiempo de fallo de una población de cierto
tipo de componentes. Intuimos (por estudios anteriores por ejemplo) que el tiempo de fallo X
sigue una distribución Exponencial, X → Exp(λ), con λ desconocido, ya que no observamos
el tiempo de fallo de todos los componentes de la población. Tendremos que estimar su valor
en base a la información que proporciona una muestra. Dado que E(X) = 1/λ, y parece lógico
− ˆ −
estimar la media poblacional con la media muestral x, tenemos que λ = 1/x.
- X1 , ..., Xn son idénticamente distribuidas, con la misma distribución que la variable pobla-
cional X.
6.3. Distribuciones de muestreo (poblaciones normales) 99
Nota: una vez observada la variable sobre los n individuos de la muestra, tendremos n valores
u observaciones x1 , ..., xn .
Un estadístico es una función de las variables aleatorias de la muestra, en la cual no aparecen
parámetros desconocidos. Un estadístico es por lo tanto una variable aleatoria, y lo denotamos
por T (X1 , ..., Xn ). El valor que toma el estadístico una vez observada la muestra es T (x1 , ..., xn ).
Al ser los estadísticos variable aleatorias, presentarán distribuciones de probabilidad, a las que
llamamos distribuciones de muestreo. Si un estadístico lo usamos para estimar un parámetro
desconocido de la población (por ejemplo la media µ, varianza σ 2 , etc.) lo llamaremos estimador
de ese parámetro. Al valor que toma una vez observada la muestra se le llama estimación puntual
del parámetro. Para cada parámetro habrá que encontrar "el mejor estimador", para cometer
en la estimación el menor error posible. El error de estimación depende fundamentalmente de
la variabilidad poblacional y del tamaño de la muestra.
Ejemplos de estadísticos son los siguientes:
- Media muestral:
− X1 + ... + Xn
X=
n
- Varianza muestral: n
X −
(Xi − X)2
i=1
S2 =
n−1
Sea X1 , ..., Xn una m.a.s. de una población X con E(X) = µ y V ar(X) = σ 2 . El estadís-
tico media muestral hemos visto que se define como
− X1 + ... + Xn
X= ,
n
Se puede comprobar que:
− σ2
E(X) = µ y V ar(X) =
n
El Teorema Central del Límite según vimos establece que:
µ ¶
− X1 + ... + Xn σ
X= → N µ, √
n (n→∞) n
Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces,
µ ¶
− X1 + ... + Xn σ
X= → N µ, √ ,
n n
al ser combinación lineal de variables normales e independientes.
Sea X1 , ..., Xn una m.a.s. de una población X con E(X) = µ y V ar(X) = σ 2 . El estadís-
tico varianza muestral se define como
n
X
(Xi − µ)2
i=1
S2 =
n−1
Sea X1 , ..., Xn una m.a.s. de una población X con distribución N (µ, σ). Entonces:
(n − 1)S 2
→ χ2n−1
σ2
−
y X y S 2 son independientes.
Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales
N (µ1 , σ 21 ) y N(µ2 , σ22 ) respectivamente.
Se pueden presentar los siguientes casos:
o equivalentemente
− −
X − Y − (µ1 − µ2 )
Z= q 2 → N (0, 1)
σ1 σ 22
n1 + n2
siendo s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2
Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes y con distribuciones normales
N (µ1 , σ 21 ) y N(µ2 , σ22 ) respectivamente.
Entonces,
S12
σ2
F = 12 → Fn1 −1,n2 −1
S2
σ 22
Estudiamos además la distribución de una proporción muestral y de la diferencia de dos
proporciones muestrales, con muestras no necesariamente procedentes de poblaciones indepen-
dientes.
Proporción muestral
Nota: El número de individuos que presentan la característica en la muestra sigue una dis-
p
tribución B(n, p), que con n suficientemente grande se puede aproximar a una N (np, np(1 − p)).
Por lo tanto, la proporción muestral sigue también una distribución Normal con los pa-
rámetros arriba indicados.
Sea X1 , ..., Xn1 una m.a.s de una población X, e Y1 , ..., Yn2 una m.a.s. de una población
Y. Suponemos que las poblaciones X e Y son independientes. Denotamos por p1 y p2 las
ˆ ˆ
proporciones poblacionales y por p1 y p2 las correspondientes proporciones muestrales.
Entonces: s
ˆ ˆ p1 (1 − p1 ) p2 (1 − p2 )
p1 − p2 → N p1 − p2 , +
n1 n1
Por lo tanto:
ˆ ˆ
p1 − p2 − (p1 − p2 )
Z=q → N (0, 1)
p1 (1−p1 )
n1 + p2 (1−p
n1
2)
6.4. Ejercicios
1. Una cementera elabora un tipo de cemento que tiene un contenido medio de aditivo B542
de 100mg/kg con una desviación típica de 10 mg/kg. Suponemos que la distribución es
Normal. Calcula la probabilidad de que al tomar una muestra de 20kg de la producción
diaria el contenido de aditivo sea, en media, menor de 95 mg/kg.
2. En una industria se fabrican unos cables cuya resistencia sigue una distribución Normal
de media 200 ohmios y desviación típica de 15 ohmios. Se toma una muestra de 15 cables.
a) ¿Qué probabilidad hay de que la media muestral sea menor que 195 ohmios?.
b) ¿Qué tamaño de la muestra se debe tomar para garantizar una duración media de
la muestra superior a 195 ohmios con una probabilidad mayor o igual que el 95 %.
3. Se toma una muestra de 25 observaciones de una población Normal que tiene una varianza
σ2 = 10. ¿Cuál es la probabilidad de que la varianza muestral sea mayor que 16?.
4. La vida eficaz de un componente sigue una distribución Normal de media 5000 horas y
desviación típica de 40 horas. Nos proponen un nuevo componente y nos garantizan una
vida media de 5050 horas y desviación típica de 30 horas. Decidimos hacer una prueba y
tomamos 25 componentes de cada grupo. Decidimos cambiar de proveedor si la diferencia
de duración es, en media, al menos de 25 horas. Si el nuevo proveedor está en lo cierto,
¿qué probabilidad tiene de que le compremos sus componentes?.
b) Constesta a la pregunta anterior para una muestra de 600 individuos y otra de 1200.
¿Cuál es el efecto de aumentar el tamaño muestral?.
7. En condiciones normales, una máquina produce piezas con una tasa de defectuosas del
1 %. Para comprobar que la máquina sigue bien ajustada, se escogen al azar cada día
100 piezas en la producción y se les somete a un test. ¿Cuál es la probabilidad de que,
si la máquina está bien ajustada, haya en una de esas muestras más del 2 % de piezas
defectuosas?.
7.1. Introducción
Consideremos una v.a X con distribución Fθ con θ desconocido. En este tema vemos cómo
dar una estimación puntual para el parámetro θ y cómo construir un intervalo de confianza
para el mismo, dos formas según se comentó de estimar el parámetro.
105
106 Capítulo 7. Estimación puntual y por Intervalos de Confianza
Xir
i=1
Momento muestral de orden r ar = n
Método de máxima verosimilitud: consiste en tomar como valor del parámetro aquel que
maximice la probabilidad de que ocurra la muestra observada.
Ejemplo 7.1: Sea X → N (µ, σ), con µ desconocido. Seleccionada una m.a.s. X1 , ..., Xn ,
con realización x1 , ..., xn , estimamos el parámetro µ por ambos métodos.
Según el método de los momentos:
n
X
Xi
−
i=1
E(X) = = X,
n
ˆ −
y al ser µ = E(X) se obtiene que µ = x.
Por el método de máxima verosimilitud:
n
Y
Lµ (x1 , ..., xn ) = fµ (xi ) =
i=1
Yn
1 −(xi −µ)2
= √ e 2σ2 ,
i=1
2πσ
7.3. Estimación por Intervalos de confianza 107
y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo:
n
1 X √
ln Lµ (x1 , ..., xn ) = − 2
(xi − µ)2 − n ln( 2πσ)
2σ i=1
n −
∂ 1 X nx − nµ ˆ −
ln Lµ (x1 , ..., xn ) = 2 (xi − µ) = = 0 ⇐⇒ µ = x
∂µ σ i=1 σ2
−
Diremos entonces que [θ (x1 , ..., xn ), θ(x1 , ..., xn )] es un I.C. para θ al (1 − α)100 % de con-
−
fianza. Eso significa que de cada 100 intervalos que pudieran obtenerse (según distintas muestras
que pudieran haber sido seleccionadas al azar), (1 − α)100 contendrían el verdadero valor del
parámetro θ.
Ejemplo 7.2: Como ejemplo construimos un I.C. al (1−α)100 % de confianza para la media
µ de una normal con varianza conocida σ 20 .
Por lo tanto,
−
X −µ
P −z1− α2 ≤ √ ≤ z1− α2 = 1 − α,
σ0/ n
Supongamos que llevan a cabo pruebas de la resistencia a la tensión de una clase de largueros
de aluminio utilizado en la fabricación de alas de aeroplanos. De la experiencia se considera
una desviación típica de 1 kg/mm2 . Una muestra de 10 largueros proporciona una resistencia
promedio de 87.6 kg/mm. Vamos a obtener un I.C. al 95 % de confianza para la resistencia
promedio de esta clase de largueros.
" #
2 (n − 1)S 2 (n − 1)S 2
Media desconocida σ ∈ ,
χ21− α ;n−1 χ2α ;n−1
2 2
Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ 21 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 22 ),
independientes.
· ¸
r
− − σ1 σ2
Varianzas conocidas µ1 − µ2 ∈ x − y ± z +
1− α
n1 n2 2
· r ¸
− − 1 1
Varianzas desconocidas pero iguales (σ2 ) µ1 − µ2 ∈ x − y ± t1− 2 ;n1 +n2 −2 Sp
α +
n1 n2
con
s
(n1 − 1)S12 + (n2 − 1)S22
Sp =
n1 + n2 − 2
Sean X1 , ..., Xn1 una m.a.s. de X → N (µ1 , σ 21 ) y Y1 , ..., Yn2 una m.a.s. de Y → N (µ2 , σ 22 ),
independientes.
P
n2 P
n2
(yi − µ2 )2 (yi − µ2 )2
σ 22 n1 n1
Medias conocidas ∈ i=1 F α2 ;n1 ,n2 , i=1 F1− α2 ;n1 ,n2
σ 21 P n1
n Pn1
n
(xi − µ1 )2 2 (xi − µ1 )2 2
" i=1 i=1
#
2 2 α 2
σ2 S F
2 2 ;n1 −1,n2 −1 S F α
2 1− 2 ;n1 −1,n2 −1
Medias desconocidas ∈ ,
σ 21 S12 S12
Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y →
Bernoulli(p2 ).
s
ˆ ˆ ˆ ˆ
pˆ1 ˆ pT (1 − pT ) pT (1 − pT )
p1 − p2 ∈ − p2 ± z1− α2 + ,
n1 n2
siendo
ˆ ˆ
ˆ n1 p1 + n2 p2
pT =
n1 + n2
Ejemplo 7.5: Se piensa que la concentración del ingrediente activo de un detergente líquido
para ropa está afectado por el tipo de catalizador utilizado en el proceso de fabricación. Por
experiencias anteriores se supone que la desviación estándar de la concentración activa es de 3
g/l, sin importar el tipo de catalizador utilizado. Se toman 10 observaciones con cada catalizador
y se obtienen los siguientes datos:
Cat.1 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71
Cat.2 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8
· ¸ · ¸
S22 F0,05;9,9 S22 F0,95;9,9 4,946(0,314) 4,946(3,18)
, = , = [0,116, 1,180],
S12 S12 13,343 13,343
Al estar el 1 contenido en el intervalo, las varianzas podrían considerarse iguales.
La concentración del ingrediente activo depende por lo tanto del catalizador; con el se-
gundo catalizador se consigue mayor concentración que con el primero.
X = No de defectuosos → B(85, p)
(b) ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la
proporción sea menor de 0.05 con una probabilidad 0.95?.
ˆ
Puesto que p es el estimador puntual de p, puede definirse el error
cometido s al estimar
¯ ¯ ˆ
p(1 −
ˆ
p)
ˆ ¯ ˆ¯ ˆ
p por p como E = ¯p − p¯ . Si el I.C. al (1-α)100 % para p es p ± z1− α2 ,
n
s
ˆ ˆ
p(1 − p)
eso significa que el error de estimación E es menor o igual que z1− α2 con una
n
probabilidad de (1 − α). En consecuencia, el tamaño de muestra n para obtener un error
en la estimación inferior o igual a E con una probabilidad (1 − α) debe ser:
³ z1− α ´2 ˆ ˆ
2
n= p(1 − p)
E
7.4. Ejercicios 113
En este caso: µ ¶2
1,96
n= 0,118(1 − 0,118) = 160
0,05
7.4. Ejercicios
1. El tiempo de fallo en horas de un componente electrónico (en horas) puede modelizarse
según una distribución Exponencial con función de densidad
f(x) = λ exp{−λx}, x ≥ 0
300,305,329,325,310,314,302,356,325,309,351,305,322,349
2. El número de accidentes de tráfico diarios en una localidad puede ser modelizado por
una distribución de Poisson de parámetro λ. Una muestra de 45 días proporciona un no
medio de accientes por día de 2 con una desviación estándar de 1.4. Obtén una estimación
puntual para λ.
e) Si el nivel de confianza hubiera sido del 95 % la amplitud habría sido todavía menor
y por lo tanto mayor la precisión en la estimación.
Mét. 1 1.186 1.151 1.322 1.339 1.2 1.402 1.365 1.537 1.559
Mét. 2 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052
Temperatura 1 85 83 82 85 84
Temperatura 2 90 92 91 93 90
c. Si una componente no ha fallado pasadas 500 horas desde su puesta inicial en fun-
cionamiento, ¿cuál es la probabilidad de que dure por lo menos otras 200 horas
más?.
9. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Con
el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una de
cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los
siguientes resultados:
Granja A Granja B
0.32 0.28
0.29 0.30
0.30 0.32
0.28 0.29
0.33 0.31
0.31 0.29
0.30 0.33
0.29 0.32
0.33 0.29
0.32 0.32
0.30 0.31
0.29 0.32
0.29
0.30
c. Si la central rechaza aquellos productos con un contenido graso superior a 0.32, obtén
un intervalo de confianza al 90 % para la diferencia de proporciones de productos que
habría que rechazar procendentes de ambas granjas.
Capítulo 8
Contrastes de Hipótesis
µ = 90
µ 6= 90
µ > 90
µ < 90
Si la hipótesis asigna un único valor al parámetro se le llama hipótesis simple, en ca-
so contrario, hipótesis compuesta. En este ejemplo, la primera es simple y el resto son
compuestas.
Por ejemplo, supongamos que queremos contrastar si el fumar provoca cáncer. Esto equiv-
ale a contrastar si la proporción de fumadores con cáncer, p1 , es significativamente menor
que la proporción de no fumadores con cáncer, p2 .
117
118 Capítulo 8. Contrastes de Hipótesis
Contrastar una hipótesis es comparar lo que dice la hipótesis con la información que nos
proporciona una muestra. Si hay coincidencia, dentro de un margen de error admisible entre la
hipótesis planteada (hipótesis nula, H0 ) y la información muestral entonces la mantendremos
como cierta, en caso contrario la rechazaremos. Rechazar una hipótesis es sustituirla por otra
que sea capaz de explicar la realidad observada en la muestra (hipótesis alternativa, H1 ).
Por ejemplo, supongamos que nos planteamos si el rendimiento del proceso puede ser en
media del 90 %, H0 : µ = 90. Realizamos una serie de pruebas y el rendimiento medio muestral
−
resulta ser x = 75, menor que 90. La información muestral parece ir más a favor de H1 : µ < 90
que de H0 : µ = 90.
Una cosa en la que hay que hay que hacer hincapié es la siguiente: nunca podemos afirmar
el que una hipótesis sea verdadera o falsa, ya que para ello tendríamos que tener observaciones
de toda la población. Por lo tanto, al realizar un contraste y tomar una decisión siempre cabe
la posibilidad de equivocarnos. Existen dos tipos de errores asociados a cualquier contraste:
error tipo I, que tiene lugar cuando rechazamos H0 siendo cierta, y error tipo II, que ocurre si
aceptamos H0 siendo falsa.
H0 cierta H0 falsa
Acepto H0 No hay error Error tipo II
Rechazo H0 Error tipo I No hay error
A la probabilidad de que ocurra el error tipo I se le llama nivel de significación del contraste,
que denotamos por α y que fijamos antes de realizar un contraste. A la probabilidad de error
tipo II la denotamos por β.
A 1 − α se le llama nivel de confianza, y a 1 − β potencia del test.
H0 : inocente
H1 : culpable
8.2. Pasos a seguir para realizar un contraste 119
2. Fijamos el nivel de significación del contraste α.Generalmente se fija en 0.05, 0.01 o 0.1.
H0 : µ = 90
H1 : µ > 90
98 − 90
t= 2,21 = 16,188
√
20
Para un nivel de significación α = 0,05, t1−α,n−1 = t0,95,19 = 1,73. Como 16,188 no es mayor
que 1,73 no podemos rechazar H0 .
Ejemplo 8.2: Sobre el ejemplo anterior, consideremos ahora la hipótesis alternativa H1 :
µ < 90.
H0 : µ = 90
H1 : µ < 90
−
En este caso, valores en X mucho menores que 90 irían a favor de H1 (en contra de H0 ).
Por lo tanto, valores muy grandes en valor absoluto y negativos en el estadístico de contraste
llevarían a rechazar H0 . La región de rechazo está ahora en la cola de la izquierda, y el valor
que la delimita es tα,n−1 . Rechazamos entonces H0 si t ≤ tα,n−1 .
8.3. Contrastes de hipótesis clásicos 121
−
Si observamos una muestra de tamaño 20 y se obtiene una media muestral x = 83 y una
desviación típica s = 1,96, el estadístico observado es:
t = −3,068,
y tα,n−1 = t0,05,19 = −1,73. Como −1,73 no es menor que −3,068, no podemos rechazar H0 para
un nivel de significación del 5 %. Por lo tanto, el rendimiento medio no es significativamente
menor que 90.
H0 : µ = 90
H1 : µ 6= 90
En este caso valores en el estadístico muy grandes en valores absoluto, negativos y positivos,
llevarían a rechazar H0 . Existen ahora por lo tanto dos regiones de rechazo, una a la izquierda y
otra a la derecha, cada una de las cuales engloba un área de α/2. Los valores que las delimitan
son respectivamente tα/2,n−1 =-t1−α/2,n−1 y t1−α/2,n−1 . Rechazamos H0 si t ≤-t1−α/2,n−1 o
t =≥ t1−α/2,n−1 .
−
Para una muestra de tamaño 20 con media x = 80 y desviación muestral s = 1,86,
t = −24,044,
y t1−α/2,n−1 = t0,975,19 = 2,09. Como −24,044 es menor que −2,09, rechazamos H0 para un
nivel de significación del 5 %. El rendimiento medio es significativamente distinto de 90.
Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), σ conocida.
H1 : µ 6= µ0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : µ > µ0 Z ≥ z1−α
H1 : µ < µ0 Z ≤ zα
Ejemplo 8.4: Los sistemas de escape de emergencia para las tripulaciones de aeronaves son
impulsados por un combustible sólido. Una de las características de este producto es la rapidez
de combustión, que se supone con distribución Normal. Las especificaciones requieren que la
rapidez promedio de combustión sea de 50 cm/s. Se sabe que la rapidez estándar de la rapidez
de combustión es σ = 2cm/s. El experimentador decide especificar una probabilidad para el
error tipo I de α = 0,05. Selecciona una muestra aleatoria de tamaño 25 y se obtiene una media
muestral de 53.1 cm/s. ¿A qué conclusiones llega?.
Planteamos el siguiente contraste:
H0 : µ = 50
H1 : µ 6= 50
53,1 − 50
Z= √ = 7,75
2/ 25
Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), σ desconocida.
8.3. Contrastes de hipótesis clásicos 123
H1 : µ 6= µ0 T ≤ tα/2,n−1 o T ≥ t1−α/2,n−1
H1 : µ > µ0 T ≥ t1−α,n−1
H1 : µ < µ0 T ≤ tα,n−1
Ejemplo 8.5: Un artículo publicado en la revista Materials Engineering describe los resul-
tados de pruebas de resistencia a la adhesión de 22 especímenes de aleación U-700. La carga
para la que cada especimen falla es la siguiente (en MPa):
¿Sugieren los datos que la carga promedio de fallo es mayor que 10 MPa?. Realizar el
contraste a un 10 % de significación.
El contraste a realizar es:
H0 : µ = 10
H1 : µ > 10
13,71 − 10
t= √ = 4,90
3,55/ 22
Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ, σ), con µ conocida.
H1 : σ2 6= σ 20 χ2 ≤ χ2α/2,n o χ2 ≥ χ21−α/2,n
H1 : σ2 > σ 20 χ2 ≥ χ21−α,n
H1 : σ2 < σ 20 χ2 ≤ χ2α,n
Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N(µ, σ), con µ desconocida.
H1 : σ2 6= σ 20 χ2 ≤ χ2α/2,n−1 o χ2 ≥ χ21−α/2,n−1
H1 : σ2 > σ 20 χ2 ≥ χ21−α,n−1
H1 : σ2 < σ 20 χ2 ≤ χ2α,n−1
H0 : σ2 = 0,01
H1 : σ2 > 0,01
Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.
Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.
Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N(µ1 , σ1 ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N (µ2 , σ2 ). Ambas poblaciones se suponen inde-
pendientes.
H1 : µ1 − µ2 6= δ 0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : µ1 − µ2 > δ 0 Z ≥ z1−α
H1 : µ1 − µ2 < δ 0 Z ≤ zα
Sea X1 , X2 , ..., Xn1 una muestra aleatoria de una población X → N (µ1 , σ), y Y1 , Y2 , ..., Yn2
una muestra aleatoria de una población Y → N(µ2 , σ). Ambas poblaciones se suponen inde-
pendientes.
8.3. Contrastes de hipótesis clásicos 127
H1 : µ1 − µ2 6= δ 0 T ≤ tα/2,n o T ≥ t1−α/2,n
H1 : µ1 − µ2 > δ 0 T ≥ t1−α,n
H1 : µ1 − µ2 < δ 0 T ≤ tα,n
donde
n = n1 + n2 − 2
(n1 − 1) S 21 + (n2 − 1) S 22
Sp2 =
n
Ejemplo 8.7: Se analizan dos catalizadores para determinar la forma en la que afectan
el rendimiento promedio de un proceso químico. De manera específica, el catalizador 1 es el
que se está empleando en este momento, pero el catalizador 2 también es aceptable. Como el
catalizador 2 es más caro, sólo interesará emplearlo siempre y cuando aumente el rendimiento
promedio del proceso. Se hace una prueba piloto, y los rendimientos obtenidos en % son los
siguientes:
Catalizador 1 Catalizador 2
91.5 89.19
94.18 90.95
92.18 90.46
95.39 93.21
91.79 97.19
89.07 97.04
94.72 91.07
89.21 92.75
El contraste es:
H0 : σ 21 = σ22
H1 : σ 21 6= σ21
H0 : µ1 − µ2 = 0
H1 : µ1 − µ2 < 0
X̄ − Ȳ − δ 0 92,255 − 92,733 − 0
T =s µ ¶= s µ ¶ = −0,354
1 1 1 1
Sp2 + 7,295 +
n1 n2 8 8
Como T no es menor que tα,n = t0,05,14 = −1,761 no podemos rechazar H0 para un nivel
de significación del 5 %. Por lo tanto, el catalizador 2 no aumenta significativamente el
rendimiento promedio del proceso.
Sea X1 , X2 , ..., Xn una muestra aleatoria de una población X → N (µ1 , σ), apareada con
una muestra Y1 , Y2 , ..., Yn de una población Y → N(µ2 , σ).
8.3. Contrastes de hipótesis clásicos 129
H1 : µ1 − µ2 6= δ 0 T ≤ tα/2,n−1 o T ≥ t1−α/2,n−1
H1 : µ1 − µ2 > δ 0 T ≥ t1−α,n−1
H1 : µ1 − µ2 < δ 0 T ≤ tα,n−1
donde D = X − Y
Ejemplo 8.8: Se desea comparar dos métodos para predecir la resistencia al corte de vigas
de placa de acero. Con este fin se selecciona una muestra de 9 vigas, a las que se aplican los
dos métodos. Los datos se presentan en la siguiente tabla:
Mét. 1 1.186 1.151 1.322 1.339 1.2 1.402 1.365 1.537 1.559
Mét. 2 1.061 0.992 1.063 1.062 1.065 1.178 1.037 1.086 1.052
Contrastar al 5 % de significación si existe alguna diferencia entre estos dos métodos.
Claramente se trata de un contraste de igualdad de medias en muestras apareadas (se aplica
a las mismas vigas los dos métodos). Llamamos D a la diferencia de resistencia entre el método
1 y el método 2 y el contraste es:
H0 : µD = 0
H1 : µD 6= 0
H1 : p 6= p0 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : p > p0 Z ≥ z1−α
H1 : p < p0 Z ≤ zα
H0 : p = 0,03
H1 : p > 0,03
ˆ
La proporción de defectuosos en la muestra es p = 2/30 = 0,067,con lo cual:
0,067 − 0,03
Z=r = 1,188
0,03 ∗ 0,97
30
Al ser no ser Z mayor que z1−α = z0,95 = 1,65 no se rechaza H0 . Es decir, no hay suficiente
evidencia empírica para concluir que el porcentaje de defectuosos por lote es superior al 3 %.
8.3. Contrastes de hipótesis clásicos 131
Sean X1 , ..., Xn1 una m.a.s. de X → Bernoulli(p1 ) y Y1 , ..., Yn2 una m.a.s. de Y → Bernoulli(p2 ).
Ambas poblaciones se suponen independientes.
H1 : p1 6= p2 Z ≤ zα/2 o Z ≥ z1−α/2
H1 : p1 > p2 Z ≥ z1−α
H1 : p1 < p2 Z ≤ zα
donde
n1 p̂1 + n2 p̂2
p̂T =
n1 + n2
Ejemplo 8.10: Una central de productos lácteos recibe diariamente la leche de dos granjas
A y B. Con el fin de estudiar la calidad de los productos recibidos se extraen dos muestras, una
de cada granja, y se analiza el contenido de materia grasa de cada producto. Se obtienen los
siguientes resultados:
Granja A Granja B
0.32 0.28
0.29 0.30
0.30 0.33
0.28 0.29
0.33 0.31
0.31 0.29
0.30 0.33
0.29 0.32
0.33 0.29
0.32 0.32
0.30 0.31
0.29 0.32
0.29
0.33
Si la central rechaza aquellos productos con un contenido graso superior a 0.32, ¿existen
diferencias significativas entre los porcentajes de productos de A y B que se tendrían que
rechazar?. Realizar el contraste al 5 % de significación.
El contraste es:
H0 : p1 = p2
H1 : p1 6= p2
0,167 − 0,214
Z=p = −0,303
0,192 (1 − 0,192) /12 + 0,192 (1 − 0,192) /14
Como Z no es menor que z0,025 = −1,96 ni Z es mayor que z0,975 = 1,96 no podemos
rechazar H0 . No existen diferencias significativas en las proporciones de productos a rechazar
en ambas granjas.
8.4. Relación entre intervalos de confianza y contrastes de hipótesis 133
Existe una estrecha relación entre la prueba de una hipótesis estadística sobre un parámetro
θ y el intervalo de confianza de θ. Si denotamos por [θL , θU ] el intervalo de confianza para θ a
un nivel de confianza del (1 − α)100 %, entonces el contraste bilateral (dos colas)
H0 : θ = θ0
H1 : θ 6= θ 0
8.5. Ejercicios
1. Se utilizan dos máquinas diferentes de moldeo por inyección para la fabricación de piezas
de plástico. Una pieza se considera defectuosa si tiene un encogimiento excesivo o si le
falta color. Se toman dos muestras aleatorias, ambas de tamaño 300, y se encuentan 15
piezas defectuosas en la muestra de la máquina 1 y 8 defectuosas en la muestra de la
máquina 2. ¿Podemos concluir que la máquina 2 produce menos piezas defectuosas que
la máquina 1?. Realizar el contraste para un nivel de significación a = 0,05. Suponer que
sendas muestras proceden de poblaciones normales e independientes.
resultados son:
Vacuna 1 1 2 1 2 1 1 2 1 1 2
Vacuna 2 2 3 3 2 1 3 2 2 2 3
7. Se utilizan dos máquinas diferentes de moldeo por inyección para la fabricación de piezas
de plástico. Una pieza se considera defectuosa si tiene un encogimiento excesivo o si le
falta color. Se toman dos muestras aleatorias, cada una de tamaño 300, y se encuentran 15
8.5. Ejercicios 135
Solución 1 9.9 9.4 9.3 9.6 10.2 10.1 10.3 10.0 9.3 10.1
Solución 2 10.2 10.6 10.7 11.4 10.5 11.0 10.2 10.7 10.4 10.3
10. Se mide la producción diaria de 2 máquinas durante 9 días seleccionados al azar. Los
datos obtenidos se recogen en la siguiente tabla:
Máquina 1 Máquina 2
103 101
115 98
101 110
105 99
107 98
110 110
105 109
110 99
115 100
11. Un sindicato pretende analizar los accidentes laborales en los sectores de la construcción
y la siderometalurgia. Para ello, toma una muestra aleatoria de 125 empresas dedicadas
a la construcción y otra de 75 pertenecientes al sector de la siderometalurgia. Una vez
analizados los porcentajes de accidentes en cada una de estas empresas, se obtienen los
siguientes datos:
N o de empresas por sector con un % N o de empresas p or sector con un %
de accidentes menor del 10 % de accidentes mayor o igual del 10 %
Construcción 98 27
Siderometalurgia 54 21
8.5. Ejercicios 137
12. La Consejería de Obras Públicas y Urbanismo de una Comunidad engarga un estudio para
comparar el precio de las viviendas nuevas de dos municipios, A y B. Con tal fin, se recoge
información sobre el precio del m2 de 42 viviendas de promotoras distintas, seleccionadas
al azar en el municipio A y de 40 viviendas en el municipio B. En la muestra de viviendas
del municipio A, el precio medio del m2 ha resultado ser de 0.98 miles de euros con
una desviación típica de 0.09 miles de euros, mientras que en la muestra de viviendas
del municipio B, el precio medio del m2 es de 0.95 y la desviación típica de 0.07. A
partir de esta información, ¿puede aceptarse que en los dos municipios no hay diferencias
significativas en el precio medio de las viviendas de nueva construcción para un nivel de
significación del 5 %?.
13. Se investiga la temperatura de deflexión bajo carga para dos tipos diferentes de tubería de
plástico. Para ello se toman dos muestras aleatorias, cada una de 10 unidades, anotando
las temperaturas de deflexión observadas (o F). Los resultados son los siguientes.
Tipo 1 Tipo 2
206 177
188 197
205 206
187 201
194 180
193 176
207 185
185 200
189 197
213 192
b. ¿Apoyan los datos la afirmación de que la temperatura de deflexión bajo carga para
la tubería de tipo 2 es mayor que para la tubería de tipo 1?. Tomar α = 0,05.
Capítulo 9
9.1. Introducción
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e indepen-
dientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de
poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable
o característica:
H0 : µ1 = µ2 = .... = µI
H1 : Alguna distinta,
139
140 Capítulo 9. Análisis de la varianza (un factor): ANOVA
de los componentes, etc. A esta característica se le llama variable respuesta. Nuestro objetivo
será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en
las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas
el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas
la misma duración?.
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza.
Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I
máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que
la duración de las piezas producidas por una misma máquina varía debido a muchos factores
no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la
máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada
máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida
por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas,
P
tendremos un total de n = Ii=1 ni observaciones:
9.2. El modelo
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi +
uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la
duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de
un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las
diferencias entre los valores observados para esta máquina, yij , y su media, µi , son el resultado
de múltiples factores que no controlamos y que influyen en la variable respuesta, en este caso
en la duración. Las englobamos en un término uij llamado error experimental o perturbación,
uij = yij − µi .
9.3. Contraste de igualdad de medias 141
En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza
es la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.
Xni
ˆ −
yij
j=1
µi = yi. = , i = 1, .., I,
ni
XI Xni ³ − 2
´
ˆ yij − yi.
i=1 j=1
σ2 = ,
n
ˆ −
Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de
comprobar si se verifican o no las hipótesis del modelo. Si no se verifican, este modelo no sería
el adecuado.
H0 : µ1 = µ2 = .... = µI
H1 : Alguna distinta
V T = V E + V NE
V T : Variabilidad total
VE
La medida R2 = VT indica la variabilidad que explica el modelo de entre toda la presente
en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no
es válido.
Tabla ANOVA:
−
siendo yi. y σ2ni respectivamente la media y varianza de los datos de la muestra del grupo
−
i , y y.. y σ2n la media y varianza del total de las observaciones.
Contraste de la F :
H0 : µ1 = µ2 = .... = µI
H1 : Alguna distinta,
Rechazamos H0 cuando F > F1−α,I−1,n−I . En tal caso, podremos decir que no se han
detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para
un nivel del significación del αx100 %.
Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan.
Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la
conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para
los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:
Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene algún efecto
sobre la conductividad.
Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.
Solución: Queremos comprobar si la conductividad media de la válvula será la misma con
los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto
sobre la conductividad.
Planteamos el contraste:
H0 : µ1 = µ2 = µ3
H1 : Alguna distinta
y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:
−
Muestra Media (yi. ) Varianza (σ2ni ) Tamaño (ni )
Tipo 1 145 11.5 4
,
Tipo 2 145.25 33.188 4
Tipo 3 131.5 7.25 4
−
y la media y varianza totales resultan: y.. = 140,583 y σ2n = 58,576
Calculamos ahora las variabilidades explicada, no explicada y total.
X
V NE = ni σ2ni = 4(11,5 + 33,188 + 7,25) = 207,752
i
V E = V T − V N E = 495,160
9.6. Ejercicios
tabla siguiente.
Suponer que las muestras proceden de poblaciones normales, independientes, con la misma
varianza.◦
4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas
hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen
la misma constante G. Tomar un nivel de significación del 5 %.
6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si
existen diferencias significativas en la forma de enseñanza de los tres profesores. Para ello
se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en
el examen.
43 48 29
35 47 31
44 44 28
46 46 42
39 39 31
44 45 36
38 49 35
42 48 36
45 45 39
Diámetro 1 80 83 83 84 85 84 81
Diámetro 2 74 75 76 74 75 78 76
Diámetro 3 60 62 59 61 62 63 64
En base a los datos obtenidos, ¿podemos afirmar que el tamaño del orificio afecta el
porcentaje de radón liberado?. Realizar el contraste con un nivel de significación del 5 %.
Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas
en las poblaciones.