Está en la página 1de 520

Ejercicios de inferencia

estadística y muestreo
para economía y administración
de empresas
JOSÉ MIGUEL CASAS SÁNCHEZ CARMELO GARCÍA PÉREZ
CATEDRÁTICO DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL
DE LA UNIVERSIDAD DE ALCALÁ DE LA UNIVERSIDAD DE ALCALÁ

LUIS FELIPE RIVERA GALICIA ANA ISABEL ZAMORA SANZ


PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL PROFESORA DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL
DE LA UNIVERSIDAD DE ALCALÁ DE LA UNIVERSIDAD DE ALCALÁ

Ejercicios de inferencia
estadística y muestreo
para economía y administración
de empresas

EDICIONES PIRÁMIDE
COLECCIÓN «ECONOMÍA Y EMPRESA»

Director:
Miguel Santesmases Mestre
Catedrático de la Universidad de Alcalá

Edición en versión digital

Está prohibida la reproducción total o parcial


de este libro electrónico, su transmisión, su
descarga, su descompilación, su tratamiento
informático, su almacenamiento o introduc-
ción en cualquier sistema de repositorio y
recuperación, en cualquier forma o por cual-
quier medio, ya sea electrónico, mecánico,
conocido o por inventar, sin el permiso expre-
so escrito de los titulares del copyright.

© José Miguel Casas Sánchez, Carmelo García Pérez, Luis Felipe Rivera Galicia
y Ana Isabel Zamora Sanz, 2016
© Primera edición electrónica publicada por Ediciones Pirámide (Grupo Anaya, S. A.), 2016
Para cualquier información pueden dirigirse a piramide_legal@anaya.es
Juan Ignacio Luca de Tena, 15. 28027 Madrid
Teléfono: 91 393 89 89
www.edicionespiramide.es
ISBN digital: 978-84-368-3549-6
Estadística Descriptiva

Índice

Prólogo ...................................................................................................................................... 9

1. Distribuciones en el muestreo. Estimación ................................................................ 11


Distribuciones en el muestreo. Estimación puntual. Propiedades de los estimadores: in-
sesgadez, eficiencia y consistencia. Métodos de construcción de estimadores: método
de los momentos y de la máxima verosimilitud. Estimación por intervalos de confianza.
Determinación del tamaño muestral.

2. Contraste de hipótesis paramétrico ............................................................................ 67


Región crítica y región de aceptación. Tipos de errores y representación gráfica. Fun-
ción de potencia. Determinación del tamaño muestral. Contraste de razón de verosi-
militud. Contrastes en poblaciones normales: para la media, para la varianza, sobre
medias de dos poblaciones, sobre varianzas de dos poblaciones. Contrastes sobre pro-
porciones.

3. Contraste de hipótesis no paramétrico ...................................................................... 133


Contrastes de bondad de ajuste: c2 de Pearson, Kolmogorov-Smirnov para una muestra,
de normalidad de Lilliefors y de Shapiro-Wilks. Tablas de contigencia: contrastes de
independencia y homogeneidad. Contraste de aleatoriedad: rachas de Wald-Wolfowitz.
Contrastes de localización: contraste de signos de la mediana, contraste de rangos-sig-
nos de Wilcoxon. Contrastes de comparación de poblaciones: contraste de la mediana,
contraste de Kolmogorov-Smirnov para dos muestras, contraste de la U de Wilcoxon-
Mann-Whitney, contraste de Siegel-Tukey, contraste de Kruskal-Wallis, método de Dunn
de comparaciones múltiples.

© Ediciones Pirámide 7
Ejercicios de estadística descriptiva y probabilidad
Índice

4. Análisis de la varianza ...................................................................................................... 249


Análisis de la varianza para una clasificación simple. Método de Scheffé de compara-
ciones múltiples. Test de Barlett de homocedasticidad. Análisis de la varianza para una
clasificación doble.

5. Muestreo en poblaciones finitas ................................................................................... 315


Muestreo aleatorio simple: estimadores, error de muestreo, intervalos de confianza, deter-
minación del tamaño muestral para obtener un error determinado. Muestreo estratificado:
estimadores, error de muestreo, intervalos de confianza, tipos de afijación y determina-
ción del tamaño muestral. Muestreo por conglomerados. Muestreo sistemático.

6. Teoría de la decisión ........................................................................................................ 365


Decisión bajo riesgo: criterio del valor monetario esperado y criterio de la pérdida de
oportunidad esperada. Valor esperado de la información perfecta. Decisiones secuencia-
les: árbol de decisión. Decisión bajo incertidumbre: criterio maximax, criterio maximin
o de Wald, criterio de Hurwicz, criterio de Laplace, criterio de Savage.

Tablas estadísticas ................................................................................................................... 435

Bibliografía ................................................................................................................................ 513

Índice de materias .................................................................................................................. 515

8 © Ediciones Pirámide
Estadística Descriptiva

Prólogo
Los ejercicios y problemas contenidos en este libro pretenden ser un complemento
práctico de los desarrollos teóricos sobre inferencia estadística y teoría de la decisión con-
tenidos en los manuales de Estadística para Economía y Administración de Empresas de
los profesores J. M. Casas Sánchez y J. Santos Peñas, catedráticos en la Universidad
de Alcalá y la Universidad Nacional de Educación a Distancia (UNED), respectivamente.
Los diferentes capítulos del libro se dedican, por este orden, a distribuciones en
el muestreo, estimación puntual y por intervalos, contrastes de hipótesis paramétricos,
contrastes de hipótesis no paramétricos, análisis de la varianza, muestreo en poblaciones
finitas y teoría de la decisión.
Hemos querido enfocar la resolución de cada ejercicio desde una perspectiva didácti-
ca, buscando la comprensión de los conceptos teóricos a través de la explicación detalla-
da y secuencial de los pasos que conducen a la solución final y de continuas referencias
a los conceptos teóricos que se utilizan en la resolución del problema. Por otra parte, se
ha procurado también que los enunciados respondan a situaciones reales de la actividad
económica y empresarial.
Con el fin de facilitar la selección de los diferentes tipos de ejercicios, presentamos
un índice temático en el que se identifica cada problema con dos números representati-
vos del capítulo en el que aparece y de su orden dentro del mismo. En las páginas fina-
les del libro se incluyen las tablas estadísticas que se han utilizado a lo largo del texto.
Por último, queremos dedicar este texto a nuestras familias y amigos, por su apoyo
constante.

Madrid, septiembre de 2006.


Los autores

© Ediciones Pirámide 9
1
Distribuciones en el muestreo. Estimación

Distribuciones
en el muestreo. Estimación

Sean X1, X2, ..., Xn n variables aleatorias independientes de Bernoulli con


Ejercicio 1.1
el mismo parámetro p. Consideramos los siguientes estimadores:

n n
∑ Xi ∑ Xi2
i =1 i =1
pˆ1 = ; pˆ 2 =
n n

a) ¿Son ambos estimadores insesgados para el parámetro p?


b) ¿Cuál de los dos estimadores es más eficiente?
c) Estudie la consistencia de ambos estimadores.

a) Para comprobar la insesgadez de p̂1 y p̂2 calculamos sus esperanzas y


Solución
comprobamos si coinciden con p. Como Xi ~ B(p), se sabe que:

E[ Xi ] = p y Var [ Xi ] = pq

Además:

Var [ Xi ] = E[ Xi2 ] − ( E[ Xi ])2

por tanto:

E[ Xi2 ] = Var [ Xi ] + ( E[ Xi ])2 = pq + p 2 = p( q + p) = p

© Ediciones Pirámide 11
Ejercicios de inferencia estadística y muestreo

y así:

⎡ n ⎤
⎢ ∑ Xi ⎥ n
E[ pˆ1 ] = E ⎢
i =1 ⎥ = 1 ∑ E[ X ] = np = p
⎢⎣ n ⎥⎦ n i = 1 i
n

⎡ ∑ Xi2 ⎤ 1 n np
E[ pˆ 2 ] = E ⎢ ⎥ = ∑ E[ Xi ] = = p
2
⎣ n ⎦ n i =1 n

Luego queda probado que p̂1 y p̂2 son insesgados.


b) Será más eficiente el estimador que tenga menor varianza:
n
1 npq pq
Var [ pˆ1 ] =
n2
∑ Var [ Xi ] = n2
=
n
i =1

n
1 1 pq
Var [ pˆ 2 ] =
n2
∑ Var [ Xi2 ] = n2 npq = n
i =1

donde:

Var [ Xi2 ] = E[ Xi4 ] − ( E[ Xi2 ])2 = p − p 2 = pq

Como las varianzas son iguales, ambos estimadores son igualmente eficientes.
c) Como los dos estimadores son insesgados, si su varianza tiende a cero al aumen-
tar el tamaño muestral, ambos estimadores serían consistentes1.

pq
lím Var [ pˆ1 ] = lím =0 y E[ pˆ1 ] = p
n→∞ n→∞ n
pq
lím Var [ pˆ 2 ] = lím =0 y E[ pˆ 2 ] = p
n→∞ n→∞ n
Por tanto, se verifica la consistencia de p̂1 y p̂2.
1
Una sucesión de estimadores {q̂ n} es consistente si, y sólo si, ∀ e > 0

lím P(冟θˆn − θ 冟 < ε ) = 1 , ∀θ ∈ Ω


n→∞

Cada elemento de {q̂ n} se dice que es un estimador consistente. Ahora bien, una condición suficiente para la con-
sistencia de un estimador es que se verifiquen las dos condiciones siguientes:

1. lím E[θˆn ] = θ .
n→∞

2. lím Var [θˆn ] = 0.


n→∞

12 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Los errores mensuales de la predicción del IPC que realiza un instituto


Ejercicio 1.2
de estudios económicos se distribuyen normalmente. Demuestre que el
error mensual medio calculado a partir de una muestra aleatoria simple de tamaño n es
un estimador consistente para el verdadero error mensual medio.

Sea X la variable aleatoria que representa el error mensual de la predicción


Solución
del IPC:

X ~ N ( μ, σ )

Dada una muestra aleatoria simple de tamaño n, (X1, ..., Xn), el error mensual medio
se define como:

1 n
Xn = ⋅ ∑ Xi
n i =1

Para probar que este estimador es consistente para el parámetro m, debemos compro-
bar que:

Xn ⎯⎯→ μ
P

es decir, que, ∀ e > 0, se verifica:

lím P(冟 Xn − μ冟 < ε ) = 1 , ∀μ


n→∞

Teniendo en cuenta que como X ~ N(m, s), entonces:

X ~ N 冢 μ, σ

n

X−μ
Z= ~ N (0, 1)
σ/ n

© Ediciones Pirámide 13
Ejercicios de inferencia estadística y muestreo

pudiendo escribir:

P(冟 Xn − μ冟 < ε ) = P( − ε < X − μ < ε ) = P 冢σ−/ εn < σX/− μn < σ /ε n 冣 =


=P 冢 − εσ⋅ n
<Z<
ε⋅ n
σ 冣
y, como ∀ e > 0:

ε⋅ n
lím =∞
n→∞ σ

resulta que:

lím P(冟 Xn − μ冟 < ε ) = lím P


n→∞ n→∞ 冢 − εσ⋅ n
<Z<
ε⋅ n
σ 冣
=1


y, por tanto, X n es consistente para m.

Para estimar diferentes características de los ingresos procedentes del


Ejercicio 1.3
Impuesto de Actividades Económicas recaudado por los ayuntamientos
del Estado, se están considerando diferentes estimadores de la media y la varianza po-
blacional a partir de una muestra aleatoria simple de municipios. Dada la posibilidad de
seleccionar muestras grandes, se establece como prioritaria la utilización de estimadores
consistentes.
a) ¿Sería adecuado utilizar la media muestral como estimador de los ingresos me-
dios por municipio de la totalidad de ayuntamientos del Estado?
b) Para estimar la varianza de los ingresos, ¿utilizaría

1 n
S′2 = ⋅ ∑ ( Xi − X )2
n i =1

como estimador consistente?

14 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Sea X = «Ingresos procedentes del Impuesto de Actividades Económicas en


Solución
un municipio». Designamos por m y s2 su media y varianza poblacionales:

E[ X ] = μ
Var [ X ] = σ 2

a) Si se extrae una muestra aleatoria simple de tamaño n, (X1, ..., Xn), la media
muestral:

1 n
X= ∑ Xi
n i =1

será un estimador consistente para la media poblacional si, y sólo si, converge en proba-
bilidad al verdadero valor de m.

X ⎯⎯→ μ
P

es decir, si ∀ e > 0:

lím P(冟 X − μ冟 < ε ) = 1 , ∀μ


n→∞

o, lo que es lo mismo, si ∀ e > 0:

lím P(冟 X − μ冟  ε ) = 0
n→∞

Para comprobar esto, utilizaremos el teorema de Chebychev2. Previamente, calcu-



lamos la esperanza y la varianza de X , teniendo en cuenta que X1, ..., Xn son variables
aleatorias independientes e idénticamente distribuidas a X:

⎡1 n ⎤ 1 n 1 n nE[ X ]
E[ X ] = E ⎢ ∑ Xi ⎥ = ∑ E[ Xi ] = ∑ E[ X ] = = E[ X ] = μ
⎢⎣ n i = 1 ⎥⎦ n i = 1 n i =1 n

⎡1 n ⎤ 1 n
1 n
n Var [ X ] Var [ X ] σ 2
Var [ X ] = Var ⎢ ∑ Xi ⎥ = 2 ∑ Var [ Xi ] = n 2 ∑ Var [ X ] = = =
⎢⎣ n i = 1 ⎥⎦ n i =1 i =1 n2 n n
2
Si Y es una variable aleatoria con media y varianza finitas, entonces ∀ k > 0 se verifica:
Var [Y ]
P(冟Y − E[Y ]冟  k ) 
k2

© Ediciones Pirámide 15
Ejercicios de inferencia estadística y muestreo

Por tanto, aplicando la desigualdad de Chebychev, se tiene que, ∀ e > 0:

Var [ X ] σ 2 / n
0  P(冟 X − μ冟  ε ) = P(冟 X − E[ X ]冟  ε )  = 2
ε2 ε

es decir:

σ2
0  P(冟 X − μ冟  ε ) 
nε 2

Como:

σ2
lím =0
n → ∞ nε 2

entonces:

lím P(冟 X − μ冟  ε ) = 0
n→∞


y, por tanto, X es consistente para m en una población cualquiera.
b) Una condición suficiente para la consistencia de un estimador es que sea asintó-
ticamente insesgado y que su varianza tienda a cero. Sabemos que la varianza muestral:

1 n
S2 = ∑
n − 1 i =1
( Xi − X )2

es insesgado para la varianza poblacional s2, es decir:

E[ S 2 ] = σ 2

y como:

1 n n −1 2
S′2 = ∑
n i =1
( Xi − X ) 2 =
n
S

16 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

resulta que3:

n −1 n −1 2
E[ S ′ 2 ] = E[ S 2 ] = σ
n n
(n − 1)2 (n − 1)2 ⎡ μ 4 3−n ⎤
Var [ S ′ 2 ] = Var [ S 2
] = ⎢ + σ 4⎥
⎣ n n(n − 1) ⎦
2 2
n n

y, por tanto:

n −1 2
lím E[ S ′ 2 ] = lím σ = σ2
n→∞ n→∞ n

(n − 1)2 ⎡ 3 − n 4⎤
lím Var [ S ′ 2 ] = lím
n→∞ n→∞ n3 ⎢⎣ μ 4 + n − 1 σ ⎥⎦ = 0

con lo cual, S¢2 es consistente para s2.

Sea (X1, X2, X3) una muestra aleatoria simple procedente de una pobla-
Ejercicio 1.4
ción que sigue una distribución normal con media m y varianza s2.
Consideremos los siguientes estimadores de m:

X1 + 2 X2 + 3 X3 X1 − 4 X2
μˆ 1 = ; μˆ 2 =
6 −3

a) ¿Cuáles son insesgados?


b) ¿Cuál es más eficiente?
c) Busque un estimador eficiente para m.

a) Para que un estimador sea insesgado, su esperanza debe coincidir con


Solución
el parámetro que pretende estimar; por tanto, se calcula la esperanza
de m̂1 y m̂2:

⎡ X + 2 X2 + 3 X3 ⎤ 1 1
E[ μˆ 1 ] = E ⎢ 1 ⎥ = E[ X1 + 2 X2 + 3 X3 ] = ( E[ X1 ] + 2 E[ X2 ] + 3E[ X3 ]) =
⎣ 6 ⎦ 6 6
1 1
= ( μ + 2 μ + 3μ ) = 6 μ = μ
6 6
3
Véase Casas Sánchez, J. M.: Inferencia estadística, para las expresiones de E [S2] y Var [S2].

© Ediciones Pirámide 17
Ejercicios de inferencia estadística y muestreo

Como E [m̂1] = m, m̂1 es un estimador insesgado para m.

⎡ X − 4 X2 ⎤ 1 1
E[ μˆ 2 ] = E ⎢ 1 ⎥ = − E[ X1 − 4 X2 ] = − ( E[ X1 ] − 4 E[ X2 ]) =
⎣ −3 ⎦ 3 3
1 1
= − ( μ − 4 μ ) = − ( − 3μ ) = μ
3 3

Como E [m̂2] = m, m̂2 es también un estimador insesgado de m.


b) La eficiencia de un estimador insesgado se mide por su varianza. Así, un esti-
mador insesgado será tanto más eficiente cuanto menor sea su varianza. Como m̂1 y m̂2
son insesgados, para ver cuál de ellos es más eficiente, calculamos sus varianzas respec-
tivas teniendo en cuenta que X1, X2 y X3 son variables independientes, pues se trata de
una muestra aleatoria simple:

⎡ X + 2 X2 + 3 X3 ⎤ 1
Var [ μˆ 1 ] = Var ⎢ 1 ⎥⎦ = 36 Var [ X1 + 2 X2 + 3 X3 ] =
⎣ 6
1
= (Var [ X1 ] + 4 Var [ X2 ] + 9 Var [ X3 ]) =
36
1 2 14 2 7σ 2
= [σ + 4σ 2 + 9σ 2 ] = σ =
36 36 18
⎡ X − 4 X2 ⎤ 1 1
Var [ μˆ 2 ] = Var ⎢ 1 ⎥ = Var [ X1 − 4 X2 ] = (Var [ X1 ] − 16 Var [ X2 ]) =
⎣ −3 ⎦ 9 9
1 2 17σ 2
= [σ + 16σ 2 ] =
9 9

Como Var [m̂1] < Var [m̂2], m̂1 es la más eficiente de los dos.
c) En una muestra aleatoria simple obtenida de una población que sigue una distri-
bución normal, la media muestral es un estimador insesgado y eficiente.

Verifiquemos que X cumple estas dos propiedades:

⎡ X + X2 + X3 ⎤ 1
E[ X ] = E ⎢ 1 ⎥⎦ = 3 E[ X1 + X2 + X3 ] =
⎣ 3
1 1
= ( E[ X1 ] + E[ X2 ] + E[ X3 ]) = ( μ + μ + μ ) = μ
3 3

18 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación


Se ha comprobado así que X es un estimador insesgado para m:

⎡ X + X2 + X3 ⎤ 1
Var [ X ] = Var ⎢ 1
⎣ 3 ⎥⎦ = 9 Var [ X1 + X2 + X3 ] =

1 1 σ2
= (Var [ X1 ] + Var [ X2 ] + Var [ X3 ]) = (σ 2 + σ 2 + σ 2 ) =
9 9 3

Para comprobar la eficiencia de X , vista su insesgadez, hay que verificar que su
varianza coincide con la cota de Frechet-Cramer-Rao para un estimador insesgado. Para
ello calculamos dicha cota:

1
Cota de Frechet-Cramer-Rao =
冤冢 ∂ ln f ( x; θ )
冣冥
2
nE
∂θ

Como la muestra procede de una población normal, tenemos:

1 ( x − μ )2
1 −
f ( x; μ ) = e 2 σ2
σ 2π

1 ( x − μ )2 1
ln f ( x; μ ) = − + ln
2 σ 2
σ 2π

∂ ln f ( x; μ ) ( x − μ )
=
∂μ σ2

Así, tenemos que:

冤冢 ∂ ln f ( x; μ )
冣冥 冤冢 X−μ
冣冥 nσ 2
2 2
n n
nE = nE = E[( X − μ ) 2
] = = 2
∂μ σ2 σ 4
σ 4
σ

Por tanto:

1 σ2
Cota de Frechet-Cramer-Rao = =
n /σ 2 n

© Ediciones Pirámide 19
Ejercicios de inferencia estadística y muestreo

Así pues, cualquier estimador de m insesgado tiene una varianza mayor o igual que
s2 /n. Como la muestra aleatoria simple que hemos considerado tiene tamaño tres, cual-

quier estimador de m tiene una varianza superior o igual a s2 /3. En nuestro caso, X es
insesgado y de mínima varianza, porque su varianza coincide con la cota de Frechet-

Cramer-Rao; por tanto, X es un estimador eficiente.

Sea (X1, X2, ..., Xn) una muestra aleatoria simple procedente de una po-
Ejercicio 1.5
blación con distribución uniforme U(a, b). Obtenga los estimadores de
a y b según el método de los momentos y el método de máxima verosimilitud.

La función de densidad de la distribución U(a, b) es:


Solución

⎧ 1
⎪ si a  x  b
f ( x) = ⎨ b − a
⎪⎩0 en otro caso

Método de los momentos

Los momentos de orden 1 y 2 con respecto al origen de la población U(a, b) son:


b
b
1 ⎡ x2 ⎤ b2 − a2 b+a
α1 = E[ X ] = x⋅ dx = ⎢ ⎥ = =
a b−a ⎣ 2( b − a ) ⎦ a 2( b − a ) 2


b
b
1 ⎡ x3 ⎤ b3 − a3 a 2 + ab + b 2
α 2 = E[ X 2 ] = x2 ⋅ dx = ⎢ ⎥ = =
a b−a ⎣ 3(b − a) ⎦ a 3(b − a) 3

Los correspondientes momentos muestrales son:

n
∑ Xi
i =1
a1 = =X
n
n
∑ Xi2
i =1
a2 =
n

20 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Igualando ambos momentos, se tiene el siguiente sistema de ecuaciones:

n

b + a i =1
∑ Xi ⎪
= = a1 ⎪
2 n ⎪
n ⎬

a + ab + b
2 2 ∑ X i
2

i =1
= = a2 ⎪
3 n ⎭

Se resuelve ahora dicho sistema:

b = 2 a1 − a

a 2 + a(2 a1 − a) + (2 a1 − a)2
= a2
3
a 2 + 2 a1a − a 2 + 4 a12 + a 2 − 4 a1a
= a2
3
a 2 − 2 a1a + 4 a12 = 3a2

a 2 − 2 a1a + ( 4 a12 − 3a2 ) = 0

2 a1 ± 4 a12 − 16 a12 + 12 a2
a= = a1 ± − 3a12 + 3a2
2

luego:

n
∑ Xi2
i =1
â = X ± 3 − 3 X 2 = X ± 3S ′ 2 = X ± 3 S ′
n

n
∑ Xi2
i =1
b̂ = X  3 − 3 X 2 = X  3S ′ 2 = X  3 S ′
n

© Ediciones Pirámide 21
Ejercicios de inferencia estadística y muestreo

y como a < b, se tiene que la estimación por el método de los momentos es:

aˆ = X − 3S ′
bˆ = X + 3S ′

Método de máxima verosimilitud

Consiste en obtener â y b̂ tales que:

L( x1 ,..., xn ; aˆ, bˆ ) = máx L( x1 ,..., xn ; a, b)


a, b

Si se plantea la función de verosimilitud, se tiene:

冢 冣
n n
1
L( x1 ,..., xn ; a, b) = ∏ f ( xi ; a, b) =
i =1 b−a

si a  xi  b, ∀ i = 1, ..., n.
Tomando el logaritmo neperiano:

ln L( x1 ,..., xn ; a, b) = − n ln(b − a)

y si se deriva esta expresión con respecto a los parámetros a y b, se tiene:

∂ ln L( x1 ,..., xn ; a, b) n
=
∂a b−a
∂ ln L( x1 ,..., xn ; a, b) n
=−
∂b b−a

Al igualar estos cocientes a cero, se observa que b – a debería ser infinito, pero esto
no es posible, pues los parámetros de la distribución uniforme proporcionan un intervalo
finito. Este hecho se produce porque el campo de variación X depende de los parámetros
(a  x  b). Por tanto, no se puede aplicar el proceso anterior y habrá que encontrar el
máximo de la función de verosimilitud de otra forma.
Como se ha encontrado que:

⎧ 1
⎪ si a  xi  b , ∀ i = 1,..., n
L( x1 ,..., xn ; a, b) = ⎨ (b − a)n
⎪⎩0 en caso contrario

22 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

El máximo de L se alcanzará en:

a  xi  b , ∀ i = 1,..., n

es decir, cuando:

a  mín{xi}
i
máx{xi}  b
i

pues el máximo de 1/(b – a) n se obtendrá minimizado b – a, pero b no debe ser inferior


al máximo valor obtenido en la muestra, ni a debe ser superior al mínimo de ellos. Por
tanto, los estimadores máximo-verosímiles de a y b serán, respectivamente:

aˆ = mín{Xi}
i

bˆ = máx{Xi}
i

Analíticamente:

1
máx L( x1 ,..., xn ; a, b) ≡
a, b mín (b − a)n
a, b

pero como:

xi  b, ∀ i = 1,..., n ⇔ máx{xi}  b
i

a  xi , ∀ i = 1,..., n ⇔ a  mín{xi}
i
4

a X(1) X(2) … X(n) b

entonces:

b − a  máx{xi} − mín{xi}
i i

4
X (i) es el estadístico de orden i. Es decir, una vez ordenadas de forma creciente las observaciones muestrales X (i),
tomará el valor de la que ocupe el lugar i-ésimo.

© Ediciones Pirámide 23
Ejercicios de inferencia estadística y muestreo

y, por tanto:

[ ]
n
mín (b − a)n  máx{xi} − mín{xi}
a, b i i

con lo cual:
1 1
máx L( x1 ,..., xn ; a, b) ≡ 
mín (b − a)
[ ]
n
a, b n
máx{xi} − mín{xi}
a, b i i

y, por tanto:

aˆ = mín{Xi} ; bˆ = máx{Xi}
i i

Encuentre el estimador de máxima verosimilitud del parámetro p de


Ejercicio 1.6
una variable de Bernoulli y compruebe si es consistente.

Sea (X1, ..., Xn) una muestra aleatoria simple procedente de una B(p).
Solución
La función de probabilidad de una B(p) para cada Xi es:

P( xi ; p) = p xi (1 − p)1 − xi , xi = 0, 1, i = 1,..., n

La función de verosimilitud será:


n n
n ∑ xi n − ∑ xi
L( x1 ,..., xn ; p) = P( x1 ,..., xn ; p) = ∏ P( xi ; p) = p i =1
(1 − p) i =1

i =1

Maximizamos el logaritmo neperiano de esa función:

冢 冣 冢 冣
n n
ln L( x1 ,..., xn ; p) = ∑ xi ln p + n − ∑ xi ln (1 − p)
i =1 i =1
n n

∂ ln L( x1 ,..., xn ; p)
∑ xi n − ∑ xi
i =1 i =1
= − =0
∂p p 1− p
n n
∑ xi n − ∑ xi n n n
i =1 i =1
p
=
1− p
⇒ ∑ xi − p∑ xi = pn − p∑ xi
i =1 i =1 i =1

24 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Por tanto, el estimador de máxima verosimilitud es:


n
∑ Xi
i =1
p̂ =
n
n
∑ xi
i =1
Para comprobar que se ha maximizado la función de verosimilitud en p = ,
n
calculamos la derivada segunda:
n n

∂ 2 ln L( x1 ,..., xn ; p)
∑ xi n − ∑ xi
i =1 i =1
=− 2 −
∂p 2 p (1 − p)2
n
∑ xi
i =1
y comprobamos cuánto vale en p = :
n
n n n
∑ xi n − ∑ xi
n2
n − ∑ xi
n2 n2
i =1 i =1 i =1
− − =− − =− − =

冢 冣 冢 冣 冢 冣
n 2 n 2 n n 2 n n
∑ xi ∑ xi ∑ xi n − ∑ xi ∑ xi n − ∑ xi
i =1 i =1 i =1 i =1 i =1 i =1
1−
n n n
n n
− n 3 + n 2 ∑ xi − n 2 ∑ xi
i =1 i =1 n3
= =− <0
∑ xi 冢n − ∑ xi 冣 ∑ xi 冢n − ∑ xi 冣
n n n n

i =1 i =1 i =1 i =1

ya que tanto el numerador como el denominador son positivos.


Queda probado que:
n
∑ Xi
i =1
p̂ =
n

es el estimador máximo-verosimil de p.

© Ediciones Pirámide 25
Ejercicios de inferencia estadística y muestreo

Para comprobar si p̂ es consistente, bastará ver que es insesgado y que su varianza


tiende a cero al aumentar el tamaño de la muestra. Veamos que p̂ es insesgado:

⎡ n ⎤
⎢ ∑ Xi ⎥ n n
E[ pˆ ] = E ⎢
i =1 ⎥ = 1 ∑ E[ X ] = 1 ∑ p = 1 np = p
⎢⎣ n ⎥⎦ n i = 1 i
n i =1 n

La varianza de p̂ es:

⎡ n ⎤
⎢ ∑ Xi ⎥ n
Var [ pˆ ] = Var ⎢
i =1 ⎥= 1 ∑ Var [ Xi ] = n 2 npq =
1 pq
——→ 0
⎢⎣ n ⎥⎦ n 2 i =1 n n→∞

Como el estimador es insesgado y su varianza tiende a cero cuando n → •, resulta


que el estimador p̂ es un estimador consistente del parámetro p.

Sea (X1 ,..., Xn) una muestra aleatoria simple procedente de una pobla-
Ejercicio 1.7
ción B(m, p), donde p es desconocido. Obtenga el estimador de máxima
verosimilitud y el estimador por el método de los momentos para el parámetro p.

Método de máxima verosimilitud


Solución
Obtendremos el estimador de máxima verosimilitud para el parámetro p resolviendo
la ecuación:

∂ ln L( x1 ,..., xn ; p)
=0
∂p

Para ello, calculamos:


n
L( x1 ,..., xn ; p) = ∏ P( xi ; p) =
i =1

冢 x 冣 p (1 − p) 冢x 冣 p 冢x 冣 p
m m m
= x1 m − x1
⋅ x2
(1 − p) m − x2 ⋅…⋅ xn
(1 − p) m − xn =
1 2 n
n n

冤∏ 冢 冣冥 p
n m ∑ xi mn − ∑ xi
= i =1
(1 − p) i =1

i =1 xi

26 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

冢冣 冢 冣
n n n
m
ln L( x1 ,..., xn ; p) = ∑ ln xi
+ ∑ xi ln p + mn − ∑ xi ln (1 − p)
i =1 i =1 i =1
n n

∂ ln L( x1 ,..., xn ; p)
∑ xi mn − ∑ xi
i =1 i =1
= − =0
∂p p 1− p

Por tanto:
n n
∑ xi mn − ∑ xi n n n
i =1 i =1
p
=
1− p
⇒ ∑ xi − p∑ xi = mnp − p∑ xi
i =1 i =1 i =1

luego:
n
∑ xi X
i =1
p̂ = =
mn m
Para comprobar que en x– /m la función de verosimilitud tiene un máximo, volvemos
a derivar su logaritmo:
n n

∂ 2 ln L( x1 ,..., xn ; p)
∑ xi mn − ∑ xi
i =1 i =1
=− 2 −
∂p 2 p (1 − p)2

y sustituimos por x– /m:


n n n n
∑ xi mn − ∑ xi ∑ xi mn − ∑ xi
m2n2 m2 n2
i =1 i =1 i =1 i =1
− − =− − =− − =

冢 冣 冢 冣
n n n n

冢 冣 冢 冣
x 2 x 2 2 2

m
1−
m
∑ xi mn − ∑ xi ∑ xi mn − ∑ xi
i =1 i =1 i =1 i =1
mn mn
n n
− m 3 n 3 + m 2 n 2 ∑ xi − m 2 n 2 ∑ xi
i =1 i =1 − m 3n 3
= n n
= n n
<0
冢∑ x 冣 ∑ xi ⋅ 冢mn − ∑ xi 冣
2
mn ∑ xi − i
i =1 i =1 i =1 i =1

© Ediciones Pirámide 27
Ejercicios de inferencia estadística y muestreo

porque:

n
∑ xi < mn
i =1


con lo que queda probado que p̂ = X /m es estimador máximo-verosímil de p.

Método de los momentos

El primer momento con respecto al origen de una variable B(m, p) es:

E[ X ] = mp

y el primer momento muestral:

1 n
a1 = ∑ Xi = X
n i =1

Igualando estos momentos, tenemos:

a1 = E[ X ]

1 n
∑ Xi = mp
n i =1

y despejando p, el estimador por el método de los momentos será:

n
∑ Xi X
i =1
p̂ = =
nm m

que, en este caso, coincide con el estimador de máxima verosimilitud.

28 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Sea X una variable aleatoria que tiene la siguiente función de densidad:


Ejercicio 1.8

⎧e − ( x − α ) si α  x < + ∞, − ∞ < α < + ∞


f ( x; α ) = ⎨
⎩0 en otro caso

Calcule un estimador para a según el método de máxima verosimilitud.

Sea (X1, ..., Xn) una muestra aleatoria simple de la variable X. Cada Xi
Solución
tiene la siguiente función de densidad:

⎧e − ( xi − α ) si α  xi < + ∞, − ∞ < α < + ∞


f ( xi ; α ) = ⎨
⎩0 en otro caso

Se define la función de máxima verosimilitud como:

n
− ∑ ( xi − α )
− ( x1 − α ) − ( x2 − α ) − ( xn − α )
L( x1 ,..., xn ; α ) = e ⋅e ⋅ ... ⋅ e =e i =1

Se pretende encontrar el valor de a que maximiza esta expresión.


Como el logaritmo neperiano es una función estrictamente creciente, maximizar ln L
es equivalente a maximizar la función L; por tanto:

n n
ln L( x1 ,..., xn ; α ) = − ∑ ( xi − α ) = − ∑ xi + nα
i =1 i =1

Si se diferencia esta expresión respecto de a, y se iguala el resultado a cero, se ob-


tiene:

n=0

lo cual, claramente, no es cierto. Esto ocurre porque el campo de variación de X depende


del parámetro (a  x < + ∞).

© Ediciones Pirámide 29
Ejercicios de inferencia estadística y muestreo

n
En este caso, hay que maximizar − ∑ ( xi − α ) directamente5, y conviene observar
i =1
que xi  a, ∀ xi; luego esta expresión es máxima si:

α = mín{xi}
i

por tanto:

αˆ = mín{Xi}
i

Los ingresos anuales de un amplio sector de empresas comerciales se


Ejercicio 1.9
reparten según una distribución normal de media 100 millones de euros
y una desviación típica de cinco millones de euros. Calcule la probabilidad de que, en
una muestra aleatoria simple de 16 empresas pertenecientes al sector, la varianza mues-
tral sea superior a 8,715 (millones de euros)2.

Definimos la variable X como los ingresos mensuales de una empresa per-


Solución
teneciente al sector comercial, que se distribuye según una N(100, 5).
Al suponer una población normal, en una muestra aleatoria simple de tamaño n, el
(n − 1)S 2
estadístico sigue una distribución c2 con n – 1 grados de libertad.
σ2
5 n
− ∑ xi
máx L( x1 ,..., xn ; α ) = e i =1
máx e nα
α α

y como:
xi  α , ∀ i = 1,..., n ⇔ mín{xi}  α
i

entonces:
n mín{xi }
e nα  e i

y, por tanto:
n mín{xi }
máx e nα  e i
α

Con lo cual:

αˆ = mín{xi}
i

30 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Por tanto:

P( S 2 > 8,715) = P 冢 (n − 1)S 2 (n − 1)8,715


σ 2
>
σ 2
= P χ15
2
> 冣 冢
15 ⋅ 8,715
25
= 冣
= P( χ15
2
> 5,229) = 1 − P( χ15
2
 5,229) = 1 − 0,010 = 0,99

Para encontrar esta probabilidad se ha buscado en la tabla 9.

En una estación de ferrocarril se encuentra una máquina automática de


Ejercicio 1.10
café regulada de tal forma que la cantidad de café dispensado se distri-
buye normalmente con una desviación típica de 0,5 centímetros cúbicos por taza. En una
muestra aleatoria de 50 tazas se ha medido un total de 7.500 centímetros cúbicos de café.
a) Estime qué cantidad de café suministra la máquina en cada taza.
b) Construya un intervalo de confianza al 95 % para la cantidad media de café que
suministra la máquina.

Sea X = «Cantidad de café dispensada en una taza»:


Solución

X ~ N ( μ; 0,5)
a) La mejor estimación puntual para la media poblacional se calcula mediante la
media muestral. Así:

n
∑ xi 7.500
i =1
μˆ = = = 150 cm 3
n 50

b) Como la cantidad de café que es suministrada en cada taza sigue una distribu-
ción normal con s = 0,5 centímetros cúbicos, conocida, el estadístico:

X−μ
σ/ n

sigue una distribución N(0, 1).

© Ediciones Pirámide 31
Ejercicios de inferencia estadística y muestreo

Por tanto, el intervalo solicitado no es más que el intervalo simétrico centrado en 0,


de tal forma que:


P − zα / 2 
X−μ
σ/ n 冣
 zα / 2 = 1 − α

En este caso, 1 – a = 0,95, luego a = 0,05, por lo que, mirando la tabla 7, se obtiene
que z a/2 = 1,96. Por tanto:


P − 1,96 
X−μ
0,5 / 50 冣
 1,96 = 0,95


P X − 1,96
0,5
50
 μ  X + 1,96
0,5
50 冣 = 0,95
y como x– = 150, el intervalo de confianza al 95 % será:

[149,8614; 150,1386]

Un fabricante de componentes electrónicos afirma que sus condensado-


Ejercicio 1.11
res tienen un tiempo medio de duración de 500 horas. Para verificar si
dicho tiempo medio se mantiene, decide examinar 25 condensadores cada mes. Con una
confianza del 90 %, ¿qué conclusiones debería extraer este fabricante de una muestra
cuyo tiempo medio de duración es de 518 horas, con desviación típica de 40 horas? Se
asume que el tiempo de duración de los condensadores se distribuye normalmente.

Sea X la variable que representa el tiempo de duración de un condensador:


Solución

X ~ N ( μ; σ )

A partir de la muestra, se ha obtenido:

x– = 518 horas ; s = 40 horas

32 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Como n es pequeño (n = 25, luego menor que 30), el estadístico:

X−μ
S/ n

sigue una distribución t de Student con (n – 1) grados de libertad.


El intervalo de confianza para m en esta caso sería:

冤X − t α /2
S
n
; X + tα / 2
S
n 冥
Calculemos t a/2:

1 − α = 0,9 ⇒ α = 0,1 ⇒ α / 2 = 0,05

t a/2 es un valor tal que P(t  t a/2) = a/2, con t una distribución t de Student de n – 1 = 24
grados de libertad. Si se busca en la tabla 10, se obtiene:

t0,05;24 = 1,711

Por tanto, el intervalo queda:

冤518 − 1,711 4025 ; 518 + 1,711 4025 冥


[504,312; 531,688]

Se puede afirmar, con una confianza del 95 %, que los condensadores que produce
este fabricante tienen una duración media de entre 504,312 horas y 531,688 horas, mayor,
por tanto, de 500 horas.
Si se tomara una serie de muestras de tamaño 25, aproximadamente el 95 % de
ellas proporcionarían intervalos que contendrían el verdadereo valor de parámetro que
se prentende estimar, mientras que un 5 % de dichas muestras darían lugar a intervalos
que no contendrían el verdadero valor de la duración media poblacional. Por tanto, el
intervalo numérico obtenido puede ser de cualquiera de los dos tipos.

© Ediciones Pirámide 33
Ejercicios de inferencia estadística y muestreo

Los niveles de audiencia (en miles de personas) de un programa de te-


Ejercicio 1.12
levisión, medidos en 10 emisiones elegidas aleatoriamente, han sido los
siguientes:

682, 553, 555, 666, 657, 649, 522, 568, 700, 552

Suponiendo que los niveles de audiencia siguen una distribución normal:


a) ¿Se podría afirmar, con un 95 % de confianza, que la audiencia media del pro-
grama es de 600.000 espectadores por programa?
b) La compañía productora del programa televisivo afirmó, durante las negocia-
ciones para la venta del programa, que éste acapararía una audiencia fiel y que
la desviación típica del número de espectadores sería de 15.000. ¿Queda esta
afirmación probada con los datos disponibles, con un 95 % de confianza?

Definimos X = «Nivel de audiencia (miles de personas)».


Solución

X ~ N ( μ; σ )
A partir de la información que se suministra en el enunciado, se puede calcular la
media y la desviación típica muestral:

n
∑ xi 6.104
i =1
x= = = 610, 4 miles de espectadores/ programa
n 10

s′2 =
∑ xi2 − ( x )2 =
3.765.176
− (610,4)2 = 3.929, 44
n 10

luego:

10 2 10
s2 = s′ = 3.929, 44 = 4.366,0444
9 9

y, por tanto:

s= s 2 = 66,0761 miles de espectadores/ programa

34 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

a) Se puede calcular un intervalo de confianza para la media y comprobar si el


valor 600 se encuentra dentro de él o no (sería como buscar la región de aceptación en
un contraste de hipótesis bilateral):


Iμ = X − tα / 2
S
n
; X + tα / 2
S
n 冥
donde t a/2 es tal que P(tn – 1  t a/2) = a/2.
Se ha elegido este intervalo porque tenemos una muestra pequeña (n = 10).
Como 1 – a = 0,95, entonces a = 0,05, luego a/2 = 0,025. El valor t a/2 es 2,262, puesto
que tiene nueve grados de libertad (se ha buscado dicho valor en la tabla 10). Por tanto:


Iμ = 610, 4 − 2,262
66,0761
10
; 610, 4 + 2,262
66,0761
10
= 冥
= [610, 4 − 47,2647; 610, 4 + 47,2647] = [563,1353; 657,6647]

Como el valor 600 se encuentra dentro del intervalo de confianza construido, po-
demos decir, con un 95 % de confianza, que la audiencia media del programa es de
600.000 espectadores (o, lo que es lo mismo, no se podría rechazar esta afirmación).
Este apartado se podría resolver igualmente mediante un contraste de hipótesis bi-
lateral.
b) Se calcula ahora un intervalo de confianza para s2:

Iσ 2 = 冤 (n − 1)S 2 (n − 1)S 2
;
χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2 冥
donde:

P( χ n2 − 1  χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975


P( χ n2 − 1  χ n2 − 1; α / 2 ) = α / 2 = 0,025

Utilizando los valores de la tabla 9 con n – 1 = 9 grados de libertad, hallamos:

χ 92;1 − α / 2 = 19,02
χ 92; α / 2 = 2,7

© Ediciones Pirámide 35
Ejercicios de inferencia estadística y muestreo

Por tanto:

Iσ 2 = 冤 9 ⋅ 4 ⋅19366,02,0444 ; 9 ⋅ 4 ⋅ 366
2,7
,0444
冥 = [2.065,9516; 14.553,4813]
El intervalo de confianza para s será:

Iσ = [ 45, 4527; 120,6378]

Este intervalo no contiene el valor 15, por lo que no queda probada la afirmación de
que la audiencia tenga una desviación típica de 15.000 espectadores con una confianza
del 95 %.

Para establecer las especificaciones del sistema de control de calidad de


Ejercicio 1.13
una máquina que fabrica grapas se realizan distintas mediciones y
pruebas. Las longitudes de una muestra aleatoria de 10 grapas se observa que tienen
una varianza de 0,32 cm2. Construya un intervalo de confianza al 90 % para la varianza
de la longitud de las grapas; suponga normalidad.

Llamamos X a la variable aleatoria que representa la longitud de una gra-


Solución
pa, y suponemos que su distribución es N(m, s). El intervalo de confianza
para la varianza s2 es:

Iσ 2 = 冤 (n − 1)S 2 (n − 1)S 2
;
χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2 冥
con 1 – a = 0,90 fi a/2 = 0,05:

P( χ n2 − 1  χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 0,95
P( χ n2 − 1  χ n2 − 1; α / 2 ) = α / 2 = 0,05

En la tabla 9 de la distribución c2 con n – 1 = 9 grados de libertad, obtenemos los


valores:

36 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

2
9

0,90

0,05
0,05

0 3,325 16,92

χ 92; 0,05 = 3,325


χ 92; 0,95 = 16,92

Por tanto, sustituyendo en la expresión del intervalo:

冤 916⋅ 0,92,32 ; 93⋅,325


0,32
冥 = [0,1702; 0,8662]

Un empresario, propietario de una gasolinera, está interesado en conocer


Ejercicio 1.14
la diferencia entre las cantidades que se consumen de gasolina y de
gasoil en su estación de servicio.
En una semana, se registraron las cantidades suministradas de combustible a dos
muestras de vehículos de tal forma que a 15 automóviles que solicitaron gasolina se les
suministró una cantidad media de 27 litros, mientras que otros 10 adquirieron una media
de 23 litros de gasoil por vehículo.
Para obtener información del consumo de carburantes en España, se consultó el
anuario estadístico de una importante compañía petrolífera y se encontró que la va-
rianza poblacional en el suministro de combustibles era de 1002 litros, en el caso de
la gasolina, y de 802 litros en el caso del gasoil. Se supone que el consumo de los
carburantes de distribuye normalmente. Calcule un intervalo de confianza al 99 % para
la diferencia entre los consumos medios de ambos tipos de carburante y comente el
resultado.

© Ediciones Pirámide 37
Ejercicios de inferencia estadística y muestreo

Se tienen dos poblaciones, X e Y, donde X es el consumo de gasolina, e Y


Solución
es el consumo de gasoil, de tal forma que se conoce que:

X → N ( μ x , 100 )
Y → N ( μ y , 80 )

Se han tomado dos muestras que han producido los siguientes resultados:

nx = 15 x = 27 litros
ny = 10 y = 23 litros

El intervalo de confianza para mx – my, en estas condiciones, es el siguiente:

σ x2 σ y2 σ x2 σ y2
冤( X − Y ) − zα / 2
nx
+
ny
; ( X − Y ) + zα / 2
nx
+
ny 冥
donde za/2 es tal que:

α
P[ Z > zα / 2 ] = y Z → N (0, 1)
2

Como 1 – a = 0,99, a = 0,01, luego a/2 = 0,005. Si se mira la tabla 7, se obtiene que
za/2 = 2,575, puesto que P(Z  2,57) = 0,0051 y P(Z  2,58) = 0,0049, y por interpola-
ción entre esos dos valores se tiene que P(Z  2,575) = 0,005.
En este caso, y con la información muestral recogida, el intervalo queda:

冤(27 − 23) − 2,575 100 80


+ ; (27 − 23) + 2,575
15 10
100 80
+
15 10 冥
冤4 − 2,575 440
30
; 4 + 2,575
440
30 冥
[ 4 − 9,861; 4 + 9,861]
[ − 5,861; 13,861]

A la vista del intervalo obtenido, no se puede afirmar que el consumo medio de


gasolina sea superior al de gasoil, puesto que en el intervalo se admiten también valores
negativos y el cero.

38 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Una compañía quiere conocer la proporción de consumidores que ad-


Ejercicio 1.15
quieren su producto. Para ello, contrata una empresa que realiza inves-
tigaciones de mercado y le pide que el error de estimación máximo sea del 3 % con una
confianza del 95 %.
a) ¿Cuál debe ser el tamaño de la muestra para cumplir los objetivos marcados por
la compañía?
b) Si, una vez extraída la muestra, se observa que la proporción muestral es del
74 %, ¿entre qué valores se encontraría la proporción poblacional si se pretende
seguir teniendo la confianza inicial? ¿Cuál es el error de estimación en este
caso, y a qué se debe el cambio con el error pedido previamente?

Definimos la variable aleatoria X como:


Solución

⎧1 si un consumidor adquiere el producto


X=⎨
⎩0 si un consumidor no adquiere el producto

Sea p = P(X = 1) la proporción de consumidores que adquiere el producto.


a) Se quiere estimar p, con êp = 0,03 y 1 – a = 0,95.
El intervalo de confianza para p es:

冤 冥
ˆˆ
pq ˆˆ
pq
I p = pˆ − zα / 2 ; pˆ + zα / 2
n n

Si se despeja del intervalo, se obtiene:

ˆˆ
pq
eˆ p = zα / 2
n
de donde:

zα2 / 2 pq
ˆˆ
n= 2
eˆ p

Como no se tiene información de p̂ ni, por supuesto, de q̂ (q̂ = 1 – p̂), se considera a


priori el peor de los casos, cuando p̂q̂ = p̂(1 – p̂) se hace máximo:

1
pˆ = qˆ = = 0,5
2

© Ediciones Pirámide 39
Ejercicios de inferencia estadística y muestreo

Al considerar estos valores para p̂ y q̂, obtenemos un tamaño muestral máximo, váli-
do para garantizar el error fijado por la compañía sea cual sea el valor del parámetro p.
Luego:

1,96 2 ⋅ 0,5 ⋅ 0,5


n= = 1.067,1111
0,032

Por tanto, n = 1.068 consumidores.


El valor za/2 = 1,96 se ha obtenido en la tabla 7, y es tal que P(Z  za/2) = 0,975.
b) En este caso tenemos la información adicional de p̂ = 0,74. Por tanto, q̂ = 0,26.
Además, n = 1.068. En esta situación:

0,74 ⋅ 0,26
eˆ p = 1,96 = 0,02631
1.068

Luego p pertenece al intervalo [0,74 – 0,02631; 0,74 + 0,02631], con una confianza
del 95 %.
El error de estimación es más pequeño (0,02631), y eso se debe a que disponemos
de información sobre p̂ y q̂, que consideramos como conocidos y que no representan el
peor de los casos.

Un prestigioso diario de información general quiere hacer un estudio


Ejercicio 1.16
sobre la diferencia en la intención de voto a los dos principales partidos
políticos de su país. Lo único que se conoce es que ambos partidos están muy iguala-
dos en cuanto a intención de voto. ¿A cuántas personas debería entrevistar para estimar,
con una confianza del 95 %, dicha diferencia de intención de voto con un error menor
del 1 %?

La intención de voto de cada persona sigue una distribución B(1, p). Sean
Solución
p1 = «Proporción de votantes del partido 1» y p2 = «Proporción de votantes
del partido 2», el intervalo de confianza para la diferencia de proporciones es:

冤( pˆ − pˆ ) − z
1 2 α /2
pˆ1qˆ1 pˆ 2 qˆ2
n
+
n
; ( pˆ1 − pˆ 2 ) + zα / 2
pˆ1qˆ1 pˆ 2 qˆ2
n
+
n 冥
en donde za/2 = 1,96, ya que 1 – a = 0,95.

40 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Como no se tiene información sobre p1 y p2, salvo que los partidos están igualados,
se toma el peor de los casos: p̂1 = p̂2 = 0,5.
Despejando, se tiene:

0,25 0,25 1,96 2 ⋅ 0,5


error = 1,96 + ⇒ n= = 19.208 personas
n n (0,01)2

En una determinada comunidad autónoma se va a lanzar al mercado un


Ejercicio 1.17
nuevo modelo de ordenador. Con el fin de valorar la acogida que tendrá
el producto, se encargan dos investigaciones piloto, en función de un mismo tamaño de
muestra, para obtener información sobre la proporción de consumidores dispuestos a
adquirir el nuevo modelo, obteniéndose en cada una de ellas las siguientes estimaciones:
p̂1 = 0,45 y p̂2 = 0,6.
a) Utilizando los resultados de estas investigaciones piloto, ¿cuál debería ser el
tamaño muestral definitivo para estimar, con un 90 % de confianza, la propor-
ción de consumidores que adquirirían el nuevo ordenador garantizando un error
inferior al 0,5 %?
b) Construya un intervalo de confianza al 90 % para la proporción de consumido-
res dispuestos a adquirir el ordenador, en el caso de que en una muestra de 40
individuos el 20 % se manifiesten favorables a la compra.

Sea:
Solución

⎧1 si una persona está dispuesta a adquirir el ordenador


X=⎨
⎩0 en otro caso

Esta variable sigue una distribución B(1, p), con p = P(X = 1), la proporción de con-
sumidores dispuestos a adquirir el ordenador.
a) Sabemos que el intervalo al nivel de confianza 100(1 – a) % para el paráme-
tro p es:

冤 pˆ − z 冥
ˆˆ
pq ˆˆ
pq
α /2 ; pˆ + zα / 2
n n

© Ediciones Pirámide 41
Ejercicios de inferencia estadística y muestreo

Estimando el error cometido como:

ˆˆ
pq
eˆ = zα / 2
n

se pretende que:

ˆˆ
pq
0,005 < zα / 2
n

en los dos casos. Como el nivel de confianza es del 90 %, a/2 = 0,05, luego, buscando
en la tabla 7, se obtiene:

zα / 2 = 1,645

por interpolación entre los dos valores de Z cuya probabilidad acumulada se encuentra
más próxima a 0,95:

P( Z  1,64) = 0,9495
P( Z  1,65) = 0,9505

Ahora, si despejamos n de la ecuación anterior, se obtiene:

zα2 / 2 pq
ˆˆ
n= 2
e

En el primer caso, p̂1 = 0,45, se tiene:

(1,645)2 ⋅ 0, 45 ⋅ 0,55
n1 = = 26.789,6475 ≈ 26.790 personas
(0,005)2

En el segundo caso, p̂2 = 0,6, se tiene:

(1,645)2 ⋅ 0,6 ⋅ 0, 4
n2 = = 25.977,84 ≈ 25.978 personas
(0,005)2

42 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Por tanto, para garantizar un error inferior al 0,5 % con un nivel de confianza del
90 %, el tamaño de la muestra que habría de ser elegida para garantizar la cota de error
en cualquiera de los casos será de 26.790 personas.
b) El intervalo de confianza para p será:

冤 冥
ˆˆ
pq ˆˆ
pq
I p = pˆ − zα / 2 ; pˆ + zα / 2
n n

Si sustituimos los valores que conocemos en esta expresión, obtendremos el intervalo


de confianza para p:

冤0,2 − 1,645 0,2 ⋅ 0,8


40
; 0,2 + 1,645
0,2 ⋅ 0,8
40 冥
[0,2 − 0,1040; 0,2 + 0,1040]
[0,0960; 0,3040]

Se seleccionaron dos muestras aleatorias e independientes del número


Ejercicio 1.18
de puestos de trabajo creados en el último mes por diferentes empresas
de dos sectores económicos. La información suministrada por las muestras es la siguiente:

Empresas

1 2 3 4 5 6

Número de empleos (sector A) 13 14 21 19 15 15


Número de empleos (sector B) 18 19 20 22 31 26

Con el fin de conocer el impacto de las nuevas modalidades de contratación en los


dos sectores y suponiendo que el número de empleos creados siguiera en ambos distribu-
ciones normales con varianzas iguales:
a) ¿Se puede admitir, con un 95 % de confianza, que la desviación típica del nú-
mero de empleados en el sector B es igual a 2?
b) Con un 99 % de confianza, ¿podríamos afirmar que ambos sectores son simila-
res en cuanto al número medio de empleos creados en el último mes?
c) Sin utilizar la información muestral anterior, ¿qué tamaño muestral sería nece-
sario seleccionar para estimar, mediante un intervalo de confianza de amplitud

© Ediciones Pirámide 43
Ejercicios de inferencia estadística y muestreo

0,05, la proporción de empresas del sector B que crearon más de 20 empleos en


el último mes, con un nivel de confianza del 95 %?

Sean las variables aleatorias X e Y las que representan el número de puestos


Solución
de trabajo creados en el último mes por las empresas de los sectores eco-
nómicos, A y B, respectivamente.
Entonces:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

con X e Y independientes y sx = sy = s.
a) Para ver si 22 es un valor admisible para sy2, obtenemos el correspondiente in-
tervalo de confianza al 95 %:

(ny − 1)Sy2 (ny − 1)Sy2


Iσ 2 =
y 冤χ 2
n y − 1;1 − α / 2
;
χ n2y − 1; α / 2 冥
donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2 de una distribución
c2 con ny – 1 = 6 – 1 = 5 grados de libertad, es decir, utilizando que 1 – a = 0,95,

χ25

1– = 0,90

/2 = 0,025
/2 = 0,025

χ25; /2 χ25; 1– /2

P( χ 52  χ 52;1 − α / 2 ) = 0,975 ⇒ χ 52;1 − α / 2 = 12,83


P( χ 52  χ 52; α / 2 ) = 0,025 ⇒ χ 52; α / 2 = 0,8312

44 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Calculamos la media y varianza muestral de las observaciones del sector B:

yi 18 19 20 22 31 26

yi2 324 361 400 484 961 676

ny
1 136
y=
ny
∑ yi = 6
= 22,6667
i =1

冢 冣 ⎤⎥⎥
ny
⎡ 2

1 ny
1 ⎢ ny ∑ yi
i =1
sy2 = ∑ i
ny − 1 i = 1
( y − y ) 2
= ⎢∑ y 2 −
ny − 1 ⎢⎣i = 1 i
=
ny ⎥⎦

1⎡ 136 2 ⎤
= 3. 206 − = 24,6667
5 ⎢⎣ 6 ⎥⎦

Por tanto, el intervalo de confianza al 95 % para sy2:

⎡ (6 − 1)24,6667 (6 − 1)24,6667 ⎤
Iσ 2 = ⎢ ; ⎥ = [9,6129; 148,3801]
y
⎣ 12,83 0,8312 ⎦

y extrayendo la raíz cuadrada:

Iσ y = [3,1005; 12,1811]

Como 2 œ Isy, entonces, con un 95 % de confianza, no puede admitirse este valor


para la desviación típica.
b) Obtengamos el intervalo de confianza al 99 % para la diferencia de las medias
poblacionales; como sx y sy son desconocidas, pero iguales, y los tamaños muestrales
son pequeños, éste será:

(nx − 1)Sx2 + (ny − 1)Sy2 nx + ny (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny



Iμ x − μ y = ( X − Y ) − tα / 2
nx + ny − 2 nx ny
; ( X − Y ) + tα / 2
nx + ny − 2 nx ny 冥
© Ediciones Pirámide 45
Ejercicios de inferencia estadística y muestreo

donde t a/2 es el cuantil de una t de Student con nx + ny – 2 = 10 grados de libertad,


tal que:

α 0,01
P(t10 > tα / 2 ) = = = 0,005
2 2

Entonces:

P(t10  tα / 2 ) = 1 − 0,005 = 0,995

y utilizando la tabla 10:

tα / 2 = 3,169

Obtengamos la media y varianza muestral de X:

xi 13 14 21 19 15 15

xi2 169 196 441 361 225 225

nx
1 97
x=
nx
∑ xi = 6
= 16,1667
i =1

冢 ∑ xi 冣
nx
⎡ 2

1 ⎢ nx ⎥ 1⎡ 972 ⎤
i =1
s x2 = ⎢∑ x 2 − ⎥ = ⎢1.617 − = 9,7667
nx − 1 ⎢⎣i = 1 i nx ⎥⎦ 5 ⎣ 6 ⎥⎦

y sustituyendo en la expresión del intervalo:


Iμ x − μ y = (16,1667 − 22,6667) − 3,169
5 ⋅ 9,7667 + 5 ⋅ 24,6667
6+6−2
6+6
6⋅6
;

(16,1667 − 22,6667) + 3,169


5 ⋅ 9,7667 + 5 ⋅ 24,6667
6+6−2
6+6
6⋅6 冥
Iμ x − μ y = [ − 14,0917; 1,0917]

46 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Como el valor 0 está dentro de Imx – my, entonces puede admitirse la similitud en la
creación de puestos de trabajo en estos dos sectores.
c) El intervalo de confianza para estimar una proporción es:


I p = pˆ − zα / 2
pˆ (1 − pˆ )
n
; pˆ + zα / 2
pˆ (1 − pˆ )
n 冥
con za/2 el cuantil de orden 1 – a/2 en una N(0, 1), es decir, tal que:

P( Z > zα / 2 ) = α / 2

o bien:

P( Z  zα / 2 ) = 1 − α / 2

La longitud o amplitud de este intervalo será:

pˆ (1 − pˆ )
L = 2 zα / 2
n

y, despejando el valor de n, tendremos:

4 ⋅ zα2 / 2 ⋅ pˆ (1 − pˆ )
n=
L2

Si 1 – a = 0,95, entonces a/2 = 0,025 y, buscando en la tabla 7, el valor de za/2 será


1,96. El valor de L se sustituirá por el deseado, es decir, 0,05, y al no tener informa-
ción muestral para p̂, tomamos la situación más desfavorable: aquella que hace máxima
p̂(1 – p̂):

p̂(1 – p̂)
1/4


0 1/2 1

© Ediciones Pirámide 47
Ejercicios de inferencia estadística y muestreo

por tanto, p̂ = 0,5, y así:

4 ⋅ 1,96 2 0,5 ⋅ (1 − 0,5)


n= = 1.536,64
0,052

Así pues, el tamaño muestral necesario será:

n  1.537

La autoridad monetaria de un país decide llevar a cabo una investigación


Ejercicio 1.19
sobre los rendimientos que produce un determinado producto financiero
ofertado por los bancos. Seleccionada una muestra aleatoria simple de nueve entidades
bancarias, y suponiendo que los rendimientos de este producto en el conjunto bancario
se distribuyen normalmente, con media del 23 % y desviación típica del 6 %, calcule:
a) La probabilidad de que el rendimiento medio muestral se mantenga entre el
18,72 y el 25,76 %.
b) La probabilidad de que la varianza muestral sea superior a 60,12.
c) El valor de k, tal que P(S2 > k) = 0,95.
d) Suponiendo ahora que la desviación típica fuera desconocida, y sabiendo que la
desviación típica de la muestra de nueve bancos es 4,5 %, obtenga la probabili-
dad de que la media muestral sea superior al 25,79 %.

Definimos X como la variable aleatoria que representa el rendimiento de


Solución
este producto en cada entidad bancaria. La distribución de esta variable
será:

X ~ N (23, 6)
a) Seleccionada una muestra aleatoria simple, X1, ..., Xn, de tamaño 9, n = 9, la me-
dia muestral:

1 n
X = ∑ Xi
n i =1

se mantiene entre el 18,72 % y el 25,76 % con probabilidad:

P(18,72  X  25,76)

48 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Para calcular esta probabilidad, tenemos en cuenta que:

X ~ N (23, 6) ⇒ X ~ N 冢23; 6
冣 冢
≡ N 23;
6

n 9

y entonces:

X − 23
Z= ~ N (0, 1)
6/ 9

por tanto:

P(18,72  X  25,76) = P 冢18,672/ −923  X6 /− 239  25,676/ −9 23 冣 = P(− 2,14  Z  1,38) =


= P( Z  1,38) − P( Z < − 2,14) = P( Z  1,38) − P( Z  − 2,14) =
= 0,9162 − 0,0162 = 0,9

donde las probabilidades han sido buscadas en la tabla 7 de una distribución N(0, 1).
b) La varianza muestral se define como:

1 n
S2 = ∑ ( Xi − X )2
n − 1 i =1

Se sabe que:

(n − 1)S 2
~ χ n2 − 1
σ2

Como ahora n = 9 y s = 6, entonces:

(9 − 1)S 2
~ χ 82
36

© Ediciones Pirámide 49
Ejercicios de inferencia estadística y muestreo

Por tanto, utilizaremos esta distribución para calcular la probabilidad deseada:

P( S 2 > 60,12) = P 冢 (9 − 1)S 2 (9 − 1)60,12


36
>
36 冣
= P( χ 82 > 13,36) = 1 − P( χ 82  13,36)

Buscando esta probabilidad en la tabla 9, tenemos:

P( S 2 > 60,12) = 1 − 0,900 = 0,10

c) Para encontrar k, tal que:

0,95 = P( S 2 > k )

utilizamos el suceso complementario:

0,95 = 1 − P( S 2  k )

de donde:

0,05 = P( S 2  k ) = P 冢 8 ⋅ S2
36

8k
36 冣
y, de nuevo, de la tabla 9 se deduce que:

8k
= 2,733
36

y, por tanto:

36 ⋅ 2,733
k= = 12,2985
8

d) Si suponemos ahora que la desviación típica es desconocida, entonces la distri-


bución de X será:

X ~ N (23, σ )
50 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

La desviación típica muestral del rendimiento del producto en las nueve entidades
ha sido de 4,5 %, por tanto:

s = 4,5

Utilizando que:

X−μ
~ tn − 1 ≡ t8
S/ n

se tiene la probabilidad deseada buscando en la tabla 10 de una t de Student con ocho


grados de libertad:

P( X > 25,79) = P 冢 4X,5−/ 239 > 254,,795/ −923冣 = P(t


8 > 1,86) =

= 1 − P(t8  1,86) = 1 − 0,95 = 0,05

La empresa Buenavista, S. A., se dedica a la fabricación de monturas


Ejercicio 1.20
de gafas. Ante la celebración del próximo consejo de administración, el
departamento comercial elabora un informe sobre la producción diaria, X, en cientos de
unidades, que se distribuye normalmente. Para ello, recoge información durante 16 días
seleccionados al azar y obtiene los siguientes resultados:

16 16
∑ xi = 276 ; ∑ xi2 = 4.826
i =1 i =1

a) Obtenga, razonadamente, un intervalo de confianza al 95 % para la desviación


típica de la producción diaria de esta empresa.
b) La empresa de la competencia, Gafaplus, S. A., estudia la posibilidad de una fu-
sión con la empresa Buenavista, S. A. Para ello, decide comprobar si existe una
diferencia significativa entre sus producciones diarias. Se sabe que la producción
diaria de la empresa Gafaplus, S. A. se distribuye también normalmente. Sobre
la base de una muestra aleatoria tomada a lo largo de 26 días, Gafaplus, S. A.,
encuentra una producción media de 1.250 unidades y una varianza de 38.6002
unidades. Elabore un intervalo de confianza al 95 % para la diferencia de pro-
ducciones medias.

© Ediciones Pirámide 51
Ejercicios de inferencia estadística y muestreo

a) La variable X, producción diaria de monturas de la empresa Buena-


Solución
vista, S. A. (en cientos de unidades), sigue una distribución normal de la
que no se conoce ni la media, mx, ni la desviación típica, sx, aunque éstas se pueden
estimar a partir de los resultados muestrales:

1 n 276
x= ∑
n i =1
xi =
16
= 17, 25 cientos de monturas/día

1 n
冤∑ xi2 − n 冢∑ xi 冣 冥 =
n n 2
1 1
s x2 = ∑
n − 1 i =1
( xi − x ) 2 =
n −1 i =1 i =1

=
1
15 冤 1
4.826 − (276)2 = 4,3333
16 冥
El intervalo de confianza para la varianza, como m es desconocida y n = 20 (peque-
ña), será:

Iσ 2 =
x 冤 (nx − 1)Sx2 (nx − 1)Sx2
;
χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2 冥
donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2, tales que en una
c2 con n – 1 = 15 grados de libertad verifican que:

χ215

1–

/2
/2

χ215; /2 χ215; 1– /2

52 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Como 1 – a = 0,95, a/2 = 0,025, entonces, utilizando la tabla 9, estos valores serán:

χ15
2
;1 − α / 2 = 27, 49

χ15
2
; α / 2 = 6,262

Sustituyendo en el intervalo:

Iσ 2 =
x 冤1527⋅ 4,,493333 ; 156⋅ ,4262
,3333
冥 = [2,3645; 10,3800]
Por tanto, para sx, el intervalo lo podemos obtener tomando raíces cuadradas:

Iσ x = [1,5377; 3,2218]

b) Si denominamos Y a la variable que representa la producción de monturas de


gafas de la empresa Gafaplus, S. A. (en cientos de unidades), se ha obtenido a partir de
la muestra:

y = 12,50 cientos de unidades


sy2 = 3, 86 (cientos de unidades)2

Para construir un intervalo de confianza para la diferencia de medias, se debe co-


nocer, en primer lugar, si las varianzas son iguales o no. Para ello, podemos construir
un intervalo de confianza sobre el cociente de varianzas y comprobar si el valor 1
pertenece al intervalo (lo que implicaría la posibilidad de igualdad de varianzas). Este
intervalo será:

Iσ 2 /σ 2 =
x y 冤 Sx2
2

1
;
Sx2
2

1
Sy Fnx − 1,ny − 1;1 − α / 2 Sy Fnx − 1,ny − 1; α / 2 冥
siendo:

1
Fnx − 1,ny − 1;1 − α / 2 =
Fny − 1,nx − 1; α / 2

© Ediciones Pirámide 53
Ejercicios de inferencia estadística y muestreo

y Fnx − 1,ny − 1; α / 2 el cuantil de orden a/2 en una distribución de Ᏺ de Snedecor con


nx – 1 = 15, ny – 1 = 25 grados de libertad. Gráficamente:

Ᏺ15,25

/2
/2

F15,25; /2 F15,25; 1 – /2

es decir:

0,05
P(Ᏺ 15,25  F15,25;1 − α / 2 ) = 1 − α / 2 = 1 − = 0,975
2

Buscando en la tabla 11, con n1 = 15 y n2 = 25, obtenemos:

F15,25;1 − α / 2 = 2, 41

Por otra parte:

P(Ᏺ 15,25 < F15,25; α / 2 ) = α / 2 = 0,025

0,025 = P(Ᏺ 15,25 < F15,25; α / 2 ) = P 冢F 1


15,25; α / 2
<
1
Ᏺ 15,25 冣=
=P 冢F 1
15,25; α / 2
< Ᏺ 25,15 冣
de donde:


P Ᏺ 25,15 
1
F15,25; α / 2 冣 = 1 − 0,025 = 0,975
54 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Por tanto, utilizando la tabla 11:

1
= F25,15;1 − α / 2 = F25,15; 0,975 = 2,69
F15,25; α / 2

entonces:

1 1
F15,25; α / 2 = = = 0,3717
F25,15;1 − α / 2 2,69

Sustituyendo en el intervalo:

Iσ 2 /σ 2 =
x y 冤 4,33333
,86 2, 41 3,86 0,3717 冥

1 4,3333
; ⋅
1
= [0, 4658; 3,0202]

Como 1 pertenece al intervalo para el cociente de varianzas, podemos suponer que


son iguales, y, así, el intervalo para la diferencia de medias será:

(nx − 1)Sx2 + (ny − 1)Sy2 nx + ny (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny



Iμ x − μ y = ( X − Y ) − tα / 2
nx + ny − 2 nx ny
; ( X − Y ) + tα / 2
nx + ny − 2 nx ny 冥
Con t a/2, el cuantil que en una t de Student con nx + ny – 2 = 16 + 26 – 2 = 40 grados
de libertad deja a su derecha una probabilidad igual a a/2. Como 1 – a = 0,95, la repre-
sentación gráfica quedará como sigue:

t40

0,975
/2 = 0,025

t /2

Utilizando la tabla 10, se tiene:

t a/2 = 2,021

© Ediciones Pirámide 55
Ejercicios de inferencia estadística y muestreo

Sustituyendo ahora en el intervalo:


Iμ x − μ y = (17,25 − 12,5) − 2,021
(16 − 1)4,3333 + (26 − 1)3,86 16 + 26
16 + 26 − 2 16 ⋅ 26
;

(17,25 − 12,5) + 2,021


(16 − 1)4,3333 + (26 − 1)3,86 16 + 26
16 + 26 − 2 16 ⋅ 26 冥
=

= [ 4,75 − 1,2903; 4,75 + 1,2903] = [3,4597; 6,0403]

Una variable aleatoria discreta X toma los valores 0, 1, 2 y 3, con pro-


Ejercicio 1.21
babilidades 1/q, 2,5/q, (q – 4)/q y 0,5/q, respectivamente. Siendo q > 4,
se pide:
a) ¿Es una función de probabilidad?
b) Calcule y represente la función de distribución en función de q.
c) Obtenga la esperanza de X y su varianza.
d) ¿Cuál es la probabilidad P(0,5  X < 3) en función de q?
e) Dada una muestra aleatoria simple de tamaño 20, se obtienen los siguientes re-
sultados:

X Observados

0 8
1 5
2 3
3 4

Estime q por el método de los momentos y por el método de máxima vero-


similitud.

La distribución de probabilidad de la variable X es:


Solución

X=x 0 1 2 3
1 5 q–4 1
P(x) = P(X = x)
q 2q q 2q

56 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

a) Para comprobar que se trata de una distribución de probabilidad, debemos de-


mostrar que:

i) P( x )  0, ∀ x
ii ) ∑ P( x ) = 1
x

En este caso, como q > 4, entonces, en particular también q > 0 y, por tanto, se
tiene que:

1
P( X = 0) = >0
θ

5
P( X = 1) = >0

θ−4
P( X = 2) = > 0, pues θ > 4 ⇒ θ − 4 > 0
θ
1
P( X = 3) = >0

con lo cual, queda probado i).


Veamos que la suma de las probabilidades es igual a la unidad:

1 5 θ−4 1
∑ P( x ) = P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) = θ + 2θ + θ
+

=
x

6 θ − 3 3+θ − 3 θ
= + = = =1
2θ θ θ θ

Por tanto, se trata de una función de probabilidad.

b) Por definición, la función de distribución en un valor x representa la probabili-


dad acumulada hasta ese punto:

F( x ) = P( X  x )

© Ediciones Pirámide 57
Ejercicios de inferencia estadística y muestreo

Entonces:

⎧0 si x < 0

⎪1 si 0  x < 1
⎪θ

⎪⎪ 1 + 5 = 7 si 1  x < 2
F( x ) = P( X  x ) = ⎨θ 2θ 2θ

⎪ 7 + θ − 4 = 2θ − 1 si 2  x < 3
⎪ 2θ θ 2θ

⎪ 2θ − 1 + 1 = 2θ = 1 si x  3
⎪⎩ 2θ 2θ 2θ

cuya representación gráfica es:

F(x)

1 F(x)
(2 – 1)
———
2

7
—–
2

1
––

0 1 2 3 x

c) El valor esperado o esperanza de una variable aleatoria discreta se define


como:

E[ X ] = ∑ x ⋅ P( X = x )
x

58 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Por tanto, en nuestro caso:

3
1 5 θ−4 1
E[ X ] = ∑ x ⋅ P( X = x ) = 0 ⋅ θ + 1⋅

+ 2⋅
θ
+ 3⋅

=
x=0

0 + 5 + 4θ − 16 + 3 4θ − 8 2θ − 4
= = =
2θ 2θ θ

Para calcular la varianza de X, utilizaremos que:

Var [ X ] = E[ X 2 ] − [ E[ X ]]2

donde:

3
1 5 θ−4 1
E[ X 2 ] = ∑ x 2 ⋅ P( X = x ) = 0 2 ⋅ θ + 12 ⋅ 2θ + 2 2 ⋅ θ
+ 32 ⋅

=
x=0

5 8θ − 32 9 8θ − 18 4θ − 9
= + + = =
2θ 2θ 2θ 2θ θ

Así:

4θ − 9

2θ − 4
冣 4θ − 9 4θ 2 + 16 − 16θ
2
Var [ X ] = − = − =
θ θ θ θ2

4θ 2 − 9θ − 4θ 2 − 16 + 16θ 7θ − 16
= =
θ2 θ2

que toma un valor positivo, pues q > 4 y, por tanto:

7q – 16 > 0

5 θ − 4 5 + 2θ − 8
d) P(0,5  X < 3) = P( X = 1) + P( X = 2) = + = =
2θ θ 2θ
2θ − 3 3
= = 1−
2θ 2θ

© Ediciones Pirámide 59
Ejercicios de inferencia estadística y muestreo

e) Para emplear el método de los momentos, igualamos los momentos poblaciona-


les a los muestrales. Por tanto:

α1 = a1

y en nuestro caso:

2θ − 4 ⎫
α1 = E[ X ] =
θ ⎪⎪
1 n ⎬
a1 = ∑ Xi = X ⎪
n i =1 ⎪⎭

Con lo cual:

2θ − 4
X =
θ
θX = 2θ − 4
4 = θ (2 − X )
4
θˆ =
2−X

Ahora bien, como:

1 0 ⋅ 8 + 1 ⋅ 5 + 2 ⋅ 3 + 3 ⋅ 4 23
x= ∑
n xi
xi ni =
20
=
20

entonces:

4 4 ⋅ 20 80
θˆ = = = = 4,706
23 40 − 23 17
2−
20

Para estimar el parámetro q por el método de máxima verosimilitud, obtenemos, en


primer lugar, la función de verosimilitud asociada a esta muestra:

60 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

20
L( x1 ,..., x20 ; θ ) = P( x1 ,..., x20 ; θ ) = ∏ P( xi ; θ ) =
i =1

= ( P( X = 0))8 ( P( X = 1))5 ( P( X = 2))3 ( P( X = 3)) 4 =

冢 冣冢 冣冢 θ−4
冣冢 冣 3.125 ⋅ (θ − 4)3
1 8 5 5 3 1 4
= =
θ 2θ θ 2θ 515 ⋅ θ 20

Debemos hallar el valor que hace máxima esta función o, lo que es equivalente, el
valor que maximiza su logaritmo neperiano:

⎡ 3.125 ⎤
ln L( x1 ,..., x20 ; θ ) = ln ⎢ + 3 ln (θ − 4) − 20 ln θ
⎣ 512 ⎥⎦
∂ ln L( x1 ,..., x20 ; θ ) 3 20
=0+ −
∂θ (θ − 4) θ
∂ ln L( x1 ,..., x20 ; θ ) 3 20
=0 ⇒ =
∂θ (θ − 4) θ
3θ = 20θ − 80
80 = 17θ
80
θˆ = = 4,706
17

Un experimento realizado en un laboratorio refleja que, al inyectar de-


Ejercicio 1.22
terminada sustancia a un tipo de células, el tiempo de vida de éstas (en
horas) se distribuye normalmente con varianza 100. Halle el número de células necesario
que deben incluirse en una muestra aleatoria simple para que se verifique que:

P( μ − 5 < X < μ + 5) = 0,803



siendo X la media de la muestra de los tiempos de vida de las células.

Sea X la variable aleatoria que representa el tiempo de vida de una de


Solución
estas células tras inyectarles dicha sustancia.
Como:

X ~ N ( μ, σ = 10)

© Ediciones Pirámide 61
Ejercicios de inferencia estadística y muestreo

entonces:

X ~ N 冢 μ, σ
冣 冢
≡ N μ,
10

n n

y, por tanto:

X−μ
Z= ~ N (0, 1)
10 / n

Así, tendremos que:

0,803 = P( μ − 5 < X < μ + 5) = P 冢 μ10− /5 −nμ < 10X /− μn < μ10+ /5 −nμ 冣 =
= P( − 0,5 n < Z < 0,5 n ) = P( Z < 0,5 n ) − P( Z  − 0,5 n ) =
= P( Z < 0,5 n ) − P( Z  0,5 n ) = P( Z < 0,5 n ) − 1 + P( Z < 0,5 n ) =
= 2 P( Z < 0,5 n ) − 1

Por tanto, como se trata de una variable continua:

P( Z < 0,5 n ) = P( Z  0,5 n ) = 0,9015

y, utilizando la tabla correspondiente a la función de distribución de una N(0, 1), tenemos:

P( Z  1,29) = 0,9015

Así, igualando las expresiones del percentil:

0,5 n = 1,29

Con lo cual:

冢 冣 = 6,6564 ⯝ 7
1,29 2
n=
0,5

62 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

Supongamos una variable aleatoria X con distribución normal de me-


Ejercicio 1.23
dia tres y varianza 100. Si se pretende tomar una muestra aleatoria
simple de tamaño 25, (X1, ..., X25), calcule:

P(0 < X < 6; 65,25 < S 2 < 151,75)


Por el teorema de Fisher, se sabe que X y S2 son variables aleatorias inde-
Solución
pendientes y, por tanto, la probabilidad conjunta pedida será el producto
de las probabilidades marginales:

P(0 < X < 6; 65,25 < S 2 < 151,75) = P(0 < X < 6) ⋅ P(65,25 < S 2 < 151,75)

Como X ~ N(3, 10), entonces:

X ~ N 冢3; 10

≡ N (3, 2)
25

y así:

X −3
Z= ~ N (0, 1)
2

Por tanto, tipificando en el primer factor del producto de probabilidades, quedaría:

P(0 < X < 6) = P 冢 0 2− 3 < Z < 6 2− 3冣 = P(− 1,5 < Z < 1,5) =
= P( Z < 1,5) − P( Z  − 1,5) =
= 0,9332 − 0,0668 = 0,8664

Para el segundo factor, se puede utilizar un resultado del teorema de Fisher, que
indica que:

(n − 1)S 2 24 S 2
= ~ χ n2 − 1 ≡ χ 242
σ2 100

© Ediciones Pirámide 63
Ejercicios de inferencia estadística y muestreo

y así:

P(65,25 < S 2 < 151,75) = P 冢 65,100


25 ⋅ 24
<χ 2
24 <
100 冣
151,75 ⋅ 24
= P(15,66 < χ 24
2
< 36, 42) =

= P( χ 24
2
< 36, 42) − P( χ 24
2
 15,66) =
= 0,95 − 0,1 = 0,85

Por tanto, la probabilidad pedida es:

P(0 < X < 6; 65,25 < S 2 < 151,75) = 0,8664 ⋅ 0,85 = 0,73644

Transcurrida la fecha de caducidad en ciertas conservas, puede aparecer


Ejercicio 1.24
una sustancia que, en determinados niveles, resultaría perjudicial para
la salud. La cantidad de dicha sustancia que aparece durante las dos semanas siguientes
a la fecha de caducidad puede considerarse normalmente distribuida con media cinco
miligramos y desviación típica cuatro miligramos en los productos de la marca A. En
las conservas de la marca B, esta cantidad se distribuye según una distribución N(6, 3).
Si estas marcas son independientes y se toman dos muestras aleatorias simples de tama-
ños 15 y 30, respectivamente, ¿cuál es la probabilidad de que la cantidad media de esta
sustancia en la muestra de conservas de la marca A supere a las de la marca B?

Sea X = «Cantidad de sustancia tóxica que aparece durante las dos sema-
Solución
nas siguientes a la fecha de caducidad en un producto de la marca A» y
sea Y una variable que recoge la misma información para un producto de la marca B:

X ~ N ( μ x = 5; σ x = 4)
Y ~ N ( μ y = 6; σ y = 3)

Como estas variables son independientes, si tomamos dos muestras aleatorias simples,
(X1, ..., X15) e (Y1, ..., Y30), la distribución de la diferencia de medias muestrales será:

σ x2 σ y2
X −Y ~ N 冢μ x − μ y ; + 冣
nx ny

64 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación

En este caso concreto:

X −Y ~ N 冢5 − 6; 16 9
+ 冣
≡ N ( − 1; 117
, )
15 30

y, por tanto, tipificando:

X − Y +1
Z= ~ N (0, 1)
117
,

Así, la probabilidad pedida será:

P( X > Y ) = P( X − Y > 0 ) = P Z > 冢 0 − ( − 1)


117
, 冣= P( Z > 0,85) = 1 − P( Z  0,85) =

= 1 − 0,8023 = 0,1977

En una ciudad existen dos discotecas de gran capacidad que son muy
Ejercicio 1.25
populares. Se sabe que, en la situada en el centro de la ciudad, el 70 %
de los clientes tienen, cuando marchan de la fiesta, un grado de alcohol en sangre mayor
que el permitido por ley para conducir un vehículo. En la que está situada a las afueras
de la ciudad, este porcentaje viene a ser del 60 %. Para tratar de informar y concienciar
a la población, durante un fin de semana, la policía pretende llevar a cabo un simulacro
de control de alcoholemia situándose en las salidas de los dos lugares. Si se decide ele-
gir aleatoriamente a 45 personas en la discoteca del centro y 38 en la otra, calcule la
probabilidad de que la proporción muestral de personas que superan el nivel de alcohol
permitido por ley descienda en más de un 5 % de la zona centro a las afueras.

Definimos la variable aleatoria X como:


Solución

⎧1 si un cliente de la discoteca del centro presenta



X = ⎨ mayor grado de alcohol en sangre del permitido
⎪⎩0 en otro caso

© Ediciones Pirámide 65
Ejercicios de inferencia estadística y muestreo

Análogamente, se define la variable Y para los clientes de la otra discoteca. Por tanto:

X ~ B(1; px = 0,70)
Y ~ B(1; py = 0,60)

y suponemos independencia entre estas variables.


Denotando las proporciones muestrales correspondientes como p̂x y p̂y, debemos cal-
cular:

P( pˆ x > pˆ y + 0,05) = P( pˆ x − pˆ y > 0,05)

Puesto que la distribución de la diferencia de proporciones muestrales es:

pˆ x − pˆ y ~ N 冢 px − py ; px q x py q y
+ 冣
nx ny

si hacemos px = 0,70, qx = 0,30, nx = 45, py = 0,60, qy = 0,40 y ny = 38, se tendrá:

pˆ x − pˆ y ~ N (0,1; 0,105)

pˆ x − pˆ y − 0,1
Z= ~ N (0, 1)
0,105

Así pues, tipificando en la probabilidad anterior:


P( pˆ x − pˆ y > 0,05) = P Z >
0,05 − 0, 1
0,105 冣
= P( Z > − 0,48) = 1 − P( Z  − 0,48) =

= 1 − 0,6844 = 0,3156

66 © Ediciones Pirámide
2
Contraste de hipótesis paramétrico

Contraste de hipótesis
paramétrico

Con anterioridad al lanzamiento de un producto, una empresa realiza


Ejercicio 2.1
un estudio de mercado para recoger información sobre el precio que los
compradores estarían dispuestos a pagar. Se supone que este precio sigue una distribu-
ción normal con desviación típica 10 euros. Los técnicos del departamento de marketing
emiten un informe en el que se afirma que el precio medio que el público consideraría
como adecuado sería de 30 euros, y para contrastar esta hipótesis frente a la de que el
precio adecuado sería de 40 euros, se dedice seleccionar al azar una muestra de 25 per-
sonas y adoptar la siguiente regla de decisión: si la media muestral es inferior o igual
a 35, se considerará que lo adecuado es fijar un precio de 30 euros. Obtenga:
a) La probabilidad de cometer error de tipo I.
b) La probabilidad de cometer error de tipo II.
c) La representación gráfica de ambos tipos de errores.
d) La potencia del contraste y su representación gráfica.
e) La región de rechazo, la de aceptación y la probabilidad de error de tipo II para
un nivel de significación del 1 %.

Llamemos X a la variable aleatoria «Precio que una persona consideraría


Solución
adecuado para el producto en cuestión». Se supone que la distribución
seguida por esta variable es:

X ~ N(m, 10)

Las hipótesis que desea contrastar el departamento de marketing son las siguientes:

H0 : μ = 30
H1: μ = 40

© Ediciones Pirámide 67
Ejercicios de inferencia estadística y muestreo

Para ello, se decide seleccionar una muestra aleatoria de 25 personas, en la que se



calculará el valor de X, y se adoptará la correspondiente decisión según la regla fijada,
es decir:

Si X  35, acepta que μ = 30


Si X > 35, acepta que μ = 40

a) Para obtener la probabilidad de cometer error de tipo I, se debe conocer la



distribución del estadístico X. Sabemos que en poblaciones normales, X ~ N(m; 10), se
tiene que:

X ~ N 冢 μ, σ
冣 冢
≡ N μ,
10

≡ N ( μ, 2)
n 25

Con esta información, y aplicando el concepto de error de tipo I, se obtiene:

α ( μ ) = P[error de tipo I] = P[ rechazar H0 / H0 cierta ] = P[ X > 35 /μ = 30] =

⎡ ⎤
= P[ X > 35 / X ~ N (30, 2)] = P ⎢ X − 30 > 35 − 30 X ~ N (30, 2)⎥ =
⎣ 2 2 ⎦
= P[ Z > 2,5] = 1 − P[ Z  2,5] = 1 − 0,9938 = 0,0062


pues si X ~ N(30, 2), entonces:

X − 30
Z= ~ N (0, 1)
2

b) De forma análoga, obtenemos la probabilidad de cometer error de tipo II:

β ( μ ) = P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 / H1 cierta ] =


= P[ X  35 /μ = 40] = P[ X  35 / X ~ N (40, 2)] =
⎡ X − 40 35 − 40 ⎤
= P⎢  X ~ N (40, 2)⎥ = P[ Z  − 2,5] = P[ Z  2,5] =
⎣ 2 2 ⎦
= 1 − P[ Z < 2,5] = 1 − 0,9938 = 0,0062

68 © Ediciones Pirámide
Contraste de hipótesis paramétrico

c) Representamos gráficamente las probabilidades de estos errores:

N(30, 2) N(40, 2)

= 0,0062 = 0,0062

= 30 35 = 40
Se acepta H0 Se rechaza H0

d) La función de potencia se define como la probabilidad de rechazar la hipótesis


nula con los diferentes puntos del espacio paramétrico, en este caso W = {30, 40}; así:

⎧ P[ X > 35 /μ = 30]
Pc ( μ ) = P[ rechazar H0 /μ ] = P[ X > 35 /μ ] = ⎨
⎩ P[ X > 35 /μ = 40]

Por tanto:

⎧α si μ = 30 ⎧0,0062 si μ = 30
Pc ( μ ) = ⎨ =⎨
⎩1 − β si μ = 40 ⎩0,9938 si μ = 40

Su representación gráfica será:

Pc( )

1
0,9938

1–

0,0062
α
μ
30 40

e) Para encontrar la región de rechazo y la de aceptación del contraste anterior:

H0 : μ = 30
H1: μ = 40

© Ediciones Pirámide 69
Ejercicios de inferencia estadística y muestreo

con un nivel de significación a = 0,01, debemos encontrar un valor, x–c, tal que:

Si X  xc , aceptamos μ = 30 (aceptamos H0 )
Si X > xc , aceptamos μ = 40 (rechazamos H0 )

y, además, se verifica que, como H0 y H1 son simples:

0,01 = α = máx α ( μ ) = α (30) = P[ rechazar H0 /μ = 30] = P[ X > xc /μ = 30]


μ ∈Ω 0 = {30}


Si m = 30, entonces la distribución de X será:

X ~ N (30, 2)
y, por tanto:

X − 30
Z= ~ N (0, 1)
2

Entonces:

⎡ X − 30 xc − 30 ⎤ ⎡ x − 30 ⎤
0,01 = P[ X > xc /μ = 30] = P ⎢ > μ = 30 ⎥ = P ⎢ Z > c =
⎣ 2 2 ⎦ ⎣ 2 ⎥⎦

⎡ x − 30 ⎤
P⎢Z  c = 0,99
⎣ 2 ⎥⎦

y, buscando en la tabla 7, obtenemos:

xc − 30
= 2,33
2
xc = 30 + 2 ⋅ 2,33 = 34,66

Con lo cual, la región de rechazo y la de aceptación son, respectivamente:

C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X > 34,66}


C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X  34,66}

70 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Para calcular la probabilidad del error del tipo II utilizamos su definición:

P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 /μ = 40] = β ( 40) =

⎡ X − 40 34,66 − 40 ⎤
= P[ X  34,66 /μ = 40] = P ⎢  μ = 40 ⎥ =
⎣ 2 2 ⎦
= P[ Z  − 2,67] = 0,0038

pues si m = 40, entonces:

X − 40
Z= ~ N (0, 1)
2

La representación gráfica conjunta de los dos tipos de errores sería ahora:

N(30, 2) N(40, 2)

= 0,0038 = 0,01

x–
= 30 34,66 = 40
Aceptamos H0 Rechazamos H0

Dos revistas especializadas en temas de derecho laboral publican cada


Ejercicio 2.2
una un estudio sobre el porcentaje de juicios ganados de los despachos
de abogados laboralistas más importantes del país. En uno de los estudios se recoge que
la firma de abogados Lader gana el 40 % de los juicios, mientras que en la otra revista
aparece un porcentaje del 50 %. Un sindicato se plantea contratar los servicios de esta
firma de abogados y, para tomar la decisión, desea conocer qué porcentaje es correc-
to. Con este fin se selecciona una muestra aleatoria de los juicios defendidos por este
despacho y se obtiene el porcentaje de juicios ganados. Si este porcentaje es inferior al
100k %, el sindicato aceptará que el verdadero porcentaje es del 40 %; en caso contrario,
aceptará que es del 50 %. Obtenga el valor de la constante k y el número de juicios, de
entre todos los defendidos por Lader, que será necesario seleccionar para que los tama-
ños de los errores de tipo I y tipo II sean del 5 % y del 15 %, respectivamente.

© Ediciones Pirámide 71
Ejercicios de inferencia estadística y muestreo

Sea una variable aleatoria que toma el valor 1 cuando un juicio defendido
Solución
por Lader ha sido ganado, y el valor 0 en caso contrario. Por tanto, se trata
de una variable con distribución B(1, p). Las hipótesis que se desea contrastar son:
H0 : p = 0, 40
H1: p = 0,50
Para decidir entre ellas, se elige una muestra aleatoria simple X1, ..., Xn de esta po-
blación y se toma la siguiente regla de decisión:

1 n
Si pˆ = ∑ Xi < k ⇒ se acepta H0 : p = 0,40
n i =1
1 n
Si pˆ = ∑ Xi  k ⇒ se rechaza H0 y se acepta H1: p = 0,50
n i =1

El tamaño muestral necesario, n, dependerá del tamaño de los errores de tipo I y


tipo II que se esté dispuesto a tolerar. Así, utilizando la información del enunciado:
0,05 = α = máx α ( p) = máx P( rechazar H0 / H0 cierta) = máx P( pˆ  k / H0 cierta)
p ∈Ω 0 p ∈Ω 0 p ∈Ω 0

0,15 = β = máx β ( p) = máx P(aceptar H0 / H0 falsa) = máx P( pˆ < k / H0 falsa)


p ∈Ω1 p ∈Ω1 p ∈Ω1

teniendo en cuenta que tanto H0 como H1 son simples (W 0 = {0,40}; W1 = {0,50}) y que
la distribución de la proporción muestral se puede aproximar por la distribución:


N p,
pq
n 冣
se tiene que:

冢 冢
0,05 = α = P( pˆ  k / p = 0, 40) = P pˆ  k / pˆ ~ N 0, 40;
0,24
n 冣冣 =
=P Z冢 k − 0, 40
0,24 / n 冣
= P( Z  zα )

冢 冢
0,15 = β = P( pˆ < k / p = 0,50) = P pˆ < k / pˆ ~ N 0,50;
0,25
n 冣冣 =
=P Z<冢 k − 0,50
0,25 / n 冣
= P( Z < − zβ )

donde Z se distribuye según una N(0, 1).

72 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Utilizando las tablas de una N(0, 1) para buscar los valores za y – zb, tales que:

P( Z  zα ) = α = 0,05
P( Z < − zβ ) = β = 0,15

se obtienen:

zα = 1,645
− zβ = − 1,03

por lo que, considerando las expresiones anteriores, podemos decir que:

k − 0,40 0,24
= 1,645 ⇒ k = 0,40 + 1,645
0,24 n
n

k − 0,50 0,25
= − 1,03 ⇒ k = 0,50 − 1,03
0,25 n
n

y, resolviendo el sistema de ecuaciones anterior, tenemos:

冤 1,645 0,24 + 1,03 0,25


冥 = 174,47 ≈ 175
2
n=
0,50 − 0, 40

0,25
k = 0,50 − 1,03 = 0, 46
175

Un informe procedente de la torre de control de un determinado aero-


Ejercicio 2.3
puerto afirma que se realizan una media de 55 aterrizajes por hora.
Para comprobar esta afirmación, el responsable del aeropuerto decide seleccionar una
muestra aleatoria simple de 150 horas y contabilizar el número de aviones que aterrizan
en cada una de ellas.

© Ediciones Pirámide 73
Ejercicios de inferencia estadística y muestreo

a) Sobre la base de la información que proporcione esta muestra, obtenga la región


crítica y la regla de decisión realizando un contraste de razón de verosimilitud
con un nivel de significación a.
b) Si en la muestra se han contabilizado un total de 6.000 aterrizajes en las 150
horas, ¿existen motivos, al 10 % de significación, para considerar incorrecta la
afirmación del informe de la torre de control?

Sea X = «Número de aterrizajes por hora en dicho aeropuerto». Como X


Solución
representa el número de sucesos ocurridos en un determinado período,
seguirá una distribución de Poisson:

X ~ ᏼ(λ )
donde se tiene que E[X] = l.
a) El informe de la torre de control afirma que E[X] = l = 55. Con los resultados
de una muestra aleatoria simple X1, ..., X150 se pretende contrastar esta afirmación, por lo
que el contraste que se debe realizar será:

H0 : λ = 55 = λ0
H1: λ ≠ 55

La región crítica proporcionada por un test de razón de verosimilitud se define de


la forma:

r
C = {( X1 ,..., Xn ) ∈ ⺢ n / se rechaza H0} = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c}

siendo:

r
r máx L( x ; λ )
r L*( x ; λ ) λ ∈Ω 0
λ( x) = 0 r = r
L*( x ; λ ) máx L( x ; λ )
λ ∈Ω

r
con L( x ; λ ) la función de verosimilitud y c un valor constante, tal que:

r
α = P( rechazar H0 / H0 cierta ) = P(λ ( x ) < c /λ ∈ Ω 0 )

74 © Ediciones Pirámide
Contraste de hipótesis paramétrico

La función de verosimilitud para una distribución ᏼ(l) es:


n
∑ xi
λ e − nλ
r λ −λ
冤 冥
n n xi i =1

L( x ; λ ) = ∏ P( X = xi ; λ ) = ∏ e = n
i = 1 xi !
i =1
∏ ( xi !)
i =1

Como, según H0 y H1, tendremos:

Ω = {λ ∈ ⺢ / λ > 0}
Ω 0 = {λ0 = 55}
Ω1 = {λ ∈ ⺢ + / λ ≠ 55} = ⺢ + − {55}
entonces:
n
∑ xi
r r r λ0 i =1

0 x ; λ ) = máx L( x ; λ ) = L( x ; λ 0 ) = n
L*( e − nλ 0
λ ∈Ω 0
∏ ( xi !)
i =1

y
r r r
L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ )
λ ∈Ω

donde l̂ es el estimador de máxima verosimilitud del parámetro l:

r
冢∑ xi 冣 ln λ − nλ − ln 冤∏ ( xi!)冥
n n
ln L( x ; λ ) =
i =1 i =1
n
r
∂ ln L( x ; λ )
∑ xi
i =1
= −n−0
∂λ λ
n
∑ xi 1 n
i =1
λ
−n= 0 ⇒ λ = ∑ xi = x
n i =1
r
∂ 2 ln L( x ; λ )
冷 冢 ∑ xi 冣 − 0 < 0
n
1
=−
∂λ2 λ=x λ2 i =1

pues xi  0, ∀ i = 1, ..., n, ya que X ~ ᏼ(l).

© Ediciones Pirámide 75
Ejercicios de inferencia estadística y muestreo

Por tanto, en una distribución de Poisson, el estimador de máxima verosimilitud de


l es:

λ̂ = X

y así:
n
∑ Xi
r r r X i =1

L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ ) = n e − nX
λ ∈Ω
∏ ( Xi !)
i =1

r
Sustituyendo L*0 y L* en la expresión del estadístico l(x), tenemos:

n
∑ xi n
e − nλ0 ∏ ( Xi !)
n
r λ0 i =1
∑ Xi
r L*( x ; λ )
冢 λX 冣
i =1
i =1
λ(x) = 0 r = = 0
e n( X − λ0 )
L*( x ; λ )
n
∑ Xi n
X i = 1 e − nX ∏ ( Xi !)
i =1

Con lo cual, la región crítica de este contraste será:

n
∑ Xi
r
冦 冢 λX 冣 冧
i =1
C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = ( X1 ,..., Xn ) ∈ ⺢ n 0
e n( X − λ0 ) < c

con k la constante, tal que:


r
α = P( rechazar H0 / H0 cierta) = P(λ ( x ) < c /λ = λ0 )

Teniendo en cuenta que, al ser n = 150, podemos utilizar la aproximación siguiente:


r
− 2 ln λ ( x ) ~ χ k2 ≡ χ12
H0
n→∞

en la que k es el número de parámetros desconocidos (el parámetro l) menos el nú-


mero de parámetros desconocidos bajo H0 (0) y, por tanto, en el caso que nos ocupa,
k = 1 – 0 = 1.

76 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Utilizando la aproximación anterior:


r r
α = P(λ ( x ) < c /λ = λ0 ) = P( − 2 ln λ ( x ) > − 2 ln c /λ = λ0 ) ≈
≈ P( χ12 > − 2 ln c /λ = λ0 )

Gráficamente:

χ21

1–

– 2 ln c

de donde:

− 2 ln c = χ12;1 − α

con c21; 1 – a el cuantil de orden 1 – a en una c2 con 1 grado de libertad, que podría ob-
tenerse de la tabla 9, cuando a sea una cantidad concreta.
Despejando c en la igualdad anterior:

1
− χ12− α
c= e 2

y, por tanto, la región crítica quedará como:


r r
C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > − 2 ln c} =
r
= {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > χ12;1 − α } =
n
∑ Xi

冦 冤冢 λX 冣 冥 冧
i =1
= ( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln 0
e n( X − λ0 ) > χ12;1 − α

© Ediciones Pirámide 77
Ejercicios de inferencia estadística y muestreo

Sustituyendo l0 por 55 y n por 150, tendremos:

150
∑ Xi

冦 冤冢 冣
55
冥 冧
i =1
C = ( X1 ,..., X150 ) ∈ ⺢ 150
/ − 2 ln e150 ( X − 55) > χ12;1 − α
X

y la regla de decisión será, por tanto:

150
∑ Xi
r
冤冢 冣
55

i =1
«Si − 2 ln λ ( x ) = − 2 ln e150 ( X − 55) > χ12;1 − α , entonces se rechaza H0 »
X

b) La información muestral de las 150 horas:

150
∑ xi = 6.000 aterrizajes
i =1

con lo cual:

1 150 6.000
x= ∑
150 i = 1
xi =
150
= 40

Así pues:

r
冤冢 4055 冣 冥
6.000
− 2 ln λ ( x ) = − 2 ln e150 ( 40 − 55) =


= − 2 6.000 ln 冢 4055 冣 + 150(40 − 55)冥 = 678,5552
que será el valor experimental.
La región crítica, para a = 0,10, se obtendrá utilizando la tabla 9, y se representará
como:

78 © Ediciones Pirámide
Contraste de hipótesis paramétrico

χ21

0,90 = 0,10

– 2 ln c = χ21; 0,90 = 2,70

Por tanto, al ser:


r
− 2 ln λ ( x ) = 678,5552 > 2,70 = χ12; 0,90

entonces se rechaza H0, es decir, al 10 % de significación los datos muestrales presentan


evidencia suficiente para rechazar H0, por lo que hay motivos para considerar incorrecta
la afirmación del informe de la torre de control.

Se ha estudiado el beneficio anual (pérdida en el caso de valores negativos)


Ejercicio 2.4
de las empresas de una determinada localidad, y se ha caracterizado
por una distribución normal con dos millones de euros de desviación típica.
a) Se elige una muestra aleatoria de 25 empresas, y la media muestral observada es
de 0,5 millones. Determine el intervalo de confianza del 90 % y del 95 % para
el beneficio medio anual de las empresas de la localidad.
b) A la vista de los resultados anteriores, ¿sería adecuado pensar que las empresas
de esta localidad tienen pérdidas anualmente?
c) Si se desea obtener un intervalo de confianza al 90 % para el beneficio medio
con una amplitud de dos millones de euros, ¿qué tamaño deberá tener la mues-
tra seleccionada?

Sea X = «Beneficio anual, en millones de euros, de las empresas de esta lo-


Solución
calidad». Esta variable aleatoria se distribuye según una normal con des-
viación típica dos millones de euros, es decir:

X ~ N ( μ; 2)
© Ediciones Pirámide 79
Ejercicios de inferencia estadística y muestreo

a) Se eligió una muestra aleatoria de tamaño 25, x1, ..., x25, y la media muestral fue
x– = 0,5. Para construir el intervalo de confianza de esta situación, sustituimos la infor-
mación muestral en:


Iμ = X − zα / 2
σ
n
; X + zα / 2
σ
n 冥
Para niveles de confianza del 90 % y 95 %, los valores za/2 correspondientes serán
tales que:

Al 90 % de confianza

1 − α = 0,90 ⇒ α / 2 = 0,05 ⇒ P( Z  z0,05 ) = 0,95 ⇒ z0,05 = 1,645

Al 95 % de confianza

1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z  z0,025 ) = 0,975 ⇒ z0,025 = 1,96

Por tanto, el intervalo de confianza del 90 % es:


Iμ = 0,5 − 1,645
2
25
; 0,5 + 1,645
2
25 冥
= [ − 0,158; 1158
, ]

y el intervalo de confianza del 95 % será:


Iμ = 0,5 − 1,96
2
25
; 0,5 + 1,96
2
25 冥
= [ − 0,284; 1,284]

Se observa que el intervalo de confianza tiene mayor amplitud cuanto mayor es el


nivel de confianza exigido.
b) No se podría descartar esta posibilidad, ya que ambos intervalos de confianza
contienen valores menores o iguales a cero. Otra posibilidad para responder a esta pre-
gunta sería contrastar si la media de la variable X es o no mayor que cero utilizando
niveles de significación del 10 % y del 5 %; por tanto, planteamos las hipótesis del con-
traste como:

H0 : μ  0 = μ 0
H1: μ > 0

80 © Ediciones Pirámide
Contraste de hipótesis paramétrico

El estadístico de prueba a utilizar será:

X − μ0
Z= ~ N (0, 1)
σ/ n H0

cuyo valor experimental se obtiene a partir de la información muestral:

x −0 0,5 − 0
zexp = = = 1,25
σ / n 2 / 25

La región crítica o de rechazo de la hipótesis nula se representa gráficamente


como:

N(0,1)

1–

Para un nivel de significación del 5 %, el valor crítico será tal que:

P( Z  zα ) = 1 − α = 1 − 0,05 = 0,95 ⇒ zα = 1,645

Por tanto, la región crítica quedará como:

N(0,1)

1– = 0,95 = 0,05

z = 1,645

© Ediciones Pirámide 81
Ejercicios de inferencia estadística y muestreo

Para un nivel de significación del 10 %, el valor crítico verificará:

P( Z  zα ) = 1 − α = 1 − 0,1 = 0,90 ⇒ zα = 1,28

y la región crítica será, por tanto:

N(0,1)

1– = 0,9 = 0,1

z = 1,28

Como en ambos casos:

zexp = 1,25 < 1,645 = zα


zexp = 1,25 < 1,28 = zα

entonces no se rechaza la hipótesis nula ni con un 5 % de significación ni con un 10 %


de significación. Por tanto, no se puede descartar que las empresas de esta localidad
tienen pérdidas anualmente.
c) El intervalo de confianza:


Iμ = X − zα / 2
σ
n
; X + zα / 2
σ
n 冥
tiene por amplitud:

L = X + zα / 2
σ
n 冢
− X − zα / 2
σ
n
= 2 ⋅ zα / 2冣σ
n

Por tanto, el tamaño muestral necesario para conseguir una amplitud determinada,
L, con un nivel de confianza (1 – a) %, será:

4 ⋅ zα2 / 2 ⋅ σ 2
n=
L2

82 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Si se quiere que la amplitud sea de dos millones de euros con una confianza del
90 %, entonces:

L=2
z0,05 = 1, 645

y, por tanto, el tamaño muestral necesario será:

4 ⋅ 1,6452 ⋅ 2 2
n= = 10,8241 ≈ 11 empresas
22

El importe de la factura eléctrica mensual de un determinado tipo de


Ejercicio 2.5
empresas se distribuye normalmente con desviación típica de 21.200
euros. El Ministerio de Energía sostiene que el gasto medio mensual en electricidad de
estas empresas no es inferior a 100.000 euros y que sería conveniente elaborar un plan
de ahorro energético para las mismas. Seleccionada una muestra aleatoria de 100 em-
presas de este tipo, se obtiene un gasto medio mensual en electricidad de 125.600 euros.
a) ¿Es admisible, con un 2 % de significación, la hipótesis del Ministerio de Ener-
gía?
b) ¿Cuántas empresas sería necesario seleccionar para que el test anterior detectara
un gasto medio mensual en electricidad de 75.000 euros con una probabilidad
de 0,995?

Se define X = «Gasto mensual de una empresa en electricidad». Esta varia-


Solución
ble se distribuye según una normal con desviación típica conocida e igual
a 21.200 euros:

X ~ N ( μ, 21.200)
a) El Ministerio de Energía sostiene que m no es inferior a 100.000 euros, es decir,
que m  100.000. Para contrastar esta afirmación, planteamos las hipótesis del contraste
como:

H0 : μ  100.000
H1: μ < 100.000

© Ediciones Pirámide 83
Ejercicios de inferencia estadística y muestreo

utilizando como estadístico de prueba:

X − μ0
Z= ~ N (0, 1)
σ/ n H0

La región crítica unilateral queda representada de la siguiente forma:

N(0,1)

= 0,02 0,98

– z = – 2,05

donde – za verifica que:

P( Z < − zα ) = α = 0,02

Por tanto, utilizando la simetría de una N(0, 1), tenemos que:

P( Z > zα ) = α = 0,02 ⇒ P( Z  zα ) = 1 − α = 0,98

con lo cual, de la tabla 7:

zα = 2,05
− zα = − 2,05

Calculamos el valor experimental del estadístico:

x − μ 0 125.600 − 100.000
zexp = = = 12,0755
σ/ n 21.200 / 100

Entonces no se rechaza la hipótesis nula con una significación del 2 %, pues


zexp > – za y, por tanto, podemos admitir la hipótesis del Ministerio de Energía.

84 © Ediciones Pirámide
Contraste de hipótesis paramétrico

b) Debemos calcular el tamaño muestral n para que:

P(aceptar H1 / μ1 = 75.000) = 0,995

es decir:

0,995 = P( rechazar H0 / μ1 = 75.000) = P 冢 Xσ /− μn 0


< − 2,05 μ1 = 75.000 冣
Como X ~ N(m, 21.200), entonces la media muestral seguirá una distribución, tam-
bién normal, con parámetros:

X ~ N 冢 μ, 21.200 冣
n

En particular, si m = m1 = 75.000, entonces:

X ~ N 冢75.000; 21.200 冣
n

y tipificando:

X − 75.000
Z= ~ N (0, 1)
21.200 / n

Por tanto:


0,995 = P X < μ 0 − 2,05 ⋅
σ
n
μ1 = 75.000 = 冣

= P X < 100.000 − 2,05 ⋅
21.200
n
X ~ N 冢75.000; 21.200 冣冣 =
n

冢 冣
21.200
100.000 − 2,05 ⋅ − 75.000
n
=P Z<
21.200
n

© Ediciones Pirámide 85
Ejercicios de inferencia estadística y muestreo

Buscando en la tabla de la distribución normal:

P( Z  z ) = 0,995 ⇒ z = 2,575

Así pues:

21.200
25.000 − 2,05 ⋅
n
= 2,575
21.200
n
21.200
25.000 = (2,05 + 2,575)
n

冤 (2,05 +252,.575 冥 = 15,3821 ≈ 16


)21.200 2
n=
000

Al mismo resultado se hubiera llegado aplicando directamente la fórmula:

( zα + zβ )σ
冤 冥
2
n=
μ1 − μ 0

siendo za y zb, tales que:

P( Z > zα ) = α = 0,02 ⇒ zα = 2,05


P( Z > zβ ) = β = 1 − 0,995 = 0,005 ⇒ zβ = 2,575

Cuando las ventas medias, por establecimiento autorizado, de una marca


Ejercicio 2.6
de relojes caen por debajo de los 170.000 euros anuales, se considera
razón suficiente para lanzar una campaña publicitaria que active las ventas de esta mar-
ca. Para conocer la evolución de las ventas, el departamento de marketing realiza una
encuesta a 51 establecimientos autorizados, seleccionados aleatoriamente, que facilitan
la cifra de ventas del último año en relojes de esta marca. A partir de estas cifras se
obtienen los siguientes cálculos:

51 51
∑ xi = 8.640 miles de euros ; ∑ xi2 = 1.517.600 (miles de euros)2
i =1 i =1

86 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Suponiendo que las ventas anuales por establecimiento se distribuyen normalmente:


a) Con un nivel de significación del 5 % y en vista de la situación reflejada en los
datos, ¿se considerará oportuno lanzar una nueva campaña publicitaria?
b) ¿Podría afirmarse que la desviación típica de las ventas por establecimiento del
último año es igual a 20.000 euros?

Definimos la variable aleatoria X como aquella que representa las ventas


Solución
anuales, en miles de euros, de un establecimiento en relojes de la marca
considerada. Esa variable se supone normalmente distribuida con media y varianza des-
conocidas:

X ~ N ( μ, σ )

La campaña publicitaria se lanzará si m < 170, luego las hipótesis a contrastar son:

H0 : μ  170 = μ 0
H1: μ < 170

Utilizaremos el siguiente estadístico de prueba:

X − μ0
t= ~ t
H0 n − 1
≡ t51 − 1 ≡ t50
S/ n

a) Para un nivel de significación del 5 %, a = 0,05, la región crítica del contraste


vendrá determinada por aquellas muestras tales que texp < – t a , siendo – t a el cuantil
que en una t de Student con 50 grados de libertad deja una probabilidad a = 0,05 a su
izquierda y que puede buscarse en la tabla 10.

t50

= 0,05 1– = 0,95

– t = – 1,676

© Ediciones Pirámide 87
Ejercicios de inferencia estadística y muestreo

El valor experimental se calcula como:

x − μ 0 169, 4118 − 170


texp = = = − 0,1280
s/ n 32,8275 / 51

pues:

1 n 8.640
x= ∑
n i =1
xi =
51
= 169, 4118 miles de euros

冤∑ xi2 − n 冢∑ xi 冣 冥 =
n n 2
1 1
s2 =
n −1 i =1 i =1

=
1
51 − 1 冤 1

1.517.600 − (8.640)2 = 1.077,6471 (miles de euros)2
51

s= s 2 = 32,8275 miles de euros

Vemos que el valor experimental del estadístico es mayor que el valor crítico
(texp = – 0,128 > – t a = – 1,676), por tanto, no se rechaza la hipótesis nula (m  170),
con lo cual no se considerará oportuno o necesario lanzar una nueva campaña publi-
citaria.
b) Para contrastar si la desviación típica de las ventas por establecimiento en el
último año es de 20.000 euros (s = 20), planteamos las hipótesis:

H0 : σ 2 = 20 2 = 400 = σ 02
H1: σ 2 ≠ 400

Para resolver este contraste utilizaremos como estadístico de prueba:

(n − 1)S 2
χ2 = ~ χ n2 − 1 ≡ χ 512 − 1 ≡ χ 502
σ 02 H0

88 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Los valores críticos y la región crítica para a = 0,05 aparecen en el siguiente gráfico:

χ250

0,95

/2 = 0,025
0,025

χ2n – 1; /2 = 32,357 χ2n–1; 1– /2 = 71,42

P( χ 50
2
 χ n2 − 1; α / 2 ) = 0,025 ⇒ χ n2 − 1; α / 2 = 32,357
P( χ 50
2
 χ n2 − 1;1 − α / 2 ) = 0,975 ⇒ χ n2 − 1;1 − α / 2 = 71, 42

Obtenemos el valor experimental sustituyendo en la expresión del estadístico del


contraste:

(n − 1)s 2 (51 − 1) ⋅ 1.077,6471


χ exp
2
= = = 134,7059
σ 02 400

Según este valor calculado, la muestra es de las que se sitúa en la región crítica del
contraste; entonces rechazamos la hipótesis nula (s2 = 400) y, por tanto, no admitimos
una desviación típica igual a 20.000 euros.

El director de una compañía aseguradora afirma que el importe medio


Ejercicio 2.7
de las reparaciones de automóviles pagadas por la compañía a talleres
colaboradores es superior a los 4.000 euros. Seleccionadas al azar 20 facturas de dife-
rentes reparaciones, se observa que la suma de importes es 84.500 euros y su varianza
muestral 1.502,5625. Por otra parte, también afirma el director que los importes de las
facturas son muy similares y que su desviación típica es inferior a 100 euros, por lo que
sospecha que los talleres no facturan adecuadamente en cada reparación, guiándose por

© Ediciones Pirámide 89
Ejercicios de inferencia estadística y muestreo

un importe medio orientativo sujeto a pocos cambios. Compruebe si cada una de las
afirmaciones es cierta a un nivel de significación del 1 %, suponiendo que los importes
de las facturas siguen una distribución normal.

Sea X = «Importe de una factura correspondiente a una reparación efec-


Solución
tuada por un taller colaborador». La distribución de esta variable aleatoria
puede suponerse normal:

X ~ N ( μ, σ )

Contrastaremos, en primer lugar, la afirmación de que el importe medio es superior


a 4.000 euros. Por tanto, planteamos las hipótesis:

H0 : μ  4.000 = μ 0
H1: μ > 4.000

El estadístico de prueba en este caso, como s es desconocida, será:

X − μ0
t= ~ t
H0 n − 1
≡ t20 − 1 ≡ t19
S/ n

cuyo valor experimental es:

x − μ 0 4.225 − 4.000
texp = = = 25,9586
s/ n 38,7629 / 20

pues:

1 n 1
x= ∑
n i =1
xi =
20
8.450 = 4.225 euros

s 2 = 15.025,625 (euros)2

s= s 2 = 38,7629 euros

90 © Ediciones Pirámide
Contraste de hipótesis paramétrico

La región crítica delimitada por el valor crítico (texp > t a) es la siguiente:

t19

1– = 0,99 = 0,01

t = 2,539

donde t a se busca en la tabla 10 para una t de Student con 19 grados de libertad:

P[t19  tα ] = 1 − α = 0,99 ⇒ tα = 2,539

Como texp = 25,9586 > 2,539 = t a, rechazamos H0 al 1 % de significación, luego ad-


mitimos la hipótesis del director referente a que el importe medio de las facturas de
reparaciones realizadas en talleres colaboradores era superior a 4.000 euros.
A continuación, comprobaremos si la desviación típica es inferior a 100 euros con-
trastando las siguientes hipótesis:

H0 : σ 2  (100)2 = 10.000 = σ 02
H1: σ 2 < (100)2 = 10.000

El estadístico de prueba será ahora:

(n − 1)S 2
χ2 = ~ χ n2 − 1 ≡ χ 202 − 1 ≡ χ192
σ 02 H0

y su valor experimental a partir de la información muestral:

(n − 1)s 2 (20 − 1) ⋅ 1.502,5625


χ exp
2
= = = 2,8549
σ 02 (100)2

© Ediciones Pirámide 91
Ejercicios de inferencia estadística y muestreo

El valor crítico que determina la región crítica se obtiene utilizando la tabla 9, te-
niendo en cuenta que:

P( χ19
2
 χ n2 − 1; α ) = α = 0,01

por lo que:

χ19
2
; 0 , 01 = 7,633

Gráficamente:

χ219

0,99

= 0,01

χ219; 0,01 = 7,633

Se rechaza la hipótesis nula si:

χ exp
2
 χ19
2
; 0 , 01 = 7,633

Como en este caso:

χ exp
2
= 2,8549 < 7,633 = χ19
2
; 0 , 01

entonces se rechaza H0 con esta información muestral y un nivel de significación del


1 %. Por tanto, no descartamos la afirmación del director sobre la dispersión de los im-
portes de las reparaciones.

92 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Una cadena de producción de un componente electrónico debe revisarse


Ejercicio 2.8
cuando el porcentaje de productos defectuosos supera el 3 %. Según el
mecanismo establecido para el control de calidad, se extrae a lo largo del día, y de forma
aleatoria, una muestra de 300 unidades de las que se detectan 17 defectuosas. Utilizando
una significación del 1 %, ¿debería revisarse el sistema de producción?

Definimos la variable aleatoria X como aquella que toma el valor 1 cuando


Solución
una unidad es defectuosa y 0 cuando no lo es. Esta variable se distribuye
según una B(1, p) con:

p = P(X = 1) = Proporción de productos defectuosos

La cadena de producción deberá revisarse si el porcentaje de productos defectuosos


(100p) supera el 3 %; así, tendremos que contrastar las hipótesis:

H0 : p  0,03 = p0
H1: p > 0,03

Para realizar este contraste utilizaremos como estadístico de prueba:

pˆ − p0 ~
Z= N (0, 1)
p0 (1 − p0 ) H0
n→∞
n

pues el tamaño muestral, n = 300, puede considerarse suficientemente grande para que
la aproximación a la distribución asintótica sea aceptable.
Como el nivel de significación es del 1 %, obtendremos, en la tabla 7, el siguiente
valor crítico y la correspondiente región crítica:

P( Z > zα ) = α = 0,01 ⇒ zα = 2,33

N(0,1)

1– = 0,99 = 0,01

z = 2,33

rechazando H0 si zexp > za.

© Ediciones Pirámide 93
Ejercicios de inferencia estadística y muestreo

Calculamos el valor experimental del estadístico sustituyendo los resultados muestrales


en la expresión anterior:

1 n 17
pˆ = ∑
n i =1
xi =
300
17
− 0,03
300
zexp = = 2,7076
0,03 ⋅ (1 − 0,03)
300

Por tanto, al ser zexp = 2,7076 > 2,33 = za, se rechaza la hipótesis nula (p  0,03) y,
según los resultados de la muestra y con un nivel de significación del 1 %, debería revi-
sarse el sistema de producción.

Los niveles de audiencia por capítulo de dos series de televisión se dis-


Ejercicio 2.9
tribuyen normalmente con desviaciones típicas 100.000 y 210.000 es-
pectadores, respectivamente. Un estudio de medios afirma que ambas series tienen igual
nivel de audiencia. Las audiencias, en millones de espectadores, de ocho capítulos selec-
cionados al azar para cada una de las series fueron las siguientes:

Serie A 2,15 2,61 2,11 2,26 2,01 2,31 2,51 2,80

Serie B 2,24 2,53 2,35 2,22 2,21 2,22 2,21 2,01

¿Se podría admitir, con un 5 % de significación, que ambos niveles de audiencia son
iguales?

Sean X = «Nivel de audiencia por capítulo, en millones de espectadores,


Solución
de la serie A», e Y = «Nivel de audiencia por capítulo, en millones de
espectadores, de la serie B». Estas variables siguen distribuciones normales:

X ~ N ( μ x ; 0,1)
Y ~ N ( μ y ; 0,21)

94 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Las hipótesis que deben plantearse para contrastar la igualdad de audiencias son:

H0 : μ x − μ y = 0
H1: μ x − μ y ≠ 0

El estadístico de prueba que corresponde al caso de sx y sy conocidas es:

X − Y − d0
Z= ~ N (0, 1)
σ x2 σ y2
H0
+
nx ny

A continuación, obtenemos la región crítica del contraste, utilizando la tabla 7, para


buscar los dos valores críticos. Gráficamente, la situación queda representada como:

N(0,1)

/2 = 0,025 1– = 0,95 /2 = 0,025

–z /2 = – 1,96 z /2 = 1,96

Con los datos muestrales, calculamos el valor experimental del estadístico:

x − y − d0 2,345 − 2,249
zexp = = = 11674
,
σ x2 σ y2 0,12 0,212
+ +
nx ny 8 8

pues:

nx
1 1
x=
nx
∑ xi = 8 18,76 = 2,345
i =1

ny
1 1
y=
ny
∑ yi = 8 17,99 = 2,249
i =1

© Ediciones Pirámide 95
Ejercicios de inferencia estadística y muestreo

Como zexp = 1,1674 está comprendida entre los valores críticos – 1,96 y 1,96, el valor
experimental se sitúa en la región de aceptación; por tanto, puede decirse que no hay
evidencia, al 5 % de significación, para rechazar la hipótesis de igualdad de medias y
entonces admitimos que los niveles de audiencia son similares.

Para realizar un estudio sobre los salarios mensuales pagados por una
Ejercicio 2.10
entidad financiera española a sus empleados, se selecciona aleatoria-
mente una muestra de hombres y otra de mujeres. De dichas muestras se obtienen los
siguientes resultados a partir de los salarios expresados en euros:

Muestra de hombres Muestra de mujeres

10 10 10 10

∑ xi = 17.100 ∑ xi2 = 29.670.000 ∑ yi = 13.500 ∑ yi2 = 18.410.000


i =1 i =1 i =1 i =1

Se supone que los salarios mensuales siguen una distribución normal en ambas po-
blaciones de hombres y mujeres y que son independientes:
a) ¿Se podría afirmar, con un 5 % de significación, que el salario medio de los
hombres que trabajan en la entidad es de 1.400 euros?
b) Obtenga un intervalo de confianza al 95 % para el cociente de varianzas pobla-
cionales de los salarios de hombres y mujeres.
c) ¿Podemos admitir que el salario pagado por la entidad a los hombres es superior
al de las mujeres con un 5 % de significación?

Definimos las variables X = «Salario mensual de los hombres empleados


Solución
en la entidad financiera (en euros)», e Y = «Salario mensual de las mujeres
empleadas en la entidad financiera (en euros)», que son independientes y cuyas distribu-
ciones son:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

a) Debemos contrastar, a un 5 % de significación, si mx = 1.400 (euros). Para ello,


planteamos las siguientes hipótesis:

H0 : μ x = 1.400
H1: μ x ≠ 1.400

96 © Ediciones Pirámide
Contraste de hipótesis paramétrico

En el caso de población normal con varianza desconocida, el estadístico que se uti-


liza para realizar un contraste sobre la media es:

X − μx0
t= ~ t
H0 n x − 1
≡ t10 − 1 ≡ t9
Sx / n x

Con un nivel de significación del 5 %, la región crítica de este contraste bilateral


queda determinada por los valores críticos t a/2 = 2,262 y – t a/2 = – 2,262, obtenidos a
partir de la tabla 10 de una t de Student con nueve grados de libertad. Rechazaremos
H0 si texp < – t a/2 o si texp > t a/2, según se aprecia en el gráfico:

t9

/2 = 0,025 1– = 0,95 /2 = 0,025

–t /2 = – 2,262 t /2 = 2,262

Para calcular el valor experimental del estadístico, debemos obtener previamente la


media y la desviación típica muestrales:

nx
1 1
x=
nx
∑ xi = 10 17.100 = 1.710 euros
i =1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤29.670.000 − 10 (17.100)2 冥 =


nx nx 2
1 1 1 1
s x2 =
nx − 1 i =1 x i =1

= 47.666,6667 (euros)2
sx = s x2 = 218,33 euros

El valor experimental será:

x − μ x 0 1.710 − 1.400
texp = = = 4,490
s x / nx 218,33 / 10

© Ediciones Pirámide 97
Ejercicios de inferencia estadística y muestreo

Como texp > t a/2 = 2,262, el valor experimental se sitúa en la región crítica del con-
traste; por tanto, al 5 % de significación, los datos muestrales presentan evidencia sufi-
ciente para rechazar la hipótesis nula, con lo cual, no podemos afirmar que el salario
medio de los hombres que trabajan en la entidad sea de 1.400 euros. Hay que observar
que este apartado se podría haber resuelto también obteniendo el correspondiente inter-
valo de confianza.
b) El intervalo correspondiente al cociente de varianzas poblacionales cuando las
medias poblacionales son desconocidas será:

Iσ 2 / σ 2 =
x y 冤 Sx2
2

1
;
Sx2
2

1
Sy Fnx − 1, ny − 1;1 − α / 2 Sy Fnx − 1, ny − 1; α / 2 冥
donde Fnx – 1, ny – 1; 1 – a/2 y Fnx – 1, ny – 1; a/2 son los cuantiles que en una F de Snedecor con
nx – 1, ny – 1 grados de libertad verifican que:

P( Fnx − 1, ny − 1  Fnx − 1, ny − 1; α / 2 ) = α / 2
P( Fnx − 1, ny − 1  Fnx − 1, ny − 1;1 − α / 2 ) = 1 − α / 2

Gráficamente, teniendo en cuenta que 1 – a = 0,95;

Ᏺnx –1, ny –1 ≡ Ᏺ9,9

/2 = 0,025
/2 = 0,025

Fnx – 1, ny – 1; /2 Fnx –1, ny –1; 1– /2

Entonces, utilizando la tabla de una F de Snedecor (tabla 11), se tiene:

Fnx − 1, ny − 1;1 − α / 2 = F9, 9; 0,975 = 4,03

98 © Ediciones Pirámide
Contraste de hipótesis paramétrico

Para obtener el cuantil Fnx – 1, ny – 1; a/2 = F9, 9; 0,025, utilizamos la siguiente propiedad de
la distribución F de Snedecor con n1, n2 grados de libertad:

1
Fn1 , n2 ; p =
Fn2 , n1 ;1 − p

Así, tenemos que:

1 1
F9, 9; 0,025 = = = 0,2481
F9, 9; 0,975 4,03

Gráficamente:

Ᏺ9,9

1– = 0,95

/2 = 0,025
/2 = 0,025

F9,9; 0,025 = 0,2481 F9,9; 0,975 = 4,03

Calculamos ahora sy2, pues del apartado anterior tenemos sx2 = 47.666,6667:

冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤18.410.000 − 10 (13.500)2 冥 =


ny ny 2
1 1 1 1
sy2 =
ny − 1 i =1 y i =1

= 20.555,5556

© Ediciones Pirámide 99
Ejercicios de inferencia estadística y muestreo

y así, el intervalo de confianza al 95 % será:

Iσ 2 / σ 2 =
x y 冤 s x2
2

1
;
s x2
2

1
sy Fnx − 1, ny − 1;1 − α / 2 sy Fnx − 1, ny − 1; α / 2 冥
=

= 冤 2047..555,5556 4,03 20.555,5556 0,2481冥


666,6667 1 47.666,6667
⋅ ; ⋅
1
=

= [0,5754; 9,3467]

c) Hay que someter a contrastación la hipótesis mx > my, es decir, que el salario
medio de los hombres es superior al de las mujeres. Por tanto, las hipótesis se plantearán
como:

H0 : μ x − μ y  0
H1: μ x − μ y > 0

Admitimos la igualdad de varianzas poblacionales de las variables X e Y según los


resultados obtenidos en el apartado b), donde el intervalo calculado para el cociente de
varianzas incluía el valor 1; por tanto, el estadístico del contraste será:

X − Y − d0
t= ~ t
H0 n x + n y − 2
≡ t10 + 10 − 2 ≡ t18
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
+
nx + ny − 2 nx ny

Para un nivel de significación del 5 %, la región crítica será la siguiente:

t18

1– = 0,95 = 0,05

t = 1,734

donde t a se obtiene de la tabla 10, y se rechazará H0 si:

texp > tα = 1,734

100 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Con los resultados muestrales calculamos el valor experimental del estadístico:

1.710 − (13.500 /10) − 0


texp = = 4,3585
(10 − 1)47.666,6667 + (10 − 1)20.555,5556 1 1
+
10 + 10 − 2 10 10

como:

texp = 4,3585 > 1,734 = tα

entonces, rechazamos la hipótesis nula y, por tanto, admitimos, al 5 % de significación,


que el salario medio pagado a los hombres es superior al de las mujeres.

En un estudio sobre los efectos de los nuevos métodos de planificación


Ejercicio 2.11
en el ámbito de la gestión empresarial, se comprobó, en una muestra
aleatoria simple de seis empresas en las que se aplicaban dichos métodos, que el incre-
mento medio de sus ingresos netos, con respecto al anterior ejercicio, era del 9,972 %,
con una varianza muestral 7,740. Paralelamente, y con fines comparativos, se seleccionó
una muestra aleatoria simple de nueve empresas que seguían los métodos de gestión
tradicionales. En función de los datos de esta última muestra, se calculaba un incremento
medio de 6,098 % y una varianza muestral de 10,834. Suponiendo que los porcentajes de
incrementos de ingresos en ambas poblaciones de empresas están distribuidos normal e
independientemente con la misma varianza:
a) ¿Se puede admitir, con un 10 % de significación, que el conjunto de empresas
que aplican los nuevos métodos de planificación obtienen incrementos medios
de ingresos superiores a las empresas que utilizan métodos tradicionales?
b) Construya un intervalo de confianza al 90 % para la diferencia de incrementos
medios poblacionales de ambos tipos de empresas.

Sean X e Y las variables aleatorias que representan los incrementos por-


Solución
centuales de los ingresos en empresas que aplican métodos nuevos de pla-
nificación (X) y tradicionales (Y). Las distribuciones de estas variables son:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

con X e Y independientes y sx = sy = s.

© Ediciones Pirámide 101


Ejercicios de inferencia estadística y muestreo

a) Se pretende contrastar según la información muestral si mx > my. Por tanto, plan-
teamos las hipótesis:

H0 : μ x − μ y  0
H1: μ x − μ y > 0 (ingresos superiores con nuevos métodos)

El estadístico de prueba para realizar este contraste será:

X − Y − d0
t= ~ t
H0 n x + n y − 2
≡ t6 + 9 − 2 ≡ t13
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
+
nx + ny − 2 nx ny

pues sx = sy = s, aunque son desconocidas.


El valor experimental de este estadístico se obtiene sustituyendo la información
muestral en la expresión anterior:

nx = 6 ; x = 9,972 ; s x2 = 7,740
ny = 9 ; y = 6,098 ; s x2 = 10,834

9,972 − 6,098 − 0
texp = = 2,3669
(6 − 1)7,740 + (9 − 1)10,834 1 1
+
6+9−2 6 9

La región crítica unilateral es:

t13

1– = 0,90 = 0,10

t = 1,350

rechazándose H0 si:

texp > tα = 1,350

102 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Como en este caso:

texp = 2,3669 > tα = 1,350

entonces, con un nivel de significación del 10 %, se rechaza la hipótesis nula (H0; mx – my  0)


y admitimos que los incrementos medios de los ingresos son superiores en las empresas
que aplican métodos nuevos.
b) El intervalo de confianza para la diferencia de medias de poblaciones normales,
independientes y con desviaciones típicas desconocidas iguales, será:

(nx − 1)Sx2 + (ny − 1)Sy2 nx + ny



Iμ x − μ y = ( X − Y ) − tα / 2
nx + ny − 2 nx ny
;

(nx − 1)Sx2 + (ny − 1)Sy2 nx + ny


( X − Y ) + tα / 2
nx + ny − 2 nx ny 冥
pues nx = 6, ny = 9 se consideran tamaños muestrales pequeños.
El valor t a/2 es el cuantil que en una distribución t de Student con n x + ny – 2 =
= 6 + 9 – 2 = 13 grados de libertad verifica que:

P(t13 > tα / 2 ) = α / 2

Como el nivel de confianza es del 90 %, entonces:

1 − α = 0,90 ⇒ α = 0,10 ⇒ α / 2 = 0,05

y, utilizando la tabla 10:

tα / 2 = 1,771

Sustituyendo en el intervalo:


Iμ x − μ y = (9,972 − 6,098) − 1,771
5 ⋅ 7,740 + 8 ⋅ 10,834
6+9−2
6+9
6⋅9
;

(9,972 − 6,098) + 1,771


5 ⋅ 7,740 + 8 ⋅ 10,834
6+9−2
6+9
6⋅9 冥
Iμ x − μ y = [0,9753; 6,7727]

© Ediciones Pirámide 103


Ejercicios de inferencia estadística y muestreo

El vicerrectorado de docencia de una universidad decide publicar los


Ejercicio 2.12
resultados de las encuestas que cada año se realizan para evaluar la
calidad de la docencia de todos sus profesores. Seleccionados al azar 10 profesores, se
recogen en la tabla adjunta las calificaciones obtenidas en el curso anterior y posterior a
la toma de esta medida por parte del vicerrectorado.
Suponiendo que las puntuaciones se distribuyen normalmente en cada curso, ¿po-
dríamos afirmar, con un 2,5 % de significación, que la decisión de hacer públicos los
resultados de las encuestas mejora las puntuaciones de los profesores?

Puntuación antes Puntuación después


Profesor
de la publicación de la publicación

1 3,2 3,1
2 3,3 3,5
3 3,4 3,6
4 2,1 3
5 4,1 4,2
6 3,1 3,3
7 2,9 2,5
8 4,2 4
9 3,5 3,6
10 2,8 2,9

Definimos las variables aleatorias X e Y como:


Solución

X = «Puntuación de cada uno de los profesores en el curso anterior a la toma de la


medida».

X ~ N(μx , σ x )

Y = «Puntuación de cada uno de los profesores en el curso posterior a la toma de la


medida».

Y ~ N(μy , σ y )

Estamos en el caso de muestras apareadas:

( X1 , Y1 ),..., ( X10 , Y10 )

104 © Ediciones Pirámide


Contraste de hipótesis paramétrico

por tanto, debemos definir las diferencias:

Di = Xi − Yi

que calculamos obteniendo los siguientes resultados:

Profesor 1 2 3 4 5 6 7 8 9 10

di 0,1 – 0,2 – 0,2 – 0,9 – 0,1 – 0,2 0,4 0,2 – 0,1 – 0,1

La publicación de resultados mejorará las puntuaciones si mx < my. El contraste que


hay que realizar se planteará como:

H0 : μ x − μ y  0
H1: μ x − μ y < 0 (los resultados mejoran)

El estadístico experimental que utilizaremos será:

D − d0
t= ~ t
H0 n − 1
≡ t9
Sd / n

con

1 n
D= ∑ Di
n i =1
1 n
Sd2 = ∑
n − 1 i =1
( Di − D )2

La región crítica de este contraste unilateral se representa gráficamente como:

t9

= 0,025 1– = 0,975

– t = – 2,262

donde el valor crítico se obtiene de la tabla 10.

© Ediciones Pirámide 105


Ejercicios de inferencia estadística y muestreo

Para calcular el valor del estadístico de prueba obtenemos primero la media y la des-
viación típica de las diferencias di:

1 n 1
d = ∑
n i =1
di =
10
( − 11
, ) = − 0,11

1 n
冤 冢∑ di 冣 冥 = 9 冤117 ( − 11

n n
1 1 2 1 , )2
sd2 = ∑
n − 1 i =1
( di − d )2 =
n −1
∑ di2 − n
, −
10
= 0,1166
i =1 i =1

sd = + sd2 = 0,3414

y sustituimos en la expresión del estadístico de prueba:

d − d0 − 0,11 − 0
texp = = = − 1,0189
sd / n 0,3414 / 10

Como:

texp = − 1,0189 > − tα = − 2,262

entonces, no hay evidencia suficiente, al 2,5 % de significación, para rechazar la hipótesis


nula y, por tanto, no se puede afirmar, con este nivel de significación, que la publicación
de los resultados de las encuestas mejore las puntuaciones de los profesores.

Según la Consejería de Agricultura de una comunidad autónoma, la


Ejercicio 2.13
subvención media percibida por agricultor en la provincia A, supera en
más de 2.000 euros a la subvención media percibida en la provincia B.
Seleccionadas dos muestras aleatorias de 10 agricultores en cada una de las provin-
cias, se obtienen los siguientes resultados, expresados en miles de euros:

Provincia A Provincia B

x̄ = 14 ȳ = 9
sx2 = 25 sy2 = 0,25

Suponiendo que la cuantía de las subvenciones sigue en ambas provincias distribu-


ciones normales con varianza diferente, ¿se puede admitir, con un 1 % de significación,
la afirmación de la consejería?

106 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Definimos las variables aleatorias X = «Subvención percibida por un agri-


Solución
cultor de la provincia A (miles de euros)», e Y = «Subvención percibida
por un agricultor de la provincia B (miles de euros)», cuyas distribuciones son:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

Se quiere contrastar si mx > my + 2, es decir, las hipótesis se formularán como:

H0 : μ x − μ y  2
H1: μ x − μ y > 2

Utilizaremos el siguiente estadístico de prueba, pues sx2 ≠ sy2 según el enunciado:

X − Y − d0
t= ~ t
H0 v
Sx2 Sy2
+
nx ny

siendo:

⎡ ⎤


v=⎢

Sx2 Sy2 2 ⎥
+
nx ny ⎥
⎥ +1

⎢ 冢 冣 冢 冣
⎢ Sx2 2
⎢ nx + ny ⎥
Sy2 2 ⎥

⎢ nx − 1 ny − 1 ⎥
⎣ ⎦

donde [ · ] indica la parte entera.


Sustituyendo en la expresión anterior los datos muestrales, tendremos:

⎡ 25 0,25 2 ⎤

v=


冢 10
+
10 冣 ⎥
⎥ + 1 = [9,18] + 1 = 9 + 1 = 10
⎢ 25 2 0,25 2 ⎥
⎢ 冢 冣 冢 冣
⎢ 10 + 10


⎢⎣ 10 − 1 10 − 1 ⎥⎦

© Ediciones Pirámide 107


Ejercicios de inferencia estadística y muestreo

Por tanto, el estadístico de prueba seguirá bajo H0 una distribución t de Student con
10 grados de libertad. Utilizando la tabla correspondiente a esta distribución, obtenemos
el valor crítico de la región de rechazo de este contraste. Su representación gráfica es:

t10

1– = 0,99 = 0,01

t = 2,764

El valor experimental del estadístico de prueba se calcula como:

x − y − d0 14 − 9 − 2
texp = = = 1,888
Sx2 Sy2 25
+
0,25
+
nx ny 10 10

Como:

texp = 1,888 < tα = 2,764

no se rechaza la hipótesis nula, por tanto, no se admite la afirmación de la consejería


(mx > my + 2) al 1 % de significación.

Los estudios de una asociación de mutuas de accidentes aseguran que el


Ejercicio 2.14
número medio de bajas ocurridas en el último mes debidas a accidentes
laborales, en empresas constructoras que realizan su actividad en la capital de la provin-
cia, superan en más de cinco al número medio de bajas en las mismas circunstancias en
empresas constructoras que trabajan en el resto de la provincia. Con el fin de contrastar
esta afirmación, se seleccionan aleatoriamente 10 empresas constructoras, en cada una
de las zonas, para obtener los datos correspondientes al número de bajas por accidentes
laborales ocurridas en el último mes. Los resultados fueron:

Capital de la provincia 6 8 9 5 0 1 4 2 0 1

Resto de la provincia 3 4 2 2 1 0 5 0 1 3

108 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Suponiendo que las cifras de bajas por accidentes laborales pudieran considerarse
normalmente distribuidas:
a) Contraste la afirmación realizada por la asociación utilizando un 5 % de signi-
ficación.
b) ¿Podría afirmarse, al 10 % de significación, que el número medio de bajas por
accidentes laborales en las empresas constructoras que realizan su actividad en
la capital de la provincia es superior a cuatro?

Sean las variables aleatorias X e Y definidas como:


Solución
X = «Número de bajas por accidentes laborales ocurridos durante el último mes en
empresas constructoras que realizan su actividad en la capital de provincia».
Y = «Número de bajas por accidentes laborales ocurridos durante el último mes en
empresas constructoras que realizan su actividad en el resto de la provincia».
Ambas variables se distribuyen normalmente:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

a) La afirmación realizada por la asociación de mutuas de accidentes es que


mx > 5 + my. Por tanto, el contraste a realizar será:

H0 : μ x − μ y  5
(1)
H1: μ x − μ y > 5

El estadístico de prueba que se utilizará dependerá de si las varianzas poblacionales


pueden considerarse similares o no. Por tanto, realizaremos previamente un contraste
sobre la igualdad de estas varianzas:

H0 : σ x2 = σ y2
(2)
H1: σ x2 ≠ σ y2

El estadístico de prueba para contrastar la hipótesis de (2) será, teniendo en cuenta


que las medias poblacionales son desconocidas:

Sx2
F= ~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10 − 1,10 − 1 ≡ Ᏺ 9, 9
Sy2 H0 x y

© Ediciones Pirámide 109


Ejercicios de inferencia estadística y muestreo

y para una significación del 5 %, la región crítica se representa gráficamente como:

Ᏺ9,9

/2 = 0,025
/2 = 0,025

F /2 F1– /2

donde Fa/2 y F1 – a/2 son, respectivamente, los cuantiles de órdenes a/2 y 1 – a/2, que
verifican:

P[Ᏺ 9, 9  F9, 9;1 − α / 2 ] = 1 − α / 2 = 1 − 0,025 = 0,975


P[Ᏺ 9, 9  F9, 9; α / 2 ] = α / 2 = 0,025

De la primera probabilidad, utilizando la tabla 11, se tiene:

F9, 9;1 − α / 2 = F9, 9; 0,975 = 4,03

Para obtener F9,9;a/2 = F9,9;0,025, utilizamos la siguiente propiedad de una F de Snede-


cor con n1 y n2 grados de libertad:

1
Fn1 , n2 ; p =
Fn2 , n1 ;1 − p

por tanto, aplicando este resultado a Fa/2, tenemos que:

1 1 1
Fα / 2 = F0,025 = F9, 9; 0,025 = = = = 0,2481
F9, 9;1 − 0,025 F9, 9; 0,975 4,03

110 © Ediciones Pirámide


Contraste de hipótesis paramétrico

con lo cual, rechazaremos la hipótesis nula de igualdad de varianza si:

Fexp < Fα / 2 = 0,2481

o si:

Fexp > F1 − α / 2 = 4,03

Para calcular el valor experimental, obtenemos primero las varianzas muestrales:

10 10
Capital de la provincia: ∑ xi = 36 ∑ xi2 = 228
i =1 i =1

10 10
Resto de la provincia: ∑ yi = 21 ∑ yi2 = 69
i =1 i =1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 10 − 1 冤228 − 冥
10 10
1 1 2 1 36 2
s x2 = = 10,9333
nx − 1 i =1 x i =1 10

冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤69 − 冥
10 10
1 1 2 1 212
sy2 = = 2,7666
ny − 1 i =1 y i =1 10

Por tanto, el valor experimental del estadístico del contraste (2) quedaría como:

s x2 10,9333
Fexp = = = 3,95
sy2 2,7666

y, puesto que:

0,2481 = Fα / 2 < Fexp = 3,95 < F1 − α / 2 = 4,03

entonces no se rechaza, al 5 % de significación, la hipótesis nula de igualdad de varian-


zas (sx2 = sy2).

© Ediciones Pirámide 111


Ejercicios de inferencia estadística y muestreo

Realizamos a continuación el contraste (1) sobre la diferencia de medias consideran-


do que las varianzas poblacionales son similares y utilizando, por tanto:

X − Y − d0
t= ~ t
H0 n x + n y − 2
≡ t18
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
+
nx + ny − 2 nx ny

como estadístico del contraste.


La región crítica de (1) viene representada por:

t18

0,95 = 0,05

t = 1,734

donde el valor crítico, t a, se ha buscado en la tabla 10 de una t de Student con 18 grados


de libertad, de tal forma que se verifique:

P[t18 > tα ] = α = 0,05

Las medias muestrales son:

nx
1 1
x=
nx
∑ xi = 10 ⋅ 36 = 3,6
i =1

ny
1 1
y=
ny
∑ yi = 10 ⋅ 21 = 2,1
i =1

Sustituyendo la información muestral en t, obtenemos el valor experimental:

3,6 − 2,1 − 5
texp = = − 2,9903
9 ⋅ 10,9333 + 9 ⋅ 2,7666 1 1
+
10 + 10 − 2 10 10
112 © Ediciones Pirámide
Contraste de hipótesis paramétrico

y como:

texp = − 2,9903 < 1,734 = tα

entonces, no se rechaza la hipótesis nula H0 : mx – my  5. Por tanto, al 5 % de signifi-


cación, no hay evidencia para confirmar la afirmación de la asociación de mutuas de
accidentes.

b) Se pretende contrastar si mx > 4. Por tanto, planteamos las hipótesis:

H0 : μ x  4
H1: μ x > 4

El estadístico de prueba de este caso es:

X − μ0
t= ~ t
H0 n − 1
≡ t10 − 1 ≡ t9
S/ n

pues la desviación típica poblacional, sx, es desconocida.


La región crítica, al 10 % de significación, de este contraste unilateral viene dada
por:

t9

1– = 0,90 = 0,10

t = 1,383

con t a calculado a partir de la tabla 10, teniendo en cuenta que:

P[t9 > tα ] = 0,10

© Ediciones Pirámide 113


Ejercicios de inferencia estadística y muestreo

El valor experimental del estadístico del contraste será:

3,6 − 4
texp = = − 0,3825
10,9333 / 10

que verifica:

texp < tα

por lo que no se rechaza tampoco en este caso la hipótesis nula, H0 : mx  4, con lo


cual no podría afirmarse que el número medio de bajas por accidentes laborales en las
empresas constructoras de la capital de la provincia sea superior a cuatro.

Una cadena de grandes almacenes está considerando la decisión de ad-


Ejercicio 2.15
quirir nuevas máquinas etiquetadoras. Para comprobar si las nuevas
máquinas mejoran significativamente la eficiencia de los empleados, selecciona aleato-
riamente dos grupos de nueve trabajadores para realizar un control sobre el número de
etiquetas colocadas en períodos de cinco minutos. En uno de los grupos, se utilizan las
antiguas máquinas, y en el otro, las nuevas, tras un período de adaptación de los em-
pleados. Los resultados obtenidos son los siguientes:

Grupo 1 (etiquetadoras antiguas) 305 312 300 248 290 264 272 301 275

Grupo 2 (etiquetadoras nuevas) 303 301 310 303 309 296 315 282 272

Suponiendo que el número de etiquetas colocadas cada cinco minutos sigue una dis-
tribución normal, y utilizando un nivel de significación del 5 %, ¿mejoran las nuevas má-
quinas significativamente la eficiencia de los empleados?

Sean las variables X e Y definidas como:


Solución

X = «Número de etiquetas colocadas en un período de cinco minutos por un emplea-


do que utiliza una etiquetadora antigua».
Y = «Número de etiquetas colocadas en un período de cinco minutos por un emplea-
do que utiliza una etiquetadora nueva».

114 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Estas dos variables son independientes y siguen distribuciones normales:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

Las nuevas etiquetadoras mejorarán la eficiencia de los empleados si éstos colocan


más etiquetas que el grupo que utiliza las antiguas máquinas, es decir, en términos me-
dios, necesitamos contrastar si my > mx. Por tanto, debemos realizar el contraste:

H0 : μ x − μ y  0
(1)
H1: μ x − μ y < 0 (μy > μx )

Para determinar el estadístico de prueba del contraste se debe comprobar previamente


la igualdad o desigualdad de varianzas poblacionales; por tanto, antes de realizar el an-
terior contraste, debemos contrastar la hipótesis sx2 = sy2 y, en función del resultado, utili-
zaremos un estadístico u otro. Así pues, realicemos, al 5 % de significación, el contraste:

H0 : σ x2 = σ y2
H1: σ x2 ≠ σ y2

El estadístico de prueba que utilizaremos será:

Sx2
F= ~ Ᏺ n − 1, n − 1 ≡ Ᏺ 9 − 1, 9 − 1 ≡ Ᏺ 8, 8
Sy2 H0 x y

pues las medias poblacionales, mx y my, son desconocidas. Para un nivel de significación
del 5 %, la región crítica bilateral que se obtiene es:

Ᏺ8,8

1– = 0,95

/2 = 0,025
/2 = 0,025

F /2 = 0,226 F1– /2 = 4,43

© Ediciones Pirámide 115


Ejercicios de inferencia estadística y muestreo

rechazándose la hipótesis de igualdad de varianzas si:

Fexp > F1 − α / 2 = 4, 43

o si

Fexp < Fα / 2 = 0,226

Estos dos valores críticos han sido obtenidos a partir de la tabla 11 de una Ᏺ8, 8,
teniendo en cuenta que:

0,05
P[Ᏺ 8, 8  F1 − α / 2 ] = 1 − α / 2 = 1 − = 1 − 0,025 = 0,975
2

lo que implica:

F1 − α / 2 = 4, 43 = F0,975

El valor crítico inferior verifica que:

P[Ᏺ 8, 8  Fα / 2 ] = 0,025

y, utilizando que en una F de Snedecor con n1, n2 grados de libertad, se verifica que:

1
Fn1 , n2 ; p =
Fn2 , n1 ;1 − p

el valor anterior se obtiene como:

1 1
F8, 8; 0,025 = = = 0,226
F8, 8; 0,975 4, 43

116 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Calculamos a continuación las varianzas muestrales de ambos grupos:


9 9 9 9
∑ xi = 2.567 ∑ xi2 = 735.879 ∑ yi = 2.691 ∑ yi2 = 806.149
i =1 i =1 i =1 i =1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 冤 冥
nx nx 2
1 1 1 1
s x2 = 735.879 − (2.567)2 = 464,1944
nx − 1 i =1 x i =1 9 −1 9

冤∑ yi2 − n 冢∑ yi 冣 冥 = 冤 冥
ny ny 2
1 1 1 1
sy2 = 806.149 − (2.691)2 = 192,5
ny − 1 i =1 y i =1 9 −1 9

Con lo cual, el valor experimental:

s x2 464,1944
Fexp = = = 2, 4114
sy2 192,5

y como:
0,226 = Fα / 2 < Fexp = 2, 4114 < F1 − α / 2 = 4, 43

entonces nos encontramos en la región de aceptación. Es decir, al 5 % de significación no


se rechaza la hipótesis nula de igualdad de varianzas (sx2 = sy2). Por tanto, para realizar el
contraste sobre la diferencia de medias (1) se utilizará como estadístico de prueba:

X − Y − d0
t= ~ t
H0 n x + n y − 2
≡ t9 + 9 − 2 ≡ t16
(nx − 1)Sx2 + (ny − 1)Sy2 1 1
+
nx + ny − 2 nx ny

pues estamos admitiendo que las varianzas de X e Y son similares.


La región crítica de (1), con un nivel de significación del 5 %, es:
t16

= 0,05 1– = 0,95

– t = – 1,746

rechazándose H0 si texp < – t a = – 1,746.

© Ediciones Pirámide 117


Ejercicios de inferencia estadística y muestreo

Para buscar el cuantil – t a en una t de Student con 16 grados de libertad se ha uti-


lizado la tabla 10 y la simetría de esta distribución:

P(t16 < − tα ) = 0,05 ⇒ P(t16 > tα ) = 0,05 ⇒ P(t16  tα ) = 0,95 ⇒ tα = 1,746

Calculemos ahora el valor experimental del estadístico del contraste:

nx
1 2.567
x=
nx
∑ xi = 9
= 285,2222 , s x2 = 464,1944
i =1

ny
1 2.691
y=
ny
∑ yi = 9
= 299 , sy2 = 192,5
i =1

285,2222 − 299
texp = = − 1,6129
(9 − 1)464,1944 + (9 − 1)192,5 1 1
+
9+9−2 9 9

luego, como:

texp = − 1,6129 > − 1,746 = − tα

no se rechaza la hipótesis nula (mx – my  0). Por tanto, no podemos decir que las nuevas
máquinas etiquetadoras mejoran la eficiencia significativamente.

Según los dirigentes del partido político A, su intención de voto en An-


Ejercicio 2.16
dalucía supera en más de cuatro puntos a la obtenida en Extremadura.
Un diario de tirada nacional realiza una encuesta a 1.500 votantes de Andalucía, de los
que 752 manifiestan su apoyo al partido A, y a 1.000 votantes de Extremadura, de los que
548 se inclinan por el partido A. Contraste, al 5 % de significación, la afirmación reali-
zada por la dirección del partido A.

Sean X e Y las variables aleatorias definidas como:


Solución

⎧1 si un votante de Andalucía apoya al partido político A


X=⎨
⎩0 en caso contrario
⎧1 si un votante de Extremadura apoya al partido A
Y=⎨
⎩0 en caso contrario

118 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Estas variables son independientes y se distribuirán según el modelo de Bernoulli:

X ~ B(1, px )
Y ~ B(1, py )

siendo:

px = P( X = 1) = «Proporción de votantes de Andalucía que apoyarían al partido A».


py = P(Y = 1) = «Proporción de votantes de Extremadura que apoyarían al partido A».

Los dirigentes del partido A afirman que:

px > py + 0,04

Por tanto, para contrastar esta afirmación, debemos plantear las hipótesis:

H0 : px − py  0,04
H1: px − py > 0,04

Como los tamaños muestrales se pueden considerar grandes, utilizaremos como es-
tadístico del contraste:

pˆ x − pˆ y − p0 ~
Z= N (0, 1)
nx + ny H0
nx , ny → ∞
ˆˆ
pq
nx ny

siendo:

nx pˆ x + ny pˆ y
pˆ =
nx + ny

© Ediciones Pirámide 119


Ejercicios de inferencia estadística y muestreo

La región crítica, al 5 % de significación, será:

N(0,1)

1– = 0,95 = 0,05

z = 1,645

rechazándose H0 si zexp > za :

752 548 752 + 548


pˆ x = ; pˆ y = ; pˆ = = 0,52
1.500 1.000 1.500 + 1.000
752 548
− − 0,04
1.500 1.000
zexp = = − 4,249
1.500 + 1.000
⋅ 0,52 ⋅ 0, 48
1.500 ⋅ 1.000

como:

zexp = − 4,249 < zα = 1,645

entonces, al 5 % de significación, no se rechaza la hipótesis nula. Por tanto, la afirma-


ción de la dirección del partido A no se encuentra apoyada por la evidencia empírica con
este nivel de significación.

Una compañía del sector agroalimentario desea introducir sus yogures


Ejercicio 2.17
en un nuevo mercado, por lo que encarga a su centro de investigación
analizar cuáles deberían ser el aspecto y la textura de éstos para que tuvieran una mejor
aceptación. Uno de los investigadores cree que deberían ser más líquidos que de costum-
bre. Para estimar la proporción de personas que, en el nuevo mercado, aceptarían estos
yogures más líquidos, se decidió realizar una degustación con una muestra aleatoria de
500 potenciales clientes; de ellos, 280 opinaron favorablemente sobre estos yogures más
líquidos.

120 © Ediciones Pirámide


Contraste de hipótesis paramétrico

a) A la vista de estos datos, y con un 1 % de significación, ¿puede afirmarse que


el porcentaje de aceptación de estos yogures no superaría el 50 % del nuevo
mercado?
b) ¿Qué tamaño muestral sería necesario para que el test anterior detectara un
porcentaje de aceptación del 60 % con una probabilidad de 0,9?
c) Los investigadores se preguntan si los yogures más líquidos tendrían también
éxito en el mercado actual, por lo que se decide realizar una degustación entre
300 clientes habituales y solicitarles que indiquen su preferencia por unos u
otros sin admitir la posibilidad de indiferencia. Los resultados de esta degus-
tación señalaron que 230 de ellos preferían los yogures más líquidos. ¿Indican
estos datos que el porcentaje de aceptación de los yogures más líquidos en el
mercado actual es superior al del futuro mercado? Nivel de significación: 1 %.

a) Sea px la proporción de personas que, en el nuevo mercado, serían


Solución
favorables a estos yogures más líquidos. Definimos la variable aleatoria X
como:

⎧1 si una persona en el nuevo mercado es favorable a estos yogures


X=⎨
⎩0 en caso contrario

Se trata, por tanto, de un experimento de Bernoulli con probabilidad de éxito px:

X ~ B(1, px )

Los resultados de la degustación, realizada con una muestra aleatoria de nx = 500


potenciales clientes, indican que 280 fueron favorables a estos yogures, con lo cual:

500
∑ xi = 280
i =1

Para tratar de comprobar si el porcentaje de aceptación de los yogures en el nuevo


mercado no superaría el 50 % (px  0,5), planteamos el siguiente contraste:

H0 : px  0,5
H1: px > 0,5

© Ediciones Pirámide 121


Ejercicios de inferencia estadística y muestreo

Utilizando el estadístico de prueba:

pˆ x − p0 pˆ x − 0, 5 ~
Z= = N (0, 1)
p0 (1 − p0 ) 0,5(1 − 0,5) H0

n 500

se tiene que la región crítica o de rechazo de H0 en este contraste unilateral es, al 1 %


de significación:

N(0,1)

0,99 = 0,01

z = 2,33

Calculamos el valor experimental del estadístico de prueba utilizando la información


muestral:

1 n 280
pˆ x = ∑
n i =1
xi =
500
= 0,56

0,56 − 0, 5
zexp = = 2,6833
0,5(1 − 0,5)
500

y como:

zexp = 2,6833 > zα = 2,33

entonces, al 1 % de significación, y con estos datos, existe evidencia suficiente para re-
chazar H0 ; por tanto, no puede afirmarse que el porcentaje de aceptación de los yogures
no superaría el 50 % del nuevo mercado.

122 © Ediciones Pirámide


Contraste de hipótesis paramétrico

b) Para que el test anterior detecte un porcentaje real de compradores del 60 % con
probabilidad 0,9, habría que rechazar la hipótesis nula cuando el verdadero valor de px
fuese igual a 0,6 con la probabilidad anterior:

冢 冣
pˆ x − 0,5
0,9 = P( rechazar H0 / px = 0,6) = P > 2,33 px = 0,6
0,5 ⋅ 0, 5
n

Utilizando que la distribución de la proporción muestral puede aproximarse por una


normal:

pˆ x =
1 n
∑ Xi
n i =1
~
n→∞ 冢
N px ,
px q x
n 冣
tenemos que, para px = 0,6, la distribución de p̂x es:

~ pˆ x − 0,6 ~
pˆ x n→∞
N (0,6; 0,24 / n ) ⇒ Z = n→∞
N (0, 1)
0,24
n

y así:

0,9 = P( pˆ x > 0,5 + 2,33 0,25 / n px = 0,6) =

= P( pˆ x > 0,5 + 2,33 0,25 / n pˆ x → N (0,6; 0,24 / n ) =


=P Z>
0,5 + 2,33 0,25 / n − 0,6
0,24 / n 冣
con

Z ~ N (0, 1)
Utilizando la tabla 7 para buscar un valor z tal que:

P(Z > z) = 0,9

© Ediciones Pirámide 123


Ejercicios de inferencia estadística y muestreo

se tiene que:

z = – 1,28

con lo cual:

0,5 − 0,6 + 2,33 0,25 / n


= − 1,28
0,24 / n

y despejando el valor de n:

1
(2,33 0,25 + 1,28 0,24 ) = 0,6 − 0,5
n

冤 2,33 0,25 + 1,28 0,24


冥 = 32115
2
n= , ≈ 322
0,6 − 0,5

c) Definimos una variable aleatoria similar a la anterior, pero que refleje la infor-
mación sobre la aceptación de los yogures más líquidos en el mercdado actual. Sea:

⎧1 si una persona en el mercado actual es favorable a los nuevos yogures


Y=⎨
⎩0 en otro caso

De nuevo Y ~ B(1, py) con py la proporción de personas que aceptan favorablemente


los yogures más líquidos en el mercado actual. Las variables X e Y tienen, por tanto,
distribuciones de Bernoulli y son independientes. Para probar si el porcentaje de acep-
tación en el mercado actual es superior al del futuro mercado, py > px, planteamos las
hipótesis:

H0 : p x  py
H1: px < py

El estadístico del contraste será:

pˆ x − pˆ y ~
Z= N (0, 1)
nx + ny H0
nx , ny → ∞
ˆˆ
pq
nx ny

124 © Ediciones Pirámide


Contraste de hipótesis paramétrico

con

x+y
冢 冣
nx ny
1
pˆ = =
nx + ny nx + ny
∑ xi + ∑ yi
i =1 i =1

qˆ = 1 − pˆ

y su región crítica o de rechazo de la hipótesis nula viene determinada por:

N(0,1)

= 0,01 0,99

– z = – 2,33

Con los datos muestrales, calculamos el valor experimental del estadístico:

280
pˆ x = = 0,56
500
230
pˆ y = = 0,77
300
x+y 280 + 230 510
pˆ = = = = 0,6375
nx + ny 500 + 300 800

qˆ = 1 − 0,6375 = 0,3625

0,56 − 0,77
zexp = = − 5,9817
500 + 300
⋅ 0,6375 ⋅ 0,3625
150.000

y al ser:

zexp = − 5,9817 < − zα = − 2,33

© Ediciones Pirámide 125


Ejercicios de inferencia estadística y muestreo

rechazamos la hipótesis nula H0 : px  py. Por lo que al 1 % de significación se refiere,


estos datos indican que el porcentaje de aceptación de los yogures en el mercado actual
supera al del mercado nuevo.

El centro de salud de una determinada ciudad está realizando un estu-


Ejercicio 2.18
dio sobre el consumo de tabaco en la población adulta.
Para comparar los porcentajes de mujeres y hombres fumadores, se seleccionaron
dos muestras aleatorias independientes de 25.000 mujeres y 23.500 hombres, resultando
que 6.150 y 7.228, respectivamente, eran consumidores habituales de tabaco.
¿Presentan estos datos evidencia suficiente para concluir que el porcentaje de fuma-
dores supera al de fumadoras en esta localidad? Nivel de significación del 10 %.

Definimos la variable aleatoria X como aquella que toma el valor 1 si un


Solución
hombre es fumador, y 0 en caso contrario. La variable aleatoria Y se de-
fine de la misma forma, pero para las mujeres. Por tanto:

X ~ B(1, px )
Y ~ B(1, py )

y se quiere probar si los datos presentan evidencia suficiente para afirmar que px > py.
Planteamos el contraste como:

H0 : p x  py
H1: px > py

El estadístico de prueba a utilizar es:

pˆ x − pˆ y ~
Z= N (0, 1)
nx + ny H0
nx , ny → ∞
ˆˆ
pq
nx ny

con

x+y
pˆ = y qˆ = 1 − pˆ
nx + ny

126 © Ediciones Pirámide


Contraste de hipótesis paramétrico

y la región crítica para a = 0,1 viene dada por:

N(0,1)

0,90 = 0,1

z = 1,28

Para determinar el valor experimental del estadístico de prueba calculamos primero


las proporciones muestrales:

7.228
pˆ x = = 0,308
23.500
6.150
pˆ y = = 0,246
25.000
7.228 + 6.150
pˆ = = 0,276
23.500 + 25.000

Así:

0,308 − 0,246
zexp = = − 15,27
23.500 + 25.000
(0,276) ⋅ (0,724)
23.500 ⋅ 25.000

Como zexp = 15,27 > 1,28 = za, entonces rechazamos H0 al 10 % de significación y,


por tanto, los datos presentan evidencia suficiente para concluir que el porcentaje de
fumadores supera al de fumadoras.

Una compañía de refrescos presenta un nuevo producto en el mercado


Ejercicio 2.19
afirmando que posee menos calorías que su homólogo más antiguo y
conserva el resto de propiedades. Para tratar de verificar la afirmación de la compañía
se eligieron al azar 14 botes del refresco nuevo y se calculó su media, 20 calorías por
bote, y su desviación típica muestral, tres calorías. De modo independiente, se tomó otra

© Ediciones Pirámide 127


Ejercicios de inferencia estadística y muestreo

muestra aleatoria de 16 botes del refresco antiguo, obteniéndose una media de 28 calo-
rías por bote con desviación típica muestral 5.
Suponiendo que la cantidad de calorías por bote sigue una distribución normal en
ambos refrescos, pero con desviaciones típicas diferentes, ¿existe alguna razón para no
creer en la afirmación de la compañía con un nivel de significación del 2,5 %?

Denotaremos por X e Y las variables aleatorias que representan la cantidad


Solución
de calorías por bote en el nuevo producto y en el antiguo, respectivamente:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

siendo X e Y independientes y con sx ≠ sy.


Se pretenden contrastar las hipótesis:

H0 : μ x − μ y  0
H1: μ x − μ y < 0 (el nuevo producto posee menos calorías que el antiguo)

Como las desviaciones típicas son desconocidas y distintas, el estadístico de prueba


a utilizar es:

X − Y − d0
t= ~ t
H0 v
Sx2 Sy2
+
nx ny

con

冢 冣
Sx2 Sy2 2
冢 冣
9 25 2
+ +
nx ny 14 16
v= = = 24,999
冢 冣 冢 冣 冢 冣 冢 冣
Sx2 2 2Sy2 9 2 25 2

nx ny 14 16
+ +
nx − 1 ny − 1 13 15

Tomando como grados de libertad la parte entera de v más una unidad, se tiene que:

texp ~ t
H0 25

128 © Ediciones Pirámide


Contraste de hipótesis paramétrico

y la región crítica unilateral viene dada por:

t25

= 0,025 1–

–t

es decir, P(t25 < – t a) = 0,025, pero, por la simetría de la distribución t de Student:

P(t25 > tα ) = 0,025

P(t25  tα ) = 1 − 0,025 = 0,975

entonces t a = 2,06 y la región crítica o de rechazo de H0 será:

texp  − 2,06 = − tα

Calculamos ahora el valor experimental del contraste:

20 − 28 − 0
texp = = − 5,387
9 25
+
14 16

Como texp = – 5,387 < – 2,06 = – t a , entonces se rechaza H0 y, por tanto, con estos
datos y un 2,5 % de significación no existen razones para no creer en la afirmación de
la compañía.

Un anuncio publicitario presenta un nuevo aparato de gimnasia cuyo uso


Ejercicio 2.20
durante 12 semanas reduce el peso considerablemente. Se tomó una
muestra aleatoria simple de seis personas y se les ofreció probar gratuitamente el aparato
durante 12 semanas. Los pesos, en kilogramos, de estas personas antes y después de la
prueba fueron los siguientes:

© Ediciones Pirámide 129


Ejercicios de inferencia estadística y muestreo

Antes 81,64 88,45 80,28 90,68 99,25 77,83

Después 78,25 80,45 64,35 79,27 82,30 73,15

Suponiendo que el peso de las personas se distribuye normalmente y utilizando un


2,5 % de significación, ¿se puede concluir a partir de estos datos que el peso medio que
se pierde con este aparato no supera los tres kilogramos?

Tenemos aquí una muestra aleatoria de n = 6 pares de observaciones


Solución
(X1, Y1), ..., (X6, Y6) correspondientes a los pesos de las personas antes y
después de la utilización del aparato de gimnasia:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

El contraste a realizar viene expresado por las hipótesis:

H0 : μ x − μ y  3
H1: μ x − μ y > 3

Por tratarse de muestras apareadas, el estadístico de prueba que utilizaremos es:

d − d0
t= ~ t n − 1 ≡ t5
sd / n

y la región crítica unilateral viene expresada en la siguiente gráfica:

t5

0,975 0,025

t = 2,571

130 © Ediciones Pirámide


Contraste de hipótesis paramétrico

Calculamos las diferencias di = xi – yi, que representan el peso perdido por cada una
de las personas:

di: 3,39 8 15,93 11,41 16,95 4,68

Hallamos la media y la varianza de estas cantidades:

1 n 60,36
d = ∑
n i =1
di =
6
= 10,06

1 n
sd2 = ∑ (di − d )2 = 32,29
n − 1 i =1

y calculamos el valor experimental:

10,06 − 3
texp = = 3,04
32,29 / 6

Por tanto, texp = 3,04 > 2,571 = t a, con lo cual rechazamos H0 al 2,5 % de significa-
ción. Es decir, con los datos de la muestra no puede concluirse que el peso medio perdi-
do no supera los tres kilogramos, pues se está aceptando la hipótesis alternativa H1.

© Ediciones Pirámide 131


3
Contraste de hipótesis no paramétrico

Contraste de hipótesis
no paramétrico

Las investigaciones realizadas por la Asociación de Fabricantes Artesanos


Ejercicio 3.1
de Turrón, cuya sede se encuentra en Jijona, señalan los siguientes por-
centajes sobre las preferencias de los consumidores con respecto al turrón: el 35 % pre-
fieren turrón de almendra duro; el 30 %, turrón de almendra blando; el 20 %, turrón de
yema tostada, y el resto prefieren otros tipos de turrón (chocolate, coco, etc.). Una cade-
na de supermercados debe decidir, con anterioridad a las fiestas navideñas, la cantidad
de turrón que solicitará a su proveedor con el fin de satisfacer las demandas de sus clien-
tes, pero sin que la adquisición de las clases de turrón menos deseadas suponga un gasto
innecesario. Para tratar de comprobar si los porcentajes facilitados por los fabricantes de
turrón son admisibles, se lleva a cabo una desgustación entre 250 clientes seleccionados
al azar, que deben optar por un solo tipo de turrón. Los resultados obtenidos fueron:

Tipo de turrón Número de clientes

Almendra duro 90
Almendra blando 72
Yema tostada 52
Otros 36

Teniendo en cuenta la información de esta muestra, ¿existen motivos para que la


cadena de supermercados considere inadmisibles los porcentajes presentados por la Aso-
ciación de Fabricantes Artesanos de Turrón? Nivel de significación: 5 %.

Sea X la variable que representa el tipo de turrón preferido por un consu-


Solución
midor. Según la asociación, la distribución de probabilidad correspondien-
te a X sería:

© Ediciones Pirámide 133


Ejercicios de inferencia estadística y muestreo

Turrón (xi) pi = P(X = xi)

Almendra duro 0,35


Almendra blando 0,30
Yema tostada 0,20
Otros 0,15

Se pretende contrastar si las frecuencias obtenidas con las observaciones de los 250
clientes presentan diferencias significativas con las que cabría esperar si la afirmación de
la asociación fuera cierta; es decir, se trata de un contraste de bondad de ajuste:

H0 : p1 = 0,35; p2 = 0,30; p3 = 0,20; p4 = 0,15


H1: Al menos una pi toma un valor diferente a los anteriores

que puede realizarse mediante el estadístico c2 de Pearson:

k
(ni − Ei )2 k
(ni − npi )2
χ2 = ∑ E = ∑ np ~ χ k2 − h − 1
H0
i =1 i i =1 i

donde
k: Número de categorías de X (después de agrupar si fuera necesario).
h: Número de parámetros estimados con la muestra.
k
n: ∑ ni > 30.
i =1

Ei : npi > 5, ∀ i.

Si alguna frecuencia esperada, Ei, no es superior a cinco, entonces se agruparía con


las categorías adyacentes hasta que se verificara la condición que permite la aproxima-
ción a la distribución c2 para el estadístico del contraste.
Realizamos los cálculos en la siguiente tabla:

Turrón (xi) ni pi = P(X = xi) Ei = npi (ni – Ei)2 (ni – Ei)2/Ei


H0

Almendra duro 90 0,35 87,5 6,25 0,07


Almendra blando 72 0,30 75,0 9,00 0,12
Yema tostada 52 0,20 50,0 4,00 0,08
Otros 36 0,15 37,5 2,25 0,06

n = 250 1,00 0,33

134 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Se observa que todas las Ei son mayores que cinco, por lo que no hay que realizar
agrupaciones. Así, la distribución del estadístico bajo H0 será:

χ 2 H~ χ k2 − h − 1 ≡ χ 42 − 0 − 1 ≡ χ 32
0

rechazando H0, al nivel de significación a = 0,05, si:

χ exp
2
> χ12− α

donde c21 – a se busca en la tabla 9, de manera que:

P( χ 32  χ12− α ) = 1 − α = 1 − 0,05 = 0,95

de donde:

χ12− α = 7,81

Como el valor experimental es:

χ exp
2
= 0,33 < χ12− α = 7,81

entonces no se rechaza H0 y, por tanto, con un 5 % de significación y con estos datos


muestrales, no existirían motivos para considerar inadmisibles los porcentajes de la Aso-
ciación de Fabricantes Artesanos de Turrón.

Una entidad bancaria trata de analizar si es rentable mantener en servicio


Ejercicio 3.2
el cajero automático situado en la plaza de cierta localidad. Para ello,
decide estudiar el número de clientes por hora que acuden a este cajero a realizar sus
operaciones. Durante 90 horas punta de días laborables elegidos al azar, se obtuvieron
los siguientes resultados:

Número de clientes Número de horas

0 15
1 5
2 25
3 40
4 2
5 1
6 o más 2

© Ediciones Pirámide 135


Ejercicios de inferencia estadística y muestreo

¿Indican estos datos que se trata de una distribución de Poisson con media tres clien-
tes por hora? Nivel de significación: 1 %.

Sea X = «Número de clientes por hora que acuden a este cajero». Se trata
Solución
de contrastar:

H0 : X~ ᏼ(3)
/ ᏼ(3)
H1: X ~

para lo cual podemos utilizar el estadístico c2 de Pearson de bondad de ajuste:

k
(ni − npi )2
χ2 = ∑ np ~ χ k2 − h − 1
H0
i =1 i

Mediante las probabilidades teóricas, pi, obtenidas en la tabla 5 para l = 3, construi-


mos la tabla de frecuencias observadas (ni) y teóricas (Ei), realizando las agrupaciones
necesarias hasta conseguir todas las frecuencias teóricas superiores a 5:

Número Número
de clientes de horas pi H= P(X = xi) Ei = npi (ni – npi)2 (ni – npi)2/npi
0
xi ni

0
冥 冥 冥
15 0,0498 4,482
1 20 17,928 (20 – 17,928)2 0,2395
1 5 0,1494 13,446
2 25 0,2240 20,160 (25 – 20,160) 2
1,1620
3 40 0,2240 20,160 (40 – 20,160)2 19,5251
4 2 0,1680 15,120 (2 – 15,120)2 11,3846
5 1 0,1008 9,072 (1 – 9,072)2 7,1822
6 2 0,0839 7,551 (2 – 7,551)2 4,0807

n = 90 43,5741

Por tanto, la distribución del estadístico de prueba y la región crítica serán:

χ 2 H~ χ k2 − h − 1 ≡ χ 62 − 0 − 1 ≡ χ 52
0

136 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

χ25

0,99

= 0,01

χ21– = 15,09

y como el valor experimental, c2exp = 43,5741, es superior al valor crítico, c21 – a = 15,09,
entonces, al 1 % de significación, los datos de la muestra presentan evidencia suficiente
para rechazar H0, con lo cual no se admite que el número de clientes por hora siga una
distribución de Poisson con media 3.

Cierta universidad posee un programa de concesión de becas para rea-


Ejercicio 3.3
lizar colaboraciones en los departamentos. Las cuantías de las becas
varían según la dedicación y el tipo de colaboración que realicen los alumnos. Exa-
minada una muestra aleatoria de 150 becas concedidas, se obtuvieron los siguientes
resultados:

Cuantía de la beca
Número de becas
(euros por semana)

[40, 50] 9
(50, 60] 24
(60, 65] 28
(65, 70] 35
(70, 75] 30
(75, 80] 21
(80, 100] 3

¿Puede decirse, a la vista de estos datos y utilizando un 5 % de significación, que las


cuantías de las becas se conceden de acuerdo a una distribución normal?

© Ediciones Pirámide 137


Ejercicios de inferencia estadística y muestreo

Representamos con la variable aleatoria X la cuantía de una beca (euros por


Solución
semana). De esta variable se ha observado una muestra aleatoria X1, ..., X150,
y los resultados han sido clasificados en siete intervalos. Para contrastar si la distribución
de las cuantías de las becas es normal, planteamos las siguientes hipótesis:

H0 : X~ N ( μ, σ )
/ N ( μ, σ )
H1: X ~

Puesto que los datos están agrupados por intervalos, este contraste puede realizarse
utilizando el test c2 de Pearson de bondad de ajuste; para ello, necesitamos estimar los
parámetros poblacionales, m y s, mediante sus estimadores de máxima verosimilitud:

1 k
μˆ = X = ∑ Xi ni
n i =1

1 k
σˆ 2 = S ′ 2 = ∑ ( Xi − X )2 ni
n i =1

Realizamos los cálculos en la tabla siguiente:

(Li, Li + 1] xi = (Li + Li + 1)/2 ni xi n i xi2ni

[40, 50] 45,0 9 405,0 18.225,00


(50, 60] 55,0 24 1.320,0 72.600,00
(60, 65] 62,5 28 1.750,0 109.375,00
(65, 70] 67,5 35 2.362,5 159.468,75
(70, 75] 72,5 30 2.175,0 157.687,50
(75, 80] 77,5 21 1.627,5 126.131,25
(80, 100] 90,0 3 270,0 24.300,0

n = 150 9.910,0 667.787,5

Por tanto, las estimaciones máximo verosímiles serán:

1 k 9.910
x= ∑
n i =1
xi ni =
150
= 66,07

1 k 1 k
冢 冣 = 87,11
1 9.910 2
s′2 = ∑
n i =1
( xi − x )2 ni = ∑ xi2 ni − x 2 =
n i =1 150
⋅ 667.787,5 −
150

s′ = 87,11 = 9,33

138 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Así, el contraste c2 de Pearson de bondad de ajuste a realizar será:

H0 : X ~ N (66,07; 9,33)
/ N (66,07; 9,33)
H1: X ~

cuyo estadístico de prueba es:


k
(ni − Ei )2
χ2 = ∑ Ei
~ χ k2 − h − 1
H0
i =1

donde:
Ei : npi > 5, ∀ i = 1, ..., 7.
n: n1 + L + nk = 150 > 30.
pi: Probabilidad de cada intervalo bajo H0 cierta.
k: Número de intervalos o categorías de X después de agrupar si fuera preciso.
h: Número de parámetros estimados con la misma muestra que utilizamos para rea-
lizar el contraste. En este caso, h = 2, pues se han estimado los parámetros m y s.
Para calcular las frecuencias esperadas necesitamos las probabilidades teóricas obte-
nidas, suponiendo que H0 fuera cierta:

pi H= P( Li < X  Li + 1 ) , i = 1,..., 7
0

Si H0 fuera cierta, entonces:

X − 66,07
Z= ~ N (0, 1)
H0
9,33

Por tanto, tipificando y utilizando la tabla 7, las probabilidades teóricas serán:

p1 = P( 40  X  50) = P 冢 40 −9,3366,07  Z  50 −9,3366,07 冣 = P(− 2,79  Z  − 1,72) =


= P( Z  − 1,72) − P( Z < − 2,79) H= 0,0427 − 0,0026 = 0,0401
0

p2 = P(50 < X  60) = P 冢 50 −9,3366,07 < Z  60 −9,3366,07 冣 = P(− 1,72 < Z  − 0,65) =
= P( Z  − 0,65) − P( Z  − 1,72) H= 0,2578 − 0,0427 = 0,2151
0

© Ediciones Pirámide 139


Ejercicios de inferencia estadística y muestreo

p3 = P(60 < X  65) = P( − 0,65 < Z  − 0,11) H= 0, 4562 − 0,2578 = 0,1984


0

p4 = P(65 < X  70) = P( − 0,11 < Z  0, 42) H= 0,6628 − 0, 4562 = 0,2066


0

p5 = P( 70 < X  75) = P( 0, 42 < Z  0,96) H= 0,8315 − 0,6628 = 0,1687


0

p6 = P(75 < X  80) = P(0,96 < Z  1, 49) H= 0,9319 − 0,8315 = 0,1004


0

p7 = P(80 < X  100) = P(1, 49 < Z  3,64) H≈ 1 − 0,9319 = 0,0681


0

Con estas probabilidades obtenemos la siguiente tabla:

Li – Li + 1 ni pi Ei = npi (ni – Ei)2 (ni – Ei)2/Ei

40-50 9 0,0401 6,015 8,9102 1,4813


50-60 24 0,2151 32,265 68,3102 2,1172
60-65 28 0,1984 29,76 3,0976 0,1041
65-70 35 0,2066 30,99 16,0801 0,5189
70-75 30 0,1687 25,305 22,0430 0,8711
75-80 21 0,1004 15,06 35,2836 2,3429
80-100 3 0,0681 10,215 52,0562 5,0961

n = 150 0,9974 ≈ 1 12,5316

Como todos los valores Ei son mayores que cinco, no se han realizado agrupaciones
de los intervalos. Por tanto, k = 7, y la distribución del estadístico de prueba, si la hipó-
tesis nula es cierta, será:

χ 2 H~ χ k2 − h − 1 ≡ χ 72 − 2 − 1 ≡ χ 42
0

Rechazando H0, al 1 % de significación, si:

χ exp
2
> χ12− α

con c21 – a tal que:

P( χ 42  χ12− α ) = 1 − α = 1 − 0,01 = 0,99

utilizando la tabla 9:

χ12− α = 13,28

140 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Como:

χ exp
2
= 12,5316 < χ12− α = 13,28

entonces no se rechaza H0 al 1 % de significación y, por tanto, las cuantías de las becas


concedidas pueden suponerse normalmente distribuidas.

La editorial Lea, S. A. está realizando una campaña de suscripción per-


Ejercicio 3.4
sonalizada para la venta de una colección de libros de próxima apari-
ción. Uno de los agentes comerciales de esta editorial visita cada día ocho hogares
previamente concertados. Los resultados sobre el número de suscripciones diarias que
este agente consiguió durante un período de 150 días aparecen recogidos en la siguiente
tabla:

Número de Número
suscripciones de días

0 4
1 15
2 30
3 43
4 31
5 18
6 5
7 3
8 1

Contraste, utilizando un 10 % de significación, si el número de suscripciones diarias


conseguidas por este agente puede considerarse una variable aleatoria distribuida según
un modelo binomial.

Definimos la variable aleatoria X como el número de suscripciones con-


Solución
seguidas por el agente en las ocho visitas que realiza un día. Se pretende
contrastar las hipótesis:

H0 : X~ B(n, p)
/ B(n, p)
H1: X ~

© Ediciones Pirámide 141


Ejercicios de inferencia estadística y muestreo

donde n = 8 (pues cada día visita ocho hogares) y p es el parámetro que representa la
probabilidad de conseguir una suscripción, cuyo estimador de máxima verosimilitud es:

X X
p̂ = =
n 8

Como:

1 r 477
x= ∑
150 i = 1
xi ni =
150
= 3,18

entonces:

477
150 3,18
pˆ = = = 0,3975 ≈ 0, 40
8 8

y, por tanto, el contraste a realizar quedará como:

H0 : X~ B(8; 0,40)
/ B(8; 0,40)
H1: X ~

Podemos utilizar el contraste c2 de Pearson de bondad de ajuste, cuyo estadístico de


prueba es:

k
(ni − npi )2
χ2 = ∑ np ~ χ k2 − h − 1
H0
i =1 i

Para calcular su valor experimental obtenemos las probabilidades teóricas, pi, bajo la
hipótesis nula, es decir, en la tabla de probabilidades de una B(8; 0,40), y comprobamos
que las frecuencias esperadas, Ei = npi, sean todas superiores a cinco; en caso contrario,
se realizará una agrupación. Los cálculos necesarios aparecen en la tabla siguiente:

142 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Número de Número
suscripciones de días pi = P(X = xi) Ei = npi (ni – npi)2 (ni – npi)2/npi
H0
xi ni

冥 冥 冥
0 4 0,0168 2,520
1 19 15,96 (19 – 15,96)20 0,5790
1 15 0,0896 13,440
2
2 30 0,2090 31,350 (30 – 31,35) 0 0,0581
3 43 0,2787 41,805 (43 – 41,805)2 0,0342
4 31 0,2322 34,830 (31 – 34,83)20 0,4212
5 18 0,1239 18,585 (18 – 18,585)2 0,0184

冥 冥 冥
6 5 0,0413 6,195
7 6 3 9 0,0079 1,185 7,485 (9 – 7,485)20 0,3066
8 1 0,0007 0,105

n = 150 1,4175

Como se han realizado agrupaciones, por la existencia de frecuencias esperadas infe-


riores a 5, y se ha estimado un parámetro, entonces la distribución del estadístico de
prueba bajo la hipótesis nula será:

χ 2 H~ χ 62 − 1 − 1 ≡ χ 42
0

y la región crítica viene determinada por los valores mayores que c20,90, donde se tiene:

P( χ 42 > χ 02,90 ) = 0,10 ⇒ χ 02,90 = 7,78

Por tanto, al ser:

χ exp
2
= 1, 4175 < χ 02,90 = 7,78

no hay motivos suficientes para rechazar la hipótesis nula, por lo que admitimos la dis-
tribución B(8; 0,40) como válida para el número de suscripciones diarias conseguidas
por el agente.

En un centro autorizado por la Dirección General de Tráfico para reali-


Ejercicio 3.5
zar la Inspección Técnica de Vehículos (ITV) se ha seleccionado al
azar un período de cinco horas, recogiéndose los datos correspondientes a los vehículos
y sus horas de llegada. Los tiempos transcurridos entre dos llegadas sucesivas se resu-
men de la siguiente forma:

© Ediciones Pirámide 143


Ejercicios de inferencia estadística y muestreo

Tiempo entre dos


Número
llegadas sucesivas
de vehículos
(minutos)

5 25
(5, 10] 42
(10, 20] 30
(20, 30] 15
Más de 30 3

A la vista de estos datos, y con un 10 % de significación, ¿es admisible el modelo


exponencial para la distribución del tiempo transcurrido entre dos llegadas sucesivas de
vehículos?

Sea la variable aleatoria X la que representa el tiempo transcurrido entre


Solución
dos llegadas. Si X tuviera una distribución exponencial, entonces su corres-
pondiente función de densidad y de distribución serían, respectivamente:

f ( x ) = ae − ax , x>0
F( x ) = 1 − e − ax , x>0
con
1 1
E[ X ] = y Var [ X ] =
a a2
El contraste que se pretende realizar es:

H0 : X ~ Exp (a)
/ Exp (a)
H1: X ~

que puede realizarse utilizando el estadístico c2 de Pearson de bondad de ajuste, puesto


que los datos están agrupados en cinco categorías. Para utilizar este test, hay que estimar
el parámetro a mediante máxima verosimilitud:
n
− a ∑ xi
− ax1 − ax n
L( x1 ,..., xn ; a) = ae ⋅…⋅ ae =a e
n i =1

n
ln L( x1 ,..., xn ; a) = n ln a − a ∑ xi
i =1

∂ ln L( x1 ,..., xn ; a) n n
= − ∑ xi
∂a a i =1

144 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

igualando esta derivada a cero:

n
n − a ∑ xi = 0
i =1

n 1
aˆ = n =
x
∑ xi
i =1

Por tanto, calculamos la media muestral para las observaciones obtenidas, teniendo
en cuenta que el tiempo entre llegadas es superior o igual a cero e inferior o igual a 300
minutos (5 horas · 60 = 300).

(Li, Li + 1] ni xi xini

[0, 5] 25 2,5 62,5


(5, 10] 42 7,5 315,0
(10, 20] 30 15,0 450,0
(20, 30] 15 25,0 375,0
(30, 300] 3 165,0 495,0

n = 115 1.697,5

1 k 1.697,5
x= ∑
n i =1
xi ni =
115
≈ 14,76

Por tanto, la estimación correspondiente al parámetro a y las hipótesis del contraste


serán:

1 1
aˆ = = = 0,07
x 14,76
H0 : X~ Exp (0,07)
/ Exp (0,07)
H1: X ~

El estadístico c2 de Pearson de bondad de ajuste es:

k
(ni − Ei )2
χ2 = ∑ Ei
~ χ k2 − h − 1
H0
i =1

© Ediciones Pirámide 145


Ejercicios de inferencia estadística y muestreo

donde:
Ei : npi > 5, ∀ i.
n: n1 + L + nk = 115 > 30.
pi: Probabilidades asignadas a los intervalos bajo la hipótesis nula.
h: Número de parámetros estimados con la muestra; en este caso, h = 1.
k: Número de categorías después de agrupar si ocurriera que Ei  5 para algún Ei.
Calculemos las probabilidades teóricas de los intervalos:

p1 = P( X  5) = F(5) = 1 − e − 5a H= 1 − e − 0,07 ⋅ 5 = 0,2953


0

p2 = P(5 < X  10) = F(10) − F(5) H= 1 − e − 10 ⋅ 0,07 − 0,2953 =


0

= 0,5034 − 0,2953 = 0,2081


p3 = P(10 < X  20) = F(20) − F(10) H= 1 − e − 20 ⋅ 0,07 − 0,5034 =
0

= 0,7534 − 0,5034 = 0,25


p4 = P(20 < X  30) = F (30) − F (20) H= 1 − e − 30 ⋅ 0,07 − 0,7534 =
0

= 0,8775 − 0,7534 = 0,1241


p5 = P(30 < X  300) = F (300) − F (30) H= 1 − e − 300 ⋅ 0,07 − 0,8775 =
0

≈ 1 − 0,8775 = 0,1225

Utilizando estas probabilidades, realizamos los cálculos en la siguiente tabla:

(Li, Li + 1] ni pi Ei = npi (ni – Ei)2/Ei

[0, 5] 25 0,2953 33,9595 2,3638


(5, 10] 42 0,2081 23,9315 13,6419
(10, 20] 30 0,2500 28,7500 0,0543
(20, 30] 15 0,1241 14,2715 0,0372
(30, 300] 3 0,1225 14,0875 8,7264

n = 115 1,0000 24,8236

Como ninguna Ei es inferior o igual a cinco, no hay necesidad de realizar agrupacio-


nes, con lo cual el valor de k es 5 y la distribución del estadístico c2 de Pearson es:

χ 2 H~ χ k2 − h − 1 ≡ χ 52 − 1 − 1 ≡ χ 32
0

146 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

La región crítica se representa gráficamente como:

χ23

1– = 0,90

= 0,10

χ21–

y la hipótesis nula será rechazada si:

χ exp
2
> χ12− α

donde c21 – a es tal que:

P( χ 32 > χ12− α ) = α = 0,10

Utilizando la tabla 9, tenemos que:

χ12− α = 6,25

como

χ exp
2
= 24,8236 > χ12− α = 6,25

se rechaza la hipótesis nula con un 10 % de significación, es decir, el modelo Exp (0,07)


no es admisible para la distribución del tiempo transcurrido entre llegadas sucesivas a
este centro de ITV.

© Ediciones Pirámide 147


Ejercicios de inferencia estadística y muestreo

En una comunidad de vecinos, los gastos de agua caliente y fría son cos-
Ejercicio 3.6
teados hasta el momento con el dinero de la comunidad. En la última
reunión celebrada, algunos vecinos propusieron modificar este sistema, de manera que
la comunidad pagase sólo hasta una determinada cantidad anual de agua caliente por vi-
vienda, debiendo abonar el propietario el gasto por la cantidad restante. Para determinar
cuál debería ser la cantidad máxima anual por vivienda que pagaría la comunidad, se
seleccionaron al azar 15 viviendas, contabilizándose en ellas la cantidad de agua caliente
gastada (en m3) al año. Los resultados obtenidos fueron:

78 73 132 66 102
96 82 67 79 75
85 68 85 92 68

Contraste, utilizando un nivel de significación del 1 %, si el consumo anual de agua


caliente en esta comunidad se distribuye normalmente.

Definimos X = «Consumo anual de agua caliente en una vivienda de la


Solución
comunidad». De esta variable se ha seleccionado una muestra aleatoria de
tamaño 15, X1, ..., X15 y se pretende contrastar, utilizando la información muestral, si la
variable aleatoria X sigue una distribución normal. Por tanto, planteamos las hipótesis:
H0 : La muestra aleatoria procede de una distribución normal con media y desvia-
ción típica desconocidas.
H1: La muestra no procede de una población normal.
o bien, si F(x) es la función de distribución desconocida de X, entonces:
H0 : F(x) es la función de distribución de una normal.
H1: F(x) no es la función de distribución de una normal.
Como los datos no están agrupados y, además, el tamaño muestral es pequeño, no
utilizaremos el contraste c2 de Pearson de bondad de ajuste. Sin embargo, podemos con-
trastar las hipótesis anteriores mediante el test de normalidad de Lilliefors y mediante el
test de normalidad de Shapiro-Wilks. En ambos, la hipótesis de normalidad aparece sin
especificar los parámetros poblacionales media y desviación típica.

Contraste de normalidad de Lilliefors

Para realizar este contraste a partir de la información de X1, ..., X15, calculamos, en
primer lugar, la media y la varianza muestral:

148 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

1 n 1.248
x= ∑
n i =1
xi =
15
= 83,2

⎡ 2⎤

冢∑ x 冣 ⎥⎥
n
⎢ i

冤 冥
n
1 1 ⎢n 2 i =1 1 (1.248)2
s =
2
∑ ( xi − x ) = n − 1 ⎢ ∑ xi −
n − 1 i =1
2
n
=
⎥ 14 108. 054 −
15
=
⎣i = 1 ⎦
= 301, 4571
s= s2 = 301, 4571 = 17,3625

En segundo lugar, tipificamos las observaciones originales:

xi − x xi − 83,2
zi = = , i = 1,..., 15
s 17,3625

cuyos valores incorporaremos a la tabla en la que se realizarán todos los cálculos.


El estadístico del contraste de Lilliefors es el mismo que para el de Kolmogorov-
Smirnov, pero construido sobre los valores tipificados:

Dn′ = máx 冟Fn ( z ) − F0 ( z )冟


z

con F0 la función de distribución correspondiente a la N(0, 1) y Fn la función de distri-


bución empírica de las observaciones muestrales tipificadas.
La región crítica o de rechazo de H0 viene determinada por el valor D¢a, tal que:

P( Dn′ > Dα′ / H0 ) = α

Utilizando la tabla 15 con a = 0,05 y n = 15, se tiene:

Dα′ = 0,257

rechazándose la hipótesis de normalidad si:

Dn,′ exp > Dα′ = 0,257

© Ediciones Pirámide 149


Ejercicios de inferencia estadística y muestreo

Para calcular el valor experimental del estadístico de prueba, ordenamos las observa-
ciones muestrales de menor a mayor, calculamos F0 (zi), Fn (zi) y obtenemos los valores:

ai = 冟F0 ( zi ) − Fn ( zi )冟
bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟

Organizamos los cálculos en la siguiente tabla, teniendo en cuenta que:


N ( z ) Número de observaciones  z
Fn ( z ) = =
n n

xi ni xini xi2ni zi Fn(zi) F0(zi) ai = 兩F0(zi) – Fn(zi)兩 bi = 兩F0(zi) – Fn(zi – 1)兩

66 1 66 4.356 – 0,99 0,0667 0,1611 0,0944 0,1611


67 1 67 4.489 – 0,93 0,1333 0,1762 0,0429 0,1095
68 2 136 9.248 – 0,88 0,2667 0,1894 0,0773 0,0561
73 1 73 5.329 – 0,59 0,3333 0,2776 0,0557 0,0109
75 1 75 5.625 – 0,47 0,4000 0,3192 0,0808 0,0141
78 1 78 6.084 – 0,30 0,4667 0,3821 0,0846 0,0179
79 1 79 6.241 – 0,24 0,5333 0,4052 0,1281 0,0615
82 1 82 6.724 – 0,07 0,6000 0,4721 0,1279 0,0612
85 2 170 14.450 0,10 0,7333 0,5398 0,1935 0,0602
92 1 92 8.464 0,51 0,8000 0,6950 0,1050 0,0383
96 1 96 9.216 0,74 0,8667 0,7704 0,0963 0,0296
102 1 102 10.404 1,08 0,9333 0,8599 0,0734 0,0068
132 1 132 17.424 2,81 1,0000 0,9975 0,0025 0,0642

15

A partir de la tabla:
Dn′, exp = máx{ai , bi} = 0,1935 < 0,257 = Dα′
i

Por tanto, al 1 % de significación, no se rechaza la hipótesis de normalidad de la


distribución del agua caliente consumida.

Contraste de normalidad de Shapiro-Wilks


Para realizar el contraste, utilizaremos el estadístico W de Shapiro-Wilks:

冤∑ ai ( X(n − i +1) − X(i) )冥


k 2

i =1
W= n
∑ ( Xi − X ) 2
i =1

150 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

donde:
n − 1 15 − 1
k= = = 7 ( pues n = 15 impar; si n fuera par, el valor de k sería igual a
2 2
n / 2).
ai, i = 1, ..., k son los coeficientes de normalidad de Shapiro-Wilks.
X (i) es el estadístico ordenado de orden i (la observación i-ésima más pequeña).
Con este estadístico, rechazaremos H0 si:

Ŵ < Wα
siendo Wa el valor, tal que:

P[W < Wα / H0 ] = α

Este valor crítico puede encontrarse en la tabla 17 utilizando n = 15 y a = 0,01, con


lo cual:

Wa = 0,835

Para calcular el valor experimental, Ŵ, ordenamos las observaciones de menor a


mayor:

X(1) = 66 ; X( 2 ) = 67 ; X( 3) = 68 ; X( 4 ) = 68 ; X( 5) = 73
X( 6 ) = 75 ; X( 7) = 78 ; X(8) = 79 ; X( 9 ) = 82 ; X(10 ) = 85
X(11) = 85 ; X(12 ) = 92 ; X(13) = 96 ; X(14 ) = 102 ; X(15) = 132

buscamos los coeficientes ai en la tabla 16 con n = 15 y calculamos las diferencias


(X (n – i + 1) – X (i)):

ai X(n – i + 1) – X(i) ai(X(n – i + 1) – X(i))

0,5150 132 – 66 = 66 33,9900


0,3306 102 – 67 = 35 11,5710
0,2495 96 – 68 = 28 6,9860
0,1878 92 – 68 = 24 4,5072
0,1353 85 – 73 = 12 1,6236
0,0880 85 – 75 = 10 0,8800
0,0433 82 – 78 = 4 0,1732
0,0000 79 – 66 = 66 00,000

59,7310

© Ediciones Pirámide 151


Ejercicios de inferencia estadística y muestreo

El denominador de W se obtiene como:

∑ ( xi − x )2 = ∑ xi2 − nx 2 = 108.054 − 15 ⋅ 冢 冣
n n
1.248 2 (1.248)2
D= = 108.054 − = 4.220, 4
i =1 i =1 15 15

Por tanto:

冤∑ a ( X 冥
k 2
i ( n − i + 1) − X( i ) )
i =1 [59,731]2
Wˆ = n = = 0,8454
4.220, 4
∑ ( xi − x ) 2
i =1

Como:

Wˆ = 0,8454 > Wα = 0,835

entonces, al 1 % de significación, no se rechaza la hipótesis de normalidad del consumo


anual de agua caliente.

En cierto ministerio se van a realizar unas oposiciones que permiten


Ejercicio 3.7
acceder al cuerpo de funcionarios del mismo. La primera prueba con-
siste en un examen tipo test con 100 preguntas. Los candidatos deben superar al menos
la mitad de ellas para poder realizar los siguientes exámenes. Uno de los miembros del
tribunal cree que este test está planteado de tal manera que la proporción de respuestas
acertadas que obtendrá cada opositor es una variable aleatoria cuya función de densidad
viene dada por:

⎧6 x (1 − x ) si 0  x  1
f ( x) = ⎨
⎩0 en caso contrario

Al finalizar la prueba se seleccionaron aleatoriamente los tests realizados por 12


opositores, que obtuvieron las siguientes puntuaciones:

50, 80, 42, 95, 80, 52, 40, 82, 56, 85, 46, 60

¿Existen motivos para sospechar que esta persona está equivocada al suponer la fun-
ción de densidad anterior como modelo de distribución para la proporción de respuestas
acertadas? Nivel de significación: 1 %.

152 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Sea X la variable aleatoria que representa la proporción de respuestas acer-


Solución
tadas por un opositor en este test. Esta variable aleatoria tendrá una fun-
ción de distribución F(x) desconocida.
Se pretende realizar el siguiente contraste:

H0 : F( x ) = F0 ( x )
H1: F( x ) ≠ F0 ( x )

donde F0 (x) es la función de distribución que se obtiene a partir de f(x):

⎧0 si x < 0

x
⎪ 2
F0 ( x ) = f (t ) dt = ⎨ x (3 − 2 x ) si 0  x < 1
−∞ ⎪1 si x  1

Como el tamaño de la muestra es pequeño, n = 12, utilizaremos el contraste de bon-


dad de ajuste de Kolmogorov-Smirnov para una muestra, cuyo estadístico de prueba es:

Dn = máx 冟F0 ( x ) − Fn ( x )冟
x

con

N ( x ) Número de observaciones muestrales menores o iguales que x


Fn ( x ) = =
n n

Para un nivel de significación a = 0,01, la región crítica está determinada por aquellos
valores de Dn que superen a un valor crítico D a, tal que:

P( Dn > Dα / H0 ) = α

Utilizando la tabla 14 para un test bilateral, se tiene que:

D a = 0,449

y se rechazará H0 cuando Dn,exp > D a.


Gráficamente:

Dn
D = 0,449

© Ediciones Pirámide 153


Ejercicios de inferencia estadística y muestreo

Para calcular el valor experimental, ordenamos las observaciones muestrales de me-


nor a mayor, calculamos F0 (xi), Fn (xi) y obtenemos:

ai = 冟F0 ( xi ) − Fn ( xi )冟
bi = 冟F0 ( xi ) − Fn ( xi − 1 )冟

Recordemos que xi es la proporción de respuestas acertadas por un opositor, es decir:

Puntuación(i )
xi =
100

Puntuación xi = Puntuación(i)/100 ni Fn(xi) F0(xi) ai bi

40 0,40 1 1/12 = 0,083 0,352 0,269 兩0,352 – 0兩 = 0,352,000


42 0,42 1 2/12 = 0,167 0,381 0,214 兩0,381 – 0,083兩 = 0,298
46 0,46 1 3/12 = 0,250 0,440 0,190 0,273
50 0,50 1 4/12 = 0,333 0,500 0,167 0,250
52 0,52 1 5/12 = 0,417 0,530 0,113 0,197
56 0,56 1 6/12 = 0,500 0,590 0,090 0,173
60 0,60 1 7/12 = 0,583 0,648 0,065 0,148
80 0,80 2 9/12 = 0,750 0,896 0,146 0,313
82 0,82 1 10/12 = 0,833 0,914 0,081 0,164
85 0,85 1 11/12 = 0,917 0,939 0,022 0,106
95 0,95 1 12/12 = 1,000 0,993 0,007 0,076

n = 12

Como:

máx{ai , bi} = b1 = 0,352

entonces:

Dn, exp = 0,352 < Dα = 0, 449

por lo que, con los datos de la muestra, y utilizando un 1 % de significación, no existen


motivos para rechazar H0. Por tanto, los datos muestrales no presentan evidencia sufi-
ciente para sospechar que este miembro del tribunal está equivocado, y se acepta así que
la proporción de respuestas acertadas por cada opositor se distribuye según la función
de densidad del enunciado.

154 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

En una determinada región existen tres facultades en las que se cursan


Ejercicio 3.8
estudios de Economía. Un programa de radio universitario pretende de-
batir si la dificultad de estos estudios pudiera estar relacionada con el centro donde se
cursan. Para aportar información al programa, se propuso a los oyentes licenciados en
Economía que llamaran a un teléfono gratuito donde se les realizaría una serie de pre-
guntas. Con la información obtenida se completó la siguiente tabla de frecuencias, en la
que las llamadas han sido clasificadas según el lugar donde se realizaron los estudios y
el tiempo empleado en terminarlos:

Número de años empleados para finalizar


la licenciatura de Economía
Facultad
4 o menos Entre 5 y 6 7 o más

A 300 150 50
B 110 125 90
C 325 350 100

Suponiendo que estos datos pudieran ser considerados como procedentes de una
muestra aleatoria, ¿se podría afirmar que existe alguna relación entre el centro de estu-
dio y el tiempo que un estudiante tarda en terminar su carrera en Economía? Nivel de
significación: 10 %.

Definimos la variable X como la que representa la facultad en la que ha


Solución
estudiado un licenciado en Economía, y la variable Y como aquella que
representa el número de años empleados para finalizar la carrera. Se pretende contras-
tar si existe relación entre estas dos variables o si, por el contrario, son independientes.
Para ello, se utilizará la información de las llamadas telefónicas, que se consideran una
muestra aleatoria con tamaño:

n = 300 + 150 + 50 + 110 + 125 + 90 + 325 + 350 + 100 = 1.600

Las hipótesis a contrastar son:

H0 : X , Y son independientes
H1: X , Y no son independientes

© Ediciones Pirámide 155


Ejercicios de inferencia estadística y muestreo

Para realizar el contraste utilizaremos el test de independencia de la c2 de Pearson,


cuyo estadístico de prueba es:

冢 冣
ni.n. j 2
r s nij −
n
χ2 = ∑∑ ni.n. j
~ χ (2r − 1)( s − 1)
H0
i =1 j =1
n

Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y
las frecuencias esperadas, Eij = ni. n. j /n, no demasiado pequeñas (n > 30 y Eij > 5). Puesto
que n = 1.600 > 30, calculemos los valores de las Eij de acuerdo al siguiente esquema
dentro de cada casilla:

nij Eij
(nij − Eij )2
Eij

Por tanto, tendremos la siguiente tabla:

Facultad 4 o menos 5-6 7 o más ni.

300 229,688 150 195,313 50 75 500


A
21,524 10,513 8,333

110 149,297 125 126,953 90 48,75 325


B
10,344 0,030 34,904

325 356,016 350 302,734 100 116,25 775


C
2,702 7,380 2,272

n. j 735 625 240 1.600 = n

que posee todas las frecuencias esperadas superiores a cinco, por lo que no es preciso
realizar ninguna agrupación, siendo, por tanto, la distribución del estadístico de prueba:

χ2 ~ χ (23 − 1)(3 − 1) ≡ χ 42
H0

156 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

La región crítica correspondiente al test de la c2 de Pearson (tabla 9) es:

χ24

1– = 0,90

= 0,10

χ21– = 7,78

y como el valor experimental es:

χ exp
2
= 21,524 + 10,513 + 8,333 + 10,344 + 0,030 + 34,904 +
+ 2,702 + 7,380 + 2,272 = 98,002

superior al valor crítico c21 – a = 7,78, entonces rechazamos la hipótesis de independencia


al 10 % de significación. Por tanto, existirá alguna relación entre las dos variables.

Las asociaciones de madres y padres de alumnos de los colegios públicos


Ejercicio 3.9
de una determinada ciudad pretenden organizar de forma conjunta las
actividades extraescolares del próximo curso. Para tratar de conocer el interés de los
padres en el tipo de actividades que pueden desarrollar sus hijos, la comisión encargada
decide llevar a cabo una encuesta a una muestra aleatoria de 1.500 padres. Con los datos
de esta encuesta, pudo construirse la siguiente tabla:

Nivel de estudios de los padres


Actividades
Primarios Bachillerato Universitarios

Competiciones deportivas 150 195 175


Talleres creativos en la propia ciudad 90 100 46
Excursiones diversas 60 330 180
Otras 50 75 49

¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye


en el tipo de actividad extraescolar elegida para sus hijos?

© Ediciones Pirámide 157


Ejercicios de inferencia estadística y muestreo

Sea la variable X la que representa el tipo de actividad extraescolar y la


Solución
variable Y la que representa el nivel de estudios de los padres. Estas va-
riables presentan las categorías señaladas en la tabla del enunciado. Para tratar de com-
probar si el nivel de estudios de los padres influye en el tipo de actividad extrescolar,
planteamos un contraste de independencia:
H0 : X , Y son independientes
H1: X , Y no son independientes
que tiene como estadístico de prueba el de la c2 de Pearson:
r s
(nij − Eij )2
χ2 = ∑∑ Eij
~ χ (2r − 1)( s − 1)
H0
i =1 j =1

con
r s
ni.n. j
n= ∑ ∑ nij > 30 y Eij =
n
>5
i =1 j =1

En este caso, n = 1.500 > 30 y calculamos las Eij en la tabla adjunta de acuerdo con
el siguiente esquema para cada una de las celdas:

nij Eij
(nij − Eij )2
Eij

Por tanto, tendremos la siguiente tabla:

Nivel de estudios de los padres


Actividades ni.
Primarios Bachillerato Universitarios

150 121,33 195 242,67 175 156 520


Competiciones deportivas
6,77 9,36 2,31
90 55,07 100 110,13 46 70,8 236
Talleres creativos en la propia ciudad
22,16 0,93 8,69
60 133 330 266 180 171 570
Excursiones diversas
40,07 15,40 0,47
50 40,6 75 81,2 49 52,2 174
Otras
2,18 0,47 0,20
n. j 350 700 450 1.500

158 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Como se aprecia en la tabla, todas las frecuencias esperadas, Eij, son superiores a
cinco, por lo que no es preciso agrupar. Por tanto, la distribución del estadístico c2 de
Pearson será:

χ2 ~ χ (24 − 1)(3 − 1) ≡ χ 62
H0

Su valor experimental se obtiene sumando las cantidades situadas en la parte central


de cada celda:

χ exp
2
= 6,77 + 9,36 + 2,31 + 22,16 + … + 0,20 = 109,01

Como la región crítica del contraste de independencia tiene la forma:

χ26

1– = 0,99

= 0,01

χ21– = 16,81

donde c21 – a = 16,81 ha sido buscado en la tabla 9, de manera que:

P( χ 62  χ12− α ) = α = 0,01

entonces rechazamos la hipótesis de independencia (H0), puesto que:

χ exp
2
= 109,01 > 16,81 = χ12− α

por lo que cabe pensar que el nivel de estudios de los padres influye a la hora de elegir
la actividad extraescolar de sus hijos.

© Ediciones Pirámide 159


Ejercicios de inferencia estadística y muestreo

Uno de los encargados de una planta de montaje tiene la creencia de que


Ejercicio 3.10
el rendimiento de los trabajadores a primera hora de la mañana puede
estar relacionado con el tiempo de viaje para acudir desde sus respectivas residencias
hasta el lugar de trabajo. Para tratar de contrastar esta teoría, una mañana, los encarga-
dos de la planta deciden seleccionar una muestra aleatoria de 300 trabajadores, clasi-
ficándolos en la siguiente tabla según la duración del viaje y el número de unidades
montadas durante la primera hora de trabajo:

Número de unidades montadas durante la primera hora


Tiempo de viaje
(minutos) (0, 5] (5, 10] (10, 15]
(poco eficientes) (eficientes) (muy eficientes)

(0, 15] 2 85 14
(15, 30] 3 80 14
(30, 90] 10 75 17

¿Se encuentra apoyada por estos datos la creencia del encargado con una significa-
ción del 1 %?

Representamos con las variables X e Y el tiempo de viaje y el número de


Solución
unidades montadas, respectivamente.
Si la creencia del encargado es cierta, entonces las variables serían dependientes. Por
tanto, planteamos el contraste:

H0 : X , Y son independientes
H1: X , Y no son independientes

que puede resolverse utilizando como estadístico de prueba el de la c2 de Pearson:

r s
(nij − Eij )2
χ2 = ∑∑ Eij
~ χ (2r − 1)( s − 1)
H0
i =1 j =1

con
r s
ni.n. j
n= ∑ ∑ nij = 300 > 30 y Eij =
n
>5
i =1 j =1

para que la distribución asintótica bajo H0 sea aceptable.

160 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Realizamos los cálculos en la siguiente tabla teniendo en cuenta que la estructura


de cada celda es:

nij Eij
(nij − Eij )2
Eij

Así:

Número de unidades montadas durante la primera hora


Tiempo de viaje ni.
(0, 5] (5, 10] (10, 15]

(0, 15] 2 5,05 85 80,8 14 15,15 101

(15, 30] 3 4,85 80 77,6 14 14,55 97

(30, 90] 10 5,10 75 81,6 17 15,30 102

n. j 15 240 45 300

donde se observa una frecuencia teórica inferior a cinco:

n2.n.1 97 ⋅ 15
E21 = = = 4,85
n 300
Por tanto, habrá que realizar agrupaciones hasta que todas las Eij superen a cinco.
Para tratar de discriminar, por ejemplo, entre los que tienen un tiempo de viaje mode-
rado y los que emplean mucho tiempo, agruparemos la primera y la segunda fila, resul-
tando que la nueva tabla quedará:

Número de unidades montadas durante la primera hora


Tiempo de viaje ni.
(0, 5] (5, 10] (10, 15]

5 9,9 165 158,4 28 29,7 198


(0, 30]
2,43 0,275 0,10

10 5,1 75 81,6 17 15,3 102


(30, 90]
4,71 0,53 0,19

n. j 15 240 45 300

© Ediciones Pirámide 161


Ejercicios de inferencia estadística y muestreo

donde, por ejemplo, los datos correspondientes a la primera celda son:

n11 = 2 + 3 = 5
E11 = 5,05 + 4,85 = 9,9

(n11 − E11 )2 (5 − 9,9)2


= = 2, 43
E11 9,9

La distribución del estadístico de prueba tendrá en cuenta la agrupación realizada:

χ2 ~ χ (22 − 1)(3 − 1) ≡ χ 22
H0

Con los datos de esta segunda tabla calculamos el valor experimental del estadístico:

χ exp
2
= 2, 43 + 0,275 + 0,10 + 4,71 + 0,53 + 0,19 = 8,235

La región crítica correspondiente a este contraste queda gráficamente como:

χ22

0,99 = 0,01

χ21– = 9,21

donde el valor crítico c21 – a se ha buscado en la tabla 9, de manera que:

P( χ 22  χ12− α ) = 1 − α = 0,99

Como c2exp = 8,235 < 9,21 = c21 – a, entonces no se rechaza H0 al 1 % de significación;


por tanto, los datos no apoyan la creencia del encargado.

162 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Un sindicato pretende analizar los accidentes laborales en los sectores


Ejercicio 3.11
de la construcción y de la siderometalurgia. Para ello, toma una mues-
tra aleatoria de 125 empresas dedicadas a la construcción y otra de 75 pertenecientes al
sector de la siderometalurgia. Una vez analizados los porcentajes de accidentes en cada
una de estas empresas, obtiene la siguiente clasificación:

Porcentaje de accidentes
Sector
Menos del 10 % Mayor o igual al 10 %

Construcción 98 27
Siderometalurgia 54 21

¿Presentan estos dos sectores diferencias significativas en cuanto a la cantidad de


accidentes laborales? Nivel de significación: 1 %.

Representamos con X el porcentaje de accidentes en las empresas de estos


Solución
sectores. Para saber si este porcentaje presenta diferencias significativas
entre el sector de la construcción y el de la siderometalurgia, se han seleccionado dos
muestras aleatorias cuyos tamaños respectivos son n1 = 125 (construcción) y n2 = 75 (si-
derometalurgia). Veamos si los porcentajes de accidentes en las empresas de estas mues-
tras son homogéneos:

H0 : Las muestras son homogéneas


H1: Las muestras no son homogéneas

Para realizar este contraste de homogeneidad utilizaremos el estadístico c2 de


Pearson:

r s
(nij − Eij )2
χ = 2
∑∑ Eij
~ χ (2r − 1)( s − 1)
H0
i =1 j =1

donde:

ni m j
Eij = >5
n
n = n1 + n2 = 125 + 75 = 200 > 30

© Ediciones Pirámide 163


Ejercicios de inferencia estadística y muestreo

Para calcular las frecuencias teóricas, Eij, y comprobar que efectivamente son superio-
res a cinco, construimos la tabla adjunta, en la que cada celda posee la siguiente estructura:

nij Eij
(nij − Eij )2
Eij

Porcentaje de accidentes
Sector ni
Menos del 10 % Mayor o igual al 10 %

98 95 27 30 125
Construcción
0,09 0,3

54 57 21 18 75
Siderometalurgia
0,16 0,5

mj 152 48 n = 200

Por ejemplo, los datos de la primera celda corresponden a:

n11 = 98

n1m1 125 ⋅ 152


E11 = = = 95
n 200
(n11 − E11 )2 (98 − 95)2
= = 0,09
E11 95

Se observa que todos los valores Eij son superiores a cinco. Por tanto, la distribución
del estadístico de prueba bajo la hipótesis nula será:

χ2 ~ χ (22 − 1)( 2 − 1) ≡ χ12


H0

y su valor experimental se obtiene como suma de las cantidades centrales de las celdas:

χ exp
2
= 0,09 + 0,3 + 0,16 + 0,5 = 1,05

164 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

La región crítica del test de homogeneidad se obtiene a partir de la tabla 9:

P( χ12  χ12− α ) = 1 − α = 1 − 0,01 = 0,99 ⇒ χ12− α = 6,63

χ21

0,99 = 0,01

χ21– = 6,63

Como c2exp = 1,05 < 6,63, entonces, al 1 % de significación, no se rechaza la hipótesis


H0 de homogeneidad de las muestras. Por tanto, los datos no señalan la existencia de
diferencias significativas en los porcentajes de accidentes laborales.

Un comité de Naciones Unidas está encargado de realizar un estudio


Ejercicio 3.12
para implantar un programa de salud pública en una ciudad de un país
que no dispone de censos fiables. Para conocer la distribución por edades de la pobla-
ción de esta ciudad se toma una muestra aleatoria de individuos en cada uno de los tres
distritos administrativos en que se encuentra dividida. Los resultados obtenidos aparecen
en la siguiente tabla:

Edades
Distritos
Menores de 14 14-24 25-34 35-44 45-64 65 o más

Distrito I 298 120 105 283 134 60


Distrito II 324 149 97 321 217 92
Distrito III 237 94 83 230 175 81

A la vista de estos datos, y con un 5 % de significación, ¿existen diferencias signi-


ficativas en cuanto a la distribución por edades de la población en los tres distritos de
la ciudad?

© Ediciones Pirámide 165


Ejercicios de inferencia estadística y muestreo

Sea X la variable aleatoria que representa la edad de un individuo. En este


Solución
caso se considera dicha variable clasificada en seis intervalos de edades,
que son los que aparecen en la tabla del enunciado. Se han tomado tres muestras alea-
torias, una en cada distrito, de tamaños:

n1 = 298 + 120 + 105 + 283 + 134 + 60 = 1.000


n2 = 324 + 149 + 97 + 321 + 217 + 92 = 1.200
n3 = 237 + 94 + 83 + 230 + 175 + 81 = 900

Si no existieran diferencias en las distribuciones por edades de la población en los


distritos de la ciudad, cabría esperar la homogeneidad de las muestras seleccionadas. Por
tanto, planteamos el contraste:

H0 : Las muestras son homogéneas


H1: Las muestras no son homogéneas

Para tomar la decisión utilizaremos el estadístico c2 de Pearson:

冢 冣
ni m j 2
r s nij −
n
χ2 = ∑∑ ni m j
~ χ (2r − 1)( s − 1)
H0
i =1 j =1
n

Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y
las frecuencias esperadas, Eij = nimj /n, no demasiado pequeñas (n > 30 y Eij > 5). Ahora
bien, n = 1.000 + 1.200 + 900 = 3.100, con lo que se cumple la condición sobre el nú-
mero de individuos. Para calcular las frecuencias esperadas nos ceñiremos al siguiente
esquema:

ni m j
nij Eij =
n
(nij − Eij )2
Eij

166 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Así pues:

Edades
ni
<14 14-24 25-34 35-44 45-64 65

298 277,097 120 117,097 105 91,935 283 269,032 134 169,677 60 75,161 1.000
III
1,577 0,072 1,857 0,725 7,502 3,058

324 332,516 149 140,516 97 110,323 321 322,839 217 203,613 92 90,194 1.200
III
0,218 0,512 1,609 0,010 0,880 0,036

237 249,387 94 105,387 83 82,742 230 242,129 175 152,71 81 67,645 900
III
0,615 1,230 0,0008 0,608 3,254 2,637

mj 859 363 285 834 526 233 3.100

donde, por ejemplo:

1.200 ⋅ 285
E23 = = 110,323
3.100

Como todas las frecuencias esperadas son superiores a cinco, no hay que realizar
ninguna agrupación y, por tanto, la distribución asintótica del estadístico será:

χ2 ~ χ (23 − 1)(6 − 1) ≡ χ102


H0

con lo cual la región crítica se puede obtener utilizando la tabla 9 con 10 grados de
libertad:

P( χ10
2
 χ12− α ) = α = 0,05 ⇒ χ12− α = 18,31

Como el valor experimental del estadístico de prueba es la suma de las cantidades


calculadas en el centro de cada celda, se tiene que:

χ exp
2
= 1,577 + 0,072 + … + 3,254 + 2,637 = 26,4008

y al ser esta cantidad mayor que c21 – a = 18,31, entonces se rechaza H0, es decir, al 5 %
de significación, las observaciones presentan evidencia suficiente para rechazar la hipó-
tesis de homogeneidad de las muestras, existiendo, por tanto, diferencias en cuanto a las
distribuciones por edades de las poblaciones en esos tres distritos.

© Ediciones Pirámide 167


Ejercicios de inferencia estadística y muestreo

Las cotizaciones máximas de las acciones de una determinada compa-


Ejercicio 3.13
ñía durante los 10 últimos días del mes de julio fueron:

15,00; 13,50; 17,25; 19,30; 20,00; 12,65; 14,50; 18,40; 21,00; 17,75

Se quiere comparar estos valores con la media de las cotizaciones alcanzadas duran-
te el mes de mayo, que fue de 18,00 euros. Con una significación del 10 %:
a) ¿Podría decirse que es aleatoria la dirección de las desviaciones de estas cotiza-
ciones con respecto a esta media histórica?
b) Contraste si las cotizaciones de estas acciones pueden considerarse normalmente
distribuidas.

a) Se pretende comprobar si la dirección de las desviaciones de los valo-


Solución
res de las cotizaciones con respecto a 18,00 es o no aleatoria. Por tan-
to, para conseguir una sucesión dicotómica, comparamos cada observación con 18,00 y
sustituimos su valor por el signo S cuando el valor observado supere a esta cantidad, o
por el signo I cuando la observación sea inferior a 18,00. Si hubiera alguna observación
exactamente igual a esta cantidad, se ignoraría y se reduciría el tamaño de la muestra
convenientemente. Así, la sucesión dicotómica quedará:

III冟SS冟II冟SS冟I

y el contraste que hay que realizar queda planteado como:

H0 : La muestra es aleatoria
H1: La muestra no es aleatoria

Utilizaremos el contraste de rachas de Wald-Woffowitz, que tiene por estadístico de


prueba:

R = Número total de rachas

La región crítica de este contraste vendrá dada por:

 /2  /2

k′ /2 k /2

168 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que:

α
P( R  kα′ / 2 )  = 0,05
2
α
P( R  kα / 2 )  = 0,05
2

ya que a no debe superar el nivel de significación fijado (10 %). Utilizando la tabla 20 con:

n1 = Número de signos S = 4
n2 = Número de signos I = 6

tenemos que:

P( R  3) = 0,0476  0,05
P( R  4) = 0,1905 > 0,05

de donde se deduce que k¢a/2 = 3, y, además:

P( R  7) = 0,8810 ⇒ P( R  8) = 1 − 0,8810 = 0,1190 > 0,05


P( R  8) = 0,9762 ⇒ P( R  9) = 1 − 0,9762 = 0,0238  0,05

por lo que k a/2 = 9.


Por tanto, la región de rechazo de H0 será:

3 9

Como el número de rachas en la muestra de las 10 observaciones es:

3 = kα′ / 2 < Rˆ = 5 < kα / 2 = 9

entonces, al 5% de significación, no rechazamos la aleatoriedad en la dirección de las


desviaciones de las cotizaciones con respecto a la media histórica de 18,00 euros.

© Ediciones Pirámide 169


Ejercicios de inferencia estadística y muestreo

b) Llamamos X a la variable aleatoria que representa las cotizaciones de las accio-


nes de la compañía. Se tienen 10 observaciones de X, (X1, ..., X10), que pueden conside-
rarse una muestra aleatoria. Planteamos las siguientes hipótesis:

H0 : La muestra procede de una distribución normal con media y desviación


típica desconocidas
H1: La muestra no procede de una población normal

Como los datos no están agrupados y el tamaño muestral es pequeño, no se utiliza el


test c2 de Pearson de bondad de ajuste, sino los contrastes de normalidad de Lilliefors y
de Shapiro-Wilks. En ninguno de estos dos se especifican los parámetros poblacionales
en la hipótesis de normalidad.

Contraste de normalidad de Lilliefors

Calculamos la media y desviación típica muestrales:

1 n 169,35
x= ∑
n i =1
xi =
10
= 16,935

⎡ 2⎤

冢∑ x 冣 ⎥⎥
n
⎢ i

冤 冥
n
1 1 ⎢n 2 i =1 1 (169,35)2
s =
2
∑ ( xi − x ) = n − 1 ⎢ ∑ xi −
n − 1 i =1
2
n
=
⎥ 9 2. 942,1975 −
10
=
⎣i = 1 ⎦
74,25525
= = 8,250583
9

s= s 2 = 2,8724

Con estos valores tipificamos las observaciones originales, es decir, calculamos:

xi − x xi − 16,935
zi = =
s 2,8724

cuyos valores incorporamos a la tabla de cálculos.

170 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

El estadístico de prueba de Lilliefors se construye sobre los valores tipificados, zi:

Dn′ = máx 冟Fn ( z ) − F0 ( z )冟


z

con F0 (z) la función de distribución de una N(0, 1) y Fn (z) la función de distribución


empírica de la muestra tipificada:

N ( z ) Número de observaciones  z
Fn ( z ) = =
n n

Rechazaremos la hipótesis de normalidad si:

Dn,′ exp > Dα′

siendo D¢a el valor, tal que:

P( Dn′ > Dα′ / H0 ) = α = 0,10

Utilizando la tabla 15, se tiene que:

Dα′ = 0,239

El valor experimental de D¢n se obtiene a partir de la tabla adjunta, donde se han


ordenado las observaciones y calculado F0 (zi), Fn (zi) y:

ai = 冟F0 ( zi ) − Fn ( zi )冟
bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟

xi zi Fn(zi) F0(zi) ai = 兩F0(zi) – Fn(zi)兩 bi = 兩F0(zi) – Fn(zi – 1)兩

12,65 – 1,49 0,1000 0,0681 0,0319 0,0681


13,50 – 1,20 0,2000 0,1151 0,0849 0,0151
14,50 – 0,85 0,3000 0,1977 0,1023 0,0023
15,00 – 0,67 0,4000 0,2503 0,1497 0,0497
17,25 0,11 0,5000 0,5438 0,0438 0,1438
17,75 0,28 0,6000 0,6103 0,0103 0,1103
18,40 0,51 0,7000 0,6950 0,0050 0,0950
19,30 0,82 0,8000 0,7939 0,0061 0,0939
20,00 1,07 0,9000 0,8577 0,0423 0,0577
21,00 1,42 1,0000 0,9222 0,0778 0,0222

© Ediciones Pirámide 171


Ejercicios de inferencia estadística y muestreo

De la tabla anterior, se tiene que:

Dn′, exp = máx{ai , bi} = 0,1497 < 0,239 = Dα′


i

por lo que, al 10 % de significación, no se rechaza la hipótesis nula.

Contraste de normalidad de Shapiro-Wilks

Planteamos la hipótesis de normalidad sin especificar los parámetros poblacionales:

H0 : F( x ) es la función de distribución normal (la muestra procede


de una población normal)
H1: F( x ) no es la función de distribución normal

con X la variable aleatoria que representa las cotizaciones de las acciones y F(x) su
función de distribución, que es desconocida.
El estadístico W de Shapiro-Wilks se obtendrá a partir de la fórmula:

冤∑ ai ( X(n − i +1) − X(i) )冥


k 2

i =1
W= n
∑ ( Xi − X ) 2
i =1

con
n 10
k= = = 5 (pues n es par)
2 2
X (i), el estadístico ordenado de orden i
ai, i = 1, ..., k, los coeficientes del test de Shapiro-Wilks, que se obtienen a partir de
la tabla 16:

a1 = 0,5739 ; a2 = 0,3291 ; a3 = 0,2141 ; a4 = 0,1224 ; a5 = 0,0399

Rechazamos la hipótesis de normalidad, H0, cuando:

Ŵ < Wα
172 © Ediciones Pirámide
Contraste de hipótesis no paramétrico

donde Wa se obtiene a partir de la tabla 17, de manera que:

P[W < Wα / H0 ] = α = 0,10 ⇒ Wα = 0,869

Para calcular el valor experimental, Ŵ, ordenamos las observaciones de menor a


mayor:

X(1) = 12,65 ; X( 2 ) = 13,50 ; X( 3) = 14,50 ; X( 4 ) = 15,00 ; X( 5) = 17,25


X( 6 ) = 17,75 ; X( 7) = 18, 40 ; X(8) = 19,30 ; X( 9 ) = 20,00 ; X(10 ) = 21,00

Organizamos las operaciones en la siguiente tabla:

ai X(n – i + 1) – X(i) ai(X(n – i + 1) – X(i))

0,5739 21,00 – 12,65 = 8,35 4,792065


0,3291 20,00 – 13,50 = 6,50 2,139150
0,2141 19,30 – 14,50 = 4,80 1,027680
0,1224 18,40 – 15,00 = 3,40 0,416160
0,0399 17,75 – 17,25 = 0,50 0,019950

8,395005

y calculamos el denominador de W:

冢∑ x 冣
n 2

n n i
i =1 (169,35)2
D= ∑ ( xi − x ) 2 = ∑ xi2 − n
= 2.942,1975 −
10
= 74,25525
i =1 i =1

Así pues:

[8,395005]2
Wˆ = = 0,949
74,25525

Como:

Wˆ = 0,949 > Wα = 0,869

entonces, al 10 % de significación, no se rechaza la hipótesis de normalidad.

© Ediciones Pirámide 173


Ejercicios de inferencia estadística y muestreo

De una revista de investigación sobre el mercado turístico se han obte-


Ejercicio 3.14
nido los datos correspondientes al número total de turistas que visitaron
España durante el período 1980-1996:

Número de turistas
Año
(miles)

1980 28.900
1981 29.450
1982 25.405
1983 30.125
1984 33.361
1985 31.608
1986 32.950
1987 33.104
1988 33.912
1989 32.342
1990 34.085
1991 34.553
1992 39.897
1993 36.724
1994 38.430
1995 39.324
1996 41.295

¿Confirman estos datos la existencia de tendencia en la serie relativa al número de


turistas que visitan España? Nivel de significación: 1%.

Se trata de intentar detectar la existencia de no aleatoriedad como conse-


Solución
cuencia de la presencia de una tendencia. Para ello, podemos utilizar el
test de rachas unilateral a la izquierda aplicado a la sucesión dicotómica correspondiente
a los signos de las diferencias Di = Xi – Me, donde Me es la mediana muestral. Las hipó-
tesis del contraste pueden formularse como:

H0 : La muestra es aleatoria
H1: Los datos muestrales presentan tendencia

con región crítica o de rechazo de H0 dada por la cola de la izquierda:

k′

174 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

siendo k¢a el mayor entero, tal que:

P( R  kα′ )  α = 0,01

Para determinar este valor crítico y el valor experimental del estadístico de prueba
(R = número total de rachas), transformamos los datos en dicotómicos, asignándoles el
signo correspondiente al valor de las diferencias con respecto a la mediana de la muestra
e ignorando aquellas observaciones cuya diferencia sea nula.
Como en nuestro caso hay 17 observaciones, la mediana será la que ocupe el lugar
noveno ((17 + 1)/2) en la muestra ordenada de menor a mayor:

25.405 ; 28.900 ; 29.450 ; 30.125 ; 31.608 ; 32.342


32.950 ; 33.104 ; 33.361 ; 33.912 ; 34.085 ; 34.553
36.724 ; 38.430 ; 39.324 ; 39.897 ; 41.295

Por tanto:

Me = 33.361

y la sucesión dicotómica de los signos de las diferencias Di = Xi – Me = Xi – 33.361 es:

冟– – – – 0 – – –冟+冟–冟+ + + + + + +冟

Como hay una observación cuya diferencia es cero, ignoramos la observación corres-
pondiente y reducimos en una unidad el tamaño muestral, es decir,

n = 16

Sea:

n1 = «Número de signos +» = 8
n2 = «Número de signos −» = 8
r = «Número de rachas» = 4

Utilizando la tabla 20 con los valores de n1 = 8 = n2, obtenemos que:

P( R  4) = 0,0089  0,01 = α
P( R  5) = 0,0317 > 0,01 = α

© Ediciones Pirámide 175


Ejercicios de inferencia estadística y muestreo

por tanto, el valor crítico será:

kα′ = 4

y rechazaremos la aleatoriedad de la muestra en favor de la existencia de tendencia


cuando:

R̂  4

Como en este caso concreto:

R̂ = r = 4

entonces rechazamos H0, al 1 % de significación, con lo cual los datos indican que existe
tendencia en la serie del número de turistas que visitaron España entre 1980 y 1996.

Una hoja de cálculo proporciona el siguiente valor para el número e:


Ejercicio 3.15

e = 2,71828182845905

Compruebe si estas 15 primeras cifras tienen la propiedad de ser una secuencia de


cifras elegidas de manera aleatoria. Nivel de significación: 10 %.

Como se pretende ver si la sucesión de cifras es aleatoria o no, el contras-


Solución
te a realizar es:

H0 : La muestra es aleatoria
H1: La muestra no es aleatoria

que puede resolverse con el test de rachas de Wald-Wolfowitz utilizando como estadís-
tico de prueba:

R = «Número total de rachas en la muestra»

176 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Para un nivel de significación a = 0,10, la región crítica bilateral vendrá determinada


por aquellos valores k¢a/2 y k a/2 que serán, respectivamente, el mayor y el menor enteros,
tales que:

P( R  kα′ / 2 )  α / 2 = 0,05
P( R  kα / 2 )  α / 2 = 0,05

rechazando H0 cuando R̂  k¢a/2 o cuando R̂  k a/2.


Al tener datos cuantitativos, las rachas se obtendrán asignando un signo + o – a las
diferencias Di = Xi – Me, donde Me es la mediana de la muestra, y despreciando las di-
ferencias iguales a cero con la correspondiente reducción del tamaño muestral.
Calculamos, pues, la mediana muestral ordenando las observaciones de menor a
mayor:

011222455788889

Entonces, como Me = 5, la sucesión de signos correspondientes para aplicar el test


de rachas que se obtiene a partir de la sucesión original es la siguiente:

冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 0冟 + 冟 – 0冟

Como hemos obtenido dos diferencias iguales a cero, reducimos el tamaño muestral
en dos unidades, con lo cual, n = 13, n1 = 6 (número de signos +) y n2 = 7 (número de
signos –). Con estas cantidades buscamos los valores críticos en la tabla 20, donde en-
contramos:

P( R  4) = 0,0425  0,05⎫
⎬ ⇒ kα′ / 2 = 4
P( R  5) = 0,1212 > 0,05 ⎭

y, además, como:

P( R  9) = 0,8788 y P( R  10) = 0,9662

entonces:

P( R  10) = 1 − P( R < 10) = 1 − P( R  9) = 1 − 0,8788 = 0,1212 > 0,05 ⎫


⎬ ⇒ kα / 2 = 11
P( R  11) = 1 − P( R < 11) = 1 − P( R  10) = 1 − 0,9662 = 0,0338  0,05⎭

© Ediciones Pirámide 177


Ejercicios de inferencia estadística y muestreo

y se obtiene la siguiente región crítica:

R
k′ /2 = 4 k /2 = 11

Para calcular el valor experimental, contabilizamos el número de rachas en la mues-


tra, resultando:

R̂ = 13

Como R̂ = 13 > k a/2 = 11, entonces, con un 10 % de significación, se rechaza H0 y,


por tanto, la aleatoriedad en el orden de las 15 primeras cifras del número e.

El día en que determinado centro comercial celebró su noveno aniver-


Ejercicio 3.16
sario, se realizó un sorteo de nueve automóviles entre los clientes que
acudieron a realizar sus compras al supermercado de dicho centro. El sorteo se realizó
ante notario, eligiendo al azar nueve números de registro correspondientes a los tickets
de compras realizadas ese mismo día. El volumen del gasto (en euros) realizado en los
tickets elegidos fue de:

149,99 ; 95,38 ; 154,20 ; 123,00 ; 85,58


203,42 ; 105,00 ; 164,00 ; 82,00

Con un nivel de significación del 10 %, ¿indican los datos que la mitad de los clientes
gastaron como mucho 150,00 euros en el supermercado de este centro comercial?

Sea X = «Gasto realizado por un cliente en el supermercado del centro


Solución
comercial el día del noveno aniversario». La mediana poblacional de esta
variable aleatoria será aquel valor Me, tal que:

50% 50%

Gasto
Me

178 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Por tanto, se pretende contrastar si este valor poblacional es o no 150 euros. Es decir,
la formulación de las hipótesis será:

H0 : Me = 150 = m
H1: Me ≠ 150

Para tomar la decisión podemos utilizar el contraste de signos de la mediana o el de


rangos-signos de Wilcoxon.

Contraste de signos de la mediana

Suponemos que la variable aleatoria X es continua al menos en un entorno alrededor


de su mediana poblacional, Me; es decir, que P(X = Me) = 0. Como el número de obser-
vaciones es igual a nueve, el estadístico de prueba a utilizar será:

S + = «Número de signos + en la muestra»

cuya distribución, si la hipótesis nula es cierta, es:

S+ ~ B(n, 1/ 2)
H0

Para obtener la sucesión de signos + y –, calculamos las desviaciones de las ob-


servaciones con respecto al valor mediano propuesto, m = 150,00, y asignamos el signo
correspondiente, ignorando aquellas observaciones cuya desviación sea nula. Es decir:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 150,00 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos la observación y reducimos n

En este caso, la sucesión de signos quedará como sigue:

– – + – – + – + –

y, por tanto, como no hay valores iguales a cero:

S+ ~ B(n = 9, 1/ 2)
H0

© Ediciones Pirámide 179


Ejercicios de inferencia estadística y muestreo

El valor experimental correspondiente será:

Ŝ + = 3

Como se trata de un contraste bilateral, la región crítica tiene dos colas:

 /2  /2

k′ /2 k /2

donde k¢a/2 y k a/2 son el mayor y el menor entero, respectivamente, tales que, para un
nivel de significación a = 0,10:

P( S +  kα′ / 2 )  α / 2 = 0,05
P( S +  kα / 2 )  α / 2 = 0,05

Utilizando la tabla 2 de la función de distribución para una B(9, 1/2), tenemos que:

P( S +  1) = 0,0195  0,05
P( S +  2) = 0,0898 > 0,05

por tanto:

kα′ /2 = 1

Como además:

P( S +  6) = 0,9102
P( S +  7) = 0,9805

entonces:

P( S +  7) = 1 − P( S + < 7) = 1 − P( S +  6) = 1 − 0,9102 = 0,0898 > 0,05


P( S +  8) = 1 − P( S + < 8) = 1 − P( S +  7) = 1 − 0,9805 = 0,0195  0,05

180 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

con lo cual:

kα /2 = 8

Hay que observar que este último valor puede obtenerse también utilizando la sime-
tría de una B(n, 1/2); por tanto:

kα / 2 = n − kα′ / 2 = 9 − 1 = 8

Así, rechazaremos H0 si:

Sˆ +  kα′ / 2 = 1 o Sˆ +  kα / 2 = 8

Como en este caso:

kα′ / 2 = 1 < Sˆ + = 3 < 8 = kα / 2

entonces no rechazamos H0, al 10 % de significación; por tanto, los datos no contradicen


la afirmación de que la mitad de los clientes gastaron como mucho 150 euros.

Contraste de rangos-signos de Wilcoxon

Suponemos que la distribución de la variable X es continua y simétrica con respecto


a su mediana poblacional. Para aplicar el contraste de rangos-signos de Wilcoxon a las
hipótesis:

H0 : Me = 150,00 = m
H1: Me ≠ 150,00

utilizamos el estadístico:

T + = «Suma de rangos de las Di > 0»

con Di = Xi – m = Xi – 150,00, haciendo las mismas asignaciones de signos + y – que en


el contraste de signos de la mediana, pero calculando además las magnitudes de estas

© Ediciones Pirámide 181


Ejercicios de inferencia estadística y muestreo

diferencias, que serán utilizadas para asignar los rangos correspondientes. Así, obtendre-
mos la siguiente tabla:

xi di = xi – 150,00 Signo Rango de 兩 di 兩

149,99 – 0,01 – 1
95,38 – 54,62 – 7
154,20 4,20 + 2
123,00 – 27,00 – 4
85,58 – 64,42 – 8
203,42 53,42 + 6
105,00 – 45,00 – 5
164,00 14,00 + 3
82,00 – 68,00 – 9

Para calcular los rangos se han ordenado las diferencias en valor absoluto, 冟 di 冟, y se le
ha asignado rango 1 a la menor de ellas y rango 9 a la mayor. Hay que observar que, en
este caso, no existen valores de 冟 di 冟 repetidos ni iguales a cero. Con los datos de la tabla:

T̂ + = 2 + 6 + 3 = 11

Como el contraste es bilateral, la región crítica tendrá dos colas:

 /2 = 0,05  /2 = 0,05

k′ /2 k /2

siendo a = 0,10 el nivel de significación y k¢a/2, k a/2 el mayor y menor entero, respecti-
vamente, tales que:

P(T +  kα′ / 2 )  α / 2 = 0,05


P(T +  kα / 2 )  α / 2 = 0,05

Para obtener estos valores críticos utilizamos la tabla 21 con n = 9, de forma que:

P(T +  kα′ / 2 )  0,05 ⇒ kα′ / 2 = 8


P(T +  kα / 2 )  0,05 = 1 − 0,95 ⇒ kα / 2 = 37

182 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Así pues, como:

8 = kα′ / 2 < Tˆ + = 11 < kα / 2 = 37

con una significación del 10 % no se puede rechazar H0 : Me = 150,00.

Un inversor en bolsa posee acciones en diferentes sectores del mercado


Ejercicio 3.17
continuo de valores. Por diferentes motivos, ha despedido a su asesor.
Con el fin de tener una idea sobre las cotizaciones de sus acciones, el inversor seleccionó
nueve sociedades al azar entre las que tenía participación y revisó sus cotizaciones de
cierre el pasado viernes:

Sociedad Cotización (€)

Telefónica 10,810
BBVA 6,290
BSCH 3,980
Banesto 2,560
Aceralia 3,000
Dragados y Construcciones 4,120
Endesa 3,440
Repsol 6,610
Carrefour 3,000

Utilizando un 10 % de significación, ¿indican estos valores que más de la mitad de


las sociedades en las que participa este inversor presentan cotizaciones superiores a tres
euros?

Representamos con X la cotización de cierre (en euros) de las acciones de


Solución
las sociedades en las que tiene inversiones. Sea Me la mediana poblacional
de la variable aleatoria X; entonces:

50% 50%

Cotizaciones
3 Me

Más del 50%

© Ediciones Pirámide 183


Ejercicios de inferencia estadística y muestreo

Por tanto, las hipótesis que se quieren contrastar se plantean como:

H0 : Me  3
H1: Me > 3

Es decir, se trata de un contraste unilaterial sobre la mediana poblacional, que puede


resolverse utilizando el test de signos de la mediana o el de rangos-signos de Wilcoxon.

Contraste de signos de la mediana

Suponemos que los valores de las cotizaciones son continuos en un entorno alrede-
dor de su mediana. El contraste de signos de la mediana se basa en el estadístico:

S + = «Número de signos + en la muestra» ~ B(n, 1/ 2)


H0

donde los signos + o – vienen dados en función del signo de las diferencias Di:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 3 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos la observación y reducimos
⎩ el tamaño muestral

Con los valores observados, se tiene la siguiente sucesión de signos:

+ + + – 0 + + + 0

Por tanto, el tamaño muestral será n = 7, y la distribución de S + bajo la hipótesis nula:

S+ ~ B(7, 1/ 2)
H0

con Ŝ + = 6 como valor experimental.


La región crítica de este contraste unilateral tendrá la forma:

 = 0,10

0 k n=7

con k a el menor entero, tal que P(S +  k a)  a = 0,10.

184 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Utilizando la tabla 2 para una distribución B(7, 1/2), el valor crítico se obtendrá
teniendo en cuenta que:

P( S +  4) = 0,7734 ⇒ P( S +  5) = 1 − P( S + < 5) = 1 − P( S +  4) = 0,2266 > 0,10


P( S +  5) = 0,9375 ⇒ P( S +  6) = 1 − P( S + < 6) = 1 − P( S +  5) = 0,0625  0,10

y así:

ka = 6

Como el valor experimental, Ŝ + = 6, coincide con el valor crítico, k a = 6, entonces,


al 10 % de significación, se rechaza la hipótesis nula H0 : Me  3, con lo cual los valo-
res observados indican que más de la mitad de las sociedades en las que participa este
inversor presentan cotizaciones superiores a tres euros.

Contraste de rangos-signos de Wilcoxon

Para poder aplicar este contraste supondremos que la variable X es continua y si-
métrica con respecto a su mediana. El test de rangos-signos de Wilcoxon utiliza como
estadístico de prueba:

T + = «Suma de rangos de las Di > 0»

donde los valores de Di y los signos que se les asignan se definen de la misma forma
que en el contraste de signos de la mediana. Para obtener los rangos, se ordenan de
menor a mayor los valores absolutos de las diferencias, es decir, los 冟 di 冟, y se asignan
los rangos o números de orden desde 1 hasta n. Si existen valores de 冟 di 冟 repetidos, el
rango correspondiente será el promedio de los que se les asignarían si fueran diferentes.
En nuestro caso:

xi di = xi – 3

10,810 7,810
6,290 3,290
3,980 0,980
2,560 – 0,440
3,000 0,000
4,120 1,120
3,440 0,440
6,610 3,610
3,000 0,000

© Ediciones Pirámide 185


Ejercicios de inferencia estadística y muestreo

Como hay dos diferencias nulas, entonces, el tamaño muestral se reduce en dos ob-
servaciones:

n=9–2=7

Ordenamos 冟 di 冟 y les asignamos su rango:

冟 di 冟 Signo Rango

0,440 – 1,5
0,440 + 1,5
0,980 + 3,0
1,120 + 4,0
3,290 + 5,0
3,610 + 6,0
7,810 + 7,0

Por tanto, el valor experimental es:

Tˆ + = 1,5 + 3 + 4 + 5 + 6 + 7 = 26,5

La región crítica unilateral tiene la forma:

 = 0,10

k T+

donde k a se busca en la tabla 21 de manera que sea el menor entero que verifique:

P(T +  kα )  α = 0,10 = 1 − 0,90

Así pues, con n = 7:

k a = 23

y como:

Tˆ + = 26,5 > kα = 23

entonces se rechaza H0 al 10 % de significación.

186 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Una agencia inmobiliaria desea adquirir 12 inmuebles que van a ser


Ejercicio 3.18
sometidos a pública subasta en el plazo de un mes. Un perito que traba-
ja en esta agencia ha visitado los inmuebles y ha realizado las tasaciones que consideró
oportunas, teniendo en cuenta las dimensiones, antigüedad, localización geográfica, etc.
Posteriormente, la agencia recibe los valores de los inmuebles correspondientes a las
tasaciones oficiales. Ambas tasaciones, en miles de euros, se recogen en la siguiente
tabla:

Número del inmueble Tasación oficial Tasación privada

1 155 156
2 227 235
3 175 175
4 135 150
5 167 163
6 450 455
7 148 150
8 182 180
9 155 163
10 165 170
11 254 263
12 129 130

Contraste, al 10 % de significación, si hay diferencias entre los valores de tasación


oficiales y los realizados por su propio perito.

Definimos las variables aleatorias X e Y como:


Solución
X = «Tasación oficial del inmueble».
Y = «Tasación de un inmueble realizada por el perito de la agencia».

Podemos considerar los datos correspondientes a los 12 inmuebles como una mues-
tra apareada:

(X1, Y1), ..., (X12, Y12)

Las diferencias entre los valores de tasación oficiales y los realizados por el perito
se definen como:

Di = Xi – Yi , i = 1, ..., 12

© Ediciones Pirámide 187


Ejercicios de inferencia estadística y muestreo

Para contrastar la existencia de diferencias entre las tasaciones, planteamos las hipótesis:

H0 : MeD = 0
H1: MeD ≠ 0

La decisión de rechazar H0 puede tomarse utilizando el contraste de signos de la


mediana, cuyo estadístico de prueba es:

S + = «Número de signos + en la muestra»

cuya distribución bajo la hipótesis nula es:

S+ ~ B(n, 1/ 2)
H0

Los signos + y – se obtienen de la siguiente forma:

⎧> 0 ⇒ Asignamos +

Di = Xi − Yi − 0 ⎨< 0 ⇒ Asignamos −
⎪= 0 ⇒ Ignoramos el par ( X , Y ) y reducimos el tamaño muestral
⎩ i i

En este caso:

Número del inmueble d i = x i – yi

1 –1
2 –8
3 0
4 – 15
5 4
6 –5
7 –2
8 2
9 –8
10 –5
11 –9
12 –1

Como la tasación oficial del tercer inmueble coincide con la del perito de la agencia,
entonces, reducimos el tamaño de la muestra:

n = 12 – 1 = 11

188 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

y, por tanto:

S+ ~ B(11, 1/ 2)
H0

La región crítica del contraste bilateral es:

 /2  /2

k′ /2 k /2

con k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que:

P( S +  kα′ / 2 )  α / 2 = 0,05
P( S +  kα / 2 )  α / 2 = 0,05

Utilizando la tabla 2 para una distribución B(11, 1/2), encontramos:

P( S +  2) = 0,0327  0,05 = α / 2
P( S +  3) = 0,1133 > 0,05

por tanto:

kα′ /2 = 2

y utilizando la simetría de la B(n, 1/2):

kα / 2 = n − kα′ / 2 = 11 − 2 = 9

con lo cual rechazamos H0 si:

Sˆ +  kα′ / 2 = 2

o si:

Sˆ +  kα / 2 = 9

Como en nuestro caso:

Sˆ + = 2  kα′ / 2 = 2

© Ediciones Pirámide 189


Ejercicios de inferencia estadística y muestreo

entonces rechazamos H0, al 10 % de significación, es decir, los datos parecen señalar


la existencia de diferencias entre los valores oficiales y las tasaciones realizadas por el
perito de la agencia.
Como n = 11 > 10, se podría haber utilizado la aproximación normal del estadístico:

S + − E[ S + ] 2S + − n
Z= = N (0, 1)
Var [ S + ] n H0
n→∞

que tiene por valor experimental:

2 ⋅ 2 − 11
zexp = = − 2,11
11

La región crítica bilateral con esta aproximación es:

N(0,1)

/2 = 0,05 /2 = 0,05

–z /2 = – 1,645 z /2 = 1,645

por lo que también rechazamos H0, ya que:

zexp = − 2,11 < − zα / 2 = − 1,645

Para el diseño de un conjunto de estrategias de marketing, el director


Ejercicio 3.19
de un concesionario de automóviles está interesado en obtener informa-
ción sobre las edades de los compradores de un determinado modelo de utilitario. Por
este motivo, se decide registrar la edad de las personas que compran este tipo de coche.
La secuencia obtenida fue la siguiente:

31 26 25 30 34 40 29 24 24 28
31 29 28 25 42 27 36 29 29 34
32 31 32 27 35 31 23 37 28 20
23 34 23 26

190 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Utilizando un 5 % de significación:
a) ¿Debe admitirse en esta serie de edades la aleatoriedad?
b) ¿Señalan los datos que la mitad de las personas que compran este modelo de
coche tienen al menos 30 años?
c) Suponiendo normalidad en las edades de los compradores, ¿puede admitirse que
su edad media supera los 35 años?

Sea la variable aleatoria X = «Edad de una persona que compra este mode-
Solución
lo de coche».
a) Para comprobar si la sucesión de edades es aleatoria, realizamos el siguiente
contraste:

H0 : La muestra es aleatoria
H1: La muestra no es aleatoria

El estadístico de prueba del test de rachas de Wald-Wolfovitz es:

R = «Número de rachas en la muestra»

Como las observaciones son cuantitativas, construimos una sucesión dicotómica asig-
nando a cada observación el signo de su desviación con respecto a la mediana muestral,
me, es decir, el signo de:

Di = Xi − me

Como tenemos 34 datos (par), la mediana de esta muestra será el valor medio de
las observaciones que ocupen los lugares 17 y 18 en la sucesión de edades ordenada de
menor o mayor; una vez hecho esto, se obtendrá que el valor mediano es:

29 + 29
me = = 29
2

con lo cual, la sucesión de signos correspondientes a las diferencias Di obtenidas a partir


de la serie original será:

+冟– –冟+ + + 0冟– – –冟+冟0 – –冟+冟–冟+ 0 0 + + + +冟–冟+ +冟–冟+冟– – –冟+冟– –

© Ediciones Pirámide 191


Ejercicios de inferencia estadística y muestreo

Como hay cuatro observaciones iguales a la mediana, las ignoramos y reducimos el


tamaño de la muestra. Por tanto, ahora tenemos:

n = 34 − 4 = 30
n1 = «Número de signos +» = 15 > 10
n2 = «Número de signos −» = 15 > 10

y al ser n1, n2 > 10, podemos utilizar la aproximación normal:

R − E[ R]
Z= N (0, 1)
Var [ R] H0
n→∞

Utilizando este estadístico de prueba, podemos buscar los valores críticos de la re-
gión de rechazo en la tabla 7:

N(0,1)

0,025 /2 = 0,025

– 1,96 = – z /2 z /2 = 1,96

Para calcular el valor experimental, observamos que:

Rˆ = 16

2 n1n2 2 ⋅ 15 ⋅ 15
E[ R] = +1 = + 1 = 16
n 30
2 n1n2 (2 n1n2 − n) 2 ⋅ 15 ⋅ 15(2 ⋅ 15 ⋅ 15 − 30)
Var [ R] = = = 7,241
n 2 (n − 1) 30 2 (30 − 1)

y así:

Rˆ − E[ R] 16 − 16
zexp = = =0
Var [ R] 7,241

192 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Como:

− 1,96 = − zα / 2 < zexp = 0 < zα / 2 = 1,96

podemos decir que, al 5 % de significación, los datos de esta muestra no presentan evi-
dencia suficiente para rechazar la hipótesis de aleatoriedad (H0), por lo que admitiremos
la aleatoriedad de esta serie de edades.
b) Si llamamos ahora Me a la mediana poblacional, se quiere saber si este valor
coincide con 30:

50%

Me = 30

Por tanto, suponemos que la variable aleatoria X es continua alrededor de la mediana


y utilizaremos la información de la muestra aleatoria (apartado a) para contrastar:

H0 : Me = 30 = m
H1: Me ≠ 30

mediante el contraste de los signos de la mediana o el test de rangos-signos de Wilcoxon.

Contraste de signos de la mediana

Está basado en el estadístico:

S + = «Número de signos + en la muestra»

cuya distribución bajo H0 es:

S+ ~ B(n, 1/ 2)
H0

Para obtener los signos + y –, se calculan las diferencias de cada observación con
respecto al valor propuesto m:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos X y reducimos el tamaño de muestra
⎩ i

© Ediciones Pirámide 193


Ejercicios de inferencia estadística y muestreo

Por tanto, nuestra sucesión de signos será:

+––0++––––+–––+–+––++++–++–+–––+––

y el tamaño muestral definitivo:

n = 34 – 1 = 33 > 10

Como n es suficientemente grande para utilizar la aproximación normal, el estadís-


tico del contraste será:

S + − E[ S + ] S+ − n/2 2S + − n
Z= = = N (0, 1)
Var [ S + ] n/ 4 n H0
n→∞

y la región de rechazo bilateral con a = 0,05 se obtiene buscando los valores críticos en
la tabla 7:

N(0,1)

/2 = 0,025 /2 = 0,025

–z /2 = – 1,96 z /2 = 1,96

Comparando el valor experimental:

2 Sˆ + − n 2 ⋅ 14 − 33
zexp = = = − 0,87
n 33

con los valores críticos, resulta que:

− zα / 2 = − 1,96 < zexp = − 0,87 < 1,96 = zα / 2

por lo que, con un 5 % de significación, los datos muestrales no presentan evidencia sufi-
ciente para rechazar H0 : Me = 30. Por tanto, los datos no contradicen la hipótesis de que
la mitad de las personas que compran este modelo de coche tienen al menos 30 años.

194 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Contraste de rangos-signos de Wilcoxon

Para aplicar este contraste, suponemos que la variable aleatoria X es continua y si-
métrica respecto a su mediana. El estadístico de prueba de este contraste es:

T + = «Suma de los rangos de las Di > 0»

donde:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral
⎩ i

Como sólo hay una observación igual a 30, entonces el tamaño muestral será:

n = 33 = 34 – 1

y como n > 15, podemos utilizar la aproximación normal y, en el lugar de T +, basar el


contraste en el estadístico:

T + − E[T + ]
Z= N (0, 1)
Var [T + ] H0
n→∞

La región crítica correspondiente al contraste bilateral con nivel de significación


a = 0,05 se presenta gráficamente como:

N(0,1)

/2 = 0,025 /2 = 0,025

– 1,96 = – z /2 z /2 = 1,96

donde los valores críticos se obtienen a partir de la tabla 7.

© Ediciones Pirámide 195


Ejercicios de inferencia estadística y muestreo

Para calcular el valor experimental del estadístico, obtenemos E[T +], Var [T +] y T̂ +:

n(n + 1) 33 ⋅ 34
E[T + ] = = = 280,5
4 4
n(n + 1)(2 n + 1) 33 ⋅ 34(2 ⋅ 33 + 1)
Var [T + ] = = = 3.132,25
24 24

y para el valor de T̂ + calculamos las diferencias Di = Xi – 30, ordenamos sus valores


absolutos y les asignamos su rango. Si hay observaciones tales que los 冟 Di 冟 son iguales,
se les asigna el rango medio de los que les corresponderían si fueran diferentes. Así,
organizamos los cálculos en las siguientes tablas:

xi di = xi – 30 xi di = xi – 30 xi di = xi – 30

31 1 28 –2 35 5
26 –4 25 –5 31 1
25 –5 42 12 23 –7
30 0 27 –3 37 7
34 4 36 6 28 –2
40 10 29 –1 20 – 10
29 –1 29 –1 23 –7
24 –6 34 4 34 4
24 –6 32 2 23 –7
28 –2 31 1 26 –4
31 1 32 2
29 –1 27 –3

Signo 冟 di 冟 Rango Signo 冟 di 冟 Rango Signo 冟 di 冟 Rango

+ 1 4,5 – 2 11,0 – 6 25,0


– 1 4,5 – 3 14,5 + 6 25,0
+ 1 4,5 – 3 14,5 – 7 28,5
– 1 4,5 – 4 18,0 + 7 28,5
– 1 4,5 + 4 18,0 – 7 28,5
– 1 4,5 + 4 18,0 – 7 28,5
+ 1 4,5 + 4 18,0 + 10 31,5
+ 1 4,5 – 4 18,0 – 10 31,5
– 2 11,0 – 5 22,0 + 12 33,0
– 2 11,0 – 5 22,0
+ 2 11,0 + 5 22,0
+ 2 11,0 – 6 25,0

196 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

El rango de las 冟 di 冟 = 1 se ha obtenido de la siguiente forma:

1+ 2 + 3+…+ 8
= 4,5
8

es decir, asignándoles el rango medio de los rangos que les corresponderían si fueran
diferentes. Del mismo modo, para 冟 di 冟 = 2, el rango asignado se calcula como:

9 + 10 + 11 + 12 + 13
= 11
5

y así sucesivamente.
Con los datos de la segunda tabla, tenemos que:

Tˆ + = 4,5 + 4,5 + 4,5 + 4,5 + 11 + 11 + 18 + 18 + 18 + 22 + 25 + 28,5 + 31,5 + 33 =


= 234

y, por tanto:

T + − E[T + ] 234 − 280,5


zexp = = = − 0,831
Var [T + ] 3.132,25

verificándose que:

− 1,96 = − zα / 2 < zexp = − 0,831 < zα / 2 = 1,96

y, en consecuencia, no pudiéndose rechazar la hipótesis nula H0 : Me = 30, que es la


misma decisión a la que conduce el test de signos de la mediana.
c) Suponemos que la variable X se distribuye según una normal:

X ~ N ( μ, σ )
con m y s desconocidos.
Se pretende contrastar si la edad media supera los 35 años, es decir, si m > 35. Por
tanto, se formulan las hipótesis como:

H0 : μ  35 = μ 0
H1: μ > 35

© Ediciones Pirámide 197


Ejercicios de inferencia estadística y muestreo

Como se admite normalidad y s es desconocida, el estadístico para realizar el con-


traste es:

X − μ0
t= ~ tn − 1 ≡ t34 − 1 ≡ t33
H0
S/ n

con

1 n 1.003
x= ∑
n i =1
xi =
34
= 29,5

冢 ∑ xi 冣
n 2

1 n
冤∑ xi2 − 冥 冤 冥
n
1 i =1 1 (1.003)2
s2 = ∑
n − 1 i =1
( xi − x ) 2 =
n −1 n
=
33
30.429 −
34
=
i =1

840,5
= = 25, 47
33

y, por tanto, el valor experimental queda:

29,5 − 35
texp = = − 6, 45
25, 47 / 35

Al ser el contraste unilateral, la región crítica de una cola se representa gráficamente


como:

t33

= 0,05

198 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

En la tabla 10 de la función de distribución t de Student no aparece el valor n = 33


grados de libertad, pero como t a es tal que:

P(t33 > tα ) = α = 0,05

entonces, el valor de t a deberá ser mayor que 0, y como texp = – 6,45 < 0, se tiene que:

texp = − 6, 45 < tα

por lo que rechazamos la hipótesis nula al 5 % de significación y aceptamos H1: m > 35


años.

En un determinado cine se está proyectando una película de dibujos


Ejercicio 3.20
animados. Para conocer la opinión de los espectadores, a la entrada del
cine se entrega un cuestionario a cada uno de ellos. La persona encargada de repartir los
cuestionarios debe anotar la edad de los espectadores que acuden a ver la película según
su orden de llegada.
Durante un día elegido al azar entre los del período de proyección de la película,
se obtuvieron los siguientes datos, correspondientes a las edades de las personas que
acudieron al cine en cada una de las sesiones:

Primera sesión (17:30):


11 20 16 12 10 25 15 13 9 10 11 34 27 14 10 13 12
10 10 9 18 15 8 11 12 11 9 9 11 11 14 17 18 16
13 9 7 11

Segunda sesión (20:15):


18 18 12 25 15 17 19 18 19 16 16 14 17 19 32 13 20
18 21 24 13 27 14 35 19 23 26 31 32

a) Si los espectadores menores de 15 años son considerados como público infantil,


y el resto como adulto, ¿puede decirse que la sucesión de espectadores de la
primera sesión es aleatoria con respecto a esta clasificación? Nivel de significa-
ción: 10 %.
b) ¿Puede decirse, con un 10 % de significación, que más del 50 % del total de los
espectadores superan los 15 años?
c) Al 10 % de significación, ¿indican los datos de estas dos sesiones que la edad
de los asistentes a la sesión de las 20:15 supera a la de los espectadores de la
primera sesión?

© Ediciones Pirámide 199


Ejercicios de inferencia estadística y muestreo

a) La sucesión de espectadores según el orden de llegada a la primera


Solución
sesión, clasificados según el tipo de público en infantil (I) y adulto (A),
quedaría como sigue:

I冟AA冟II冟AA冟IIII冟AA冟IIIIIII冟AA冟IIIIIIIII冟AAA冟IIII

Las hipótesis que se pretenden contrastar son:

H0 : La muestra es aleatoria
H1: La muestra no es aleatoria

Podemos utilizar el test de rachas de Wald-Wolfowitz, cuyo estadístico de prueba es:

R = «Número total de rachas en la muestra»

Al ser H1 simplemente la hipótesis de no aleatoriedad, la región crítica es bilateral


y cada una de las colas está delimitada por los valores k¢a/2 y k a/2, que son el mayor y
menor entero, respectivamente, tales que:

P( R  kα′ / 2 )  α / 2 = 0,05
P( R  kα / 2 )  α / 2 = 0,05

siendo a = 0,10 el nivel de significación. Pero como en este caso:

n = «Número total de observaciones» = 38


n1 = «Número de espectadores de 15 o más años ( A)» = 11
n2 = «Número de espectadores menores de 15 años ( I )» = 27

podemos utilizar la aproximación normal (pues, n1 = 11 > 10; n2 = 27 > 10) y emplear
como estadístico de prueba:

R − E[ R]
Z= N (0, 1)
Var [ R] H0
n→∞

200 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

La región crítica viene dada en la siguiente gráfica:

N(0,1)

/2 = 0,05 /2 = 0,05

–z /2 z /2

Buscando en la tabla 7, estos valores críticos son:

zα / 2 = 1,645
− zα / 2 = − 1,645

El valor experimental del estadístico se obtiene teniendo en cuenta que:

Rˆ = «Número de rachas en la sucesión I / A» = 11


2 n1n2 2 ⋅ 11 ⋅ 27
E[ R] = +1 = + 1 = 16,632
n 38
2n1n2 (2n1n2 − n) 2 ⋅ 11 ⋅ 27(2 ⋅ 11 ⋅ 27 − 38)
Var [ R] = = = 6,181
n 2 (n − 1) 382 (38 − 1)

y, por tanto:

Rˆ − E[ R] 11 − 16,632
zexp = = = − 2,265 < − zα / 2 = − 1,645
Var [ R] 6,181

con lo cual, rechazamos H0, es decir, al 10 % de significación, los datos de esta muestra
presentan evidencia suficiente para decir que la sucesión del público infantil/adulto en
la primera sesión no es aleatoria.
b) Definimos la variable aleatoria X como la edad de un espectador de esta pelí-
cula. Consideramos las observaciones procedentes de las dos sesiones como si constitu-
yeran una muestra aleatoria de la variable X, que suponemos continua alrededor de su
mediana (P(X = Me) = 0).

© Ediciones Pirámide 201


Ejercicios de inferencia estadística y muestreo

El valor de la mediana poblacional de X es aquella edad, Me, que es superada por


el 50 % de los espectadores, es decir:

P( X > Me) = 0,5 = P( X < Me)

Si la mediana fuese 15, entonces el 50 % de los espectadores superarían los 15 años.


Por tanto, si el valor de Me es mayor que 15, más del 50 % de los espectadores supera-
rían dicha edad. Gráficamente:

50%

Edad
15 Me
Más del 50%

Así pues, las hipótesis que hay que contrastar pueden formularse como:

H0 : Me  15 = m
H1: Me > 15 = m

Para resolver el contraste, podemos utilizar el contraste de signos de la mediana y el


contraste de rangos-signos de Wilcoxon.

Contraste de signos de la mediana

El estadístico de prueba se define como:

S + = «Número de signos + que aparecen en la muestra»


S+ ~ B(n, 1/ 2)
H0

Los signos + o – son asignados a las observaciones en función del signo resultante
de las diferencias con respecto a m:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral
⎩ i

202 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

En nuestro caso, la sucesión de signos será:

– + + – – +0– – – – + + – – – – – – – +0– – – – – – – – – + + + – – – –
+ + – +0+ + + + + + – + + + – + + + + – + – + + + + + +

con lo cual, el tamaño muestral se reduce en tres unidades:

n = 64

Como este valor de n es superior a 10, podemos utilizar la aproximación normal y


realizar el contraste basándonos en el estadístico:

n
+ + S+ −
S − E[ S ] 2 2S + − n
Z= = = N (0, 1)
Var [ S + ] n n H0
n→∞
4

La región crítica de este contraste unilateral viene determinada por:

N(0,1)

= 0,10

z = 1,28

donde el valor crítico za ha sido buscado en la tabla 7 de una distribución normal es-
tándar. Como:

Ŝ + = 32

el valor experimental del estadístico de prueba es:

2 Sˆ + − n 2 ⋅ 32 − 64
zexp = = =0
n 64

© Ediciones Pirámide 203


Ejercicios de inferencia estadística y muestreo

y al ser:

zexp = 0 < zα = 1,28

entonces, con un 10 % de significación, no rechazamos H0 : Me  15, por lo que no pue-


de decirse que más del 50 % del total de los espectadores superan los 15 años.

Contraste de rangos-signos de Wilcoxon


Además de la continuidad de la variable aleatoria X, suponemos, para poder aplicar
este contraste, que su distribución es simétrica con respecto a la mediana poblacional Me.
El estadístico de prueba del test de rangos-signos de Wilcoxon viene dado por:

T + = «Suma de los rangos de las Di > 0»

donde, de nuevo:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos y reducimos n

para asignar los rangos, se ordenan de menor a mayor los valores 冟 di 冟 y se les asocia su
número de orden. Si se tienen valores absolutos repetidos, entonces se les asignaría un
rango igual al promedio de los rangos que les corresponderían si fueran diferentes. Los
valores di obtenidos son:

xi di = xi – 15 xi di = xi – 15 xi di = xi – 15 xi di = xi – 15 xi di = xi – 15

11 –4 13 –2 14 –1 18 3 14 –1
20 5 12 –3 17 2 19 4 35 20
16 1 10 –5 18 3 16 1 19 4
12 –3 10 –5 16 1 16 1 23 8
10 –5 9 –6 13 –2 14 –1 26 11
25 10 18 3 9 –6 17 2 31 16
15 0 15 0 7 –8 19 4 32 17
13 –2 8 –7 11 –4 32 17
9 –6 11 –4 18 3 13 –2
10 –5 12 –3 18 3 20 5
11 –4 11 –4 12 –3 18 3
34 19 9 –6 25 10 21 6
27 12 9 –6 15 0 24 9
14 –1 11 –4 17 2 13 –2
10 –5 11 –4 19 4 27 12

204 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Como hay tres diferencias nulas, el tamaño muestral quedará:

n = 64

Ordenamos las diferencias absolutas 冟 di 冟 y les asignamos su rango:

Signo 兩di兩 ri Signo 兩di兩 ri Signo 兩di兩 ri Signo 兩di兩 ri Signo 兩di兩 ri

+ 1 4,5 – 2 12,5 – 4 32,0 – 6 47,5 + 17 61,5


– 1 4,5 – 3 21,5 – 4 32,0 – 6 47,5 + 17 61,5
– 1 4,5 – 3 21,5 – 4 32,0 – 6 47,5 + 19 63,0
+ 1 4,5 + 3 21,5 + 4 32,0 – 6 47,5 + 20 64,0
+ 1 4,5 – 3 21,5 + 4 32,0 + 6 47,5
+ 1 4,5 + 3 21,5 + 4 32,0 – 7 51,0
– 1 4,5 + 3 21,5 + 4 32,0 – 8 52,5
– 1 4,5 + 3 21,5 + 5 41,0 + 8 52,5
– 2 12,5 – 3 21,5 – 5 41,0 + 9 54,0
– 2 12,5 + 3 21,5 – 5 41,0 + 10 55,5
+ 2 12,5 + 3 21,5 – 5 41,0 + 10 55,5
– 2 12,5 – 4 32,0 – 5 41,0 + 11 57,0
+ 2 12,5 – 4 32,0 – 5 41,0 + 12 58,5
+ 2 12,5 – 4 32,0 + 5 41,0 + 12 58,5
– 2 12,5 – 4 32,0 – 6 47,5 + 16 60,0

El rango correspondiente al valor 冟 di 冟 = 1 ha sido obtenido calculando el rango me-


dio de los que les corresponderían si hubieran sido diferentes, es decir:

1+ 2 +…+ 8
= 4,5
8

Del mismo modo, para las 冟 di 冟 = 2, este rango se calcula como:

9 + 10 + … + 16
= 12,5
8

y así sucesivamente.
El valor experimental de T + será:

T + = «Suma de los rangos de las di > 0» =


= 4,5 + 4,5 + 4,5 + 4,5 + 12,5 + 12,5 + 12,5 + 21,5 + 21,5 + 21,5 + 21,5 +
+ 21,5 + 21,5 + 32 + 32 + 32 + 32 + 41 + 41 + 47,5 + 52,5 + 54 + 55,5 +
+ 55,5 + 57 + 58,5 + 58,5 + 60 + 61,5 + 61,5 + 63 + 64 = 1.143,5

© Ediciones Pirámide 205


Ejercicios de inferencia estadística y muestreo

y como n = 64 > 15, podemos utilizar la aproximación normal y considerar como esta-
dístico de prueba:

T + − E[T + ]
Z= N (0, 1)
Var [T + ] H0
n→∞

donde:

1 64(65)
E[T + ] = n(n + 1) = = 1.040
4 4
n(n + 1)(2 n + 1) 64 ⋅ 65(2 ⋅ 64 + 1)
Var [T + ] = = = 22.360
24 24

y la región crítica, con un nivel de significación a = 0,10, será unilateral, obteniéndose


el valor crítico en la tabla 7:

N(0,1)

= 0,10

z = 1,28

Como el valor experimental es:

Tˆ + − E[T + ] 1.143,5 − 1.040


zexp = = = 0,692
Var [T + ] 22.360

que es inferior al valor crítico za , entonces no rechazamos H0 : Me  15 al 10 % de


significación.
c) Sean las variables aleatorias X1 y X2 correspondientes a la edad de un espec-
tador de la primera y segunda sesión, respectivamente. Suponemos que se trata de va-
riables aleatorias continuas y que los datos muestrales constituyen muestras aleatorias
independientes. Representamos mediante F y G las respectivas funciones de distribución
de X1 y X2.

206 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Para contrastar si la edad de los espectadores de la segunda sesión supera a los de


la primera, planteamos las siguientes hipótesis:

H 0 : F ( z )  G( z )
H1: F( z ) > G( z )

donde H1 implicaría que la distribución de X2 estaría por encima de la de X1 y, por tanto,


a la segunda sesión acudirían los espectadores de más edad. Esta situación se ilustra en
el siguiente gráfico, referente a H1:

X1 ~ f(x) X2 ~ g(x)

F(z)
G(z)

z
F(z) > G(z)

Para realizar el contraste, podemos utilizar el test de la U de Wilcoxon-Mann-Whit-


ney, el de la mediana o el de Kolmogorov-Smirnov para dos muestras.

Contraste de la U de Wilcoxon-Mann-Whitney

Para aplicar este test se ordenan los datos muestrales de menor a mayor y se asigna a
cada observación su correspondiente rango desde 1 hasta n = n1 + n2. En caso de empates
en varias observaciones, se les asignará a cada una de ellas el rango promedio de los que
les correspondería si hubieran sido diferentes.
Una vez hecho esto, se utilizará como estadístico del contraste la expresión:

n1 (n1 + 1)
U = U X1 = n1n2 + − WX1
2

siendo:

WX1 = ∑ ri = Suma de los rangos correspondientes a la muestra de X1.


x1i

© Ediciones Pirámide 207


Ejercicios de inferencia estadística y muestreo

Como en este caso n1 = 38 > 10 y n2 = 29 > 10, la distribución del estadístico de


prueba se aproxima a una normal:

U = U X1
H0
n1 , n2 > 10
N 冢 n 2n ,
1 2 n1n2 (n1 + n2 + 1)
12 冣
o bien, podemos utilizar como estadístico de prueba:

n1n2
U−
2
Z= N (0, 1)
n1n2 (n1 + n2 + 1) H0
n1 , n2 > 10
12

rechazando la hipótesis nula al 10 % de significación cuando:

zexp  zα

donde:

P( Z  zα ) = α = 0,10

Utilizando la tabla 7, encontramos za , con lo cual, la representación gráfica de la


región crítica es:

N(0,1)

1– = 0,90 = 0,10

z ≅ 1,28

208 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Obtengamos el valor experimental del estadístico de prueba:

Obs. ri Obs. ri Obs. ri

x1 7 1, x1 14 30,5 x1 24 57,0
x1 8 2, x1 14 30,5 x1 25 58,5
x1 9 5, x2 14 30,5 x2 25 58,5
x1 9 5, x2 14 30,5 x2 26 60,0
x1 9 5, x1 15 34,0 x1 27 61,5
x1 9 5, x1 15 34,0 x2 27 61,5
x1 9 5, x2 15 34,0 x2 31 63,0
x1 10 10,0 x1 16 37,5 x2 32 64,5
x1 10 10,0 x1 16 37,5 x2 32 64,5
x1 10 10,0 x2 16 37,5 x1 34 66,0
x1 10 10,0 x2 16 37,5 x2 35 67,0
x1 10 10,0 x1 17 41,0
x1 11 16,0 x2 17 41,0
x1 11 16,0 x2 17 41,0
x1 11 16,0 x1 18 45,5
x1 11 16,0 x1 18 45,5
x1 11 16,0 x2 18 45,5
x1 11 16,0 x2 18 45,5
x1 11 16,0 x2 18 45,5
x1 12 21,5 x2 18 45,5
x1 12 21,5 x2 19 50,5
x1 12 21,5 x2 19 50,5
x2 12 21,5 x2 19 50,5
x1 13 26,0 x2 19 50,5
x1 13 26,0 x1 20 53,5
x1 13 26,0 x2 20 53,5
x2 13 26,0 x2 21 55,0
x2 13 26,0 x2 23 56,0

WX1 = ∑ ri = 1 + 2 + 5 ⋅ 5 + 10 ⋅ 5 + 16 ⋅ 7 + 21,5 ⋅ 3 + 26 ⋅ 3 + 30,5 ⋅ 2 + 34 ⋅ 2 +


x1i

+ 37,5 ⋅ 2 + 41 + 45,5 ⋅ 2 + 53,5 + 58,5 + 61,5 + 66 = 908

38(38 + 1)
Uˆ = Uˆ X1 = 38 ⋅ 29 + − 908 = 935
2
38 ⋅ 29
935 −
2
zexp = = 4,8593
38 ⋅ 29(38 + 29 + 1)
12

© Ediciones Pirámide 209


Ejercicios de inferencia estadística y muestreo

Por tanto, como:


zexp = 4,8593 > 1,28 = zα

se rechaza H0 al 10 % de significación. Es decir, los datos presentan evidencia suficiente


para rechazar la hipótesis de que las edades de los espectadores de la primera sesión son
mayores o iguales que los de la segunda; por tanto, los asistentes a la segunda sesión
tienen edades superiores a los de la primera.

Contraste de la mediana

Para realizar este contraste, se obtiene en primer lugar la mediana muestral de la


muestra combinada de n1 + n2 elementos, y se utiliza como estadístico del contraste:
V = «Número de valores observados de X1 que son menores o iguales que la mediana
de la muestra combinada de n1 + n2 elementos».
Como n1 = 38 y n2 = 29, ambos superiores a 10, la distribución de V puede aproxi-
marse mediante una normal:

V − E[V ]
Z= N (0, 1)
Var [V ] H0
n1 , n2 > 10

siendo:

n1
E[V ] = k
n
n1 n2 n − k
Var [V ] = k ⋅ ⋅
n n n −1

con

n = n1 + n2 = 38 + 29 = 67

n − 1 66
k= = = 33
2 2

pues n es impar.

210 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Puede comprobarse que la mediana de la muestra de las 67 observaciones es:

me = 15

y el valor experimental del estadístico es:

Vˆ = 29

38
E[V ] = 33 ⋅ = 18,7164
67
38 29 67 − 33
Var [V ] = 33 ⋅ ⋅ ⋅ = 4,1733
67 67 67 − 1
29 − 18,7164
zexp = = 5,0339
4,1733

La región crítica del contraste será, al 10 % de significación:

zexp  zα

con

P( Z  zα / H0 ) = α = 0,10

y buscando el valor crítico en la tabla de la distribución normal, tendremos:

N(0,1)

0,90 = 0,10

z ≅ 1,28

y como:

zexp = 5,0339 > 1,28

rechazamos H0 al 10 % de significación.

© Ediciones Pirámide 211


Ejercicios de inferencia estadística y muestreo

Contraste de Kolmogorov-Smirnov para dos muestras

Se basa en un estadístico de prueba que utiliza las funciones de distribución empí-


ricas de las muestras:

Dn+1 , n2 = máx[ Fn1 ( x ) − Gn2 ( x )]

con

N1 ( x ) N2 ( x )
Fn1 ( x ) = y Gn2 ( x ) =
n1 n2

Se rechazará H0, al 10 % de significación, si:

Dn+1 , n2 , exp > Dn1 , n2 ; α

siendo Dn1, n2; a el valor crítico, tal que:

P( Dn+1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10

Utilizando la tabla 18 con n1 = 38 y n2 = 29 con su aproximación para muestras de


tamaño grande, tendremos que:

n1 + n2
Dn1 , n2 ; α = ⋅ 1,0730 =
n1n2

38 + 29
= ⋅ 1,0730 = 0,2646
38 ⋅ 29

En la siguiente tabla aparecen los cálculos necesarios para obtener el valor experi-
mental del estadístico del contraste.

212 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

x1i n1i x2i n2i Fn1(x) = N1(x)/38 Gn2(x) = N2(x)/29 Fn1(x) – Gn2(x)

7 1 1/38 0 0,0263
8 1 2/38 0 0,0526
9 5 7/38 0 0,1842
10 5 12/38 0 0,3158
11 7 19/38 0 0,5000
12 3 12 1 22/38 1/29 0,5445
13 3 13 2 25/38 3/29 0,5544
14 2 14 2 27/38 5/29 0,5381
15 2 15 1 29/38 6/29 0,5563
16 2 16 2 31/38 8/29 0,5399
17 1 17 2 32/38 10/29 0,4973
18 2 18 4 34/38 14/29 0,4120
19 4 34/38 18/29 0,2740
20 1 20 1 35/38 19/29 0,2659
21 1 35/38 20/29 0,2314
23 1 35/38 21/29 0,1969
24 1 35/38 22/29 0,1624
25 1 25 1 36/38 23/29 0,1543
26 1 36/38 24/29 0,1198
27 1 27 1 37/38 25/29 0,1116
31 1 37/38 26/29 0,0771
32 2 37/38 28/29 0,0082
34 1 38/38 = 1 28/29 0,0345
35 1 1 29/29 = 1 0,0000

n1 = 38 n2 = 29

Así:

Dn+1 , n2 , exp = 0,5563 > 0,2646

y, por tanto, al 10 % de significación, se rechaza H0.

En una compañía dedicada a la fabricación de productos de limpieza, el


Ejercicio 3.21
responsable de publicidad pretende incluir también a los varones como
destinatarios de una campaña publicitaria para promocionar un nuevo tipo de lavavaji-
llas, pues, según su opinión, la creciente incorporación de las mujeres al mercado laboral
disminuye el tiempo que éstas dedican a las tareas del hogar y, en consecuencia, estas
tareas comenzarían a ser compartidas por sus parejas. Para tratar de confirmar esta
creencia, se comparan los resultados de dos encuestas realizadas en 1992 y 1996 en las
que se preguntó a dos grupos diferentes de mujeres el número de horas semanales dedi-

© Ediciones Pirámide 213


Ejercicios de inferencia estadística y muestreo

cadas por cada una de ellas a los trabajos del hogar. Las respuestas obtenidas aparecen
en la tabla siguiente:

1992 1996

22 16
17 20
26 15
13 19
16 13
25 12
18 17
21 10
19 13
14 17
20 11
23 26
15

¿Puede concluirse a partir de estos datos y con un 1 % de significación que, en 1996,


las mujeres dedicaban menos tiempo a tareas del hogar que en 1992?

Sean X e Y las variables aleatorias:


Solución
X = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en
1992».
Y = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en
1996».
Si en 1996 las mujeres dedicaran menos tiempo a las tareas del hogar que en 1992,
entonces la distribución X (1992) estaría a la derecha de Y (1996):

fy fx

⇒F<G

y, por tanto, el contraste que hay que realizar sería:

H 0 : F ( z )  G( z )
H1: F( z ) < G( z )

214 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

o bien:

H0 : Mex  Mey
H1: Mex > Mey

siendo F y G las respectivas funciones de distribución de X y de Y, y Mex y Mey las


correspondientes medianas poblacionales.
Para tomar la decisión, basándonos en la información muestral, podemos utilizar el
contraste de Kolmogorov-Smirnov para dos muestras, el test de la mediana o el contraste
de la U de Wilcoxon-Mann-Whitney.

Contraste de la mediana

Utiliza como estadístico de prueba:

V = «Número de observaciones de X menores o iguales que la mediana de la muestra


de n1 + n2 elementos».

Como en este caso n1 = 13 > 10 y n2 = 12 > 10, la distribución de V puede aproxi-


marse por una normal:

V N ( E[V ], Var [V ])
H0
n1 , n2 > 10

con

n1
E[V ] = k
n
n1 n2 n − k
Var [V ] = k ⋅ ⋅ ⋅
n n n −1

siendo:

n = n1 + n2 = 13 + 12 = 25

n − 1 25 − 1
k= = = 12
2 2

pues n es impar.

© Ediciones Pirámide 215


Ejercicios de inferencia estadística y muestreo

Así pues, podemos utilizar:

V − E[V ]
Z= → N (0, 1)
Var [V ]

como estadístico del contraste, rechazando H0 con un nivel de significación a = 0,01,


cuando:

zexp  − zα

con

P( Z  − zα ) = α = 0,01

Buscando en la tabla de una distribución N(0, 1), la región crítica se representará


gráficamente como:

N(0,1)

= 0,05

– z = – 2,33

Para calcular el valor experimental de V, necesitamos la mediana de la muestra com-


binada de n1 + n2 observaciones. La muestra ordenada de menor a mayor será:

y y y x y y x x y x y x y y x x y x y x x x x x y

10 11 12 13 13 13 14 15 15 16 16 17 17 17 18 19 19 20 20 21 22 23 25 26 26

y, por tanto, la mediana será la observación que ocupe el lugar:

n +1
= 13
2
es decir:

me = 17

216 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

existiendo cinco observaciones de X menores o iguales que me = 17, con lo cual:

Vˆ = 5
13
E[V ] = 12 ⋅ = 6,24
25
13 12 25 − 12
Var [V ] = 12 ⋅ ⋅ ⋅ = 1,6224
25 25 25 − 1
5 − 6,24
zexp = = − 0,9735
1,6224

y como:

zexp = − 0,9735 > − 2,33

entonces no se rechaza H0 al 1 % de significación, es decir, no puede concluirse, a partir


de estos datos, que las mujeres estén trabajando en tareas del hogar menos tiempo en
1996 que en 1992.

Contraste de la U de Wilcoxon-Mann-Whitney
Utilizaremos como estadístico de prueba para realizar el contraste:

n1 (n1 + 1)
U = U X = n1n2 + − WX
2
siendo:
WX = ∑ ri = Suma de rangos de las observaciones de X
xi

Como n1 = 13, n2 = 10, ambos superiores a 10, la distribución de U puede aproxi-


marse por una normal:

U N ( E[V ], Var [U ])
H0
n1 , n2 > 10

con

n1n2 13 ⋅ 12
E[U ] = = = 78
2 2

© Ediciones Pirámide 217


Ejercicios de inferencia estadística y muestreo

n1n2 (n1 + n2 + 1) 13 ⋅ 12(13 + 12 + 1)


Var [U ] = = = 338
12 12

Por tanto, utilizaremos:

U − E[U ]
Z= N (0, 1)
Var [U ] H0
n1 , n2 > 10

como estadístico para realizar el contraste, rechazando la hipótesis nula si:

zexp  − zα = − 2,33

siendo a = 0,01 el nivel de significación.


Para calcular el valor experimental de U ordenamos las observaciones muestrales de
menor a mayor, asignándoles un rango desde 1 hasta 25. Si hay observaciones repetidas,
se les asigna el rango medio de los que les corresponderían si fueran diferentes:

Obs. ri

y 10 1,0
y 11 2,0
y 12 3,0
x 13 5,0
y 13 5,0
y 13 5,0
x 14 7,0
x 15 8,5
y 15 8,5
x 16 10,5
y 16 10,5
x 17 13,0
y 17 13,0
y 17 13,0
x 18 15,0
x 19 16,5
y 19 16,5
x 20 18,5
y 20 18,5
x 21 20,0
x 22 21,0
x 23 22,0
x 25 23,0
x 26 24,5
y 26 24,5

218 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

WX = 5 + 7 + 8,5 + 10,5 + 13 + 15 + 16,5 + 18,5 + 20 + 21 + 22 + 23 + 24,5 = 204,5

n (n + 1) 13 ⋅ 14
Uˆ = Uˆ X = n1n2 + 1 1 − WX = 13 ⋅ 12 + − 204,5 = 42,5
2 2

Entonces:

42,5 − 78
zexp = = − 1,93 > − 2,33
338

y, por tanto, no se rechaza H0 al 1 % de significación.

Contraste de Kolmogorov-Smirnov para dos muestras

Este test se basa en las funciones de distribución empíricas de las muestras de X


e Y. El estadístico del contraste es, en este caso:

Dn−1 , n2 = máx[Gn2 ( x ) − Fn1 ( x )]

siendo:

N1 ( x ) N2 ( x )
Fn1 ( x ) = ; Gn2 ( x ) =
n1 n2

las funciones de distribución empíricas de X e Y, respectivamente.


Se rechazará la hipótesis nula H0, al 1 % de significación, si:

Dn−1 , n2 , exp > Dn1 , n2 ; α

con

P( Dn−1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,01

© Ediciones Pirámide 219


Ejercicios de inferencia estadística y muestreo

Utilizando la tabla 18 con n1 = 13 y n2 = 12, tendríamos que:

N1 = mín (n1 , n2 ) = 12
N2 = máx (n1 , n2 ) = 13

y buscando en las tablas adecuadas se obtendría el valor crítico. No obstante, como en


las tablas presentadas no vienen estos valores N1 y N2 y ambos son superiores a 10,
utilizaremos la aproximación para muestras grandes, y, así, el valor crítico será aproxi-
madamente igual a:

n1 + n2 13 + 12
Dn1 , n2 ; α ≈ ⋅ 1,5174 = ⋅ 1,5174 = 0,6074
n1n2 13 ⋅ 12

xi n xi yi ny i Fn1(x) Gn2(x) [Gn2(x) – Fn1(x)]

10 1 0 = 1/12 = 1/12 – 0/13 = 0,0833


11 1 0 = 2/12 = 2/12 – 0/13 = 0,1667
12 1 0 = 3/12 = 3/12 – 0/13 = 0,2500
13 1 13 2 1/13 = 5/12 = 5/12 – 1/13 = 0,3397
14 1 2/13 = 5/12 = 5/12 – 2/13 = 0,2628
15 1 15 1 3/13 = 6/12 = 6/12 – 3/13 = 0,2692
16 1 16 1 4/13 = 7/12 = 7/12 – 4/13 = 0,2756
17 1 17 2 5/13 = 9/12 = 9/12 – 5/13 = 0,3654
18 1 6/13 = 9/12 = 9/12 – 6/13 = 0,2885
19 1 19 1 7/13 = 10/12 =1 10/12 – 7/13 = 0,2949
20 1 20 1 8/13 = 11/12 =1 11/12 – 8/13 = 0,3013
21 1 9/13 = 11/12 =1 11/12 – 9/13 = 0,2244
22 1 10/13 =1 11/12 =1 11/12 – 10/13 = 0,1474
23 1 11/13 =1 11/12 =1 11/12 – 11/13 = 0,0705
25 1 12/13 =1 11/12 =1 11/12 – 12/13 = – 0,0064
26 1 26 1 13/13 = 1 12/12 = 1 00/01 – 1/13 = 0,0000

13 12

Por tanto:

Dn−1 , n2 , exp = 0,3654 < 0,6074 = Dn1 , n2 ; α

y no se rechaza la hipótesis nula al 1 % de significación.

220 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Un fabricante de juguetes desea conocer si existen diferencias en cuanto


Ejercicio 3.22
a la calidad de las tres marcas de pilas alcalinas más extendidas en el
mercado con el fin de recomendarlas para su utilización en un nuevo juguete que se va
a promocionar. Para comparar las tres marcas, toma muestras aleatorias de pilas de cada
una de ellas y controla el tiempo que permanece funcionando el juguete en cuestión. Los
resultados obtenidos fueron:

Marca
Horas de duración
de las pilas

A 125 140 218 78 98

B 87 100 85 65 115 83

C 55 50 78 93 60 78

Utilizando un nivel de significación del 5 %, ¿puede decirse que existen diferencias


significativas en las calidades de estas marcas de pilas alcalinas? En su caso, indique
qué marcas presentan diferencias significativas.

Definimos las variables aleatorias:


Solución
Xi = «Tiempo de funcionamiento del juguete (en horas) con las pilas de la marca i».
i = 1 (A), 2 (B), 3 (C).
Para tratar de ver si hay diferencias significativas en las calidades de las pilas, rea-
lizaremos el contraste de Kruskal-Wallis, que detecta diferencias de ubicación entre más
de dos distribuciones. Planteamos, pues, la hipótesis:

H0 : F1 ( x ) = F2 ( x ) = F3 ( x )
H1: Al menos dos son diferentes

siendo Fi la función de distribución de la variable Xi, i = 1, 2, 3.


El estadístico del contraste es:

k
12 Ri2
H= ∑
n(n + 1) i = 1 ni
− 3(n + 1)

© Ediciones Pirámide 221


Ejercicios de inferencia estadística y muestreo

siendo:
k
n= ∑ ni = n1 + n2 + n3 = 5 + 6 + 6 = 17
i =1
ni
Ri = ∑ rij
j =1
rij = Rango de la observación j -ésima de la muestra i

rechazándose la hipótesis nula cuando el valor experimental supere al valor crítico h a,


es decir, cuando:

Ĥ  hα
donde
P( H  hα / H0 ) = α

Utilizando la tabla 24 con k = 3, y tamaños muestrales 6, 6 y 5, tendremos, para un


nivel de significación del 5 %:
h a = 5,765
Para calcular el valor experimental, ordenamos las observaciones de menor a mayor,
asignándoles su correspondiente rango y sumando los rangos de las observaciones de cada
muestra. En caso de empates, se procede de la forma habitual:

Observaciones rij r1j r2j r3j

C 50 1 1
C 55 2 2
C 60 3 3
B 65 4 4
C 78 6 6
C 78 6 6
A 78 6 6
B 83 8 8
B 85 9 9
B 87 10 10
C 93 11 11
A 98 12 12
B 100 13 13
B 115 14 14
A 125 15 15
A 140 16 16
A 218 17 17

Ri R1 = 66 R2 = 58 R3 = 29

222 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Por tanto, el valor experimental:

Hˆ =
12
冤66 2 582 292
17(17 + 1) 5
+
6
+
6 冥
− 3(17 + 1) = 7,648

y como:

Hˆ = 7,648 > hα = 5,765

entonces, al 5 % de significación, se rechaza H0 y puede decirse que existen diferencias


significativas en las calidades de estas tres marcas de pilas.
Para obtener qué marcas presentan diferencias significativas realizaremos el test de
comparaciones múltiples, o método de Dunn, según el cual la diferencia entre las pobla-
ciones i y l es significativa al nivel a si:

冟Ri − Rl 冟  cil

siendo:

cil = z p
12

n(n + 1) 1 1
+
ni nl

con

α
P( Z  z p ) = p =
k ( k − 1)

Por tanto, como en este caso tenemos:

66 58 29
R1 = ; R2 = ; R3 =
5 6 6
0,05
p= = 0,0083
3(3 − 1)
P( Z  z p ) = 0,0083 ⇒ z p = 2,395

© Ediciones Pirámide 223


Ejercicios de inferencia estadística y muestreo

c12 = 2,395
17(18) 1 1
12
+
5 6
冉 冊
= 7,3234

c13 = 2,395
17(18) 1 1
12
+
5 6
冉 冊
= 7,3234

c23 = 2,395
17(18) 1 1
12
+
6 6
冉 冊
= 6,9826

冟R1 − R2 冟 = 冷 66 − 58 冷 = 3,5333 < 7,3234 = c12


5 6

⇒ Las marcas A y B no presentan diferencias significativas.

冟R1 − R3 冟 = 冷 66 − 29 冷 = 8,3667 > 7,3234 = c13


5 6

⇒ Las marcas A y C presentan diferencias significativas.

冟R2 − R3 冟 = 冷 58 − 29 冷 = 4,8333 < 6,9826


6 6

⇒ Las marcas B y C no presentan diferencias significativas.

Una compañía dedicada a la venta de material musical y literario tiene


Ejercicio 3.23
abiertos tres establecimientos, en Madrid, Barcelona y Bilbao. Para tra-
tar de analizar las ventas diarias, se eligieron al azar seis días de un determinado perío-
do, obteniéndose los siguientes volúmenes de ventas, en miles de euros:

Madrid Barcelona Bilbao

0,65 0,95 0,48


0,84 0,46 0,30
0,35 0,58 0,98
0,75 0,74 0,87
0,60 0,25 0,50
0,54 0,70 0,96

224 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Utilizando un 5 % de significación, ¿señalan estos datos la existencia de diferencias


significativas en cuanto a los volúmenes de ventas de dichos establecimientos?

Representamos con Xi la variable aleatoria correspondiente a las ventas dia-


Solución
rias (en miles de euros) en el establecimiento i, i = 1 (Madrid), 2 (Barce-
lona), 3 (Bilbao).
Sean F1, F2 y F3 las correspondientes funciones de distribución. Se trata de com-
probar si estas funciones presentan diferencias significativas en cuanto a ubicación. Por
tanto, aplicaremos el test de Kruskall-Wallis para contrastar:

H0 : F1 ( x ) = F2 ( x ) = F3 ( x )
H1: Fi ( x ) ≠ Fj ( x ) para algún i ≠ j

El estadístico del contraste será:

k
12 Ri2
H= ∑
n(n + 1) i = 1 ni
− 3(n + 1)

con

n = n1 + n2 + n3 = 6 + 6 + 6 = 18
ni
Ri = ∑ rij
j =1

rij = Rango de la observación j -ésima de la muestra i

Como ni = 6 (i = 1, 2, 3), todos superiores a cinco, la distribución de H puede aproxi-


marse por una c2:

H χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
H0
ni > 5

y, así, la región crítica representada gráficamente, al 5 % de significación, quedará


como:

© Ediciones Pirámide 225


Ejercicios de inferencia estadística y muestreo

χ22

0,95

χ21 – = 5,99

donde el valor crítico ha sido obtenido a partir de la tabla 9.


Ordenamos las observaciones de menor a mayor y les asignamos sus rangos:

Observaciones rij r1j r2j r3j

Barcelona 0,25 1 1
Bilbao 0,30 2 2
Madrid 0,35 3 3
Barcelona 0,46 4 4
Bilbao 0,48 5 5
Bilbao 0,50 6 6
Madrid 0,54 7 7
Barcelona 0,58 8 8
Madrid 0,60 9 9
Madrid 0,65 10 10
Barcelona 0,70 11 11
Barcelona 0,74 12 12
Madrid 0,75 13 13
Madrid 0,84 14 14
Bilbao 0,87 15 15
Barcelona 0,95 16 16
Bilbao 0,96 17 17
Bilbao 0,98 18 18

Suma de rangos R = 171 R1 = 56 R2 = 52 R3 = 63

Por tanto, el valor experimental H es:

Hˆ =
12
冤56 2 52 2 632
18(18 + 1) 6
+
6
+
6 冥
− 3(18 + 1) = 0,3626

226 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

y como:

Hˆ = 0,3626 < 5,99 = χ12− α

entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente


para concluir que existen diferencias significativas entre los volúmenes de ventas de esos
tres establecimientos.
Si no se utiliza la aproximación a una c2, se podría buscar el valor crítico en la ta-
bla 24, y así:

hα = 5,801
Hˆ = 0,3626 < 5,801 = hα

llegándose a las mismas conclusiones anteriores.

Un nuevo equipo accede a la dirección de dos cadenas de fabricación y


Ejercicio 3.24
comercialización de electrodomésticos con una amplia red de puntos de
venta en el territorio nacional. Dicha directiva desearía realizar una política de equipa-
ración de las ventas si es que se aprecian diferencias significativas en las distribuciones
de las ventas de ambas cadenas. Para realizar una primera aproximación al problema,
se extraen al azar dos muestras de tiendas de cada una de las cadenas, obteniéndose los
siguientes importes de ventas en miles de euros:

Cadena A Cadena B

6,4 8,
8,9 5,9
9, 10,0
2,7 15,0
4,5 17,5
10,0 9,
9, 3,
4,9 3,2
3, 6,
7, 8,
15,0 16,0

a) Utilizando la información procedente de la función de distribución empírica,


¿tendrá que acometerse la política de igualación de ventas en ambas cadenas?

© Ediciones Pirámide 227


Ejercicios de inferencia estadística y muestreo

b) Si se decidiera considerar la dispersión como factor indicador de la distinta dis-


tribución de las ventas en las dos cadenas, ¿tomaría ahora las medidas integra-
das en dicha política homogeneizadora?
c) Si admitimos que las dos muestras proceden de poblaciones normales, ¿podría
afirmarse que se observa más dispersión en las ventas de la cadena A?

Nota: Trabaje en todos los casos con un nivel de significación del 5 %.

Llamemos X e Y a las variables aleatorias que representan las ventas, en


Solución
miles de euros, de las tiendas de las cadenas A y B, respectivamente. Sean
F y G las correspondientes funciones de distribución.
a) Para contrastar si F y G son iguales utilizando funciones de distribución empí-
ricas, tendremos que realizar el contraste de Kolmogorov-Smirnov para dos muestras y
aplicarlo a las hipótesis:

H0 : F ( x ) = G( x )
H1: F( x ) ≠ G( x )

El estadístico del contraste será:

Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟

donde:

N1 ( x )
Fn1 ( x ) =
n1

N2 ( x )
Gn2 ( x ) =
n2

son las funciones de distribución empíricas de las muestras de X e Y, respectivamente.


La hipótesis nula será rechazada al 5 % de significación si:

Dn1 , n2 , exp > Dn1 , n2 ; α

228 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

siendo el valor crítico, tal que:

P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,05

y buscando en la tabla 19 con n1 = n2 = 11, tendremos:

6
Dn1 , n2 ; α = = 0,5455
11

Buscamos a continuación el valor experimental del estadístico del contraste:

xi nxi yi ny i Fn1(x) Gn2(x) 冟 Fn (x) – Gn (x) 冟


1 2

2,7 1 1/11 = 0 = 冟 1/11 – 0 冟/00 = 1/11


3,0 1 2/11 = 0 = 冟 2/11 – 0 冟/00 = 2/11
3,0 1 2/11 = 1/11 = 冟 2/11 – 1/11 冟 = 1/11
3,2 1 2/11 = 2/11 = 冟 2/11 – 2/11 冟 = 0/00
4,5 1 3/11 = 2/11 = 冟 3/11 – 2/11 冟 = 1/11
4,9 1 4/11 = 2/11 = 冟 4/11 – 2/11 冟 = 2/11
5,9 1 4/11 = 3/11 = 冟 4/11 – 3/11 冟 = 1/11
6,0 1 4/11 = 4/11 = 冟 4/11 – 4/11 冟 = 0/00
6,4 1 5/11 = 4/11 = 冟 5/11 – 4/11 冟 = 1/11
7,0 1 6/11 = 4/11 = 冟 6/11 – 4/11 冟 = 2/11
8,0 2 6/11 = 6/11 = 冟 6/11 – 6/11 冟 = 0/00
8,9 1 7/11 = 6/11 = 冟 7/11 – 6/11 冟 = 1/11
9,0 2 9,0 1 9/11 = 7/11 = 冟 9/11 – 7/11 冟 = 2/11
10,0 1 10,0 1 10/11 =1 8/11 = 冟 10/11 – 8/11 冟 = 2/11
15,0 1 15,0 1 11/11 = 1 9/11 = 冟 11/11 – 9/11 冟 = 2/11
16,0 1 1 = 10/11 =1 /000冟 1 – 10/11 冟 = 1/11
17,5 1 1 = 11/11 = 1 /000冟 1 – 11/11 冟 = 0/00

n1 = 11 n2 = 11

2
Dn1 , n2 , exp = máx 冟Fn1 ( x ) − Gn2 ( x )冟 = = 0,1818
11

Por tanto, como:

6
Dn1 , n2 , exp = 0,1818 < = 0,5455 = Dn1 , n2 ; α
11

entonces, al 5 % de significación, no se rechaza la hipótesis nula de igualdad de distribucio-


nes; por tanto, el equipo directivo no debería acometer la política de igualación de ventas.

© Ediciones Pirámide 229


Ejercicios de inferencia estadística y muestreo

b) Para considerar si las distribuciones son o no iguales en cuanto a dispersión,


habrá que realizar el contraste de Siegel-Tukey:

H0 : F ( x ) = G( x )
H1: F( x ) ≠ G( x )

que utiliza como estadístico de prueba:


n
Sn = ∑ ai Zi
i =1

con

⎧1 si la observación i-ésima en la muestra combinada



Zi = ⎨ y ordenada es una X
⎪⎩0 en caso contrario

y ai los coeficientes obtenidos al asignar los rangos según el método de Siegel-Tukey.


Como n1 = 11 > 10 y n2 = 11 > 10, podemos utilizar la aproximación normal:

Sn − E[ Sn ]
Z= N (0, 1)
Var [ Sn ] H0
n1 , n2 → ∞

con
n1 (n + 1) 11(22 + 1)
E[ Sn ] = = = 126,5
2 2
n1n2 (n + 1) 11 ⋅ 11(22 + 1)
Var [ Sn ] = = = 231,92
12 12

La región crítica, al 5 % de significación, será:

N(0,1)

/2 = 0,025 1– = 0,95 /2 = 0,025

–z /2 = – 1,96 z /2 = 1,96

230 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Para obtener el valor experimental ordenamos las observaciones de forma conjunta


en orden creciente y les asignamos los rangos ai:

Observaciones ai zi aizi

x 2,7 1 1 1
x 3,0 4 1 4
y 3,0 5 0 —
y 3,2 8 0 —
x 4,5 9 1 9
x 4,9 12 1 12
y 5,9 13 0 —
y 6,0 16 0 —
x 6,4 17 1 17
x 7,0 20 1 20
y 8,0 21 0 —
y 8,0 22 0 —
x 8,9 19 1 19
x 9,0 18 1 18
x 9,0 15 1 15
y 9,0 14 0 —
x 10,0 11 1 11
y 10,0 10 0 —
x 15,0 7 1 7
y 15,0 6 0 —
y 16,0 3 0 —
y 17,5 2 0 —

Sˆn = 1 + 4 + 9 + 12 + 17 + 20 + 19 + 18 + 15 + 11 + 7 = 133

133 − 126,5
zexp = = 0,4268
23,92

y como:

− zα / 2 = − 1,96 < 0, 4268 = zexp < zα / 2 = 1,96

entonces no se rechaza H0 al 5 % de significación. Por tanto, las distribuciones no pre-


sentan diferencias significativas en cuanto a dispersión; así pues, considerando como
factor indicador de la distinta distribución de ventas la dispersión, no sería necesario
tomar las medidas integradas en dicha política homogeneizadora.

© Ediciones Pirámide 231


Ejercicios de inferencia estadística y muestreo

c) Si se supone que las distribuciones son normales:

X ~ N(μx , σ x )
Y ~ N(μy , σ y )

para ver si las ventas en la cadena A presentan más dispersión, planteamos las hipótesis:

H0 : σ x2  σ y2
H1: σ x2 > σ y2

Este contraste se resolverá utilizando como estadístico de prueba:

Sx2
F= ~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10,10
Sy2 H0 x y

pues mx y my son desconocidas.


La región crítica representada gráficamente será:

Ᏺ10,10

0,95

= 0,05

F1– = 2,98

rechazándose H0 si Fexp > F1 – a = 2,98.


Calculamos las varianzas muestrales:

冤 冢 冣冥 冤 冥
nx nx
1 1 2 1 80, 4 2
s x2 =
nx − 1
∑ xi2 − nx
∑ xi =
11 − 1
716,72 −
11
= 12,9069
i =1 i =1

sy2 =
1
11 − 1 冤
1.186,3 −
(101,6)2
11
= 24,7885 冥
232 © Ediciones Pirámide
Contraste de hipótesis no paramétrico

y así:

12,9069
Fexp = = 0,5207 < F1 − α = 2,98
24,7885

por tanto, no se rechaza H0 al 5 % de significación, por lo que, al parecer, las ventas de


la cadena A no presentan más dispersión.

Durante los meses de mayo y junio, las entidades bancarias suelen dis-
Ejercicio 3.25
poner de personal que facilita la realización de la declaración de la renta
a sus clientes. Ante la gran cantidad de clientes que solicitan este servicio, una sucursal
bancaria decidió dar cita previa con el fin de evitar las largas esperas que se producían.
A pesar de la medida, los clientes tenían que seguir esperando un tiempo medio de cinco
minutos antes de ser atendidos. Una mañana elegida al azar se decidió contabilizar los
tiempos de espera de cada uno de los clientes, que fueron los siguientes:

3 4,5 5 3 0 5,5 2 6,5 8

¿Podría decirse que el tiempo de espera se distribuye según una ley exponencial?
Nivel de significación: 1 %.

Denotemos con X la variable aleatoria que representa el tiempo de espera


Solución
de uno de estos clientes. Se desea contrastar, sobre la base de la informa-
ción muestral, si X se distribuye según una exponencial de parámetro a. Si esto fuera
así, como los clientes esperan un tiempo medio de cinco minutos, se tendría:

1
5 = E[ X ] =
a
1
a= = 0,2
5

Por tanto, las hipótesis a contrastar serán:

H0 : X ~ Exp 冢 1 冣
5

H1: X ~/ Exp 冢 1 冣
5

© Ediciones Pirámide 233


Ejercicios de inferencia estadística y muestreo

o equivalentemente:

H0 : F( x ) = F0 ( x )
H1: F( x ) ≠ F0 ( x )

siendo F(x) la verdadera función de distribución de la variable X y F0 (x) la función de


distribución de una Exp (1/5), es decir:

⎧1 − e − ax si x > 0 ⎫ ⎧1 − e − x / 5 si x > 0
F0 ( x ) = ⎨ ⎬=⎨
⎩0 si x  0 ⎭ ⎩0 si x  0

Para realizar este contraste, podemos utilizar el test de Kolmogorov-Smirnov para


una muestra, cuyo estadístico de prueba es, en el caso bilateral:

Dn = máx
−∞<x<+∞
冟F0 ( x ) − Fn ( x )冟 = máx{ai , bi}

con

ai = 冟F0 ( xi ) − Fn ( xi )冟
bi = 冟F0 ( xi ) − Fn ( xi − 1 )冟

y Fn la distribución empírica:

N( x)
Fn ( x ) =
n
N ( x ) = «Número de observaciones muestrales inferiores o iguales a x »

Este test rechaza H0 si el valor observado del estadístico, Dn,exp es superior al valor
crítico:

Dn, exp > Dα

donde D a es tal que:

P( Dn > Dα / H0 ) = α = 0,01
234 © Ediciones Pirámide
Contraste de hipótesis no paramétrico

Utilizando la tabla 14 para un test bilateral y con n = 9, se tiene:

Dα = 0,513

Por tanto, rechazaremos H0 si:

Dn, exp > 0,513

Para calcular el valor experimental del estadístico, construimos la siguiente tabla, en


la que las observaciones muestrales han sido ordenadas de menor a mayor:

xi ni Fn(xi) = N(xi)/n F0(xi) ai = 冟 Fn(xi) – F0(xi) 冟 bi = 冟 Fn(xi) – F0(xi – 1) 冟

0,0 1 1/9 0,0000 0,1111 0,0000


2,0 1 2/9 0,3297 0,1075 0,2186
3,0 2 4/9 0,4512 0,0067 0,2290
4,5 1 5/9 0,5934 0,0379 0,1490
5,0 1 6/9 0,6321 0,0345 0,0766
5,5 1 7/9 0,6671 0,1106 0,0005
6,5 1 8/9 0,7275 0,1614 0,0503
8,0 1 9/9 = 1 0,7981 0,2019 0,0908

n=9

Así:

Dn, exp = máx{ai , bi} = 0,2290

y como:

Dn, exp = 0,2290  0,513

la información muestral no presenta evidencia suficiente, al 1 % de significación, para


rechazar la hipótesis nula H0, que indicaba que el tiempo de espera de los clientes seguía
una distribución exponencial con parámetro a = 1/5.

En una facultad se decidió formar un solo grupo para impartir una asig-
Ejercicio 3.26
natura que es común a las licenciaturas de Economía y de Dirección y
Administración de Empresas. En un examen tipo test de 100 preguntas, se encontró que
la calificación media de los estudiantes de una y otra licenciatura era la misma. Sin em-

© Ediciones Pirámide 235


Ejercicios de inferencia estadística y muestreo

bargo, el profesor desea conocer también el grado de homogeneidad de las calificaciones


obtenidas por los alumnos de dichas licenciaturas. Para ello, toma dos muestras aleato-
rias simples de 11 y 12 exámenes, respectivamente, pertenecientes a alumnos de cada
una de las licenciaturas. Las puntuaciones fueron las siguientes:

Dirección
Economía y Administración
de Empresas

56 60
85 58
23 50
64 32
75 69
92 83
45 36
38 48
67 55
40 88
73 70
13 20
52

Utilizando un 10 % de significación, ¿señalan estos datos la existencia de diferencias


significativas en cuanto a la dispersión de las calificaciones entre estas licenciaturas?

Sean las variables X e Y las que representan la puntuación de los alumnos


Solución
de Economía y Dirección y Administración de Empresas, respectivamente,
en el test realizado. Suponemos que estas variables son continuas con la misma distribu-
ción, salvo, quizá, en el parámetro de dispersión. Por tanto, se trata de contrastar:

H0 : F ( x ) = G( x ) (tienen el mismo parámetro de dispersión)


H1: F( x ) ≠ G( x ) (tienen distinto parámetro de dispersión)

siendo F y G las funciones de distribución de X e Y, respectivamente.


Para realizar este contraste utilizaremos el test de Siegel-Tukey, cuyo estadístico es:

n
Sn = ∑ ai Zi
i =1

236 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

siendo:

⎧1 si la observación i-ésima en la muestra combinada


⎪ y ordenada es una X

Zi = ⎨
⎪0 si la observación i-ésima en la muestra combinada
⎪⎩ y ordenada es una Y

y ai los coeficientes obtenidos al asignar los rangos a la muestra combinada y ordenada


de menor a mayor de la siguiente forma: a la primera observación se le asigna rango 1;
a la última, rango 2; a la penúltima, rango 3; a la segunda y tercera, rangos 4 y 5, y así
sucesivamente.
Como en este caso el número total de observaciones, nx + ny = 13 + 12 = 25, es un
número impar, se ignorará la observación central.
Además, al ser nx = 13 > 10 y ny = 12 > 10, la distribución de Sn se puede aproximar
a la normal. Por tanto, para realizar el contraste podemos utilizar el estadístico:

Sn − E[ Sn ]
Z= N (0, 1)
σ [ Sn ] H0
n1 , n2 → ∞

con

nx (n + 1) 13(25 + 1)
E[ Sn ] = = = 169
2 2
nx ny (n + 1) 13 ⋅ 12(25 + 1)
Var [ Sn ] = = = 338
12 12

Con este test, la región crítica aproximada es:

N(0,1)

/2 = 0,05 1– = 0,90 /2 = 0,05

–z /2 = – 1,645 z /2 = 1,645

© Ediciones Pirámide 237


Ejercicios de inferencia estadística y muestreo

Para calcular zexp ordenamos las observaciones muestrales de forma conjunta y de


menor a mayor para asignarles los rangos ai:

a ai zi a i zi

x 13 1 1 1
y 20 4 0 —
x 23 5 1 5
y 32 8 0 —
y 36 9 0 —
x 38 12 1 12
x 40 13 1 13
x 45 16 1 16
y 48 17 0 —
y 50 20 0 —
x 52 21 1 21
y 55 24 0 —
x 56 — 1 —
y 58 23 0 —
y 60 22 0 —
x 64 19 1 19
x 67 18 1 18
y 69 15 0 —
y 70 14 0 —
x 73 11 1 11
x 75 10 1 10
y 83 7 0 —
x 85 6 1 6
y 88 3 0 —
x 92 2 1 2

Por tanto:
n
Sˆn = ∑ ai zi = 1 + 5 + 12 + 13 + 16 + 21 + 19 + 18 + 11 + 10 + 6 + 2 = 134
i =1

134 − 169
zexp = = − 1,9037
338
y como:
zexp = − 1,9037 < − 1,645 = − zα / 2

entonces se rechaza la hipótesis nula H0 al 10 % de significación, pudiendo afirmarse,


con un 10 % de significación, que existen diferencias significativas en cuanto a la dis-
persión de las calificaciones entre dichas licenciaturas.

238 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

El Ministerio de Trabajo desea conocer si las cuantías de las sanciones


Ejercicio 3.27
que recaen sobre las empresas por incumplimiento de normas de segu-
ridad son similares en tres comunidades autónomas consideradas. En cada comunidad
se eligen al azar cinco expedientes sancionadores, que presentan los siguientes importes,
expresados en miles de euros:

Comunidad A Comunidad B Comunidad C

1,225 1,128 6,225


1,624 4,622 9,524
4,626 3,121 4,625
1,411 1,823 5,521
3,151 1,141 15,629

Con una significación del 10 %:


a) ¿Se podría admitir que los importes de las sanciones son similares en las tres
comunidades?
b) En caso de resultar distintos, ¿entre qué comunidades se observan diferencias
significativas respecto a la cuantía de las sanciones?

a) Definimos las variables Xi, i = 1, 2, 3 como aquellas que representan el


Solución
importe de las sanciones en la comunidad i. Planteamos un contraste de
Kruskal-Wallis dada la suposición de no normalidad, puesto que no disponemos de infor-
mación sobre las distribuciones poblacionales de las variables Xi. Las hipótesis serán:

H0 : F1 ( x ) = F2 ( x ) = F3 ( x )
H1: ∃ (i, j ), i ≠ j / Fi ( x ) ≠ Fj ( x )

donde Fi representa la función de distribución de la variable aleatoria Xi (i = 1, 2, 3).


El estadístico del contraste de Kruskal-Wallis es:

k
12V 12 Ri2
H= = ∑ − 3(n + 1)
n(n + 1) n(n + 1) i = 1 ni

siendo:
ni
Ri = ∑ rij
j =1

© Ediciones Pirámide 239


Ejercicios de inferencia estadística y muestreo

y se rechaza H0 si:

Ĥ  hα

donde h a es tal que:

P( H  hα / H0 ) = α = 0,10

Utilizando la tabla 23, se obtiene que:

hα = 4,56

y, por tanto, se rechazará H0 si:

Hˆ  4,56

Para calcular el valor experimental, asignamos los rangos, en orden creciente, a cada
uno de los importes:

Comunidad Importe rij r1j r2j r3j

B 1,128 1 — 1 —
B 1,141 2 — 2 —
A 1,225 3 3 — —
A 1,411 4 4 — —
A 1,624 5 5 — —
B 1,823 6 — 6 —
B 3,121 7 — 7 —
A 3,151 8 8 — —
B 4,622 9 — 9 —
C 4,625 10 — — 10
A 4,626 11 11 — —
C 5,521 12 — — 12
C 6,225 13 — — 13
C 9,524 14 — — 14
C 15,629 15 — — 15

Suma de rangos — R = 120 R1 = 31 R2 = 25 R3 = 64

240 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Así, el valor experimental del estadístico será:

Hˆ =
12
15(15 + 1) 5冢
312 252 64 2
+
5
+
5 冣
− 3(15 + 1) = 8,82

como:

Hˆ = 8,82 > hα = 4,56

entonces se rechaza la hipótesis nula y, por tanto, con un 10 % de significación, podemos


concluir que se aprecian diferencias significativas en los importes de las sanciones entre
cada comunidad.
b) Para localizar entre qué comunidades se aprecian diferencias significativas, uti-
lizaremos el método de Dunn, para lo cual calcularemos:

cil = z p
12

n(n + 1) 1 1
+
ni nl
冊 , i, l = 1, 2, 3

con

α 0,10
p= = = 0,0167
k ( k − 1) 3(3 − 1)

y zp, tal que, siendo Z ~ N(0, 1):

P( Z  z p ) = p = 0,0167

Utilizando la tabla 7:

N(0,1)

0,9833 p = 0,0167

zp = 2,13

© Ediciones Pirámide 241


Ejercicios de inferencia estadística y muestreo

Así, como n1 = n2 = n3 = 5

cil = 2,13
12
冉 冊
15 ⋅ 16 1 1
+
5 5
= 6,0245 , ∀ i, l

y diremos que las diferencias entre los importes de la comunidad i y la comunidad l son
significativas si:

冟Ri − Rl 冟  cil
Por tanto:

冟R1 − R2 冟 = 冷 31 − 25 冷 = 6 = 1,2 < 6,0245


5 5 5

No hay diferencias entre los importes de las sanciones en las comunidades A y B.

冟R1 − R3 冟 = 冷 31 − 64 冷 = 33 = 6,6 > 6,0245


5 5 5

Se aprecian diferencias significativas entre los importes sancionadores de A y C.

冟R2 − R3 冟 = 冷 25 − 64 冷 = 39 = 7,8 > 6,0245


5 5 5

Hay diferencias significativas entre los importes de las comunidades B y C.

Ante las numerosas incidencias detectadas, la Organización de Consu-


Ejercicio 3.28
midores y Usuarios pretende investigar la duración de los tiempos de
entrega de la empresa Televenta, S. A., perteneciente a un conocido grupo comercial.
Para ello, decide realizar la compra de una bicicleta, que se oferta en la semana de
promoción, desde 10 puntos geográficos diferentes. En cada compra, el tiempo de com-
promiso de entrega fue de 15 días como máximo. Los tiempos reales de entrega (número
de días) fueron los siguientes:

45 7 23 15 30 16 28 40 50 32

242 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Utilizando un 10 % de significación:
a) ¿Indican estos datos que el 50 % de las ventas se entregan durante el tiempo de
compromiso?
b) Para comparar con el servicio de venta telefónica de otra empresa de la compe-
tencia, se realizaron seis compras similares en esta última, en la que el período
de compromiso de entrega resultó ser el mismo. Los tiempos reales de entrega
en este caso fueron:

10 15 20 17 30 22

En vista de toda la información, y con el mismo nivel de significación del apartado


anterior, ¿puede decirse que los tiempos reales de entrega son similares en estas
dos empresas? Utilice las correspondientes funciones de distribución empíricas.

a) Definimos la variable aleatoria X como:


Solución
X = «Tiempo de entrega de la bicicleta comprada a Televenta, S. A.»

El 50 % de las ventas se entregarían durante el período de compromiso si el tiempo


de entrega fuese inferior o igual a 15 días:
50%

15 días

Por tanto, se pretende contrastar si el valor de la mediana poblacional es igual a 15


días:

H0 : Me = 15 días = m
H1: Me ≠ 15 días

Para realizar este contraste podemos utilizar el contraste de signos de la mediana o


el de rangos-signos de Wilcoxon.

Contraste de signos de la mediana

Suponemos que X es una variable aleatoria continua, al menos en un entorno de su


mediana poblacional, y, por tanto, P(X = Me) = 0. Puesto que el número de observacio-
nes es reducido, el estadístico de prueba para este contraste será:

S + = «Número de signos + en la muestra».

© Ediciones Pirámide 243


Ejercicios de inferencia estadística y muestreo

cuya distribución, si la hipótesis nula es cierta, es:

S+ ~ B(n, 1/ 2)
H0

La sucesión de signos se calcula midiendo las desviaciones de las observaciones con


respecto al valor mediano propuesto en las hipótesis:

⎧> 0 ⇒ Asignamos signo +



Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo −
⎪= 0 ⇒ Ignoramos la observación y reducimos n

En nuestro caso, la sucesión de signos queda:

+ – + 0 + + + + + +

Puesto que hay una diferencia nula, entonces el tamaño muestral se reduce en una
unidad y, así:

S+ ~ B(n = 9, 1/ 2)
H0

El valor experimental correspondiente al número de signos positivos es Ŝ + = 8.


La región crítica del contraste es bilateral:

 /2  /2

k′ /2 k /2

siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que, para un nivel de
significación del 10 % (a = 0,10), verifican:

P( S +  kα′ / 2 )  α / 2 = 0,05
P( S +  kα / 2 )  α / 2 = 0,05

Utilizando la tabla correspondiente a la función de distribución de una binomial con


n = 9 y p = 1/2, tenemos que:

P( X  0) = P( X = 0) = 0,0020  α / 2 = 0,05
P( X  1) = 0,0195  0,05
P( X  2) = 0,0898 > 0,05

244 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Por tanto, k¢a/2 = 1; utilizando la simetría de una B(n, 1/2) obtenemos también el otro
valor crítico:

kα / 2 = n − kα′ / 2 = 9 − 1 = 8

La región crítica o de rechazo queda entonces de la siguiente forma:

k′ /2 = 1 k /2 =8

Puesto que Ŝ + = 8  k a/2, entonces se rechaza la hipótesis nula al 10 % de signifi-


cación, indicando los datos que el 50 % de las ventas no se entregan en el período de
compromiso.

Contraste de rangos-signos de Wilcoxon

De nuevo suponemos que X es continua y simétrica con respecto a su mediana po-


blacional. El estadístico de prueba para el contraste planteado anteriormente es ahora:

T + = «Suma de los rangos de las Di > 0»

estando las Di definidas de la misma manera que en el contraste de signos de la media-


na realizado antes. Ahora las magnitudes de las Di se utilizarán para asignar los rangos
correspondientes:

xi di = xi – 15 Signo (di) Rango (冟 di 冟)

45 30 + 8,0
7 –8 – 2,5
23 8 + 2,5
15 0
30 15 + 5,0
16 1 + 1,0
28 13 + 4,0
40 25 + 7,0
50 35 + 9,0
32 17 + 6,0

Para calcular los rangos, se ordenan los valores 冟 di 冟 y se asignan sus números de
orden de menor a mayor. Como hay dos valores 冟 di 冟 repetidos (correspondientes a las

© Ediciones Pirámide 245


Ejercicios de inferencia estadística y muestreo

observaciones 7 y 23), se les asigna a cada una el rango medio de los rangos que les
corresponderían si fueran diferentes.
Así:

Tˆ + = «Suma de rangos de las Di > 0» =


= 8 + 2,5 + 5 + 1 + 4 + 7 + 9 + 6 =
= 42,5

La región crítica también es bilateral en este caso:

 /2 = 0,05  /2 = 0,05

k′ /2 k /2

siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, que verifican:

P(T +  kα′ / 2 )  α / 2 = 0,05


P(T +  kα / 2 )  α / 2 = 0,05

Utilizando la tabla 21 con n = 9:

P(T +  kα′ / 2 )  0,05 ⇒ kα′ / 2 = 8


P(T +  kα / 2 )  0,05 = 1 − 0,95 ⇒ kα / 2 = 37

k′ /2 = 8 k /2 = 37

Como T + = 42,5  k a/2, entonces la decisión a tomar, utilizando un 10 % de signifi-


cación, vuelve a rechazar la hipótesis nula H0 : Me = 15 días.
b) Definimos ahora la variable aleatoria Y, que corresponde al tiempo de entrega en
la empresa de la competencia. Suponemos que X e Y son variables aleatorias continuas y
que los datos muestrales han sido recogidos de manera aleatoria y forman dos muestras
independientes.

246 © Ediciones Pirámide


Contraste de hipótesis no paramétrico

Sean F y G las correspondientes funciones de distribución de X e Y. Para contrastar


si los tiempos de entrega son similares, planteamos las siguientes hipótesis:

H 0 : F ( z ) = G( x )
H1: F( z ) ≠ G( x )

Puesto que indica la utilización de las funciones de distribución empíricas, debe-


mos realizar el test de Kolmogorov-Smirnov para dos muestras, cuyo estadístico de
prueba es:

Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟

siendo:

N1 ( x ) N2 ( x )
Fn1 ( x ) = y Gn2 ( x ) =
n1 n2

y Ni (x) el número de observaciones de la variable i que son menores o iguales que x.


La región crítica de este contraste es:

= 0,10

Dn1, n2,

P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10

Utilizando la tabla 18 con n1 = 10, n2 = 6, N1 = mín (n1, n2) = 6 y N2 = máx (n1, n2) = 10,
tendremos el valor crítico:

17
Dn1 , n2 ; α = = 0,567
30

Para calcular el valor experimental del estadístico de prueba organizamos los cálcu-
los en la siguiente tabla:

© Ediciones Pirámide 247


Ejercicios de inferencia estadística y muestreo

xi yi Fn1(x) = N1(x)/10 Gn2(x) = N2(x)/6 冟 Fn (x) – Gn (x) 冟


1 2

7 1/10 = 0,10 0 0,100


10 1/10 = 0,10 1/6 = 0,167 0,067
15 15 2/10 = 0,20 2/6 = 0,333 0,133
16 3/10 = 0,30 2/6 = 0,333 0,033
17 3/10 = 0,30 3/6 = 0,500 0,200
20 3/10 = 0,30 4/6 = 0,667 0,367
22 3/10 = 0,30 5/6 = 0,883 0,583
23 4/10 = 0,40 5/6 = 0,883 0,483
28 5/10 = 0,50 5/6 = 0,883 0,383
30 30 6/10 = 0,60 6/6 = 1,000 0,400
32 7/10 = 0,70 6/10 = 1,000 0,300
40 8/10 = 0,80 6/10 = 1,000 0,200
45 9/10 = 0,90 6/10 = 1,000 0,100
50 10/10 = 1,00 6/10 = 1,000 0,000

De esta tabla, se tiene que:

Dˆ n1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 = 0,533


x

y como es menor que el valor crítico:

17
Dˆ n1 , n2 = 0,533 < = 0,567
30

entonces, con un nivel de significación del 10 %, no se tiene evidencia para rechazar H0.
No puede rechazarse la hipótesis correspondiente a tiempos de entrega similares.

248 © Ediciones Pirámide


4
Análisis de la varianza

Análisis de la varianza

Un diario de tirada nacional publica en su suplemento dominical un es-


Ejercicio 4.1
tudio sobre el perfil y la situación económica de los afiliados de los
tres partidos más importantes del espectro político actual. Para su elaboración, se entre-
vistó a cinco militantes de cada uno de los partidos, seleccionados aleatoriamente. Entre
otras cuestiones de interés, los entrevistados facilitaron la cifra correspondiente a la renta
media mensual de la familia a la que pertenecen, que resultó ser, en euros:

Partido A Partido B Partido C

1.260 1.570 2.340


1.790 1.340 1.110
2.480 1.450 2.450
2.350 5.670 1.230
2.460 3.270 2.310

En el apartado de conclusiones se recogía la siguiente información: «Existen grandes


diferencias de renta entre los afiliados a partidos de uno y otro signo...». Suponiendo
normalidad y homocedasticidad de los datos, y con un 5 % de significación, ¿sería esta-
dísticamente correcta esta afirmación?

Representamos como Xi la variable aleatoria que recoge la renta media


Solución
mensual, en euros, de la familia de un militante en el partido político i
(i = 1 (A), 2 (B), 3 (C)):
Xi ~ N(mi, s)
pues son normales y homocedásticas. Además, por la propia definición de cada Xi, po-
dría decirse que estas variables son independientes.

© Ediciones Pirámide 249


Ejercicios de inferencia estadística y muestreo

En este ejercicio se pretende contrastar las hipótesis:

H0 : μ1 = μ2 = μ3
H1: μi ≠ μ j para algún i ≠ j

para lo que pueden utilizarse los métodos del análisis de la varianza, pues las variables
verifican los supuestos previos exigidos. El estadístico de prueba para realizar el con-
traste es:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
CM D

pues k = 3 y n = 15.
La región crítica puede representarse gráficamente1 como:

1 Ᏺ2,12

0,95 = 0,05

F2, 12; 1– = 3,89

donde el valor crítico se ha obtenido a partir de la tabla 11.


Pasamos a calcular el valor del estadístico experimental.
1
Aunque en las tablas estadísticas se representa la forma genérica más habitual de la función de densidad de una
distribución Ᏺ de Snedecor:

Ᏺn1, n2

en cada uno de los ejercicios se ha representado su forma correspondiente a los grados de libertad concretos.

250 © Ediciones Pirámide


Análisis de la varianza

x1j x2j x3j x21j x22j x23j

01.260 01.570 2.340 01.587.600 02.464.900 05.475.600


01.790 01.340 1.110 03.204.100 01.795.600 01.232.100
02.480 01.450 2.450 06.150.400 02.102.500 06.002.500
02.350 05.670 1.230 05.522.500 32.148.900 01.512.900
03.460 03.270 2.310 11.971.600 10.692.900 05.336.100

11.340 13.300 9.440 28.436.200 49.204.800 19.559.200

k ni
T= ∑ ∑ xij = 11.340 + 13.300 + 9.440 = 34.080
i =1 j =1

k ni
∑ ∑ xij2 = 28.436.200 + 49.204.800 + 19.559.200 = 97.200.200
i =1 j =1

k ni
Ti 2 34.080 2
SCT = ∑ ∑ xij2 − n
= 97.200.200 −
15
= 19.770.440
i =1 j =1

冤 冥
k ni k
Ti 2 11.340 2 13.300 2 9.440 2
SCD = ∑ ∑ xij2 − ∑ = 97.200.200 − + + = 18.280.360
i =1 j =1 i = 1 ni 5 5 5

SCE = SCT − SCD = 19.770.440 − 18.280.360 = 1.490.080

Tabla ANOVA para una clasificación simple


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

SCD
Dentro de los par- CM D = =
tidos (error aleato- SCD = 18.280.360 n – k = 15 – 3 = 12 n−k
CME
rio) = 1.523.363,33 =
CM D
SCE = 0, 4891
CME = =
Entre partidos SCE = 1.490.080 k–1=3–1=2 k −1
= 745.040

Total SCT = 19.770.404 n – 1 = 15 – 1 = 14

Como:

Fexp = 0, 4891 < 3,89 = F2, 12;1 − α

© Ediciones Pirámide 251


Ejercicios de inferencia estadística y muestreo

entonces no se rechaza la hipótesis nula H0: m1 = m2 = m3, por lo que, al 5 % de significación,


la afirmación realizada por el diario no sería estadísticamente correcta, pues los datos mues-
trales no presentan evidencia suficiente para rechazar la hipótesis de igualdad de medias.

En un restaurante se ha realizado un proceso de selección para contratar


Ejercicio 4.2
a un camarero profesional altamente cualificado. De entre todos los
candidatos presentados, cuatro de ellos fueron seleccionados para realizar las pruebas
finales. Una de estas pruebas consistía en desempeñar el puesto de trabajo durante cierto
número de horas de un día determinado. El dueño del restaurante considera que podría
utilizar las cantidades entregadas como propinas para evaluar el grado de satisfacción
de los clientes y la calidad del servicio prestado por cada camarero. Los resultados co-
rrespondientes a esta prueba se recogen en la tabla siguiente, donde los datos expresan el
porcentaje de propina entregado sobre el importe total de la factura de distintos clientes.

Señor Ruiz Señor Pérez Señor González Señor Ortega

08,0 10,0 08,5 13,0


07,5 09,5 05,0 10,5
10,9 11,4 15,0 09,5
10,0 10,3 11,1 12,0
12,0 12,0 10,5 16,0
06,5 07,0 08,0
10,0 11,0

Suponiendo que los porcentajes de propinas sobre el importe total de la factura pueden
considerarse normalmente distribuidos, y utilizando un nivel de significación del 10 %:
a) ¿Puede aceptarse la hipótesis de homocedasticidad de las distribuciones corres-
pondientes al porcentaje de propina entregado a cada uno de los camareros?
b) ¿Puede decirse que los cuatro candidatos están igualmente cualificados para este
tipo de trabajo?

Sean las variables aleatorias:


Solución
Xi = «Porcentaje de propina sobre el importe total de una factura recibido por el
candidato i».
con i = 1, 2, 3, 4, correspondientes a los señores Ruiz, Pérez, González y Ortega, respec-
tivamente. Estas variables tienen distribuciones normales:
Xi ~ N(mi, si)
y, además, pueden considerarse independientes.

252 © Ediciones Pirámide


Análisis de la varianza

a) Para comprobar si las variables pueden considerarse homocedásticas, realizamos


el test de Bartlett de homogeneidad de varianzas:

H0 : σ 12 = σ 22 = σ 32 = σ 42
H1: σ i2 ≠ σ 2j para algún i ≠ j

El estadístico de prueba para contrastar estas hipótesis viene dado por:


k
(n − k ) ln CM D − ∑ (ni − 1) ln Si2
i =1
B= ~ χ k2 − 1 ≡ χ 42 − 1 ≡ χ 32
冢 冣
k H0
1 1 1
1+
3( k − 1)
∑ n −1 − n − k
i =1 i

y rechazaremos H0, con un nivel de significación a = 0,10, si:

Bexp > χ k2 − 1;1 − α = χ 32;1 − α

donde este valor crítico verifica que:

P[ χ 32 > χ 32, 1 − α ] = α = 0,10

Por tanto, utilizando la tabla 9, se tiene:

χ 32, 1 − α = 6,25

y, gráficamente, la región crítica queda representada por:

χ23

1– = 0,90

= 0,10

χ23, 1 – = 6,25

© Ediciones Pirámide 253


Ejercicios de inferencia estadística y muestreo

Para calcular el valor experimental de B, debemos encontrar en primer lugar las


varianzas muestrales y el valor del cuadrado medio dentro de los grupos. Como:

1 n
冤∑ xi2 − n 冢∑ xi 冣 冥
n n 2
1 1
s2 = ∑
n − 1 i =1
( xi − x ) 2 =
n −1 i =1 i =1

entonces:

s12 =
1
7 −1 冤
625,31 −
(64,9)2
7
= 3,9324 冥
s22 =
1
5 −1 冤
570,3 −
(53,2)2
5
= 1,063 冥
s32 =
1
7 −1 冤
725,71 −
(68,1)2
7
= 10,5324 冥
s42 =
1
6 −1 冤
833,5 −
(69)2
6
=8 冥
SCD
CM D =
n−k
k ni k
Ti 2
SCD = ∑ ∑ xij2 − ∑
i =1 j =1 i = 1 ni

Por tanto, construimos la siguiente tabla:

x1j x2j x3j x4j x21j x22j x23j x24j

08,0 10,0 08,5 13,0 064,00 100,00 072,25 169,00


07,5 09,5 05,0 10,5 056,25 090,25 025,00 110,25
10,9 11,4 15,0 09,5 118,81 129,96 225,00 090,25
10,0 10,3 11,1 12,0 100,00 106,09 123,21 144,00
12,0 12,0 10,5 16,0 144,00 144,00 110,25 256,00
06,5 07,0 08,0 042,25 049,00 064,00
10,0 11,0 100,00 121,00

64,9 53,2 68,1 69,0 625,31 570,30 725,71 833,50

254 © Ediciones Pirámide


Análisis de la varianza

y así:

k ni
∑ ∑ xij2 = 625,31 + 570,3 + 725,71 + 833,5 = 2.754,82
i =1 j =1

SCD = 2.754,82 − 冤 64,9 2 53,2 2 68,12 69 2


7
+
5
+
7
+
6 冥
= 131,0406

SCD 131,0406
CM D = = = 6,24
n−k 25 − 4

con

k
n= ∑ ni = 7 + 5 + 7 + 6 = 25
i =1

k=4

Sustituyendo estos valores en la expresión del estadístico de Bartlett, tenemos:

(25 − 4) ln (6,24) − [6 ⋅ ln 3,9324 + 4 ⋅ ln 1,063 + 6 ⋅ ln 10,5324 + 5 ⋅ ln 8]


Bexp = =
1+
1

1 1 1 1
+ + + −
1
3( 4 − 1) 6 4 6 5 25 − 4 冥
5, 4668
= = 5,0539
1,0817

Como:

Bexp = 5,0539 < 6,25 = χ 32, 1 − α

entonces, al 10 % de significación, no se rechaza H0, la hipótesis de homogeneidad de


varianzas, por lo que parece aceptable la hipótesis de homocedasticidad de las variables.
b) Los cuatro candidatos estarán igualmente cualificados si la calidad del servicio
prestado y el grado de satisfacción de los clientes es el mismo para todos; como se ha
decidido medir estas cualidades a través de las propinas recibidas, los candidatos estarán

© Ediciones Pirámide 255


Ejercicios de inferencia estadística y muestreo

igualmente cualificados si los porcentajes medios de propinas son iguales para todos
ellos. Por tanto, debemos contrastar las hipótesis:

H0 : μ1 = μ2 = μ3 = μ 4
H1: ∃ (i, j ), i ≠ j /μi ≠ μ j

y puesto que las variables aleatorias Xi son normales, homocedásticas e independientes,


utilizaremos las técnicas del ANOVA. Así pues, el estadístico de prueba para realizar
el contraste será:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 25 − 4 ≡ Ᏺ 3, 21
H0
CM D

pues k = 4 y n = 25.
La región crítica del contraste se puede representar gráficamente como:

Ᏺ3, 21

1– = 0,90

= 0,10

F3, 21; 1 – = 2,36

donde el valor crítico ha sido obtenido a partir de la tabla 11, de manera que verifique:

P[Ᏺ 3, 21 > F3, 21;1 − α ] = 0,10

Para obtener el valor experimental calculamos en primer lugar las sumas de cuadrados
y construimos la tabla ANOVA. Algunos de los cálculos necesarios ya han sido realiza-
dos en el apartado anterior:

256 © Ediciones Pirámide


Análisis de la varianza

k
T= ∑ Ti = 64,9 + 53,2 + 68,1 + 69 = 255,2
i =1

k ni
T2 (255,2)2
SCT = ∑ ∑ xij2 − n
= 2.754,82 −
25
= 149,7384
i =1 j =1

k ni k
Ti
SCD = ∑ ∑ xij2 − ∑ = 131,0406
i =1 j =1 i = 1 ni

SCE = SCT − SCD = 18,6978

Tabla ANOVA para una clasificación simple


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

SCE
CME = =
Entre grupos SCE = 18,6978 k–1=3 k −1
CME
= 6,2326 =
CM D

SCD = 0,9988
CM D = =
Dentro de grupos SCD = 131,0406 n – k = 21 n−k
= 6,2400

Total SCT = 149,7384 n – 1 = 24

Como:

Fexp = 0,9988 < F3, 21;1 − α = 2,36

entonces, al 10 % de significación, no se rechaza H0, es decir, los datos muestrales, al


10 % de significación, no presentan evidencia suficiente para decir que existen diferen-
cias significativas entre las cualificaciones de los cuatro candidatos a camareros.

El Instituto Nacional de Estadística de un determinado país desea com-


Ejercicio 4.3
prar una potente estación de servicio para el tratamiento de sus datos.
Tres distribuidores de ordenadores independientes, Infomat, S. A., Servired, S. A., y
Compumat, S. A., presentaron sus ofertas al instituto, que fueron muy similares en cuan-
to a precios, garantía, servicios posventa y resto de especificaciones. Para decidir a qué
distribuidor comprar la estación de servicio, el instituto solicitó a cada uno de ellos que

© Ediciones Pirámide 257


Ejercicios de inferencia estadística y muestreo

ejecutara cierto programa con cinco conjuntos similares de datos. Los tiempos de ejecu-
ción, en minutos, aparecen en la siguiente tabla:

Distribuidor
Conjunto
de datos Infomat, S. A. Servired, S. A. Compumat, S. A.

1 67 52 40
2 50 56 52
3 55 43 44
4 72 66 47
5 67 68 35

Suponiendo que los tiempos de ejecución de este programa pueden considerarse nor-
malmente distribuidos, y utilizando un nivel de significación del 1 %, ¿pueden apreciarse
diferencias significativas en los ordenadores de estos tres distribuidores?

Definimos las variables:


Solución

Xi = «Tiempo de ejecución del programa en el ordenador del distribuidor i».

siendo i = 1, 2, 3 correspondientes a los distribuidores Infomat, S. A., Servired, S. A.,


y Compumat, S. A., respectivamente. Se supone que estas variables están normalmente
distribuidas, por tanto:

Xi ~ N ( μi , σ i ), i = 1, 2, 3

y, además, son independientes.


Los ordenadores de los tres distribuidores pueden considerarse iguales si los tiem-
pos medios de ejecución del programa son similares. Así, tendremos que contrastar la
hipótesis m1 = m2 = m3. Para poder realizar un análisis de la varianza, veamos, en primer
lugar, si puede admitirse la hipótesis de homocedasticidad; es decir, comprobamos si las
variables aleatorias Xi presentan homogeneidad de varianzas. Para ello, aplicamos el test
de Bartlett para contrastar las hipótesis.

H0 : σ 12 = σ 22 = σ 32
H1: σ i2 ≠ σ 2j para algún i ≠ j

258 © Ediciones Pirámide


Análisis de la varianza

El estadístico de prueba proporcionado por el test de Bartlett es:

k
(n − k ) ln CM D − ∑ (ni − 1) ln Si2
i =1
B=
冢∑ n 1− 1 − n −1 k 冣
k
1
1+
3( k − 1) i =1 i

cuya distribución bajo H0 es:

B ~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
H0

La región crítica, con un 1 % de significación, viene determinada por los valores del
estadístico, tales que:

P[ B > χ 22;1 − α ] = α = 0,01 ⇒ χ 22;1 − α = 9,21

donde el valor crítico ha sido buscado en la tabla 9.


Gráficamente:

χ22

0,99 = 0,01

χ22,1– = 9,21

Con lo cual, rechazaremos la homogeneidad de varianzas si:

Bexp > 9,21

© Ediciones Pirámide 259


Ejercicios de inferencia estadística y muestreo

Calculemos ahora el valor experimental del estadístico. Para calcular las varianzas
muestrales, utilizamos que:

1 n
冤 冢∑ x 冣 冥
n n 2
1 1
s2 = ∑
n − 1 i =1
( xi − x ) 2 =
n −1
∑ xi2 − n
i
i =1 i =1

Así:

s12 =
1
4 冤
19.678 −
(311)2
5
= 85,7 冥
s22 =
1
4 冤
16.669 −
(285)2
5
= 106 冥
s32 =
1
4 冤
9.674 −
(218)2
5
= 42,3 冥
冤 冥
k ni k
Ti 2 3112 2852 2182
SCD = ∑ ∑ xij2 − ∑ = 46.030 − + + = 936
i =1 j =1 i = 1 ni 5 5 5
SCD 936
CM D = = = 78
n−k 12

Sustituyendo en la expresión de B, se tiene:

(15 − 3) ln 78 − [ 4 ⋅ ln 85,7 + 4 ⋅ ln 106 + 4 ⋅ ln 42,3] 0,8442


Bexp = = = 0,7598
冢 冣
1 1 1 1 1 1111
,
1+ + + −
3(3 − 1) 4 4 4 15 − 3

y como:

Bexp = 0,7598 < 9,21 = χ 22;1 − α

entonces no se rechaza la hipótesis nula de homogeneidad de varianzas y podemos ad-


mitir la hipótesis de homocedasticidad, de modo que las variables Xi verifican:

Xi ~ N ( μi , σ i ),
i = 1, 2, 3
Xi independientes
Xi homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 )

260 © Ediciones Pirámide


Análisis de la varianza

Por tanto, realizamos un ANOVA para contrastar las hipótesis:

H0 : μ1 = μ2 = μ3
H1: ∃ (i, j ), i ≠ j, tal que μi ≠ μ j

El estadístico del contraste viene dado por:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
CM D

Para calcular el valor experimental de este estadístico, necesitamos las sumas de


cuadrados. Realizamos los cálculos correspondientes en la siguiente tabla:

x1j x2j x3j x21j x22j x23j

067 052 040 04.489 02.704 1.600


050 056 052 02.500 03.136 2.704
055 043 044 03.025 01.849 1.936
072 066 047 05.184 04.356 2.209
067 068 035 04.489 04.624 1.225

311 285 218 19.687 16.669 9.674

Por tanto:

k ni
T= ∑ ∑ xij = 311 + 285 + 218 = 814
i =1 j =1

k ni
∑ ∑ xij2 = 19.687 + 16.669 + 9.674 = 46.030
i =1 j =1

k ni
T2 814 2
SCT = ∑ ∑ xij2 − n
= 46.030 −
15
= 1.856,9333
i =1 j =1

k
Ti 2 T 2 3112 2852 2182 814 2
SCE = ∑ − = + + − = 920,9333
i = 1 ni n 5 5 5 15

SCD = SCT − SCE = 936

© Ediciones Pirámide 261


Ejercicios de inferencia estadística y muestreo

Construimos la tabla ANOVA:

Fuente Sumas Grados


Cuadrados medios Fexp
de variación de cuadrados de libertad

SCE
Entre distribuido- CME = =
SCE = 920,9333 k–1=3–1=2 k −1
res CME
= 460, 4667 =
CM D

SCD = 5,9034
Dentro de distribui- CM D = =
SCD = 936 n – k = 15 – 3 = 12 n−k
dores
= 78

Total SG = 1.856,9333 n – 1 = 15 – 1 = 14

La región crítica para a = 0,01 viene expresada gráficamente como:

Ᏺ2,12

0,99 = 0,01

F2, 12; 1– = 6,93

Como:

Fexp = 5,9034 < F2, 12;1 − α = 6,93

entonces, al 1 % de significación, no se rechaza H0, por lo que no se aprecian diferencias


significativas en los ordenadores de estos tres distribuidores.

En cierta región se pretende realizar un estudio comparativo sobre el


Ejercicio 4.4
precio del litro de gasolina sin plomo en las gasolineras situadas en
áreas comerciales, residenciales y zonas industriales. Para realizar el estudio se ha ele-
gido al azar un determinado número de gasolineras en cada una de estas zonas y se ha

262 © Ediciones Pirámide


Análisis de la varianza

anotado el precio medio semanal, en euros, del litro de gasolina sin plomo. Los datos
recogidos aparecen en la siguiente tabla:

Zona Zona Zona


comercial residencial industrial

1,097 1,158 1,138


1,122 1,145 1,176
1,105 1,161 1,159
1,119 1,153 1,093
1,089 1,124
1,102 1,089
1,095

Admitiendo como ciertas las hipótesis de independencia, normalidad y homocedas-


ticidad en las variables estudiadas, ¿señalan los datos diferencias significativas en el
precio de la gasolina sin plomo en las distintas zonas? Nivel de significación: 2,5 %.

Representamos el precio medio semanal del litro de gasolina sin plomo en


Solución
una gasolinera de la zona i mediante la variable aleatoria Xi, con i = 1
(zona comercial), 2 (zona residencial) y 3 (zona industrial). Estas variables se distribuyen
normalmente:

X1 ~ N ( μ1, σ 1 )
X2 ~ N ( μ 2 , σ 2 )
X3 ~ N ( μ3 , σ 3 )

son independientes y, además, homocedásticas, por lo que:

σ 12 = σ 22 = σ 32 = σ 2

con s una cantidad constante.


Si no hubiera diferencia entre los precios de la gasolina sin plomo en estas tres zo-
nas, las medias de las tres variables aleatorias deberían ser iguales:

μ1 = μ2 = μ3

© Ediciones Pirámide 263


Ejercicios de inferencia estadística y muestreo

Por tanto, debemos contrastar las hipótesis:

H0 : μ1 = μ2 = μ3
H1: ∃ (i, j ), i ≠ j /μi ≠ μ j

y como las variables Xi, i = 1, 2, 3 son normales, independientes y homocedásticas,


aplicaremos el análisis de la varianza. El estadístico de prueba para realizar el contras-
te es:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,17 − 3 ≡ Ᏺ 2,14
H0
CM D

ya que tenemos k = 3 variables y n = n1 + n2 + n3 = 7 + 4 + 6 = 17 datos.


La región crítica, gráficamente, quedará como:

Ᏺ2,14

0,975 = 0,025

F2, 14; 1– = 4,86

donde el valor crítico F2,14; 1 – a ha sido obtenido a partir de la tabla 11, de tal forma que
verifique:

P[Ᏺ 2, 14  F2, 14;1 − α ] = 1 − α = 0,975

Para obtener el valor experimental, calculamos en primer lugar las sumas de cua-
drados:

k ni k ni
T2
SCT = ∑ ∑ ( xij − x )2 = ∑ ∑ xij2 − n
i =1 j =1 i =1 j =1

264 © Ediciones Pirámide


Análisis de la varianza

k ni k ni k
Ti 2
SCD = ∑ ∑ ( xij − xi )2 = ∑ ∑ xij2 − ∑
i =1 j =1 i =1 j =1 i = 1 ni

k ni k
Ti 2 T 2
SCE = ∑ ∑ ( xi − x ) 2 = ∑ − = SCT − SCD
i =1 j =1 i = 1 ni n

Realizamos las operaciones en la siguiente tabla:

Zona comercial Zona residencial Zona industrial

x1j x21j x2j x22j x3j x23j

1,097 1,203409 1,158 1,340964 1,138 1,295044


1,122 1,258884 1,145 1,311025 1,176 1,382976
1,105 1,221025 1,161 1,347921 1,159 1,343281
1,119 1,252161 1,153 1,329409 1,093 1,194649
1,089 1,185921 1,124 1,263376
1,102 1,214404 1,089 1,185921
1,095 1,199025

7,729 8,534829 4,617 5,329319 6,779 7,665247

Así, tenemos que:

T1 = 7,729 ; T2 = 4,617 ; T3 = 6,779


k
T= ∑ Ti = 19,125
i =1

k ni
∑ ∑ xij2 = 8,534829 + 5,329319 + 7,665247 = 21,529395
i =1 j =1

19,1252
SCT = 21,529395 − = 0,01377
17

SCD = 21,529395 − 冤 7,729 2 4,6172 6,779 2


7
+
4
+
6
= 0,00716244 冥
SCE = SCT − SCD = 0,00660756

y con estos valores construimos la tabla ANOVA:

© Ediciones Pirámide 265


Ejercicios de inferencia estadística y muestreo

Tabla ANOVA para una clasificación simple


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

SCD
Dentro de los gru- CM D = =
SCD = 0,00716244 n – k = 17 – 3 = 14 n−k
pos CME
= 0,00051160 =
CM D

SCE = 6, 4577
CME = =
Entre grupos SCE = 0,00660756 k–1=3–1=2 k −1
= 0,003303780

Total SCT = 0,013770 n – 1 = 17 – 1 = 16

Como
Fexp = 6, 4577 > 4,86 = F2, 14;1 − α

entonces, al 2,5 % de significación, los datos muestrales presentan evidencia suficiente


para rechazar la hipótesis nula de igualdad de medias. Por tanto, al 2,5 % de significa-
ción, los datos señalan diferencias significativas en los precios de la gasolina sin plomo
en las diferentes zonas.

Teniendo en cuenta los resultados del ejercicio anterior, y con el mismo


Ejercicio 4.5
nivel de significación, indique entre qué zonas se presentan diferencias
significativas en cuanto al precio de la gasolina sin plomo.

Como en el ejercicio anterior se ha rechazado la hipótesis nula al realizar


Solución
el análisis de la varianza, los datos señalan diferencias significativas en los
precios de la gasolina entre las distintas zonas. Para ver qué zonas presentan diferencias
debemos realizar los siguientes contrastes:
a) H0 : μ1 = μ2
H1: μ1 ≠ μ2
b) H0 : μ1 = μ3
H1: μ1 ≠ μ3
c) H0 : μ 2 = μ 3
H1: μ2 ≠ μ3

266 © Ediciones Pirámide


Análisis de la varianza

mediante el método de comparaciones múltiples de Scheffé. Los estadísticos de prueba


a utilizar serán:
( Xi − X j )2
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 2,14
冢 冣
H0
SCD 1 1
( k − 1) +
n − k ni n j

donde i = 1, 2, 3; j = 1, 2, 3, según se trate de los contrastes a), b) y c).


La región crítica es la misma para los contrastes a), b) y c), y como la distribución
del estadístico es idéntica a la del análisis de varianza, entonces la región crítica será la
misma del ejercicio anterior para los tres contrastes:

Ᏺ2,14

0,975 = 0,025

F2, 14; 1 – = 4,86

Calculamos los valores experimentales:

Fexp =
(a)
冢7,729 4,617 2
7

4
= 6,2460

(3 − 1)
0,00716244 1 1
17 − 3
+
7 4 冢 冣

Fexp =
(b)
冢 7,729 6,779 2
7

6
= 2,0839

(3 − 1)
0,00716244 1 1
17 − 3
+
7 6 冢 冣
(c)
Fexp =
冢 4,617 6,779 2
4

6
= 1,3984

(3 − 1)
0,00716244 1 1
17 − 3
+
4 6 冢 冣
© Ediciones Pirámide 267
Ejercicios de inferencia estadística y muestreo

Por tanto, como:

(a)
Fexp = 6,2460 > 4,86 = F2, 14;1 − α

entonces, rechazamos H0 en el contraste a), es decir, el precio de la gasolina de las zonas


comerciales y residenciales presenta diferencias significativas:

(b)
Fexp = 2,0839 < 4,86 = F2, 14;1 − α

luego no se rechaza H0 en el contraste b), es decir, el precio de la gasolina no presenta


diferencias significativas entre las zonas comerciales e industriales:

(c)
Fexp = 1,3984 < 4,86 = F2, 14;1 − α

No se rechaza H0 en el contraste c) y, por tanto, el precio de la gasolina no presenta


diferencias significativas entre las zonas residenciales e industriales.

El departamento de marketing de una empresa desea estudiar la reper-


Ejercicio 4.6
cusión de sus campañas publicitarias en las cifras de ventas de uno
de sus productos. Se realizaron tres campañas diferentes, cada una en una provincia
de la misma comunidad autónoma. Las tres campañas tenían diferentes características
en cuanto al medio de comunicación utilizado. La campaña A se centraba en la prensa
escrita, la B en las emisoras de radio y la C en anuncios en vallas publicitarias.
Durante los tres primeros meses, las cifras de ventas (en cientos de unidades) en
cinco tiendas, seleccionadas al azar y de manera independiente en cada provincia, fueron
las siguientes:

Campañas publicitarias

A (prensa) B (radio) C (vallas)

30 85 40
20 73 28
35 92 39
42 86 41
60 75 50

a) Comprobar, con un nivel de significación del 10 %, si las cifras de ventas difie-


ren según el tipo de campaña aplicado.

268 © Ediciones Pirámide


Análisis de la varianza

b) Suponiendo normalidad, independencia y homocedasticidad de las diferentes


distribuciones de las cifras de ventas en cada provincia, ¿podemos ahora admi-
tir, con un 1 % de significación, que el tipo de campaña utilizado repercute en
las ventas del artículo?
c) ¿Se puede afirmar que las ventas de las tiendas situadas en la provincia en la
que se ha aplicado la campaña A son diferentes a las de las tiendas situadas en
la provincia en la que se ha aplicado la campaña C? ¿Podría mantener la misma
conclusión al 5 % de significación?

Definimos las variables aleatorias:


Solución
Xi = «Cifra de ventas (en cientos de unidades) en una tienda de la provincia donde
se ha realizado la campaña publicitaria i».
i = 1 (A: prensa escrita), 2 (B: emisoras de radio), 3 (C: vallas publicitarias).
a) Denotamos por Fi la función de distribución correspondiente a la variable alea-
toria Xi. Si las cifras de ventas no difieren según el tipo de campaña utilizado, las fun-
ciones de distribución serían idénticas. Por tanto, podemos plantear el contraste:

H0 : F1 ( x ) = F2 ( x ) = F3 ( x )
H1: ∃ (i, j )/ Fi ( x ) ≠ Fj ( x ) ; i≠j

que puede resolverse mediante el test de Kruskall-Wallis suponiendo que las variables
aleatorias son continuas y las muestras han sido obtenidas independientemente unas de
otras. El estadístico de prueba de este contraste es:

k
12 Ri2
H= ∑ − 3(n + 1)
n(n + 1) i = 1 ni

con

n = n1 + n2 + n3 = 5 + 5 + 5 = 15
ni
Ri = ∑ rij = Suma de rangos de la muestra i, i = 1, 2, 3
j =1

© Ediciones Pirámide 269


Ejercicios de inferencia estadística y muestreo

La hipótesis nula se rechazará, al nivel de significación a = 0,10, si:

Hˆ  hα = h0,10

donde este valor crítico es tal que:

P( H  hα ) = α = 0,10

Utilizando la tabla 23 para k = 3 y con n1 = n2 = n3 = 5, tenemos que:

P( H  4,56) = 0,10

Por tanto, h a = 4,56.


Para obtener el valor experimental, Ĥ, del estadístico de Kruskall-Wallis, ordenamos
las observaciones muestrales de menor a mayor asignando a cada una su rango corres-
pondiente; si hubiera observaciones repetidas, entonces se les asignaría el rango medio
de los que les corresponderían si fuesen diferentes:

Provincia Observaciones Rango r1j r2j r3j

A 20 01 01
C 28 02 2
A 30 03 03
A 35 04 04
C 39 05 5
C 40 06 6
C 41 07 7
A 42 08 08
C 50 09 9
A 60 10 10
B 73 11 11
B 75 12 12
B 85 13 13
B 86 14 14
B 92 15 15

R = 120 R1 = 26 R2 = 65 R3 = 29

Entonces:

Hˆ =
12

26 2 652 29 2
15(15 + 1) 5
+
5
+
5 冥
− 3(15 + 1) = 9, 42

270 © Ediciones Pirámide


Análisis de la varianza

y como:

Hˆ = 9,24 > 4,56 = h0,10

rechazamos la hipótesis nula al 10 % de significación, es decir, los datos muestrales pre-


sentan evidencia suficiente, al 10 % de significación, para decir que las cifras de ventas
difieren según el tipo de campaña aplicada.
b) Si se supone normalidad, independencia y homocedasticidad en las variables Xi,
podemos utilizar las técnicas del análisis de varianza (ANOVA) para comparar las tres
distribuciones de cifras de ventas:

Xi ~ N ( μi , σ i )
Xi independientes
Xi homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 )

En esta situación, si las campañas publicitarias no influyeran en las ventas, se ten-


dría que las tres distribuciones serían idénticas, es decir, m1 = m2 = m3. Por tanto, plan-
teamos las hipótesis:

H0 : μ1 = μ2 = μ3
H1: ∃ (i, j ), i ≠ j /μi ≠ μ j

El estadístico de prueba utilizado en un ANOVA es:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
CM D

con

k=3
n = n1 + n2 + n3 = 15

Rechazaremos la hipótesis nula de igualdad de medias al 1 % de significación


(a = 0,01) si:

Fexp > F2, 12, 1 − α

© Ediciones Pirámide 271


Ejercicios de inferencia estadística y muestreo

donde el valor crítico es tal que:

P[ F2, 12  F2, 12;1 − α ] = 1 − α = 1 − 0,01 = 0,99

Utilizando la tabla 11:

F2, 12;1 − α = 6,93

Gráficamente:

Ᏺ2,12

0,99 = 0,01

F2, 12; 1– = 6,93

A continuación, realizamos las operaciones necesarias para construir la tabla ANO-


VA y calcular el valor experimental del estadístico del contraste:

x1j x2j x3j x21j x22j x23j

030 085 040 0.900 07.225 1.600


020 073 028 0.400 05.329 0.784
035 092 039 1.225 08.464 1.521
042 086 041 1.764 07.396 1.681
060 075 050 3.600 05.625 2.500

187 411 198 7.889 34.039 8.086

k
T1 = 187 ; T2 = 411 ; T3 = 198 ; T= ∑ Ti = 796
i =1
k ni
∑ ∑ xij2 = 7.889 + 34.039 + 8.086 = 50.014
i =1 j =1

272 © Ediciones Pirámide


Análisis de la varianza

k ni
T2 796 2
SCT = ∑ ∑ xij2 − n
= 50.014 −
15
= 7.772,9333
i =1 j =1

冤 冥
k ni k
Ti 2 1872 4112 1982
SCD = ∑ ∑ xij2 − ∑ = 50.014 − + + = 1.395,2
i =1 j =1 i = 1 ni 5 5 5
k
Ti 2 T 2
SCE = ∑ − n = SCT − SCD = 7.772,9333 − 1.395,2 = 6.377,7333
i = 1 ni

Tabla ANOVA para una clasificación simple


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

Dentro de las pro- SCD


CM D = =
vincias (dentro de SCD = 1.395,2 n – k = 15 – 3 = 12 n−k
las campañas) CME
= 116,2667 =
CM D
SCE = 27, 4272
Entre provincias CME = =
SCE = 6.377,7333 k–1=3–1=2 k −1
(entre campañas)
= 3.188,8667

Total SCT = 7.772,9333 n – 1 = 15 – 1 = 14

Como:
Fexp = 27, 4272 > F2, 12, 1 − α = 6,93

entonces, al 1 % de significación, rechazamos la hipótesis nula, H0 : m1 = m2 = m3, y pode-


mos decir que el tipo de campaña publicitaria repercute en las ventas del artículo.
c) Para determinar si las ventas de las tiendas situadas en la provincia en la que se
ha aplicado la campaña A son diferentes a las de las de C, podemos aplicar el método
de comparaciones múltiples de Scheffé:
a) H0 : μ1 = μ2
H1: μ1 ≠ μ2
b) H0 : μ1 = μ3
H1: μ1 ≠ μ3
c) H0 : μ 2 = μ 3
H1: μ2 ≠ μ3

© Ediciones Pirámide 273


Ejercicios de inferencia estadística y muestreo

El estadístico del contraste es:

( Xi − X j )2
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 2,12
冢 冣
H0
SCD 1 1
( k − 1) +
n − k ni n j

tomando i, j los valores 1, 2, 3 según el contraste a), b) o c) que estemos realizando.


La región crítica común para estos tres contrastes será la misma que la utilizada para
realizar el análisis de la varianza al 1 % de significación

Ᏺ2,12

0,99 = 0,01

F2, 12; 1– = 6,93

El valor experimental correspondiente al contraste b) que compara las campañas A


y C se calcula como:

冢 5 冣
187 198 2

5
(b)
Fexp = = 0,0520

15 − 3 冢 5 5 冣
1.395,2 1 1
(3 − 1) +

con lo cual, como:

(b)
Fexp = 0,0520 < F2, 12, 1 − α = 6,93

entonces no se rechaza H (b)


0 , es decir, los datos muestrales no presentan evidencia sufi-
ciente, al 1 % de significación, para decir que las ventas donde se ha realizado la cam-
paña A sean diferentes a las ventas donde se ha aplicado la campaña C.

274 © Ediciones Pirámide


Análisis de la varianza

Con un 5 % de significación, la región crítica sería:

Ᏺ2,12

0,95 = 0,05

F2, 12; 1– = 3,89

y de nuevo:

(b)
Fexp = 0,0520 < 3,89 = F2, 12, 1 − α

por lo que tampoco se rechaza H (b)


0 con un nivel de significación del 5 % y, por tanto, se
mantiene la misma conclusión que al utilizar un 1 % de significación.

De una fundación de una entidad financiera dependen tres escuelas de


Ejercicio 4.7
negocios, ubicadas en tres ciudades diferentes, que imparten distintas
especialidades en cada ciudad. Una comisión designada por la entidad financiera realiza
el seguimiento de los titulados por los mencionados centros. Para evaluar la influencia
del tipo de escuela elegido sobre el salario que perciben los titulados, se seleccionan al
azar tres muestras independientes de titulados por cada una de las escuelas, que facilitan
la siguiente información sobre sus salarios semanales en euros:

Escuela 1 Escuela 2 Escuela 3

256 266 269


628 256 256
253 258 620
256 320 452
450 286
256

Suponiendo normalidad, ¿se puede admitir la influencia del tipo de escuela elegido
en los salarios de los titulados a un 5 % de significación?

© Ediciones Pirámide 275


Ejercicios de inferencia estadística y muestreo

Definimos las variables aleatorias:


Solución

Xi = «Sueldo semanal de un titulado de la escuela i (en euros)», i = 1, 2, 3, que son


independientes y normales:

Xi ~ N ( μi , σ i )

Si, además, fueran homocedásticas (s12 = s22 = s32 = s2), bastaría contrastar las hipótesis:

H0 : μ1 = μ2 = μ3 ( no hay influencia )
H1: μi ≠ μ j para algún i ≠ j (sí hay influencia )

utilizando las técnicas del análisis de la varianza para una clasificación simple.
Por tanto, veamos primero si es admisible la hipótesis de homocedasticidad, es decir,
contrastemos las hipótesis:

H0 : σ 12 = σ 22 = σ 32
H1: σ i2 ≠ σ 2j para algún i ≠ j

mediante el test de Bartlett, que tiene por estadístico de prueba:

k
(n − k ) ln CM D − ∑ (ni − 1) ln Si2
i =1
B= ~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
冢 冣
k H0
1 1 1
1+
3( k − 1)
∑ n −1 − n − k
i =1 i

rechazando la hipótesis nula de igualdad de varianzas con una significación del 5 %


cuando:

Bexp > χ k2 − 1;1 − α ≡ χ 22;1 − α

siendo c22; 1 – a el valor crítico, que verifica:

P[ χ 22 > χ 22, 1 − α ] = α = 0,05

276 © Ediciones Pirámide


Análisis de la varianza

Utilizando la tabla 9, este valor crítico será:

χ 22, 1 − α = 5,99

Gráficamente:

χ22

0,95 = 0,05

χ22, 1– = 5,99

A continuación, realizamos las operaciones necesarias encaminadas a calcular el


valor experimental de B:

1 ni
冤 ∑ xij2 − n 冢 ∑ xij 冣 冥
ni ni 2
1 1
si2 = ∑
ni − 1 j = 1
( xij − xi )2 =
ni − 1 j =1 i j =1

siendo n1 = 4, n2 = 5 y n3 = 6.
Sustituyendo en la expresión correspondiente a B:

(15 − 3) ln (20.249,0208) − [3 ⋅ ln 34.784,25 + 4 ⋅ ln 6.814 + 5 ⋅ ln 22.275,9]


Bexp = = 2,0206
1+
1 1 1 1
+ + − 冢1
3(3 − 1) 3 4 5 15 − 3 冣
Por tanto:

Bexp = 2,0206 < 5,99 = χ 22, 1 − α

Entonces, al 5 % de significación, no hay motivos para rechazar H0 : s21 = s22 = s23, por
lo que admitiremos la hipótesis de homocedasticidad de las variables Xi, i = 1, 2, 3.

© Ediciones Pirámide 277


Ejercicios de inferencia estadística y muestreo

Así pues, realizamos el contraste:

H0 : μ1 = μ2 = μ3
H1: μi ≠ μ j para algún i ≠ j

a través del análisis de la varianza (ANOVA). El estadístico del contraste es:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
CM D

y la región crítica o de rechazo de H0 se representa gráficamente como:

Ᏺ2,12

0,95 = 0,05

F2, 12; 1– = 3,89

x1j x2j x3j x21j x22j x23j

256 266 269 065.536 070.756 072.361


628 256 256 394.384 065.536 065.536
253 258 620 064.009 066.564 384.400
256 320 452 065.536 102.400 204.304
450 286 202.500 081.796
256 065.536

T1 = 1.393 T2 = 1.550 T3 = 2.139 589.465 507.756 873.933

s12 =
1
4 −1冤589.465 −
1.3932
4
= 34.784,25 冥
s22 =
1
5 −1冤507.756 −
1.550 2
5
= 6.814 冥
278 © Ediciones Pirámide
Análisis de la varianza

s32 =
1
6 −1 冤
873.933 −
2.139 2
6
= 22.275,9 冥
k ni
∑ ∑ xij2 = 589.465 + 507.756 + 873.933 = 1.971.154
i =1 j =1

冤 冥
k ni k
Ti 2 1.3932 1.550 2 2.139 2
SCD = ∑ ∑ xij2 − ∑ = 1.971.154 − + + = 242.988,25
i =1 j =1 i = 1 ni 4 5 6

SCD 242.988,25
CM D = = = 20.249,0208
n − k ( 4 + 5 + 6) − 3

Calculamos las sumas de cuadrados y construimos la tabla ANOVA:

k ni k
T= ∑ ∑ xij = ∑ Ti = 1.393 + 1.550 + 2.139 = 5.082
i =1 j =1 i =1

k ni
T2 5.082 2
SCT = ∑ ∑ xij2 − n
= 1.971.154 −
15
= 249.372,4
i =1 j =1

SCD = 242.988,25

SCE = SCT − SCD = 6.384,15

Tabla ANOVA para una clasificación simple


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

SCE
CME = =
Entre escuelas SCE = 6.384,15 k–1=3–1=2 k −1
CME
= 3.192,075 =
CM D

SCD = 0,1576
Dentro de escuelas CM D = =
SCD = 242.988,25 n – k = 15 – 3 = 12 n−k
(error aleatorio)
= 20.249,0208

Total SCT = 249.372,4 n – 1 = 15 – 1 = 14

© Ediciones Pirámide 279


Ejercicios de inferencia estadística y muestreo

Al ser:

Fexp = 0,1576 < 3,89 = F2, 12;1 − α

no se rechaza H0 al 5 % de significación, es decir, no se presentan evidencias suficientes


para afirmar que el tipo de escuela elegido influye en los sueldos de los titulados.

Un grupo de empresas pretende llevar a cabo una política de reducción


Ejercicio 4.8
del absentismo laboral mediante la toma de diferentes decisiones sobre
gratificaciones al personal. En la recogida de los datos, previa al diseño definitivo de
las medidas, se obtienen las siguientes cifras de ausencias anuales de varios empleados
al azar seleccionados en tres empresas del grupo:

Empresa A Empresa B Empresa C

1 6 1
2 5 2
3 8 1
5 9 5
1 7 4
3 3 3
5 5 2

a) ¿Se puede admitir la normalidad de los datos de partida con un 5 % de signifi-


cación?
b) Teniendo en cuenta los resultados del apartado anterior, ¿podría admitirse, con
un 5 % de significación, que el número de ausencias por empleado presenta di-
ferencias significativas según la empresa considerada?
c) ¿Entre qué empresas se producen las diferencias más significativas?

Definimos las variables aleatorias:


Solución
Xi = «Número de ausencias anuales de un empleado de la empresa i», i = 1 (A),
2 (B), 3 (C).
a) Se pretende contrastar si las variables X1, X2 y X3 siguen distribuciones nor-
males. Sean F1, F2 y F3 las funciones de distribución de estas variables. Por tanto, los
contrastes a realizar serán:

H0 : Fi ( x ) es la función de distribución de una variable normal


H1: Fi ( x ) no es la función de distribución de una variable normal

280 © Ediciones Pirámide


Análisis de la varianza

Utilizaremos el test de normalidad de Lilliefors para cada una de estas funciones de


distribución. El estadístico del contraste, construido sobre los valores tipificados, será:

Dn′i = máx 冟Fni ( z ) − F0( z )冟


z

donde F0 es la función de distribución correspondiente a una normal estándar y Fni la


función de distribución empírica de las observaciones muestrales tipificadas de la varia-
ble Xi (i = 1, 2, 3).
Como en este caso n1 = n2 = n3 = 7, la región crítica, al 5 % de significación, será
la misma para los tres contrastes que debemos realizar, rechazando H0 en el contraste
i-ésimo si:

Dn′i , exp > Dα′

siendo D¢a el valor crítico, tal que:

P( Dn′i , exp > Dα′ / H0 ) = 0,05

Utilizando la tabla 15 con a = 0,05 y n = 7, este valor será:

Dα′ = 0,300

Calculemos ahora los valores experimentales para cada contraste que hay que realizar.

Empresa A

H0 : F1 ( x ) es la función de distribución de una variable normal


H1: F1 ( x ) no es la función de distribución de una variable normal

La media y varianza muestrales de la muestra de empleados de la empresa A son:

n1
1 20
x1 =
n1
∑ x1 j = 7
j =1

冤 ∑ x12j − n 冢 ∑ x1 j 冣 冥 = 7 − 1 冤74 − 冥
n1 n1
1 1 2 1 20 2
s12 = = 2,8095
n1 − 1 j =1 1 j =1 7

s1 = 2,8095 = 1,6762

© Ediciones Pirámide 281


Ejercicios de inferencia estadística y muestreo

Los valores tipificados de las observaciones muestrales:

20
x1 j −
x1 j − x1 7
z1 j = = , j = 1,..., 7
s1 1,6762

el valor de Fn1 y F0 en cada uno de ellos, así como las diferencias en valor absoluto:

a1 j = 冟F0( z1 j ) − Fn( z1 j )冟
b1 j = 冟F0( z1 j ) − Fn( z1 j − 1 )冟

aparecen en la siguiente tabla:

N(z1j)
x1j n1j z1j Fn1(z1j) = —–— F0(z1j) = P(Z  z1j) a1j b1j
n1

1 2 – 1,11 2/7 = 1 0,1335 0,1522 0,1335


2 1 – 0,51 3/7 = 1 0,3050 0,1236 0,0193
3 2 0,09 5/7 = 1 0,5359 0,1784 0,1073
5 2 1,28 7/7 = 1 0,8997 0,1003 0,1854

n1 = 7

Por tanto:

Dn′1 , exp = máx{a1 j , b1 j } = 0,1854 < 0,300 = Dα′


j

y, entonces, no se rechaza la hipótesis nula de normalidad de la muestra de la empresa A.


De modo análogo, para las empresas B y C tendremos los siguientes resultados.

Empresa B

H0 : F2 ( x ) es la función de distribución de una variable normal


H1: F2 ( x ) no es la función de distribución de una variable normal

282 © Ediciones Pirámide


Análisis de la varianza

n2
1 43
x2 =
n2
∑ x2 j = 7
j =1

冤 ∑ x22 j − n 冢 ∑ x2 j 冣 冥 = 7 − 1 冤289 − 冥
n2 n2
1 1 2 1 432
s22 = = 4,1429
n2 − 1 j =1 2 j =1 7

s2 = 4,1429 = 2,0354

N(z2j)
x2j n2j z2j Fn2(z2j) = —–— F0(z2j) = P(Z  z2j) a2j b2j
n2

3 1 –1,54 1/7 = 1 0,0618 0,0811 0,0618


5 2 –0,56 3/7 = 1 0,2877 0,1409 0,1448
6 1 –0,07 4/7 = 1 0,4721 0,0993 0,0435
7 1 0,42 5/7 = 1 0,6628 0,0515 0,0914
8 1 0,91 6/7 = 1 0,8186 0,0385 0,1043
9 1 1,40 7/7 = 1 0,9192 0,0808 0,0621

n2 = 7

Siendo:

Dn′2 , exp = máx{a2 j , b2 j } = 0,1448 < 0,300 = Dα′


j

por lo que, de nuevo, no se rechaza la hipótesis nula de normalidad de la muestra de la


empresa B.

Empresa C

H0 : F3 ( x ) es la función de distribución de una variable normal


H1: F3 ( x ) no es la función de distribución de una variable normal

n3
1 18
x3 =
n3
∑ x3 j = 7
j =1

冤 冢 冣冥 冤 冥
n3 n3
1 1 2 1 182
s32 =
n3 − 1
∑ x32j − n3
∑ x3 j =
7 −1
60 −
7
= 2,2857
j =1 j =1

s3 = 2,2857 = 1,5119

© Ediciones Pirámide 283


Ejercicios de inferencia estadística y muestreo

N(z3j)
x3j n3j z3j Fn3(z3j) = —–— F0(z3j) = P(Z  z3j) a3j b3j
n3

1 2 –1,04 2/7 = 1 0,1492 0,1365 0,1492


2 2 –0,38 4/7 = 1 0,3520 0,2194 0,0663
3 1 0,28 5/7 = 1 0,6103 0,1040 0,0389
4 1 0,94 6/7 = 1 0,8264 0,0307 0,1121
5 1 1,61 7/7 = 1 0,9463 0,0537 0,0892

n3 = 7

Como:

Dn′3 , exp = máx{a3 j , b3 j } = 0,2194 < 0,300 = Dα′


j

por lo que tampoco se rechaza la normalidad de los datos que empleamos de la empre-
sa C.
Entonces, sí admitiremos la normalidad de las variables X1, X2 y X3.
b) Si las variables Xi fuesen homocedásticas, se trataría de variables normales, in-
dependientes y con la misma varianza:

Xi ~ N ( μi , σ )

Por tanto, para ver si existen diferencias significativas en el número de ausencias por
empleado según las empresas consideradas, contrastaríamos las hipótesis:

H0 : μ1 = μ2 = μ3 ( no hay diferencias significativas)


H1: μi ≠ μ j para algún i ≠ j (sí hay diferencias significativas)

mediante un análisis de la varianza.


Veamos, en primer lugar, si es aceptable suponer la homogeneidad de varianzas de
las variables Xi, i = 1, 2, 3; para ello, utilizaremos el test de Bartlett de homocedasticidad
al contrastar las hipótesis:

H0 : σ 12 = σ 22 = σ 32 = σ 2
H1: σ i2 ≠ σ 2j para algún i ≠ j

284 © Ediciones Pirámide


Análisis de la varianza

El estadístico del contraste y su distribución seguida bajo H0 es:

k
(n − k ) ln CM D − ∑ (ni − 1) ln Si2
i =1
B= ~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
冤∑ n 1− 1 − n −1 k 冥
k H0
1
1+
3( k − 1) i =1 i

La representación gráfica de la región crítica o de rechazo de H0 será:

χ22

0,95 = 0,05

χ22; 1– = 5,99

con el valor crítico obtenido en la tabla 9, de forma que:

P[ χ 22  χ 22;1 − α ] = 1 − α = 1 − 0,05 = 0,95

Calculemos el valor experimental del estadístico de prueba:

x1j x2j x3j x21j x22j x23j

1 6 1 1 36 1
2 5 2 4 25 4
3 8 1 9 64 1
5 9 5 25 81 25
1 7 4 1 49 16
3 3 3 9 9 9
5 5 2 25 25 4

20 43 18 74 289 60

© Ediciones Pirámide 285


Ejercicios de inferencia estadística y muestreo

s12 =
1
7 −1
74 − 冤
20 2
7 冥
= 2,8095

s22 =
1
7 −1
289 −冤432
7
= 4,1429 冥
s32 =
1
7 −1
60 − 冤
182
7 冥
= 2,2857

冤 冥
k ni k
Ti 2 20 2 432 182
SCD = ∑ ∑ xij2 − ∑ = ( 74 + 289 + 60) − + + = 55, 4286
i =1 j =1 i = 1 ni 7 7 7

SCD 55, 4286


CM D = = = 3,0794
n−k 21 − 3
(21 − 3) ln 3,0794 − 6 ⋅ ln 2,8095 − 6 ⋅ ln 4,129 − 6 ⋅ ln 2,2857
Bexp = = 0,5202
1+
1

1 1 1
+ + −
1
3(3 − 1) 6 6 6 21 − 3 冥
y puesto que:

Bexp = 0,5202 < 5,99 = χ 22;1 − α

entonces no se rechaza la homogeneidad de varianzas al 5 % de significación y supon-


dremos que las variables Xi son homocedásticas.
Contrastemos a continuación si el número de ausencias por empleado presenta dife-
rencias significativas según la empresa considerada, es decir, realizaremos el contraste:

H0 : μ1 = μ2 = μ3
H1: μi ≠ μ j para algún i ≠ j

utilizando las técnicas del ANOVA para una clasificación simple, puesto que admitimos
que las variables Xi son normales, homocedásticas (Xi ~ N(mi, s), i = 1, 2, 3) e indepen-
dientes.
El estadístico del contraste, su distribución bajo H0 y la región crítica son:

CME
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1, 21 − 3 ≡ Ᏺ 2,18
H0
CM D

286 © Ediciones Pirámide


Análisis de la varianza

Ᏺ2,18

0,95 = 0,05

F2, 18; 1– = 3,55

De la tabla ANOVA para una clasificación simple obtendremos el valor experimental


de F:

Fuente Sumas Grados


Cuadrados medios Fexp
de variación de cuadrados de libertad

Entre grupos SCE = 55,1428 k–1=2 CME = 27,5714


8,9535
Intra grupos SCD = 55,4286 n – k = 18 CMD = 3,0794

Total SCT = 110,5714 n – 1 = 20

Se observa que:

Fexp = 8,9535 > 3,55 = F2, 18;1 − α

por tanto, al 5 % de significación, se rechaza la hipótesis nula de igualdad de medias, es


decir, los datos muestrales indican que existen diferencias significativas en el número de
ausencias por empleado según la empresa considerada.
c) Para tratar de averiguar en qué empresas se producen estas diferencias, realiza-
remos el test de Scheffé de comparaciones múltiples. Mediante este test se puede con-
trastar las hipótesis:

H0 : μ i = μ j
H1: μi ≠ μ j

© Ediciones Pirámide 287


Ejercicios de inferencia estadística y muestreo

utilizando como estadístico de prueba:

( Xi − X j )2
F= ~ Ᏺ k − 1, n − k ≡ Ᏺ 2,18 ; i = 1, 2, 3; j = 1, 2, 3
冢 冣
H0
SCD 1 1
( k − 1) +
n − k ni n j

y como región crítica común:

Ᏺ2,18

0,95 = 0,05

F2, 18; 1 – = 3,55

Por tanto:
III. H0 : m1 = m2 ; H1: m1 π m2

冢 冣
20 43 2

7 7
I
Fexp = = 6,1352 > 3,55 = F2, 18;1 − α
(3 − 1)3,0794
1 1
+
7 7 冢 冣
entonces, se rechaza H0 : m1 = m2, y diremos que se aprecian diferencias signifi-
cativas, al 5 %, entre las empresas A y B en cuanto al número de ausencias por
empleado.
III. H0 : m1 = m3 ; H1: m1 π m3

冢 冣 = 0,0464 < 3,55 = F


20 18 2

7 7
II
Fexp = 2 , 18;1 − α

(3 − 1)3,0794 冢 + 冣
1 1
7 7

entonces, no se rechaza H0 : m1 = m3, y no se aprecian diferencias significativas


entre las empresas A y C.

288 © Ediciones Pirámide


Análisis de la varianza

III. H0 : m2 = m3 ; H1: m2 π m3

冢 冣 = 7,2486 > 3,55 = F


43 18 2

7 7
III
Fexp = 2 , 18;1 − α

(3 − 1)3,0794 冢 + 冣
1 1
7 7

rechazándose H0 : m2 = m3 y apreciándose diferencias significativas entre las


empresas B y C (al 5 % de significación).

Una subdelegación del Ministerio de Educación y Ciencia está intere-


Ejercicio 4.9
sada en estudiar la cantidad mensual pagada por los padres de alum-
nos de Enseñanza Primaria en los colegios privados pertenecientes al territorio de su
competencia que no reciben ningún tipo de ayuda ministerial. Para realizar el estudio,
se clasificaron los colegios privados de este territorio en bloques según su localización
geográfica y según el número de alumnos por aula que afirmaban tener. En cada una de
las combinaciones obtenidas se seleccionó una muestra aleatoria de tres colegios y se re-
cogió la información correspondiente a la cantidad diaria que el colegio recibía por cada
alumno de Enseñanza Primaria. Los datos obtenidos, en euros, fueron los siguientes:

Número de alumnos
Zona norte Zona centro Zona sur
por aula

32,00 25,4 50,0


Menos de 25 45,50 37,2 20,9
28,95 23,0 27,0

21,60 26,5 15,0


25 o más 25,00 17,2 24,0
19,00 22,0 18,0

A la vista de estos datos, y suponiendo que se verifican las hipótesis de normalidad,


independencia y homocedasticidad, ¿podría decirse que los colegios privados pertene-
cientes a esta subdelegación presentan diferencias significativas en las cantidades cobra-
das a los alumnos de Enseñanza Primaria? Nivel de significación: 5 %.

Se trata de estudiar la cantidad mensual que los colegios reciben por cada
Solución
alumno de enseñanza primaria considerando los factores A, número de
alumnos por aula, y B, zona en la que está situado el colegio. Definimos las variables
aleatorias:

© Ediciones Pirámide 289


Ejercicios de inferencia estadística y muestreo

Xij = «Cantidad diaria que un colegio del bloque i, j recibe por un alumno de Ense-
ñanza Primaria»,
siendo i = 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula); j = 1 (zona
norte), 2 (zona centro), 3 (zona sur).
Estas variables son normales, homocedásticas:

Xij ~ N ( μij , σ ) , i = 1, 2; j = 1, 2, 3

y, además, independientes.
Si estos colegios no presentaran diferencias significativas en cuanto a la variable
estudiada, las distribuciones de Xij serían idénticas y, por tanto, las medias mij serían
iguales. Entonces, para tratar de ver si existen tales diferencias, planteamos el siguiente
contraste:

H0 : μ11 = μ12 = … = μ23


H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

que resolveremos mediante un análisis de la varianza para una clasificación doble, es


decir, considerando el modelo:

Xijk = μ + α i + β j + (αβ )ij + ε ijk


i = 1,..., r = 2 ; j = 1,..., s = 3 ; k = 1,..., n = 3

con
Xijk: observación k-ésima en el bloque (i, j).
ai : efecto del i-ésimo nivel del factor A.
bj : efecto del j-ésimo nivel del factor B.
(ab) ij: efecto de interacción del i-ésimo nivel del factor A y el j-ésimo nivel del
factor B.
eijk: k-ésimo error aleatorio en los tratamientos (i, j).
Rechazaremos la hipótesis H0 anterior cuando se rechace alguna de las hipótesis
nulas de los siguientes contrastes:

Efecto del factor A Efecto del factor B Efecto interacción A, B


H0′ : α1 = α 2 = 0 H0′′: β1 = β 2 = β3 = 0 H0′′′: (αβ )11 = … = (αβ )23 = 0
H1′: ∃ i, α i ≠ 0 H1′′: ∃ j, β j ≠ 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

290 © Ediciones Pirámide


Análisis de la varianza

Los estadísticos de prueba, las distribuciones que éstos siguen bajo la hipótesis nula, y
las correspondientes regiones críticas obtenidas utilizando la tabla 11 son, respectivamente:

CM A
F′ = ~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,12
H0
CME
CM B
F ′′ = ~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 2,12
H0
CME
CM AB
F ′′′ = ~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2,12
H0
CME

Ᏺ1,12 Ᏺ2,12 Ᏺ2,12

= 0,05 = 0,05 = 0,05


0,95 0,95 0,95

F′1, 12;1 – = 4,75 F′′


2,12; 1– = 3,89 F′′′
2, 12; 1– = 3,89

Realizamos a continuación las operaciones para construir la tabla ANOVA para una
clasificación doble:

Zona norte Zona centro Zona sur


Ti.
j=1 j=2 j=3

Menos de 25 32,00 25,4 50,0 T1. = 289,95


alumnos 45,50 37,2 20,9
i=1 28,95 23,0 27,0
T11 = 106,45 T12 = 85,6 T13 = 97,9
∞ x211k = 3.932,3525 ∞ x212k = 2.558 ∞ x213k = 3.665,81
k k k

25 alumnos 21,6 26,5 15 T2. = 188,3


o más 25,0 17,2 24
i=2 19,0 22,0 18
T21 = 65,6 T22 = 65,7 T23 = 57
∞ x221k = 1.452,56 ∞ x222k = 1.482,09 ∞ x223k = 1.125
k k k

T. j T.1 = 172,05 T.2 = 151,3 T.3 = 154,9 T.. = 478,25


∞∞∞ x2ijk =
i j k

= 14.215,8125

© Ediciones Pirámide 291


Ejercicios de inferencia estadística y muestreo

T..2 ( 478,25)2
SCT = ∑ ∑ ∑ xijk2 − rsn
= 14.215,8125 −
2 ⋅3⋅3
= 1.508,9757
i j k

1 T..2 1 ( 478,25)2
SCA = ∑ i. rsn 3 ⋅ 3
ns i
T 2
− = [( 289, 95) 2
+ (188, 3) 2
] −
2 ⋅3⋅3
= 574,0401

1 T2 1 ( 478,25)2
SCB =
nr
∑ T. 2j − rsn
..
=
3⋅2
172,05)2 + (151,3)2 + (154,9)2 ] −
[(172
2 ⋅3⋅3
= 40,9803
j

1
SCE = ∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 =
i j k i j

1
= 14.215,8125 − [106, 452 + 85,6 2 + 97,9 2 + 65,6 2 + 65,72 + 572 ] = 845,0717
3

SCAB = SCT − SCA − SCB − SCE =


= 1.508,9757 − 574,0401 − 40,9803 − 845,0717 = 48,8836

Tabla ANOVA para una clasificación doble


Fuente Sumas Grados
Cuadrados medios Fexp
de variación de cuadrados de libertad

SCA CM A
CM A = = ′ =
Fexp =
Factor A SCA = 574,0401 r–1=2–1=1 r −1 CME
= 574,0401 = 8,1514

SCB CM B
CM B = = ′′ =
Fexp =
Factor B SCB = 40,9803 s–1=3–1=2 s −1 CME
= 20, 49015 = 0,2910
SCAB CM AB
Factor AB (r – 1)(s – 1) = CM AB = = ′′′ =
Fexp =
SCAB = 48,8836 (r − 1)( s − 1) CME
(interacción) =1·2=2
= 24, 4418 = 0,3471

SCE
rs(n – 1) = CME = =
Error aleatorio SCE = 845,0717 rs(n − 1)
= 2 · 3(3 – 1) = 12
= 70, 4226

rsn – 1 =
Total SCT = 1.508,9757
= 2 · 3 · 3 – 1 = 17

292 © Ediciones Pirámide


Análisis de la varianza

Como:

′ = 8,1514 > 4,75 = F1′, 12;1 − α


Fexp

Rechazamos H¢0, por lo que, al 5 % de significación, podemos decir que el factor A


(número de alumnos por aula) influye en el precio de los colegios, es decir, existen dife-
rencias en este precio debidas al número de alumnos por aula que cada colegio admite:

′′ = 0,2910 < 3,89 = F2′′, 12;1 − α


Fexp

No rechazamos H0≤, es decir, no hay diferencias significativas en los precios de los


colegios debidas a la zona donde están situados (factor B):

′′′ = 0,3471 < 3,89 = F2′′′


Fexp , 12 ;1 − α

No rechazamos H¢¢¢,
0 por lo que los datos no indican una interacción entre los factores
A y B al 5 % de significación.
Por todo lo anterior, y al rechazarse H¢0, debemos rechazar también la hipótesis H0 :
m11 = … = m23, por lo que se puede afirmar que hay diferencias significativas entre los
precios de los colegios y que éstas son debidas al factor A.

El programa de proyecciones de la Filmoteca Nacional para el mes de


Ejercicio 4.10
marzo consta de tres ciclos de películas dedicados a los directores A,
B y C, respectivamente. La programación diaria ha sido dividida en tres sesiones; en la
primera sesión, se proyectarán las películas de A, en la segunda, las de B, y en la tercera,
las de C. La tabla siguiente presenta los ingresos, en euros, correspondientes a sesiones
de días elegidos al azar clasificados en función de la película proyectada y del tipo de
día de proyección según éste sea laborable o festivo:

Director Días Días


de la película laborables festivos

180 400
Director A
230 450

280 630
Director B
290 515

350 608
Director C
400 580

© Ediciones Pirámide 293


Ejercicios de inferencia estadística y muestreo

Utilizando un nivel de significación del 1 %, y suponiendo que los ingresos por se-
sión pueden considerarse independientes, normales y homocedásticos, ¿confirman los
datos la existencia de diferencias significativas entre dichas sesiones?

En este ejercicio tenemos dos factores, el director de la película (A), y el


Solución
tipo de día de la proyección (B), que podrían afectar a los ingresos de las
sesiones de proyección. Sea:
Xij = «Ingresos obtenidos por la proyección de una película con las características i, j».
con i = 1 (A), 2 (B), 3 (C); j = 1 (día laborable), 2 (día festivo):

Xij ~ N ( μij , σ )
pues se pueden considerar normales, homocedásticas y, además, independientes.
Se trata de contrastar las siguientes hipótesis:

H0 : μ11 = … = μ23
H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

Del mismo modo que en el ejercicio anterior, la hipótesis nula será rechazada si se
rechaza alguna de las hipótesis nulas en los contrastes que evalúan los efectos de los
factores y su posible interacción.

Efecto del factor A Efecto del factor B Efecto interacción A, B


H0′ : α1 = α 2 = α 3 = 0 H0′′: β1 = β 2 = 0 H0′′′: (αβ )11 = … = (αβ )32 = 0
H1′: ∃ i, α i ≠ 0 H1′′: ∃ j, β j ≠ 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

cuyos estadísticos de prueba y regiones críticas son, respectivamente:

CM A
F′ = ~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 2, 6
H0′
CME

CM B
F ′′ = ~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1, 6
H0′′
CME

CM AB
F ′′′ = ~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2, 6
H0′′′
CME

pues r = 3, s = 2 y n = 2.

294 © Ediciones Pirámide


Análisis de la varianza

Ᏺ2,6 Ᏺ1,6 Ᏺ2,6

= 0,01 = 0,01 = 0,01


0,99 0,99 0,99

F′2, 6;1 – = 10,92 F′′


1,6;1– = 13,75 F′′′
2, 6; 1– = 10,92

Para obtener los valores experimentales de estos estadísticos tendremos que realizar to-
das las operaciones encaminadas a construir la tabla ANOVA para una clasificación doble:

Ingresos Días laborables Días festivos Ti.

Director A 180 400 T1. = 1.260


230 450
T11 = 410 T12 = 850
∞ x211k = 85.300 ∞ x212k = 362.500
k k

Director B 280 630 T2. = 1.715


290 515
T21 = 570 T22 = 1.145
∞ x221k = 162.500 ∞ x222k = 662.125
k k

Director C 350 608 T3. = 1.938


400 580
T31 = 750 T32 = 1.188
∞ x231k = 282.500 ∞ x232k = 706.064
k k

T. j T.1 = 1.730 T.2 = 3.183 T.. = 4.913


∞∞∞ x2ijk = 2.260.989
i j k

T2 ( 4.913)2
SCT = ∑ ∑ ∑ xijk2 − rsn
..
= 2.260.989 −
3⋅2 ⋅2
= 249.524,92
i j k

1 T2 1 ( 4.913)2
SCA = ∑
ns i
Ti.2 − .. =
rsn 2 ⋅ 2
[1.260 2 + 1.7152 + 1.9382 ] −
3⋅2 ⋅2
= 59.703,17

1 T2 1 ( 4.913)2
SCB =
nr
∑ T. 2j − rsn
..
=
2⋅3
[1.730 2 + 3.1832 ] −
3⋅2 ⋅2
= 175.934,08
j

© Ediciones Pirámide 295


Ejercicios de inferencia estadística y muestreo

1
SCE = ∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 =
i j k i j

1
= 2.260.989 − [ 410 2 + 850 2 + 570 2 + 1.1452 + 750 2 + 1.1882 ] = 10.804,5
2
SCAB = SCT − SCA − SCB − SCE =
= 249.524,92 − 59.703,17 − 175.934,08 − 10.804,5 = 3.083,17

Tabla ANOVA para una clasificación doble


Fuente Suma Grados
Cuadrados medios F
de variación de cuadrados de libertad

SCA CM A
CM A = = ′ =
Fexp =
Factor A SCA = 59.703,17 r–1=3–1=2 r −1 CME
= 29.851,585 = 16,58

SCB CM B
CM B = = ′′ =
Fexp =
Factor B SCB = 175.934,08 s–1=2–1=1 s −1 CME
= 175.934,08 = 97,70
SCAB CM AB
Factor AB (r – 1)(s – 1) = CM AB = = ′′′ =
Fexp =
SCAB = 3.083,17 (r − 1)( s − 1) CME
(interacción) =2·1=2
= 1.541,585 = 0,856

SCE
rs(n – 1) = CME = =
Error aleatorio SCE = 10.804,5 rs(n − 1)
= 3 · 2(2 – 1) = 6
= 1.800,75

rsn – 1 =
Total SCT = 249.524,92
= 3 · 2 · 2 – 1 = 11

Comparamos los valores experimentales con los valores críticos:

′ = 16,58 > 10,92 = F2′, 6;1 − α


Fexp

Se rechaza H¢0, por lo que, al 1 % de significación y con estos datos muestrales, se


aprecian diferencias significativas debidas al factor A (director de la película):

′′ = 97,70 > 13,75 = F1′′, 6;1 − α


Fexp

296 © Ediciones Pirámide


Análisis de la varianza

Se rechaza H≤0, existiendo también diferencias significativas, al 1 % de significación,


debidas al factor B (tipo de día):

′′′ = 0,856 < 10,92 = F2′′′


Fexp , 6;1 − α

No se rechaza H0¢¢¢ y, por tanto, no hay diferencias significativas debidas a la interac-


ción de los dos factores.
Entonces, se rechaza la hipótesis nula H0 : m11 = … = m32 de igualdad de medias, por
lo que los datos, al 1 % de significación, evidencian la existencia de diferencias signifi-
cativas entre dichas sesiones.

A una prueba de selección de personal de una firma de auditoría sólo


Ejercicio 4.11
pueden concurrir licenciados en económicas y empresariales y en dere-
cho. De cinco exámenes seleccionados al azar en cada uno de los grupos de hombres y
mujeres con estas licenciaturas, se obtuvieron las siguientes puntuaciones:

Mujeres licenciadas en Mujeres licenciadas Hombres licenciados en Hombres licenciados


económicas o empresariales en derecho económicas o empresariales en derecho

300 200 256 128


269 265 258 259
298 228 267 210
256 200 125 120
290 265 265 200

Suponiendo normalidad y homocedasticidad de las puntuaciones, y con un 5 % de


significación:
a) ¿Podría admitirse que los factores sexo y licenciatura cursada influyen significa-
tivamente sobre las puntuaciones?
b) ¿Es significativo un efecto interacción sexo-licenciatura sobre las puntuaciones?

Llamemos A al factor sexo, que presenta dos niveles o tratamientos, mu-


Solución
jer/hombre (r = 2), y B al factor licenciatura cursada, que también presenta
dos niveles (s = 2), económicas y empresariales/derecho. Se desea comprobar si estos
dos factores influyen en la puntuación obtenida en la prueba. Definimos las variables
aleatorias:

© Ediciones Pirámide 297


Ejercicios de inferencia estadística y muestreo

Xij = «Puntuación obtenida por una persona de sexo i con licenciatura j».
i = 1 (mujer), 2 (hombre).
j = 1 (económicas y empresariales), 2 (derecho).
Estas variables son normales, homocedásticas y también independientes:

Xij ~ N ( μij , σ )

Si no hubiera influencia de los factores sobre las puntuaciones, las distribuciones de


Xij serían idénticas y, por tanto, sus medias coincidirían para todos los valores i, j. Así
pues, planteamos las hipótesis:

H0 : μ11 = μ12 = μ21 = μ 22


H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

que pueden ser contrastadas mediante un análisis de la varianza para una clasificación
doble. La hipótesis nula H0 no será rechazada si ninguna de las hipótesis nulas siguientes
es rechazada:

Efecto del factor A Efecto del factor B Efecto interacción A, B


H0′ : α1 = α 2 = 0 H0′′: β1 = β 2 = 0 H0′′′: (αβ )11 = … = (αβ )22 = 0
H1′: ∃ i, α i ≠ 0 H1′′: ∃ j, β j ≠ 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

Los estadísticos de prueba, las distribuciones seguidas bajo las hipótesis nulas y las
regiones críticas son, teniendo en cuenta que r = 2, s = 2, n = 5:

CM A
F′ = ~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,16
H0′
CME

CM B
F ′′ = ~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1,16
H0′′
CME

CM AB
F ′′′ = ~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 1,16
H0′′′
CME

298 © Ediciones Pirámide


Análisis de la varianza

Ᏺ1,16 Ᏺ1,16 Ᏺ1,16

= 0,05 = 0,05 = 0,05


0,95 0,95 0,95

F′1,16; 1 – = 4,49 F′′1, 16; 1– = 4,49 F′′′


1, 16;1– = 4,49

Calculamos a continuación los valores experimentales de los estadísticos de prueba:

Licenciados en económicas
Licenciados en derecho Ti.
o empresariales

Mujeres T11 = 1.413 T12 = 1.158 T1. = 2.571


∞ x211k = 400.801 ∞ x212k = 272.434
k k

Hombres T21 = 1.171 T22 = 917 T2. = 2.088


∞ x221k = 289.239 ∞ x222k = 181.965
k k

T. j T.1 = 2.584 T.2 = 2.075 T.. = 4.659


∞∞∞ x2ijk = 1.144.439
i j k

Mediante las fórmulas de los ejercicios anteriores, calculamos las sumas de cuadra-
dos, teniendo en cuenta que r = 2, s = 2 y n = 5:

( 4.659)2
SCT = 1.114.439 − = 59.124,95
2⋅2⋅5
1 ( 4.659)2
SCA = [2.5712 + 2.0882 ] − = 11.664, 45
5⋅2 2⋅2⋅5
1 ( 4.659)2
SCB = [2.584 2 + 2.0752 ] − = 12.954,05
5⋅2 2⋅2⋅5
1
SCE = 1.114.439 − [1.4132 + 1.1582 + 1.1712 + 9172 ] = 34.506, 4
5
SCAB = 59.124,95 − 11.664, 45 − 12.954,05 − 34.506, 4 = 0,05

© Ediciones Pirámide 299


Ejercicios de inferencia estadística y muestreo

Fuente Sumas Grados


Cuadrados medios F
de variación de cuadrados de libertad

SCA ′ = 5, 4085
CM A = = Fexp
Factor A SCA = 11.664,45 r–1=2–1=1 r −1
= 11.664, 45

SCB ′′ = 6,0066
CM B = = Fexp
Factor B SCB = 12.954,05 s–1=2–1=1 s −1
= 12.954,05

SCAB
Factor AB (r – 1)(s – 1) = CM AB = = ′′′ = 2,3 ⋅ 10 −5
Fexp
SCAB = 0,05 (r − 1)( s − 1)
(interacción) =1·1=1
= 0,05

SCE
rs(n – 1) = CME = =
Error aleatorio SCE = 34.506,4 rs(n − 1)
= 2 · 2(5 – 1) = 16
= 2.156,65

rsn – 1 =
Total SCT = 59.124,95
= 2 · 2 · 5 – 1 = 19

a) Como:

′ = 5, 4085 > 4, 49 = F1′, 16;1 − α


Fexp

entonces rechazamos H¢0 : a1 = a2 = 0, por lo que, al 5 % de significación, podemos decir


que las puntuaciones obtenidas se ven afectadas por el factor A (sexo).
Como:

′′ = 6,0066 > 4, 49 = F1′′, 16;1 − α


Fexp

entonces se rechaza la hipótesis H0≤: b1 = b2 = 0, pudiendo admitirse que también el tipo


de licenciatura influye en la puntuación obtenida al 5 % de significación.
Por tanto, H0 : m11 = m12 = m21 = m22 es rechazada con un 5 % de significación, y puede
afirmarse, con los datos muestrales, que el factor sexo y el factor licenciatura influyen
significativamente sobre las puntuaciones.
b) El efecto interacción sexo-licenciatura se estudia contrastando:

H0′′′: (αβ )11 = … = (αβ )22 = 0


H1′′′: (αβ )ij ≠ (αβ )hk para algún (i, j ) ≠ (h, k )

300 © Ediciones Pirámide


Análisis de la varianza

Como se ha obtenido:

′′′ = 2,3 ⋅ 10 − 5 < 4, 49 = F1′′′


Fexp , 16;1 − α

entonces, al 5 % de significación, los datos muestrales no indican que debamos recha-


zar H0. Por tanto, no es significativo el efecto interacción de los dos factores sobre las
puntuaciones.

Durante tres semanas, se contabilizó en cuatro empresas el número de


Ejercicio 4.12
ejecutivos que habían utilizado el correo electrónico.
Los resultados de la encuesta se recogen en la siguiente tabla:

Empresa Observaciones Total

III 114 120 150 384


III 171 166 143 480
III 147 134 121 402
IV 151 179 150 480

1.746

Suponiendo que se verifican las hipótesis de normalidad, independencia y homoge-


neidad de varianzas, determine, al 10 % de significación, si el número medio de ejecu-
tivos que utilizan correo electrónico presenta diferencias significativas entre las cuatro
empresas.

Debemos contrastar las hipótesis:


Solución

H0 : μ I = μ II = μ III = μ IV
H1: Al menos dos son diferentes

El estadístico de prueba viene dado por la siguiente expresión, y su distribución bajo


H0 es:

SCE /( k − 1)
F= Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 12 − 4 ≡ Ᏺ 3, 8
SCD /(n − k ) H0

© Ediciones Pirámide 301


Ejercicios de inferencia estadística y muestreo

La región crítica para a = 0,10 viene dada por:

Ᏺ3, 8

0,90

= 0,10

2,92

Para calcular el valor experimental del estadístico de prueba, calculamos primero las
sumas de cuadrados y construimos la tabla ANOVA:

k
Ti 2 T 2 384 2 480 2 402 2 480 2 1.746 2
SCE = ∑ − = + + + − =
i = 1 ni n 3 3 3 3 12

= 256.620 − 254.043 = 2.577


k ni
T2 (1.746)2
SCT = ∑ ∑ xij2 − = (114)2 + … + (150)2 − = 4.647
i =1 j =1 n 12

SCD = SCT − SCE = 4.647 − 2.577 = 2.070

Fuente Suma Grados


Cuadrados medios Fexp
de variación de cuadrados de libertad

Entre empresas SCE = 2.577 4–1=3 859,00


3,32
Dentro de empresas SCD = 2.070 12 – 4 = 8 258,75

Total SCT = 4.647 12 – 1 = 11

Como:

Fexp = 3,32 > F3, 8; 0,90 = 2,92

302 © Ediciones Pirámide


Análisis de la varianza

entonces, al 10 % de significación, y con los datos de la muestra, tenemos evidencia


suficiente para rechazar H0. Por tanto, podemos afirmar que existen diferencias signifi-
cativas en el número medio de usuarios del correo electrónico entre las cuatro empresas.

El departamento de personal de un supermercado desea comparar la


Ejercicio 4.13
eficacia de sus tres cajeros, que trabajan por turnos. Para ello, observa,
durante cierto número de horas, el número de clientes atendidos por cada uno de los
cajeros:

Cajero 1 Cajero 2 Cajero 3

15 12 20
17 15 22
15 22 27
14 14 25
18 17 19
14 19

Total 93 99 113

a) Suponiendo normalidad, independencia y homogeneidad de varianzas, contraste,


al 5 % de significación, si los tres cajeros son igualmente eficientes.
b) ¿Qué cajeros presentan diferencias significativas al 5 % de significación?
c) ¿Presentan los datos evidencia suficiente para indicar que la hipótesis de homo-
geneidad de varianzas es falsa? Nivel de significación: 5 %.

a) Sea Xi la variable aleatoria que representa el número de clientes aten-


Solución
didos por el cajero i en una hora.
Se desea contrastar las hipótesis:

H0 : μ1 = μ2 = μ3
H1: ∃ i, j con i ≠ j, tal que μi ≠ μ j

Para ello, aplicaremos el análisis de varianza, que utiliza como estadístico de prueba:

SCE /( k − 1)
F= Ᏺ k − 1, n − k ≡ Ᏺ 2, 14
SCD /(n − k ) H0

© Ediciones Pirámide 303


Ejercicios de inferencia estadística y muestreo

La región crítica con a = 0,05 queda representada como:

Ᏺ2,14

0,95 0,05

3,74

Tenemos que calcular el valor experimental, para lo que necesitamos las sumas de
cuadrados y la tabla ANOVA:

T = T1 + T2 + T3 = 93 + 99 + 113 = 305
k =3
Ti 2 T 2 932 99 2 1132 3052
SCE = ∑ ni

n
=
6
+
6
+
5

17
= 156,741
i =1

k ni
T2 3052
SCT = ∑ ∑ Xij2 − = 152 + 172 + … + 252 + 19 2 − = 280,94
i =1 j =1 n 17
741 = 124,199
SCD = SCT − SCE = 280,94 − 156,741

Fuente Suma Grados


Cuadrados medios Fexp
de variación de cuadrados de libertad

Entre cajeros SCE = 156,741 3–1=2 78,37


8,84
Dentro de cajeros SCD = 124,199 17 – 3 = 14 8,87

Total SCT = 280,94 17 – 1 = 16

Como:

Fexp = 8,84 > 3,74 = F2, 14; 0,95

entonces rechazamos H0 ; es decir, al 5 % de significación, y con los datos observados,


los cajeros no parecen ser igualmente eficaces.

304 © Ediciones Pirámide


Análisis de la varianza

b) Para ver qué cajeros presentan diferencias significativas en cuanto a productivi-


dades medias, tendremos que realizar los siguientes contrastes:

⎧ H0 : μ1 − μ2 = 0
a) ⎨
⎩ H1: μ1 − μ2 ≠ 0

⎧ H0 : μ1 − μ3 = 0
b) ⎨
⎩ H1: μ1 − μ3 ≠ 0

⎧ H0 : μ 2 − μ 3 = 0
c) ⎨
⎩ H1: μ2 − μ3 ≠ 0

y utilizaremos el método de Scheffé de comparaciones múltiples.


Los estadísticos de prueba a utilizar serán:

( Xi − X j )2
F= Ᏺ k − 1, n − k ≡ Ᏺ 2, 14
冢 冣
SCD 1 1 H0
( k − 1) +
n − k ni n j

donde i = 1, 2, 3; j = 1, 2, 3 según se trate del contraste a), b) o c).


Como la distribución de los estadísticos de prueba es la misma para todos los casos
y, además, coincide con la del análisis de varianza, entonces la región crítica será la
obtenida anteriormente.
Calculamos los valores experimentales, teniendo en cuenta que:

x1 = 15,5 ; x2 = 16,5 ; x3 = 22,6

(15,5 − 16,5)2
(a)
Fexp = = 0,17
2⋅
124,199 1 1
14
+
6 6 冢 冣
(15,5 − 22,6)2
(b)
Fexp = = 7,75
2⋅
124,199 1 1
14
+
6 5 冢 冣
(16,5 − 22,6)2
(c)
Fexp = = 5,72
2⋅
124,199 1 1
14
+
6 5 冢 冣
© Ediciones Pirámide 305
Ejercicios de inferencia estadística y muestreo

Situando estos valores en la región crítica:

Ᏺ2,14

0,95 0,05

F(a)
exp 3,74 F(c) (b)
exp Fexp

Con lo cual, al 5 % de significación, presentan diferencias significativas los cajeros 1


y 3, y también los cajeros 2 y 3. Sin embargo, estos datos no indican evidencia suficiente
para decir que las productividades medias de los cajeros 1 y 2 sean distintas.
c) Debemos realizar un contraste de homocedasticidad:

H0 : σ 12 = σ 22 = σ 32
H1: σ i2 ≠ σ 2j para algún i ≠ j

y para ello utilizaremos el estadístico del test de Bartlett, utilizado anteriormente. Grá-
ficamente, la región crítica se representa como:

χ2k – 1 ≡ χ22

0,95 = 0,05

χ22; 0,95 = 5,99

306 © Ediciones Pirámide


Análisis de la varianza

Para calcular el valor experimental necesitamos las varianzas muestrales para cada
grupo de observaciones:

s12 = 2,7 ; s22 = 13,1 ; s32 = 11,3

Por tanto, como tenemos en el apartado a) que n = 17, k = 3, n1 = n2 = 6, n3 = 5 y


CMD = 8,87:

(17 − 3) ln 8,87 − [5 ⋅ ln 2,7 + 5 ln 13,1 + 4 ln 11,3]


Bexp = = 2,76
1+
1

1 1 1 1
+ + −
3(3 − 1) 5 5 4 14 冣
Como:
Bexp = 2,76 < 5,99 = χ 22; 0,95

entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente


para rechazar H0 y, por tanto, no indican que la hipótesis de homogeneidad de varianzas
sea falsa.

En unos cursos de posgrado se decidió aplicar tres métodos de ense-


Ejercicio 4.14
ñanza para explicar la asignatura de estadística. Las puntuaciones de
los alumnos se clasificaron según la licenciatura que habían realizado y el método de
enseñanza recibido, obteniéndose los siguientes resultados:

Método de enseñanza

Clases magistrales Teoría y trabajo Ejercicios y


Licenciatura teóricas práctico individual discusión en clase Total
B1 B2 B3

61 80 77
Ingeniería A1 456
70 86 82

59 79 76
Economía A2 439
65 89 71

56 78 68
Biología A3 396
52 67 75

54 66 63
Empresariales A4 380
59 72 66

45 72 66
Otras A5 357
40 69 65

Total 561 758 709 2.028

© Ediciones Pirámide 307


Ejercicios de inferencia estadística y muestreo

Suponiendo que se verifican las hipótesis de normalidad, independencia y homoce-


dasticidad, compruebe si los datos presentan evidencia suficiente para afirmar que las
puntuaciones medias son distintas en los grupos obtenidos al realizar la clasificación.
Nivel de significación: 5 %.

Las hipótesis que se pretenden contrastar son:


Solución
H0 : μ11 = … = μ53
H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

es decir, se trata de comprobar la influencia del factor «licenciatura» (A), del factor
«método de enseñanza» (B) y de la interacción entre ambos (AB).
Para ello, los estadísticos de prueba a utilizar con la distribución seguida (siendo
r = 5, s = 3, n = 2) son:
CM A
F′ = Fr − 1, rs( n − 1) ≡ F4, 15
CME H 0′

CM B
F ′′ = Fs − 1, rs ( n − 1) ≡ F2, 15
CME H 0′′

CM AB
F ′′′ = F( r − 1)( s − 1), rs ( n − 1) ≡ F8, 15
CME H 0′′′

y las regiones críticas para contrastar las distintas influencias son, al 5 % de significación:

Factor A

Ᏺ4, 15

0,95

0,05

F′4, 15; 0,95 = 3,06

308 © Ediciones Pirámide


Análisis de la varianza

H0′ : α1 = … = α 5 = 0
H1′: ∃ i, α i ≠ 0

Factor B

Ᏺ2,15

0,95 0,05

F′′
2,15; 0,95 = 3,68

H0′′: β1 = … = β3 = 0
H1′′: ∃ j, β j ≠ 0

Interacción (AB)

Ᏺ8, 15

0,95

0,05

F′′′
8, 15; 0,95 = 2,64

H0′′′: (αβ )11 = … = (αβ )53 = 0


H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

© Ediciones Pirámide 309


Ejercicios de inferencia estadística y muestreo

Para calcular los valores experimentales construimos la tabla ANOVA, obteniendo


previamente las sumas de cuadrados:

T..2 2.0282
SCT = ∑ ∑ ∑ xijn
2
− = 140.830 − = 3.737,2
i j k rsn 30

1 1
SCE = ∑ ∑ ∑ xijk
2
− ∑ ∑ Tij2 = 140.830 − (1312 + 166 2 + 159 2 + 124 2 + 1682 +
i j k n i j 2

+ 1472 + 1082 + 1452 + 1432 + 1132 + 1382 + 129 2 + 852 + 1412 + 1312 ) = 297

1 T2 1 2.0282
SCA = ∑
ns i
Ti.2 − .. = ( 456 2 + 439 2 + 396 2 + 380 2 + 3572 ) −
rsn 6 30
= 1.127,53

1 T2 1 2.0282
SCB = ∑
rn j
T. 2j − .. =
rsn 10
(5612 + 7582 + 709 2 ) −
30
= 2.103,8

SCAB = SCT − SCA − SCB − SCE = 3.737,2 − 1.127,53 − 2.103,8 − 297 = 208,87

Tabla ANOVA para una clasificación doble


Suma Grados Cuadrados
Fuente de variación F
de cuadrados de libertad medios

Factor A 1.127,53 r–1=4 281,88250 F¢exp = 14,24

Factor B 2.103,80 s–1=2 1.051,90000 ≤ = 53,13


Fexp

Factor AB (interacción) 208,87 (r – 1)(s – 1) = 8 26,10875 F¢¢¢


exp = 1,32

Error 297,00 rs(n – 1) = 15 19,80000

Total 3.737,20 rsn – 1 = 29

Como:

′ = 14,24 > 3,06 = F4′, 15; 0,95 ⇒ Rechazamos H0′


Fexp
′′ = 53,13 > 3,68 = F2′′, 15; 0,95 ⇒ Rechazamos H0′′
Fexp
′′′ = 1,32 < 2,64 = F8′′′
Fexp , 15; 0 , 95 ⇒ Aceptamos H0′′′

310 © Ediciones Pirámide


Análisis de la varianza

Entonces rechazamos H0 : m11 = L = m53, con lo cual podemos decir que existen di-
ferencias entre las puntuaciones medias de los grupos, aunque no hay interacción entre
los dos factores.

Un centro de investigación está realizando un estudio para observar el


Ejercicio 4.15
efecto de varios tipos de fertilizante en distintas variedades de man-
zanas. Para cada combinación se seleccionó una muestra aleatoria de tres árboles y se
contabilizaron los kilogramos de manzanas recogidos:

Fertilizante
Tipo
Total
de manzano F1 F2 F3

74 75 72
M1 78 78 80 712
84 83 88

79 80 85
M2 75 90 77 715
69 84 76

92 77 87
M3 87 78 83 744
85 76 83

Total 723 721 731 2.175

Suponiendo que se verifican las hipótesis de normalidad, independencia y homoce-


dasticidad, compruebe si existen diferencias significativas en las producciones medias.
Nivel de significación: 10 %.

Sea Xij la variable aleatoria que representa la producción de manzanas


Solución
(en kilogramos) recogidas de un árbol de tipo Mi al que se ha aplicado
fertilizante Fj:

Xij → N ( μij , σ ), i = 1, 2, 3,; j = 1, 2, 3

y, además, son independientes.

© Ediciones Pirámide 311


Ejercicios de inferencia estadística y muestreo

Deseamos comprobar la influencia en la producción del factor A (variedad de man-


zano), del factor B (tipo de fertilizante) y de su interacción, AB, si es que existe. Por
tanto, hay que contrastar las hipótesis:

H0 : μ11 = … = μ33
H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

o equivalentemente:

Efecto del factor A

H0′ : α1 = α 2 = α 3 = 0
H1′: ∃ i, α i ≠ 0

Efecto del factor B

H0′′: β1 = β 2 = β3 = 0
H1′′: ∃ j, β j ≠ 0

Efecto interacción (AB)

H0′′′: (αβ )11 = … = (αβ )33 = 0


H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

Como r = 3, s = 3 y n = 3, los estadísticos de prueba a utilizar para estos contrastes


tienen las siguientes distribuciones:

CM A
F′ = Ᏺ r − 1, rs ( n − 1) ≡ Ᏺ 2, 18
CME H 0′

CM B
F ′′ = Ᏺ s − 1, rs ( n − 1) ≡ Ᏺ 2, 18
CME H 0′′

CM AB
F ′′′ = Ᏺ ( r − 1)( s − 1), rs ( n − 1) ≡ Ᏺ 4, 18
CME H 0′′′

312 © Ediciones Pirámide


Análisis de la varianza

y las regiones críticas, al 10 % de significación, son, respectivamente:

Ᏺ4,18
Ᏺ2,18 Ᏺ2,18

0,90
0,1 0,1 0,1
0,90 0,90

F′2, 18;0,90 = 2,62 F′′


2,18; 0,90 = 2,62 F′′′
4, 18;0,90 = 2,29

Necesitamos construir la tabla ANOVA para calcular los valores experimentales:

T..2 2.1752
SCT = ∑ ∑ ∑ xijk
2
− = 176.049 − = 840,67
i j k rsn 27

1 T2 1 2.1752
SCA = ∑
ns i
Ti.2 − .. = (712 2 + 7152 + 7482 ) −
rsn 9 27
= 88,67

1 T2 1 2.1752
SCB = ∑
rn j
T. 2j − .. = (7232 + 7212 + 7312 ) −
rsn 9 27
= 6,22

1 1
SCE = ∑ ∑ ∑ xijk
2
− ∑ ∑ Tij2 = 176.049 − (236 2 + 236 2 + 240 2 + 2232 +
i j k n i j 3

+ 254 + 2382 + 264 2 + 2312 + 2532 ) = 400


2

SCAB = SCT − SCA − SCB − SCE = 345,78

Tabla ANOVA para una clasificación doble


Suma Grados Cuadrados
Fuente de variación F
de cuadrados de libertad medios

Factor A 88,67 r–1=2 44,335 F¢exp = 1,995

Factor B 6,22 s–1=2 3,110 F≤exp = 0,140

Factor AB (interacción) 345,78 (r – 1)(s – 1) = 4 86,445 exp = 3,890


F¢¢¢

Error aleatorio 400,00 rs(n – 1) = 18 22,222

Total 840,67 rsn – 1 = 26

© Ediciones Pirámide 313


Ejercicios de inferencia estadística y muestreo

Como:

′ = 1,995 < 2,62 = F2′, 18; 0,90 ⇒ Aceptamos H0′


Fexp
′′ = 0,140 < 2,62 = F2′′, 18; 0,90 ⇒ Aceptamos H0′′
Fexp
′′′ = 3,89 > 2,29 = F4′′′, 18; 0,90 ⇒ Rechazamos H0′′′
Fexp

Entonces, rechazamos H0 : m11 = L = m33; por tanto, existen diferencias significativas


entre las producciones medias.

314 © Ediciones Pirámide


5
Muestreo en poblaciones finitas

Muestreo
en poblaciones finitas

Los representantes de un determinado partido político desean obtener


Ejercicio 5.1
información de forma rápida y fiable sobre el número total de conceja-
les que obtuvieron, en las pasadas elecciones, en los 300 municipios más pequeños de
una región española. Para conseguir esta información, se decidió realizar un muestreo
aleatorio simple de estos municipios, obteniéndose la siguiente distribución muestral:

Número de concejales
Número de municipios
obtenidos por municipio

0 2
1 7
2 5
3 7
4 8
5 10
6 5
7 3
8 2
9 1

Con un 99 % de confianza:
a) Obtenga la información requerida con estos datos muestrales indicando el error
de muestreo cometido.
b) Si se hubiera querido un error de muestreo inferior a 150 concejales, ¿cuántos
municipios habrían sido necesarios seleccionar?

a) Sea X la variable aleatoria que corresponde al número de concejales de


Solución
este partido político en un municipio. Como se quiere conocer información
sobre los 300 municipios más pequeños de la región (X1, ..., X300), a través de un mues-

© Ediciones Pirámide 315


Ejercicios de inferencia estadística y muestreo

treo aleatorio simple, se ha seleccionado una muestra de n municipios, obteniéndose el


número de concejales en cada uno de ellos, x1, ..., xn. El estimador puntual para el total
poblacional es:

T̂ = N x

siendo x– la media muestral y N el tamaño poblacional. El error de muestreo de este


estimador se puede estimar mediante la fórmula:

S
eT = zα / 2 N ( N − n)
n

donde S es la desviación típica muestral, n el tamaño de muestra y za/2 el valor tal que,
en una distribución N(0, 1), deja a su derecha una probabilidad de a/2, siendo 1 – a el
nivel de confianza.
En este caso:
1 − α = 0,99 ⇒ α / 2 = 0,005
P( Z  zα / 2 ) = 1 − α / 2 = 0,995 ⇒ zα / 2 = 2,575

Obtenemos ahora el valor de la media y varianza muestrales:

xi ni xi n i xi2 ni

0 2 0 0
1 7 7 7
2 5 10 20
3 7 21 63
4 8 32 128
5 10 50 250
6 5 30 180
7 3 21 147
8 2 16 128
9 1 9 81

n = 50 196 1.004

N = 300 ; n = 50
1 k 196
x= ∑
n i =1
xi ni =
50
= 3,92

( ∑ xi ) 2
冤∑ xi2ni − 冥 冤 冥
k
1 1 196 2
s2 = = = 1.004 − = 4,8098
n −1 i =1 n 49 50

316 © Ediciones Pirámide


Muestreo en poblaciones finitas

y, por tanto, con un 99 % de confianza, la estimación del número de concejales obtenidos


en los 300 municipios más pequeños de esa región durante la pasadas elecciones es de:

Tˆ = N x = 300 ⋅ 3,92 = 1.176 concejales

con un error de muestreo de:

s 4,8098
eT = zα / 2 N ( N − n) = 2,575 ⋅ 300(300 − 50) = 218,7189
n 50

b) Para estimar el total de concejales con un error de muestreo inferior a 150, el


número de municipios que habría sido necesario seleccionar se calculará como1:

N 2 zα2 / 2 S 2
n=
eT2 + Nzα2 / 2 S 2

300 2 ⋅ 2,5752 ⋅ 4,8098


n= = 89,51 ≈ 90 municipios
150 2 + 300 ⋅ 2,5752 ⋅ 4,8098

Una compañía suministradora de material de oficina tiene que cobrar re-


Ejercicio 5.2
cibos pendientes correspondientes a 10.000 clientes. Para estimar la
cantidad total que se le adeuda, selecciona una muestra aleatoria de 36 clientes, los cua-
les debían una cantidad media de 7.500 euros, con una desviación típica de 3.000 euros.
a) Establezca un intervalo de confianza al 95 % de la cantidad total que se adeuda a esta
compañía. b) ¿Cuántos clientes se debería haber seleccionado para estimar la cantidad
anterior con un error de muestreo inferior a 2.500.000 euros?

a) Definimos la variable aleatoria X como la cantidad adeudada por un


Solución
cliente. La cantidad total adeudada por los 10.000 clientes es:

10.000
T= ∑ Xi
i =1

1
En este capítulo, las aproximaciones en el cálculo de tamaños muestrales se realizan por exceso para garantizar
un error de muestreo inferior o igual al fijado.

© Ediciones Pirámide 317


Ejercicios de inferencia estadística y muestreo

que se estimará mediante:

N n
T̂ = N x = ∑ xi
n i =1

con un error de muestreo estimado por:

S
eT = zα / 2 N ( N − n)
n

donde za/2 es tal que, para un nivel de confianza 1 – a = 0,95:

P( Z  zα / 2 ) = α / 2 = 0,025 ⇒ zα / 2 = 1,96

Como en este caso:

x = 7.500
s = 3.000

resulta que el intervalo de confianza para el total poblacional será:


IT = [ N x − eT ; N x + eT ] = 10.000 ⋅ 7.500 − 1,96 10.000(10.000 − 36)
3.000
36
;

10.000 ⋅ 7.500 + 1,96 10.000(10.000 − 36)


3.000
36 冥=
= [65.217.655,90; 84.782.344,10]

b) Para conseguir una estimación de la cantidad total que se le adeuda, con un error
inferior a eT = 2.500.000, se debería haber elegido una muestra de tamaño superior a:

N 2 zα2 / 2 s 2 10.000 2 ⋅ 1,96 2 ⋅ 3.000 2


n= = = 524,19 ≈ 525 clientes
eT2 + Nzα2 / 2 s 2 (2.500.000)2 + 10.000 ⋅ 1,96 2 ⋅ 3.000 2

318 © Ediciones Pirámide


Muestreo en poblaciones finitas

En un parque acuático se desea estimar la cantidad gastada por perso-


Ejercicio 5.3
na adulta en las instalaciones del parque (sin contar el precio de la
entrada al recinto). Para ello, de entre las 500 entradas de adultos vendidas un día de-
terminado, se seleccionó una muestra aleatoria simple de 100, y a la salida del parque
se les preguntó la cantidad que habían gastado. De las respuestas dadas, se obtuvo la
siguiente información:

100 100
∑ xi = 2.500 euros ; ∑ xi2 = 64.975 (euros)2
i =1 i =1

a) Obtenga el intervalo de confianza al 95 % para la cantidad media gastada por


adulto en el recinto del parque.
b) ¿A cuántas personas adultas se debería haber entrevistado para que, con la mis-
ma confianza, el error de la estimación anterior no superase los 75 céntimos de
euro?
c) Si se hubiera deseado estimar la proporción de personas adultas insatisfechas
con los servicios prestados en el parque, con un error del 10 % y una confianza
del 95 %, ¿cuántas de ellas deberían haber sido preguntadas?

Mediante X, representamos la variable aleatoria correspondiente a la can-


Solución
tidad gastada por una persona adulta en las instalaciones del parque acuá-
tico. Para estimar la cantidad media gastada por una persona adulta se ha seleccionado
una muestra aleatoria simple de tamaño n = 100 extraída de una población con tamaño
N = 500:
a) El intervalo de confianza para la media poblacional es:


Iμ = x − zα / 2
N−n S
N n
; x + zα / 2
N−n S
N n 冥
siendo za/2 el cuantil 1 – a/2 de una distribución N(0, 1), es decir:

P( Z  zα / 2 ) = 1 − α / 2

Para una confianza del 95 %:

1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z  zα / 2 ) = 0,975


zα / 2 = 1,96

© Ediciones Pirámide 319


Ejercicios de inferencia estadística y muestreo

Calculamos la media y la varianza muestral:

1 n 2.500
x= ∑
n i =1
xi =
100
= 25 euros

冤 冢∑ x 冣 冥 = 991 冤64.975 − 1001 (2.500) 冥 = 25


n n 2
1 1
s2 =
n −1
= ∑ xi2 − n
i
2

i =1 i =1

s= s2 = 25 = 5 euros

y así, el intervalo de confianza para el gasto medio por persona adulta es, en euros:


Iμ = 25 − 1,96
500 − 100
500
5
100
; 25 + 1,96
500 − 100
500
5
100 冥=
= [24,123; 25,877]

b) Para un error en la estimación de la media de 75 céntimos de euro, el tamaño


muestral necesario será de:

zα2 / 2 ⋅ N ⋅ S 2
n=
eμ2 N + zα2 / 2 S 2

y sustituyendo la información muestral:

1,96 2 ⋅ 500 ⋅ 25
n= = 127,2761 ≈ 128
0,752 ⋅ 500 + 1,96 2 ⋅ 25

Por tanto, para que el error no supere los 75 céntimos de euro, debería haberse en-
trevistado al menos a 128 personas.
Otra forma de obtener este valor sería calculando, en primer lugar, el tamaño mues-
tral que correspondería a una población infinita y, luego, realizar la corrección por fini-
tud si ésta fuera necesaria, es decir, si la fracción de muestreo obtenida con este tamaño
superase el 1 %:

zα2 / 2 s 2 1,96 2 ⋅ 25
n∞ = = = 170,7378 ≈ 171
eμ2 0,752
n∞ 171
f = = = 0,342 > 0,01
N 500

320 © Ediciones Pirámide


Muestreo en poblaciones finitas

con lo cual, debemos realizar la corrección por finitud:

n∞ 171
n= = = 127, 4218 ≈ 128
n∞ 1 + 0,342
1+
N
c) Si se desea estimar una proporción al 95 % de confianza y con un error de
muestreo:

eP  0,10

el tamaño muestral necesario puede obtenerse a partir de la fórmula2:

zα2 / 2 Npq
n=
eP2 ( N − 1) + zα2 / 2 pq

y como no se tiene información sobre el valor de p, se utilizará aquel que proporciona


la máxima variabilidad, p = 0,5 = q:

pq

1/4

0 0,5 1 p

2
Algunos autores prefieren utilizar el estimador de varianza Vâr[P̂] en lugar de Var[P̂] a la hora de calcular el
error de muestreo; así:

N−n pq
eP = zα / 2 Vâr [ Pˆ ] = zα / 2
N n −1
y, despejando de esta fórmula, quedaría:

N (eP2 + zα2 / 2 pq )
n=
NeP2 + zα2 / 2 pq

y así:

500(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5)


n= = 81,4039 ≈ 82
500 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

presentándose un desfase de una unidad.

© Ediciones Pirámide 321


Ejercicios de inferencia estadística y muestreo

Por tanto, bastaría haber preguntado a:

1,96 2 ⋅ 500 ⋅ 0,5 ⋅ 0,5


n= = 80,7005 ≈ 81 personas
0,10 2 ⋅ 499 + 1,96 2 ⋅ 0,5 ⋅ 0,5

Del mismo modo que en el apartado anterior, también aquí podría haberse obtenido
el tamaño muestral correspondiente a una población infinita, n • , y realizar, en caso
necesario, la corrección por finitud:

zα2 / 2 pq 1,96 2 ⋅ 0, 5 ⋅ 0, 5
n∞ = = = 96,04 ≈ 97
eP2 0,10 2

n∞ 97
f = = = 0,194 > 0,01
N 500

Entonces, con la corrección por finitud tendremos:

n∞ 97
n= = = 81,24 ≈ 82 personas
n∞ 1 + 0,194
1+
N

El servicio informático de cierta universidad se está planteando la re-


Ejercicio 5.4
novación o no del contrato de utilización de un determinado paquete
estadístico. Antes de tomar esta decisión se necesitaría conocer la opinión de los pro-
fesores universitarios. Para obtener esta información, se pretende tomar una muestra
aleatoria simple entre los 1.250 profesores y enviarles un cuestionario a través del cual
manifiesten si son favorables a la renovación del contrato, teniendo en cuenta el coste
que supondrá a la universidad y las condiciones del mismo.
a) ¿Cuál deberá ser el tamaño muestral apropiado para obtener una estimación
sobre la proporción de profesores favorables a la renovación del contrato con un
error de muestreo inferior al 12 % y una confianza del 90 %?
b) De la encuesta realizada el año anterior se sabe que la proporción de profesores
favorables a la renovación estará entre el 75 % y el 85 %. ¿Cuál debería ser en
este caso el tamaño muestral necesario si se decide utilizar esta información?
c) Si, finalmente, se decidió enviar los cuestionarios a 100 profesores, de los cuales
tan sólo 35 no se manifestaron favorables a la renovación del contrato, estime
la proporción de profesores favorables a la renovación del contrato indicando su
error de muestreo. Nivel de confianza: 90 %.

322 © Ediciones Pirámide


Muestreo en poblaciones finitas

a) Como se desea estimar una proporción poblacional realizando un


Solución
muestreo aleatorio simple en una población de N = 1.250 profesores, con
una confianza del 90 % y con un error de muestreo fijado en ep = 0,15, el tamaño mues-
tral necesario se puede obtener mediante la fórmula3:

zα2 / 2 Npq
n=
eP2 ( N − 1) + zα2 / 2 pq

siendo za/2 el cuantil 1 – a/2 de una N (0, 1):

1 − α = 0,90 ⇒ α = 0,10
α 0,10
P( Z  zα / 2 ) = 1 − = 1− = 0,95
2 2
zα / 2 = 1,645

y, si no se tiene información sobre p, se tomará el valor p = 1/2, pues proporciona la


máxima variabilidad:

pq = p(1 – p)

0 1/2 1 p

3
También se puede utilizar, según se ha explicado en el problema 5.3, la fórmula:

N (eP2 + zα2 / 2 pq )
n=
NeP2 + zα2 / 2 pq

y así:

1.250(0,12 2 + 1,6452 ⋅ 0,5 ⋅ 0,5)


n= = 45,5493 ≈ 46
1.250 ⋅ 0,12 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

© Ediciones Pirámide 323


Ejercicios de inferencia estadística y muestreo

Por tanto:
1,6452 ⋅ 1.250 ⋅ 0,5 ⋅ 0,5
n= = 45,2968 ≈ 46
0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,5 ⋅ 0,5

y sería necesario seleccionar a 46 profesores para enviarles los cuestionarios.


También podríamos haber obtenido esta cantidad calculando en primer lugar el ta-
maño muestral que correspondería a una población infinita, n • , y, si la fracción de
muestreo no es suficientemente pequeña, realizando la corrección por finitud:

zα2 / 2 pq 1,6452 ⋅ 0,5 ⋅ 0,5


n∞ = = = 46,9796 ≈ 47
eP2 0,12 2
Como:
n∞ 47
f = = = 0,0376 > 0,01
N 1.250
entonces será necesario realizar la corrección por finitud:

n∞ 47
n= = = 45,2968 ≈ 46
n∞ 1 + 0,0376
1+
N
b) Si se estima que la proporción oscilará entre el 75 % y el 85 %, entonces, en la
fórmula para obtener el tamaño muestral:

zα2 / 2 Npq
n=
eP2 ( N − 1) + zα2 / 2 pq

se utilizará el valor p = 0,75, pues es el que proporciona mayor variabilidad entre los
posibles:
pq = p(1 – p)

0,25
0,1875
0,1275

0,5 0,75 0,85

324 © Ediciones Pirámide


Muestreo en poblaciones finitas

Así pues, como:

1,6452 ⋅ 1.250 ⋅ 0,75 ⋅ 0,25


n= = 34,2954 ≈ 35
0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,75 ⋅ 0,25

sería necesario enviar el cuestionario a una muestra aleatoria simple de 35 profesores4.


Del mismo modo que en el apartado anterior, podríamos haber calculado:

zα2 / 2 pq 1,6452 ⋅ 0,75 ⋅ 0,25


n∞ = = = 35,2347 ≈ 36
eP2 0,12 2
n∞ 36
f = = = 0,0288 > 0,01
N 1.250

y realizar la corrección por finitud:

n∞ 36
n= = = 34,9922 ≈ 35
n∞ 1,0288
1+
N

c) El estimador puntual de la proporción poblacional es la proporción muestral:

1 n
P̂ = p = ∑ ai
n i =1

siendo:

⎧1 si el profesor i -ésimo es favorable a la renovación


ai = ⎨
⎩0 en caso contrario

Como de los 100 cuestionarios hay 35 que no se manifestaron favorables, entonces:

n = 100
100
∑ ai = 100 − 35 = 65
i =1

4
Sustituyendo en la otra fórmula, quedaría:

N (eP2 + zα2 / 2 pq ) 1.250(0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25)


n= = = 35,2413 ≈ 36
NeP2 + zα2 / 2 pq 1.250 ⋅ 0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25

© Ediciones Pirámide 325


Ejercicios de inferencia estadística y muestreo

y la estimación puntual es:

65
Pˆ = p = = 0,65
100

con un error de muestreo5

N−n pq 1.250 − 100 0,65 ⋅ 0,35


eP = zα / 2 = 1,645 = 0,0753
N −1 n 1.249 100

Una compañía dedicada al envasado, fabricación y venta de produc-


Ejercicio 5.5
tos lácteos pretende analizar el consumo anual de leche en una ciudad
que cuenta con 110.000 habitantes. Para realizar el estudio, decide llevar a cabo una
clasificación por edades de la población en tres estratos. Tomando muestras aleatorias
simples en cada uno de ellos, se obtuvieron los siguientes datos:

Media muestral
Tamaños Tamaños del consumo Varianza muestral
Estratos
poblacionales muestrales anual de leche (litros)2
(litros)

Menores de 25 años 48.000 1.460 102,7 15.876


Entre 25 y 50 años 38.000 1.160 71,4 48.841
Más de 50 años 24.000 1.730 73,2 23.409

Utilizando un 95 % de confianza:
a) Estime la cantidad total de leche consumida al año entre los menores de 25
años, indicando el error de muestreo cometido.
b) Calcule el tamaño muestral necesario para estimar el consumo medio de leche
al año entre los mayores de 50 años con un error de muestreo de cinco litros.
c) Estime, mediante un intervalo de confianza, el consumo anual de leche por
habitante.
d) Para realizar un estudio similar, se va a permitir triplicar el tamaño de la mues-
tra. Reparta la nueva muestra entre los tres estratos según los diferentes crite-
rios, indicando qué reparto es el más eficiente.
5
O bien:

N−n pq 1.250 − 100 0,65 ⋅ 0,35


eP = zα / 2 Vâr [ Pˆ ] = zα / 2 = 1,645 = 0,0756
N n −1 1.250 100 − 1

326 © Ediciones Pirámide


Muestreo en poblaciones finitas

e) Si se quiere estimar la proporción de personas entre 25 y 50 años que estarían


dispuestas a comprar un producto lácteo de reciente aparición, ¿cuál sería el
tamaño muestral necesario para que la estimación tuviera un error de muestreo
inferior al 5 %? ¿Y si existe un estudio piloto que sugiere que dicha proporción
será al menos del 60 %?

Sea X la cantidad de leche consumida anualmente por una persona. Para


Solución
recoger información sobre esta variable, se ha realizado un muestreo alea-
torio estratificado, utilizando como variable estratificadora la edad de la población.
a) Deseamos estimar un total poblacional dentro del primer estrato, por tanto, su
estimador es el correspondiente a un muestreo aleatorio simple:

Tˆ1 = N1 x1 = 48.000 ⋅ 102,7 = 4.929.600 litros

con un error de muestreo estimado en:

s1 15.876
eT1 = zα / 2 N1 ( N1 − n1 ) = 1,96 48.000( 48.000 − 1.460) =
n1 1.460

= 305.480,8545 litros

pues, con una confianza de 1 – a = 0,95:

P( Z  zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96

b) Para estimar el consumo medio de leche en el tercer estrato, con un error de


muestreo fijado en e m3 = 5 litros, será necesario un tamaño muestral igual a:

zα2 / 2 N3 s32 1,96 2 ⋅ 24.000 ⋅ 23.409


n3 = = 2 = 3.128,25 ≈ 3.129 personas
eμ3 N3 + zα / 2 s3
2 2 2
5 ⋅ 24.000 + 1,96 2 ⋅ 23.409

c) Para estimar el consumo medio anual por habitante en esta ciudad, utilizaremos
el estimador de la media global en el muestreo estratificado y, por tanto, el intervalo de
confianza será:

Iμ = [ μˆ ST − eμ ; μˆ ST + eμ ]

© Ediciones Pirámide 327


Ejercicios de inferencia estadística y muestreo

siendo

L L
1
μˆ ST = ∑ Wh xh = N
∑ Nh xh
h =1 h =1

L
Sh2
eμ = zα / 2 ∑ Wh2 (1 − fh ) nh
h =1

Así pues:

1
μˆ ST = ( 48.000 ⋅ 102,7 + 38.000 ⋅ 71,4 + 24.000 ⋅ 73,2) = 85,451 litros
110.000

冤冢110 冣 ⋅ 冢1 − 冣 +冢 冣 ⋅ 冢1 − 冣
48.000 2 1.460 15.876 38.000 1.160 2
48.841
eμ = 1,96 ⋅ ⋅ +
.000 48.000 1.460 110.000 38.000 1.160

冢 冣冢
24.000 2
冣 冥
1.730 23.409 1/ 2
+ ⋅ 1− ⋅ = 5,35 litros
110.000 24.000 1.730

y, por tanto:

Iμ = [85, 451 − 5,35 ; 85, 451 + 5,35] = [80,101 ; 90,801]

d) El tamaño muestral actual es:

1.460  1.160  1.730  4.350

Si se triplica esta cantidad, el nuevo tamaño muestral sería de:

n  3 · 4.350  13.050 personas

Para repartir entre los distintos estratos, utilizaremos la expresión:

nh  wh n  wh · 13.050 ; h  1, 2, 3

con wh dados según los distintos criterios de afijación.

328 © Ediciones Pirámide


Muestreo en poblaciones finitas

Afijación uniforme

1 1
wh = = , h = 1, 2, 3
L 3
1 13.050
n1 = n2 = n3 = n= = 4.350
L 3

es decir, en cada estrato se tomaría una muestra aleatoria simple de 4.350 personas.

Afijación proporcional

Nh
wh = , h = 1, 2, 3
N
N1 48.000
n1 = n= 13.050 = 5.694,5455 ≈ 5.695
N 110.000
N2 38.000
n2 = n= 13.050 = 4.508,1818 ≈ 4.508
N 110.000
N3 24.000
n3 = n= 13.050 = 2.847,2727 ≈ 2.847
N 110.000

Afijación óptima de mínima varianza con coste fijo

Nh Sh
wh = L , h = 1, 2, 3
∑ Ni Si
i =1
L
∑ Ni si = 48.000 15.876 + 38.000 48.841 + 24.000 23.409 = 18.118.000
i =1

48.000 ⋅ 15.876
n1 = ⋅ 13.050 = 4.356,2424 ≈ 4.356
18.118.000
38.000 ⋅ 48.841
n2 = ⋅ 13.050 = 6.048,8961 ≈ 6.049
18.118.000
24.000 ⋅ 23.409
n3 = ⋅ 13.050 = 2.644,8615 ≈ 2.645
18.118.000

y este último es el reparto más eficiente entre los estratos, pues minimiza la varianza
del estimador.

© Ediciones Pirámide 329


Ejercicios de inferencia estadística y muestreo

e) Al estimar una proporción mediante un muestreo aleatorio simple (pues se trata


del interior del segundo estrato), el tamaño muestral necesario para conseguir un error in-
ferior a eP2 = 0,05 será una cantidad superior o igual a la obtenida aplicando la fórmula6:

zα2 / 2 N2 p2 q2
n=
eP22 ( N2 − 1) + zα2 / 2 p2 q2

Si no se tiene información sobre p2 o q2, tomamos p2 = q2 = 0,5, pues es la situación


de máxima variabilidad:

pq = p(1 – p)

0,25

0 0,5 1 p

Así:
1,96 2 ⋅ 38.000 ⋅ 0,5 ⋅ 0,5
n= = 380,3251 ≈ 381 personas
0,052 ⋅ (37.999) + 1,96 2 ⋅ 0,5 ⋅ 0,5

Si de la encuesta piloto se conoce que p2  0,6, entonces:

pq = p(1 – p)

0,25
0,24

0 0,5 0,6 1 p

6
Si se utiliza la fórmula:

N (eP22 + zα2 / 2 p2 q2 )
n=
NeP22 + zα2 / 2 p2 q2

se obtendría n = 381,3052 ≈ 382.

330 © Ediciones Pirámide


Muestreo en poblaciones finitas

tomaremos p2 = 0,6 y q2 = 1 – 0,6 = 0,4 y tendremos que el tamaño muestral necesario


será superior o igual a7:

1,96 2 ⋅ 38.000 ⋅ 0,6 ⋅ 0, 4


n= = 365,2583 ≈ 366 personas
0,052 ⋅ 37.999 + 1,96 2 ⋅ 0,6 ⋅ 0, 4

Una organización sindical está interesada en conocer la situación labo-


Ejercicio 5.6
ral de los 10.000 trabajadores que en el año 1997 pertenecían a cierto
grupo industrial. Para realizar el informe, los trabajadores fueron clasificados en tres
grupos de edad, seleccionándose una muestra aleatoria simple en cada uno de ellos.
Algunos de los resultados obtenidos aparecen en la siguiente tabla:

Salario mensual (euros) Número


Número
Grupos Número total de contratos
de trabajadores Desviación típica
de edad de trabajadores Media muestral inferiores
seleccionados muestral a dos años

18-35 2.900 666 1.205 380 375


36-50 4.700 754 1.630 350 150
51-65 2.400 580 1.950 400 90

Con una confianza del 99 %:


a) Obtenga, mediante el correspondiente intervalo de confianza, la estimación de
la cantidad total mensual repartida por este grupo industrial entre los salarios
de los empleados más jóvenes.
b) Calcule una estimación del salario mensual medio de los 10.000 trabajadores,
así como su error de muestreo.
c) Indique si el reparto muestral anterior en los distintos grupos de edad ha sido el
más eficiente posible para estimar el salario mensual medio; en caso contrario,
indique cuál sería éste.
d) Estime la proporción de trabajadores de este grupo industrial cuyo contrato tiene
una duración inferior a los dos años, indicando el error de muestreo cometido.
e) Si se deseara estimar la proporción de trabajadores con más de 50 años que
padecieron enfermedades por no cumplirse las normas de seguridad e higiene
en sus puestos de trabajo, ¿cuántos trabajadores sería necesario seleccionar para
que el error de muestreo no superase el 6 %?

7
Utilizando la fórmula de la nota anterior obtendríamos n = 366,24 ≈ 367.

© Ediciones Pirámide 331


Ejercicios de inferencia estadística y muestreo

Definimos la variable X = «Salario mensual de un trabajador». El valor del


Solución
salario mensual del i-ésimo trabajador seleccionado en el grupo h será
representado por xih.
a) Para estimar la cantidad total mensual repartida entre los trabajadores más jó-
venes mediante un intervalo de confianza, utilizaremos la expresión correspondiente al
muestreo aleatorio simple aplicada al primer estrato:


IT1 = N1 X1 − zα / 2 N1 ( N1 − n1 )
S1
n1
; N1 X1 + zα / 2 N1 ( N1 − n1 )
S1
n1 冥
donde, para una confianza del 99 %, el valor za/2 es tal que:

P( Z  zα / 2 ) = 1 − α / 2 = 1 − 0,005 = 0,995 ⇒ zα / 2 = 2,575


Por tanto:


IT1 = 2.900 ⋅ 1.205 − 2,575 2.900(2.900 − 666)
380
666
;

2.900 ⋅ 1.205 + 2,575 2.900(2.900 − 666)


380
666 冥=
= [3.397.991,78; 3.591.008,21]

b) En este caso, al tratarse del salario medio global, deberemos aplicar el estimador
del muestreo aleatorio estratificado:
L
μ̂ ST = ∑ Wh xh
h =1

siendo Wh la ponderación del estrato h y x–h su media muestral:

N1 2.900
W1 = = = 0,29
N 10.000
N2 4.700
W2 = = = 0, 47
N 10.000
N3 2.400
W3 = = = 0,24
N 10.000
μˆ ST = 0,29 ⋅ 1.205 + 0, 47 ⋅ 1.630 + 0,24 ⋅ 1.950 = 1.583,55 euros
332 © Ediciones Pirámide
Muestreo en poblaciones finitas

cuyo error de muestreo viene dado por:

L
S2
eμ = zα / 2 ∑ Wh2 (1 − fh ) nh
h =1 h

Sustituyendo en esta fórmula:

eμ = 2,575 0,29 2 1 − 冉 冊
666 380 2
2.900 666
+ 0, 472 1 − 冉
754 350 2
4.700 754

+ 0,24 2 1 −
580 400 2
2.400 580
冉= 冊
= 19,31 euros

c) El reparto muestral más eficiente será el que se obtenga por medio del criterio
de afijación óptima de mínima varianza. Veamos si los tamaños muestrales que tenemos
en cada estrato coinciden con los que proporcionará este criterio:

Nh Sh
nh = wh n = L ⋅n
∑ Ni Si
i =1

con

n = 666 + 754 + 580 = 2.000


L
∑ Nh Sh = 2.900 ⋅ 380 + 4.700 ⋅ 350 + 2.400 ⋅ 400 = 3.707.000
i =1

2.900 ⋅ 380
n1 = ⋅ 2.000 = 594,5508 ≈ 595
3.707.000
4.700 ⋅ 350
n2 = ⋅ 2.000 = 887,5101 ≈ 887
3.707.000
2.400 ⋅ 400
n3 = ⋅ 2.000 = 517,9390 ≈ 518
3.707.000

Por tanto, el reparto muestral del enunciado no es el más eficiente.

© Ediciones Pirámide 333


Ejercicios de inferencia estadística y muestreo

d) Debemos obtener la estimación de la proporción poblacional en un muestreo


aleatorio estratificado:

L
P̂ST = pST = ∑ Wh ph
h =1

Las proporciones muestrales en cada uno de los estratos son:

375
p1 = = 0,5631
666

150
p2 = = 0,1989
754

90
p3 = = 0,1552
580

Por tanto, la estimación requerida es:

PˆST = pST = 0,29 ⋅ 0,5631 + 0,47 ⋅ 0,1989 + 0,24 ⋅ 0,1552 = 0,2940

con un error de muestreo de8:

L
Nh − nh ph qh
eP = zα / 2 ∑ Wh2 ⋅
Nh − 1 nh
=
h =1

2.900 − 666 0,5631 ⋅ 0, 4369 4.700 − 754 0,1989 ⋅ 0,8011 2.400 − 580 0,1552 ⋅ 0,8448
= 2,575 0,29 2 ⋅ + 0, 472 ⋅ + 0,24 2 ⋅ =
2.899 666 4.699 754 2.399 580

= 0,022

8
Otros autores consideran:

L
Nh − nh ph qh
eP = zα / 2 Vâr [ p] = zα / 2 ∑ Wh2 Nh

nh − 1
h =1

con la que se obtiene un resultado similar.

334 © Ediciones Pirámide


Muestreo en poblaciones finitas

e) Si se desea estimar una proporción en el tercer estrato con un error de muestreo


del 6 %, necesitamos un tamaño muestral dado por la fórmula9:

zα2 / 2 N3 p3q3 2,5752 ⋅ 2.400 ⋅ 0,5 ⋅ 0,5


n3 = = = 386, 4730 ≈ 387
eP23 ( N3 − 1) + zα2 / 2 p3q3 0,06 2 (2.399) + 2,5752 ⋅ 0,5 ⋅ 0,5

donde se ha utilizado como valor de p3 = 0,5, puesto que no se tiene información anterior
sobre la proporción de trabajadores de más de 50 años que padecieron enfermedades por
motivos laborales.
Por tanto, para estimar esta proporción con un error de muestreo no superior al 6 %
habrá que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50
años. Otra forma de llegar al mismo resultado es obteniendo primero el tamaño muestral
que correspondería a una población infinita:

zα2 / 2 p3q3 2,5752 ⋅ 0,5 ⋅ 0,5


n∞ 3 = = = 460, 46 ≈ 461
eP23 0,06 2

y como la fracción de muestreo supera el 1 %:

n∞ 3 461
f3 = = = 0,1921 > 0,01
N3 2.400

habrá que realizar la corrección por finitud:

n∞ 3 461
n3 = = = 386,7125 ≈ 387
n∞ 3 11921
,
1+
N3

9
O bien con la expresión:

N3 (eP23 + zα2 / 2 p3q3 )


n3 =
N3eP23 + zα2 / 2 p3q3

se obtendría n3 = 387,1769 ≈ 388.

© Ediciones Pirámide 335


Ejercicios de inferencia estadística y muestreo

La Consejería de Agricultura de una comunidad autónoma está reali-


Ejercicio 5.7
zando un estudio sobre el terreno agrícola. Para recoger la información
necesaria se consideraron tres zonas según su localización geográfica, y en cada una
de ellas, de forma independiente, se seleccionó, mediante un muestreo aleatorio simple,
cierto número de fincas. Parte de la información recogida se resume en la siguiente tabla:

Número total Número de fincas Superficie media Desviación típica Número de fincas
Zonas
de fincas seleccionadas muestral (Ha.) muestral (Ha.) barbecho

A 3.200 380 28 3,5 124


B 5.600 800 15 6,7 250
C 1.200 200 45 8,0 17

Utilizando un 99 % de confianza:
a) Obtenga la superficie total del terreno agrícola en cada una de las zonas, esti-
mando en cada caso su error de muestreo.
b) ¿Qué tamaños muestrales habrían sido necesarios para realizar las estimaciones
anteriores con unos errores de muestreo estimados inferiores a 1.000 hectáreas?
c) Estime la superficie media de las fincas de la comunidad autónoma mediante el
correspondiente intervalo de confianza.
d) ¿Cuál sería el reparto más eficiente de la muestra anterior en las tres zonas para
realizar la estimación de la superficie media?
e) ¿Qué tamaño muestral y qué reparto por zona se debería haber realizado para
estimar, del modo más eficiente posible, la superficie total del terreno agrícola de
la comunidad autónoma con un error de muestreo no superior a 1.000 hectáreas?
f) Calcule el porcentaje global de fincas en barbecho indicando su error de mues-
treo.

Sea X = «Superficie de una finca de esta comunidad autónoma». Las fincas


Solución
de esta comunidad han sido divididas en tres zonas o estratos, y en cada una
de ellas se ha realizado un muestreo aleatorio simple de forma independiente entre ellas.
Por tanto, los estimadores dentro de cada zona podrán obtenerse a través de las fórmulas
de muestreo aleatorio simple, y los globales a partir de las del muestreo estratificado.
a) Para cada zona estimaremos la superficie total y su error de muestreo utilizando
las fórmulas:

Tˆh = Nh xh
Sh
eTh = zα / 2 Nh ( Nh − nh ) , h = 1, 2, 3
nh

336 © Ediciones Pirámide


Muestreo en poblaciones finitas

Como el nivel de confianza es del 99 %, entonces:

α 0,01
P( Z  zα / 2 ) = = = 0,005 ⇒ zα / 2 = 2,575
2 2

Zona A

Tˆ1 = N1 x1 = 3.200 ⋅ 28 = 89.600 hectáreas

3,5
eT1 = 2,575 3.200(3.200 − 380) = 1.388,8426 hectáreas
380

Zona B

Tˆ2 = N2 x2 = 5.600 ⋅ 15 = 84.000 hectáreas

6,7
eT2 = 2,575 5.600(5.600 − 800) = 3.162, 4355 hectáreas
800

Zona C

Tˆ3 = N3 x3 = 1.200 ⋅ 45 = 54.000 hectáreas

8
eT3 = 2,575 1.200(1.200 − 200) = 1.595,6691 hectáreas
200

b) Si se pretende estimar la superficie total con la información de una muestra


aleatoria simple con un error determinado, el tamaño que se necesitará es:

Nh2 zα2 / 2 Sh2


nh = , h = 1, 2, 3
eT2h + Nh zα2 / 2 Sh2

Así pues, para las correspondientes zonas, tendremos:

Zona A

3.200 2 ⋅ 2,5752 ⋅ 3,52


n1 = = 660,1572 ≈ 661
1.000 2 + 3.200 ⋅ 2,5752 ⋅ 3,52

© Ediciones Pirámide 337


Ejercicios de inferencia estadística y muestreo

Zona B

5.600 2 ⋅ 2,5752 ⋅ 6,72


n2 = = 3.500,1310 ≈ 3.501
1.000 2 + 5.600 ⋅ 2,5752 ⋅ 6,72

Zona C

1.200 2 ⋅ 2,5752 ⋅ 82
n3 = = 404,8936 ≈ 405
1.000 2 + 1.200 ⋅ 2,5752 ⋅ 82

c) Para estimar la superficie media global de las fincas de la región, tendremos en


cuenta que se trata de un muestreo estratificado y, por tanto:

L
μˆ ST = x = ∑ Wh xh
h =1

L
S2
eμ ST = zα / 2 ∑ Wh2 (1 − fh ) nh
h =1 h

siendo:
xh = media muestral del estrato h.
Nh
Wh = = ponderación del estrato h.
N
nh
fh = = fracción de muestreo en el estrato h.
Nh

Por tanto, sustituyendo la información que aparece en la tabla, tendremos:

L
N= ∑ Nh = 3.200 + 5.600 + 1.200 = 10.000
h =1

N1 3.200 n1 380
W1 = = = 0,32 ; f1 = = = 0,1188
N 10.000 N1 3.200
N2 5.600 n2 800
W2 = = = 0,56 ; f2 = = = 0,1429
N 10.000 N2 5.600
N3 1.200 n3 200
W3 = = = 0,12 ; f3 = = = 0,1667
N 10.000 N3 1.200

338 © Ediciones Pirámide


Muestreo en poblaciones finitas

Así:

μˆ ST = x = 0,32 ⋅ 28 + 0,56 ⋅ 15 + 0,12 ⋅ 45 = 22,76 hectáreas

3,52 6,72 82
eμ ST = 2,575 0,32 2(1 − 0,1188) ⋅ + 0,56 2(1 − 0,1429) ⋅ + 0,12 2(1 − 0,1667) ⋅ =
380 800 200
= 0,3805 hectáreas

y el intervalo de confianza al 99 % será:

Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ] = [22,76 − 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405]

d) El reparto más eficiente es el que se realiza a través del criterio de afijación


óptima de mínima varianza, en el que el tamaño muestral del estrato h será:

Nh Sh
nh = wh n = L ⋅n , h = 1,..., L
∑ Ni Si
i =1

Por tanto, como:

L
∑ Ni Si = 3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 = 58.320
i =1

los tamaños muestrales que corresponderían a cada estrato, teniendo en cuenta que el
tamaño muestral global ha de ser:

n  380  800  200  1.380

serán:

3.200 ⋅ 3,5
n1 = ⋅ 1.380 = 265,0205 ≈ 265
58.320
5.600 ⋅ 6,7
n2 = ⋅ 1.380 = 887,8189 ≈ 888
58.320
1.200 ⋅ 8
n3 = ⋅ 1.380 = 227,1605 ≈ 227
58.320

© Ediciones Pirámide 339


Ejercicios de inferencia estadística y muestreo

e) El tamaño muestral necesario para estimar el total con un error de muestreo no


superior a 1.000 hectáreas, realizando un muestreo aleatorio estratificado, se obtiene como:

L
Nh2 Sh2

h = 1 wh
n= L
eT2
+ ∑ Nh Sh2
zα2 / 2 h = 1

donde las cantidades wh serán las correspondientes al criterio de afijación óptima de mí-
nima varianza para que el reparto de la muestra por zonas sea el más eficiente posible:

Nh Sh
wh = L , h = 1,..., L
∑ Nh Sh
i =1

3.200 ⋅ 3,5
w1 = = 0,1920
58.320
5.600 ⋅ 6,7
w2 = = 0,6433
58.320
1.200 ⋅ 8
w3 = = 0,1646
58.320

Entonces:

3.200 2 ⋅ 3,52 5.600 2 ⋅ 6,72 1.200 2 ⋅ 82


+ +
0,1920 0,6433 0,1646
n= 2 = 6.564,1970 ≈ 6.565
1.000
+ [3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 ]
2 2 2
2,5752

y los tamaños muestrales en cada zona se calcularán mediante la expresión:

nh = wh ⋅ n , h = 1,..., L

n1 = 0,1920 ⋅ 6.565 = 1.260, 48 ≈ 1.261


n2 = 0,6433 ⋅ 6.565 = 4.223,26 ≈ 4.223
n3 = 0,1646 ⋅ 6.565 = 1.080,599 ≈ 1.081

340 © Ediciones Pirámide


Muestreo en poblaciones finitas

f) Para h = 1, 2, 3, definimos:

⎧1 si la finca i del estrato h se destina a barbecho


aih = ⎨ , i = 1,..., Nh
⎩0 en caso contrario

Para estimar la proporción poblacional de fincas dedicadas al barbecho:

L L
N Nh Nh
P= ∑ Nh Ph = ∑ ∑ aih
h =1 h =1 N i =1

utilizaremos el estimador del muestreo estratificado, cuya fórmula es:

L
pST = ∑ Wh ph
h =1

siendo ph el estimador de la proporción en el estrato h. El error de muestreo de este


estimador se puede aproximar mediante10 :

L
Nh − nh ph qh
eP = zα / 2 Var [ pST ] = zα / 2 ∑ Wh2 ⋅
Nh − 1 nh
h =1

Así pues, como:

1 n1 124
p1 = ∑ ai1 = 380 = 0,3263
n1 i = 1
n2
1 250
p2 =
n2
∑ ai 2 = 800 = 0,3125
i =1

n3
1 17
p3 =
n3
∑ ai3 = 200 = 0,085
i =1

10
Otros autores consideran:

L
Nh − nh ph qh
eP = zα / 2 Vâr [ pST ] = zα / 2 ∑ Wh2 Nh

n
−1
h =1

© Ediciones Pirámide 341


Ejercicios de inferencia estadística y muestreo

la estimación de la proporción de fincas en barbecho es:

124 250 17
pST = 0,32 ⋅ + 0,56 ⋅ + 0,12 ⋅ = 0,2896
380 800 200

con un error de muestreo de:

eP =

3.200 − 380 0,3263 ⋅ 0,6737 5.600 − 800 0,3125 ⋅ 0,6875 1.200 − 200 0,085 ⋅ 0,915
= 2,575 0,32 2 ⋅ + 0,56 2 ⋅ + 0,12 2 ⋅ =
3.200 − 1 380 5.600 − 1 800 1.200 − 1 200

= 0,0293

Es decir, un 28,96 % de las fincas de la región están en barbecho, siendo el error de


muestreo11 de esta estimación de ± 2,93 %.

Una agencia inmobiliaria desea conocer la proporción de apartamentos


Ejercicio 5.8
de la playa de Costanova, que cuenta con un total de 10.000, cuyos
dueños estarían dispuestos a alquilarlos al menos un mes al año. Para realizar el estudio,
se selecciona en cada una de las tres urbanizaciones existentes una muestra aleatoria
de apartamentos en número proporcional al total de apartamentos de la urbanización.
La información recogida indica que, en la urbanización Soleares se seleccionaron 1.050
apartamentos, de los cuales habría 800 dispuestos a ser alquilados; en Vistabella se
eligieron 900 apartamentos, estando disponibles para el alquiler 600 de ellos, y de los
1.700 seleccionados en Aguaclara, los dueños de 1.300 estarían dispuestos a alquilarlos
al menos un mes al año.
Estime, al 90 % de confianza, la proporción de apartamentos que estarían dispuestos
a ser alquilados al menos una vez al año y el error de muestreo cometido.

Definimos:
Solución

⎧1 si el dueño del apartamento i de la urbanización h estaría dispuesto a alquilarlo


aih = ⎨
⎩0 en caso contrario

11
Puede comprobarse que utilizando la fórmula de la nota 10 se obtiene, aproximadamente, el mismo valor para
el error de muestreo.

342 © Ediciones Pirámide


Muestreo en poblaciones finitas

Se trata de estimar la proporción poblacional:

L
P= ∑ Wh Ph
h =1

con Wh = Nh /N y Ph la proporción poblacional en el estrato h:

Nh
1
Ph =
Nh
∑ aih
i =1

Para ello, utilizaremos el estimador puntual del muestreo aleatorio estratificado:

L
P̂ST = pST = ∑ Wh ph
h =1

cuyo error de muestreo se estima por12:

L
Nh − nh ph qh
eP = zα / 2 Var [ pST ] = zα / 2 ∑ Wh2 ⋅
Nh − 1 nh
h =1

con ph las proporciones muestrales en los diferentes estratos:

800
p1 = = 0,7619
1.050
600
p2 = = 0,6667
900
1.300
p3 = = 0,7647
1.700

12
Algunos autores prefieren, como ya se comentó en la nota 8:

L
Nh − nh ph qh
eP = zα / 2 Vâr [ pST ] = zα / 2 ∑ Wh2 Nh

nh − 1
h =1

© Ediciones Pirámide 343


Ejercicios de inferencia estadística y muestreo

Como el tamaño muestral en cada urbanización es proporcional al número de apar-


tamentos de la misma, entonces:

N1 N n
n1 = ⋅ n ⇒ W1 = 1 = 1
N N n
N2 N n
n2 = ⋅ n ⇒ W2 = 2 = 2
N N n
N3 N n
n3 = ⋅ n ⇒ W3 = 3 = 3
N N n

donde:

n = n1 + n2 + n3 = 1.050 + 900 + 1.700 = 3.650


N = 10.000

Por tanto:

N1 n1 1.050 1.050
W1 = = = ⇒ N1 = ⋅ 10.000 = 2.877
N n 3.650 3.650
N2 n2 900 900
W2 = = = ⇒ N2 = ⋅ 10.000 = 2.466
N n 3.650 3.650
N3 n3 1.700 1.700
W3 = = = ⇒ N3 = ⋅ 10.000 = 4.658
N n 3.650 3.650

y así:

1.050 800 900 600 1.700 1.300


PˆST = pST = ⋅ + ⋅ + ⋅ = 0,7397
3.650 1.050 3.650 900 3.650 1.700

Por tanto, el 73,97 % de los apartamentos estarían disponibles para ser alquilados al
menos un mes al año, con un error de muestreo estimado en13:

13
Utilizando la fórmula de la nota anterior se obtiene aproximadamente el mismo resultado.

344 © Ediciones Pirámide


Muestreo en poblaciones finitas

eP = 1,645 冤冢 3.650冣
1.050 2 2.877 − 1.050 0,7619 ⋅ 0,2381

2.876

1.050
+

冢 3900
.650 冣
2.466 − 900 0,6667 ⋅ 0,3333
2
+ ⋅ ⋅ +
2.465 900

冢13..700 冣 4.658 − 1.700 0,7647 ⋅ 0,2353



2 1/ 2
+ ⋅ ⋅ = 0,00947
650 4.657 1.700

La Concejalía de Asuntos Sociales de un municipio pretende realizar un


Ejercicio 5.9
estudio sobre el consumo de drogas entre los jóvenes de Enseñanza Se-
cundaria Obligatoria (ESO). De los 15 centros de ESO con que cuenta el municipio, se de-
cidió seleccionar una muestra aleatoria simple de cinco, y en ellos se realizó una encuesta
anónima a todos los estudiantes. Algunos datos de la encuesta se presentan a continuación:

Centro Número Gasto semanal medio Número de alumnos que han probado drogas
de ESO de alumnos en tabaco (euros) alguna vez (excluidos tabaco y alcohol)

A 2.000 12,00 480


B 1.531 9,0 225
C 1.897 8,50 238
D 2.535 13,15 300
E 1.400 11,00 128

a) Obtenga, con una confianza del 90 %, una estimación para el gasto semanal
medio en tabaco entre los estudiantes de Enseñanza Secundaria Obligatoria del
municipio, mediante el correspondiente intervalo de confianza.
b) Estime, con la misma confianza anterior, el número total de alumnos de ESO
que han consumido drogas alguna vez (excluyendo tabaco y alcohol) indicando
el error de muestreo cometido.

a) Sea X la variable aleatoria que representa el gasto semanal en tabaco


Solución
de un alumno de ESO en este municipio. Para obtener información sobre
esta variable, se ha realizado un muestreo por conglomerados eligiendo, mediante mues-
treo aleatorio simple, cinco centros de ESO (m = 5) entre los 15 (M = 15) con que cuenta
el municipio, y en cada uno de ellos se ha encuestado a todos los alumnos. Denotaremos
por xij el valor de la variable referida al alumno j-ésimo del i-ésimo centro seleccionado,
con i = 1, ..., 5, j = 1, ..., Ni, siendo Ni el número total de alumnos en el centro de ESO i.

© Ediciones Pirámide 345


Ejercicios de inferencia estadística y muestreo

Para estimar el gasto medio semanal en tabaco, utilizaremos el intervalo de confianza:

I μ = [ X c − e μ ; X c + eμ ]


siendo Xc y e m el estimador puntual y el error de muestreo correspondiente al muestreo
por conglomerados:

1 m Ni 1 m 1 m
μˆ c = Xc = ∑ ∑
n i =1 j =1
xij = ∑ ti = ∑ Ni Xi
n i =1 n i =1
m
n= ∑ Ni
i =1

eμ = zα / 2 Vâr [ Xc ] = zα / 2
m
n2
冉 M−m 2
M
St冊
1 m 2
St2 = ∑ Ni ( Xi − Xc )2
m − 1 i =1

Por tanto:

n = 2.000 + 1.531 + 1.897 + 2.535 + 1.400 = 9.363


1
Xc = [2.000 ⋅ 12 + 1.531 ⋅ 9 + 1.897 ⋅ 8,50 + 2.535 ⋅ 13,50 + 1.400 ⋅ 11] = 11,06 euros
9.363

– – –
Ni Xi Xi – Xc

2.000 12,00 0,94


1.531 9,0 –2,06
1.897 8,50 –2,56
2.535 13,50 2,44
1.400 11,00 –0,06

9.363

1
St2 = [2.000 2 (0,94)2 + 1.5312 ( − 2,06)2 + 1.8972 ( − 2,56)2 + 2.5352 (2,44)2 +
5 −1
+ 1.400 2 ( − 0,06)2 ] = 18.832.826,5

346 © Ediciones Pirámide


Muestreo en poblaciones finitas

Con una confianza del 90 % (1 – a = 0,90), tendremos que:

za/2 = 1,645

y, por tanto:

5 15 − 5
eμ = 1,645 2
⋅ ⋅ 18.832.826,5 = 1,39 euros
9.363 15

y el intervalo de confianza pedido es:

Iμ = [11,06 − 1,39; 11,06 + 1,39] = [9,67; 12, 45]

b) Definimos Y como aquella variable que toma el valor 1 si un alumno de ESO


ha consumido drogas algunas vez (excluyendo tabaco y alcohol) y el valor 0 en caso
contrario.
Para estimar el total de alumnos que han consumido drogas alguna vez, mediante un
muestreo por conglomerados, utilizaremos como estimador:

M m
T̂c = Mt = ∑ ti
m i =1

siendo ti el total del conglomerado i, es decir:

Ni
ti = ∑ yij
j =1

y el error de muestreo cometido se estima como:

eT = zα / 2 Vâr (Tˆc ) = zα / 2 M 2
M

M − m St2

m

donde:

1 m
冤∑ ti2 − m 冢∑ ti 冣 冥
m m 2
1 1
St2 = ∑
m − 1 i =1
( ti − t ) 2 =
m −1 i =1 i =1

© Ediciones Pirámide 347


Ejercicios de inferencia estadística y muestreo

Por tanto, sustituyendo la información disponible en estas fórmulas y haciendo los


cálculos necesarios, se tiene:

ti ti2

480 230.400
225 50.625
238 56.644
300 90.000
128 16.384

1.371 444.053

15
Tˆc = ⋅ 1.371 = 4.113 alumnos
5

st2 =
1
5 −1 冤 1
444.053 − (1.371)2 = 17.031,2
5 冥
15 − 5 17.031,2
eT = 1,645 152 ⋅ ⋅ = 1.175,8425
15 5

En una ciudad se pretende realizar un estudio sobre el equipamiento


Ejercicio 5.10
informático de los institutos públicos. Para realizar este estudio, se se-
leccionan, mediante un muestreo aleatorio simple, cuatro de los 10 distritos urbanos, y en
cada uno de ellos se envían cuestionarios a todos los institutos. La información obtenida
es la siguiente:

Número de institutos
Número Número total
Distrito en los que los alumnos
de institutos de ordenadores
tienen acceso a Internet

III 15 666 12
III 10 525 6
III 13 585 9
IV 20 1.160 19

Con un nivel de confianza del 95 %, estime el número medio de ordenadores por


instituto y la proporción de institutos en los que los alumnos tienen acceso a Internet, e
indique sus correspondientes errores de muestreo.

348 © Ediciones Pirámide


Muestreo en poblaciones finitas

a) Llamamos X a la variable que representa el número de ordenadores


Solución
de un instituto, y xij es el valor de esta variable correspondiente al instituto
j del distrito i. Como se ha realizado un muestreo aleatorio por conglomerados, selec-
cionando m = 4 distritos entre los M = 10 de la ciudad, para estimar el número medio de
ordenadores por instituto utilizaremos el estimador:

1 m
μ̂c = Xc = ∑ ti
n i =1
m
n= ∑ Ni = 15 + 10 + 13 + 20 = 58
i =1

cuyo error de muestreo será:

m M−m 2
eμ = zα / 2 Vâr [ Xc ] = zα / 2 ⋅ ⋅ St
n2 M
1 m 2
St2 = ∑ Ni ( Xi − Xc )2
m − 1 i =1

Por tanto:
1
μˆ c = Xc = (666 + 525 + 585 + 1.160) = 50,62
58
– – –
Ni ti Xi = ti /Ni Xi – Xc

15 666 44,4 –6,22


10 525 52,5 1,88
13 585 45,0 –5,62
20 1.160 58,0 7,38

2.936

1
st2 = [152 ( − 6,22)2 + 10 2 (1,88)2 + 132 ( − 5,62)2 + 20 2 (7,38)2 ] = 12.060,6179
4 −1
Para una confianza del 95 %, tenemos que:

P( Z  zα / 2 ) = 1 − α / 2 = 0,025 ⇒ zα / 2 = 1,96

4 10 − 4
eμ = 1,96 ⋅ ⋅ 12.060,6179 = 5,7493
582 10

© Ediciones Pirámide 349


Ejercicios de inferencia estadística y muestreo

Así pues, la estimación del número medio de ordenadores por instituto es de 50,62
con un error de muestreo de ± 5,7493.
b) Sea ahora la variable aleatoria Y la que toma el valor 1 si en un instituto los
alumnos tienen acceso a Internet, y 0 en otro caso. Se trata de estimar la proporción
poblacional mediante la información proporcionada por una muestra obtenida mediante
un muestreo aleatorio por conglomerados. Entonces, el estimador puntual y el error de
muestreo cometido serán:

1 m
Pˆc = ∑ Ni Pi
n i =1

eP = zα / 2
m
n2
冉 M−m 2
M
S pˆ冊
siendo:
m
n= ∑ Ni
i =1

1 m 2
S p2ˆ = ∑
m − 1 i =1
Ni ( Pi − Pˆc )2

Por tanto:

Ni
Ni ∑ yij p̂i Pi – P̂c
j =1

15 12 0,80 0,01
10 6 0,60 – 0,19
13 9 0,69 – 0,10
20 19 0,95 0,16

n = 58

1
Pˆc = [15 ⋅ 0,8 + 10 ⋅ 0,6 + 13 ⋅ 0,69 + 20 ⋅ 0,95] = 0,79
58
1
s 2pˆ = [152 (0,01)2 + 10 2 ( − 0,19)2 + 132 ( − 0,1)2 + 20 2 (0,16)2 ] = 5,1875
4 −1
4 10 − 4
eP = 1,96 ⋅ ⋅ 5,1875 = 0,1192
582 10

350 © Ediciones Pirámide


Muestreo en poblaciones finitas

Es decir, aproximadamente en el 79 % de los institutos, los alumnos tienen acceso a


Internet con un error de muestreo estimado de ± 11,92 %.

En una urbanización, el administrador general dispone de un listado or-


Ejercicio 5.11
denado de las viviendas que consta de 15 bloques con 10 viviendas
cada uno. Además de la identificación de las viviendas, en el listado aparece su gasto
anual en agua caliente. Con el fin de estimar el gasto anual en agua caliente de la co-
munidad, se seleccionó una vivienda al azar en el primer bloque, resultando elegida la
segunda del listado. Una vez hecho esto, se decidió investigar, además de ésta, las vi-
viendas que ocupan los lugares 12, 22, etc. El gasto total de las 15 viviendas así elegidas
fue de 18.000 litros, y la suma de los cuadrados de estos gastos alcanzó los 263,12 (miles
de litros). Estime, indicando el error de muestreo cometido, el gasto total anual de agua
caliente de los vecinos de esta comunidad. Nivel de confianza: 95 %.

Representamos con X la variable aleatoria que recoge el gasto anual en


Solución
agua caliente de una vivienda. La urbanización consta de un total de
10 · 15 = 150 viviendas y la muestra extraída ha sido de 15 (una por bloque); éstas han
sido seleccionadas mediante un muestreo sistemático en el que el intervalo de muestreo
utilizado fue:
N 150
k= = = 10
n 15
Por tanto, el estimador del gasto total anual y el error de muestreo aproximado14
cometido serán:
15
Tˆ = k ∑ xi
i =1

N 2 (1 − f ) 2
eT = zα / 2 S
n
siendo:
1 n
冤∑ xi2 − n 冢∑ xi 冣 冥
n n 2
1 1
S2 = ∑
n − 1 i =1
( xi − x ) 2 =
n −1 i =1 i =1

P( Z  zα / 2 ) = 1 − α / 2

siendo Z una normal estándar.


14
En el muestreo sistemático no existe un estimador insesgado para Var [T̂].

© Ediciones Pirámide 351


Ejercicios de inferencia estadística y muestreo

Con un 95 % de confianza, se tiene:

0,05
P( Z  zα / 2 ) = 1 − = 0,975
2

y, por tanto, utilizando la tabla 7:

zα / 2 = 1,96

La información muestral de las 15 viviendas seleccionadas se puede resumir en:

15
∑ xi = 18 miles de litros
i =1

15
∑ xi2 = 263,1 (miles de litros)2
i =1

Así pues:

15
Tˆ = k ∑ xi = 10 ⋅ 18 = 180 miles de litros
i =1

s2 =
1
14 冤 1

263,1 − (18)2 = 17,25 (miles de litros)2
15

eT = 1,96 150 1 − 冉 冊
15 17,25
150 15
= 24, 42 miles de litros

Es decir, el gasto anual en agua caliente de la comunidad se estima en 180 miles de


litros con un error aproximado de ± 24,42 miles de litros (nivel de confianza: 95 %).

La publicación de las calificaciones de estadística ha sido realizada en


Ejercicio 5.12
10 páginas con 30 alumnos en cada una de ellas, estando éstos orde-
nados alfabéticamente. El representante de los alumnos desea conocer cuál ha sido la
nota media obtenida, pero no quiere copiar las calificaciones de los 300 alumnos. Por
ello, decidió seleccionar un alumno al azar entre los que figuraban en la primera hoja,

352 © Ediciones Pirámide


Muestreo en poblaciones finitas

y recoger su calificación y la de los alumnos que, en el resto de las hojas, ocupaban la


misma posición que éste. Si de las calificaciones recogidas se ha obtenido que:

10 10
∑ xi = 65 ; ∑ xi2 = 532,75
i =1 i =1

obtenga la calificación media de la asignatura y su error de muestreo aproximado. Nivel


de confianza: 95 %.

Sea X = «Calificación obtenida por un alumno». Para obtener información


Solución
sobre la calificación media de los 300 alumnos (media poblacional) el
representante estudiantil ha realizado un muestreo sistemático seleccionando 10 califica-
ciones con intervalo de muestreo:

N 300
k= = = 30
n 10

pues elige un alumno de cada hoja (n = 10). Para estimar la media poblacional utiliza-
remos la media muestral:

1 n
μ̂ = x = ∑ xi
n i =1

Para calcular el error aproximado15 de la estimación, utilizaremos la expresión:

S2
eμ = zα / 2 (1 − f )
n

siendo S2 la varianza muestral.


Por tanto, sustituyendo en estas fórmulas la información disponible, tenemos:

65
μˆ = = 6,5
10

15
Recordemos que en el muestreo sistemático no existe un estimador insesgado para Var [x–].

© Ediciones Pirámide 353


Ejercicios de inferencia estadística y muestreo

s2 =
1
10 − 1 冤
532,75 −
652
10 冥
= 12,25

eμ = 1,96 冉1−
300

10 12,25

10
= 2,13

donde za/2 = 1,96 ha sido obtenido a partir de la tabla 7, teniendo en cuenta que:

P( Z  zα / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975

Los alumnos matriculados en un centro de enseñanza son 1.200. Se ha


Ejercicio 5.13
realizado una encuesta a 10 de ellos seleccionándolos al azar mediante
muestreo aleatorio simple. En una de las preguntas de la encuesta se solicitaba infor-
mación sobre el gasto aproximado diario de estos alumnos (en euros). Las respuestas
fueron:

14 30 17 8 10 23 6 19 15 12

Con una confianza del 95 %:


a) ¿Entre qué valores se situaría el gasto medio de los alumnos de ese centro de
enseñanza?
b) ¿Qué porcentaje de alumnos gastan como mucho 15 euros diarios? ¿Cuál es el
error de muestreo cometido?
c) Si se considera la información anterior como el resultado de una muestra piloto y
se desea realizar un nuevo estudio más amplio para estimar el gasto medio ante-
rior con un error de muestreo de ± 2 euros, ¿cuántos alumnos seleccionaría usted
para la muestra?, ¿y cuántos seleccionaría si quiere estimar, con un error máximo
del 10 %, la proporción de los que van al cine más de una vez a la semana?

a) Puesto que se trata de un muestreo aleatorio simple con N = 1.200, n = 10


Solución
y se pretende estimar el gasto medio, utilizaremos el intervalo de confian-
za para la media poblacional:


Iμ = x − zα / 2
N−n S
N n
; x + zα / 2
N−n S
N n 冥
354 © Ediciones Pirámide
Muestreo en poblaciones finitas

siendo za/2 el cuantil 1 – a/2 en una distribución normal estándar:

P( Z  zα / 2 ) = 1 − α / 2

Para una confianza del 95 %, se tiene 1 – a = 0,95, y así:

P( Z  zα / 2 ) = 0,975 ⇒ zα / 2 = 1,96

Con la información muestral calculamos la media y la varianza muestrales:

1 n 154
X = ∑
n i =1
xi =
10
= 15, 4 euros

冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤2.844 − 冥
n n
1 1 2 1 154 2
S2 = = 52, 49 (euros)2
n −1 i =1 i =1 10

S = + 52, 49 = 7,24 euros

Sustituyendo en el intervalo anterior para evaluar el gasto medio diario de los alum-
nos de este centro, tenemos:


Iμ = 15, 4 − 1,96
1.200 − 10 7,24
1.200 10
; 15, 4 + 1,96
1.200 − 10 7,24
1.200 10
= 冥
= [15, 4 − 4, 47; 15, 4 + 4, 47] = [10,93; 19,87]

Definimos:

⎧1 si el alumno i -ésimo gasta como mucho 15 euros diarios


ai = ⎨
⎩0 en caso contrario

Para estimar una proporción poblacional utilizamos el estimador proporción muestral:

1 n
P̂ = p = ∑ ai
n i =1

© Ediciones Pirámide 355


Ejercicios de inferencia estadística y muestreo

b) Puesto que de los 10 encuestados hay seis que gastan una cantidad inferior o
igual a 15 euros, entonces S ai = 6 y:

6
p= = 0,6 ⇒ 60 %
10

Para evaluar el error de muestreo cometido:

N−n pq 1.200 − 10 0,6 ⋅ 0, 4


e p = zα / 2 = 1,96 =
N −1 n 1.199 10
= 0,3025 ⇒ 30,25 %

c) El tamaño muestral necesario para estimar el gasto medio con un error de mues-
treo de ± 2 euros se obtiene mediante la expresión:

zα2 / 2 ⋅ N ⋅ S 2
n=
eμ2 N + zα2 / 2 S 2

Con la información de la muestra piloto anterior, S2 = 52,49, y el valor del error de


muestreo e m = 2 euros, tenemos:

1,96 2 ⋅ 1.200 ⋅ 52, 49


n= = 48,37 ≈ 49 alumnos
2 2 ⋅ 1.200 + 1,96 2 ⋅ 52, 49

Respecto a la segunda cuestión planteada, para estimar una proporción poblacional


teniendo un error de muestreo fijado previamente, tendremos que utilizar la expresión:

zα2 / 2 Npq
n=
e 2p ( N − 1) + zα2 / 2 pq

y si, como es el caso, no se dispone de ninguna información sobre la proporción, p, de


los que van al cine más de una vez a la semana, se utilizará aquel valor de p que pro-
porciona la máxima variabilidad: p = 0,5 = q. Por tanto16:
16
Alternativamente, según se indica en el ejercicio 5.3, se podría utilizar la expresión:

N (eP2 + zα2 / 2 pq ) 1.200(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5


n= = = 89,84 ≈ 90
NeP2 + zα2 / 2 pq 1.200 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

presentándose un desfase de una unidad muestral.

356 © Ediciones Pirámide


Muestreo en poblaciones finitas

1,96 2 ⋅ 1.200 ⋅ 0,5 ⋅ 0,5


n= = 88,99 ≈ 89 alumnos
0,10 2 (1.199) + 1,96 2 ⋅ 0,5 ⋅ 0,5

Para que el error en la estimación sea como máximo del 10 % habría que entrevistar
al menos a 89 alumnos de este centro.

Una compañía de seguros ha analizado aleatoriamente 200 de sus 10.000


Ejercicio 5.14
expedientes para estudiar las cuantías y características de las indemni-
zaciones que paga por los accidentes de tráfico cubiertos por sus pólizas. De la informa-
ción obtenida se deduce que:

200 200
∑ xi = 30,25 miles de euros ; ∑ xi2 = 112,3 (miles de euros)2
i =1 i =1

donde la variable representa las indemnizaciones anuales pagadas en el expediente co-


rrespondiente.
Con una confianza del 95 %:
a) Estime la cuantía total anual pagada por la compañía mediante el correspondien-
te intervalo de confianza.
b) Si se hubiera deseado estimar la proporción de expedientes que han dado menos
de dos partes de siniestro en el año, ¿qué tamaño muestral tendría que utilizarse
para conseguir la estimación con un error de muestreo inferior al 12 %?

Llamamos X a la variable aleatoria que representa la cantidad pagada por


Solución
la aseguradora anualmente y que consta en el expediente del asegurado (la
variable viene expresada en miles de euros).
a) La cantidad total pagada por la compañía será:

10.000
T= ∑ Xi
i =1

que se estimará mediante el intervalo de confianza:

IT = [Tˆ − eT ; Tˆ + eT ]

© Ediciones Pirámide 357


Ejercicios de inferencia estadística y muestreo

siendo:

N n
Tˆ = N x = ∑ xi
n i =1

S
eT = zα / 2 N ( N − n)
n

y za/2 es el percentil 1 – a/2 de una N(0, 1). Para un nivel de confianza 1 – a = 0,95:

P( Z  zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96

Particularizando con los datos del enunciado:

200
10.000
∑ xi = 30,25 ⇒ Tˆ =
200
⋅ 30,25 = 1.512,5
i =1

calculamos la varianza muestral:

( ∑ xi ) 2
冤∑ xi2 − 冥 冤 冥
n
1 1 30,252
s2 = = 112,3 − = 0,5413
n −1 i =1 n 199 200

Entonces:

0,5413
eT = 1,96 10.000(10.000 − 200) = 1.009, 42
200

Así, el intervalo de confianza quedará como:

IT = [Tˆ − eT ; Tˆ + eT ] = [1.512,5 − 1.009, 42; 1.512,5 + 1.009, 42] =


= [503,08; 2.521,92]

expresado en miles de euros.

358 © Ediciones Pirámide


Muestreo en poblaciones finitas

b) Para obtener el tamaño muestral necesario para estimar una proporción con un
error de muestreo fijado (ep = 0,12) podemos utilizar la expresión:

zα2 / 2 Npq
np =
e 2p ( N − 1) + zα2 / 2 pq

Puesto que no se indica ninguna información previa sobre la verdadera proporción


de expedientes que han tenido menos de dos partes de siniestro en el año, debemos to-
mar la situación de mayor variabilidad (p = q = 0,5). Así, obtendremos:

1,96 2 ⋅ 10.000 ⋅ 0,5 ⋅ 0,5


np = = 66,26 ≈ 67 expedientes
0,12 2 ⋅ 9.999 + 1,96 2 ⋅ 0,5 ⋅ 0,5

La Asociación de Defensa del Ciudadano pretende elaborar un informe


Ejercicio 5.15
de evaluación de las características de las multas de tráfico impuestas
en una determinada región. Ante la imposibilidad de revisar todos los expedientes, se
decidió dividir la región en tres zonas y seleccionar una muestra aleatoria simple de
expedientes sancionadores en cada una de ellas. Algunos de los resultados recogidos se
resumen en la siguiente tabla:

Número Importe de la sanción Número


Número total
de expedientes de expedientes
Zona de expedientes Media Desviación típica
sancionadores con defecto
sancionadores muestral muestral
seleccionados de forma*

A 5.200 520 75 10 130


B 1.800 180 150 25 20
C 3.000 300 90 15 50

* Entre los investigados.

Con una confianza del 95 %:


a) ¿Cuántas multas habría que haber seleccionado en la zona A si se quisiera es-
timar el porcentaje de ellas que han sido recurridas por los sancionados admi-
tiendo un error de muestreo del 2 %?, ¿y si se tuvieran motivos para pensar que
este porcentaje oscila entre el 55 % y el 65 %?
b) Estime la proporción de multas que presentan defecto de forma en la zona C
indicando el error de muestreo cometido.
c) Estime, mediante el correspondiente intervalo de confianza, el importe medio de
las sanciones en esta región.

© Ediciones Pirámide 359


Ejercicios de inferencia estadística y muestreo

d) ¿Cuál hubiera sido el reparto muestral más eficiente entre las distintas zonas
para evaluar el importe medio de las sanciones?

Los expedientes sancionadores de esta región pueden considerarse divididos


Solución
en tres zonas o estratos (A, B y C). En cada una de ellas, los expedientes
han sido seleccionados mediante un muestreo aleatorio simple de forma independiente
en cada zona. Por tanto, los estimadores dentro de cada zona podrán obtenerse a través
de las fórmulas del muestreo aleatorio simple y los globales a partir de las del muestreo
estratificado.
a) Para determinar cuántas multas se tendrían que haber seleccionado en la zona A
para estimar el porcentaje de las recurridas, admitiendo un error de muestreo del 2 %,
utilizaremos la expresión:

zα2 / 2 N A pA q A
nA =
e 2pA ( N A − 1) + zα2 / 2 pA q A

Puesto que el nivel del confianza es del 95 %, el valor za/2, tal que:

0,05
P( Z  zα / 2 ) = 1 − α / 2 = 1 − = 0,975
2

es za/2 = 1,96. Al no disponerse de ninguna información sobre la proporción de multas


recurridas en la zona A, tomaremos los valores pA = 0,5 = qA. Por tanto:

1,96 2 ⋅ 5.200 ⋅ 0,5 ⋅ 0,5


nA = = 1.642,79 ≈ 1.643 multas
(0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,5 ⋅ 0,5

Si puede suponerse que el porcentaje anterior oscila entre el 55 % y el 65 %, entonces


el valor de pA que maximiza pAqA es:

pA = 0,55

y, por tanto:

qA = 0,45

360 © Ediciones Pirámide


Muestreo en poblaciones finitas

Con esta información, el tamaño muestral quedaría algo más reducido:

1,96 2 ⋅ 5.200 ⋅ 0,55 ⋅ 0, 45


nA = = 1.631,52 ≈ 1.632 multas
(0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,55 ⋅ 0, 45

b) El estimador para la proporción de multas con defecto de forma en la zona C es


la proporción muestral:

50
PˆC = = 0,17
300

Su error de muestreo se estima con:

NC − nC pC qC 3.000 − 300 0,17 ⋅ 0,83


e pC = zα / 2 = 1,96 =
NC − 1 nC 2.999 300

= 0,0403

Luego el error de muestreo para estimar la proporción de multas con defecto de


forma en la zona C será del 4,03 %.
c) Sea X la variable que representa el importe de una sanción. El intervalo de con-
fianza para la media poblacional, m, de esta variable es:

Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ]

siendo:

L L
Nh 5.200 1.800 3.000
μˆ ST = ∑ Wh xh = ∑ xh = ⋅ 75 + ⋅ 150 + ⋅ 90 =
h =1 h =1 N 10.000 10.000 10.000

= 0,52 ⋅ 75 + 0,18 ⋅ 150 + 0,30 ⋅ 90 = 93 euros

eμ ST = zα / 2 Vâr [ μˆ ST ]
L
S2
Vâr [ μˆ ST ] = ∑ Wh2 (1 − fh ) nh
h =1 h

© Ediciones Pirámide 361


Ejercicios de inferencia estadística y muestreo

Las ponderaciones de los respectivos estratos son:

5.200 1.800 3.000


W1 = = 0,52 ; W2 = = 0,18 ; W3 = = 0,3
10.000 10.000 10.000

Las fracciones de muestreo correspondientes son:

nh
fh =
Nh

520 180 300


f1 = = 0,1 ; f2 = = 0,1 ; f3 = = 0,1
5.200 1.800 3.000

Así:

10 2 252 152
Vâr [ μˆ ST ] = 0,52 2 (1 − 0,1) ⋅ + 0,182 (1 − 0,1) ⋅ + 0,32 (1 − 0,1) ⋅ =
520 180 300
= 0,2088

y el error de muestreo será:

eμ ST = 1,96 0,2088 = 0,8956 euros

Por tanto, el intervalo de confianza para el importe medio de las sanciones será:

Iμ ST = [93 − 0,8956; 93 + 0,8956] = [92,1044; 93,8956]

d) El reparto muestral más eficiente es el que se consigue mediante el criterio de


afijación óptima de mínima varianza:

nh = wh n; h = 1,..., L = 3

donde

n = n1 + n2 + n3 = 1.000
Nh Sh
wh = L
∑ Ni Si
i =1

362 © Ediciones Pirámide


Muestreo en poblaciones finitas

Puesto que:

Nh Sh Nh S h wh

5.200 10 52.000 0,366


1.800 25 45.000 0,317
3.000 15 45.000 0,317

142.000

entonces tendremos:

nh = wh n = wh ⋅ 1.000
n1 = 0,366 ⋅ 1.000 = 366 expedientes sancionadores
n2 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores
n3 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores

© Ediciones Pirámide 363


6
Teoría de la decisión

Teoría de la decisión

La afluencia de turistas a un país durante el verano depende del clima


Ejercicio 6.1
de estabilidad social y política de los meses precedentes a esta estación.
Una empresa ubicada en el país debe decidir el volumen de producción de un determi-
nado producto típico con caducidad anual, para poder ir planificando su actividad.
En tres escenarios sociopolíticos distintos, se estiman los beneficios medios que ten-
dría la empresa si produjeran 10.000, 20.000 o 30.000 unidades, que son las opciones
que se plantea el departamento de producción.

Producción Escenarios sociopolíticos


(número Conflictividad Conflictividad
de unidades) Estabilidad
baja alta

10.000 10 10 2
20.000 25 5 – 10
30.000 40 –5 – 20

Nota: Los beneficios/pérdidas se expresan en millones de euros.

Según las opiniones de un grupo de expertos, se estiman las probabilidades de que se


presenten cada uno de los escenarios mencionados, obteniéndose los siguientes resultados:
— Probabilidad de que se presente «Estabilidad»: 0,6.
— Probabilidad de que se presente «Baja conflictividad»: 0,3.
— Probabilidad de que se presente «Alta conflictividad»: 0,1.
a) ¿Qué decisión debe adoptar la empresa?
b) ¿Cuánto estaría dispuesta a pagar la empresa por la elaboración de un informe
especializado sobre la futura situación sociopolítica del país?

© Ediciones Pirámide 365


Ejercicios de inferencia estadística y muestreo

a) En situaciones de decisiones bajo riesgo, como en este caso, donde se


Solución
conocen o pueden estimarse las probabilidades asociadas a cada uno de
los diferentes estados de la naturaleza, se determina el Valor Monetario Esperado (VME)
para cada alternativa y se elige aquella que haga máximo este valor. Por tanto, a partir
de la definición de VME:

m
VME( ai ) = ∑ rij ⋅ P(θ j )
j =1

y llamando:
a1: «Producir 10.000 unidades».
a2: «Producir 20.000 unidades».
a3: «Producir 30.000 unidades».
q1: «Estabilidad».
q2: «Baja conflictividad».
q3: «Alta conflictividad».
tenemos:

P(θ1 ) = 0,6
P(θ 2 ) = 0,3
P(θ 3 ) = 0,1

y así:

3
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2 millones de euros
j =1

3
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5 millones de euros
j =1

3
VME( a3 ) = ∑ r3 j ⋅ P(θ j ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5 millones de euros
j =1

Como:

VME( a*) = máx VME( ai ) = 20,5 = VME( a3 )


i

366 © Ediciones Pirámide


Teoría de la decisión

entonces:

a* = a3

y la empresa debería producir 30.000 unidades del producto.


b) Como máximo, la empresa estaría dispuesta a pagar por el informe el valor de
la información que le permitiría estar segura de elegir la alternativa correcta, es decir,
el Valor Esperado de la Información Perfecta (VEIP), que se obtiene de la siguiente
forma:

VEIP = ( Valor monetario esperado con información perfecta) −


− ( Máximo valor monetario esperado)

El valor monetario esperado con información perfecta (VMEIP) será:

3
VMEIP = ∑ V *(θ j ) ⋅ P(θ j )
j =1

donde V*(qj) = máx rij = Resultado óptimo bajo el estado qj. En este caso:
i

V *(θ1 ) = máx ri1 = máx{10, 25, 40} = 40


i

V *(θ 2 ) = 10
V *(θ 3 ) = 2

con lo cual:

VMEIP = 40 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 27,2 millones de euros

Como el valor monetario esperado máximo era el de a3, 20,5 millones de euros, se
tiene que:

VEIP = VMEIP − VME( a*) = 27,2 − 20,5 = 6,7 millones de euros

siendo ésta la cantidad que estaría dispuesta a pagar, como máximo, la empresa por el
informe sobre la futura situación del país.

© Ediciones Pirámide 367


Ejercicios de inferencia estadística y muestreo

A las mismas conclusiones sobre los apartados a) y b) se podría haber llegado uti-
lizando el criterio de la Pérdida de Oportunidad Esperada (POE), que también se aplica
en situaciones bajo riesgo. Para aplicar este criterio, calculamos las pérdidas relativas
asociadas a cada alternativa y estado de la naturaleza:

R( ai , θ j ) = Rij = V *(θ j ) − rij

Con estos valores obtenemos la matriz de pérdidas de oportunidad o matriz Regret:

R(ai, qj) q1 q2 q3

a1 30 0 0
a2 15 5 12
a3 0 15 22

P(qj) 0,6 0,3 0,1

donde:

R( a1 , θ1 ) = V *(θ1 ) − r11 = 40 − 10 = 30
R( a2 , θ1 ) = V *(θ1 ) − r21 = 40 − 25 = 15
R( a3 , θ1 ) = V *(θ1 ) − r31 = 40 − 40 = 0

y así sucesivamente.
A partir de esta tabla calculamos las pérdidas de oportunidad esperadas asociadas
a cada alternativa:

m
POE( ai ) = ∑ R(ai , θ j ) ⋅ P(θ j )
j =1

3
POE( a1 ) = ∑ R(a1, θ j ) ⋅ P(θ j ) = 30 ⋅ 0,6 + 0 ⋅ 0,3 + 0 ⋅ 0,1 = 18 millones de euros
j =1

POE( a2 ) = 15 ⋅ 0,6 + 5 ⋅ 0,3 + 12 ⋅ 0,1 = 11,7 millones de euros


POE( a3 ) = 0 ⋅ 0,6 + 15 ⋅ 0,3 + 22 ⋅ 0,1 = 6,7 millones de euros

368 © Ediciones Pirámide


Teoría de la decisión

y se elige como alternativa óptima, a*, aquella, tal que:

POE( a*) = mín POE( ai ) = 6,7 = POE( a3 )


i

es decir:

a* = a3 = «Producir 30.000 unidades»

La cantidad máxima que la empresa estaría dispuesta a pagar por el informe será de
nuevo el valor esperado de la información perfecta, que ahora se puede obtener como:

VEIP = POE( a*) = 6,7 millones de euros

Resuelva el apartado a) del problema anterior mediante un árbol de


Ejercicio 6.2
decisión.

Trasladamos la información del problema al siguiente árbol de decisión:


Solución

,6) R1 = 10
idad (0
Estabil
Conflictividad baja (0,3)
A R2 = 10
des Confli
nida ctivida
d alta (
0u 0,1) R3 = 2
.00
10
u cir
od ,6) R4 = 25
Pr idad (0
Estabil
Producir 20.000 unidades Conflictividad baja (0,3)
I B R5 = 5
Pr
od Confli
uc ctivida
ir 3 d alta (
0.0 0,1) R6 = –10
00
un
ida
de ,6) R7 = 40
s idad (0
Estabil
Conflictividad baja (0,3)
C R8 = –5
Confli
ctivida
d alta (
0,1) R9 = –20

© Ediciones Pirámide 369


Ejercicios de inferencia estadística y muestreo

En el único punto de decisión (I) del árbol, debemos elegir la alternativa que dé
lugar al beneficio esperado máximo; por esta razón habrá que calcular el valor esperado
de los nodos de acontecimientos A, B y C:

E[ A] = VME( A) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2


E[ B] = VME( B) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5
E[C ] = VME(C ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5

El valor monetario asociado al punto de decisión I es el máximo de los valores mo-


netarios esperados en las tres ramas o alternativas:

VME( I ) = máx{9,2; 15,5; 20,5} = 20,5 millones de euros

que corresponde a la alternativa a3, «producir 30.000 unidades».


Esta alternativa coincide con la del problema anterior que se había obtenido por el
criterio del máximo valor monetario esperado.

La compañía petrolífera BRD se está planteando la elección del tipo de


Ejercicio 6.3
plataforma que va a instalar en una zona costera. Por los primeros son-
deos realizados, se conoce la existencia de crudo en el área seleccionada, pero se ignora
la cantidad del mismo. Los expertos del servicio de prospecciones estiman unas proba-
bilidades a priori sobre la dimensión de la bolsa de petróleo y, junto con el servicio de
proyectos y planificación, elabora la siguiente tabla, en la que se incluyen los beneficios
que se obtendrían con cada tipo de plataforma, bajo los posibles estados de la naturaleza.

Dimensión del yacimiento


Tipo de plataforma
Reducido Medio Grande

Plataforma tipo A 1.200 millones de $ 1.700 millones de $ 3.900 millones de $


Plataforma tipo B – 100 millones de $ 1.000 millones de $ 5.000 millones de $

Probabilidades a priori 0,4 0,2 0,4

La compañía puede pedir un informe a ALPROSP, una de las mejores empresas de


prospecciones de Estados Unidos, cuyo coste es de 200 millones de dólares. Con el fin
de comprobar el grado de fiabilidad de esta empresa, BRD analiza una muestra de 100
informes de predicción realizados por ALPROSP, de la que se extraen los siguientes
datos:

370 © Ediciones Pirámide


Teoría de la decisión

Resultado final
Predicción
Reducido Medio Grande

Reducido 15 10 1
Medio 2 25 9
Grande 0 10 28

Se pide que:
a) Analice si BRD debe pedir el informe e indique, en cualquier caso, la secuencia
de decisiones que debe seguir.
b) Determine la cantidad máxima que BRD estaría dispuesta a pagar por el informe.

a) Se trata de un problema de decisión bajo riesgo con decisiones secuen-


Solución
ciales, por tanto, construiremos un árbol de decisión. En primer lugar, la
compañía BRD deberá elegir entre las siguientes alternativas:
— Solicitar el informe a ALPROSP.
— No solicitar el informe a ALPROSP.
Es decir:

rme
ar info
So licit

I
No
soli
cita
r inf
orm
e

Posteriormente, según la información que suministre el informe, en caso de que


fuera solicitado, habrá que decidir el tipo de plataforma a instalar: A o B.
Definimos los siguientes sucesos, que representan los estados de la naturaleza:
R = «El yacimiento es de dimensiones reducidas».
M = «El yacimiento es de dimensiones medias».
G = «El yacimiento es de gran dimensión».
PR = «El informe predice yacimiento reducido».
PM = «El informe predice yacimiento medio».
PG = «El informe predice yacimiento grande».

© Ediciones Pirámide 371


Ejercicios de inferencia estadística y muestreo

Conocemos las siguientes probabilidades a priori:

P( R) = 0, 4
P( M ) = 0,2
P(G) = 0, 4

Nos serán útiles las probabilidades de aciertos y fallos de ALPROSP al emitir este
tipo de informes. Éstas son las siguientes:

15 2 0
P( PR / R) = ; P( PM/ R) = ; P( PG / R) = =0
17 17 17

10 25 10
P( PR / M ) = ; P( PM/ M ) = ; P( PG / M ) =
45 45 45

1 9 28
P( PR / G) = ; P( PM/ G) = ; P( PG / G) =
38 38 38

Además, por medio del teorema de la probabilidad total y del teorema de Bayes,
podemos obtener las probabilidades a posteriori, que servirán para calcular los valores
esperados de cada nodo de decisión del árbol que se construirá. Así, obtenemos las si-
guientes probabilidades a partir del teorema de la probabilidad total:

P( PR) = P( PR / R) ⋅ P( R) + P( PR / M ) ⋅ P( M ) + P( PR / G) ⋅ P(G) =

15 10 1
= ⋅ 0, 4 + ⋅ 0,2 + ⋅ 0, 4 = 0, 408
17 45 38

P( PM ) = P( PM/ R) ⋅ P( R) + P( PM/ M ) ⋅ P( M ) + P( PM/ G) ⋅ P(G) =

2 25 9
= ⋅ 0, 4 + ⋅ 0,2 + ⋅ 0, 4 = 0,253
17 45 38

P( PG) = P( PG / R) ⋅ P( R) + P( PG / M ) ⋅ P( M ) + P( PG / G) ⋅ P(G) =

10 28
= 0 ⋅ 0, 4 + ⋅ 0,2 + ⋅ 0, 4 = 0,339
45 38

372 © Ediciones Pirámide


Teoría de la decisión

o bien:

P( PG) = 1 − P( PR) − P( PM ) = 0,339

y, mediante el teorema de Bayes, calculamos las probabilidades a posteriori:

15
⋅ 0, 4
P( PR / R) ⋅ P( R) 17
P( R / PR) = = = 0,865
P( PR) 0, 408

10
⋅ 0,2
P( PR / M ) ⋅ P( M ) 45
P( M/ PR) = = = 0,109
P( PR) 0, 408

P(G/ PR) = 1 − 0,865 − 0,109 = 0,026

2
⋅ 0, 4
P( PM/ R) ⋅ P( R) 17
P( R / PM ) = = = 0,186
P( PM ) 0,253

25
⋅ 0,2
P( PM/ M ) ⋅ P( M ) 45
P( M/ PM ) = = = 0, 439
P( PM ) 0,253

P(G/ PM ) = 1 − 0,186 − 0, 439 = 0,375

P( PG / R) ⋅ P( R) 0 ⋅ 0, 4
P( R / PG ) = = =0
P( PG ) 0,339

10
⋅ 0,2
P( PG / M ) ⋅ P( M ) 45
P( M / PG ) = = = 0,131
P( PG) 0,339

P(G/ PG) = 1 − 0 − 0,131 = 0,869

La representación gráfica del árbol de decisión, incluyendo las probabilidades calcu-


ladas, queda como sigue:

© Ediciones Pirámide 373


374

Ejercicios de inferencia estadística y muestreo


865
P(R/PR) = 0, R1 = 1.200
P(M/PR) = 0,109
aA A R2 = 1.700
form
Plata 1.324,7 P(G/PR) = 0,
026 R3 = 3.900
II
865
o Plata P(R/PR) = 0, R4 = –100
u cid 1.324,7 form
aB P(M/PR) = 0,109
red B R5 = 1.000
to
m ien 8 152,5 P(G/PR) = 0,
R6 = 5.000
c i 40 026
n ya = 0, 186
i ó R ) P(R/PR) = 0, R7 = 1.200
icc P(P
Pred C
P(M/PR) = 0,439
aA R8 = 1.700
form
Plata 2.432 P(G/PR) = 0,
Predicción yacimiento medio 375 R9 = 3.900
A′ III
P(PM) = 0,253 186
Plata P(R/PR) = 0, R10 = –100
2.673,1376 Pre 2.432 form P(M/PR) = 0,439
aB
e

dic D
m

ció R11 = 1.000


or

n
nf

P( yaci 2.295,4 P(G/PR) = 0,


ri

PG m 375 R12 = 5.000


ita

) = ient
lic

0,3 o gr P(R/PR) = 0 R13 = 1.200


So

39 an P(M/PR) = 0,131
de E
aA R14 = 1.700
form
Plata 3.611,8 P(G/PR) = 0,
869 R15 = 3.900
I IV
Plata P(R/PR) = 0 R16 = –100
4.476
No

form P(M/PR) = 0,131


aB F R17 = 1.000
so
lic

4.476 P(G/PR) = 0,
ita

869 R18 = 5.000


ri
nf

P(R) = 0,4 R19 = 1.200


or
m

P(M) = 0,2
e

aA G R20 = 1.700
Plataform P(G) = 0,4
2.380 R21 = 3.900
© Ediciones Pirámide

V
P(R) = 0,4 R22 = –100
2.380 Plataform P(M) = 0,2
aB H R23 = 1.000
2.160 P(G) = 0,4
R24 = 5.000
Teoría de la decisión

Con las probabilidades calculadas obtenemos los valores monetarios esperados en


cada uno de los nodos, cantidades que también se incorporan al árbol de decisión:

VME( A) = 1.200 ⋅ 0,865 + 1.700 ⋅ 0,109 + 3.900 ⋅ 0,026 = 1.324,7


VME( B) = − 100 ⋅ 0,865 + 1.000 ⋅ 0,109 + 5.000 ⋅ 0,026 = 152,5
VME(C ) = 1.200 ⋅ 0,186 + 1.700 ⋅ 0, 439 + 3.900 ⋅ 0,375 = 2.432
VME( D) = − 100 ⋅ 0,186 + 1.000 ⋅ 0,, 439 + 5.000 ⋅ 0,375 = 2.295, 4
VME( E ) = 1.200 ⋅ 0 + 1.700 ⋅ 0,131 + 3.900 ⋅ 0,869 = 3.611,8
VME( F ) = − 100 ⋅ 0 + 1.000 ⋅ 0,131 + 5.000 ⋅ 0,869 = 4.476
VME(G) = 1.200 ⋅ 0, 4 + 1.700 ⋅ 0,2 + 3.900 ⋅ 0, 4 = 2.380
VME( H ) = − 100 ⋅ 0, 4 + 1.000 ⋅ 0,2 + 5.000 ⋅ 0, 4 = 2.160

A continuación, resolvemos en cada punto de decisión, comenzando por los más


alejados en el tiempo:

VME( II ) = máx{VME( A), VME( B)} = 1.324,7


VME( III ) = máx{VME(C ), VME( D)} = 2.432
VME( IV ) = máx{VME ( E ), VME ( F )} = 4.476
VME (V ) = máx{VME (G ), VME ( H )} = 2.380

Antes de poder tomar la decisión en I, necesitamos obtener:

VME( A′ ) = 1.324,7 ⋅ 0, 408 + 2.432 ⋅ 0,253 + 4.476 ⋅ 0,339 = 2.673,1376

Si a este valor le restamos el coste del informe, tendremos que:

VME( A′ ) − Coste informe = 2.673,1376 − 200 = 2.473,1376

que es una cantidad superior al VME(V):

VME( A′ ) − Coste informe = 2.473,1376 > 2.380 = VME(V )

© Ediciones Pirámide 375


Ejercicios de inferencia estadística y muestreo

Por tanto, la secuencia de decisiones que se debe seguir será:


1. Encargar el informe a ALPROSP.
2. Si el informe predice «yacimiento de dimensiones reducidas», se debería optar
por el tipo de plataforma A, pues:

VME(II) = 1.324,7 = VME(A)

Si el informe predice «yacimiento de dimensión media», de nuevo se debería


optar por la plataforma A.
Si el informe predice «yacimiento de dimensión grande», se debe elegir el
tipo de plataforma B.
b) La cantidad máxima que la compañía BRD estaría dispuesta a pagar por el
informe será el valor esperado de la información muestral:

VEIM = ( Valor esperado de la decisión óptima con información muestral,


sin tener en cuenta el coste de la información muestral) −
− ( Valor esperado de la decisión óptima sin información muestral) =
= 2.673,1376 − 2.380 = 293,1376 millones de dólares

Una empresa puede adquirir materias primas necesarias para su proceso


Ejercicio 6.4
de producción en cantidad suficiente para un mes o dos meses de acti-
vidad.
Según la evolución del mercado internacional de esta materia prima, en el próximo
mes, su precio puede aumentar en un 10 % con probabilidad 0,4, o puede disminuir en
un 10 % con probabilidad 0,6. Las materias primas necesarias para un mes tienen actual-
mente un coste de 356 miles de euros.
La empresa puede consultar con un equipo de predicción de una universidad, que
facilita información sobre la evolución del mercado, con acierto en el 90 % de los casos.
Este equipo cobra cada consulta a un precio que negocia con el cliente.
a) ¿En qué caso será conveniente solicitar el informe?
b) ¿Qué decisiones debe tomar la empresa en cuanto a la solicitud o no del informe
y a la adquisición de materias primas a corto plazo?

Para analizar la conveniencia de solicitar el informe, debemos obtener el


Solución
valor monetario esperado, que en este caso será un coste, de esta alterna-
tiva frente a la contraria y, a continuación, comparar los costes esperados. Para sistema-
tizar el proceso construimos un árbol de decisión secuencial, en el que tendremos como
primeras alternativas:

376 © Ediciones Pirámide


Teoría de la decisión

ar
sult
Con

No
con
sult
ar

En caso de que se decidiera no consultar al equipo de predicción, la empresa se


plantearía si adquirir las materias primas para un mes o para dos. Si el equipo de pre-
dicción es consultado, la empresa volvería a plantearse la misma cuestión, pero teniendo
en cuenta los resultados del informe en este equipo, que pueden predecir una subida del
precio de las materias primas o una bajada. La secuencia de decisiones queda reflejada
en el gráfico siguiente:

El precio sube
un 10% R1 = 747,6
7
) = 0,85
Comprar para P(S/PS
un mes A P(B/P
S) = 0,1
43
737,4184 R2 = 676,4
El precio baja
II Com un 10%
Predice subida prar
de precios 712 para
dos meses
,42 R3 = 712
) =0
PS
P(
D El precio sube
Predice bajada un 10% R4 = 747,6
694,2014 de precios ) = 0,0
69
ar

P( Comprar para P(S/PB


ult

PB B
)= un mes P(B/P
ns

B) = 0
0,5 ,931
Co

8 681,3128 R5 = 676,4
El precio baja
III Com un 10%
prar
681,3128 para
dos meses
I R6 = 712

694,2014

R7 = 747,6
No

be un 10 %
El precio su P(S) = 0,4
co

Comprar para
C
ns

un mes
ult

El precio ba P(B) = 0,6


704,88 ja un 10 %
ar

R8 = 676,4
IV Com
prar
704,88 para
dos meses
R9 = 712

© Ediciones Pirámide 377


Ejercicios de inferencia estadística y muestreo

Si se decide comprar para un mes y el precio sube un 10 %, el coste total, al final


del segundo mes, habrá sido de:

356 + 356 · 1,10 = 747,6 miles de euros

Por el contrario, si el precio bajara, este coste sería de:

356 + 356 · 0,90 = 676,4 miles de euros

En el caso en que se decidiera comprar para los dos meses, el coste sería:

356 · 2 = 712 miles de euros

Por la evolución del mercado internacional de esta materia prima, se sabe que, en
el próximo mes:

P( S ) = 0, 4
P( B) = 0,6

donde S y B son los sucesos o estados de la naturaleza que corresponden, respectivamen-


te, a la subida o bajada del precio de la materia prima un 10 %.
Como el equipo al que se quiere consultar acierta en el 90 % de los casos, definiendo
los sucesos:
PS: El equipo predice subida de precios.
PB = PS: El equipo predice bajada de precios.

se tendrá que:

P( PS /S ) = 0,90 ⇒ P( PB / S ) = 0,10
P( PB / B) = 0,90 ⇒ P( PS / B) = 0,10

A partir de los datos anteriores, y utilizando el teorema de la probabilidad total,


obtenemos las probabilidades correspondientes a cada una de las predicciones:

P( PS ) = P( PS /S ) ⋅ P( S ) + P( PS / B) ⋅ P( B) = 0,90 ⋅ 0, 4 + 0,10 ⋅ 0,6 = 0, 42


P( PB) = P( PB /S ) ⋅ P( S ) + P( PB / B) ⋅ P( B) = 0,10 ⋅ 0, 4 + 0,90 ⋅ 0,6 = 0,58

378 © Ediciones Pirámide


Teoría de la decisión

Aplicando ahora el teorema de Bayes, podemos calcular las probabilidades a poste-


riori:

P( PS /S ) ⋅ P( S ) 0,90 ⋅ 0, 4
P( S / PS ) = = = 0,857
P( PS ) 0, 42

P( B / PS ) = 1 − 0,857 = 0,143

P( PB /S ) ⋅ P( S ) 0,10 ⋅ 0,4
P( S / PB) = = = 0,069
P( PB) 0,58

P( PB / B) ⋅ P( B) 0,90 ⋅ 0,6
P( B / PB) = = = 0,931
P( PB) 0,58

o bien:

P( B / PB) = 1 − P( S / PB) = 1 − 0,069 = 0,931

Para determinar la secuencia de alternativas a elegir, debemos conocer el valor mo-


netario de cada opción representada en los distintos nodos:

VME( A) = 747,6 ⋅ 0,857 + 676, 4 ⋅ 0,143 = 737,4184


VME( B) = 747,6 ⋅ 0,069 + 676, 4 ⋅ 0,931 = 681,3128
VME(C ) = 747,6 ⋅ 0,4 + 676,4 ⋅ 0,6 = 704,88

y, como los resultados son costes, en los nodos de decisión habrá que obtener el mínimo
valor de sus ramas:

VME( II ) = mín{VME( A), 712} = 712


VME( III ) = mín{VME( B), 712} = VME( B) = 681,3128
VME( IV ) = mín{VME (C ), 712} = VME (C ) = 704,88
VME( D) = VME ( II ) ⋅ 0, 42 + VME ( III ) ⋅ 0,58 = 712 ⋅ 0, 42 + 681,3128 ⋅ 0,58 = 694,2014
VME( I ) = mín{VME( D), VME ( IV )} = VME( D) = 694,2014

© Ediciones Pirámide 379


Ejercicios de inferencia estadística y muestreo

a) Según los resultados obtenidos, en el árbol de decisión tenemos, finalmente:

VME = 694,2014
ltar
Co nsu

I
No
con
sult
ar

VME = 704,88

luego se solicitará el informe al equipo de predicción si se consigue negociar un precio


que sea, como máximo, de:

704,88 – 694,2014 = 10,6786 miles de euros

cantidad que corresponde a lo que la empresa se podría ahorrar con respecto al resultado
que obtendría sin consultar al laboratorio.
Esta cantidad de 10,6786 miles de euros coincide con el concepto de VEIM, pero
aplicado para un caso en el que los resultados son costes:

VEIM = (Valor esperado de la decisión óptima con información sin tener en


cuenta el coste de la información) –
– (Valor esperado de la decisión óptima sin información adicional)

que ahora se convertirá en un coste:

CEIM = (Coste esperado de la decisión óptima sin información del equipo de


predicción) – (Coste esperado de la decisión óptima con información)

b) La secuencia de decisiones a tomar será la siguiente:


1. Si el precio de la consulta supera los 10,6786 miles de euros, la empresa no
debería consultar al equipo de predicción y directamente debería adquirir sus
materias primas para un mes.
2. Si el precio de la consulta no supera los 10,6786 miles de euros, la empresa
debería realizar dicha consulta y decidir en función de los resultados:
— Si se predice subida de precios, entonces se deberían adquirir materias pri-
mas para dos meses.
— Si se predice bajada de precios, entonces se deberían adquirir materias pri-
mas para un mes solamente.

380 © Ediciones Pirámide


Teoría de la decisión

Una empresa española consigue la adjudicación de las obras de cons-


Ejercicio 6.5
trucción de un aeropuerto en una ciudad centroafricana, pues presentó
la oferta más ventajosa por un importe de 500 millones de euros. El plazo de ejecución
de la obra es de ocho meses. La forma de realización de la obras, que la empresa debe
decidir, depende de las condiciones meteorológicas que se presenten en este período.
Si hay menos de un 10 % de días laborables lluviosos, la empresa puede terminar
la obra en el plazo fijado, contratando a 5.000 trabajadores y con un parque de 10 má-
quinas.
Si los días lluviosos representan entre un 10 % y un 20 % de los días laborables, la
empresa debería contratar 7.500 trabajadores y un parque de 15 máquinas para terminar
la obra a tiempo.
Si los días lluviosos suponen más de un 20 % de los laborables, la empresa debería
disponer de 10.000 empleados y un parque de 25 máquinas para ajustarse al plazo
fijado.
Para estimar la probabilidad de cada una de estas situaciones, la empresa dispone
de la siguiente información, facilitada por un centro meteorológico sobre la pluviosidad
de la zona en este período:

Porcentaje de días
Número de períodos
lluviosos en el período
en los últimos 20 años
considerado

Menos de un 10 % 14
Entre un 10 % y un 20 % 4
Más de un 20 % 2

Los gastos a los que tendrá que hacer frente la empresa son los siguientes:
— Salario bruto mensual medio por empleado: 1.500 euros.
— Alquiler mensual medio por máquina: 160.000 euros.
— Coste de materiales: 75.800.000 euros.
En caso de no terminar la obra en el plazo fijado, la empresa deberá paralizar la
ejecución, pagar una indemnización de 25 millones de euros, y sólo se le reembolsará el
coste de los materiales. Según un acuerdo fijado entre las partes, independientemente de
la finalización de la obra, el tiempo mínimo que la empresa debe contratar a los traba-
jadores y alquilar la maquinaria es de ocho meses.
a) ¿De qué forma debe plantear la empresa la construcción del aeropuerto?
b) ¿Le interesaría a esta empresa un estudio más riguroso sobre las condiciones
meteorológicas en la zona cuyo coste fuera de un millón y medio de euros?

© Ediciones Pirámide 381


Ejercicios de inferencia estadística y muestreo

c) ¿Qué decisión se habría adoptado bajo un criterio optimista si no se hubiera


conocido ninguna información sobre la probabilidad de los estados de la natu-
raleza que se pueden presentar? ¿Y bajo el criterio pesimista o de Wald?

a) Para elegir la forma de realización de la obra, debemos utilizar las he-


Solución
rramientas de la teoría de decisión bajo riesgo, pues con la información
facilitada por el centro meteorológico la probabilidad de cada uno de los estados de la
naturaleza puede estimarse como:

14
P(θ1 ) = = 0,7
20
4
P(θ 2 ) = = 0,2
20
2
P(θ 3 ) = = 0,1
20

donde q1, q2 y q3 son los estados de la naturaleza correspondientes, respectivamente, a


que haya menos de un 10 % de días lluviosos, entre un 10 % y un 20 % y más de un 20 %.
Para utilizar los criterios de decisión bajo riesgo, debemos obtener, en primer lugar,
la matriz de resultados correspondientes a cada combinación de alternativas y estados
de la naturaleza:

( a1 , θ1 ) ⇒ r11

s a1: «Contratar 5.000 trabajadores y un parque de 10 máquinas».


q1: «Menos de un 10 % de días lluviosos».

Ingresos: 500 millones de euros

Gastos:
Salarios: 5.000 · 1.500 · 8 = 60.000.000 euros
Máquinas: 10 · 160.000 · 8 = 12.800.000 euros
Materiales: 75.800.000 euros
148.600.000 euros

r11 = 500 – 148,6 = 351,4 millones de euros

382 © Ediciones Pirámide


Teoría de la decisión

q2: «Entre un 10 % y un 20 % de días lluviosos».

Ingresos: 75,8 millones de euros

Gastos:
Salarios: 60.000.000 euros
Máquinas: 12.800.000 euros
Materiales: 75.800.000 euros
Indemnización: 25.000.000 euros
173.600.000 euros

r12 = 75,8 – 173,6 = – 97,8 millones de euros

q3: «Más de un 20 % de días lluviosos».

En este caso, con los 5.000 trabajadores y las 10 máquinas, tampoco se acaba la obra
en el plazo fijado si hay más de un 20 % de días lluviosos; por tanto, nos encontramos
en la situación anterior, y así, r13 = – 97,8 millones de euros.

s a 2: «Contratar 7.500 trabajadores y un parque de 15 máquinas».


q1:

Ingresos: 500 millones de euros

Gastos:
Salarios: 7.500 · 1.500 · 8 = 90.000.000 euros
Máquinas: 15 · 160.000 · 8 = 19.200.000 euros
Materiales: 75.800.000 euros
185.000.000 euros

r 21 = 500 – 185 = 315 millones de euros

q2 :

Con 7.500 trabajadores y 15 máquinas la obra se terminará en el plazo fijado, aun-


que los días lluviosos oscilen entre el 10 % y el 20 %; por tanto, r 22 = r 21 = 315 millones
de euros.

© Ediciones Pirámide 383


Ejercicios de inferencia estadística y muestreo

q3 :
Ingresos: 75,8 millones de euros
Gastos:
Salarios: 90.000.000 euros
Máquinas: 19.200.000 euros
Materiales: 75.800.000 euros
Indemnización: 25.000.000 euros
210.000.000 euros

r 23 = 75,8 – 210 = – 134,2 millones de euros

s a 3: «Contratar 10.000 trabajadores y un parque de 25 máquinas».


En este caso, las obras finalizarían en el plazo fijado con cualquier estado de la
naturaleza (q1, q2, q3) que se presente; por tanto, r 31 = r 32 = r 33.

Ingresos: 500 millones de euros


Gastos:
Salarios: 10.000 · 1.500 · 8 = 120.000.000 euros
Máquinas: 25 · 160.000 · 8 = 32.000.000 euros
Materiales: 75.800.000 euros
227.800.000 euros

r 31 = r 32 = r 33 = 500 – 227,8 = 272,2 millones de euros

Así, la tabla de resultados, en millones de euros, quedaría como:

Estados de la naturaleza

Alternativas q1 q2 q3
Menos de 10 % Entre 10 % y 20 % Más de 20 %
días lluviosos días lluviosos días lluviosos

a1: 5.000 trabajadores


351,4 – 97,8 – 97,8
10 máquinas
a2: 7.500 trabajadores
315,0 3150 – 134,2
15 máquinas
a3: 10.000 trabajadores
272,2 272,2 272,2
25 máquinas

Probabilidades 0,7 0,2 0,1

384 © Ediciones Pirámide


Teoría de la decisión

Según el criterio del valor monetario esperado, para cada alternativa calculamos:

m
VME( ai ) = ∑ rij ⋅ P(θ j )
j =1

y elegimos como óptima, a*, aquella alternativa, tal que:

VME( a*) = máx VME( ai )


i

3
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = 351,4 ⋅ 0,7 + ( − 97,8) ⋅ 0,2 + ( − 97,8) ⋅ 0,1 = 216,64
j =1

3
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 351 ⋅ 0,7 + 315 ⋅ 0,2 − 134,2 ⋅ 0,1 = 270,08
j =1

3
VME( a3 ) = ∑ r3 j ⋅ P(θ j ) = 272,2 ⋅ 0,7 − 272,2 ⋅ 0,2 − 272,2 ⋅ 0,1 = 272,2
j =1

Como el máximo valor monetario esperado corresponde a:

VME( a3 ) = 272,2

entonces a* = a3, es decir, la alternativa elegida por la empresa debería ser comenzar la
obra con 10.000 trabajadores y un parque de 25 máquinas.
A la misma conclusión se llegaría utilizando el criterio de la pérdida de oportunidad
esperada. Para ello, obtenemos la tabla Regret de pérdidas de oportunidad:

R( ai , θ j ) = V *(θ j ) − rij

siendo:

V *(θ j ) = máx rij


i

En este caso:

V *(θ1 ) = máx ri1 = máx{351, 4; 315; 272,2} = 351,4


i

V *(θ 2 ) = 315
V *(θ 3 ) = 272,2

© Ediciones Pirámide 385


Ejercicios de inferencia estadística y muestreo

y así, la matriz Regret, en millones de euros, será:

R(ai, qj) q1 q2 q3

a1 0, 412,8 370,0
a2 36,4 0 406,4
a3 79,2 42,8 0

P(qj) 0,7 0,2 0,1

donde:

R( a1 , θ1 ) = V *(θ1 ) − r11 = 351, 4 − 351, 4 = 0


R( a2 , θ1 ) = V *(θ1 ) − r21 = 351, 4 − 315 = 36, 4
R( a3 , θ1 ) = V *(θ1 ) − r31 = 351, 4 − 272,2 = 79,2

y así sucesivamente.
Ahora calculamos la pérdida de oportunidad esperada asociada a cada una de las
alternativas:

m
POE( ai ) = ∑ R(ai , θ j ) ⋅ P(θ j )
j =1

POE( a1 ) = 0 ⋅ 0,7 + 412,8 ⋅ 0,2 + 370 ⋅ 0,1 = 119,56


POE( a2 ) = 36, 4 ⋅ 0,7 + 0 ⋅ 0,2 + 406, 4 ⋅ 0,1 = 66,12
POE( a3 ) = 79,2 ⋅ 0,7 + 42,8 ⋅ 0,2 + 0 ⋅ 0,1 = 64

Como:

POE( a*) = mín POE( ai ) = 64 = POE( a3 )


i

entonces la alternativa óptima será:

a* = a3

386 © Ediciones Pirámide


Teoría de la decisión

b) Para ver si le interesaría el estudio, obtenemos el valor esperado de la informa-


ción perfecta:

VEIP = VMEIP = máx VME( a1 ) = VMEIP − VME( a*)


i

donde:

m
VMEIP = ∑ V *(θ j ) ⋅ p(θ j ) = 351,4 ⋅ 0,7 + 315 ⋅ 0,2 + 272,2 ⋅ 0,1 = 336,2
j =1

y, por tanto:

VEIP = 336,2 − VME( a3 ) = 336,2 − 272,2 = 64

Es decir, la empresa estaría dispuesta a pagar hasta 64 millones de euros; por tanto,
si el estudio cuesta 1,5 millones, sí le interesaría realizarlo.
c) Si no se conoce información sobre las probabilidades de los estados de la natu-
raleza, se tratará de un problema de decisión bajo incertidumbre.
Si pretendemos utilizar un criterio optimista, éste será el criterio maximax. A cada
alternativa se le asocia:

k ( ai ) = máx rij
j

y se elige como óptima, a*, tal que:

k ( a*) = máx k ( ai ) = máx máx rij


i i j

Alternativas k(ai) = máx rij


j

a1 351,4
a2 315,0
a3 272,2

Se elegiría entonces a1: «Contratar 5.000 trabajadores y 10 máquinas».

© Ediciones Pirámide 387


Ejercicios de inferencia estadística y muestreo

Si adoptamos el criterio pesimista maximin, o de Wald, entonces calculamos para


cada alternativa el valor:

k ( ai ) = mín rij
j

es decir, el peor de los resultados posibles para ai, y la alternativa óptima, a*, verificará:

k ( a*) = máx k ( ai ) = máx mín rij


i i j

Alternativas k(ai) = mín rij


j

a1 – 97,8
a2 – 134,2
a3 272,2

con lo cual se elegiría a3: «Contratar 10.000 trabajadores y alquilar 25 máquinas».

La casa discográfica a la que pertenece un famoso cantante ha decidido


Ejercicio 6.6
realizar una gira mundial para promocionar su nuevo disco. En una de
las ciudades en las que se tiene previsto realizar un concierto, existe la posibilidad de
alquilar la plaza de toros de la localidad, que cuenta con una capacidad de 5.000 perso-
nas, o el auditorio municipal, que es un local cerrado con capacidad para 3.000 personas.
El empresario encargado de realizar las gestiones ha conseguido negociar el alquiler de
la plaza de toros en 75.000 euros y el del auditorio en 50.000 euros; en ambos casos,
el precio de cada entrada sería de 45 euros. Debido a la fama mundial del cantante, la
venta de la totalidad de las entradas para el concierto está prácticamente asegurada en
cualquiera de los dos emplazamientos, pero se debe tener en cuenta que, si el concierto
se realizara en la plaza de toros y lloviera, éste habría de ser suspendido; en este caso
se devolvería la mitad del precio de la entrada a cada uno de los espectadores y se les
entregaría como obsequio un disco firmado por el propio cantante, cuyo coste para la
compañía es de 12 euros.
a) Indique el lugar aconsejado para celebrar el concierto según los distintos crite-
rios de decisión.
b) Si la probabilidad de lluvia se puede estimar en un 30 %, ¿qué decisión debería
tomar el empresario?
c) ¿Qué probabilidad debería asociarse al estado de la naturaleza «lluvia» para que
el empresario se mostrara indiferente ante los dos posibles lugares de celebra-
ción del concierto?

388 © Ediciones Pirámide


Teoría de la decisión

Construimos en primer lugar la tabla o matriz de resultados o consecuencias


Solución
para este problema de decisión.
Las alternativas que se plantean son:

a1 = «Alquilar la plaza de toros».


a2 = «Alquilar el auditorio municipal».

y los estados de la naturaleza considerados son:

q1 = «El día del concierto llueve».


q2 = «El día del concierto no llueve».

Si se decide alquilar el auditorio municipal para la celebración del concierto (a2),


entonces los resultados no dependerán de si llueve o no, porque se trata de un local ce-
rrado. Los beneficios en este caso se calculan teniendo en cuenta que:

Gastos: Alquiler del auditorio = 50.000 euros


Ingresos por venta de entradas: 45 · 3.000 = 135.000 euros
Beneficios: 135.000 – 50.000 = 85.000 euros

Si se alquila la plaza de toros y no llueve, entonces:

Gastos: Alquiler de la plaza de toros = 75.000 euros


Ingresos por venta de entradas: 45 · 5.000 = 225.000 euros
Beneficios: 225.000 – 75.000 = 150.000 euros

Si se alquila la plaza de toros y llueve, tenemos:

Ingresos por venta de entradas: 45 · 5.000 = 225.000 euros

Gastos:
Alquiler de la plaza de toros = 75.000 euros
Devolución mitad de la entrada: 22,50 · 5.000 = 112.500 euros
Discos-obsequio firmados: 12 · 5.000 = 60.000 euros
Total gastos: 247.500 euros

Beneficios = 225.000 – 247.500 = – 22.500 euros

© Ediciones Pirámide 389


Ejercicios de inferencia estadística y muestreo

Por tanto, la matriz de resultados o consecuencias quedará como:

q1: llueve q2: no llueve

a1: alquilar la plaza de toros – 2,25 15,0


a2: alquilar el auditorio 8,5 8,5

donde los resultados representan beneficios en decenas de miles de euros.


a) En este caso, no se indican las probabilidades asociadas a los estados de la na-
turaleza, por tanto, se tratará de un problema de decisión bajo incertidumbre.

Criterio maximax (optimista)

Asociamos a cada alternativa ai la cantidad:

k ( ai ) = máx rij
j

y se elige como óptima aquella alternativa a*, tal que:

k ( a*) = máx k ( ai ) = máx máx rij


i i j

Por tanto:

ai k ( ai ) = máx rij
j

a1 k(a1) = máx {– 2,25; 15} = 15


a2 k(a2) = máx {8,5; 8,5} = 8,5

k ( a*) = máx k ( ai ) = 15 = k ( a1 )
i

y entonces la alternativa óptima según este criterio será a* = a1 = «Alquilar la plaza de


toros».

390 © Ediciones Pirámide


Teoría de la decisión

Criterio maximin o de Wald (pesimista)


Para cada alternativa ai, se calcula:

k ( ai ) = mín rij
j

y la alternativa óptima, a*, será aquella que verifique:

k ( a*) = máx k ( ai ) = máx mín rij


i i j

Así, en este caso:

ai k ( ai ) = mín rij
j

a1 k(a1) = mín {– 2,25; 15} = – 2,25


a2 k(a2) = 8,5

y, por tanto, la alternativa óptima del criterio de Wald es:

a* = a2 = «Alquilar el auditorio»

Criterio de Hurwicz
Representamos con a (0  a  1) el coeficiente de pesimismo del decisor y asocia-
mos a cada alternativa la combinación convexa:

k ( ai , α ) = α mín rij + (1 − α ) máx rij


j j

pues los resultados rij son, en este caso, beneficios. La alternativa óptima, a*, para un
valor de a fijo sería tal que:

k ( a*, α ) = máx k ( ai , α )
i

Como en este caso a no está fijado, realizaremos la representación gráfica de las


rectas k(ai, a) buscando los segmentos de dominancia:

ai mín rij máx rij k(ai, a) = a mín rij + (1 – a) máx rij


j j j j

a1 – 2,25 15,0 k(a1, a) = – 2,25a + 15(1 – a)


a2 8,5 8,5 k(a2, a) = 8,5

© Ediciones Pirámide 391


Ejercicios de inferencia estadística y muestreo

El punto de corte de estas rectas es:

k ( a1 , α ) = k ( a2 , α )
− 2,25 + 15(1 − α ) = 8,5
− 17,25α = − 6,5
65
α= = 0,3768
172,5

y su representación gráfica:

k(ai, )
15

10
8,5

5 k(a1, )
k(a2, )

0 0,3768 α
– 2,25 1

Por tanto, según el grado de pesimismo del decisor (criterio de Hurwicz), la ordena-
ción de las alternativas por preferencia será:

Si 0  a  0,3768 ⇒ a* = a1 Ɑ a2

se elegiría, por tanto, celebrar el concierto en la plaza de toros.

Si a = 0,3768 a* = a1 ~ a2

las dos opciones serían indiferentes.

Si 0,3768 < a  1 a* = a2 Ɑ a1

el concierto se celebraría en el auditorio municipal.

392 © Ediciones Pirámide


Teoría de la decisión

Criterio de Laplace o de equiprobabilidad

Se supone que todos los estados de la naturaleza son equiprobables, es decir:

1
P(θ j ) = , j = 1, 2,..., m
m

y se asocia a cada alternativa su valor monetario esperado, eligiéndose como óptima la


que presente el máximo.
Por tanto, en este caso, como m = 2, las probabilidades son:

1
P(θ1 ) = P(θ 2 ) =
2

2
1
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = 2 ( − 2,25 + 15) = 6,375
j =1

2
1
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 2 (8,5 + 8,5) = 8,5
j =1

como:

VME( a2 ) > VME( a1 )

entonces a* = a2 = «Celebrar el concierto en el auditorio».

Criterio de Savage

Calculamos la matriz de pérdidas de oportunidad relativas o matriz Regret:

Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = V *(θ j ) − rij

con

V *(θ j ) = máx rij = Máximo resultado asociado a θ j


i

© Ediciones Pirámide 393


Ejercicios de inferencia estadística y muestreo

Así:

V *(θ1 ) = máx{− 2,25; 8,5} = 8,5


V *(θ 2 ) = máx{15; 8,5} = 15

Rij q1 q2

a1 8,5 – (– 2,25) = 10,75 15 – 15 = 00


a2 8,5 – 8,5 = 0 15 – 8,5 = 6,5

y se asocia a cada alternativa, ai, la cantidad:

k ( ai ) = máx Rij
i

eligiéndose a* mediante un criterio pesimista (minimax) para la matriz de pérdidas an-


terior:

k ( a*) = mín k ( ai ) = mín máx Rij


i i j

ai k ( ai ) = máx Rij
i

a1 10,75
a2 6,5

k ( a*) = mín k ( ai ) = 6,25 = k ( a2 )


i

Entonces:

a* = a2 = «Celebrar el concierto en el auditorio»

b) Como en este caso se tiene que:

P(θ1 ) = 0,30
P(θ 2 ) = 1 − 0,30 = 0,70

394 © Ediciones Pirámide


Teoría de la decisión

se trata de un problema de decisión bajo riesgo que puede ser resuelto mediante el cri-
terio del Valor Monetario Esperado (VME) o el criterio de la Pérdida de Oportunidad
Esperada (POE).

Criterio del valor monetario esperado

q1: llueve q2: no llueve

a1: alquilar la plaza de toros – 2,25 15,0


a2: alquilar el auditorio 8,5 8,5

Probabilidades 0,30 0,70

Calculamos los valores monetarios esperados asociados a cada alternativa:

2
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = − 2,25 ⋅ 0,30 + 15 ⋅ 0,70 = 9,825
j =1

2
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 8,5 ⋅ 0,30 + 8,5 ⋅ 0,70 = 8,5
j =1

VME( a*) = máx VME( ai ) = 9,825 = VME( a1 )


i

con lo cual la alternativa óptima será a1, es decir, celebrar el concierto en la plaza de
toros.

Criterio de la pérdida de oportunidad esperada

La matriz de pérdidas relativas ya ha sido calculada para aplicar el criterio de Savage


en el apartado anterior. Ésta quedaba como:

R(ai, qj) q1 q2

a1 10,75 0,0
a2 0,0 6,5

P(qj) 0,3 0,7

© Ediciones Pirámide 395


Ejercicios de inferencia estadística y muestreo

Ahora asociamos a cada alternativa su pérdida de oportunidad esperada:

2
POE( a1 ) = ∑ R(a1, θ j ) ⋅ P(θ j ) = 10,75 ⋅ 0,3 + 0 ⋅ 0,7 = 3,225
j =1

2
POE( a2 ) = ∑ R(a2 , θ j ) ⋅ P(θ j ) = 0 ⋅ 0,3 + 6,5 ⋅ 0,7 = 4,55
j =1

POE( a*) = mín POE( ai ) = 3,225 = POE( a1 )


i

Por tanto:

a* = a1

que, como vemos, coincide con la alternativa óptima encontrada según el criterio del
valor monetario esperado, pues estos dos son equivalentes.

c) Sea p la probabilidad asociada al estado de la naturaleza lluvia:

P(θ1 ) = p
P(θ 2 ) = 1 − p

Entonces, la matriz de resultados será:

q1 q2

a1 – 2,25 15,0
a2 8,5 8,5

P(qj) p 1–p

Para que a1 y a2 fueran indiferentes al empresario tendría que ocurrir que sus valo-
res monetarios esperados fueran iguales:

VME( a1 ) = VME( a2 )

396 © Ediciones Pirámide


Teoría de la decisión

es decir, que:

− 2,25 p + 15(1 − p) = 8,5 p + 8,5(1 − p)


− 17,25 p = 8,5 − 15 = − 6,5

6,5 650 26
p= = =
17,25 1.725 69

Ante la próxima construcción de una urbanización en un pueblo de la


Ejercicio 6.7
sierra de Madrid, una empresa se plantea la instalación de diversos
establecimientos hosteleros; así, se contemplan en principio tres alternativas:
a) Construir un restaurante de lujo.
b) Construir un hotel con servicio de restaurante abierto al público.
c) Construir un complejo integrado por un restaurante, una discoteca, una piscina
y otras instalaciones deportivas.
El proyecto de urbanización consta de tres fases de 200 chalets que se acomete-
rán según la respuesta de los potenciales clientes. Los técnicos de la empresa estiman
los beneficios medios o pérdidas medias anuales asociados a cada alternativa según se
acometan una, dos o las tres fases de la urbanización. Estos resultados, expresados en
millones de euros, aparecen en la siguiente tabla:

Estados de la naturaleza
Alternativas Construcción Construcción Construcción
de la primera fase de la segunda fase de la tercera fase

Restaurante de lujo 12 35 56
Hotel-restaurante 30 25 38
Complejo – 10 8 120

Obtenga la decisión óptima que debe adoptar la empresa según los diferentes crite-
rios de decisión.

Se trata de un problema de decisión bajo incertidumbre, pues desconoce-


Solución
mos las probabilidades asociadas a cada estado de la naturaleza; por tanto,
utilizaremos los siguientes criterios aplicables a este contexto de incertidumbre:

© Ediciones Pirámide 397


Ejercicios de inferencia estadística y muestreo

Criterio maximax (criterio optimista)

Elegimos como alternativa óptima la que proporcione el máximo de los resultados


posibles. Así, para cada ai definimos:

k ( ai ) = máx rij
j

y la alternativa óptima, a*, será aquella tal que:

k ( a*) = máx k ( ai ) = máx máx rij


i i j

Por tanto, si a1, a2 y a3 representan, respectivamente, a las alternativas «construir un


restaurante de lujo», «construir un hotel-restaurante» y «construir un complejo hotelero»,
se tiene que:

Beneficios máximos
Alternativas k ( ai ) = máx rij
j

a1 k(a1) = máx {12, 35, 56} = 56


a2 k(a2) = 38
a3 k(a3) = 120

Luego como:

k ( a*) = máx k ( ai ) = máx máx rij = 120 = k ( a3 )


i i j

a* = a3

y se elegiría como óptima la alternativa a3, que nos podría proporcionar los mayores
beneficios: 120 millones de euros anuales. Así pues, desde el punto de vista del crite-
rio maximax, la empresa construiría un complejo integrado por restaurante, discoteca e
instalaciones deportivas.

398 © Ediciones Pirámide


Teoría de la decisión

Criterio maximin o de Wald (criterio pesimista)

Según este criterio, la empresa debería elegir la alternativa que le proporcione la


mejor situación posible entre las peores que pudieran presentarse; es decir, a cada alter-
nativa ai se le asocia la cantidad:

k ( ai ) = mín rij
j

y la alternativa óptima, a*, será aquella, tal que:

k ( a*) = máx k ( ai ) = máx mín rij


i i j

Así:

Beneficios mínimos
Alternativas k ( ai ) = mín rij
j

a1 k(a1) = mín {12, 35, 56} = 12


a2 k(a2) = 25
a3 k(a3) = – 10

y, por tanto;

k ( a*) = máx k ( ai ) = máx mín rij = 25 = k ( a2 )


i i j

a* = a2

Con lo cual, según el criterio maximin, la empresa debería elegir la alternativa a2,
es decir, construir un hotel con servicio de restaurante.

Criterio de Hurwicz

Este criterio pondera los resultados extremos de tal manera que los coeficientes de
ponderación reflejen el nivel de optimismo o pesimismo del decisor.
Si con a representamos el coeficiente de pesimismo relativo (0  a  1), para cada
alternativa calcularemos la combinación convexa:

k ( ai , α ) = α mín rij + (1 − α ) máx rij


j j

© Ediciones Pirámide 399


Ejercicios de inferencia estadística y muestreo

y la alternativa óptima, a*, para un a fijado, sería aquella, tal que:

k ( a*, α ) = máx k ( ai , α )
i

ai mín rij máx rij k(ai, a) = a mín rij + (1 – a) máx rij


j j j j

a1 12 56 k(a1, a) = 12a + (1 – a)56


a2 25 38 k(a2, a) = 25a + (1 – a)38
a3 – 10 120 k(a3, a) = – 10a + (1 – a)120

Como el valor de a no está fijado, representamos gráficamente las rectas k(ai, a)


para poder indicar la alternativa óptima según las diferentes posibilidades para a. Cal-
culamos, en primer lugar, los puntos de corte de cada una de las combinaciones:

k ( a1 , α ) = k ( a2 , α )
12α + (1 − α )56 = 25α + (1 − α )38
− 31α = − 18
18
α = = 0,581
31
k ( a1 , α ) = k ( a3 , α )
12α + (1 − α )56 = − 10α + (1 − α )120
86α = 64

64
α = = 0,744
86
k ( a2 , α ) = k ( a3 , α )
25α + (1 − α )38 = − 10α + (1 − α )120
117α = 82
82
α = = 0,701
117

La representación gráfica de estas tres rectas para valores de a comprendidos entre


0 y 1 es:

400 © Ediciones Pirámide


Teoría de la decisión

k(ai, )
120

100

80

60

40

k(a2, )
20
k(a1, )
1
0 α
0,581 0,701 0,744
k(a3, )
– 20

Por tanto, las alternativas que se elegirán según los valores de a, serán:

Si 0  a < 0,701 a* = a3
Si 0  a < 0,581 a* = a3 Ɑ a1 Ɑ a2
Si a = 0,581 a* = a3 Ɑ a1 ~ a2
Si 0,581 < a < 0,701 a* = a3 Ɑ a2 Ɑ a1
Si a = 0,701 a* = a3 ~ a2 Ɑ a1
Si 0,701 < a  1 a* = a2
Si 0,701 < a < 0,744 a* = a2 Ɑ a3 Ɑ a1
Si a = 0,744 a* = a2 Ɑ a1 ~ a3
Si 0,744 < a  1 a* = a2 Ɑ a1 Ɑ a3

Resumiendo, la decisión óptima de la empresa según el criterio de Hurwicz, será:

Si 0  a < 0,701 la empresa preferirá a3.


Si a = 0,701 la empresa se mostrará indiferente entre a2 y a3.
Si 0,701 < a  1 la empresa elegirá a2.

© Ediciones Pirámide 401


Ejercicios de inferencia estadística y muestreo

Criterio de Laplace o de equiprobabilidad

Calculamos el Valor Monetario Esperado (VME) para cada alternativa suponiendo


que todos los estados de la naturaleza son igualmente probables y, por tanto:

1
P(θ j ) = , ∀ j = 1, 2, 3
3

Así:

3
1
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = 3 (12 + 35 + 56) = 34,333
j =1

3
1
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 3 (30 + 25 + 38) = 31
j =1

3
1
VME( a3 ) = ∑ r3 j ⋅ P(θ j ) = 3 (− 10 + 8 + 120) = 39,333
j =1

Ordenando los correspondientes VME, tendremos que:

VME( a3 ) > VME( a1 ) > VME( a2 )

entonces:

a3 Ɑ a1 Ɑ a2

Luego la alternativa óptima será a*, tal que:

VME( a*) = máx VME( ai ) = 39,333 = VME( a3 )


i
a* = a3

Por tanto, la empresa elegiría construir el complejo hotelero.

Criterio de Savage

Este criterio se aplica a la matriz Regret o de pérdidas relativas:

Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = máx rij − rij


i

402 © Ediciones Pirámide


Teoría de la decisión

En este caso:

V *(θ1 ) = máx ri1 = máx{12, 30, − 10} = 30


i
V *(θ 2 ) = máx ri 2 = 35
i

V *(θ 3 ) = máx ri 3 = 120


i

y, por tanto:

Rij q1 q2 q3

a1 18 0 64
a2 0 10 82
a3 40 27 0

donde:

R11 = V *(θ1 ) − r11 = 30 − 12 = 18


R21 = V *(θ1 ) − r21 = 30 − 30 = 0
R31 = V *(θ1 ) − r31 = 30 − ( − 10) = 40

Para obtener la alternativa óptima, a*, aplicamos el criterio pesimista (minimax) a


esta matriz de pérdidas de oportunidad, es decir:

k ( ai ) = máx Rij
j

y a*, tal que:

k ( a*) = mín k ( ai ) = mín máx Rij


i i j

ai k ( ai ) = máx Rij
j

a1 k(a1) = 64
a2 k(a2) = 82
a3 k(a3) = 40

© Ediciones Pirámide 403


Ejercicios de inferencia estadística y muestreo

y la decisión óptima será a* = 40, ya que:

mín k ( ai ) = 40 = k ( a3 )
i

Un asesor financiero debe aconsejar a una empresa cliente sobre la com-


Ejercicio 6.8
pra de un paquete formado por diferentes tipos de acciones. La inver-
sión se realizará por un plazo de un año, en el que el mercado puede presentar cuatro
situaciones diferentes. El asesor calcula los posibles rendimientos de las cuatro mejores
alternativas de inversión que se le presentan según cada una de las situaciones posibles
del mercado, obteniendo los siguientes resultados, expresados en miles de euros:

Estados de la naturaleza
Alternativas
q1 q2 q3 q4

a1 10 – 30 15 40
a2 –5 5 10 30
a3 –5 – 20 20 40
a4 – 10 –5 50 70

¿Qué alternativa debe recomendar a la empresa según el grado de pesimismo ante la


evolución del mercado financiero?

Para resolver este ejercicio de decisión bajo incertidumbre, utilizaremos


Solución
el criterio de Hurwicz, que permite obtener la decisión óptima según el
grado de pesimismo (a) del decisor.
Para cada una de las alternativas, obtenemos la combinación convexa de resultados
extremos, equivalente a un beneficio medio ponderado:

k ( ai , α ) = α mín rij + (1 − α ) máx rij


i i

ai mín rij máx rij k(ai, a)


i i

a1 – 30 40 k(a1, a) = – 30a + 40(1 – a)


a2 –5 30 k(a2, a) = – 5a + 30(1 – a)
a3 – 20 40 k(a3, a) = – 20a + 40(1 – a)
a4 – 10 70 k(a4, a) = – 10a + 70(1 – a)

404 © Ediciones Pirámide


Teoría de la decisión

Mediante la representación gráfica de las rectas k(ai, a) en función de a, podremos


apreciar, en cada caso, qué decisión será la óptima. Para ello, calculamos, en primer
lugar, los puntos de corte:

k ( a1 , α ) = k ( a2 , α )
− 30α + 40(1 − α ) = − 5α + 30(1 − α )
10
α = = 0,29
35

k ( a1 , α ) = k ( a3 , α )
− 30α + 40(1 − α ) = − 20α + 40(1 − α )
α =0

k ( a1 , α ) = k ( a4 , α )
− 30α + 40(1 − α ) = − 10α + 70(1 − α )
30
α = = 3 ∉ [0, 1]
10

k ( a2 , α ) = k ( a3 , α )
− 5α + 30(1 − α ) = − 20α + 40(1 − α )
10
α = = 0, 4
25

k ( a2 , α ) = k ( a4 , α )
− 5α + 30(1 − α ) = − 10α + 70(1 − α )
40 8
α = = = 0,89
45 9

k ( a3 , α ) = k(( a4 , α )
− 20α + 40(1 − α ) = − 10α + 70(1 − α )

30
α = = 1,5 ∉ [0, 1]
20

© Ediciones Pirámide 405


Ejercicios de inferencia estadística y muestreo

70

60

50

40 k(a1, )
k(a2, )
30
k(a3, )
20 k(a4, )

10

0
0,29 0,4 1 α
0,89
– 10

– 20

– 30

Por tanto:
8
Si 0  α < = 0,89 , el asesor recomendará comprar el paquete de acciones corres-
9
pondiente a la cuarta alternativa (a4).
8
Si α = = 0,89 , el asesor recomendará como igualmente rentables los paquetes de
9
acciones de las alternativas a2 y a4.
8
Si < α  1 , el asesor presentará como más favorable la alternativa a2.
9
La clasificación de las alternativas por orden de preferencia en los distintos tramos
de dominancia sería la siguiente:

Si 0  a < 0,89 ⇒ a* = a4
Si 0 = a ⇒ a* = a4 Ɑ a1 ~ a3 Ɑ a2
Si 0 < a < 0,29 ⇒ a* = a4 Ɑ a3 Ɑ a1 Ɑ a2
Si a = 0,29 ⇒ a* = a4 Ɑ a3 Ɑ a1 ~ a2

406 © Ediciones Pirámide


Teoría de la decisión

Si 0,29 < a < 0,4 ⇒ a* = a4 Ɑ a3 Ɑ a2 Ɑ a1


Si a = 0,4 ⇒ a* = a4 Ɑ a3 ~ a2 Ɑ a1
Si 0,4 < a < 0,89 ⇒ a* = a4 Ɑ a2 Ɑ a3 Ɑ a1
Si a = 0,89 ⇒ a* = a4 ~ a2 Ɑ a3 Ɑ a1
Si 0,89 < a  1 ⇒ a* = a2 Ɑ a4 Ɑ a3 Ɑ a1

Tres amigos han decidido presentarse a un concurso sobre marketing y


Ejercicio 6.9
dirección de empresas propuesto por un periódico universitario. En una
de las primeras pruebas se les propone crear una consultora que se especializará en una
de las siguientes ramas de actividad:
— Transporte y comunicaciones.
— Software informático.
— Hardware informático.
— Tecnología biosanitaria.
Las cuatro ramas ofrecen diferentes potenciales de crecimiento dependiendo de si
la situación económica del país en los años venideros es próspera o no. Los beneficios
esperados, en miles de euros, para los dos primeros años se estiman en la siguiente
tabla:

Situación económica
Alternativa
No próspera Próspera

a1: Transportes y comunicaciones 800 100


a2: Software informático 300 800
a3: Hardware informático 400 600
a4: Tecnología biosanitaria 100 1.000

a) ¿Qué rama de actividad debería escoger para la consultora que se pretende crear?
b) Si la situación económica de prosperidad tiene triple posibilidad de presentarse
que la otra, ¿qué decisión sería la óptima en este caso?

a) Como en este apartado no se tiene información sobre las probabilida-


Solución
des de la situación económica futura (estados de la naturaleza), los tres
amigos se encontrarán ante un problema de decisión bajo incertidumbre; por tanto, la
rama de actividad a elegir dependerá del criterio de decisión utilizado.

© Ediciones Pirámide 407


Ejercicios de inferencia estadística y muestreo

Criterio maximax (optimista)

Obtenemos el beneficio máximo, k(ai), para cada alternativa:

ai k ( ai ) = máx rij
j

a1 800
a2 800
a3 600
a4 1.000

y la óptima, a*, será aquella con la que se obtenga el máximo de los beneficios máxi-
mos, es decir:
k ( a*) = máx k ( ai ) = máx máx rij = 1.000 = k ( a4 )
i i j

por tanto, según este criterio totalmente optimista, se elegiría la rama de tecnología bio-
sanitaria (a4), pues nos puede llevar al máximo de los resultados más favorables.

Criterio maximin (pesimista)

Consideramos como k(ai) los beneficios o resultados mínimos de cada alternativa:

ai k ( ai ) = mín rij
j

a1 100
a2 300
a3 400
a4 100

y se elige como óptima la que presente el máximo de estos mínimos:

k ( a*) = máx k ( ai ) = máx mín rij = 400 = k ( a3 )


i i j

Por tanto:
a* = a3

es decir, desde un punto de vista totalmente pesimista, se debería escoger la rama corres-
pondiente al hardware informático (a3), que conduce al mejor de los peores resultados.

408 © Ediciones Pirámide


Teoría de la decisión

Criterio de Hurwicz

Sean a el grado de pesimismo relativo (0  a  1) y 1 – a el grado de optimismo


relativo. Expresamos los beneficios medios ponderados como combinaciones convexas
de estas cantidades:

ai mín rij máx rij k(ai, a) = a mín rij + (1 – a) máx rij


j j j j

a1 100 800 k(a1, a) = 100a + 800(1 – a)


a2 300 800 k(a2, a) = 300a + 800(1 – a)
a3 400 600 k(a3, a) = 400a + 600(1 – a)
a4 100 1.000 k(a4, a) = 100a + 1.000(1 – a)

Para cada valor de a, la alternativa óptima será aquella a*, tal que:

k ( a*, α ) = máx k ( ai , α )
i

Como a no está fijado, representamos gráficamente las cuatro rectas k(ai, a). Previa-
mente, calculamos sus puntos de corte en el intervalo [0, 1].

k ( a1 , α ) = k ( a2 , α )
100α + 800(1 − α ) = 300α + 800(1 − α )
− 200α = 0
α =0

k ( a1 , α ) = k ( a3 , α )
100α + 800(1 − α ) = 400α + 600(1 − α )
− 500α = − 200
2
α =
5
k ( a1 , α ) = k ( a4 , α )
100α + 800(1 − α ) = 100α + 1.000(1 − α )
200α = 200
α =1
© Ediciones Pirámide 409
Ejercicios de inferencia estadística y muestreo

k ( a2 , α ) = k ( a3 , α )
300α + 800(1 − α ) = 400α + 600(1 − α )
− 300α = − 200
2
α=
3
k ( a2 , α ) = k ( a4 , α )
300α + 800(1 − α ) = 100α + 1.000(1 − α )
400α = 200
2 1
α= =
4 2
k ( a3 , α ) = k ( a4 , α )
400α + 600(1 − α ) = 100α + 1.000(1 − α )
700α = 400
4
α=
7

k(ai, )
1.000

900

800

700 k(a1, )
k(a2, )
600
k(a3, )
500 k(a4, )

400

300

200

100

0
2/5 1/2 4/7 2/3 1 α

410 © Ediciones Pirámide


Teoría de la decisión

En vista de este gráfico, podemos ordenar las alternativas según el nivel de pesimis-
mo. Así:

1
Si 0  α < ⇒ a* = a4 = «Tecnología biosanitaria».
2
1
Si α = ⇒ a* = a4 ~ a2 .
2
1 2
Si <α < ⇒ a* = a2 = «Software informático».
2 3
2
Si α = ⇒ a* = a2 ~ a3 .
3
2
Si < α  1 ⇒ a* = a3 = «Hardware informático».
3

La ordenación de las alternativas en los distintos tramos de dominancia sería:

Si α = 0 ⇒ a* = a4 Ɑ a1 ~ a2 Ɑ a3
1
Si 0 < α < ⇒ a* = a4
2
2
Si 0 < α < ⇒ a* = a4 Ɑ a2 Ɑ a1 Ɑ a3
5
2
Si α = ⇒ a* = a4 Ɑ a2 Ɑ a1 ~ a3
5
2 1
Si <α < ⇒ a* = a4 Ɑ a2 Ɑ a3 Ɑ a1
5 2
1
Si α = ⇒ a* = a4 ~ a2 Ɑ a3 Ɑ a1
2
1 2
Si <α < ⇒ a* = a2
2 3
1 4
Si <α < ⇒ a* = a2 Ɑ a4 Ɑ a3 Ɑ a1
2 7

© Ediciones Pirámide 411


Ejercicios de inferencia estadística y muestreo

4
Si α = ⇒ a* = a2 Ɑ a4 ~ a3 Ɑ a1
7
4 2
Si <α < ⇒ a* = a2 Ɑ a3 Ɑ a4 Ɑ a1
7 3
2
Si α = ⇒ a* = a2 ~ a3 Ɑ a4 Ɑ a1
3
2
Si < α < 1 ⇒ a* = a3 Ɑ a2 Ɑ a4 Ɑ a1
3
Si α = 1 ⇒ a* = a3 Ɑ a2 Ɑ a4 ~ a1

Criterio de Laplace o de equiprobabilidad

Consiste en aplicar el criterio del valor monetario esperado (decisión bajo riesgo)
a una situación de incertidumbre considerando que todos los estados de la naturaleza
tienen las mismas posibilidades de presentarse:

1
P(θ j ) = ; j = 1, 2, ..., m
m

En este caso, será:


q1: «Situación económica no próspera».
q2: «Situación económica próspera».
y, por tanto:

1
P(θ j ) = ; j = 1, 2
2

Calculamos el VME de cada alternativa:

m
VME( ai ) = ∑ rij ⋅ P(θ j )
j =1

1
VME( a1 ) = (800 + 100) = 450
2
1
VME( a2 ) = (300 + 800) = 550
2

412 © Ediciones Pirámide


Teoría de la decisión

1
VME( a3 ) = ( 400 + 600) = 500
2
1
VME( a4 ) = (100 + 1.000) = 550
2

Por tanto, como:

VME( a2 ) = VME( a4 ) > VME( a3 ) > VME( a1 )

entonces las alternativas óptimas bajo este criterio serán a2 y a4 (son, por tanto, indife-
rentes según el criterio de Laplace).

Criterio de Savage

Este criterio consiste en aplicar el criterio minimax a la matriz Regret de pérdidas


de oportunidad. La pérdida de oportunidad asociada a la alternativa ai y al estado de la
naturaleza qj se obtiene como:

R( ai , θ j ) = Rij = V *(θ j ) − rij

donde:

V *(θ j ) = máx rij


i

En este caso:

V *(θ1 ) = 800
V *(θ 2 ) = 1.000

Por tanto, la matriz Regret será:

R(ai, qj) q1 q2 k ( ai ) = máx Rij


i

a1 0 900 900
a2 500 200 500
a3 400 400 400
a4 700 0 700

© Ediciones Pirámide 413


Ejercicios de inferencia estadística y muestreo

El criterio minimax nos hará asociar a cada alternativa el valor:

k ( ai ) = máx Rij
i

y elegir como óptima aquella alternativa, a*, tal que:

k ( a*) = mín k ( ai ) = mín máx Rij = 400 = k ( a3 )


i i j

Por tanto, con el criterio de Savage:

a* = a3 = «Hardware informático».

Como se ve, la rama de actividad elegida será diferente según el criterio de decisión
bajo incertidumbre que se utilice para tomar la decisión.

b) Sea:

P(θ1 ) = p

entonces:

P(θ 2 ) = 3 p

y como:

P(θ1 ) + P(θ 2 ) = 1
p + 3p = 1
1
p= = 0,25
4
con lo cual:

rij q1 q2

a1 800 100
a2 300 800
a3 400 600
a4 100 1.000

Probabilidades 0,25 0,75

414 © Ediciones Pirámide


Teoría de la decisión

Como conocemos las probabilidades de los estados de la naturaleza, nos encontra-


mos en un contexto de decisión bajo riesgo. Por tanto, para llegar a la alternativa óptima
podemos aplicar indistintamente el criterio del valor monetario esperado (VME) o el de
la pérdida de oportunidad esperada (POE).

Criterio del valor monetario esperado

Asociamos a cada alternativa el valor:

m
VME( ai ) = ∑ rij ⋅ P(θ j )
j =1

VME( a1 ) = 800 ⋅ 0,25 + 100 ⋅ 0,75 = 275


VME( a2 ) = 300 ⋅ 0,25 + 800 ⋅ 0,75 = 675
VME( a3 ) = 400 ⋅ 0,25 + 600 ⋅ 0,75 = 550
VME( a4 ) = 100 ⋅ 0,25 + 1.000 ⋅ 0,75 = 775

y elegimos como óptima aquella a*, tal que:

VME( a*) = máx VME( ai ) = 775 = VME( a4 )


i

Por tanto:

a* = a4

Criterio de la pérdida de oportunidad esperada

Calculamos la matriz Regret de pérdidas de oportunidad y obtenemos para cada


alternativa su pérdida de oportunidad esperada:

m
POE( ai ) = ∑ R(ai , θ j ) ⋅ P(θ j )
j =1

En este caso, la matriz Regret había sido obtenida en el apartado anterior al utilizar
el criterio de Savage, y quedaba como:

© Ediciones Pirámide 415


Ejercicios de inferencia estadística y muestreo

Rij q1 q2

a1 0 900
a2 500 200
a3 400 400
a4 700 0

P(qj) 0,25 0,75

Por tanto:

POE( a1 ) = 0 ⋅ 0,25 + 900 ⋅ 0,75 = 675


POE( a2 ) = 500 ⋅ 0,25 + 200 ⋅ 0,75 = 275
POE( a3 ) = 400 ⋅ 0,25 + 400 ⋅ 0,75 = 400
POE( a4 ) = 700 ⋅ 0,25 + 0 ⋅ 0,75 = 175

y se elige como óptima a* que verifique:

POE( a*) = mín POE( ai ) = 175 = POE( a4 )


i

Con lo cual:

a* = a4

la misma que habíamos obtenido con el criterio del VME, pues sabemos que ambos son
equivalentes.

La empresa española NUC, S. A. va a realizar la reparación del siste-


Ejercicio 6.10
ma de refrigeración del reactor nuclear de una central situada en Polo-
nia. La reparación podrá realizarse en un período de 1, 2 o 3 meses, según el funciona-
miento del transporte de materiales, las condiciones meteorológicas y el estado en que
se encuentre el sistema de refrigeración, del que sólo se dispone de un informe no muy
detallado. Ante el eventual traslado de sus 200 obreros especializados, NUC, S. A., se
plantea las alternativas de:

416 © Ediciones Pirámide


Teoría de la decisión

1. Instalar junto a la central 30 barracones de habitaciones con suficiente dotación


de servicios.
2. Repartir a sus empleados entre los hoteles de la comarca circundante a la
central.
3. Alquilar y acondicionar una antigua residencia de estudiantes situada a 10 kiló-
metros de la zona de trabajo.
Se dispone de los siguientes datos sobre costes correspondientes a cada alternativa:
1. Instalación de barracones: 2.000 euros por barracón.
Alquiler mensual de barracones: 1.000 euros por barracón.
Gastos de electricidad, agua y otros (mensuales): 500 euros por barracón.
2. Precio medio diario de un hotel de la comarca: 10 euros/noche.
Dietas diarias por transporte por empleado: cinco euros.
3. Alquiler del edificio de residencia: 5.000 euros mensuales.
Acondicionamiento del edificio: 120.000 euros.
Contratación del servicio de autobuses: 3.000 euros mensuales.
a) ¿Qué decisión debería adoptar la empresa según su grado de pesimismo sobre
la duración de la reparación?
b) ¿Qué decisión tomaría si el grado de pesimismo es del 60 %?

Se trata de un problema de decisión bajo incertidumbre, pues no se cono-


Solución
cen las probabilidades sobre los estados de la naturaleza:
q1: «La reparación durará un mes».
q2: «La reparación durará dos meses».
q3: «La reparación durará tres meses».
Para obtener la matriz de consecuencias debemos analizar la información disponible
y calcular los resultados, en este caso, gastos monetarios, asociados a cada alternativa y
estado de la naturaleza. Sean las alternativas:
a1: «Instalar 30 barracones».
a2: «Repartir a los empleados en hoteles de la comarca».
a3: «Alquilar y acondicionar la residencia de estudiantes».
Los resultados o consecuencias asociados a cada combinación (ai, qj) se calculan
como:

© Ediciones Pirámide 417


Ejercicios de inferencia estadística y muestreo

(a1, q1) ⇒ r11:


Instalación de barracones: 30 · 2.000 = 60.000 euros
Alquiler (un mes): 30 · 1.000 = 30.000 euros
Gastos (un mes): 30 · 500 · 1 = 15.000 euros
r11 = 105.000 euros
(a1, q2) ⇒ r12:
Instalación de barracones: 30 · 2.000 = 60.000 euros
Alquiler (dos meses): 30 · 1.000 · 2 = 60.000 euros
Gastos (dos meses): 30 · 500 · 2 = 30.000 euros
r12 = 150.000 euros

(a1, q3) ⇒ r13:


Instalación de barracones: 30 · 2.000 = 60.000 euros
Alquiler (tres meses): 30 · 1.000 · 3 = 90.000 euros
Gastos (tres meses): 30 · 500 · 3 = 45.000 euros
r13 = 195.000 euros

(a2, q1) ⇒ r21:


Gastos de hoteles1 (un mes): 10 · 200 · 30 = 60.000 euros
Dietas por transporte (un mes): 5 · 200 · 30 = 30.000 euros
r21 = 90.000 euros

(a2, q2) ⇒ r22:


Gastos de hoteles (dos meses): 10 · 200 · 60 = 120.000 euros
Dietas por transporte (dos meses): 5 · 200 · 60 = 60.000 euros
r22 = 180.000 euros

(a2, q3) ⇒ r23:


Gastos de hoteles (tres meses): 10 · 200 · 90 = 180.000 euros
Dietas por transporte (tres meses): 5 · 200 · 90 = 90.000 euros
r23 = 270.000 euros

1
Se han considerado 30 días por mes para realizar los cálculos.

418 © Ediciones Pirámide


Teoría de la decisión

(a3, q1) ⇒ r31:


Acondicionamiento edificio: 120.000 euros
Alquiler (un mes): 5.000 euros
Servicio autobuses (un mes): 3.000 euros
r31 = 128.000 euros

(a3, q2) ⇒ r32:


Acondicionamiento edificio: 120.000 euros
Alquiler (dos meses): 5.000 · 2 = 10.000 euros
Servicio autobuses (dos meses): 3.000 · 2 = 6.000 euros
r32 = 136.000 euros

(a3, q3) ⇒ r33:


Acondicionamiento edificio: 120.000 euros
Alquiler (tres meses): 5.000 · 3 = 15.000 euros
Servicio autobuses (tres meses): 3.000 · 3 = 9.000 euros
r33 = 144.000 euros

Por tanto, la matriz de resultados y consecuencias correspondiente a este problema


sería:

Duración de la reparación
Alternativas
q1: 1 mes q2: 2 meses q3: 3 meses

a1: Instalar barracones 10,5 15,0 19,5


a2: Hoteles de la comarca 9, 18,0 27,0
a3: Alquilar y acondicionar residencia 12,8 13,6 14,4

donde cada resultado (gasto) está expresado en decenas de miles de euros.


a) Para decidir cuál será la decisión óptima según el grado de pesimismo sobre la
duración de la reparación, utilizaremos el criterio de Hurwicz, pero teniendo en cuenta
que manejamos costes o gastos en las combinaciones de resultados extremos k(ai, a). Por
tanto, se define:

k ( ai , α ) = α máx rij + (1 − α ) mín rij


j j

© Ediciones Pirámide 419


Ejercicios de inferencia estadística y muestreo

entonces deberemos elegir como alternativa óptima, a*, aquella, tal que:

k ( a*, α ) = mín k ( ai , α )
i

pues se trata de resultados que son gastos e interesa el menor gasto.


Obtenemos, en primer lugar, la siguiente tabla:

ai mín rij máx rij k(ai, a) = a máx rij + (1 – a) mín rij


j j j j

a1 10,5 19,5 k(a1, a) = 19,5a + 10,5(1 – a)


a2 9, 27,0 k(a2, a) = 27a + 9(1 – a)
a3 12,8 14,4 k(a3, a) = 14,4a + 12,8(1 – a)

Representamos gráficamente estas rectas y calculamos los puntos de corte en el


intervalo [0, 1]:

k ( a1 , α ) = k ( a2 , α )
19,5α + 10,5(1 − α ) = 27α + 9(1 − α )
− 9α = − 1,5

15 1
α= = = 0,167
90 6

k ( a1 , α ) = k ( a3 , α )
19,5α + 10,5(1 − α ) = 14, 4α + 12,8(1 − α )
7,4α = 2,3
23
α= = 0,311
74

k ( a2 , α ) = k ( a3 , α )
27α + 9(1 − α ) = 14, 4α + 12,8(1 − α )
16, 4α = 3,8

38
α= = 0,232
164

420 © Ediciones Pirámide


Teoría de la decisión

30

25

20
k(a1, )
15 k(a2, )
k(a3, )
10

0
0,167 0,232 0,311 1 α

Por tanto, el orden de preferencia de las alternativas según el grado de pesimismo


será:
Si 0  a < 0,167 ⇒ a* = a2 Ɑ a1 Ɑ a3
Si a = 0,167 ⇒ a* = a2 ~ a1 Ɑ a3
Si 0,167 < a < 0,311 ⇒ a* = a1
Si 0,167 < a < 0,232 ⇒ a* = a1 Ɑ a2 Ɑ a3
Si a = 0,232 ⇒ a* = a1 Ɑ a2 ~ a3
Si 0,232 < a < 0,311 ⇒ a* = a1 Ɑ a3 Ɑ a2
Si a = 0,311 ⇒ a* = a1 ~ a3 Ɑ a2
Si 0,311 < a  1 ⇒ a* = a3 Ɑ a1 Ɑ a2
b) Cuando el grado de pesimismo es del 60 %, a = 0,6, estamos en el tramo
(0,311, 1], por tanto, la alternativa óptima será a3 = «Alquilar y acondicionar la residencia
de estudiantes».

Ante la reciente creación de un campus universitario en una determina-


Ejercicio 6.11
da ciudad, la directiva de un prestigioso centro de idiomas decide ins-
talarse en ella.
Se consideran tres posibilidades para el establecimiento:
— Alquilar un local en la zona residencial del campus.
— Realizar un convenio con la universidad para dar clases en sus propias aulas.

© Ediciones Pirámide 421


Ejercicios de inferencia estadística y muestreo

— Alquilar un local en el centro de la ciudad sin ninguna vinculación con la uni-


versidad.
Los beneficios y pérdidas previstos dependerán de la demanda que exista en la ciu-
dad ante el aprendizaje de idiomas. Las estimaciones realizadas se recogen en la siguien-
te tabla, cuyas cantidades están expresadas en millones de euros.

Demanda
Alternativas
q1: alta q2: media q3: baja

a1: Local en campus 7, 6,5 – 2,0


a2: Convenio con universidad 10,0 5,0 – 1,5
a3: Local en centro ciudad 6,5 6,0 – 3,0

Indique qué alternativa debería seguir la directiva del centro de idiomas si se supone
que la probabilidad de demanda media es triple que la de demanda baja y ésta la mitad
que la de demanda alta.

Se trata de un ejercicio de decisión bajo riesgo, pues tenemos información


Solución
sobre las probabilidades de los estados de la naturaleza (las posibles de-
mandas). En primer lugar, calculamos estas probabilidades, teniendo en cuenta que:

P(θ 2 ) = 3P(θ 3 )

1
P(θ 3 ) = P(θ1 )
2
P(θ1 ) + P(θ 2 ) + P(θ 3 ) = 1

Por tanto, se obtienen:

1
P(θ1 ) =
3
1
P(θ 2 ) =
2
1
P(θ 3 ) =
6

422 © Ediciones Pirámide


Teoría de la decisión

Utilizando el criterio del valor monetario esperado


Calculamos el valor monetario esperado para cada alternativa:

3
1 1 1 31,5
VME( a1 ) = ∑ r1 j ⋅ P(θ j ) = 7 ⋅ 3 + 6,5 ⋅ 2 − 2 ⋅ 6 = 6
= 5,25
j =1

3
1 1 1 33,5
VME( a2 ) = ∑ r2 j ⋅ P(θ j ) = 10 ⋅ 3 + 5 ⋅ 2 − 1,5 ⋅ 6 = 6
= 5,583
j =1

3
1 1 1 28
VME( a3 ) = ∑ r3 j ⋅ P(θ j ) = 6,5 ⋅ 3 + 6 ⋅ 2 − 3 ⋅ 6 = 6
= 4,667
j =1

Por tanto, la alternativa óptima según el criterio del VME es realizar un convenio
con la universidad, a2, pues es la que presenta el mayor valor monetario esperado.

Utilizando el criterio de la pérdida de oportunidad esperada


Los beneficios óptimos para cada estado de la naturaleza son:

V *(θ1 ) = 10
V *(θ 2 ) = 6,5
V *(θ 3 ) = − 1,5

Con ellos calculamos las pérdidas de oportunidad para las diferentes alternativas y
estados de la naturaleza:

R( ai , θ j ) = V *(θ j ) − rij

y obtenemos la tabla:

R(ai, qj) q1 q2 q3

a1 3,0 0,0 0,5


a2 0,0 1,5 0,0
a3 3,5 0,5 1,5

Probabilidades 1/3 1/2 1/6

© Ediciones Pirámide 423


Ejercicios de inferencia estadística y muestreo

Las pérdidas de oportunidad esperada son:

3
1 1 1 6,5
POE( a1 ) = ∑ R(a1, θ j ) ⋅ P(θ j ) = 3 ⋅ 3 + 0 ⋅ 2 + 0,5 ⋅ 6 =
6
= 1,083
j =1

3
1 1 1
POE( a2 ) = ∑ R(a2 , θ j ) ⋅ P(θ j ) = 0 ⋅ 3 + 1,5 ⋅ 2 + 0 ⋅ 6 = 0,75
j =1

3
1 1 1
POE( a3 ) = ∑ R(a3 , θ j ) ⋅ P(θ j ) = 3,5 ⋅ 3 + 0,5 ⋅ 2 + 1,5 ⋅ 6 = 1,667
j =1

y, por tanto, a2, que presenta la menor pérdida de oportunidad esperada, es la alternativa
óptima.

Los responsables de un parque acuático, teniendo en cuenta el nivel de


Ejercicio 6.12
público del año anterior, están considerando cambiar el período de
apertura del recinto. Se plantean tres posibilidades: abrir el parque todos los días, abrir-
lo sólo durante los fines de semana y días festivos o no abrir este año. Los resultados,
que dependerán de si se presenta un verano caluroso, moderado o fresco, aparecen en la
siguiente tabla y vienen expresados en millones de euros:

Verano
Alternativas
q1: caluroso q2: moderado q3: fresco

a1: Abrir todos los días 2,50 1,00 – 1,50


a2: Abrir fines de semana y festivos 1,45 0,85 – 0,20
a3: No abrir 0,00 0,00 00

Probabilidades 0,25 0,45 0,3

a) Elija la alternativa óptima que deberían tomar los dueños del parque acuático.
b) ¿Cuánto estarían dispuestos a pagar los responsables del parque acuático por un
informe meteorológico que indicara con precisión el tipo de verano que se va a
presentar?
c) Calcule las pérdidas de oportunidad asociadas a cada una de las alternativas y
compruebe que, utilizando este criterio, se obtiene la misma alternativa óptima
que con el criterio del valor monetario esperado.

424 © Ediciones Pirámide


Teoría de la decisión

a) Se trata de un ejercicio de decisión bajo riesgo que podemos resolver


Solución
por el criterio del valor monetario esperado:

VME( a1 ) = 2,5 ⋅ 0,25 + 1 ⋅ 0, 45 + ( − 1,5) ⋅ 0,3 = 0,625


VME( a2 ) = 1, 45 ⋅ 0,25 + 0,85 ⋅ 0, 45 + ( − 0,20) ⋅ 0,3 = 0,685
VME( a3 ) = 0

Por tanto, la alternativa óptima según el criterio del VME es aquella a*, tal que:

VME( a*) = máx VME( ai ) = VME( a2 )


i

Entonces:

a* = a2

b) La cantidad máxima que estarían dispuestos a pagar será el Valor Esperado de


la Información Perfecta (VEIP):

VEIP = VMEIP − máx VME( ai ) = VMEIP − VME( a*)


i

Como:

VME( a*) = VME( a2 ) = 0,685

3
VMEIP = ∑ V *(θ j ) P(θ j ) = 2,5 ⋅ 0,25 + 1 ⋅ 0,45 + 0 ⋅ 0,3 = 1,075
j =1

Por tanto:

VEIP = 1,075 − 0,685 = 0,39

es decir, 390.000 euros sería la cantidad máxima que estarían dispuestos a pagar por un
informe meteorológico preciso.
Recordamos que esta cantidad debe coincidir con la pérdida de oportunidad esperada
de la alternativa óptima, es decir, con POE( a*) = POE( a2 ) .

© Ediciones Pirámide 425


Ejercicios de inferencia estadística y muestreo

c) La pérdida de oportunidad asociada a la alternativa ai y al estado de la natura-


leza qj se define como:

R( ai , θ j ) = V *(θ j ) − rij

siendo V*(qj) el beneficio máximo bajo el estado de la naturaleza qj y rij el beneficio


asociado al par (ai, qj).
Por tanto, utilizando la tabla de resultados del enunciado del ejercicio, tenemos:

V *(θ1 ) = 2,5 ; V *(θ 2 ) = 1 ; V *(θ 3 ) = 0

y construyendo la tabla de pérdidas de oportunidad:

Verano
R(ai, qj)
q1 q2 q3

a1 0,00 0,00 1,5


a2 1,05 0,15 0,2
a3 2,50 1,00 0,0

0,25 0,45 0,3

Calculamos ahora la pérdida de oportunidad esperada para cada una de las alter-
nativas:

POE( a1 ) = 0 ⋅ 0,25 + 0 ⋅ 0,45 + 1,5 ⋅ 0,3 = 0, 45


POE( a2 ) = 1,05 ⋅ 0,25 + 0,15 ⋅ 0,45 + 0,2 ⋅ 0,3 = 0,39
POE( a3 ) = 2,5 ⋅ 0,25 + 1 ⋅ 0,45 + 0 ⋅ 0,3 = 1,075

y la alternativa óptima a* será aquella, tal que:

POE( a*) = mín POE( ai ) = 0,39 = POE( a2 )


i

Por tanto, a* = a2, que, efectivamente, coincide con la alternativa óptima elegida
según el criterio del valor monetario esperado.

426 © Ediciones Pirámide


Teoría de la decisión

Mientras se realizan las obras de remodelación del tramo de ferrocarril


Ejercicio 6.13
que une una determinada ciudad dormitorio con la capital, el ayunta-
miento ofrece a una empresa de autobuses la posibilidad de participar en la prestación
del servicio de transporte público por carretera. El ayuntamiento propone dos posibili-
dades:
— Que la empresa alquile los autobuses al ayuntamiento para que sea éste el que
gestione directamente el servicio.
— Que el servicio sea gestionado por la propia empresa en régimen de concesión.
Los resultados que obtendrá la empresa dependerán de la fecha de finalización de las
obras del ferrocarril. Si se realiza el alquiler de los autobuses, se obtendrían unos bene-
ficios de nueve millones de euros si las obras terminan antes de la fecha prevista; ocho
millones de euros si acaban en la fecha prevista, y unas pérdidas de tres millones de
euros si finalizan con posterioridad. Si la empresa se decide por gestionar directamente
el servicio, se obtendrían – 5, 10 y 11 millones de euros, respectivamente, para cada una
de las situaciones anteriores.
Por otra parte, el empresario cree que si rechaza esta oferta y aumenta los servicios
en las líneas que ya tiene, podría obtener unos beneficios de un millón de euros.
Realice una clasificación de las alternativas a elegir según el grado de pesimismo
del decisor.

El empresario debe decidir entre las tres alternativas siguientes:


Solución
a1: «Alquilar los autobuses al ayuntamiento».
a2: «Gestionar el servicio».
a3: «Rechazar la oferta y aumentar los servicios de las líneas que ya tiene».
Los estados de la naturaleza posibles son:
q1: «Las obras finalizan antes de la fecha prevista».
q2: «Las obras finalizan en la fecha prevista».
q3: «Las obras finalizan con posterioridad a la fecha prevista».
Los resultados estimados se presentan en la siguiente tabla:

qj
q1 q2 q3
ai

a1 9 8 –3
a2 –5 10 11
a3 1 1 1

© Ediciones Pirámide 427


Ejercicios de inferencia estadística y muestreo

Se trata de un ejercicio de decisión bajo incertidumbre, pues no conocemos las pro-


babilidades asociadas a los estados de la naturaleza. Para clasificar las alternativas según
el grado de pesimismo del decisor utilizaremos el criterio de Hurwicz:

ai mín rij máx rij K(ai, a) = a mín rij + (1 – a) máx rij


j j j j

a1 –3 9 k(a1, a) = – 3a + 9(1 – a)
a2 –5 11 k(a2, a) = – 5a + 11(1 – a)
a3 1 1 k(a3, a) = 1

Para realizar la representación gráfica buscamos los puntos de corte:

1
K ( a1 , α ) = K ( a2 , α ) ⇒ α = = 0,5
2
8
K ( a1 , α ) = K ( a3 , α ) ⇒ α = = 0,667
12
10
K ( a2 , α ) = K ( a3 , α ) ⇒ α = = 0,625
16

11

K(a1, )
K(a2, )
K(a3, )

0,5 0,625 0,667 1 α

–3

–5

428 © Ediciones Pirámide


Teoría de la decisión

Por tanto, la clasificación de las alternativas será la siguiente:

Si 0  a < 0,5 ⇒ a* = a2 Ɑ a1 Ɑ a3
Si a = 0,5 ⇒ a* = a2 ~ a1 Ɑ a3
Si 0,5 < a < 0,667 ⇒ a* = a1
Si 0,5 < a < 0,625 ⇒ a* = a1 Ɑ a2 Ɑ a3
Si a = 0,625 ⇒ a* = a1 Ɑ a2 ~ a3
Si 0,625 < a < 0,667 ⇒ a* = a1 Ɑ a3 Ɑ a2
Si a = 0,667 ⇒ a* = a1 ~ a3 Ɑ a2
Si 0,667 < a  1 ⇒ a* = a3 Ɑ a1 Ɑ a2

Con la celebración de las olimpiadas, el dueño de una tienda de ropa


Ejercicio 6.14
está pensando en adquirir del mayorista camisetas con el anagrama del
evento. Las camisetas se solicitan en lotes de 100 unidades. El precio por unidad depen-
de del número de camisetas adquiridas: si compra 100 camisetas, su coste es de 15 euros
por camiseta; si compra 200, el coste se reduce a 13,50 euros por unidad. El precio de
venta es de 18 euros, pero las camisetas que no se hayan vendido al final de la tempo-
rada se venderán a otro establecimiento a la mitad de su precio. Por su experiencia, el
dueño de la tienda cree que la demanda será de 100, 150 o 200 camisetas. Si la demanda
es superior al número de camisetas adquiridas, el dueño evalúa esto como una pérdida
de 0,75 euros por cada persona que demanda una camiseta y no la puede comprar.
Obtenga la matriz de resultados y la decisión óptima según el criterio de Laplace.

Los beneficios o pérdidas que se obtendrán a partir de los datos del enun-
Solución
ciado se calculan como:

r11 = 100 ⋅ 18 − 100 ⋅ 15 = 300


r12 = 100 ⋅ 18 − 100 ⋅ 15 − 50 ⋅ 0,75 = 262,50
r13 = 100 ⋅ 18 − 100 ⋅ 15 − 100 ⋅ 0,75 = 225
r21 = 100 ⋅ 18 − 200 ⋅ 13,50 + 100 ⋅ 9 = 0
r22 = 150 ⋅ 18 − 200 ⋅ 13,50 + 50 ⋅ 9 = 450
r23 = 200 ⋅ 18 − 200 ⋅ 13,50 = 900
r31 = 100 ⋅ 18 − 300 ⋅ 12,75 + 200 ⋅ 9 = − 225
r32 = 150 ⋅ 18 − 300 ⋅ 12,75 + 150 ⋅ 9 = 225
r33 = 200 ⋅ 18 − 300 ⋅ 12,75 + 100 ⋅ 9 = 675
© Ediciones Pirámide 429
Ejercicios de inferencia estadística y muestreo

Por tanto, la matriz de resultados es:

Demanda
Camisetas adquiridas
q1: 100 q2: 150 q3: 200

a1: 100 300 262,50 225


a2: 200 0 450,00 900
a3: 300 – 225 225,00 675

Según el criterio de Laplace, se supone que todos los estados de la naturaleza son
equiprobables, por tanto:

1
P(θ1 ) = P(θ 2 ) = P(θ 3 ) =
3

Calculando los valores monetarios esperados para cada alternativa, tenemos:

1
VME( a1 ) = (300 + 262,50 + 225) = 262,50
3
1
VME( a2 ) = (0 + 450 + 900) = 450
3
1
VME( a3 ) = ( − 225 + 225 + 675) = 225
3

Así pues, la alternativa óptima es:

a* = a2

es decir, adquirir 200 camisetas, pues:

VME( a2 ) = máx VME( ai )

Un escritor ha recibido ofertas de tres editoriales diferentes para publi-


Ejercicio 6.15
car su último libro. Cada editorial pagará al escritor una parte fija y
otra proporcional a las ventas que se realicen. Por tanto, los beneficios que obtendrá
dependen del nivel de demanda que se produzca. Realizando una serie de estimaciones,
el escritor construye la siguiente tabla de resultados, donde los datos aparecen en miles
de euros:

430 © Ediciones Pirámide


Teoría de la decisión

Demanda
Editorial
Alta Media Baja

A 4,5 4,0 3,00


B 7,0 3,5 1,75
C 5,0 3,0 2,50

a) Utilizando el criterio de Savage, ¿qué editorial debería elegir el escritor para


publicar su libro?
b) Obtenga una clasificación del orden de preferencia de las editoriales según el
grado de pesimismo del escritor.

a) Para aplicar el criterio de Savage debemos considerar la matriz Regret,


Solución
o matriz de pérdidas relativas, y aplicar a esta matriz el criterio minimax.
Por tanto, construimos la matriz Regret utilizando que:

R( aij , θ j ) = V *(θ j ) − rij


V *(θ1 ) = 7 ; V *(θ 2 ) = 4 ; V *(θ 3 ) = 3

Demanda
R(ai, qj)
Alta: q1 Media: q2 Baja: q3

a1: A 2,5 0,0 0,00


Editoriales a2: B 0,0 0,5 1,25
a3: C 2,0 1,0 0,50

Aplicando el criterio minimax a esta matriz, hay que obtener para cada alternativa
el valor:

K ( ai ) = máx R( ai , θ j )
j

K ( a1 ) = 2,5
K ( a2 ) = 1,25
K ( a3 ) = 2

© Ediciones Pirámide 431


Ejercicios de inferencia estadística y muestreo

y se elige como alternativa óptima, a*, aquella, tal que:

K ( a*) = mín K ( ai ) = 1,25 = K ( a2 )


i

entonces:

a* = a2

por tanto, aplicando el criterio de Savage, se debería elegir la editorial B para publicar
el libro.

b) Utilizaremos el criterio de Hurwicz y, por tanto, tenemos que calcular para cada
alternativa la combinación:

K ( ai , α ) = α mín rij + (1 − α ) máx rij


j j

siendo a el coeficiente de pesimismo relativo:

Editorial mín rij máx rij K(ai, a)


j j

A 3,00 4,5 K(a1, a) = 3a + 4,5(1 – a)


B 1,75 7,0 K(a2, a) = 1,75a + 7(1 – a)
C 2,50 5,0 K(a3, a) = 2,5a + 5(1 – a)

Calculamos los puntos de corte de estas rectas y las representamos gráficamente:

2
K ( a1 , α ) = K ( a2 , α ) ⇒ α = ⯝ 0,67
3
1
K ( a1 , α ) = K ( a3 , α ) ⇒ α = = 0,5
2
8
K ( a2 , α ) = K ( a3 , α ) ⇒ α = ⯝ 0,73
11

432 © Ediciones Pirámide


Teoría de la decisión

5
4,5
4
K(a1, )
3 K(a2, )
K(a3, )
2

0 0,5 0,67 0,73 1 α

Por tanto, la clasificación de las alternativas será la siguiente:

Si 0  a < 0,5 ⇒ a* = a2 Ɑ a3 Ɑ a1
Si a = 0,5 ⇒ a* = a2 Ɑ a3 ~ a1
Si 0,5 < a < 0,67 ⇒ a* = a2 Ɑ a1 Ɑ a3
Si a = 0,67 ⇒ a* = a2 ~ a1 Ɑ a3
Si 0,67 < a < 0,73 ⇒ a* = a1 Ɑ a2 Ɑ a3
Si a = 0,73 ⇒ a* = a1 Ɑ a2 ~ a3
Si 0,73 < a  1 ⇒ a* = a1 Ɑ a3 Ɑ a2

© Ediciones Pirámide 433


Tablas estadísticas

Tablas estadísticas1

TABLA 1
Función de probabilidad binomial
Esta tabla proporciona la probabilidad de obtener x éxitos cuando se realizan n
repeticiones independientes de un experimento o prueba de Bernoulli con probabilidad
de éxito p:

冢冣
n x
P( X = x ) = p ⋅ (1 − p)n − x donde X ~ B(n, p)
x

1
Estas tablas proceden de Casas Sánchez, J. M.: Inferencia estadística, 2.a ed., CERA, 1997.

© Ediciones Pirámide 435


Tablas estadísticas

TABLA 1 (continuación)

冢x冣 p
n
P( X = x ) = x
⋅ (1 − p)n − x donde X ~ B(n, p)

436 © Ediciones Pirámide


Tablas estadísticas

TABLA 1 (continuación)

冢x冣 p
n
P( X = x ) = x
⋅ (1 − p)n − x donde X ~ B(n, p)

© Ediciones Pirámide 437


Tablas estadísticas

TABLA 1 (continuación)

冢x冣 p
n
P( X = x ) = x
⋅ (1 − p)n − x donde X ~ B(n, p)

438 © Ediciones Pirámide


Tablas estadísticas

TABLA 1 (continuación)

冢x冣 p
n
P( X = x ) = x
⋅ (1 − p)n − x donde X ~ B(n, p)

© Ediciones Pirámide 439


Tablas estadísticas

TABLA 1 (continuación)

冢x冣 p
n
P( X = x ) = x
⋅ (1 − p)n − x donde X ~ B(n, p)

440 © Ediciones Pirámide


Tablas estadísticas

TABLA 2
Función de distribución binomial
Esta tabla proporciona los valores de la función de distribución de una B(n, p), es
decir:

∑ 冢i 冣 pi ⋅ (1 − p)n − i
x n
F( x ) = P( X  x ) =
i=0

para:

n  20 y p = 0,05, 0,10, ..., 0,50

© Ediciones Pirámide 441


Tablas estadísticas

TABLA 2 (continuación)

冢冣
x n
F( x ) = P( X  x ) = ∑ pi ⋅ (1 − p)n − i
i=0 i

442 © Ediciones Pirámide


Tablas estadísticas

TABLA 2 (continuación)

冢冣
x n
F( x ) = P( X  x ) = ∑ pi ⋅ (1 − p)n − i
i=0 i

© Ediciones Pirámide 443


Tablas estadísticas

TABLA 2 (continuación)

冢冣
x n
F( x ) = P( X  x ) = ∑ pi ⋅ (1 − p)n − i
i=0 i

444 © Ediciones Pirámide


Tablas estadísticas

TABLA 2 (continuación)

冢冣
x n
F( x ) = P( X  x ) = ∑ pi ⋅ (1 − p)n − i
i=0 i

© Ediciones Pirámide 445


Tablas estadísticas

TABLA 2 (continuación)

冢冣
x n
F( x ) = P( X  x ) = ∑ pi ⋅ (1 − p)n − i
i=0 i

446 © Ediciones Pirámide


Tablas estadísticas

TABLA 3
Función de probabilidad hipergeométrica
Esta tabla proporciona la probabilidad de obtener x elementos que pertenezcan a la
primera subpoblación cuando se toma una muestra aleatoria sin reemplazamiento de
tamaño n de la población total:

N1 N − N1

P( x ) = P( X = x ) =
冢 x 冣冢 n − x 冣 donde X ~ H ( N , N1, n)
冢n冣
N

© Ediciones Pirámide 447


Tablas estadísticas

TABLA 3 (continuación)
N1 N − N1
冢 冣冢 冣
P( x ) = P( X = x ) =
x n−x
donde X ~ H ( N , N1, n)
冢冣
N
n

448 © Ediciones Pirámide


Tablas estadísticas

TABLA 3 (continuación)
N1 N − N1
冢 冣冢 冣
P( x ) = P( X = x ) =
x n−x
donde X ~ H ( N , N1, n)
冢冣
N
n

© Ediciones Pirámide 449


Tablas estadísticas

TABLA 3 (continuación)
N1 N − N1
冢 冣冢 冣
P( x ) = P( X = x ) =
x n−x
donde X ~ H ( N , N1, n)
冢冣
N
n

450 © Ediciones Pirámide


Tablas estadísticas

TABLA 3 (continuación)
N1 N − N1
冢 冣冢 冣
P( x ) = P( X = x ) =
x n−x
donde X ~ H ( N , N1, n)
冢冣
N
n

© Ediciones Pirámide 451


Tablas estadísticas

TABLA 4
Función de distribución hipergeométrica
Esta tabla proporciona los valores de la función de distribución de una H(N, N1, n),
es decir:
N1 N − N1
∑ 冢 x 冣冢 n − x 冣
xi  x i i
F( x ) = P( X  x ) =
冢n冣
N

452 © Ediciones Pirámide


Tablas estadísticas

TABLA 4 (continuación)

N1 N − N1
∑ 冢 x 冣冢 n − x 冣
xi  x i i
F( x ) = P( X  x ) =
冢n冣
N

© Ediciones Pirámide 453


Tablas estadísticas

TABLA 4 (continuación)

N1 N − N1
∑ 冢 x 冣冢 n − x 冣
xi  x i i
F( x ) = P( X  x ) =
冢n冣
N

454 © Ediciones Pirámide


Tablas estadísticas

TABLA 4 (continuación)

N1 N − N1
∑ 冢 x 冣冢 n − x 冣
xi  x i i
F( x ) = P( X  x ) =
冢n冣
N

© Ediciones Pirámide 455


Tablas estadísticas

TABLA 4 (continuación)

N1 N − N1
∑ 冢 x 冣冢 n − x 冣
xi  x i i
F( x ) = P( X  x ) =
冢n冣
N

456 © Ediciones Pirámide


Tablas estadísticas

TABLA 5
Función de probabilidad de Poisson
Esta tabla proporciona la probabilidad de obtener x éxitos para diferentes valores de l:

λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

© Ediciones Pirámide 457


Tablas estadísticas

TABLA 5 (continuación)
λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

458 © Ediciones Pirámide


Tablas estadísticas

TABLA 5 (continuación)
λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

© Ediciones Pirámide 459


Tablas estadísticas

TABLA 5 (continuación)
λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

460 © Ediciones Pirámide


Tablas estadísticas

TABLA 5 (continuación)
λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

© Ediciones Pirámide 461


Tablas estadísticas

TABLA 5 (continuación)
λx − λ
P( X = x ) = e donde X ~ ᏼ (λ )
x!

462 © Ediciones Pirámide


Tablas estadísticas

TABLA 6
Función de distribución de Poisson
Esta tabla proporciona los valores de la función de distribución de una P(l), es decir:
x
λi − λ
F( x ) = P( X  x ) = ∑ e
i = 0 i!

© Ediciones Pirámide 463


Tablas estadísticas

TABLA 6 (continuación)
x
λi − λ
F( x ) = P( X  x ) = ∑ e
i = 0 i!

464 © Ediciones Pirámide


Tablas estadísticas

TABLA 6 (continuación)
x
λi − λ
F( x ) = P( X  x ) = ∑ e
i = 0 i!

© Ediciones Pirámide 465


Tablas estadísticas

TABLA 6 (continuación)
x
λi − λ
F( x ) = P( X  x ) = ∑ e
i = 0 i!

466 © Ediciones Pirámide


Tablas estadísticas

TABLA 6 (continuación)
x
λi − λ
F( x ) = P( X  x ) = ∑ e
i = 0 i!

© Ediciones Pirámide 467


Tablas estadísticas

TABLA 7
Función de distribución N(0, 1)
Esta tabla proporciona los valores de la función de distribución de una N(0, 1), es
decir, el área bajo la curva N(0, 1):
z


1
e−z
2
F ( z ) = P( Z  z ) = /2
dz
2π −∞
–∞ z 0

468 © Ediciones Pirámide


Tablas estadísticas

TABLA 7 (continuación)


1
e−z
2
F ( z ) = P( Z  z ) = /2
dz
2π −∞
–∞ 0 z

© Ediciones Pirámide 469


Tablas estadísticas

TABLA 8
Función de distribución gamma incompleta
Esta tabla contiene los valores de la función gamma incompleta:

冮y
y
1 p −1
F*( y) = ⋅ e − y dy
Γ ( p) 0

470 © Ediciones Pirámide


Tablas estadísticas

TABLA 8 (continuación)

冮y
y
1 p −1
F*( y) = ⋅ e − y dy
Γ ( p) 0

© Ediciones Pirámide 471


Tablas estadísticas

TABLA 9
Función de distribución c2 de Pearson
Esta tabla proporciona los valores c2n, p, tales que:
f(x)
χ n2, p


n
1 −1
p = P( X  χ n2, p ) = x 2 ⋅ e − (1/ 2 ) x dx
冉冊
p
n 0
2n/2 Γ
2 0 χ2n, p

siendo X una variable c2 de Pearson con n-grados de libertad.

472 © Ediciones Pirámide


Tablas estadísticas

TABLA 9 (continuación)
f(x)
χ n2, p


n
1 −1
p = P( X  χ n2, p ) = x 2 ⋅ e − (1/ 2 ) x dx
冉冊
p
n 0
2n/2 Γ
2 0 χ2n, p

© Ediciones Pirámide 473


474

Tablas estadísticas
TABLA 10
Función de distribución t-Student
Esta tabla proporciona los valores tp, tales que:

Γ冉 冊
n +1 1
− ( n + 1)

冮 冢 冣
tp
2 t2 2
p = P(T  t p ) = 1+
冉冊
dt p
n −∞ n
Γ nπ 0 tp
2

para p > 0,5, y siendo T una variable aleatoria t de Student con n-grados de libertad (n = 1, 2, ..., 30, ..., ∞).
Cuando p  0,5, entonces, como la función de densidad es simétrica respecto al origen, t = 0, tenemos:

p = (T  t p ) = 1 − P(T  − t p )
© Ediciones Pirámide
© Ediciones Pirámide

TABLA 10 (continuación)

p = (T  t p ) = 1 − P(T  − t p ) 0 tp

Tablas estadísticas
475
476

Tablas estadísticas
TABLA 11
Función de distribución F de Snedecor
Esta tabla proporciona los valores Fn1, n2; p, tales que:

Γ 冉 冊n1 + n2

n1 + n2

冢 冣 冮 冢 冣
n1 / 2 Fn1 , n2 ; p n1
2 n1 −1 n 2
p = P( X  Fn1 , n2 ; p ) = 1+ 1 x
冉 冊冉 冊
0,90
x2 dx
n n n2 0 n2
Γ 1 Γ 2 0 Fn1, n2; 0,90
2 2

siendo X una variable aleatoria F de Snedecor con n1, n2 grados de libertad (n1, n2 = 1, 2, ..., 120):

P( X  Fn1 , n2 ; 0,90 ) = 0,90


© Ediciones Pirámide
© Ediciones Pirámide

TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,90 ) = 0,90 0,90

0 Fn1, n2; 0,90

Tablas estadísticas
477
478

Tablas estadísticas
TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,95 ) = 0,95 0,95

0 Fn1, n2; 0,95


© Ediciones Pirámide
© Ediciones Pirámide

TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,95 ) = 0,95 0,95

0 Fn1, n2; 0,95

Tablas estadísticas
479
480

Tablas estadísticas
TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,975 ) = 0,975 0,975

0 Fn1, n2; 0,975


© Ediciones Pirámide
© Ediciones Pirámide

TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,975 ) = 0,975 0,975

0 Fn1, n2; 0,975

Tablas estadísticas
481
482

Tablas estadísticas
TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,99 ) = 0,99 0,99

0 Fn1, n2; 0,99


© Ediciones Pirámide
© Ediciones Pirámide

TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,99 ) = 0,99 0,99

0 Fn1, n2; 0,99

Tablas estadísticas
483
484

Tablas estadísticas
TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,999 ) = 0,999 0,999

0 Fn1, n2; 0,999


© Ediciones Pirámide
© Ediciones Pirámide

TABLA 11 (continuación)

P( X  Fn1 , n2 ; 0,999 ) = 0,999 0,999

0 Fn1, n2; 0,999

Tablas estadísticas
485
Tablas estadísticas

TABLA 12
Números aleatorios

486 © Ediciones Pirámide


Tablas estadísticas

TABLA 12 (continuación)

© Ediciones Pirámide 487


Tablas estadísticas

TABLA 12 (continuación)

488 © Ediciones Pirámide


Tablas estadísticas

TABLA 13
Gráfica de intervalos de confianza del parámetro p de una distribución binomial
(nivel de confianza 99 %)

Fuente: Tables for Statisticians, Biometrika, vol. 1, 1966.

© Ediciones Pirámide 489


Tablas estadísticas

TABLA 13
Gráfica de intervalos de confianza del parámetro p de una distribución binomial
(nivel de confianza 95 %)

Fuente: Tables for Statisticians, Biometrika, vol. 1, 1966.

490 © Ediciones Pirámide


Tablas estadísticas

TABLA 13
Gráfica de intervalos de confianza del parámetro p de una distribución binomial
(nivel de confianza 80 %)

Fuente: Tables for Statisticians, Biometrika, vol. 1, 1966.

© Ediciones Pirámide 491


Tablas estadísticas

TABLA 14
Valores críticos del test de Kolmogorov-Smirnov para una muestra
Esta tabla contiene los valores críticos D a del test de Kolmogorov-Smirnov:

Dn = máx 兩Fn ( x ) − F0 ( x )兩 ; P( Dn > Dα ) = α


x

Fuente: «Table of percentage points of Kolmogorov Statistics», J. Amer. Statist. Assoc., 51:
111-121 (1956).

492 © Ediciones Pirámide


Tablas estadísticas

TABLA 15
Valores críticos del test de Lilliefors de normalidad
Esta tabla contiene los valores críticos D¢a del estadístico:

Dn′ = máx 兩Fn ( x ) − F0 ( x )兩 ; P( Dn′ > Dα′ ) = α


x

Fuente: Adaptada de H. W. Lilliefors «On the Kolmogorov-Smirnov Test Normality with


Mean and Variance Unknown», Journal of the American Statistical Association. Vol. 62 (1967).

© Ediciones Pirámide 493


Tablas estadísticas

TABLA 16
Coeficientes ai del test W de Shapiro-Wilks de normalidad
Esta tabla proporciona los valores de los coeficientes ai del estadístico de Shapiro-
Wilks de normalidad:

2
⎡k ⎤
⎢∑ ai ( X( n − i + 1) − X( i ) ⎥
⎢⎣i = 1 ⎥⎦
W= n
∑ ( Xi − X ) 2
i =1

494 © Ediciones Pirámide


Tablas estadísticas

TABLA 16 (continuación)
2
⎡k ⎤
⎢∑ ai ( X( n − i + 1) − X( i ) ⎥
⎢⎣i = 1 ⎥⎦
W= n
∑ ( Xi − X ) 2
i =1

© Ediciones Pirámide 495


Tablas estadísticas

TABLA 16 (continuación)

2
⎡k ⎤
⎢∑ ai ( X( n − i + 1) − X( i ) ⎥
⎢⎣i = 1 ⎥⎦
W= n
∑ ( Xi − X ) 2
i =1

Fuente: Pearson, E. S., y Hartley, H. O. (1990): Biometrika Tables for Statisticians.


Vols. I y II, Cambridge University Press.

496 © Ediciones Pirámide


Tablas estadísticas

TABLA 17
Valores críticos del test W de Shapiro-Wilks de normalidad
Esta tabla contiene los valores críticos Wa del test W de Shapiro-Wilks, tales que:
P[W < Wα ] = α

Fuente: Pearson, E. S., y Hartley, H. O. (1972): Biometrika Tables for Statisticians.


Vols. I y II, Cambridge University Press.

© Ediciones Pirámide 497


Tablas estadísticas

TABLA 18
Valores críticos del test de Kolmogorov-Smirnov para dos muestras de distintos
tamaños n1 ≠ n2
Esta tabla contiene los valores críticos Dn1, n2; a del test de Kolmogorov-Smirnov1:

Dn1 , n2 = máx 兩Fn1 ( x ) − Gn2 ( x )兩 ; P( Dn1 , n2 > Dn1 , n2 ; α ) = α


x
N1 = mín (n1 , n2 ) , N2 = máx (n1 , n2 )

1
Es válido para contrastes unilaterales y bilaterales.

498 © Ediciones Pirámide


Tablas estadísticas

TABLA 18 (continuación)

Dn1 , n2 = máx 兩Fn1 ( x ) − Gn2 ( x )兩 ; P( Dn1 , n2 > Dn1 , n2 ; α ) = α


x
N1 = mín (n1 , n2 ) , N2 = máx (n1 , n2 )

Fuente: «Distribution table for the deviation between two samples cumulatives», Ann.
Math. Statist., 23: 435-441 (1952).

© Ediciones Pirámide 499


Tablas estadísticas

TABLA 19
Valores críticos del test de Kolmogorov-Smirnov para dos muestras del mismo
tamaño, n1 = n2 = n
Esta tabla contiene los valores críticos Dn, n; a del test de Kolmogorov-Smirnov:

Dn, n = máx 兩Fn ( x ) − Gn ( x )兩 ; P( Dn, n > Dn, n; α ) = α


x

Fuente: «Small sample distribution for multisample statistics of the Smirnov type»,
Ann. Math. Statist., 31: 710-720 (1960).

500 © Ediciones Pirámide


© Ediciones Pirámide

TABLA 20
Distribución de probabilidades para el test de rachas de aleatoriedad
Esta tabla contiene la función de distribución del número total de rachas R; P(R  r) en una muestra de tamaño
n = n1 + n2, para el test de rachas de aleatoriedad de Wald-Wolfowitz:

Tablas estadísticas
501
Tablas estadísticas

TABLA 20 (continuación)

502 © Ediciones Pirámide


Tablas estadísticas

TABLA 21
Valores críticos para el test de rangos-signos de Wilcoxon
Esta tabla contiene los valores críticos k a del estadístico de rangos-signos de Wil-
coxon:
n
T+ = ∑ Zi ⋅ r(兩Di 兩)
i =1

para los diferentes valores de n y a.

1
El valor de a no tiene por qué coincidir con el nivel de significación.
Fuente: Kraft, C. H., y Van Eeden, A. Nonparametric Introduction to Statistics, Macmi-
llan Publishing, 1968.

© Ediciones Pirámide 503


Tablas estadísticas

TABLA 22
Función de distribución del estadístico U de Mann-Whitney
Esta tabla contiene las probabilidades:

P(U  U0 ) = α para n1  n2 y n2 = 3,..., 10

504 © Ediciones Pirámide


Tablas estadísticas

TABLA 22 (continuación)

© Ediciones Pirámide 505


Tablas estadísticas

TABLA 22 (continuación)

506 © Ediciones Pirámide


Tablas estadísticas

TABLA 22 (continuación)

© Ediciones Pirámide 507


Tablas estadísticas

TABLA 22 (continuación)

Fuente: Mann, H., y Whitney, D. R.: «On a test of whether one of two random variables
is stochastically larger than the other», Annals of Mathematical Statistics, Vol. 18, 1947.

508 © Ediciones Pirámide


Tablas estadísticas

TABLA 23
Valores críticos para el test de Kruskal-Wallis2 para k = 3
Esta tabla contiene los valores críticos h a, tales que: P( H  hα ) = α
de manera que si el estadístico H que se calcula a partir de las observaciones muestrales
es mayor que h a, se rechaza la hipótesis nula H0 al nivel de significación a.

2
Esta tabla fue elaborada inicialmente por Kruskal y Walllis en 1952 en su trabajo «Use of ranks in one-criterion
variance analysis», JASA, vol. 47, p. 614, y un año más tarde hicieron algunas correcciones, JASA, vol. 48, p. 910;
correcciones que ya aparecen recogidas aquí.

© Ediciones Pirámide 509


Tablas estadísticas

TABLA 23 (continuación)

510 © Ediciones Pirámide


Tablas estadísticas

TABLA 24
Valores críticos para el test de Kruskal-Wallis3 para diferentes valores de k
Esta tabla contiene los valores críticos h a, tales que:
P( H  hα ) = α
para distintos tamaños muestrales y niveles de significación 0,05 y 0,01.

3
Esta tabla es análoga a la anterior, pero introduce valores de k = 4 y k = 5.

© Ediciones Pirámide 511


Bibliografía

Bibliografía
Aranda, J., y Gómez, J.: Fundamentos de estadística para la economía y administración de empre-
sas, DM-PPU, 1992.
Aranda, J., Gómez, J., Faura, U., y Molera, L.: Problemas de estadística para economía y adminis-
tración de empresas, DM-PPU, 1994.
Arnaiz, G.: Introducción a la estadística teórica, Lex Nova, 1986.
Baró, J.: Cálculo de probabilidades: aplicaciones económico-empresariales, Parramón, 1985.
Baró, J.: Estadística descriptiva, Parramón, 1985.
Baró, J.: Estadística descriptiva. Aplicaciones económico-empresariales, Parramón, 1985.
Baró, J.: Inferencia estadística: aplicaciones económico-empresariales, Parramón, 1993.
Cacoullos, T.: Exercises in Probability, Springer-Verlag, 1989.
Calot, G.: Exercises de Calcul des Probabilités, Dunod, 1976.
Calot, G.: Curso de estadística descriptiva, Paraninfo, 1982.
Canavos, G. C.: Probabilidad y estadística: aplicaciones y métodos, McGraw-Hill, 1992.
Casa Aruta, E.: 200 problemas de estadística descriptiva, Vicens Vives, 1990.
Casas, J. M.: Inferencia estadística, 2.a ed., CERA, 1997.
Casas, J. M.: Estadística I. Probabilidad y distribuciones, CERA, 2000.
Casas, J. M.: Fórmulas y tablas estadísticas, CERA, 2004.
Casas, J. M., y Santos, J.: Estadística empresarial, CERA, 1999.
Casas, J. M., y Santos, J.: Introducción a la estadística para economía, 2.a ed., CERA, 2002.
Casas, J. M., y Santos, J.: Introducción a la estadística para la administración y dirección de em-
presas, 2.a ed., CERA, 2002.
Casas, J. M., Callealta, J., Núñez, J., Toledo, I., y Ureña, C.: Curso básico de estadística descripti-
va, Instituto Nacional de Administración Pública, 1986.
Cuadras, C. M.: Problemas de probabilidades y estadística, vols. I y II, PPU, 1991.
Degroot, M. H.: Probabilidad y estadística, Addison-Wesley, 1988.

© Ediciones Pirámide 513


Bibliografía

Feller, W.: Introducción a la teoría de probabilidades y sus aplicaciones, vols. I y II, Limusa, 1973
y 1978.
Fernández-Abascal, H. y otros: Cálculo de probabilidades y estadística, Ariel, 1994.
Fernández, H., Guijarro, M., Rojo, J. L., y Sanz, J. A.: Cálculo de probabilidades y estadística,
Ariel, 1994.
García Barbancho, A.: Ejercicios de estadística descriptiva para economistas, Ariel, 1975.
Gnedenko, B. V.: The Theory of Probability, Mir, 1978.
INE: Índice de precios de consumo, Base, 1992. Metodología.
Kazmier-Díaz, M.: Estadística aplicada en administración y economía, McGraw-Hill, 1992.
López de la Manzanara, J.: Problemas de estadística, Pirámide, 1982.
López Ortega, J.: Problemas de estadística para ciencias económicas y empresariales: cálculo de
probabilidades, Tébar, 1994.
Martín Pliego, F. J.: Introducción a la estadística económica y empresarial, AC, 1994.
Martín Pliego, F. J., y Ruiz-Maya, L.: Estadística I. Probabilidad, AC, 1995.
Mendenhall, W.: Estadística matemática con aplicaciones, Editorial Iberoamérica, 1993.
Montero, J., Pardo, L., Morales, D., y Quesada, V.: Ejercicios y problemas de cálculo de probabi-
lidades, Díaz de Santos, 1988.
Montiel, A. M., Rius, F., y Barón, F. J.: Elementos básicos de estadística económica y empresarial,
Prentice-Hall, 1997.
Mood, A., y Graybill, F.: Introducción a la teoría de la estadística, Aguilar, 1978.
Muñoz Vázquez, A. y otros: Problemas de estadística descriptiva, 1992.
Murgui, J. S., Aybar, C. y otros: Estadística para economía y administración de empresas: aplica-
ciones y ejercicios, Puchades, 1992.
Newbold, P.: Estadística para los negocios y la economía, 4.a ed., Prentice-Hall, 1996.
Peña, D.: Estadística. Modelos y métodos, vol. I, Alianza Universidad, 1991.
Quesada, V., Isidoro, A., y López, L. J.: Curso y ejercicios de estadística, Alhambra, 1983.
Rohatgi, V.: An Introduction to Probability Theory and Mathematical Statistics, John Wiley, 1977.
Ruiz-Maya, L.: Problemas de estadística, AC, 1989.
Sierra, M.: Ejercicios resueltos de estadística, CEURA, 1987.
Toledo, I., y Arnaiz, G.: Problemas de estadística, Lex Nova, 1989.
Tussel, F., y Garín, A.: Problemas de probabilidad e inferencia estadística, Tébar Flores, 1991.
Uriel, E., y Muñiz, M.: Estadística económica y empresarial, AC, 1988.

514 © Ediciones Pirámide


Índice por materias

A Contraste de Kolmogorov-Smirnov para una


muestra, 3.7; 3.25.
Análisis de la varianza para una clasificación Contraste de Kruskal-Wallis, 3.6; 3.22; 3.23;
doble, 4.9; 4.10; 4.11; 4.14; 4.15. 3.27.
Análisis de la varianza para una clasificación Contraste de la mediana, 3.20; 3.21.
simple, 4.1; 4.2; 4.3; 4.4; 4.6; 4.7; 4.8; Contraste de la U de Wilcoxon-Mann-Whit-
4.12; 4.13. ney, 3.20; 3.21.
Árboles de decisión, 6.2; 6.3; 6.4. Contraste de normalidad de Lilliefors, 3.6;
3.13.
Contraste de normalidad de Shapiro-Wilks,
3.6; 3.13.
C Contraste de rachas de Wald-Wolfowitz, 3.13;
3.14; 3.15; 3.19; 3.20.
Características de las variables aleatorias: Contraste de rangos-signos de Wilcoxon, 3.16;
momentos, función generatriz de momen- 3.17; 3.19; 3.20; 3.28.
tos, cuantiles y otras medidas, 1.1; 1.2; Contraste de Siegel-Tukey, 3.24; 3.26.
1.3; 1.21. Contraste de signos de la mediana, 3.16; 3.17;
Consistencia, 1.1; 1.2; 1.3; 1.6. 3.18; 3.19; 3.28.
Contraste de aleatoriedad, 3.13; 3.14; 3.15; Contraste c2 de Pearson, 3.1; 3.2; 3.3; 3.4; 3.5.
3.19; 3.20. Contrastes de comparación de poblaciones,
Contraste de bondad de ajuste, 3.1; 3.2; 3.3; 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 2.16;
3.4; 3.5; 3.6; 3.7; 3.8; 3.13; 3.25. 2.17; 3.6; 3.20; 3.21; 3.22; 3.23; 3.24; 3.26;
Contraste de Kolmogorov-Smirnov para dos 3.27.
muestras, 3.20; 3.21; 3.24; 3.28. Contrastes de homogeneidad, 3.11; 3.12.

© Ediciones Pirámide 515


Índice por materias

Contrastes de independencia, 3.8; 3.9; 3.10. E


Contrastes de localización, 3.16; 3.17; 3.18;
3.19; 3.20. Eficiencia de un estimador, 1.4; 1.5.
Contrastes en poblaciones normales, 2.4; 2.5; Estimación por intervalos de confianza, 1.10;
2.6; 2.7; 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 1.11; 1.12; 1.13; 1.14; 1.15; 1.17; 1.18; 1.20;
2.15; 3.19. 2.4; 2.10; 2.11.
Contrastes para la media en poblaciones Estimación puntual, 1.1; 1.4; 1.5; 1.6; 1.7;
normales, 2.4; 2.5; 2.6; 2.7; 2.10; 2.14; 1.8; 1.9; 1.10; 1.12.
3.19.
Contrastes para la varianza en poblaciones F
normales, 2.6; 2.7.
Contrastes sobre medias de dos poblaciones Función de potencia y tipos de errores, 2.1;
normales, 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.2.
2.15; 2.19; 2.20.
Contrastes sobre proporciones, 2.8; 2.16; 2.17;
2.18. I
Contrastes sobre varianzas de dos poblaciones
normales, 2.14; 2.15. Insesgadez de un estimador, 1.1; 1.4.
Criterio de Hurwicz, 6.6; 6.7; 6.8; 6.9; 6.10;
6.13; 6.15. M
Criterio de la pérdida de oportunidad espera-
da, 6.1; 6.5; 6.6; 6.9; 6.11; 6.12. Método de Dunn de comparaciones múlti-
Criterio de Laplace, 6.6; 6.7; 6.9; 6.14. ples, 3.22; 3.27.
Criterio de Savage, 6.6; 6.7; 6.9; 6.15. Método de los momentos, 1.5; 1.7; 1.21.
Criterio del valor monetario esperado, 6.1; Método de máxima verosimilitud, 1.5; 1.6;
6.5; 6.6; 6.9; 6.11; 6.12. 1.7; 1.8; 1.21.
Criterio maximax, 6.5; 6.6; 6.7; 6.9. Método de Scheffé de comparaciones múlti-
Criterio maximin o de Wald, 6.5; 6.6; 6.7; ples, 4.5; 4.6; 4.8; 4.13.
6.9. Métodos de construcción de estimadores, 1.5;
1.6; 1.7; 1.8; 1.21.
Muestreo aleatorio simple, 5.1; 5.2; 5.3; 5.4;
D 5.6; 5.7; 5.13; 5.14; 5.15.
Muestreo estratificado, 5.5; 5.6; 5.7; 5.8; 5.15.
Decisión bajo incertidumbre, 6.5; 6.6; 6.7; Muestreo estratificado, tipos de afijación y
6.8; 6.9; 6.10; 6.13; 6.14; 6.15. determinación del tamaño muestral, 5.5;
Decisión bajo riesgo, 6.1; 6.2; 6.3; 6.4; 6.5; 5.6; 5.7; 5.15.
6.6; 6.11; 6.12. Muestreo por conglomerados, 5.9; 5.10.
Decisiones secuenciales, 6.2; 6.3; 6.4. Muestreo sistemático, 5.11; 5.12.
Determinación del tamaño muestral, 1.13;
1.14; 1.15; 1.16; 1.17; 1.18; 1.22; 2.2; 2.4; P
2.5; 2.17.
Distribuciones en el muestreo, 1.7; 1.17; 1.23; Propiedades de los estimadores, 1.1; 1.2; 1.3;
1.24; 1.25. 1.4; 1.5; 1.6.

516 © Ediciones Pirámide


Índice por materias

R Test de Bartlett de homocedasticidad, 4.2;


4.3; 4.7; 4.8; 4.13.
Región crítica y región de aceptación, 2.1;
2.2; 2.3.
V

T Valor esperado de la información muestral,


6.3; 6.4.
Tablas de contingencia, 3.8; 3.9; 3.10; 3.11; Valor esperado de la información perfecta,
3.12. 6.1; 6.5; 6.12.

© Ediciones Pirámide 517


TÍTULOS RELACIONADOS

Análisis cuantitativo de la actividad turística, J. Alegre Martín, M. Cladera Munar, C. N. Juaneda Sam-
pol.
Análisis de datos económicos II. Métodos inferenciales, R. Pérez Suárez y A. J. López Méndez.
Análisis y adopción de decisiones, M. López Cachero.
Cien ejercicios de econometría, J. B. Pena Trapero, J. A. Estavillo Dorado, M.ª E. Galindo Frutos, M.ª J.
Leceta Rey y M.ª del M. Zamora Sanz.
Curso básico de matemáticas para la economía y dirección de empresas I, M. López Cachero y A. Vegas Pé-
rez.
Curso básico de matemáticas para la economía y dirección de empresas II, M. López Cachero y A. Vegas
Pérez.
Curso de matemática financiera, M.ª J. Vázquez Cueto.
Decisiones empresariales con criterios múltiples. Ayudas prácticas para la dirección, A. Leal Millán, M.
Sánchez-Apellániz García, J. L. Roldán Salgueiro y A. E. Vázquez Sánchez.
Econometría. M.ª M. Díaz Fernández y M.ª del M. Llorente Marrón.
Ejercicios de econometría I y II. A. Aznar Grasa, A. García Ferrer y A. Martín Arroyo.
Ejercicios de estadística descriptiva y probabilidad para economía y administración de empresas. J. M.
Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz.
Ejercicios de inferencia estadística y muestreo para economía y administración de empresas. J. M. Casas
Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz.
Estadística. Problemas resueltos, M.ª J. Peralta Astudillo, A. Rúa Vieytes, R. Redondo Palomo y C. del Campo
Campos.
Estadística aplicada a la historia y a las ciencias sociales. S. Coll Martínez y M. Guijarro Garvi.
Estadística aplicada para ordenadores personales. A. Pulido San Román y J. Santos Peñas.
Fundamentos y métodos de estadística. M. López Cachero.
Grafos neuronales para la economía y la gestión de empresas. A. Kaufmann y J. Gil Aluja.
Informática aplicada al turismo. A. Guevara Plaza (coord.).
Introducción a la econometría. F. J. Trívez Bielsa.
Introducción a las matemáticas financieras. S. Cruz Rambaud y M.ª del C. Valls Martínez.
Introducción a las matemáticas financieras. Problemas resueltos, M.ª del C. Valls Martínez y S. Cruz
Rambaud.
Invertir en la incertidumbre. J. Gil Aluja.
Manual de álgebra lineal para la economía y la empresa. F. M.ª Guerrero Casas y M.ª J. Vázquez Cueto
(coords.).
Manual de cálculo diferencial e integral para la economía y la empresa. F. M.ª Guerrero Casas y M.ª
J. Vázquez Cueto (coords.).
Matemática de los seguros de vida. R. Moreno Ruiz, O. Gómez Pérez-Cacho y E. Trigo Martínez.
Matemáticas aplicadas a la economía y a la empresa. 434 ejercicios resueltos y comentados, R. E. Caba-
llero Fernández, A. C. González Pareja, S. Calderón Montero, M.ª L. Rey Borrego, T. P. Galache Laza y F.
Ruiz de la Rúa.
Métodos de valoración de empresas. V. Caballer Mellado.
Métodos operativos de gestión empresarial. M. Martín Dávila.
Microeconometría y decisión. B. Cabrer Borrás, A. Sancho Pérez y G. Serrano Domingo.
Modelos econométricos. A. Pulido San Román y J. Pérez García.
Predicción y simulación aplicada a la economía y gestión de empresas. A. Pulido San Román y A. M.ª
López García.
Problemas de estadística. J. López de la Manzanara Barbero.
Problemas de matemáticas financieras. E. Camacho Peñalosa, D. Gómez Domínguez, M. A. Hinojosa Ra-
mos, V. Rubiales Caballero y M.ª J. Vázquez Cueto.
Técnicas de programación y control de proyectos. C. Romero López.

Si lo desea, en nuestra página web puede consultar el catálogo completo o descargarlo:

www.edicionespiramide.es

También podría gustarte