Está en la página 1de 71

EXÁMENES

RESUELTOS

ESTADÍSTICA

INFORMÁTICA
SISTEMAS

DELEGACIÓN DE ALUMNOS

CENTRO ASOCIADO DE BALEARES


COLECCIÓN DE EXAMENES DE ESTADÍSTICA

CENTRO DE ASOCIADO DE BALEARES


ESTADISTICA I (SISTEMAS)
Primera semana. 96/97

1. El tiempo que dura un proceso de validación de datos es una variable aleatoria con función
de densidad:

x2/9 0<=x<=a
f(x)=
0 resto
a) Calcular a.
b) Calcular el tiempo esperado del proceso de validación
c) Calcular la mediana de la distribución.

2. Un jugador tiene en su bolsillo dos dados de tipo A, tres de tipo B y cuatro de tipo C. Los
dados de tipo A tienen 3 caras con el número 3 y otras tres con el 6. Los de tipo B tienen
dos caras de cada uno de los números 2, 4 y 6. Los del tipo C tienen una cara con cada
uno de los números del 1 al 6. Si el jugador elige al azar un dato y lo lanza, se pide:
a) Calcular la probabilidad de que salga un 6.
b) Suponiendo que haya salido un 3, calcular la probabilidad de que el dado elegido haya sido
del tipo A

3. En una muestra aleatoria de 400 individuos se encontraron 12 cumpliendo una condición


determinada. ¿Hay una evidencia suficiente para concluir que la proporción de individuos
de esta clase es superior al 2%? (Utilice α=0.05)

4. Un sistema contiene 3 componentes conectados en serie que funcionan


independientemente. Suponiendo que el tiempo de vida de estos componentes (medido en
horas) sigue una distribución exponencial de media 1000, 3000 y 6000 horas,
respectivamente, calcular la probabilidad de que el sistema no falle antes de 100 horas.

Datos auxiliares:
a) La densidad exponencial es de la forma
1/β exp (-x/β) x>0
f(x)=
0 en otro caso

b) La conexión en serie implica que el sistema falla cuando lo hace alguno de sus
componentes.
ESTADÍSTICA I*
(Informática de Sistemas)
Primera Prueba Presencial. Primera Semana.
Curso 1998-99.

1. Se sabe que la cuarta parte de los habitantes de una gran ciudad tiene menos de 50
años y que la probabilidad de que un habitante muera de cáncer es 0.1 en el caso
de que tenga menos de 50 años, y 0.2 en otro caso.

(a) Determinar la probabilidad de que un habitante, elegido al azar, no muera de


cáncer.

(b) Si una persona murió de cáncer, ¿cuál es la probabilidad de que tuviera menos de
50 años?

2. Una compañía aérea afirma que la duración de sus vuelos entre las ciudades A y
B se distribuye según una ley Normal de media no superior a 1.2 horas. Sin
embargo, la competencia afirma que ésto no es cierto ya que, después de tomar 9
vuelos al azar, observó una duración media de 1.78 horas y una cuasivarianza de
0.36. ¿Avalan estos datos la afirmación de la competencia? (Utilice α = 0.05)

Datos auxiliares: t8,0.05 = 1.86 ; z0.05 = 1.645 ; z0.025 = 1.96

3. Una empresa compra grandes cantidades de una clase de dispositivos


electrónicos. La decisión para aceptar o rechazar un lote de dichos elementos se
toma en base a una muestra aleatoria de 100 unidades. Si el lote se rechaza
cuando se encuentran 3 ó más unidades defectuosas, ¿cuál es la probabilidad de
rechazar un lote con un 1% de dispositivos defectuosos?

4. Con el fin de describir el comportamiento de una variable cuantitativa X bajo


unas condiciones determinadas, se procedió a su observación. Los datos
registrados se resumen en la siguiente tabla de frecuencias:
__________________________________________
| X | 0 1 2 3 4 |
| Frec. abs. acumulada | 2 3 7 8 10 |

(a) Calcule la media de esta distribución.


(b) Obtenga una medida de la dispersión.

_______________________________________
*NO se permite el uso de CALCULADORA.
Estadística I - Sistemas
Primera Prueba Presencial. Segunda Semana. Curso 1998-99.
Examen realizado el 9 de febrero de 1999.
1. Una fábrica tiene tres plantas; el 20% de sus máquinas se montan en la primera planta, el 30% en la
segunda y el 50% restante en la tercera. Se sabe además que la cadena de montaje falla, dando lugar a
una máquina defectuosa, con probabilidades 0.1, 0.2 y 0.15 en cada una de las tres plantas.

a) Determinar la probabilidad de que una máquina cualquiera montada en esa fábrica sea defectuosa.
b) ¿Cuál es la probabilidad de que una máquina no defectuosa se haya montado en la primera planta?

2. La tabla siguiente resume los datos obtenidos en la observación de una variable cuantitativa X.

X 1 2 3 4 5
f 0.1 0.2 0.4 0.1 0.2

a) Calcular el coeficiente de variación.


b) Obtener los percentiles correspondientes al 25% y al 75%

3. Un vendedor afirma que el tiempo medio de vida de las bombillas que oferta a sus clientes no es
inferior a 10 meses. Extraída una muestra aleatoria de 64 bombillas, se obtuvo un tiempo de vida
medio de 9.8 meses y una cuasivarianza muestral de 1. ¿Avala la muestra, al nivel de significación
alfa=0.025, la afirmación hecha por el vendedor?

Datos auxiliares: Si F es la función de distribución de la N(0,1),


F(1.96) = 0.975 y F(1.645) = 0.95.

4. Se supone que el voltaje medido en cierto circuito eléctrico tiene una distribución Normal con
media 120 y desviación típica 2. Calcule la probabilidad de que una medición proporcione un voltaje:

a) superior a 118,
b) entre 116 y 118.

Datos auxiliares: F(1) = 0.8413 y F(2) = 0.9773, siendo F la función de distribución de la N(0,1).

NOTA: NO se permite el uso de calculadora.


ESTADÍSTICA I∗
(Informática de Sistemas)

Primera Prueba Presencial. Primera Semana.


Curso 2001-2002.

1. El siguiente diagrama de tallos y hojas propor- 3. El número de trabajadores que diariamente in-
ciona una descripción de la naturaleza de una tegran una cadena de montaje varía a causa del
colección de datos relativos a un aspecto cuanti- nivel de absentismo. La tabla siguiente contiene
tativo X de interés –con valores en el intervalo los datos registrados en una muestra aleatoria
[0, 100]. de la producción diaria, siendo X el número de
4 2 trabajadores ausentes e Y el número de produc-
5 5 tos defectuosos generados por dicha cadena.
6 9 3 8 5
X 1 3 5 0 2
7 2 9 2 1
Y 10 16 20 9 12
8 4 4 8
9 2 1 Si la recta de regresión estimada es
Se pide: y = 8.26 + 2.34x ,
(a) Calcular la media y la mediana de X. calcule un intervalo de confianza (99%) para la
(b) Obtener laPdesviación típica de X, par- predicción de la cantidad de productos defec-
tiendo de i x2i = 82169. tuosos que se obtendrán cuando el número de
operarios ausentes sea 4.
Datos auxiliares:
x̄ = 2.20, ȳ = 13.4, r
vy = 20.80,
· ³ ´¸
vy (1−r2 ) (x0 −x̄)2
I = y0 ± tn−2;α/2 n−2 1+ vx ,
2. Un programa se ejecuta desde uno cualquiera
de dos periféricos: P1 y P2 , de acuerdo con el t3;0.01 = 4.5407, t3;0.005 = 5.8409, t5;0.01 =
siguiente protocolo: si P1 está operativo el pro- 3.3649.
grama se ejecuta desde P1 ; si no lo está se reali-
za un segundo intento desde el segundo perifé-
rico; si éste está operativo el programa se eje-
cuta desde P2 , en caso contrario el programa se 4. Dos algoritmos A y B permiten simular cierto
queda sin ejecutar. Cada periférico está opera- proceso. En 10 simulaciones, realizadas con
tivo o no con independencia del estado del otro cada uno de ellos, se obtuvieron los siguientes
y las probabilidades de estar operativo son: 0.8 tiempos de ejecución por cada simulación
para P1 y 0.7 para P2 .
T iempo de ejecución (en segundos)
(a) Determínese la probabilidad de que el pro- A 7 10 8 9 6.5 8 7 7.5 9 8
grama no se ejecute. B 7 7 6 5.5 7 8 6.5 7 7 9
(b) Si el programa se ha ejecutado, ¿cuál es la ¿Proporcionan los datos la evidencia suficiente,
probabilidad de que lo haya hecho desde el al nivel de significación α = 0.05, para concluir
segundo periférico? que hay diferencias entre los tiempos medios de
ejecución de ambos algoritmos? Supóngase nor-
malidad e igualdad de varianzas en los tiempos
de ejecución.
Datos auxiliares: t20;0.05 = 1.725 , t18;0.05 =
∗ NO se permite el uso de CALCULADORA. No se exige 1.734 , t18;0.025 = 2.101 , z0.05 = 1.645 , z0.025 =
precisión en los cálculos; puede efectuar los redondeos que 1.96
considere oportunos.

1
ESTADÍSTICA I∗
(Informática de Sistemas)

Primera Prueba Presencial. Segunda Semana.


Curso 2001-2002.

1. Con el fin de seleccionar el sistema más rápido 3. Del tiempo que funciona cierta componente de
de almacenamiento y recuperación de datos un sistema hasta que comienza a presentar fa-
para un determinado tipo de procesos, se rea- llos sistemáticos se sabe que sigue una distribu-
lizó un experimento consistente en hacer 4 prue- ción normal. A fin de estimar el tiempo medio
bas con cada uno de los tres sistemas conside- de funcionamiento a pleno rendimiento, se ob-
rados: CD, Disco y Cinta. Los tiempos –en servaron 10 de estas componentes obteniéndose
minutos– requeridos en cada ocasión se refle- los siguientes tiempos –en miles de horas– de
jan en la siguiente tabla funcionamiento sin fallos:
CD Disco Cinta 1 ,1.5 ,0.8 ,1.2 ,0.9 ,1.1 ,1.4 ,1.3 ,0.7 ,0.1 .
8.7 7.0 7.2
9.3 6.4 9.1 Determínese:
7.9 9.8 7.5
8.0 8.2 7.7 (a) Una estimación puntual para el parámetro
Suma 33.9 31.4 31.5 de interés.
Media 8.475 7.850 7.875 (b) Un intervalo de confianza, al 90%, para el
Varianza 0.429 2.250 0.709 tiempo medio de funcionamiento.
Utilizando un nivel de significación α = 0.01,
contraste la hipótesis de igualdad de los tiempos Datos auxiliares: z0.05 = 1.645 , t9;0.05 =
medios. 1.833 , t10;0.05 = 1.812 , t9;0.1 = 1.383

Datos auxiliares: La variabilidad total es


11.167. F2;11;0.01 = 7. 2057, F2;9;0.01 = 8. 0215,
F3;9;0.01 = 6. 9919
4. Tratando de describir estadísticamente una
colección de 30 pares (X, Y ), se obtuvieron los
2. Un programa se puede ejecutar en uno siguientes resultados:
cualquiera de dos periféricos A y B, de acuerdo P P P 2
x = 15 , i yi = 30 P
, i yi = 190 ,
con el siguiente protocolo: en un primer intento Pi i 2
i (xi − x̄) (yi − ȳ) = 30 , i (xi − x̄) = 10
se elige uno de los dos periféricos al azar; si está .
operativo, el programa se ejecuta desde él; si no
lo está, se intenta ejecutar el programa desde el (a) Calcule la recta de regresión de Y sobre X
otro periférico; si éste no está operativo el pro- y el coeficiente de correlación.
grama se queda sin ejecutar. Cada periférico
(b) Compare la varianza residual con la va-
está operativo o no con independencia del es-
rianza de Y . ¿Qué se puede concluir?
tado del otro. Las probabilidades de estar ope-
rativo son: 0.9 para A y 0.6 para B.

(a) Determínese la probabilidad de que el pro-


grama no se ejecute.
(b) Si el programa se ha ejecutado, ¿cuál es
la probabilidad de que haya sido en el se-
gundo intento?
∗ NO se permite el uso de CALCULADORA. No se exige

precisión en los cálculos; puede efectuar los redondeos que


considere oportunos.

1
ESTADÍSTICA I∗ (402014)
(Informática de Sistemas)

Curso 2002-2003.
Primera Prueba Presencial (Primera Semana)

1. Extraemos tres dígitos al azar entre el 0 y el 9 3. Se dispone de los siguientes datos referentes a
para formar una clave. Se pide: 14 observaciones del par (X, Y ):
P P
(a) Calcular la probabilidad de que la clave xi = 517 yi = 346
tenga al menos dos cifras iguales.
1
P 1
P
(b) Calcular la probabilidad de que, si la clave 14 x2i = 2792.5 14 yi2 = 1246.7
obtenida es un número par, no sea superior 1
P
a 100. 14 xi yi = 1844.6

Se pide:

(a) Calcular la pendiente de la recta de regre-


sión de Y sobre X.
(b) Obtener una medida del ajuste de dicha
2. La lectura registrada por cierto aparato de me- recta a la nube de puntos.
dida es una variable aleatoria X con distribu-
ción normal. En una muestra de doce lecturas,
Datos auxiliares: Coeficiente de correlación
tomadas al azar, se han observado los siguientes
r = 0.98
valores de la variable X :

10, 15, 11, 12, 8, 13, 16, 5, 14, 5, 6, 5

(a) Dar una estimación puntual de la media de


X. Justifíquese la elección del estimador
4. Se piensa que el tiempo de respuesta de un
que se utiliza.
equipo informático, cuando se le solicita cierto
(b) Obtener un intervalo de confianza, al 95%, tipo de información, sigue una distribución ex-
para la media de X. ponencial con parámetro λ = 1 seg. (por tanto,
la densidad es f (x) = e−x , para x ≥ 0). Con-
traste dicha hipótesis utilizando los siguientes
Datos auxiliares: t12;0.025 = 2.179 , datos:
t11;0.05 = 1.796 , z0.025 = 1.96 , t11;0.025 =
2.201, z0.05 = 1.645 I Los puntos 0.22, 0.51, 0.92, 1.61 determinan 5
clases equiprobables para la densidad citada.
I La frecuencia observada en cada una de estas
clases, en un muestreo aleatorio de tamaño 40,
es:
6, 8, 10, 7, 9
respectivamente.

Datos auxiliares: χ25;0.025 = 12.833;


2 2
χ4;0.05 = 9.488 ; χ5;0.05 = 11.07

∗ NO se permite el uso de CALCULADORA.

1
ESTADÍSTICA I∗ (402014)
(Informática de Sistemas)

Curso 2002-2003.
Primera Prueba Presencial (Segunda Semana)

1. Para estudiar la posible relación entre dos varia- 3. Un algoritmo de búsqueda inspecciona una lista
bles, X e Y , se registraron los valores de dichas de 1000 registros a fin de localizar un registro
variables en una muestra aleatoria formada por determinado. El algoritmo emplea un proce-
20 individuos. De la información recogida se dimiento secuencial de búsqueda: recorre la
obtuvieron los siguientes datos estadísticos: lista de izquierda a derecha, comprobando si
1
P 1
P cada registro coincide con el que busca, hasta
xi = 53.69 yi = 58.81
20 20 que lo encuentra. Se pide:
1
P 1
P
20 x2i = 2948.82 20 yi2 = 3505.15 (a) Calcular la probabilidad de que lo encuen-
P tre en 6 intentos.
1
xi yi = 3197.39
20 (b) Calcular la probabilidad de que tenga que
Suponiendo un modelo de regresión lineal, ¿se realizar k intentos.
puede concluir, con un nivel de significación (c) Determinar el número medio de intentos
α = 0.05, que la pendiente de la recta de Y que realiza.
sobre X es positiva?

Datos auxiliares: t18;0.05 = 1.734 , t20;0.025 =


2.086 ; la estimación insesgada de la varianza
4. A partir de una muestra de 26 observaciones de
σ 2 vale 31.36 ; cuando β 1 = 0,
la variable X –que toma valores entre 320 y
β̂ 430–, se obtuvo el siguiente diagrama de tallos
q1 ∼ tn−2 . y hojas:
1
SR nvx 32 55
33 49
34
2. La distribución del error de medida de cierto 35 6699
aparato es una variable aleatoria con distribu- 36 34469
ción normal de media y varianza desconocidas. 37 03345
En 10 mediciones, tomadas al azar, se obser- 38 9
varon los siguientes errores (expresados en la 39 2347
unidad de medida correspondiente): 40 23
41
8, 10, 11, 10, 12, 10, 9, 8, 13, 9 42 4
(a) Obtener un intervalo de confianza, al 90%, (a) Reproduzca las 10 primeras observaciones
para el error de medida medio. (en la ordenación de menor a mayor).
(b) Si la varianza del error de medida es σ2 = (b) ¿Dónde está situada la mediana de la dis-
2.5 , obtener un nuevo intervalo, con el tribución? ¿Qué variación experimentaría
mismo nivel de confianza, para la media dicha medida de centralización si el má-
del error de medida. Compárelo con el ximo de la distribución aumentara su valor
obtenido en el apartado anterior. en 10 unidades?
(c) Sabiendo que el valor medio es 370.7,
Datos auxiliares: z0.1 = 1.28 , t10;0.05 =
¿cómo mediría la dispersión de los datos
1.812 , z0.05 = 1.645 , t9;0.05 = 1.833 , t9;0.1 =
respecto a este valor central? (No se re-
1.383 , t10;0.1 = 1.372
quiere realizar los cálculos)
∗ NO se permite el uso de CALCULADORA.

1
ESTADÍSTICA I (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martı́n

DEPARTAMENTO DE ESTADÍSTICA,
INVESTIGACIÓN OPERATIVA Y CÁLCULO
NUMÉRICO

Soluciones a los problemas del examen.


Primera prueba presencial. Curso 2002-2003
Soluciones a los problemas del examen. 1a P. Presencial 1

Problema 1. Primera semana. Extraemos tres dı́gitos al azar entre el 0


y el 9 para formar una clave. Se pide:

(a) Calcular la probabilidad de que la clave tenga al menos dos cifras iguales.
(b) Calcular la probabilidad de que, si la clave obtenida es un número par, no
sea superior a 100.

Solución

(a) Se pueden formar un total de 103 claves con los dı́gitos del 0 al 9.
Denotaremos por A el suceso

A = “ la clave tiene al menos dos cifras iguales ”

Vamos a calcular la probabilidad del complementario

Ac = “ todas las cifras que forman la clave son distintas ”

Hay 10 · 9 · 8 claves favorables al suceso Ac ; ya que la cifra de las centenas


puede ser uno cualquiera de los diez dı́gitos, la de las decenas uno de los
nueve restantes y la de las unidades uno cualquiera de los ocho que no
ocuparon el lugar de las centenas y decenas.

10 9 8
· · ·

10 · 9 · 8
La probabilidad del complementario es P (Ac ) = ; de donde se
103
sigue la probabilidad pedida:

10 · 9 · 8 18 7
P (A) = 1 − P (Ac ) = 1 − 3
=1− = .
10 25 25

(b) Vamos a resolver el problema utilizando dos métodos.


Método 1. El enunciado nos informa sobre el resultado del experimento: la
clave obtenida es un número par. Con esta información la incertidumbre
se modifica; de entrada excluirı́amos todas las claves impares. Por tanto,
el espacio muestral cambia y queda restringido al conjunto de todas las
claves pares entre la 0 0 0 y la 9 9 9 ; un total de 500, es decir

Ω = {Conjunto de claves pares entre la 0 0 0 y la 9 9 9 }


2 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

De todas ellas hay un total de 51 que no superan a 100; todos los pa-
res comprendidos entre el 0 cuya clave es 0 0 0 y el 100 con clave
1 0 0 . Consecuentemente, la probabilidad pedida será 51/500.

Método 2. Se considera el espacio muestral inicial que está formado por el


conjunto de todas las claves comprendidas entre el 0 y el 999:

Ω = {Conjunto de claves entre la 0 0 0 y la 9 9 9 }

A continuación, se consideran los sucesos

A = “ la clave obtenida no supera a 100 ”

B = “ la clave obtenida es un número par ”

Nos están pidiendo calcular la probabilidad condicionada

P (A ∩ B)
P (A|B) = .
P (B)

Del conjunto de todas las claves, un total de 1000, hay 51 que son pares
51
menores o iguales que 100; con lo cual se tiene que P (A ∩ B) = .
1000
Por otro lado, hay un total de 500 claves que son pares; luego se obten-
500
drá que P (B) = .
1000
Por tanto, la probabilidad pedida es

51/1000 51
P (A|B) = = .
500/1000 500

Problema 2. Primera semana. La lectura registrada por cierto aparato


de medida es una variable aleatoria X con distribución normal. En una muestra
de doce lecturas, tomadas al azar, se han observado los siguientes valores de la
variable X.

10 15 11 12 8 13 16 5 14 5 6 5

(a) Dar una estimación puntual de la media de X. Justifı́quese la elección del


estimador que se utiliza.

(b) Obtener un intervalo de confianza, al 95 %, para la media de X.


Soluciones a los problemas del examen. 1a P. Presencial 3

Solución
Pn
i=1 Xi
(a) Para estimar la media de X, utilizamos la media muestral: X̄ = .
n
Se propone este estimador porque es insesgado para el parámetro media de
la variable poblacional X que se desea estimar. Con la muestra obtenida,
la estimación resulta:

10 + 15 + 11 + 12 + 8 + 13 + 16 + 5 + 14 + 5 + 6 + 5
x̄ = = 10
12

(b) Puesto que la variable aleatoria poblacional es normal de varianza desco-


nocida, la cantidad pivotal que utilizamos para construir el intervalo de
confianza pedido es la basada en la distribución t de Student, que elimina
el efecto de la varianza poblacional:

X̄ − µ
U= √ ∼ tn−1
S/ n

donde

µ es la media de la variable X.
X̄ es la media muestral. En este caso la media muestral es 10.
S 2 es la cuasivarianza muestral. En la muestra obtenida S = 4.1.
n es el tamaño muestral. En este caso n = 12.

En primer lugar, encontramos el intervalo que contiene a U con una pro-


babilidad igual al nivel de confianza 0.95. Puesto que U tiene distribución
t con 11 grados de libertad, el problema se reduce a buscar los extremos de
un intervalo que contenga a una distribución t11 con una probabilidad de
0.95. Los extremos del intervalo, obtenidos de las tablas de la distribución
t11 , son −t11;0.025 = −2.201 y t11;0.025 = 2.201; ya que, por la simetrı́a de
la densidad de la distribución t (véase la figura 1), la probabilidad del in-
tervalo (2.201, ∞) es 0.025, la del (−∞, −2.201) es 0.025 y la del intervalo
(−2.201, 2.201) es 0.95 (área sombreada de la figura 1).

−2.201 2.201

Figura 1: Función de densidad de una t11


4 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Ahora que conocemos el intervalo, el resto del ejercicio es un sencillo cálcu-


lo matemático. Dado que

X̄ − µ S S
0.95 = P (−2.201 ≤ √ ≤ 2.201) = P (−2.201 √ ≤ X̄−µ ≤ 2.201 √ ),
S/ 12 12 12

despejando en la desigualdad anterior la media µ, se obtiene que


 
S S
X̄ − 2.201 √ , X̄ + 2.201 √
12 12
es un intervalo aleatorio que cubre a µ con probabilidad 0.95.
Una vez que se ha extraı́do la muestra, el intervalo anterior deja de ser
aleatorio, ya que los estimadores se sustituyen por sus valores en la mues-
tra. Para la muestra extraı́da el intervalo de confianza que resulta es
 
4.1 4.1
10 − 2.201 √ , 10 + 2.201 √ .
12 12


Problema 3. Primera Semana. Se dispone de los siguientes datos refe-


rentes a 14 observaciones del par (X, Y ):
P P
xi = 517 yi = 346

1 1
x2i = 2792.5 yi2 = 1246.7
P P
14 14

1
P
14 xi yi = 1844.6
Se pide:

(a) Calcular la pendiente de la recta de regresión de Y sobre X.


(b) Obtener una medida del ajuste de dicha recta a la nube de puntos.

Datos auxiliares: Coeficiente de correlación r = 0.98


Solución

(a) La pendiente de la recta de regresión de Y sobre X viene dada por el


cociente Pn
1
covx,y xi yi − x̄ȳ
= 1 Pi=1
n
n 2 2
vx n i=1 xi − x̄
ó, alternativamente, r
covx,y vy
=r
vx vx
Soluciones a los problemas del examen. 1a P. Presencial 5

Sustituyendo en la primera expresión queda


 346 
1844.6 − 51714 14
517 2

2792.5 − 14

(b) La varianza residual se define como el error cuadrático medio cometido


con la recta de regresión de Y sobre X. Entonces, su valor nos dará una
medida del ajuste de dicha recta a la nube de puntos. Con los datos del
enunciado obtenemos
n  2
1X 2 346
vy = yi − ȳ 2 = 1246.7 − = 635.9
n i=1 14

y
V arianza residual = 635.9 1 − 0.982 = 25.18


Sin embargo, si queremos una medida del error con mayor capacidad de
interpretación, deberemos calcular el valor relativo dado por el cociente

V arianza residual
= 1 − r2
vy

ó, equivalentemente, tomar el coeficiente r 2 como una medida del grado


de ajuste: un valor próximo a 1 reflejará un buen ajuste y un valor cer-
cano al 0 indicará la cualidad contraria. En definitiva, podrı́amos calcular
directamente
r2 = 0.96
concluyendo que, en este caso, el ajuste es bastante bueno.

Problema 4. Primera semana. Se piensa que el tiempo de respuesta de


un equipo informático, cuando se le solicita cierto tipo de información, sigue
una distribución exponencial con parámetro λ = 1 seg. (por tanto, la densidad
es f (x) = e−x , para x ≥ 0). Contraste dicha hipótesis utilizando los siguientes
datos:
I Los puntos 0.22, 0.51, 0.92, 1.61 determinan 5 clases equiprobables para la
densidad citada.
I La frecuencia observada en cada una de estas clases, en un muestreo
aleatorio de tamaño 40, es:
6, 8, 10, 7, 9
respectivamente.
Datos auxiliares: χ25;0.025 = 12.833; χ24;0.05 = 9.488 ; χ25;0.05 = 11.07
Solución
6 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Comparamos las frecuencias observada y esperada mediante el estadı́stico


P5 2
χ2 = i=1 (Oi −e
ei
i)
. Los resultados se muestran en la siguiente tabla

2 (Oi −ei )2 P5 (Oi −ei )2


Clases Oi ei (Oi − ei ) ei i=1 ei
Menores que 0.22 6 8 4 4/8 1.25
0.22 − 0.51 8 8 0 0
0.51 − 0.92 10 8 4 4/8
0.92 − 1.61 7 8 1 1/8
Mayores que 1.61 9 8 1 1/8

El procedimiento que vamos a aplicar consiste en rechazar la hipótesis de interés


—para el nivel de significación α— si se satisface la desigualdad
5 2
X (Oi − ei )
> χ25−1;α
i=1
ei

En nuestro caso, el estadı́stico proporciona el valor 1.25 y, según los datos auxi-
liares, χ24;0.05 = 9.488. Como consecuencia, no hay suficiente evidencia —al nivel
de significación 0.05— contra la hipótesis de que “el tiempo de respuesta sigue
una distribución exponencial con parámetro λ = 1 seg.”


Problema 1. Segunda Semana. Para estudiar la posible relación entre dos


variables, X e Y , se registraron los valores de dichas variables en una muestra
aleatoria formada por 20 individuos. De la información recogida se obtuvieron
los siguientes datos estadı́sticos:
1 1
P P
20 xi = 53.69 20 yi = 58.81

1 1
x2i = 2948.82 yi2 = 3505.15
P P
20 20

1
P
20 xi yi = 3197.39

Suponiendo un modelo de regresión lineal, ¿se puede concluir, con un nivel


de significación α = 0.05, que la pendiente de la recta de Y sobre X es positiva?
Datos auxiliares: t18;0.05 = 1.734 , t20;0.025 = 2.086 ; la estimación inses-
gada de la varianza σ 2 vale 31.36 ; cuando β1 = 0,

β̂
q1 ∼ tn−2 .
1
SR nvx
Soluciones a los problemas del examen. 1a P. Presencial 7

Solución
La pregunta alude al contraste
H0 : β 1 ≤ 0 , H 1 : β 1 > 0
Entonces, al nivel α = 0.05, rechazaremos la hipótesis nula —concluyendo que
β1 es positiva— cuando
β̂
q1 > t18;0.05
1
SR 20v x

Con los datos de este ejercicio resulta:


covx,y 3197.39−53.69×58.81
β̂1 = vx = 2948.82−53.692 = 0.60

SR = 31.36 = 5.6
q
1
20(2948.82−53.692 ) = 0.03

y, como consecuencia,
β̂ 0.6
q1 = = 3.57
SR 1 5.6 × 0.03
nvx

Dado que t18;0.05 = 1.734, los datos nos permiten concluir que la pendiente β1
es positiva.


Problema 2. Segunda semana. La distribución del error de medida de


cierto aparato es una variable aleatoria con distribución normal de media y
varianzas desconocidas. En 10 mediciones, tomadas al azar, se observaron los
siguientes errores (expresados en la unidad de medida correspondiente).
8 10 11 10 12 10 9 8 13 9
(a) Obtener un intervalo de confianza, al 90 %, para el error de medida medio.
(b) Si la varianza del error de medida es σ 2 = 2.5 obtener un nuevo intervalo
de confianza, con el mismo nivel de confianza, para la media del error de
medida. Compárelo con el obtenido en el apartado anterior.

Solución

(a) Puesto que el error de medida sigue una distribución normal con varianza
desconocida, la cantidad pivotal que se utiliza para obtener el intervalo de
confianza es

X̄ − µ
U= √ ∼ tn−1
S/ n

siendo
8 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

µ la media del error de medida.


X̄ la media muestral.
S 2 la cuasivarianza muestral.
n el tamaño muestral.

En este caso, para la muestra extraı́da de tamaño n = 10, se tiene que

8 + 10 + 11 + 10 + 12 + 10 + 9 + 8 + 13 + 9
x̄ = = 10
10

n
1 X (8 − 10)2 + (10 − 10)2 + · · · + (9 − 10)2
S2 = (xi −x̄)2 = = 2.67
n − 1 i=1 9

Emplearemos el mismo procedimiento que en el problema 2 de la primera


semana. Ahora el tamaño muestral es 10 y la cantidad pivotal U tiene
distribución t con 9 grados de libertad. Puesto que la probabilidad de que
U esté comprendida entre los valores −t9;0.05 = −1.833 y t9;0.05 = 1.833,
obtenidos de las tablas de la t9 , es 0.90 —área sombreada de la figura 2—
se obtendrá que

X̄ − µ S S
0.90 = P (−1.833 ≤ √ ≤ 1.833) = P (−1.833 √ ≤ X̄−µ ≤ 1.833 √ ).
S/ 10 10 10

Despejando en la desigualdad anterior µ, resulta que


 
S S
X̄ − 1.833 √ , X̄ + 1.833 √
10 10
es un intervalo aleatorio que cubre a µ con probabilidad 0.90.

−1.833 1.833

Figura 2: Función de densidad de una t9

Para la muestra obtenida, el intervalo con nivel de confianza del 90 % será


√ √ !
2.67 2.67
10 − 1.833 √ , 10 + 1.833 √ .
10 10
Soluciones a los problemas del examen. 1a P. Presencial 9

(b) Puesto que ahora la varianza de la población es σ 2 = 2.5 conocida, no


recurrimos, como hacı́amos en el apartado anterior, a la distribución t,
que elimina el efecto de la varianza. Utilizaremos la cantidad pivotal con
distribución normal dada por

X̄ − µ
V = √ ∼ N (0, 1)
σ/ n

donde

µ es la media del error de medida.


X̄ es la media muestral. Para la muestra extraı́da x̄ = 10.
σ 2 es la varianza de la población. En este caso σ 2 = 2.5
n es el tamaño muestral.

Al igual que en el apartado anterior, encontramos el intervalo que contiene


a V con una probabilidad de 0.90. La distribución N (0, 1), que rige su
comportamiento aleatorio, nos abre el camino. La probabilidad de que
V , o equivalentemente, una N (0, 1), esté comprendida entre los valores
−z0.05 = −1.645 y z0.05 = 1.645, obtenidos de las tablas de la normal, es
0.90 (área sombreada de la figura 3).

−1.645 1.645

Figura 3: Función de densidad de una N (0, 1)

Por tanto, se tendrá que

√ √
X̄ − µ 2.5 2.5
0.90 = P (−1.645 ≤ √ √ ≤ 1.645) = P (−1.645 √ ≤ X̄−µ ≤ 1.645 √ )
2.5/ 10 10 10

Despejando µ en la desigualdad, resulta el siguiente intervalo de extremos


aleatorios que cubre al error medio de medida con probabilidad 0.90
√ √ !
2.5 2.5
X̄ − 1.645 √ , X̄ + 1.645 √
10 10

Reemplazado el valor de la media muestral que resulta de la muestra


extraı́da, obtendremos el siguiente intervalo con nivel de confianza del
90 %:
10 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

√ √ !
2.5 2.5
10 − 1.645 √ , 10 + 1.645 √ .
10 10

Puesto que para la muestra extraı́da S 2 ≈ σ 2 , las longitudes de ambos


intervalos están caracterizadas por los cuantiles t9;0.05 y z0.05 de las dis-
tribuciones t y normal; el primero es mayor que el segundo ya que la
distribución t tiene colas más pesadas que la normal. Esto explica que el
intervalo de confianza basado en la t tenga mayor longitud que el basado
en la normal.

Problema 3. Segunda semana. Un algoritmo de búsqueda inspecciona


una lista de 1000 registros a fin de localizar un registro determinado. El al-
goritmo emplea un procedimiento secuencial de búsqueda: recorre la lista de
izquierda a derecha, comprobando si cada registro coincide con el que busca,
hasta que lo encuentra. Se pide:

(a) Calcular la probabilidad de que lo encuentre en 6 intentos.

(b) Calcular la probabilidad de que tenga que realizar k intentos.

(c) Determinar el número medio de intentos que realiza.

Solución

(a) Sea X la variable aleatoria

X = número de intentos hasta encontrar el registro buscado.

Supongamos que ponemos todos los registros en fila:

· · · ········· · ·

El algoritmo realizará seis intentos cuando no localice el registro que busca


en las cinco primeras posiciones de la fila y lo encuentre en la sexta.
Si denotamos por Ai el suceso “ el registro buscado ocupa la i−ésima
posición de la fila ” la probabilidad pedida será

P (X = 6) = P (Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ∩ Ac5 ∩ A6 ).

Por la regla de la multiplicación para el cálculo de la probabilidad de la


intersección de sucesos (sección 6 del capı́tulo 3 del texto base), se tiene
que
Soluciones a los problemas del examen. 1a P. Presencial 11

P (X = 6) = P (Ac1 )P (Ac2 |Ac1 )P (Ac3 |Ac1 ∩Ac2 ) · · · P (A6 |Ac1 ∩Ac2 ∩Ac3 ∩Ac4 ∩Ac5 ).

Por tanto, la probabilidad pedida será

      
999 998 997 996 995 1 1
P (X = 6) = =
1000 999 998 997 996 995 1000

(b) De la misma manera, la probabilidad de realizar k intentos es la pro-


babilidad de que el algoritmo no localice el registro en los k − 1 prime-
ros lugares de la fila y lo encuentre en el k-ésimo. Por tanto, para cada
k = 1, 2, . . . , 1000

    
999 1000 − k + 1 1 1
P (X = k) = ··· =
1000 1000 − k + 2 1000 − k + 1 1000

El cálculo anterior se generaliza sin dificultad a una lista con n registros.


Ası́, para cada k = 1, 2, . . . , n, se tiene que

     
n−1 n−2 n−k+1 1 1
P (X = k) = ··· =
n n−1 n−k+2 n−k+1 n

Sin embargo, para calcular P (X = k) en el caso general, preferimos utilizar


el siguiente razonamiento que en matemáticas llamamos recurrente y que
se sigue del procedimiento secuencial de búsqueda.
Denotaremos por pk,n la probabilidad de localizar el registro buscado en k
intentos con una lista de n registros y por A el suceso “el primer registro
de la fila es distinto al buscado”.
Para localizar el registro en k intentos, debe ocurrir A, y a continuación,
se han de realizar k − 1 intentos en una nueva lista con n − 1 registros
(todos menos el primero). Por tanto, la probabilidad del suceso {X = k}
será

n−1
pk,n = P (X = k) = pk−1,n−1 : k = 2, 3, . . . , n
n
de donde se sigue la ecuación recurrente

npk,n = (n − 1)pk−1,n−1 (1)


12 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

1
Teniendo en cuenta la condición inicial: p1,i = (en una lista con i regis-
i
tros la probabilidad de localizar el buscado en el primer intento es 1/i),
basta aplicar la ecuación anterior sucesivamente para obtener que

npk,n = (n−1)pk−1,n−1 = (n−2)pk−2,n−2 = · · · · · · = (n−k+1)p1,n−k+1 = 1

de donde se sigue que

1
pk,n = P (X = k) = : k = 1, 2, . . . , n.
n

(c) Ya que hemos sido capaces de generalizar el problema, vamos a seguir


utilizando la lista de n registros.
El número medio de intentos que realiza el algoritmo es la media de la
variable aleatoria X.

n n
X 1X
E{X} = kP (X = k) = k.
n
k=1 k=1

Calcular este sumatorio es un ejercicio sencillo si se tiene en cuenta que la


suma de cada dos términos del sumatorio que equidistan de los sumandos
extremos es igual a la suma de estos:

1 2 3 ········· n−2 n−1 n


n n−1 n−2 ········· 3 2 1
n+1 n+1 n+1 ········· n+1 n+1 n+1
Pn
De lo anterior se sigue que 2 k=1 k = n(n + 1), es decir,

n
1X n+1
E{X} = k= .
n 2
k=1

Cuando n = 1000, el número medio de intentos es 1001/2.


El razonamiento recurrente nos proporciona de nuevo un procedimiento
de cálculo de la media que evita cuentas “engorrosas” como las anteriores.
Denotamos por µn el número medio de intentos en una lista con n registros.
Si el registro buscado está en la primera posición de la fila, lo cual ocurre
con probabilidad 1/n, se realiza un intento y se acaba la búsqueda. En
(n − 1)
cambio, si no está, lo cual ocurre con probabilidad , contamos un
n
intento y comenzaremos a buscar en una lista con n − 1 registros; con lo
que, en este caso, el número medio de intentos será 1 + µn−1 .
Soluciones a los problemas del examen. 1a P. Presencial 13

De este razonamiento resulta la siguiente ecuación recurrente:

1 n−1
µn = + (1 + µn−1 ) (2)
n n

con la condición inicial µ1 = 1 (en una lista con un solo registro se localiza
el buscado en un intento).
Poniendo Qn = nµn , la ecuación recurrente 2 se transforma en

Qn = Qn−1 + n con Q 1 = µ1 = 1 (3)

Es posible que no sepas resolver esta ecuación en diferencias. Realmente


no lo necesitas, ya que el enunciado tan sólo te pide que encuentres µ1000 =
Q1000
. Seguro que sı́ sabes programar un bucle que realice el cálculo. Las
1000
siguientes cinco lı́neas de código te resultarán familiares.

Q=1
for n = 2 to 1000
Q=Q+n
next n
Q/1000

Para los aficionados a resolver problemas, vamos a solucionar 3.


Ensayamos para Qn una solución de la forma: Qn = a+bn+cn2 . Partiendo
de la condición inicial, basta aplicar la recurrencia dos veces para obtener

Q1 = 1 Q2 = 3 Q3 = 6

Sustituyendo los valores n = 1, n = 2 y n = 3 en la solución general, se


llega al siguiente sistema de ecuaciones.

a+b+c = 1
a + 2b + 4c = 3
a + 3b + 9c = 6

La solución del sistema es a = 0, b = 1/2, c = 1/2; con lo que

n n2
 
Qn 1 n+1
µn = = + =
n n 2 2 2

14 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Problema 4. Segunda Semana. A partir de una muestra de 26 obser-


vaciones de la variable X —que toma valores entre 320 y 430—, se obtuvo el
siguiente diagrama de tallos y hojas:

32 55
33 49
34
35 6699
36 34469
37 03345
38 9
39 2347
40 23
41
42 4

(a) Reproduzca las 10 primeras observaciones (en la ordenación de menor a


mayor).

(b) ¿Dónde está situada la mediana de la distribución? ¿Qué variación expe-


rimentarı́a dicha medida de centralización si el máximo de la distribución
aumentara su valor en 10 unidades?

(c) Sabiendo que el valor medio es 370.7, ¿cómo medirı́a la dispersión de los
datos respecto a este valor central? (No se requiere realizar los cálculos)

Solución

(a) Las observaciones pedidas son

325, 325, 334, 339, 356, 356, 359, 359, 363, 364

(b) La mediana de la distribución está situada en el punto

369 + 370
= 369.5
2
Si el máximo de la distribución, que es 424, aumentara su valor en 10
unidades, la mediana estarı́a situada en el mismo punto —en 369.5—, ya
que seguirı́amos teniendo el mismo número de observaciones a cada lado.

(c) Mediante la desviación tı́pica, que se define como la raı́z cuadrada positiva
de la varianza. Para el cálculo de esta última, se puede aplicar directamente
la definición:
1X 2
vx = (xi − x̄)
n i
Soluciones a los problemas del examen. 1a P. Presencial 15

ó, equivalentemente,
1X 2
vx = x − x̄2
n i i
1
3252 + 3252 + 3342 + ... + 4242 − 370.72

=
26


ESTADÍSTICA I∗ (402014)
(Informática de Sistemas)

Curso 2002-2003.
Septiembre (Original)

1. Se está realizando un estudio sobre los fallos 3. La cantidad –en kg– de cereal cosechada por
de un dispositivo electrónico. Este elemento se m2 en una región es una variable aleatoria con
puede montar en dos posiciones diferentes y hay distribución normal. En 25 localizaciones elegi-
cuatro tipos de fallos posibles. Un muestreo das al azar se obtuvo que la cantidad media
aleatorio proporciona la siguiente distribución cosechada por m2 fue de 18.5 kg con una cua-
de frecuencias: sivarianza de 1 kg2 . Contrastar la hipótesis de
que la cantidad media por m2 es de 18 kg, frente
Tipo de fallo a la alternativa de que es mayor. Tómese un
Posición de Montaje A B C D nivel de significación de α = 0.01
1 14 18 8 20
2 6 12 12 10 Datos auxiliares:

¿Concluiría que el tipo de fallo es independiente z0.01 = 2.33, t24;0.01 = 2.192, t25;0.01 = 2.485
de la posición de montaje?

Datos auxiliares:
t3;0.025 = 3.182 , χ8;0.05 = 15.507 ,
χ3;0.05 = 7.815, z0.05 = 1.645
4. Para cada una de las condiciones que se indican
a continuación, represente una nube de puntos
(X,Y) que sea compatible con ella:

2. Cierto aparato registra el nivel de saturación • Covarianza negativa


de la red eléctrica en una comarca. El error • Pendiente de la recta de regresión de Y
relativo porcentual de la medida dada por el sobre X positiva
aparato es una variable aleatoria continua X
con función de distribución • Correlación próxima a 1.
 • Correlación nula.
 0 si x<0
F (x) = 1 − (1 − x)3 si 0 ≤ x ≤ 1 (Nota: Justifique brevemente cada represen-

1 si x>1 tación)
Determinar:

(a) La función de densidad de la variable X.


(b) La probabilidad de que una medida regis-
trada por el aparato tenga un error entre
el 0.1% y el 0.2%.
(c) El error relativo medio.

∗ NO se permite el uso de CALCULADORA. Aproxime los

resultados de las operaciones para facilitar el cálculo. Deje


indicadas las operaciones no elementales.
ESTADÍSTICA I (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martı́n

DEPARTAMENTO DE ESTADÍSTICA,
INVESTIGACIÓN OPERATIVA Y CÁLCULO
NUMÉRICO

Soluciones a los problemas del examen.


Convocatoria de septiembre. Curso 2002-2003
Soluciones a los problemas del examen. Convocatoria de septiembre 1

Problema 1. Se está realizando un estudio sobre los fallos de un dispositivo


electrónico. Este elemento se puede montar en dos posiciones diferentes y hay
cuatro tipos de fallos posibles. Un muestreo aleatorio proporciona la siguiente
distribución de frecuencias:

Tipo de fallo
Posición de Montaje A B C D
1 14 18 8 20
2 6 12 12 10

¿Concluirı́a que el tipo de fallo es independiente de la posición de montaje?


Datos auxiliares:
t3;0.025 = 3.182, χ8;0.05 = 15.507, χ3;0.05 = 7.815, z0.05 = 1.645
Solución
Rechazaremos la hipótesis nula (Posición de Montaje independiente del Tipo
de Fallo), con un nivel de sgnificación α, si
4 X 2 2
X (oij − eij )
> χ2(2−1)(4−1);α
j=1 i=1
e ij

El enunciado nos proporciona la frecuencia observada (o ij ); multiplicando las


correspondientes frecuencias marginales y dividiendo por el tamaño de la mues-
tra obtenemos la frecuencia esperada bajo la hipótesis nula (eij ):

Tipo de fallo
Posición de Montaje A B C D
1 12 18 12 18 60
2 8 12 8 12 40
20 30 20 30 100
2
Con estos datos podemos realizar la operación (o − e) /e para cada celda de la
tabla, resultando:

Tipo de fallo
Posición de Montaje A B C D
1 4/12 0 16/12 4/18
2 4/8 0 16/8 4/12

Entonces,
4 X 2 2
X (oij − eij ) 4 + 16 + 4 16 + 4 4 144 + 180 + 16 340
= + + = = ' 4.7
j=1 i=1
eij 12 8 18 72 72
2 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Como 4.7 < χ23;0.05 = 7.815, concluimos que, con un nivel de significación α =
0.05, la condición de independencia es aceptable.


Problema 2. Cierto aparato registra el nivel de saturación de la red eléctrica


en una comarca. El error relativo porcentual de la medida dada por el aparato
es una variable aleatoria continua X con función de distribución

0
 si x < 0
3
F (x) = 1 − (1 − x) si 0 ≤ x ≤ 1

1 si x > 1

Determinar:

(a) La función de densidad de la variable X.


(b) La probabilidad de que una medida registrada por el aparato tenga un
error entre el 0.1 % y el 0.2 %.
(c) El error relativo medio.

Solución

(a) La representación gráfica de la función de distribución F (x) es la que


aparece en la figura 1.

−2 −1 0 1 2
Figura 1: Función de distribución de la variable aleatoria X

Puesto que la variable X es continua, la función de densidad se obtiene


derivando la de distribución. Dicha función viene dada por

0
 si x < 0
f (x) = F 0 (x) = 3(1 − x)2 si 0 ≤ x ≤ 1

0 si x > 1

Su representación gráfica es la que aparece en la figura 2.


Soluciones a los problemas del examen. Convocatoria de septiembre 3

−2 −1 0 1 2
Figura 2: Función de densidad de la variable aleatoria X

(b) El error de medida está entre el 0.1 % y el 0.2 % cuando 0.1 ≤ X ≤ 0.2.
Por tanto, la probabilidad pedida será

Z 0.2 Z 0.2
P (0.1 ≤ X ≤ 0.2) = f (x) dx = 3 (1 − x)2 dx = 0.217.
0.1 0.1

Esta probabilidad es el área sombreada de la figura 3.

−2 −1 0 1 2
Figura 3: P (0.1 ≤ X ≤ 0.2)

Un modo alternativo de llegar al mismo resultado es haciendo uso de la


función de distribución dada en el enunciado del problema.

Z 0.2 Z 0.2 Z 0.1


P (0.1 ≤ X ≤ 0.2) = f (x) dx = f (x) dx − f (x) dx
0.1 −∞ −∞

= F (0.2) − F (0.1) = 1 − (1 − 0.2)3 − (1 − (1 − 0.1)3 ) = 0.217.

(c) Finalmente, en este apartado nos están pidiendo la media de la variable


aleatoria X que mide el error, la cual viene dada por

1 1
x2 2x3 x4

1
Z ∞ Z
E{X} = xf (x) dx = 3 x(1−x)2 dx = 3 − + =
−∞ 0 2 3 4 0 4


4 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Problema 3. La cantidad —en Kg— de cereal cosechada por m2 en una


región es una variable aleatoria con distribución normal. En 25 localizaciones
elegidas al azar se obtuvo que la cantidad media cosechada por m2 fue de 18.5
kg con una cuasivarianza de 1 kg. Contrastar la hipótesis de que la cantidad
media por m2 es de 18 kg, frente a la alternativa de que es mayor. Tómese un
nivel de significación de α = 0.1.
Datos auxiliares: z0.01 = 2.33, t24;0.01 = 2.192, t25;0.01 = 2.485
Solución
El contraste de hipótesis sobre la cantidad media µ de cereal cosechado por
m2 viene dado por

H0 : µ = 18 H1 : µ > 18.
Dado que la cantidad recolectada por m2 es una variable aleatoria con distri-
bución normal de varianza desconocida, el estadı́stico de contraste que debemos
emplear es

X̄ − µ0
√ ∼ tn−1 ,
S/ n

donde

µ0 : la media poblacional bajo H0 . En este caso µ0 = 18.


X̄: media muestral. Para la muestra extraı́da X̄ = 25.
S 2 : cuasivarianza muestral. Para la muestra extraı́da S 2 = 1.
n: tamaño muestral. En este caso n = 25.

La región crı́tica del test viene dada por


 
X̄ − µ0
R= √ > tn−1;α ,
S/ n
siendo α el nivel de significación y tn−1;α el cuantil 1 − α de una distribución
t con n − 1 grados de libertad, es decir, el valor de la distribución que verifica
que P (tn−1 ≤ tn−1;α ) = 1 − α.
En este caso, para un tamaño muestral n = 25 y un nivel de significación
α = 0.01, la región crı́tica —zona sombreada de la figura 4— viene dada por
 
X̄ − 18
R= > t24;0.01 = 2.192 .
S/5
X̄ − 18 18.5 − 18
Para la muestra extraı́da se obtendrá que = = 2.5 ∈ R,
S/5 1/5
lo cual conduce a rechazar la hipótesis nula de que la cantidad media de cereal
cosechada por m2 es de 18 Kg.
Soluciones a los problemas del examen. Convocatoria de septiembre 5

2.192

Figura 4: Función de densidad de una t24

Problema 4. Para cada una de las condiciones que se indican a continua-


ción, represente una nube de puntos (X, Y ) que sea compatible con ella:

Covarianza negativa.

Pendiente de la recta de regresión de Y sobre X positiva.

Correlación próxima a 1.

Correlación nula.

(Nota: Justifique brevemente cada representación)


Solución

Breve justificación: La relación entre covarianza, coeficiente de corre-


lación lineal y pendiente de la recta de regresión de Y sobre X se
pone de manifiesto en las siguientes igualdades:
r
covx,y vy
P endiente = =r
vx vx

Por tanto, dichos elementos tendrán siempre el mismo signo (gráficas de


la figura 5).
Y
Y

X X

Figura 5: Covarianza negativa. Pendiente positiva


6 Estadı́stica I (Sistemas). UNED. Curso 2002-2003

Además, el valor del coeficiente de correlación se refleja en la varianza


residual según indica la siguiente expresión:

varianza residual = vy 1 − r 2 .


Ası́, el caso de correlación próxima a 1 se corresponde con un valor pe-


varianza residual
queño para el cociente (gráfica izquierda de la figura
vy
6), mientras que un coeficiente de correlación nulo supone una varianza
residual cercana a su valor máximo, que es vy (gráfica derecha de la figura
6).
Y

X X

Figura 6: Correlación próxima a 1. Correlación nula


ESTADÍSTICA I∗ (402014)
(Informática de Sistemas)

Curso 2002-2003.
Septiembre (Reserva)

1. Se pretende describir el comportamiento de dos 3. A fin de contrastar la hipótesis de igualdad de


variables cuantitativas, X e Y, en una población varianzas de dos poblaciones normalmente dis-
determinada. Tras un estudio estadístico, se tribuidas, se obtuvo una muestra aleatoria de
realiza un informe en el que aparecen los si- cada una de ellas. Los resultados de ambas
guientes datos: muestras se recogen en la siguiente tabla:
Población 1 10.5 9.5 11 8 9 10
• La recta de regresión de Y sobre X es: 9.8 10.2
Y = 0.24X + 1.80 Población 2 17 18 16.5 17.2 19 18.5
• Coeficiente de correlación lineal: −0.21 18.3 17.5 17.8 17.7

• Varianza de Y : 120.5 ¿Qué evidencia proporcionan los datos acerca


de la hipótesis que se pretende contrastar?
• Varianza residual ( Y sobre X): 10.25 Tómese nivel de significación α = 0.1 .

Detecte y comente los errores que contiene este Datos auxiliares:


informe.
t16;0.01 = 2.552 , F7,9;0.1 = 2.5053 , F7,9;0.05 =
3.2927, F9,7;0.05 = 3.6767

2. La variable aleatoria X, que mide –en días–


el tiempo de funcionamiento de determinados
equipos, hasta que comienzan a presentar fallos, 4. Del análisis de la varianza de una variable res-
tiene la siguiente función de densidad: puesta (Y ), que se ha medido bajo 3 condiciones
½ diferentes, se conocen los siguientes datos:
0 si x ≤ 0,
f (x) = 1 −x/1000 • N o de observaciones de cada clase: 10
1000 e si x > 0 .
• Media de cada grupo: 8.1 (Grupo 1), 9.5
Determinar: (Grupo 2) y 9.9 (Grupo 3)
• Estadístico F : 0.8
(a) La probabilidad de que uno de estos
equipos dure al menos 100 días. Se pide:
(b) La probabilidad de que un equipo que no (a) Completar la tabla de análisis de la
ha fallado en 100 días, comience a hacerlo varianza.
antes de 500. (b) Obtener conclusiones a partir de los
(c) Si un sistema está formado por tres de es- datos estadísticos disponibles.
tos equipos conectados en serie, ¿cuál es
la probabilidad de que el sistema funcione Datos auxiliares:
correctamente durante al menos 300 días?
Supóngase que cada equipo funciona con F27,2;0.01 = 99.462, F2,27;0.05 = 3.3541,
independencia de los otros. F3,10;0.01 = 6.5523
∗ NO se permite el uso de CALCULADORA. Aproxime los

resultados de las operaciones para facilitar el cálculo. Deje


indicadas las operaciones no elementales.
ESTADISTICA I – SEPTIEMBRE 2003 RESERVA

PROBLEMA 1

a) el signo de la pendiente es positivo, por lo tanto el coeficiente de correlación ha de ser positivo.


Problema 2.
La variable aleatoria X que mide en días el tiempo de funcionamiento de determinados equipos, Hasta que
comienzan a presentar fallos, tiene la siguiente función de densidad:

⎧0 si x ≤ 0

f ( x) = ⎨ 1 − x /1000
⎪⎩1000 e si x > 0

Determinar:
(a) La probabilidad de que uno de estos equipos dure al menos 100 días.
(b) La probabilidad de que un equipo que no ha fallado en 100 días, comience a hacerlo antes de 500.
(c) Si un sistema esta formado por tres de estos equipos conectados en serie, ¿cual es la probabilidad de que
el sistema funcione correctamente durante al menos 300 días? Supóngase que cada equipo funciona con
independencia de los otros.
PROBLEMA 3
a)
CM GL SC E
EG 17,867 2 8,933 0,8
DG 192,96 27 7,146
T 210,83

b) Aceptamos la hipótesis nula con un nivel de significación del 5%, que establece que la media es la
misma en los tres grupos.
ESTADÍSTICA (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martı́n

DEPARTAMENTO DE ESTADÍSTICA,
INVESTIGACIÓN OPERATIVA Y CÁLCULO
NUMÉRICO

Soluciones a los problemas de examen.


Primera prueba presencial. Curso 2003-2004
Soluciones a los problemas del examen. 1a P. Presencial 1

Problema 1. Primera semana. Partiendo de 10 observaciones del par


(X, Y ), y con el fin de estudiar la asociación entre dichas variables, se calcularon
la recta de regresión de Y sobre X y el coeficiente de correlación muestral,
resultando:

Y = 25.5 + 3.6X ; r = 0.90,


respectivamente. También se sabe que la varianza de X es 16. Se pide:

(a) Calcular la varianza de la variable Y .

(b) ¿Cuánto vale la covarianza entre ambas variables?

Solución

(a) La pendiente (pend) de la recta de regresión de Y sobre X se relaciona con


la varianza de Y a través de la siguiente igualdad
r
covx,y vy
pend = =r
vx vx

Con los datos del enunciado resulta


 2  2
pend 3.6
vy = × vx = × 16 = 256
r 0.9

(b) Para el cálculo de la covarianza se puede utilizar



covx,y = r vx vy

ó bien,
covx,y = pend × vx
De cualquier modo, se obtiene que

covx,y = 57.6

Problema 2. Primera semana. Con el fin de ejecutar un proceso se se-


lecciona uno de tres periféricos A, B y C. Las probabilidades de escoger cada uno
de ellos son: 0.5 para A, 0.3 para B y 0.2 para C. Como resultado de la elección,
se pueden producir perturbaciones que detienen la ejecución del proceso. Esto
ocurre el 10 % de las veces si el periférico seleccionado fue A, el 20 % si fue B y
el 15 % si fue C.

(a) Hallar la probabilidad de que el proceso no se ejecute.


2 Estadı́stica (Sistemas). UNED. Curso 2003-2004

(b) Si el proceso se ha ejecutado, ¿cuál es la probabilidad de que lo haya hecho


desde A ó B?

Solución

(a) Vamos a denotar por A, B, C y E los siguientes sucesos:

A =“ El periférico seleccionado es el A ”
B =“ El periférico seleccionado es el B ”
C =“ El periférico seleccionado es el C ”
E =“ El proceso se ejecuta ”

Las probabilidades de los sucesos A, B y C son las probabilidades de


selección de cada uno de los periféricos, que vienen dadas por:

P (A) = 0.5 , P (B) = 0.3 , P (C) = 0.2.

El proceso no se ejecutará cuando se produzca una perturbación que lo


detenga. Puesto que las probabilidades de que ocurran estas perturbacio-
nes en cada uno de los periféricos vienen dadas por 0.1, 0.2 y 0.15, se
tendrá que:

P (E c |A) = 0.1 , P (E c |B) = 0.2 y P (E c |C) = 0.15.

Consecuentemente, aplicando el teorema de la probabilidad total se obtie-


ne la probabilidad pedida de que el proceso no se ejecute, dada por

P (E c ) = P (E c |A)P (A) + P (E c |B)P (B) + P (E c |C)P (C)

= 0.1 × 0.5 + 0.2 × 0.3 + 0.15 × 0.2 = 0.14.

(b) El enunciado nos dice que el proceso se ha ejecutado. Dada esta informa-
ción, se pide hallar la probabilidad de que la ejecución se hubiera realizado
desde el periférico A ó B. La probabilidad pedida es una probabilidad con-
dicionada por el suceso que recoge tal información —el suceso E—. Por
tanto, tendremos que calcular P (A ∪ B|E). Se sabe que:

P ((A ∪ B) ∩ E)
P (A ∪ B|E) =
P (E)

P (A ∩ E) + P (B ∩ E) P (E|A)P (A) + P (E|B)P (B)


= = .
P (E) P (E)
Soluciones a los problemas del examen. 1a P. Presencial 3

La probabilidad del suceso E se obtiene del apartado anterior:

P (E) = 1 − P (E c ) = 1 − 0.14 = 0.86.

Las probabilidades condicionadas del numerador son:

P (E|A) = 1 − P (E c |A) = 0.9 y P (E|B) = 1 − P (E c |B) = 0.8.

Por tanto,

0.9 × 0.5 + 0.8 × 0.3 0.45 + 0.24 69


P (A ∪ B|E) = = = ≈ 0.8023256.
0.86 0.86 86

Otra manera de llegar al mismo resultado serı́a mediante el cálculo de la


probabilidad del complementario P (C|E), la cual viene dada por

P (C ∩ E) P (E|C)P (C) 0.85 × 0.2 17


P (C|E) = = = = ≈ 0.1976744,
P (E) P (E) 0.86 86

17 69
de donde P (A ∪ B|E) = 1 − P (C|E) = 1 − = ≈ 0.8023256.
86 86


Problema 3. Primera Semana. Una muestra aleatoria de 200 dı́gitos


proporcionó los datos que se recogen en la siguiente tabla de frecuencias

Dı́gito Frecuencia
0 10
1 20
2 19
3 21
4 21
5 15
6 21
7 22
8 25
9 26

Contraste la hipótesis de que la muestra procede de una distribución en la


que los 10 dı́gitos son igualmente probables.
4 Estadı́stica (Sistemas). UNED. Curso 2003-2004

Solución
Estamos ante una situación que el Texto Base identifica como “contraste de
la bondad del ajuste (primer caso)”. La forma de proceder es calcular el valor
del estadı́stico
10 2
X (Oi − ei )
χ2 =
i=1
ei

y comparar con el dato que nos proporciona la distribución χ29 (9 grados de


libertad) para el nivel de significación seleccionado.
Respecto al cálculo del estadı́stico, el enunciado nos proporciona la frecuen-
cia observada (Oi ) en una muestra aleatoria de tamaño 200, mientras que la
frecuencia esperada (ei ) bajo la hipótesis de que los 10 dı́gitos fuesen igualmen-
te probables es, en cada caso, 20. Entonces,
2
(Oi − ei ) : 100, 0, 1, 1, 1, 25, 1, 4, 25, 36

y
10 2
X (Oi − ei ) 194
= = 9.7
i=1
ei 20

Entre los datos auxiliares encontramos χ29;0.05 = 16.92; entonces, dado que

9.7 < 16.92

las desviaciones observadas no son significativas, al nivel α = 0.05, y por tanto,


aceptamos la hipótesis de que en la población los 10 dı́gitos son equiprobables.


Problema 4. Primera semana. De una población normal se extrae una


muestra aleatoria de tamaño 10, obteniéndose las siguientes observaciones:

1, 2, 5, 1, 3, 7, 4, 2, 3, 2

(a) Obtener una estimación insesgada de la media poblacional.


(b) Contrastar la hipótesis de que la media poblacional es 3.5, frente a la
alternativa de que es menor. Tómese un nivel de significación de α = 0.01.

Solución

n
1X
(a) Se sabe que la media muestral X̄ = Xi es un estimador insesgado
n i=1
n
1X
de la media poblacional µ, ya que E{X̄} = E{Xi } = µ.
n i=1
Para la muestra extraı́da la estimación viene dada por
Soluciones a los problemas del examen. 1a P. Presencial 5

1+2+5+1+3+7+4+2+3+2
x̄ = = 3.
10

(b) La muestra obtenida ha proporcionado un valor para la media muestral de


x̄ = 3. Se trata de comprobar si ese valor proporciona evidencia estadı́stica
en favor de la hipótesis de que la media poblacional es µ = 3.5 o por el
contrario apoya la alternativa de que es inferior.
El problema se plantea en términos de un contraste de hipótesis en el que

H0 : µ = 3.5 H1 : µ < 3.5.

Dado que la variable aleatoria poblacional sigue una distribución normal


de media y varianza desconocidas, el contraste se lleva a cabo utilizando
la cantidad pivotal

X̄ − µ0
√ ∼ tn−1 ,
S/ n

donde

µ0 : la media poblacional bajo H0 . En este caso µ0 = 3.5.


X̄: media muestral.
S 2 : cuasivarianza muestral.
n: tamaño muestral.

La región crı́tica del test —conjunto de todas las muestras para las que se
rechaza H0 — viene dada por
 
X̄ − µ0
R= (X1 , X2 , . . . , Xn ) : √ <c
S/ n
donde el punto crı́tico c se determina con la condición del nivel de signifi-
cación, la cual viene dada por:

 
X̄ − µ0
PH0 ((X1 , X2 , . . . , Xn ) ∈ R) = P √ <c = P (tn−1 < c) = 0.01.
S/ n

En este caso, para un tamaño muestral de n = 10, el punto crı́tico vale


c = −2.821, ya que para una distribución t con 9 grados de libertad se
tiene que P (t9 < −2.821) = 0.01 (véase la figura 1, en la que el área de
la región sombreada coincide con el nivel de significación
 α = 0.01).Por
X̄ − µ0
tanto, la región crı́tica R está definida por R = √ < −2.821 .
S/ n
6 Estadı́stica (Sistemas). UNED. Curso 2003-2004

0.01
−2.821

Figura 1: Punto crı́tico para una t9 (α = 0.01)

Para la muestra extraı́da, se sabe que x̄ = 3 y que

n
1 X (1 − 3)2 + (2 − 3)2 + · · · + (2 − 3)2 32
S2 = (Xi − X̄)2 = = ,
n − 1 i=1 9 9

de donde se sigue que


r
X̄ − µ0 3 − 3.5 10
√ =p = −1.5 × ∈
/ R.
S/ n 32/90 32

Consecuentemente, la muestra extraı́da no proporciona evidencia estadı́sti-


ca como para rechazar H0 y mantendremos la afirmación de que la media
de la población es 3.5.

Problema 1. Segunda Semana. Con el fin de describir un conjunto de


10 observaciones del par de variables (X, Y ), se calcularon la recta de regresión
de Y sobre X y la correspondiente varianza residual, resultando:

Y = 23.5 − 10.2X ; V arianza residual = 9,


respectivamente. Se pide:

(a) ¿Cuál es el signo de la covarianza? (Justifique la respuesta sin calcular


dicho dato)
(b) Si la varianza residual representa el 19 % de la varianza de Y , ¿cuánto vale
el coeficiente de correlación muestral?

Solución

(a) La relación entre la covarianza y la pendiente (pend) de la recta de regre-


sión de Y sobre X se pone de manifiesto en la siguiente igualdad

covx,y = pend × vx
Soluciones a los problemas del examen. 1a P. Presencial 7

Como la varianza es siempre positiva, covarianza y pendiente tendrán


siempre el mismo signo. En este caso la pendiente es −10.2; por tanto, la
covarianza es negativa.

(b) El enunciado nos adelanta que

V arianza residual
= 0.19
vy

Entonces, dado que

V arianza residual
= 1 − r2
vy

resulta
r2 = 0.81
y, como consecuencia
r = −0.9

Nota: Observe que el signo del coeficiente de correlación es el mismo que el de


la covarianza.

Problema 2. Segunda semana. Se lanza un dado, y a continuación, tantas


monedas como puntuación se obtuvo en el lanzamiento del dado.

(a) Hallar la probabilidad de que se obtenga alguna cara.

(b) Si se ha obtenido alguna cara, ¿cuál es la probabilidad de que el resultado


del dado fuera un uno?

Solución

(a) Denotaremos por X la variable aleatoria que da la puntuación del dado y


por A el suceso “ Obtener alguna cara ”. Vamos a razonar por cálculo de
la probabilidad del complementario de A.
Las probabilidades a priori de las distintas puntuaciones del dado son

1
P (X = i) = con i = 1, 2, 3, 4, 5, 6.
6
Por otro lado, si en el lanzamiento del dado se obtuvo la puntuación i,
el suceso complementario de A ocurrirá cuando se obtengan i cruces al
lanzar la moneda; con lo cual
8 Estadı́stica (Sistemas). UNED. Curso 2003-2004

 i
1
P (Ac |X = i) = : i = 1, 2, 3, 4, 5, 6.
2

Del teorema de la probabilidad total se sigue la probabilidad del suceso


complementario de A:

6 6  i
c
X
c 1X 1
P (A ) = P (A |X = i)P (X = i) =
i=1
6 i=1 2

1 (1/2)6 (1/2) − (1/2) 26 − 1


 
1 21
= = = ,
6 (1/2) − 1 6 26 128

21 107
de donde se obtendrá que P (A) = 1 − P (Ac ) = 1 − = .
128 128

(b) La información dada sobre el resultado del experimento aleatorio: “ se ha


obtenido alguna cara ” modifica las probabilidades a priori de las distintas
puntuaciones del dado. Nos están pidiendo recalcular la probabilidad de
que X = 1, conocida dicha información, es decir, hallar la probabilidad a
posteriori P (X = 1|A).
Este es un ejemplo tı́pico de aplicación de la regla de Bayes para el que

P ({X = 1} ∩ A) P (A|X = 1)P (X = 1)


P (X = 1|A) = =
P (A) P (A)
1
[1 − P (Ac |X = 1)]P (X = 1) 1 − 12 6 32
= = 107 = .
P (A) 128
321

Problema 3. Segunda semana. El análisis de la varianza de una variable


respuesta Y , medida bajo una serie de condiciones, proporcionó los datos que
se recogen en la siguiente tabla

Fuente de variación SC GL CM F
Entre grupos 348 3 — —
Dentro de los grupos — 8 —

(SC: Suma de cuadrados; GL: Grados de libertad; CM: Cuadrado medio; F: Estadı́stico)

Sabiendo que la varianza total es 428, complete las posiciones que faltan en
la tabla (marcadas con —) y obtenga conclusiones sobre el comportamiento de
Y en los grupos considerados.
Soluciones a los problemas del examen. 1a P. Presencial 9

Solución
Como la varianza total es 428 y la SC(“Entre”) = 348, resulta

SC(“Dentro”) = 428 − 348 = 80

Además,

CM (“Entre”) = 348/3 = 116


CM (“Dentro”) = 80/8 = 10
F (“Estadı́stico”) = 116/10 = 11.6

Una vez completada la tabla, observamos que el valor obtenido para el es-
tadı́stico F satisface la desigualdad

F3,8;0.05 = 9.28 < 11.6

Este hecho nos conduce al rechazo, con un nivel de significación del 5 %, de la


hipótesis nula, que establece que la respuesta media es la misma en los 4 grupos
considerados.


Problema 4. Segunda Semana. De una población con distribución nor-


mal se extrae una muestra aleatoria de tamaño 11, de la cual se obtiene una
varianza muestral de 5.

(a) Obtener una estimación insesgada de la varianza poblacional.

(b) Contrastar la hipótesis de que la varianza poblacional es 4.5, frente a la


alternativa de que es mayor. Tómese un nivel de significación de α = 0.05.

Solución

(a) Se sabe que un estimador insesgado de la varianza poblacional es la cua-


sivarianza muestral definida mediante

n
1 X n
S2 = (Xi − X̄)2 = v2 ,
n − 1 i=1 n−1 x

donde vx2 es la varianza muestral —cuyo valor es proporcionado por el


enunciado—.
11
Por tanto, la estimación insesgada vendrá dada por S 2 = × 5 = 5.5.
10
10 Estadı́stica (Sistemas). UNED. Curso 2003-2004

(b) El enunciado pide realizar un contraste de hipótesis para la varianza de


la población σ 2 , con una hipótesis nula que postula que la varianza es 4.5
frente una alternativa que afirma que es mayor:

H0 : σ 2 = 4.5 H1 : σ 2 > 4.5.

El objetivo es comprobar si la evidencia proporcionada por la muestra,


descrita en términos de la cuasivarianza muestral, corrobora la hipótesis
nula o, por el contrario, la desacredita. Para ello, utilizaremos la cantidad
pivotal que corresponde a la situación planteada.
Dado que la distribución poblacional es normal, llevaremos a cabo el con-
traste empleando el estadı́stico:

(n − 1)S 2
∼ χ2n−1 ,
σ02

donde

σ02 : varianza poblacional bajo H0 . En este caso σ02 = 4.5.


S 2 : cuasivarianza muestral. Para la muestra extraı́da se obtuvo en el
apartado anterior que S 2 = 5.5.
n: tamaño muestral. En este caso n = 11.

La región crı́tica del contraste —conjunto de muestras para las que se


rechaza H0 — viene dada por

(n − 1)S 2
 
R= (X1 , X2 , . . . , Xn ) : > c ,
σ02

donde el punto crı́tico c se determina con la condición del nivel:

(n − 1)S 2
 
PH0 ((X1 , X2 , . . . , Xn ) ∈ R) = P >c = P (χ2n−1 > c) = 0.05.
σ02

0.05
18.307

Figura 2: Punto crı́tico para una χ210 (α = 0.05)


Soluciones a los problemas del examen. 1a P. Presencial 11

En este caso, para un tamaño muestral de n = 11, el punto crı́tico vale


c = 18.307, ya que para una distribución χ2 con 10 grados de libertad se
cumple que P (χ210 > 18.307) = 0.05 —véase la región sombreada en la
figura 2—.
Para la muestra extraı́da, el valor de la cuasivarianza se sabe que es S 2 =
(n − 1)S 2 10 × 5.5
5.5; con lo cual = < 18.307, es decir, la muestra
σ02 4.5
no pertenece a la región crı́tica. Por tanto, la decisión que adoptaremos
será aceptar, con un nivel de significación de α = 0.05, la hipótesis nula
de que el valor de la varianza poblacional es 4.5.

También podría gustarte