Está en la página 1de 5

Inferencia Estadı́stica (ITAM)

Solución de la tarea 1

Profesor: Juan Martı́nez Parente

Ejercicios
1. La siguiente información corresponde a una muestra de 13 autos usados de las marcas A, B, C y D vendidos en
una distribuidora. Además de la marca, se tiene registro de los años de uso de cada auto y el precio (en miles
de pesos) en que fueron vendidos.

Marca B C C B A B A D B A A C C
Años de uso 11 12 8 7 12 8 11 10 8 9 6 7 6
Precio de venta 36 40 50 60 60 76 80 80 80 81 86 100 120

(a) Considerando la variable de años de uso, llena la siguiente tabla de frecuencias, donde f es la frecuencia
absoluta, f % es la frecuencia relativa, F es la frecuencia absoluta acumulada y F % es la frecuencia
relativa acumulada.
Años de uso f f% F F%
[5, 7) 2 15.4 2 15.4
[7, 9) 5 38.5 7 53.8
[9, 11) 2 15.4 9 69.2
[11, 13) 4 30.8 13 100
(b) Considera las tres variables (marca, años de uso y precio). En cada caso, indica cuál es su escala de
medición y si se trata de una variable cualitativa o cuantitativa.
• Marca: cualitativa nominal
• Años: cuantitativa (discreta) y de razón, pues el cero indica ausencia del atributo (no puede haber
valores negativos).
• Precio: cuantitativa (continua) y de razón.
(c) Utilizando los datos de la variable precio, construye un diagrama de caja y brazos e interprétalo.

Para construir el boxplot, necesitamos calcular los tres cuartiles (para delimitar la caja) y el rango in-
tercuartı́lico (para delimitar los brazos).

Tenemos que Q1 ≈ 55, Q2 ≈ 80, Q3 ≈ 83.5, RI = 28.5. Por lo tanto, el brazo izquierdo llegará hasta
Q1 − 1.5RI ≈ 55 − 28.5 = 12.25, y el brazo derecho hasta Q3 + 1.5RI ≈ 83.5 + 21 = 126.5. Con este
criterio no existen datos atı́picos.

Cabe resaltar que tanto el método para calcular los cuartiles como la forma en que se definen los brazos
pueden variar. En este caso, para los cuartiles se eligió utilizar 1.5 veces el rango intercuartı́lico por ser la
forma más común.

De la imagen observamos que la cola izquierda de los datos es más pesada, por lo que existe un sesgo. La
mitad de los datos varı́a entre 55 mil y 83 mil 500 pesos, aunque de este rango la mitad está concentrada
entre 80 mil y 83 mil 500. No existen atı́picos, aunque el rango total de los datos es muy extenso.

1
Inferencia Estadı́stica – Solución de la tarea 1 2

(d) Calcula el nivel de asociación lineal entre las variables años de uso y precio. Interpreta el resultado.
σxy
El coeficiente de correlación lineal entre dos varaibles X y Y se define como ρxy = cor(X, Y ) = ,
σx σy
y en el caso del precio y los años de uso tenemos ρ = −0.63. Esto indica un nivel de asociación lineal de
intensidad moderada en sentidos opuestos, es decir, si aumentan los años, decrece el precio.

2. Sean y1 , ..., yn mediciones observadas de una variable aleatoria. Demuestra que


n
X
(yi − ȳ) = 0.
i=1

Solución:
n n n n
X X X 1X
(yi − ȳ) = yi − ȳ = n · yi − nȳ = nȳ − nȳ = 0
i=1 i=1 i=1
n i=1

3. Sea X1 , ..., X10 una muestra aleatoria proveniente de una distribución normal con media 0 y varianza σ 2 .
10X̄ 2 s2
• Obtén la distribución de y la distribuci ón de .
s2  10X̄ 2
s 
• Obtén el valor de c tal que P −c ≤ ≤ c = 0.95.

Recordar las siguientes propiedades:
(a) Si Z ∼ N (0, 1), entonces Z 2 ∼ χ21
(n−1)s2
(b) σ2 ∼ χ2n−1
V /n
(c) Si V ∼ χ2n y W ∼ χ2m , entonces W/m ∼ Fn,m

Entonces podemos modificar la expresión sin alterar su valor de la siguiente forma:


10X̄ 2 .
10X̄ 2 1 V /1
= σ2 = ∼ F1,9 ,
s2 2 W/9
9s .
9
σ2
donde V ∼ χ21 y W ∼ χ29 .
s2
Por otro lado, sabemos que si F ∼ Fn,m , entonces 1
F ∼ Fm,n . Por lo tanto, 10X̄ 2
∼ F9,1 .
Por último,
 2  2
c2
 
 s   s  s 2 s
P −c ≤ ≤ c =P ≤ c = P ≤c =P ≤

X̄ X̄ X̄ 2 10X̄ 2 10
2
 
c
=P F ≤ = 0.95, donde F ∼ F9,1
10
 2
c
⇐⇒ F = 0.95, donde F (·) es la función de probabilidad acumulada
10
c2 c2
⇐⇒ = F −1 (0.95) ⇐⇒ = 240 ⇐⇒ c = 49
10 10

4. En teorı́a de riesgo es de interés modelar el comportamiento de una cartera o portafolio de asegurados.


Supongamos que un grupo de n individuos aseguran su casa y que Xi representa el monto por reclamación
en miles de pesos que realiza el i-ésimo individuo en caso de siniestro. Supongamos también que

Xi ∼ Gamma(α, β)

para i = 1, 2, ..., n.
(a) Define un estimador adecuado para el monto total de las reclamaciones. Justifica tu respuesta.
Pn
Y = i=1 Xi representa el monto total de las reclamaciones de todos los individuos.
Inferencia Estadı́stica – Solución de la tarea 1 3

(b) Obtén una distribución aproximada para el estimador que propusiste en el inciso anterior considerando
que α = 1.

Si α = 1, entonces Y ∼ Gamma(n, β), pues sabemos que Pnla suma de n distribuciones gamma con
parámetros αi y β es a su vez una gamma con parámetros i=1 αi y β.

(c) Con base en los dos incisos anteriores, si el portafolio cuenta con un total de 1000 asegurados y se sabe
que β = 2, ¿cuál es la probabilidad de que el monto total sea menor a 475 mil pesos

Si hay 1000 asegurados en el protafolio y β = 2, sabemos que Y ∼ Gamma(1000, 2). Utilizando


una calculadora en lı́nea, obtenemos P (Y ≤ 475) = 0.055.
5. Suponer que la distribución del rendimiento de la gasolina de los coches de la marca A es normal con media 9
kilómetros por litro y que la de los coches de la marca B también es normal pero con media 11 kilómetros por
litro. Suponer además que el rendimiento de la gasolina en cada coche es independiente. Se toman muestras
aleatorias de 14 y 16 coches de las marcas A y B, respectivamente.
(a) Si σA
2
= 0.23 y σB
2
= 0.79, calcula la probabilidad de que la media muestral del rendimiento de la gasolina
de los coches modelo B exceda a la de los coches modelo A en más de 2 kilómetros por litro.

Definamos XA ∼ N (9, 0.23) y XB ∼ N (11, 0.79). Se sigue que X̄A ∼ N (9, 0.23 14 = 0.0164) y
X̄B ∼ N (11, 0.79
16 = 0.0494). Buscamos
 
(11 − 9) − (µA − µB )) 2 − 2
P (X̄A − X̄B ≥ 2) = P  q ≥  = 1 − Φ(0) = 0.5.
0.0164
+ 0.0494 0.2565
14 16

(b) Calcule nuevamente la probabilidad del inciso a) bajo el supuesto de que las varianzas poblacionales son
iguales pero desconocidas, es decir σA
2
= σB2
.
 
(11 − 9) − (µA − µB ))
P (X̄A − X̄B ≥ 2) = P  q ≥ 0 = P (T ≥ 0) = 0.5,
1 1
sp 14 + 16
donde T ∼ t14+16−2 ≡ t28 .
6. En un proceso de producción de varillas de acero se sabe que la longitud Y es aleatoria y que Y 2 sigue una
distribución χ227 . Si se mide la longitud de cada varilla con un instrumento cuyo error de medición, X es normal
con media µ = 0 y desviación estándar σ = 0.025 metros, ¿cuál es la probabilidad de que el error relativo en la
medición, definido por X Y exceda 0.01? (Sugerencia: encuentra las variables aleatorias que permitan construir
la distribución t de Student como vimos en clase).

Método 1: Sabemos que Y 2 ∼ χ227 y X ∼ N (0, 0.0252 ). Recordemos que la división de una normal estándar
entre la raı́z cuadrada de una ji cuadrada dividida entre sus ν grados de libertad se distribuye t con ν grados
de libertad. Es decir: si Z ∼ N (0, 1) y J ∼ χ2ν , entonces
Z
T =p ∼ tν .
J/ν
Buscamos
  ! !
X X/0.025 0.01/0.025 Z 0.01/0.025
P > 0.01 = P p > √ =P p > √ = P (T > 2.078) = 0.0237,
Y Y 2 /27 1/ 27 Y 2 /ν 1/ 27

donde ν = 27 y T ∼ tν .

Método 2: Aquı́ también Y 2 ∼ χ227 y X ∼ N (0, 0.0252 ). Recordemos que la división de una ji cuadrada
con ν1 grados de libertad dividida entre otra ji cuadrada con ν2 grados de libertad se distribuye F con ν1 y ν2
grados de libertad. Esto es: si J1 ∼ χ2ν1 y J2 ∼ χ2ν2 , entonces

J1 /ν1
F = ∼ Fν1 ,ν2 .
J2 /ν2
Inferencia Estadı́stica – Solución de la tarea 1 4

Buscamos
(X/0.025)2 (0.01/0.025)2 /1
   
X
P > 0.01 =P 2
≥ = P (F > 4.32) = 0.0473,
Y Y /27 1/27

donde F ∼ F1,27 .

7. Sea Xn una sucesión de variables aleatorias tal que


1
fXn (x) = I{−1,1} (x).
2
Definimos
n
1X
Sn = Xi .
n i=1
d
Demuestra que Sn −
→ 0.
Usaremos el hecho de que convergencia en media cuadrática implica convergencia en distribución. Recordemos
además que para una variable aleatoria X se cumple que
2
E[X 2 ] = V (X) + E[X] .

En este caso particular, E[Xi ] = (−1) 21 + (1) 12 = 0 y V (Xi ) = (−1)2 21 + (1)2 21 = 1. Por lo tanto,

E[(Sn − 0)2 ] =E[Sn2 ]


2
=V (Sn ) + E[Sn ]
n
! " n #!2
1X 1X
=V Xi + E Xi
n i=1 n i=1
n n
!2
1 X 1X
= 2 V (Xi ) + E[Xi ]
n i=1 n i=1
n n
!2
1 X 1X
= 2 1+ 0
n i=1 n i=1
n
= 2 +0
n
1
= −→ 0 cuando n → ∞
n

σ2 p
8. Sea X una variable aleatoria y sea Xn = X + Yn , donde E[Yn ] = n1 y V (Yn ) = n . Demuestra que Xn −
→ X.
Por la desigualdad del triángulo, tenemos que

1 1
|Yn | = |Yn − E[Yn ] + E[Yn ]| ≤ Yn − + .

n n

Considerando esto, se tiene que

P (|Xn − X| ≥ ε) =P (|Yn | ≥ ε)
 
1 1
≤P Yn − + ≥ ε

n n
 
1 1
=P |Yn − | ≥ ε −
n n
V (Yn )
≤ 2 por la desigualdad de Chebyshev
ε − n1
σ2
= −→ 0 cuando n → ∞
1 2

n ε− n
Inferencia Estadı́stica – Solución de la tarea 1 5

9. Sea {Xi }ni=1 una sucesión de variables aleatorias tal que X ∼ U 1


− n1 , 12 + 1
y sea X una variable aleatoria

2 n
d
degenerada en 2.
1
Demuestra que Xn −
→ X. (Hint: utiliza la desigualdad de Chebyshev).
Usaremos el hecho de que convergencia en probabilidad implica convergencia en distribución. Recordemos
además que si X ∼ U (a, b), entonces E[X] = 12 (a + b) y V (X) = 12
1
(b − a)2 . En este problema, a = 12 − n1 y
b = 2 + n , por lo que E[Xn ] = 2 y V (Xn ) = 6n . Entonces,
1 1 1 1


 
1 1 1
P (|Xn − | > ε) =P |Xn − | > ε 6n √
2 2 6n
1 √ 1
=P (|Xn − | > kε) donde k = ε 6n y σ = √
2 6n
1
≤ −→ 0 cuando n → ∞
ε · 6n

10. Suponer que el monto que debe pagar una aseguradora por reclamación de daños materiales en el seguro de
autos tiene un valor esperado de 12 mil pesos y una varianza de 9.61. Si cada reclamación es independiente
de las demás:

(a) Calcule la probabilidad de que la reclamación promedio de una muestra aleatoria de 1,500 asegurados
sea mayor a 12,500 pesos.

Tenemos que E[X] = 12 y V (X) = 9.61 (en miles de unidades). Por el Teorema Central del Lı́mite,
sabemos que √
1500(X̄ − 12) p
Z= √ −−−−→ N (0, 1).
9.61 n→∞

Por lo tanto,
√ √ !
1500(X̄ − 12) 1500(12.5 − 12)
P (X̄ ≥ 12.5) = P ≥ = P (Z ≥ 6.25) = 0.
3.1 3.1

(b) Determine el número de autos que debe asegurar esta compañı́a para que el monto total de reclamos no
sea mayor a 22 millones de pesos con probabilidad de 0.97.

Por el Teorema Central del Lı́mite, sabemos que


n
X
S= Xi ∼ N (nµ, nσ 2 ).
aprox
i=1

Ası́, podemos calcular


   
S − 12n 22, 000 − 12n 22, 000 − 12n
P (S < 22, 000) = P √ < √ =P Z< √ = 0.97
3.1 n 3.1 n 3.1 n
22, 000 − 12n
⇐⇒ √ = Φ−1 (0.97) = 1.88
3.1 n

⇐⇒ 12n + (3.1)(1.88) n − 22, 000 = 0
⇐⇒ n ≈ 1812

Nota: dependiendo de las unidades utilizadas al resolver el problema, el resultado puede variar levemente).

También podría gustarte