Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Especialidad de Economı́a
Agosto de 2014
Prólogo
Este trabajo corresponde a las notas de clases que el autor ha impartido en uno de los
horarios del curso de Estadı́stica Inferencial, destinado a los alumnos de la especialidad de
Economı́a de la Facultad de Ciencias Sociales de la Pontificia Universidad Católica del Perú.
En esta versión, además de corregir los errores detectados, se han añadido ejercicios
propuestos, mejorado los temas de inferencia. Pido disculpas por los errores que permanecen.
Quiero advertir a los alumnos que este texto no debe sustituir a las referencias
bibliográficas —lectura más que necesaria para un mejor aprendizaje—, ni a las clases, ni a
sus propios apuntes —que espero ahora puedan hacer en mejores condiciones—.
Finalmente, debo mencionar que este trabajo ha requerido de mucha dedicación personal,
tarea que no hubiera sido posible sin la comprensión y estı́mulo de mi esposa.
2
Índice
Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3
4 José Flores Delgado Estadı́stica inferencial
2. Inferencia estadı́stica 55
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.3.2. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Teorı́a Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . . . 63
2.4.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4
José Flores Delgado Tablas 5
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Bibliografı́a 127
5
6 José Flores Delgado Estadı́stica inferencial
6
José Flores Delgado Tablas 7
Tabla de la distribución normal estándar
FZ (−a,bc) = P(Z ≤ −a,bc)
-a,b c
0 1 2 3 4 5 6 7 8 9
-0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
7
8 José Flores Delgado Estadı́stica inferencial
Tabla de la distribución normal estándar
FZ (a,bc) = P(Z ≤ a,bc)
a,b c
0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
8
José Flores Delgado Tablas 9
Tabla de la distribución t de student
FT (tγ ) = P(T ≤ tγ ) = γ
10
1. Vector aleatorio o variables aleatorias distribuidas
conjuntamente
11
12 José Flores Delgado Estadı́stica inferencial
Ejemplo 1.2. Un inversionista está interesado en dos acciones: una americana, la otra
europea; el precio al cabo de un año (en ciertas unidades monetarias [u.m.]) de la americana
es X, el de la europea Y. Además, se ha observado que la acción americana siempre cuesta
menos del doble de lo que cuesta la segunda. Supongamos que X e Y sean variables aleatorias
continuas y, para ejemplificar, que la densidad conjunta de estas variables está dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.
(i) Un inversionista comprará una acción de cada bien y obtendrá la utilidad deseada si, al
cabo de una año, el precio de cada una es superior a 1 u.m. Entonces, la probabilidad
de que logre su objetivo está dada por
Z ∞ Z 2y
P (X > 1 ∩ Y > 1) = 2e dx dy = 2e−2 = 0,27067.
−2y
1 1
(ii) Determinemos la probabilidad de que el precio de la acción americana sea mayor que
el de la europea: Z ∞ Z x
−2y 1
P (X > Y ) = 2e dy dx = .
0 x/2 2
O, cambiando el orden de integración, tenemos:
Z ∞ Z 2y
−2y 1
P (X > Y ) = 2e dx dy = .
0 y 2
Ejemplo 1.3. Como en el ejemplo 1.1, sean X el número de operaciones bancarias, que se
realizan en un dı́a a través de la internet, e Y el número de operaciones que originaron un
sobregiro. Supongamos que la función de probabilidad conjunta de X e Y esté dada por
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y
Con esta función podemos obtener la probabilidad de cualquier evento que se exprese en
términos de las variables X e Y, por ejemplo:
12
José Flores Delgado Vector Aleatorio 13
P10
= f (50; y)
y=0 XY
10 e−60 6050 50
P
= (0,3)y (0,7)50−y
y=0 50! y
= 0,0018349.
(iv) La probabilidad de que todas las operaciones realizadas ocasionen un sobregiro:
P
∞ P x
P (X = Y ) = f (x,y)
x=0 y=x X Y
∞ e−60 60x x
P
∞ P
= f (x; x) = (0,3)x (0,7)x−x
x=0 X Y x=0 x! x
∞ e−60 60x
P
= (0,3)x
x=0 x!
P∞ 18x
= e−60 = e−60 e18
x=0 x!
= 5,7 x10−19 .
(v) La probabilidad de que se realicen 50 operaciones:
50 e−60 6050 50
P50 P
P (X = 50) = f (50,y) = (0,3)y (0,7)50−y
y=0 X Y y=0 50! y
−60 50 P
e 60 50 50 e−60 6050
= (0,3)y (0,7)50−y = (0,3 + 0,7)50
50! y=0 y 50!
e−60 6050
=
50!
(vi) La función de probabilidad de Y, f (y) = P (Y = y), puede obtenerse ası́:
Y
∞ e−60 60x x
P
P (Y = y) = (0,3)y (0,7)x−y
x=y x! y
P∞ e−60 60x x!
= (0,3)y (0,7)x−y
x=y x! y! (x − y)!
P∞ e−60 60z + y
= (0,3)y (0,7)z
z = 0 y! z!
e−60 60 y P∞ (60 × 0,7)z
= (0,3)y
y! z=0 z!
−60 y
e (60 × 0,3) 60×0,7
= e
y!
e−18 (18) y
= , y = 0, 1, . . .
y!
13
14 José Flores Delgado Estadı́stica inferencial
Entre otras, las propiedades de la función de distribución conjunta son las siguientes:
1. Si X1 , . . . , Xn son variables aleatorias discretas distribuidas conjuntamente, fX , ... , Xn
1
queda definida mediante:
f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ), ∀(x1 , . . . , xn ) ∈ RX .
X1 , . . . , Xn 1 , ... , Xn
E g(X1 , . . . , Xn ) = Z∞ Z∞
· · · g(x1 , . . . , xn )f(x1 , . . . , xn )dx1 . . . dxn , si las variables son continuas.
X1 , . . . , Xn
−∞ −∞
14
José Flores Delgado Vector Aleatorio 15
Ejemplo 1.4. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.
15
16 José Flores Delgado Estadı́stica inferencial
Ejemplo 1.5. El precio de cierta acción, el dı́a n, es una variable aleatoria Xn , para
n = 1, 2, . . . Las variables X1 , X2 ,. . . , tienen una media igual a cero y una desviación estándar
igual a 1. Por otra parte, la utilidad que genera la acción, el dı́a n, es una variable aleatoria
Yn , con: Yn = X1 + 2X2 + . . . + n Xn , para n = 1, 2 . . .
Determinemos el valor promedio de la utilidad que genera la acción, el dı́a n. Como la
esperanza de una suma es la suma de sus esperanzas, tenemos que
Ejemplo 1.6. Sean X1 , . . . , Xn variables aleatorias, cada una con media µ; entonces, la
media de X̄ también es µ.
P
n P
n P
n
En efecto, E(X̄) = E( n1 Xj ) = 1
n
E(Xj ) = 1
n
µ= 1
n
nµ = µ.
j=1 j=1 j=1
Z∞ Z∞
f (x) = ··· f (x1 , . . . , xi−1 ,x,xi+1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn , si las variables
Xi X1 , . . . , Xn
−∞ −∞
son continuas.
(i) en el cálculo de estas sumas e integrales se debe tener en cuenta que los lı́mites ya
no corresponden al rango conjunto de las n variables, sino al que corresponde a las
restantes cuando se fija el valor de la variable cuya marginal se determinará;
(ii) cuando se combinan variables discretas y continuas, cada una de las n − 1 variables
restantes, distintas a Xi , contribuyen en el cálculo de la marginal, con una suma, si
fuera discreta, o con una integral, si fuera continua;
(iii) no solo se puede obtener la distribución marginal de una variable; sino también la
conjunta de un grupo de ellas.
16
José Flores Delgado Vector Aleatorio 17
Ejemplo 1.7. Para las variables X e Y, del ejemplo 1.2, con densidad conjunta
(
2e−2y , 0 < x < 2y;
f (x,y) =
XY 0, en otro caso,
Z∞ Z 2y
f (y) = f (x,y) dx = 2e−2y dx = 4e−2y y, y > 0.
Y XY 0
−∞
Ejemplo 1.8. Para las variables X e Y, del ejemplo 1.3, con función de probabilidad conjunta
dada por
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y
las distribuciones marginales se obtienen como sigue:
x e−60 60x x
P P y x−y e−60 60x
f (x) = f (x,y) = (0,3) (0,7) = , x = 0, 1, . . . ;
X y XY y=0 x! y x!
∞ e−60 60x x
P P e−18 18x
f (y) = f (x,y) = (0,3)y (0,7)x−y = , x = 0, 1, . . .
Y x XY x=y x! y x!
f (x,y)
XY
f (x) := , donde y es tal que f (y) > 0 .
X|Y = y f (y) Y
Y
17
18 José Flores Delgado Estadı́stica inferencial
Z
P (X ∈ A | Y = y) = f(x) dx ,
X|Y = y
A
Z∞
E(X |Y = y) = xf(x)dx ,
X|Y = y
−∞
Z∞
E g(X) |Y = y = g(x)f(x)dx ,
X|Y = y
−∞
V (X |Y = y) = E ( X − E(X|Y = y) )2 |Y = y = E(X 2 |Y = y) − E 2 (X|Y = y)
Z∞ Z 2
2
= x f(x)dx − xf(x)dx .
X|Y = y X|Y = y
−∞
Como ya se dijo, con esta nueva distribución se deben calcular probabilidades, esperanzas
y todo sobre la variable X, cuando se sabe que Y = y. A continuación se ilustran estos
cálculos.
i) Dado que Y = y, con y cualquier valor posible de Y , esto es y > 0, el valor esperado
de X se obtiene como sigue:
Z ∞ Z 2y
x
E(X|Y = y) = xf (x) dx = dx = y.
−∞ X|Y = y 0 2y
Ası́, si la acción europea cuesta y u.m., la americana costará, en promedio, la misma
cantidad.
ii) Para calcular la probabilidad de que la acción americana valga más de 3 u.m., si se sabe
que la europea vale 2 u.m., es decir P (X > 3 |Y = 2), usamos la densidad condicional
f (x) = 41 , 0 < x < 4, como sigue:
X|Y = 2 Z ∞ Z 4
1 1
P (X > 3| Y = 2) = f (x) dx = dx = .
3 X|Y = 2 3 4 4
18
José Flores Delgado Vector Aleatorio 19
f (x,y)
2e−2y
f (y) = X,Y
= = 2e−2y+x , y > x/2; con x > 0.
Y |X = x f (x) e−x
X
Z∞ Z ∞
i) Como se cumple para toda densidad: f (y) dy = 2 e−2y+x dy = 1, x > 0.
Y|X = x x/2
−∞
Z∞ Z ∞
1 1
ii) E(Y | X = x) = yf (y) dy = y 2e−2y+x dy = + x; x > 0.
Y|X = x x/2 2 2
−∞
Zy Z y
iii) P (Y ≤ y| X = x) = f (z) dz = 2e−2z+x dz = −e−2y+x + 1, y > x/2.
Y|X = x x/2
−∞
Z∞ Z ∞
2 1 1 1
2
iv) E(Y | X = x) = y f (y) dy = y 22e−2y+x dy = + x + x2 ; x > 0.
Y|X = x x/2 2 2 4
−∞
1
v) V (Y | X = x) = E(Y 2 | X = x) − E 2 (Y | X = x) = 2
+ 12 x + 41 x2 − ( 12 + 21 x)2 = 14 .
Ejemplo 1.10. Para las variables X e Y de los ejemplos 1.3 y 1.8 en el que:
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x ; x = 0, 1, . . .
XY x! y
e−60 60x
f (x) = , x = 0, 1, . . .
X x!
e−18 18y
f (y) = , y = 0, 1, . . .
Y y!
Obtengamos las distribuciones condicionales:
− Dado Y = y, con y = 0, 1, . . . :
e−60 60x x
f (x,y) (0,3)y (0,7)x−y
x! y e−42 42x−y
f (x) := X Y = = , x = y, y + 1, . . .
X|Y = y f (y) e−18 18y (x − y)!
Y
y!
− Dado X = x, con x = 0, 1, . . . :
e−60 60x x
f (x,y) (0,3)y (0,7)x−y
x! y x
f (y) := X Y = −60 x = (0,3)y (0,7)x−y , y = 0, 1, . . . x.
Y |X = x f (x) e 60 y
X
x!
Nótese que Y |X = x ∼ b(n = x; p = 0,3), en particular E(Y |X = x) = 0,3x.
19
20 José Flores Delgado Estadı́stica inferencial
Ejemplo 1.11. Para nuestro ejemplo en el que X e Y tienen una densidad conjunta
(
2e−2y , 0 < x < 2y,
f (x,y) =
0 , en otro caso,
20
José Flores Delgado Vector Aleatorio 21
para x > 0.
Observación 1.3. Puesto que para obtener E(X|Y = y) y V (X|Y = y) solo se reemplaza f
X
(el modelo de X) por f (el modelo condicional), las propiedades de la esperanza y de la
Y|X = x
varianza para una variable aleatoria también son válidas para E(X|Y = y) y V (X|Y = y);
ası́, por ejemplo,
a) E(a |Y = y) = a, ∀a ∈ R;
b) Si a ≤ X ≤ b, entonces, a ≤ E(X |Y = y) ≤ b;
e) El Principio de Sustitución
P (g(X,Y ) ∈ A|Y = y) = P (g(X,y) ∈ A|Y = y),
E(g(X,Y )|Y = y) = E(g(X,y)|Y = y).
Ası́, también son válidas las propiedades del valor esperado relacionadas con una suma dadas
en la sección 1.3, por ejemplo:
21
22 José Flores Delgado Estadı́stica inferencial
Ejemplo 1.12. La ejecución de una tarea se realiza en dos etapas sucesivas. En el estudio
para modelar cómo varı́an conjuntamente los tiempos de ejecución de estas etapas, se
determinó que el tiempo de la primera, X (en dı́as), tiene una distribución exponencial
x
con una media de dos dı́as, es decir, f (x) = 12 e− 2 , x > 0. También se ha observado que
X
mientras mayor fue el tiempo necesario para ejecutar la primera etapa, menor resultó el
tiempo promedio de la segunda, de modo que si la ejecución de la primera etapa fue x horas,
la distribución del tiempo de la segunda, Y, resultó exponencial con una media 1/x, es decir,
f (y) = xe−x y , y > 0; x > 0. Supongamos se realizará esta tarea y se requiere que cada etapa
Y |X = x
culmine, a más tardar, en medio dı́a.
Ejemplo 1.13. Los usuarios de un cajero automático acceden a este según un proceso
de Poisson con una tasa de 500 usuarios por dı́a. Además, se sabe que cualquier usuario
tiene una probabilidad igual a 0,1 de hacer una transferencia a otra cuenta y lo hace
independientemente de los demás usuarios. Se quiere determinar la probabilidad de que,
en un dı́a dado, todos los usuarios hagan un transferencia.
Las variables aleatorias siguientes nos permitirán usar la teorı́a de vector aleatorio:
Ahora, usamos estas distribuciones y la regla del producto para hallar la distribución conjunta
de ambas variables:
e−500 500x x
f (x, y) = f (x) f(y) = (0,1)y (0,9)x−y , y = 0, . . . , x; x = 0, 1, . . .
X,Y X Y|X = x x! y
Con este modelo podemos obtener la probabilidad que interesa:
∞ e−500 500x x
P∞ P x P∞ P
P (X = Y ) = f (x, y) = f (x, x) = (0,1)x (0,9)x−x = e−350 .
x=0 y=x X,Y x=0 X,Y x=0 x! x
22
José Flores Delgado Vector Aleatorio 23
Por lo tanto, para el cálculo de probabilidades de eventos en los que las variables estén
separadas es suficiente calcular las probabilidades marginales.
Ejemplo 1.14. Las variables aleatorias discretas X e Y, con rangos { −20, 5 } y función de
probabilidad conjunta, fX,Y , dada en la tabla siguiente, son independientes.
x y -20 5
-20 1/25 4/25
5 4/25 16/25
1 4
En efecto, de f (−20) = 5
= f (−20) y f (5) = 5
= f (5), siguen
X Y X Y
Ejemplo 1.15. Las variables aleatorias continuas X e Y de los ejemplos 1.2 y 1.7 no son
independientes, pues, f (x, y) 6= f (x) f (y), 0 < x < 2y.
X,Y X Y
Ejercicio 1.1. Verifique que las variables aleatorias X e Y, cuya función de densidad
conjunta sigue a continuación, son independientes:
(
4e−2(x+y) ; x > 0, y > 0.
f (x,y) =
X,Y 0 ; en otro caso.
Observación 1.5. Observe que si dos variables aleatorias, X e Y, son independientes, las
funciones de distribución condicionales son iguales a las marginales:
23
24 José Flores Delgado Estadı́stica inferencial
g1 (X1 ), . . . , gn (Xn ),
Ejemplo 1.17. La utilidad que genera un instrumento, en el instante t, está dada por:
Xt = Acos(W t + Θ), ∀t ≥ 0. A, W y Θ son variables aleatorias independientes, tales
que: E(A) = 0, V (A) = 1, y W y Θ tienen distribución uniforme en el intervalo [−π, π].
Determinemos la utilidad promedio del instrumento en el instante t. Para esto notemos que A
y cos(W t + Θ) son independientes, esto se justifica porque A, W y Θ son variables aleatorias
independientes. Luego, E(Xt ) = E Acos(W t + Θ) = E(A)E cos(W t + Θ) = 0.
Obsérvese que no ha sido necesario obtener el valor de la esperanza E cos(W t + Θ) , pero
este está bien definido; es decir, existe ya que la función coseno está limitada.
Recuérdese que
∞
X
x f (x) ; si X es discreta,
x=−∞ X| Y = y
E(X| Y = y) = Z∞
x f (x) dx ; si X es continua.
X| Y = y
−∞
Propiedad: Además de las propiedades del valor esperado de una variable y las relacionadas
con la suma (vistas anteriormente), la esperanza condicional también satisface la siguiente:
E(X) = E (E(X| Y ))
Observaciones: esta propiedad puede ser útil para obtener la esperanza de una variable
aleatoria cuya distribución o esperanza es fácilmente obtenida a partir de los valores que
asuma otra variable.
25
26 José Flores Delgado Estadı́stica inferencial
También debe tenerse en cuenta que, según la definición, E(X|Y ) es una función de Y, por
lo tanto, podemos usar la propiedad:
∞
X
g(y)f (y), si Y es discreta,
y=−∞ Y
E(g(Y )) = Z∞
g(y)f (y)dy, si Y es continua,
Y
−∞
para obtener:
∞
X
E(X| Y = y) f (y) , si Y es discreta,
y=−∞
Y
E(X) = E E(X| Y ) = Z∞
E(X| Y = y) f (y) dy , si Y es continua.
Y
−∞
Ejemplo 1.19. El precio de una acción, al cierre de las operaciones de un dı́a, puede subir,
con una probabilidad de 0,8, o bajar o mantenerse igual, con una probabilidad de 0,2. La
ganancia del corredor es una variable aleatoria con un media de 30 u.m., si la acción sube y
de 15 u.m., si la acción baja o se mantiene igual. Se desea averiguar cuál es el la ganancia
promedio del corredor al cierre de las operaciones de un dı́a.
Para este fin empecemos por expresar los datos dados en el lenguaje de variables aleatorias.
Consideremos las dos variables siguientes:
Se desea obtener E(X), el valor esperado de X. Por los datos dados se tiene que:
26
José Flores Delgado Vector Aleatorio 27
De los modelos anteriores, se deduce que: E(X) = 500 y que E(Y |X = x) = 0,1 x.
Ası́, E(Y |X) = 0,1 X y E(Y ) = E E(Y |X) = E(0,1 X) = p E(X) = 0,1 × 500 = 50.
Ejercicio 1.2. El número diario de clientes que acceden a un cajero automático es aleatorio,
con una media de 100 usuarios por dı́a. Cada usuario retira en promedio 50 soles, sin importar
el número de usuarios que acceden. Halle la media del retiro total diario de este cajero.
Observación 1.6. Una condición para que la covarianza esté definida es que E(XY ) lo esté.
Para esto basta que E(X 2 ) y E(Y 2 ) sean finitos, como sigue de la propiedad 1 siguiente.
Propiedades:
p
1. Desigualdad de Cauchy Schwartz: E(|XY |) ≤ E(X 2 )E(Y 2 ).
2. −1 ≤ ρX,Y ≤ 1.
3. ρX,Y = 1 ⇔ existen a ∈ R y b > 0 tales que P (Y = a + bX) = 1.
4. ρX,Y = −1 ⇔ existen a ∈ R y b < 0 tales que P (Y = a + bX) = 1.
27
28 José Flores Delgado Estadı́stica inferencial
Ejemplo 1.21. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso,
Ejemplo 1.22. Las variables aleatorias discretas X e Y, que tienen un rango conjunto
R = { (−1; 0), (−1; 1) (1; 0), (1; 2) } y una función de probabilidad conjunta f dada en
X, Y X, Y
la tabla siguiente, no son independientes pero su covarianza es cero.
y 0 1 2
x
1 1
−1 4 4 −−
3 1
1 8 −− 8
28
José Flores Delgado Vector Aleatorio 29
n
X n n−1 X
X X
1. V a0 + ai Xi = a2i V (Xi ) + 2 ai aj Cov(Xi , Xj ) .
i=1 i=1 i=1 j>i
n
X n
X
2. Si las variables tienen covarianza cero, V a0 + ai Xi = a2i V (Xi ).
i=1 i=1
n
X m
X n X
X m
3. Cov a0 + ai Xi , b0 + bj Yj = ai bj Cov(Xi , Yj ) .
i=1 j=1 i=1 j=1
Ejemplo 1.23. En el contexto del ejemplo 1.16, usemos la propiedad 3 para determinar la
covarianza entre el precio y la utilidad de la acción, en el dı́a n :
Cov(Xn , Yn ) = Cov(Xn , X1 + 2X2 + . . . + n Xn )
= Cov(Xn ,X1 ) + 2Cov(Xn ,X2 ) + . . . + nCov(Xn ,Xn )
= nCov(Xn ,Xn ) (los otros términos son ceros, por la independencia)
= nV (Xn ) = n.
Ejemplo 1.24. En el contexto de los ejemplos 1.1 y 1.2, la varianza del costo total de
adquirir cinco acciones americanas y tres europeas se obtiene con la propiedad 1:
1 1
V (5X + 3Y ) = 52 V (X) + 32 V (Y ) + 2(5)(3)Cov(X,Y ) = 52 (1) + 32 ( ) + 2(5)(3)( ) = 44,5.
2 2
Definición 1.6. Sea X = (X1 , . . . ,Xn )t un vector aleatorio columna, su vector de medias,
que lo denotaremos por E(X) o µX, se define como el vector columna (µXi )n×1 ; es decir,
µ X1
.
E(X) = µX = .. .
µ Xn n×1
29
30 José Flores Delgado Estadı́stica inferencial
2
σX · · · σX1 , Xn
..
1
.. ..
=
. . . .
2
σXn , X1 · · · σXn
n×n
El costo costo total de adquirir cinco acciones americanas y tres europeas, Z = 5X + 3Y, se
expresa matricialmente como !
X
Z = (5 3) .
Y
Por lo tanto, por la propiedad anterior, la varianza de este costo es igual a
! ! !
1 12 5 13 5
V (Z) = (5 3) 1 1 =( 4) = 44,5.
2 2
3 2 3
30
José Flores Delgado Vector Aleatorio 31
Propiedades: si (X,Y )t ∼ N2 (µ1 , µ2 , σ12 , σ22 , ρ), se cumple las siguientes propiedades:
3. ρ = 0 ⇒ X e Y son independientes.
Recuerde que si dos variables son independientes su covarianza es cero y, por lo
tanto, su coeficiente de correlación también es igual cero. Cuando las variables siguen
una distribución normal bivariable, también vale la propiedad recı́proca, es decir, un
coeficiente de correlación cero implica independencia.
4. Las densidades condicionales también son normales, con regresiones lineales y varianzas
constantes, como sigue a continuación:
ρσ2
Y |X = x ∼ N(µ2 + (x − µ1 ); σ22 (1 − ρ2 )).
σ1
En particular, el mejor pronóstico para Y, a partir del conocimiento que X = x, es
ρσ2
µ2 + (x − µ1 );
σ1
5. Las variables aleatorias X e Y tienen una distribución conjunta normal si, y solo si,
cualquier combinación lineal de estas variables, con por lo menos uno de los coeficientes
distinto de cero, tiene distribución normal.
Ejemplo 1.26. Sea (X, Y ) un vector aleatorio cuya distribución conjunta es normal
bivariable, con matrices de medias y covarianzas siguientes:
36 192
!
9 25 125
µ= y Σ=
5 192 64
125 25
Para ilustrar algunas de las propiedades anteriores, calcularemos las probabilidades
siguientes:
31
32 José Flores Delgado Estadı́stica inferencial
64
a) P (Y > 8). Para calcular esta probabilidad nótese que Y ∼ N(5; 25 ), por lo tanto
Y −5 8−5
Z = 8/5 ∼ N(0; 1) y P (Y > 8) = 1 − FY (8) = 1 − FZ ( 8/5 ) = 1 − FZ (1,875) =
1 − 0,9696 = 0,0304.
Definición 1.8. Se dice que las variables aleatorias X1 , . . . , Xn tienen distribución conjunta
gaussiana (o normal) multivariable, si ∀(x1 , . . . , xn ) ∈ Rn , su densidad conjunta está dada
por:
1 1
f (x1 , . . . , xn ) = n/2 1/2
exp { − ( x − µ )t Σ−1 ( x − µ ) },
X1 , . . . , Xn (2π) ( det Σ ) 2
donde Σ es la matriz de varianzas-covarianzas:
σ12 cov(X1 , X2 ) ... cov(X1 , Xn )
cov(X2 , X1 ) σ22 ... cov(X2 , Xn )
Σ = cov(Xi , Xj ) n×n = · · · ·
· · · ·
cov(Xn , X1 ) ... cov(Xn , Xn−1) σn2
32
José Flores Delgado Vector Aleatorio 33
1
= exp { − 12 ( x − µ )t Σ−1 ( x − µ ) },
(2π)n/2 ( det Σ )1/2
donde Σ, x y µ están dados por
σ12 0 . . . 0
x1 µ1
0 σ22 . . . 0
· ·
· · · ·
Σ= , x =
· , µ =
· .
· · · ·
· ·
· · · 0
xn µn
0 · · · 0 σn2
33
34 José Flores Delgado Estadı́stica inferencial
Sea (W,Z) = g(X,Y ), con g una función inversible; es decir, W = g1 (X,Y ) y Z = g2 (X,Y ),
con g1 y g2 tales que X = h1 (W,Z) e Y = h2 (W,Z). La densidad conjunta de este nuevo
vector se puede obtener mediante:
y | det(J) | = | − 1| = 1.
Por lo tanto,
34
José Flores Delgado Vector Aleatorio 35
x y 0 1 2 3
0 0,28 0,04 0,04 0,04
1 0,03 0,21 0,03 0,03
2 0,02 0,04 0,12 0,02
3 0,03 0,02 0,01 0,04
a) Halle P (2 ≤ X − Y ≤ 3 ∩ X ≤ 3).
b) Halle f (x), ∀x ∈ R.
X
d) ¿Cuál es el número promedio de usuarios que solicitan un dato inexistente, cuando han
accedido 10 usuarios?
35
36 José Flores Delgado Estadı́stica inferencial
b) Halle f (x), ∀x ∈ R.
X
b) Halle f (6).
Y
Ejercicio 1.5. Un fabricante adquiere un componente, bien del proveedor A ó bien del B, de
manera aleatoria. La duración, en dı́as, del componente adquirido es una variable aleatoria
continua X. Sea Y la variable aleatoria discreta con valores como siguen: 1, si el componente
es adquirido de A, 0, si el componente es adquirido de B. Las variables X e Y tiene el modelo
de probabilidad conjunto siguiente:
(
1 −x/30 1 −x/60
30
e (0,8)y y + 60 e (0,2)1−y (1 − y) , x > 0, y = 0, 1.
f (x,y) =
X,Y 0 , en otro caso.
36
José Flores Delgado Vector Aleatorio 37
Ejercicio 1.6. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos necesarios. Las cantidades de dinero (en miles de unidades monetarias) que el
fabricante destina para la compra de los insumos, A y B, son X e Y, respectivamente.
La función de densidad conjunta del vector aleatorio (X,Y ) es la siguiente:
(
6 y , 0 < x + y < 1, 0 < x < 1, 0 < y < 1;
f (x,y) =
X,Y 0 , en otro caso.
a) Se detiene el proceso si, y solo si, se cometen más de dos errores o más de un error
grave. Determine la probabilidad de que se detenga el proceso.
37
38 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.8. Sean X e Y dos variables aleatorias con función de densidad conjunta f ;
X,Y
demuestre que Z
f (x) = f (x,y)dy.
X X,Y
Ejercicio 1.9. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos, A y B, necesarios para la fabricación de su producto, de los cuales a lo más dos
tercios pueden destinarse a la compra de A. El precio (en miles de unidades monetarias) de
los insumos A y B son X e Y, respectivamente.
El vector aleatorio (X,Y ) tiene una función de densidad conjunta dada por:
(
81
13
y ; 0 < x + y ≤ 1, 0 < x ≤ 23 , y > 0.
f (x,y) =
0 ; en otro caso.
a) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos?
c) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos y con un gasto en A menor a la mitad del
presupuesto?
e) Si el gasto en A fue la mitad del presupuesto, ¿cuál será la probabilidad de que más
de las tres cuartas partes del presupuesto hayan sido necesarias para adquirir estos
insumos?
f) Si el gasto en B fue la cuarta parte del presupuesto, ¿cuál será la probabilidad de que
el de A haya sido menos de la mitad del presupuesto?
i) Para la compra de otros insumos se requiere una cantidad dada por 0,1 + 0,2XY.
Determine el valor esperado y la varianza de esta cantidad.
38
José Flores Delgado Vector Aleatorio 39
a) Halle E(X n ), ∀n ∈ N+ .
Ejercicio 1.11. Sean X e Y dos variables aleatorias continuas con función de densidad
conjunta dada por
1 , − | x | < y < | x |, x ∈ ] − 1; 1 [ − { 0 },
4|x|
f(x,y) =
X,Y 0, en otro caso.
Ejercicio 1.12. Sea el vector aleatorio mixto (X, Y ) con modelo probabilı́stico conjunto
dado por (
xe−10xy (0,9)x−1, y > 0, x = 1; 2; . . .
f (x,y) =
0; en caso contrario.
a) Determine E(XY ).
Observe que X contribuye a los cálculos con una suma, pero Y con una integral.
Además, escoja el orden de las variables más apropiados para realizar los cálculos
mediante la identificación de modelos probabilı́sticos conocidos.
39
40 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.13. En el contexto del ejemplo 1.12, halle E(Y |X = x), x > 0, E(Y |X) y E(Y ).
a) Determine la probabilidad de que, durante un dı́a, lleguen a lo más tres usuarios y solo
uno haga una llamada internacional.
f) Halle la esperanza condicional de Y dado X, E(Y | X); y úsela para determinar E(Y ).
Ejercicio 1.16. Sean X e Y dos variables aleatorias cuya función de densidad conjunta es
el producto de las densidades marginales, es decir, f(x,y) = f (x)f (y). Sea T = X + Y.
X,Y X Y
R∞
a) Pruebe que F (t) = f (x)F (t − x)dx. Note que F (t) = P (T ≤ t) = P (X + Y ≤ t).
T X Y T
−∞
R∞
b) Demuestre que f (t) = f (x)f (t − x)dx. Observe que en este caso vale
T X Y
−∞
Z∞ Z∞
∂ ∂
f (x)F (t − x)dx = f (x)F (t − x) dx.
∂t X Y ∂t X Y
−∞ −∞
40
José Flores Delgado Vector Aleatorio 41
b) Si al tomar la muestra de 1000 electores, resulta que 400 están de acuerdo con la
gestión de la autoridad; actualice la respuesta brindada anteriormente. Previamente
debe obtener el modelo condicional de X dado Y = 400.
b) Si Y ∼ exp(2) y X|Y = y ∼ exp(y), y > 0; halle P (X > 2). Use el resultado anterior.
Ejercicio 1.19. Sean X e Y dos variables aleatorias continuas e independientes, tales que
f (x) = 0,5 e−0,5 x , ∀x > 0, y f (y) = 31 e− y/3 , ∀y > 0.
X Y
d) Determine E(XY |Y ).
e) Halle E(XY ).
41
42 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.22. Sea X una variable aleatoria con distribución B(5, 1). Además, para cada
x valor posible de X, la función de densidad condicional de Y, dado que X = x, está dada
3y 2
por f(y) = 3 , 0 < y < x.
Y|X = x x
a) Determine E(Y |X), E(Y 2 |X), E(XY |X), E(X 2 Y |X), E(XY 2 |X) y E(X 2 Y 2 |X).
42
José Flores Delgado Vector Aleatorio 43
a) Halle E(XY ).
Ejercicio 1.28. Sean X e Y tales que Y ∼ B(2; 1) y X|Y = y ∼ U(0; y), ∀y ∈ (0; 1).
a) Halle P (X + Y ≤ 1).
43
44 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.33. Resuelva el ejercicio anterior, si solo se sabe que E(R1 ) = 0,2, E(R2 ) = 0,25,
σR1 = σR2 = 0,1, E(R1 R2 ) = 0,058, E(R12R22 ) = 0,035, E(R12R1 ) = 0,04 y E(R1 R22 ) = 0,05.
Ejercicio 1.34. El número diario de pedidos que recibe una compañı́a es una variable
aleatoria aleatoria discreta N, con media 200 y desviación estándar 10. Cada pedido origina
una ganancia aleatoria, de modo que si la cantidad de pedidos efectuados durante el dı́a fue
n, entonces, el valor esperado de esta ganancia es de 10n. Halle la ganancia total esperada
producto de los pedidos en un dı́a.
Primero exprese los datos dados y lo pedido con las notaciones formales de la teorı́a tratada
en el curso, para esto considere también las variables aleatorias siguientes: Xj : ganancia
originada por el pedido j, para j = 1, 2, . . .
Ejercicio 1.35. El número de unidades vendidas es una variable aleatoria X con valores
posibles { 1; 2; 3 } y modelo probabilı́stico f (x) = x/6. La ganancia promedio es de 6 u.m.,
X
cuando se venden tres unidades, 5 u.m., si se venden solo dos unidades y 1 u.m., si se vende
solo una unidad. Halle la ganancia promedio. Previamente debe expresar los datos dados
con las notaciones usuales, para esto defina Y como la ganancia. Tenga presente el ejemplo
1.19.
Ejercicio 1.36. Un comerciante solo vende el producto A, el 75 % de los dı́as, en estos casos
su utilidad diaria es aleatoria con un media de 6 u.m. y una desviación estándar de 2 u.m.
En el 20 % de los dı́as el comerciante solo vende el producto B, en estos casos su utilidad
diaria también es aleatoria, pero con una media de 10 u.m. y una desviación estándar de 3
u.m. En el restante 5 % de los dı́as el comerciante vende ambos productos, en estos casos
su utilidad diaria es aleatoria, con una media de 20 u.m. y una desviación estándar de 2
u.m. Obtenga el promedio y la desviación estándar de la utilidad diaria de este comerciante.
Tenga presente el ejemplo 1.19.
44
José Flores Delgado Vector Aleatorio 45
Ejercicio 1.39. Demuestre que ρa + bX, c + dY = ρX, Y , con b > 0 y d > 0. Use el resultado
del ejercicio 1.38 y las propiedades básicas de la varianza. Diga, informalmente, por qué no
sorprende este resultado.
Ejercicio 1.40. Sean X1 , . . . , X100 variables aleatorias independientes con media cero y
desviación estándar 1. Sea Sn = X1 + 2X2 + . . . , + nXn , para cada n = 1, . . . , 100.
Ejercicio 1.41. El precio unitario del bien A es una variable aleatoria con media 10 u.m. y
desviación estándar 2 u.m.; y el precio del bien B es una variable aleatoria con media 9 u.m.
y desviación estándar 1 u.m. Además, el coeficiente de correlación entre estos precios es de
0,8. Una canasta está formada por tres unidades de A y 5 unidades de B.
c) El precio del bien C es una variable aleatoria con media 5 u.m. y desviación estándar
1 u.m. El coeficiente de correlación entre los precios de A y de C es de 0.2 y el
correspondiente a los precios de B y de C, de 0.7. Otra canasta consta de seis unidades
de A, dos de B y tres de C. Halle la covarianza entre los costos de estas dos canastas.
Ejercicio 1.42. Sea X una variable aleatoria continua, cuyo modelo probabilı́stico está dado
por f (x) = 21 , ∀ x ∈ RX = [ −1; 1]. Considérese también una variable aleatoria Y tal que
X
E(Y |X) = 0, E(Y 2 |X) = X 2 , E(Y 3 |X) = 0 y E(Y 4 |X) = 95 X 4 . Halle E(Y 4 ) y E(X 2 Y 2 ).
45
46 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.45. Sean X e Y dos variables aleatorias tales que E(X) = 20, V (X) =
9, E(Y ) = 10, V (Y ) = 1 y Cov(X,Y ) = 3. La utilidad de venta 1 está dado por 4X − 2Y,
mientras que la de la venta 2 está dado por 7 + 3X + 5Y.
a) Halle el valor esperado y la varianza de la utilidad de la venta 1.
Ejercicio 1.46. El ingreso anual neto, en cierta unidad monetaria (u.m.), está dado por
10 + 0,9X + 0,8Y + 0,7Z, con X, Y y Z variables aleatorias tales que E(X) = 1, V (X) =
4, E(Y ) = 2, V (Y ) = 1, E(Z) = 3, V (Z) = 9, ρ = 0,8, ρ = 0,2, Y y Z son independientes.
X,Y X,Z
Halle el valor esperado y la varianza del ingreso anual neto.
b) Si X1 ∼ W (α; β), demuestre que X(1) ∼ W (α; nβ). Use el ejercicio 1.47d.
46
José Flores Delgado Vector Aleatorio 47
El número de factores de riesgo latentes, que podrı́an originar la ocurrencia del evento E, es
una variable aleatoria discreta positiva, N, con distribución geométrica con parámetro 0,2,
es decir,
fN (n) = 0,2(0,8)n−1 , n = 1, 2, . . .
Para cada n ∈ { 1, 2, . . . }, sea Tn el tiempo de activación del factor de riesgo n (es decir, el
tiempo que transcurre hasta que se presente este factor de riesgo). Estos tiempos T1 , T2 , . . .
son variables aleatorias independientes e independientes de N y cada Ti tiene distribución
exponencial con parámetro 2, es decir,
Además, el evento de interés, E, ocurre en el instante que se activa el último factor de riesgo;
es decir, si T es el tiempo hasta la ocurrencia del evento E; entonces, se cumple que
T := máximo { T1 , . . . , TN }.
Con esta información determine el modelo probabilı́stico de T . Siga los pasos siguientes:
c) Determine f (n,t), n ∈
N,T
N+, t > 0. Use la regla del producto y los resultados de a y b.
d) Determine f (t), t > 0. Use el resultado anterior y tenga en cuenta que N es discreta.
T
Ejercicio 1.50. Resuelva el ejercicio 1.49, pero ahora asuma que N siga una distribución
1 4n
de Poisson truncada con parámetro 4, es decir, que fN (n) = 4 , n = 1, 2, . . .
e − 1 n!
Ejercicio 1.51. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W (2; 5).
Ejercicio 1.52. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W p(2; 5; 3) (vea el
ejercicio 1.48c).
Ejercicio 1.53. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ expg(2; 5; 3) (vea
el ejercicio 1.48d).
Ejercicio 1.55. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
y T1 ∼ W (2; 5).
5
Cooner, F., Banerjee, S., Carlin, B.P. and Sinha, D. Flexible cure rate modeling under latent activation
schemes. Journal of the American Statistical Association 102(478), 560–572.
47
48 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.56. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
y T1 ∼ W p(2; 5; 3) (vea el ejercicio 1.48c).
Ejercicio 1.57. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
T1 ∼ expg(2; 5; 3) (vea el ejercicio 1.48d).
P
n P
n
a) V (X12 ); b) V ( Xi2 ); c) V ( X1 Xj );
i=2 j=2
P
n P
n P
n P
n
d) Cov(X12 ; Xi2 ); e) Cov(X12; X1 Xj ); f) Cov( Xi2 ; X1 Xj );
i=2 j=2 i=2 j=2
P
n P
n P
n P
n
g) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = nX12 + Xi2 − 2 X1 Xj ;
j=2 j=2 i=2 j=2
P
n P
n P
n
h) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = (X1 − Xj )2 ;
j=1 j=1 j=2
P
n
i) V ( (Xi − Xj )2 ), para i = 1, . . . ,n;
j=1
P
n P
n−1
j) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=2 l=1
P
n P
n
k) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=1 l=1
P
n P
n
l) Cov( (Xi − Xj )2 , (Xk − Xl )2 ); para i,k = 1, . . . ,n, con i < k.
j=1 l=1
P
n P
n
n−3
m) V ( (Xi − Xj )2 ). Respuesta: 4n(n − 1)2 [m4 − n−1
m22 ].
i=1 j=1
P
n P
n P
n P
n PP
Sugerencia. V ( (Xi − Xj )2 ) = V ( Yi ) = V (Yi ) + 2 Cov(Yi ,Yk ), donde
i=1 j=1 i=1 i=1 i<k
P
n
Yi = (Xi − Xj )2 , para i = 1, . . . ,n.
j=1
48
José Flores Delgado Vector Aleatorio 49
Ejercicio 1.64. Un fabricante debe adquirir una cantidad X del bien A y una cantidad Y
del bien B. Las matrices de medias y de varianzas-covarianzas del vector (X,Y )t son
36 192
!
9 25 125
µ= y Σ= .
5 192 64
125 25
El fabricante recibe las ofertas de dos comerciantes de estos bienes: c1 , que ofrece el bien
A a 4 u.m. por unidad y el bien B a 7 u.m., y c2 , que ofrece el bien A a 3 u.m. por unidad
y el bien B a 8 u.m. Además de estos precios, se debe sumar el costo fijo que origina cada
oferta: 5 u.m., la de c1 , y 4 u.m. la de c2 . El comerciante se enfrenta con este problema en
muchas oportunidades, bajo las mismas condiciones. Responda las preguntas siguientes que
se formula el comerciante: (i) por cuál de las ofertas optar, (ii) cuál de la ofertas origina un
costo menos variable, (iii) la covarianza entre los costos de las dos ofertas.
Responda con y sin la propiedad dada en la sección 1.10.
Ejercicio 1.65. En el ejercicio 1.64, suponga que (X, Y )t es un vector aleatorio cuya
distribución conjunta es normal bivariable. Halle la probabilidad de que el costo total de
la oferta de c1 no pase de 30 u.m., si se sabe que debe adquirir 5 unidades de A.
Ejercicio 1.66. Sea (X, Y )t un vector aleatorio cuya distribución conjunta es normal
bivariable, cuyas matrices de medias y de varianzas-covarianzas son, respectivamente,
! 225 96
15
µ= y Σ= .
20
96 64
a) Halle el vector de medias y la matriz de varianzas-covarianzas del vector (2X, 3Y )t .
b) Sean U = 2X + 3Y y V = X + Y. Halle el vector de medias y la matriz de varianzas-
covarianzas del vector (U, V )t . Emplee la propiedad 1.10.
c) Demuestre que el vector (U, V )t tiene distribución normal bivariable. Use la propiedad
5 de la normal bivariable.
d) Halle P (X + Y ≤ 50 |X = 25).
49
50 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.67. Los ingresos brutos mensuales de una familia provienen de tres rubros que
dan las siguientes cantidades (en cierta unidad monetaria): X, Y y Z. El ingreso neto mensual
de esta familia está dado por I = 0,9X +0,8Y +0,7Z −40. La distribución conjunta del vector
(X, Y, Z)t es normal multivariada con las matrices de medias y de varianzas-covarianzas:
40 4 −8 0
µ = 60 y Σ = −8 25 0
80 0 0 36
c) Determine la probabilidad de que el ingreso neto mensual de esta familia esté entre 95
y 110 unidades monetarias, es decir, P (95 ≤ I ≤ 110).
Yj = βxj + ǫj , para j = 1, . . . , n,
c) Halle Cov(Yi , Yj ), i 6= j.
d) Halle E(β̂).
e) Halle V (β̂).
g) Halle la varianza de Ȳ .
6
En los capı́tulos siguientes se estudiará con más detalle este modelo usado en muchas áreas y
especialidades como, por ejemplo, econometrı́a.
50
José Flores Delgado Vector Aleatorio 51
Yj = α + βxj + ǫj , para j = 1, . . . , n.
P
n 1
α̂ = aj Yj , donde aj = − bj X̄ , para j = 1, . . . , n.
j=1 n
c) Uno de los argumentos usados para escoger estos estimadores fue el siguiente:
✭✭En promedio, el valor del estimador coincide con el valor del parámetro que estima✮✮.
¿Es válido este argumento? Justifique con la teorı́a tratada en este capı́tulo.
d) Halle Cov(Yi , Yj ), ∀i 6= j.
e) Use los resultados de las partes anteriores para hallar V (β̂) y V (α̂).
51
52 José Flores Delgado Estadı́stica inferencial
a) E(Ŷk ), para k = 1, . . . , n.
b) V (Ŷk ), para k = 1, . . . , n.
Ejercicio 1.73. En el modelo de regresión lineal con intercepto, dado en el ejercicio 1.69,
para cada k = 1, . . . , n, se definen Ŷk := α̂ + β̂xk (el valor ajustado de Yk o estimación del
valor promedio de Yk ) y ǫˆk := Yk − Ŷk (el residuo).
a) Halle E(Ŷk ), k = 1, . . . , n.
c) Halle V (Ŷk ), k = 1, . . . , n.
e) Halle E(ǫˆk ), k = 1, . . . , n.
f) Halle V (ǫˆj ), j = 1, . . . , n. P
n
j=1
ǫ̂ j
2
52
José Flores Delgado Vector Aleatorio 53
Ejercicio 1.74. El modelo de regresión con intercepto, dado en el ejercicio 1.69, puede ser
escrito matricialmente como Y = Xβ + ǫ, donde Y = ( Yi )n×1 , X = ( 1, xi )n×2 , β = (α, β)t
y ǫ = ( ǫi )n×1 .
a) Halle el vector de medias y la matriz de varianzas-covarianzas de ǫ.
b) Halle el vector de medias y la matriz de varianzas-covarianzas del vector Y , a partir
del resultado anterior.
−1
c) El estimador usal de β = (α̂; β̂)t se puede expresar como β̂ = X ′ X X ′ Y . A partir
de esto, halle el vector de medias y la matriz de varianzas-covarianzas de β̂.
d) Si Ŷ = X β̂, halle su vector de medias y su matriz de varianzas-covarianzas.
−1
Observe que Ŷ = X X ′ X X ′ Y .
ǫ
donde n×1 es un vector aleatorio con vector de medias nulo y matriz de varianza covarianza
σ 2 In×n , donde In×n es la matriz identidad de orden n,
53
54 José Flores Delgado Estadı́stica inferencial
Ejercicio 1.78. Un cliente entra a una agencia de un banco. El tiempo que permanece
un cliente en la cola de un banco es una variable aleatoria X y el tiempo que este cliente
permanece en la ventanilla de atención es una variable aleatoria Y. Las variables anteriores
son independientes y tienen distribución exponencial de parámetro β. Obtenga la distribución
X
de W = X+Y (la proporción del tiempo que permanece en la cola, respecto al tiempo total
de permanencia en la agencia)7 . Use el procedimiento para transformaciones descrito en la
sección 1.13, con una de las variables W y la otra Z = Y.
Ejercicio 1.79. Se dice que una variable aleatoria, X, tiene distribución Ji-cuadrado, con
N
parámetro ν, si X ∼ G(ν/2; 1/2), donde ν ∈ + ; se denota esto por X ∼ χ2 (ν). Por otra
parte, la distribución t de student corresponde a la función de densidad
Γ( ν+1
2
)
f (x) = √ x2 ν+1
, − ∞ < x < ∞,
πν Γ( ν2 )(1 + ν
) 2
donde ν > 0, es el parámetro de la distribución. Si X tiene esta densidad se dice que X tiene
distribución t de student con ν grados de libertad, se denota por X ∼ t(ν).
Sean Z y W dos variables aleatorias independientes, Z ∼ N(0,1) y W ∼ χ2 (ν). Sea la
variable
Z
T =r ,
W
ν
demuestre que T ∼ t(ν). Primero use el método del jacobiano para hallar la función de
densidad conjunta de las variables transformadas U = W y T , a partir de la correspondiente
a Z y W.
U/ν1
F = ,
W/ν2
demuestre que F ∼ F (ν1 ; ν2 ). Primero use el método del jacobiano para hallar la función
de densidad conjunta de las variables transformadas U y F , a partir de la correspondiente a
U y W.
7
Este ejercicio es una adaptación de un problema clásico en confiabilidad. Véase Devore y Berk, pág. 263,
2007.
54
2. Inferencia estadı́stica
2.1. Introducción
Ejemplo 2.1. Para averiguar la proporción, p, de electores que aprueban la gestión de una
autoridad municipal se elige una muestra de 500 electores y a partir de sus opiniones se
estimará la proporción de interés.
Definición 2.1. (Muestra) Las observaciones que se tendrán para realizar las inferencias se
denominan la muestra y las denotaremos por X1 , . . . , Xn , con n el número de observaciones
disponibles o tamaño de muestra.
Observación 2.1. Podemos decir que antes de registrar los valores de la muestra, se planifica
para obtener inferencias confiables y esto se consigue al aplicar la teorı́a de probabilidades
con las variables aleatorias que integran la muestra. Después de registrar estos valores se
lleva a cabo lo planificado para obtener las inferencias, pero estos valores ya son conocidos
(por lo tanto, no son variables aleatorias).
55
56 José Flores Delgado Estadı́stica inferencial
= f (x1 ) . . . f (xn )
X X
= f (x1 ) . . . f (x500 )
X X
x1 1−x1
= p (1 − p) . . . px500 (1 − p)1−x500
P
500 P
500
xj 500− xj
= p j=1
(1 − p) j=1
, xj ∈ { 0; 1 }.
Ejemplo 2.3. Se quiere averiguar si el tiempo promedio, µ, que necesitan los operarios
para llevar a cabo cierta tarea de un proceso de producción es el debido. Para este fin se
tomará una muestra aleatoria de 36 empleados adiestrados y se medirán los tiempos que
estos tardan en realizar la tarea. La muestra la integrarán X1 , . . . , X36 , con Xj el tiempo
que tardará el j-ésimo empleado seleccionado en la muestra. Por ser una muestra aleatoria
estas variables son aleatorias independientes y tienen el mismo modelo probabilı́stico (esto
es razonable, pues sus valores no pueden predecirse con certeza, un resultado no debe influir
sobre otros y porque los empleados han sido adiestrados para realizar la tarea).
Para aplicar la teorı́a de inferencia estadı́stica (paramétrica) se necesita asumir un modelo
56
José Flores Delgado Inferencia estadı́stica 57
probabilı́stico para estas variables, en este caso puede ser uno normal con media µ y
desviación estándar σ. De este modo, la variable de interés o de la población X puede
considerarse como el tiempo para llevar a cabo la tarea y se tiene que X ∼ N(µ; σ 2 ). Por
lo tanto la función de distribución conjunta de X1 , . . . , Xn está dada por
= f (x1 ) . . . f (x36 )
X X
(x −µ)2 (x36 −µ)2
− 1 2
= √1
2π σ
e 2σ ... √1
2π σ
e− 2 σ2
X
36
− 2 1σ 2
R.
(xj − µ)2
1
= ( √ 2π σ
)n e j=1 , xj ∈
Observación 2.4. Recuerde las frases siguientes: ✭✭las estadı́sticas demuestran que . . . ✮✮,
✭✭las estadı́sticas no mienten✮✮, etc.
57
58 José Flores Delgado Estadı́stica inferencial
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
: la varianza de la muestra.
El denominador n − 1 en lugar de n es para obtener mejores estimaciones.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
: la desviación estándar de la muestra.
1
P
n
k) p̄ = n
1A(Xj ) : la proporción de valores de la muestra que asumen valores en A.
j=1
Aquı́ 1A(·) es la función indicadora de A; es decir, 1A(x) = 1, si x ∈ A, y 1A(x) = 0, si
x 6∈ A.
Ejemplo 2.6. En el ejemplo 2.3, para obtener inferencias sobre el tiempo promedio, µ,
que necesitan los operarios para llevar a cabo la tarea, se registró la muestra siguiente
correspondiente a los tiempos (en minutos) de 36 empleados (elegidos al azar y que recibieron
el mismo adiestramiento para realizar la misma tarea):
Entonces, podemos obtener las principales estadı́sticas de estos datos por medio del Excel,
la secuencia para esto es: Herramientas → Análisis de datos → Estadı́stica descriptiva.
Ası́ obtenemos los valores de algunas estadı́sticas:
P
n
Xj
j=1
a) X̄ = n
= 49,7.
d) X1 = 47.
e) Xn = 49,26.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
= 147,5998.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
= 12,1491.
h) Me = 47,33.
58
José Flores Delgado Inferencia estadı́stica 59
i) P25 = 42,26.
j) P75 = 60,95.
1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : la proporción de veces que es necesario más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea (para esto último se ha usado la función del Excel
“contar si”).
Observación 2.5. Una estadı́stica es una variable aleatoria, varı́a de una muestra a otra,
pero registrada la muestra se obtiene uno de sus valores posibles.
Ejemplo 2.8. En el contexto del ejemplo 2.3, podemos considerar como estimadores de µ,
entre otros existentes, a µ̂1 la media correspondiente a las observaciones primera y última,
es decir, X̄2 = (X1 + X36 )/2 y a µ̂2 la media de la muestra completa, es decir, X̄.
Como fue observado, los estimadores son variables aleatorias, varı́an de una muestra a
otra; sin embargo, estos no pueden ser tan arbitrarios; se procura, entre otras propiedades,
que en promedio estén próximos al verdadero valor del parámetro y que varı́en poco de una
a otra muestra observada. Veamos a continuación, cuál de los dos estimadores propuestos en
el ejemplo anterior es mejor, es decir, cuál cumple mejor el objetivo antes mencionado.
Ejemplo 2.9. Sean µ̂1 y µ̂2 los estimadores de µ del ejemplo anterior. Analicemos sus
valores esperados; para esto usamos la propiedad por la cual la esperanza de una suma de
variables es la suma de las esperanzas correspondientes a dichas variables:
entonces, tanto µ̂1 como µ̂2 coinciden, en promedio, con el valor verdadero del parámetro.
Ahora comparemos sus variabilidades. Para esto usamos la propiedad por la cual la varianza
de una suma de variables independientes es igual a la suma de las varianzas correspondientes:
59
60 José Flores Delgado Estadı́stica inferencial
1
P
36
1
P
36
1
P
36
1
P
36
1 1 2
V (µ̂2 ) = V ( 36 Xj ) = 362
V ( Xj ) = 362
( V (Xj )) = 362
( σ2) = 362
(36σ 2 ) = 36
σ ;
j=1 j=1 j=1 j=1
Como ambos estimadores tienen como valor promedio a µ, pero el segundo (basado en las
36 observaciones) es menos variable (como era de esperar) resulta mejor.
A continuación formalizamos algunos términos vistos en el ejemplo anterior.
2.3.1. Insesgamiento
Definición 2.6. Si θ̂ es un estimador del parámetro θ, diremos que este es insesgado respecto
a θ, si
E(θ̂) = θ, ∀θ ∈ Θ.
Observación 2.6. El estimador varı́a de una muestra a otra; pero si este es insesgado
resulta que el promedio de los valores que puede asumir coincide con el valor del parámetro
que estima.
La tabla siguiente muestra los parámetros más conocidos, asociados con una muestra
aleatoria de la variable X (de media µ y varianza σ 2 ), y sus correspondientes estimadores
usuales
Parámetro Estimador
P
n
µ (media) =E(X) X̄ = n1 Xj
j=1
1
P
n
1
P
n
σ 2 (varianza) = V (X) S2 = n−1
(Xj − X̄)2 = n−1
( Xj2 − nX̄ 2 )
j=1 j=1
1
P
n
p (proporción de A)= P (X ∈ A) p̄ = n
1 (Xj )
j=1 A
60
José Flores Delgado Inferencia estadı́stica 61
P
n
Ejemplo 2.10. El estimador σˆ2 = 1
n
(Xj − X̄)2 = n−1 2
n
S es un estimador sesgado de σ 2 ,
j=1
pero asintóticamente insesgado. En efecto, como E(S 2 ) = σ 2 ; entonces, E(σˆ2 ) = n−1
n
σ 2 . Por
lo tanto, lı́m E(σˆ2 ) = σ 2 .
n→∞
Ejemplo 2.11. A partir de la muestra del ejemplo 2.6, veamos algunos ejemplos de
estimación:
P
n
Xj
j=1
a) X̄ = n
= 49,7. Entonces, podemos estimar que el tiempo promedio que los
empleados necesitan para llevar a cabo la tarea es de 49,7 minutos.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
b) S = n−1
= n−1
= 147,5998. Entonces, podemos estimar que la
varianza, del tiempo que los empleados necesitan para llevar a cabo la tarea, es de
147,5998 minutos2 .
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
c) S = n−1
= n−1
= 12,1491. La desviación estándar del tiempo
que los empleados necesitan para llevar a cabo la tarea se estima en 12,1491 minutos.
i) P25 = 42,26. Ası́, estimamos que la cuarta parte de los empleados requieren un tiempo
de 42,26 minutos o menos.
j) P75 = 60,95. Ası́, estimamos que el 75 % de los empleados requieren un tiempo de 60,95
minutos o menos.
1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : proporción de empleados que requieren más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea = 14/36 = 0,3. Ası́, estimamos que el 30 % de los
empleados requiere más de 50 minutos para llevar a cabo la tarea.
8
Esta forma de expresar la varianza de S 2 se encuentra en Casella (2002), ejercicio 5.8, pág. 257. Vea
también los ejercicios propuestos 1.59, 1.60 y 2.3.
61
62 José Flores Delgado Estadı́stica inferencial
2.3.2. Eficiencia
Definición 2.8. Si θ̂1 y θ̂2 son dos estimadores insesgados del parámetro θ, diremos que θ̂1
es más eficiente que θ̂2 , si
V (θ̂1 ) < V (θ̂2 ).
Esta definición es razonable, pues, si dos estimadores de un mismo parámetro son insesgados,
es razonable afirmar que el de menor variabilidad sea mejor, pues esto significa que suele
diferir del parámetro (su media) con menor frecuencia, de una a otra muestra.
Ejemplo 2.12. En el ejemplo 2.9 la media de la muestra de todas las observaciones es más
eficiente que el que considera solo dos.
Ejemplo 2.13. Consideremos una muestra aleatoria de una variable con (varianza finita) y
la familia de estimadores de la media que son combinaciones lineales de las variables de la
muestra e insesgados; entonces, MEIF = X̄.
2.3.3. Consistencia
N
Ejemplo 2.15. Sea X ∼ U[0; 1] y para cada n ∈ + , sea Xn = X + n1X . Nótese que, si
N
X = 0 : Xn = 1, ∀n ∈ + ; ası́, lı́m Xn = 1. Sin embargo, si 0 < X ≤ 1 : lı́m n1X = 0; ası́,
n→∞ n→∞
lı́m Xn = X. Por lo tanto, P lı́m Xn = X = P (0 < X ≤ 1) = 1 y lı́m Xn = X, c.s.
n→∞ n→∞ n→∞
62
José Flores Delgado Inferencia estadı́stica 63
a) Si lı́m Xn = X, c.s. y lı́m Yn = Y , c.s.; entonces, lı́m (cXn + dYn ) = cX + dY, c.s.
n→∞ n→∞ n→∞
c) Si g es una función continua y lı́m Xn = X, c.s.; entonces, lı́m g(Xn ) = g(X), c.s.
n→∞ n→∞
Definición 2.12. Sea (Xn )n∈N+ una secuencia de variables aleatorias definidas en un mismo
espacio probabilı́stico (Ω, P ) y X una variable aleatoria definida en el mismo espacio. Se dice
que (Xn )n∈N+ converge a X en probabilidad, si ∀ǫ > 0 : lı́m P ( |Xn − X| > ǫ ) = 0. Esto se
n→∞
p
denota por Xn → X o P lim Xn = X.
Ejemplo 2.17. Como en el ejemplo 2.15, Xn = X + n1X , ∀n ∈ N+, con X ∼ U[0; 1], veamos
p
que Xn → X :
Observación 2.11. El resultado del ejemplo anterior no es una coincidencia, se cumple que
Definición 2.13. Sea (Xn )n∈N+ una secuencia de variables aleatorias, con distribuciones
acumuladas F1 , F2 . . . , respectivamente. Se dice que esta secuencia de variables converge en
distribución a la variable aleatoria X, con distribución acumulada F, si para todo x, punto
de continuidad de F, se tiene que lı́m Fn (x) = F (x).
n→∞
D
Notación: Xn → X.
63
64 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.1. Sea (Xn )n∈N+ una secuencia de variables aleatorias con Xn ∼ exp(−n) 9 . La
distribuciones
( acumuladas de estas variables están dadas por
0, si x ≤ 0,
Fn (x) =
1 − e−nx ; si x > 0;
ası́, (
0, si x ≤ 0,
lı́m Fn (x) =
n→∞ 1, si x > 0.
Por otra parte, la distribución acumulada de X = 0, está dada por
(
0, si x < 0,
F (x) =
1, si x ≥ 0;
entonces, F es continua para todo x 6= 0 y para estos puntos tenemos que lı́m Fn (x) = F (x).
n→∞
D
Por lo tanto, Xn → 0.
p D
Observación 2.12. Se cumple que Xn → X ⇒ Xn → X. También se cumplen las
propiedades siguientes, las tres primeras son conocidas como El Teorema de Slutsky.
D D
a) Xn → X y P limYn = c ⇒ Xn + Yn → X + c;
D D
b) Xn → X y P limYn = c ⇒ Xn Yn → cX;
D Xn D X
c) Xn → X y P limYn = c ⇒ → , si c 6= 0 y P (Yn 6= 0) = 1.
Yn c
D D
d) Xn → X y P limYn = c ⇒ g(Xn ) → g(X), si g es continua.
D D
e) an (Xn − µ) → X ⇒ an (g(Xn ) − g(µ)) → g ′(µ)X, si y g diferenciable en µ.
Observación 2.13. Los teoremas más importantes de la teorı́a asintótica, acerca de los
tipos de convergencia anteriores, para la teorı́a de inferencia estadı́stica son los siguientes:
64
José Flores Delgado Inferencia estadı́stica 65
P
Observación 2.14. Recuérdese que lı́mn→∞ θ̂n = θ, c.s. ⇒ θ̂n → θ. Por lo tanto, si un
estimador es consistente fuertemente, también es consistente débilmente.
Ejemplo 2.18. En el caso de una muestra aleatoria de X, tenemos los resultados siguientes:
a) si E(X) = µ, lı́m X̄n = µ, c.s.;
n→∞
b) si V (X) = σ 2 , lı́m Sn2 = σ 2 , c.s.;
n→∞
c) si P (X ∈ A) = p; lı́m p̄n = p, c.s.
n→∞
Los resultados son consecuencia de la Ley Fuerte de los Grandes Números. Por lo tanto, los
estimadores usuales de los parámetros básicos son consistentes fuertemente y, en particular,
consistentes débilmente. Esta Ley permite verificar fácilmente la consistencia fuerte de
estimadores que tenga la forma de la media de una muestra aleatoria simple de una variable
con media finita.
S
Ejemplo 2.19. El coeficiente de variación muestral, X̄ , es un estimador consistente
σ
fuertemente del coeficiente de la población µ . Esto es una consecuencia de los resultados
anteriores y de las propiedades dadas en la observación 2.10. En efecto, lı́m S 2 = σ 2 , c.s.;
√ n→∞
por lo tanto, lı́m S = σ 2 = σ, c.s. Además, lı́m X̄ = µ, c.s. Por lo tanto, lı́m X̄S = σµ , c.s.
n→∞ n→∞ n→∞
Ejemplo 2.20. Si X es una variable aleatoria con media cero; entonces, para muestras
P
n
aleatorias simples n1 Xj2 es un estimador consistente fuertemente de σ 2 . Para llegar a esta
j=1
conclusión basta observar que por ser X1 , . . . , Xn una muestra aleatoria de X, es decir,
estas variables son independientes y tienen la misma distribución que la de X; entonces,
X12 , . . . , Xn2 son variables aleatorias independientes con la misma distribución que la de X 2 ,
la cual tiene una media E(X 2 ) = σ 2 ; por lo tanto, por la Ley Fuerte de los Grandes Números,
Pn
sigue que lı́m n1 Xj2 = E(X 2 ) = σ 2 , c.s.
n→∞ j=1
65
66 José Flores Delgado Estadı́stica inferencial
Obsérvese que, si las variables son discretas, entonces, la función de verosimilitud, asociada
a la muestra X1 = x1 , . . . , Xn = xn , es la probabilidad de que se obtenga justamente dicha
muestra. Esto justifica su nombre.
De aquı́, es fácil verificar que L es maximizada cuando β = 1/x̄. Entonces, la estimación por
máxima verosimilitud de β es x̄ y el estimador, 1/X̄.
66
José Flores Delgado Inferencia estadı́stica 67
∂
2 ∂2
con I(θ) = E ∂θ
ln( f (X; θ) = −E ∂ θ2
Ln(f (X; θ) .
X
√ aprox. 1
Ası́, si el tamaño de muestra n es grande, n (θ̂mv − θ) ∼ N(θ; n
I −1 (θ)).
aprox. 1
Ası́ el tamaño de muestra n es grande, θ̂ ∼ Nk (θ; n
I −1 (θ)).
El cálculo de I(θ) suele ser complejo; sin embargo, se puede obtener una aproximación como
sigue a continuación. Sea H(θ) la matriz hessiana del logaritmo de la función de verosimilitud
asociada con la muestra X1 , . . . ,Xn ; es decir,
h i
∂2
H(θ) = ∂θi ∂θj
Ln(L(X1 , . . . ,Xn ; θ1 , . . . ,θk )) .
k×k
Se cumple que
aprox.
θ̂ ∼ Nk (θ; −H −1 (θ̂)), (2.2)
donde σ̂ θˆimvI y σ̂ θˆimvH son los i-ésimos elementos de la diagonal de I −1 (θ) y −H −1 (θ̂),
respectivamente.
67
68 José Flores Delgado Estadı́stica inferencial
2.4.2. Momentos
Recordemos que si X es una variable aleatoria, su k−ésimo momento está dado por
mk = E(X k ). Análogamente, si X1 , . . . , Xn es una muestra aleatoria de X, se define el
Pn
k−ésimo momento, denotado Mk , mediante Mk = n1 Xjk .
j=1
Definición 2.19. Sea X una variable aleatoria cuya distribución dependa de los parámetros
θ1 , . . . , θk , entonces, los estimadores de estos parámetros, según el método de los momentos,
corresponden a la solución del sistema de k ecuaciones (con estos parámetros como
incógnitas), siguiente:
mj = Mj , j = 1, . . . , k.
µ = X̄
1
P
n
σ 2 + µ2 = n
Xj2 ,
j=1
P
n P
n
cuya solución es µ = X̄ y σ 2 = 1
n
Xj2 − X̄ 2 . Por lo tanto, µ̂ = X̄ y σˆ2 = 1
n
Xj2 − X̄ 2 .
j=1 j=1
Se tiene una variable Y que es explicada por su relación funcional con una variable X;
pero con un error aleatorio de medición u observación ǫ, es decir, se tiene el modelo siguiente:
Y = g(X,θ) + ǫ
Por lo tanto, en promedio, la relación existente sı́ es lineal, es decir, E(Y ) = g(X,θ).
68
José Flores Delgado Inferencia estadı́stica 69
Esto último significa que, dado un mismo valor particular para la variable independiente,
digamos X = x, entonces, por causa del error aleatorio, el valor que podemos observar como
respuesta no es necesariamente y = g(x,θ), sino que es uno de una gama de valores con una
distribución de media g(x,θ). La variable Y es la variable dependiente o de respuesta a los
valores determinados de la variable independiente.
Entonces Yi es una variable de valor esperado E(Yi ) = g(xi ,θ). Ası́ podemos formar dos
vectores, uno el vector de respuestas observadas: (y1 , . . . , yn ); y el otro de respuestas
esperadas: (g(x1 ,θ), . . . ,g(xn ,θ)). El método de los cuadrados mı́nimos establece que las
estimaciones de los parámetros del modelo deben ser tales que minimicen la distancia o,
equivalentemente, el cuadrado de la distancia existente entre los vectores de respuestas
observadas y el de respuestas esperadas:
n
X
Q(θ) = (yi − g(xi ,θ))2
i=1
Una forma alternativa de expresar este estimador es la dada en el ejercicio 1.68; es decir,
n
X xj
β̂ = bj Yj , con bj = P
n , para j = 1, . . . , n.
2
j=1 xi
i=1
Esta forma alternativa resulta muy conveniente para el estudio de la propiedades del
estimador, pues, estas son heredadas de las variables Yj .
69
70 José Flores Delgado Estadı́stica inferencial
Y =α+ βX +ǫ
P
n
En este caso Yi = α + β xi + ǫi , i = 1, . . . ,n, y Q(α,β) = (yi − α − β xi )2 . Al minimizar
i=1
Q(α,β), se obtienen los estimadores de cuadrados mı́nimos de α y β :
P
n
(xj − X̄)(Yj − Ȳ )
j=1
β̂ = P
n y α̂ = Ȳ − β̂ X̄.
(xj − X̄)2
j=1
Observación 2.16. (Teorema de Gauss Markov) Los estimadores anteriores son los mejores
estimadores lineales e insesgados.
Si, además de los supuestos clásicos, asumimos que los errores tienen distribución normal,
entonces, la función de verosimilitud asociada a la muestra Y1 = y1 , . . . . . . Yn = yn , con el
modelo de regresión lineal sin intercepto es la siguiente:
L(β, σ 2 ) = f (y1 ) ... f (yn )
Y1 Yn
1 1 2 1 1 2
= √ e− 2 σ2 (y1 −θ X1) . . . √ e− 2 σ2 (yn −β Xn )
2π σ 2πσ
1 P
n
− (yj −β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e j=1
.
Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
Xj Y j
j=1 1 Pn
β̂ = Pn y σ̂ 2 = (Yj − β̂Xj )2 .
n j=1
Xi2
i=1
La función de verosimilitud, en el modelo de regresión lineal con intercepto, es la siguiente:
L(α, β, σ 2) = f (y1 ) ... f (yn )
Y1 Yn
1 1 2 1 1 2
= √ e− 2 σ2 (y1 −α−β X1 ) . . . √ e− 2 σ2 (yn −α−β Xn )
2π σ 2πσ
1 P
n
− (yj −α−β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e . j=1
Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
(Xj − X̄)(Yj − Ȳ )
j=1 1 Pn
β̂ = P
n , α̂ = Ȳ − β̂ X̄ y σ̂ 2 = (Yj − α̂ − β̂Xj )2 .
n j=1
(Xi − X̄)2
i=1
70
José Flores Delgado Inferencia estadı́stica 71
P
n P
n P
n
Xj Y j − nX̄ Ȳ Yj2 − nȲ 2 − β̂ 2 Xj2 − nX̄ 2
j=1 j=1 j=1
β̂ = Pn y σ̂ 2 = .
n−2
Xj2 − nX̄ 2
j=1
Otra forma alternativa de expresar estos estimadores, conveniente para el estudio de sus
propiedades, es la dada en el ejercicio 1.69; es decir,
P
n xj − X̄
β̂ = bj Yj , con bj = P
n , j = 1, . . . , n;
j=1
(xi − X̄)2
i=1
P
n 1
α̂ = aj Yj , con aj = − bj X̄ , j = 1, . . . , n.
j=1 n
Uno de los resultados más importantes relacionados con esta distribución normal y el
muestreo para la estimación de la media, µ, de una variable es el siguiente:
σ2
X̄ ∼ N(µ; ).
n
aprox. σ2
X̄ ∼ N(µ; ).
n
71
72 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.2. Una técnica para llevar a cabo cierta tarea asegura que la distribución de los
tiempos que necesitan los operarios de una compañı́a, adiestrados con ella, sea normal. Para
estimar a σ 2 (la varianza de estos tiempos) se tomará una muestra de n = 17 y se usará S 2
(la varianza de la muestra) como estimación. Determine la probabilidad de que la estimación
resulte mayor que el doble del valor verdadero de la varianza σ 2 .
72
José Flores Delgado Inferencia estadı́stica 73
73
74 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.1. Dada una muestra aleatoria de la variable X (con media µ y varianza σ 2 ),
digamos X1 , . . . , Xn , use las propiedades de esperanza, varianza y covarianza necesarias para
demostrar los resultados siguientes:
f) E(S 2 ) = σ 2 .
Ejercicio 2.2. Sea X una variable aleatoria con E(X) = µ y varianza σ 2 . Sea X1 , . . . , Xn
una muestra aleatoria de X.
P
n
a) ¿Son Xi y Xj independientes? Justifique.
j6=i
1 1
P
n
b) Halle cov(Xi , X̄), con i = 1, . . . , n. Obsérvese que X̄ = n
Xi + n
Xj .
j6=i
c) Use los resultados de las partes anteriores para hallar cov(Xi − X̄, X̄), con i = 1, . . . , n.
Ejercicio 2.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, que tiene
media µ, varianza σ 2 y momento m4 finito. Demuestre que la varianza de S 2 está dada como
en la tabla de la observación 2.712 .
P
n P
n P
n 2
Sugerencia. Verifique que (Xi − Xj )2 = 2n( Xj2 − n X ) y use el ejercicio 1.60.
i=1 j=1 j=1
Ejercicio 2.5. Sea θ̂ un estimador de θ. Demuestre que el error cuadrático medio de θ̂,
E(θ̂ − θ)2 , es igual a V (θ̂) + [ E(θ̂ − θ) ]2 .
12
Como fue mencionado antes, esta forma de expresar la varianza de S 2 se encuentra en Casella (2002),
ejercicio 5.8, pág. 257
74
José Flores Delgado Inferencia estadı́stica 75
Ejercicio 2.6. Si X ∼ U(0; θ). Determine cuál de los estimadores siguientes de θ tiene un
menor error cuadrático medio: X̄ ó 2X̄.
Ejercicio 2.7. Sea θ̂ tal que E(θ̂) = 3 θ y V (θ̂) = 16 θ2 /n, con n el tamaño de la muestra.
a) Halle E(θ̂ −θ)2 , el error cuadrático medio de θ̂. Sugerencia: desarrolle el cuadrado antes
de aplicar el valor esperado.
c) Estudie cuál de los dos estimadores dados tiene un menor error cuadrático medio.
Ejercicio 2.8. Sea X ∼ N(µ, σ 2 ), ambos parámetros son desconocidos. Para estimar a µ (la
media de la población) se planifica tomar una muestra aleatoria de X, digamos X1 , . . . , Xn .
Como estimador se considerará a X̄ (la media de la muestra).
a) Uno de los argumentos usados para escoger tal estimador fue el siguiente: “en promedio,
el valor de este coincidirá con el valor del parámetro”. ¿Es válido este argumento?
b) Uno de los objetivos que se desea lograr es que el error de estimación no supere la
mitad de σ (la desviación estándar de la población). Determine el tamaño de muestra
que se debe elegir, de modo que la probabilidad de lograr el objetivo anterior sea, por
lo menos, 0,95. Recuerde que X ∼ N(µ, σ 2 ) ⇒ X̄ ∼ N(µ, σ 2 /n).
2
P
n
c) Verifique si el estimador µ̂2 = n(n+1)
j Xj también satisface el argumento
j=1
mencionado en la parte a. ¿Cuál de estos estimadores propuestos es preferible?
Ejercicio 2.9. En el ejemplo 2.3 suponga que la distribución de los tiempos que necesitan
los operarios de una compañı́a, adiestrados con ella, sea normal. Para hacer inferencias sobre
la media y la varianza de estos tiempos se dispondrá de una muestra aleatoria de tamaño n.
2
P
n
a) Compare el estimador usual de la media con el estimador µ̂2 = n(n+1)
j Xj .
j=1
Ejercicio 2.10. Sea X una variable aleatoria con E(X m ) = θm/2 Γ(1 + m2 ), ∀m ∈ N+ . Como
2
estimadores de θ se consideran a θ̂1 = c1 X , θ̂2 = c2 S 2 y θ̂3 = c3 X 2 , donde las constantes
c1 , c2 y c3 son tales que los estimadores resultan insesgados.
c) Determine, de ser posible, cuál de estos estimadores es el más eficiente. (1,5 puntos)
75
76 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.12. Sea X1 , . . . , Xn una muestra aleatoria de una variable X, con función de
x + 1 −x/θ
distribución de probabilidades f (x) = e , x > 0.
θ(θ + 1)
a) Determine cuáles de los estimadores son insesgados y, entre estos, el más eficiente.
76
José Flores Delgado Inferencia estadı́stica 77
Ejercicio 2.14. Sea X1 , . . . , Xn una muestra aleatoria de una distribución de Poisson con
parámetro λ. Determine cuáles de los estimadores de λ siguientes son insesgados y, entre
estos, el más eficiente: λb1 = X̄, λb2 = nX̄, λb3 = X1 +X
2
2
y λb4 = Xn1 .
Ejercicio 2.15. Sea X1 , . . . , Xn una muestra aleatoria de una distribución exponencial con
media θ. Considere los estimadores de θ siguientes: θ̂1 = X̄, θ̂2 = X1 y θ̂3 = X1 +X
2
2
.
Ejercicio 2.16. Un economista que labora en una AFP supone que el tiempo, X, que
permanecen empleados sus afiliados sigue el modelo probabilı́stico Weibull (2; β): f (x) =
X
2
2 β x e−β x , x > 0, con x medido en años y β un parámetro para estimar.
Γ( k2 + 1)
a) Halle el lı́mite casi seguro de M2 . Para este modelo E(X k ) = k , ∀k ∈ N.
β2
b) ¿Es β̂ = 1/M2 un estimador consistente fuertemente?
c) Sea p la probabilidad de que un cliente permanezca afiliado más de un año. Averigüe
si p̂ = e−β̂ es un estimador consistente de p, con β̂ como en la parte anterior.
2
Obsérvese que p = P (X > 1) = e−β , pues, FX (x) = 1 − e−β x , x > 0.
d) Deducir los estimadores que proporcionan los métodos de máxima verosimilitud y de
los momentos. Estudie si son consistentes.
e) Determine la información de Fisher para este modelo
f) Si β̂mv es el estimador obtenido por el método de máxima verosimilitud,
√
use el resultado
n (β̂mv −β) D
anterior para verificar el resultado asintótico siguiente: β
→ N(0, 1).
g) Se tomará una muestra de tamaño n = 36. Use el resultado anterior para hallar el
valor de c tal que P ( β̂1+c
mv
≤ β ≤ β̂1−c
mv
) ≈ 0,95.
h) Tomada la muestra mencionada en la parte anterior, se obtuvieron los valores
siguientes:
31,02 14,57 42,6 67,73 65,72 79,76 5,4 32,35 63,08 17,27 23,71 9,65
8,11 18,94 22,27 5,87 25,9 28,99 40,17 29,74 30,49 29,65 69,45 35,42
33,33 26,92 86,23 57,33 97,34 24,33 77,85 10,48 49,41 58,24 84,78 35,44
Halle βmv la estimación de máxima verosimilitud, de β, correspondiente; luego, a partir
del resultado obtenido en la parte anterior, obtenga un intervalo tal que β se encuentre
en este, con una confianza del 95 % (aproximadamente).
i) Use la estimación anterior para estimar el tiempo promedio que permanecen empleados
los afiliados.
j) Estudie si los estimadores de β siguientes son consistentes fuertemente:
4−π π 4 − π + nπ
β̂2 = 2
, β̂3 = 2 y β̂4 = 2 .
4S 4X 4n X
77
78 José Flores Delgado Estadı́stica inferencial
Γ( 2 + 1)
estimador de θ : θ̂ = Mk
.
Ejercicio 2.22. Sea X ∼ P ascal(2; p), estime el estimador de p por máxima verosimilitud,
estudie su consistencia y compárelo con el que proporciona el método de los momentos.
Ejercicio 2.23. La rentabilidad diaria de una acción es una variable aleatoria X, con
distribución N(0, σ 2 ). Se tomará una muestra aleatoria de n observaciones de X.
a) Si n = 25, halle el valor de c, para que, con una probabilidad de 0,95, el coeficiente de
variación muestral | S/X̄ | sea mayor que c.
78
José Flores Delgado Inferencia estadı́stica 79
Ejercicio 2.26. El número de clientes hasta el primero que compra cierto producto
se considera una variable aleatoria X con distribución geométrica cuyo parámetro p
será estimado a partir de una muestra aleatoria. Es decir, f (x) = (1 − p)x−1 p, x = 1, 2, . . . .
X
Ejercicio 2.28. En una fábrica se produce una gran cantidad de componentes electrónicos,
cada uno de estos puede estar defectuoso con una probabilidad igual a p, e independiente-
mente de los demás. En un control de la calidad, cada dı́a se toma una muestra aleatoria
de 30 componentes. Sea X el número de componentes, en la muestra de un dı́a, que están
defectuosos.
a) A partir de una muestra aleatoria, X1 , . . . , Xn , de la variable X, halle el estimador
del parámetro p, de la distribución de X, que se obtiene con el método de máxima
verosimilitud.
b) Halle el valor esperado del estimador de p hallado anteriormente. ¿Es este estimador
insesgado? ¿Cuál es su desviación estándar?
c) En una semana se obtuvieron los datos siguientes:
Dı́a 1 2 3 4 5 6 7
Número de componentes defectuosos 1 2 2 1 3 0 1
79
80 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.29. Para el ingreso mensual, X (en miles de soles), en cierto sector, se propone
el modelo probabilı́stico beta siguiente: f (x) = α xα−1 , 0 < x ≤ 1, con α > 0 un parámetro
X
por estimar a partir de una muestra aleatoria de tamaño n de X.
Ejercicio 2.30. El ingreso en cierto sector se considera una variable aleatoria X con
distribución gamma con parámetros α = 4 y β por estimar a partir de una muestra aleatoria.
Es decir, f (x) = 16 x3 β 4 e−β x , x > 0.
X
1
∂ 2 −1
c) Halle la varianza aproximada de β̂mv : n
E ( ln( f (X; β) ) .
∂β X
Ejercicio 2.31. En cierto sector, el salario es una variable aleatoria continua X ∼ exp(β).
Sea p la proporción de asalariados que ganan más del salario mı́nimo, 675 soles, es decir,
p = P (X > 675). Se tomará una muestra aleatoria de n asalariados de la región y
se registrarán sus salarios: X1 , . . . ,Xn . Use la propiedad de invarianza para encontrar el
estimador de p. Tenga en cuenta que p = 1 − FX(675) = e−675β y que, por el ejemplo 2.22, el
estimador de máxima verosimilitud de β es β̂mv = X̄1 .
Ejercicio 2.32. En el ejercicio 2.31, suponga que en lugar de registrar el salario X solo se
registrará si este mayor que el salario mı́nimo, con el valor 1, o si no lo es, con el valor 0. Es
decir, se registrará una muestra aleatoria, Y1 , . . . ,Yn , de la variable Y = 1 (X).
]675, ∞[
80
José Flores Delgado Inferencia estadı́stica 81
Ejercicio 2.33. Sean θ̂1 , . . . , θ̂n estimadores insesgados del parámetro θ, igualmente
eficientes y no-correlacionados. Considere la familia de estimadores de θ que son
R
combinaciones lineales de estos estimadores: { a1 θ̂1 + · · · + an θ̂n : a1 ∈ , . . . ,an ∈ }. R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer
a1 , . . . , an para que los estimadores de esta familia sean insesgados.
b) Halle una expresión simplificada para g(a1 , . . . , an ) = V (a1 θ̂1 + · · · + an θ̂n ).
c) Use las partes anteriores para encontrar el estimador, de esta familia, que tenga la
menor varianza y sea insesgado.
Ejercicio 2.34. Sean X ∼ N(µ1 ; σ12 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ22 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior.
X̄ − Ȳ − (µ1 − µ2 )
T = q . (2.5)
Sp n1 + n1
1 2
Ejercicio 2.35. En el ejercicio 2.34, considere σ12 = σ22 = σ 2 . Sea la familia de estimadores
de σ 2 que son combinaciones lineales de SX2 y SY2 : { aSX2 + bSY2 : a ∈ , b ∈ }. R R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer a y
b para que los estimadores de esta familia sean insesgados.
a) Uno de los objetivos es que P ( 21 SX2 ≤ σ12 ≤ 2SX2 ) = P ( 12 SY2 ≤ σ22 ≤ 2SY2 ) ≈ 0,95. ¿Esto
se logra? Note que 12 SX2 ≤ σ12 ≤ 2SX2 ⇔ 21 σ12 ≤ SX2 ≤ 2σ12 .
S2 σ2
b) Halle d tal que P SX2 > d σ12 = 0,05.
Y 2
SX2 σ12 S2
c) Halle dos constantes positivas, d1 y d2 tales que P d1 2 ≤ σ2 ≤ d2 S 2 X
= 0,95.
SY 2 Y
81
82 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.37. Las distribuciones de los salarios, X e Y, de dos sectores sindicalizados son
normales, con medias µ1 y µ2 y varianzas σ12 y σ22 , respectivamente. Para realizar inferencias
sobre la diferencia de estas medias: θ = µ1 − µ2 se tomarán dos muestras de tamaños n1 y
n2 , una de cada sector. Se considera como estimador de θ a θ̂ = X̄ − Ȳ .
Ejercicio 2.38. Dado el parámetro θ, sean θ̂1 y θ̂2 dos estimadores independientes,
insesgados e igualmente eficientes, basados en muestras del mismo tamaño. Se define un
tercer estimador, θ̂, de la manera siguiente: θ̂ = x θ̂1 + (1 − x) θ̂2 , 0 < x < 1.
Use el método de los multiplicadores de Lagrange; para esto observe que una condición
P
n P
n
necesaria y suficiente para que cj Yj sea un estimador insesgado de β es que cj xj = 1.
j=1 j=1
a) Halle el mejor estimador de β que sea insesgado y función lineal de las variables Yj .
Use el método de los multiplicadores de Lagrange; para esto observe que
n
X n
X n
X
E( cj Yj ) = β, ∀β ⇔ cj = 0 y cj xj = 1.
j=1 j=1 j=1
b) Halle el mejor estimador de α que sea insesgado y función lineal de las variables Yj .
82
José Flores Delgado Inferencia estadı́stica 83
Ejercicio 2.41. En el modelo de regresión lineal simple con intercepto, considere además
que los errores tengan distribución normal.
1 P n
g) Demuestre que σ̂ 2 = (Yj − α̂ − β̂xj )2 es un estimador insesgado de σ 2 .
n − 2 j=1
Ejercicio 2.42. En el estudio respecto a la relación entre el consumo del bien A, Y, y el precio
del bien B, X, se considera el modelo de regresión lineal siguiente: Yj = θ xj +ǫj , j = 1, . . . , 5,
donde x1 , . . . , x5 son los valores del precio de B fijados en el estudio, mientras que ǫ1 , . . . , ǫ5 ,
son variables aleatorias independientes y cada una con distribución N(0; σ 2 ). La inferencia
estadı́stica se hará a partir de los resultados de una muestra aleatoria (de consumos de A):
Y1 , . . . , Y5, asociada a los valores fijados para el precio de B, x1 , . . . , x5 , respectivamente.
Determine la función de verosimilitud asociada a los valores de la muestra registrada
Y1 = y1 , Y2 = y2 , Y3 = y3 , Y4 = y4 , Y5 = y5 . Luego, deduzca las estimaciones y los estimadores
de máxima verosimilitud.
Observe que L(θ,σ 2 ) = f (y1 , . . . , y5) = f (y1 ) . . . f (y5 ) y determine el modelo probabilı́stico
Y1 , . . . , Y5 Y1 Y5
de Yj , para j = 1, . . . , 5.
Ejercicio 2.43. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX y lı́m n
= µX 2 . Demuestre que β̂ es consistente (fuertemente).
n→∞ n→∞
Ejercicio 2.44. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ es consistente débilmente.
n→∞ j=1 n→∞ j=1
Ejercicio 2.45. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX , y lı́m n
= µX 2 . Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ n→∞
83
84 José Flores Delgado Estadı́stica inferencial
Ejercicio 2.46. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ j=1 n→∞ j=1
Ejercicio 2.47. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
idénticamente distribuidas, E(X1 ) = µ, V (X1 ) = σ 2 y m4 = E(X 4 ). Para cada n ∈ N+ ,
P
n
Xj
j=1 2
sea X̄ = n
y S12 = X 2 − X .
σ
a) Demuestre que lı́m = 1, c.s.
n→∞ S1
√
n ( X̄−µ ) D
b) Demuestre que S1
→ Z, donde Z ∼ N(0, 1).
√ √
n ( X̄−µ ) σ n( X̄−µ )
Observe que S1
= S1 σ
y use el Teorema de Slutsky (observación 2.12 d).
√
n(X 2 − (µ2 +σ2 ) ) D
c) Demuestre que √ → Z, donde Z ∼ N(0, 1).
m4 −(µ2 +σ2 )2
√ 2
n ( X − µ2 ) D
d) Demuestre que σ
→ Y , donde Y ∼ N(0, 4µ2 ) Use la propiedad e de la
observación 2.12.
Ejercicio 2.48. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
P
n
idénticamente distribuidas. Sea p = P (X1 ∈ A) y p̄n = n1 1A (Xj ), ∀n ∈ N+ .
j=1
a) Demuestre que (1A (Xj ))n∈N+ es una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Halle E(1A (X1 )) y V (1A (X1 )).
b) Demuestre que lı́m p̄n = p, c.s. Use la Ley Fuerte de los Grandes Números.
n→∞
√
p̄n (1−p̄n )
c) Demuestre que lı́m √
p̄n −p
= 1, c.s.
n→∞
√
D
d) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1). Use el Teorema del Lı́mite Central.
p(1−p)
√
D
e) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1).
p̄n (1−p̄n )
√ √ √
n( p̄n −p ) p̄n (1−p̄n )
Observe que √ = √ p̄n −p √n( p̄n −p ) y use el Teorema de Slutsky (observación
p̄n (1−p̄n ) p(1−p)
2.12 d).
84
3. Estimación por intervalo
P (L1 ≤ θ ≤ L2 ) = γ .
Ejemplo 3.1. Si X ∼ N(µ, 102 ) representa el tiempo (en minutos) para llevar a cabo cierta
tarea; entonces, para una muestra aleatoria de tamaño n = 36 :
√
36(X̄ − µ)
Z= ∼ N(0; 1).
10
De aquı́ se obtiene
Ejemplo 3.2. Tomada la muestra aleatoria de tamaño 36, en el ejemplo anterior, resultó X̄
= 49,7 min. Asumiendo que σ = 10 minutos, podemos inferir, con una conf ianza del 99 %,
que el tiempo promedio necesario para llevar a cabo la tarea, µ, está entre 44,7 y 54,7 minutos.
Dicho de otro modo, estimamos el tiempo promedio en 49,7 minutos, con un margen de error
de 5 minutos, esto se puede inferir con una confianza del 99 %.
85
86 José Flores Delgado Estadı́stica inferencial
α α
ii) Encontrar los valores a y b, tales que FW (a) = y FW (b) = 1 − . Por lo tanto,
2 2
P (a ≤ W ≤ b) = 1 − α.
[ L1 (X1 , . . . , Xn ), L2 (X1 , . . . , Xn ) ],
con z1− α el percentil 100(1 − α2 ) de la distribución normal estándar. Este intervalo se puede
2
X̄−µ
deducir a partir de la variable base Z = √
σ/ n
∼ N(0; 1).
Observación 3.3. En general, sin importar cuál sea la distribución de X, pero que el tamaño
de muestra sea grande, el resultado anterior es aproximado, pues, en este caso la distribución
normal de Z es solo una aproximación, válida por el teorema del lı́mite central.
Ejemplo 3.3. En el contexto del ejemplo 1, en el que X ∼ N(µ, 102 ) representa el tiempo
(en minutos) para llevar a cabo cierta tarea, si al tomar la muestra aleatoria de tamaño 36,
se obtuvo una media de 49,7 minutos para llevar a cabo la tarea; entonces, de (3.1) se obtiene
el intervalo del 95 % de confianza para estimar a µ siguiente:
10 10
[ 49,7 − 1,96( √ ) ; 49,7 + 1,96( √ ) ] = [ 46,43; 52,97 ].
36 36
Ası́, según los resultados de esta muestra se infiere, con un grado de confianza del 95 %, que
el tiempo promedio, µ, para llevar a cabo la tarea está entre 46,43 y 52,97 minutos.
86
José Flores Delgado Intervalos de confianza 87
Ejemplo 3.4. Suponga que X ∼ N(µ, σ 2 ) representa al salario quincenal (en soles) de los
trabajadores de construcción civil. Con fines de estimar la media y la desviación estándar,
de los salarios en este sector, fue registrada la muestra aleatoria siguiente:
1349,9 861,2 1622,1 2138,2 2099,2 2366,6 408,2 1382,9 2047,5 956,6
1154,9 654,8 576,5 1011,2 1113,2 441 1216 1298 1567,4 1317,3
1336,5 1314,9 2171,3 1457,4 1406,9 1243,4 2486,1 1932,8 2687,8 1172,5
α
2
con χ1− α y χ2α los percentiles 100(1 − 2
) y 100( α2 ) de la distribución ji-cuadrado con n − 1
2 2
grados de libertad, respectivamente.
Ejemplo 3.5. En el ejemplo anterior, estimemos la desviación estándar de los salarios
quincenales. Como en el ejemplo anterior S = 593,72. De una tabla ji-cuadrado con 29
grados de libertad se obtienen los percentiles χ2α = χ20,025 = 16,0471 y χ21− α = χ20,975 =
2 2
45,7223. Estos valores en (3.1) dan el intervalo de estimación del 95 % de confianza
para σ 2 : [223580,1723; 637037,2038]. De este intervalo se obtiene el correspondiente a
σ : [472,84; 798,15]. Por lo tanto, a partir de los resultados de esta muestra, podemos inferir,
con una confianza del 95 %, que la desviación estándar de los salarios de los trabajadores de
construcción civil está entre 472,84 y 798,15 soles.
87
88 José Flores Delgado Estadı́stica inferencial
Ejercicio 3.2. Sea [L1 ; L2 ] un intervalo del 100γ % de confianza para estimar θ. Si g es una
función monótona creciente (esto es, x ≤ y ⇔ g(x) ≤ g(y)), demuestre que [ g(L1 ); g(L2 ) ]
es un intervalo del 100γ % de confianza para estimar a g(θ).
Ejercicio 3.3. El tiempo, en meses, hasta que el precio de una acción logra su valor óptimo
es una variable aleatoria X ∼ exp(β). Para obtener inferencias acerca del parámetro β, se
tomará una muestra aleatoria de tamaño n de X : (X1 , . . . ,Xn ), y se considerará como
estimador de β a β̂ = X(1) , con X(1) = min{X1 , . . . ,Xn }. Sea también Y = β X(1) .
0,96 0,21 1,82 4,59 4,32 6,36 0,03 1,05 3,98 0,30
a) A partir del resultado la parte c, obtenga una variable base y construya un intervalo
de confianza, del 95 %, para estimar a β.
b) A partir del resultado anterior, deducir un intervalo de confianza, del 95 %, para estimar
el tiempo promedio que permanecen afiliados los empleados. Luego obtenga e interprete
el intervalo de estimación que se obtiene con la muestra dada.
√
c) Verifique W = β X(1) también es una variable base para β y deducir un intervalo
de confianza, del 95 %. Luego obtenga e interprete el intervalo de estimación que se
2
obtiene con la muestra dada. Recuerde que FX (x) = 1 − e−β x , x > 0.
88
José Flores Delgado Intervalos de confianza 89
Ejercicio 3.5. A partir del intervalo de confianza usual para la varianza σ 2 de una población
normal, dado por la ecuación (3.3), deducir uno (con el mismo grado de confianza) para la
desviación estándar σ.
0,57 0,83 0,97 0,71 0,93 0,77 0,23 0,82 0,61 0,62 0,71 0,73
0,83 0,77 0,72 0,99 0,44 0,85 0,67 0,45 0,83 0,48 0,48 0,85
0,90 0,86 0,91 0,75 0,68 0,74 0,95 0,94 0,67 0,74 1,00 0,89
Ejercicio 3.7. Otro de los modelos usados para una variable aleatoria positiva es el
exponencial generalizado 13 , el cual se define por la función de densidad siguiente:
Suponga nuevamente el contexto del ejercicio 2.16, pero ahora se propone un modelo
expg(θ1 ; θ2 ). Se usará la muestra disponible y los estimadores de máxima verosimilitud θ̂1 y
aprox. p
θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo
elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el logaritmo
natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).
a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
ˆ
θ1 = 2,4007; −0,377969155 −0,003391514
H −1 = .
−0,003391514 −0,00005279384
θˆ2 = 0,0410; Ln(L(θˆ1 , θˆ2 )) = −163,5017.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo exponencial generalizado
propuesto puede simplificarse a uno exponencial. Observe que expg(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.
13
Gupta & Kundu(1999). Theory & methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2), 173–188. Vea también el ejercicio 1.48d)
89
90 José Flores Delgado Estadı́stica inferencial
Ejercicio 3.8. Sea X ∼ G(2, θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
P
5
aleatoria de X : X1 , . . . , X5 . Considere también la variable W = θ Xj .
j=1
P
5
a) Verifique W es una variable base para θ. Tenga en cuenta que Xj ∼ G(10, θ).
j=1
Luego construya un intervalo del 95 % de confianza para estimar a θ. Considere que si
Y ∼ G(10, 1); entonces, FY (4,7954) = 0,025 y FY (17,0848) = 0,975.
Ejercicio 3.9. El error del pronóstico con un modelo es una variable aleatoria X con
distribución uniforme en (0, θ). Se tomará una muestra aleatoria de X : X1 , . . . , X5 .
X(5)
a) Verifique W = es una variable base para θ y construya un intervalo del 95 % de
θ
x5
confianza. Puede usar el ejercicio 1.47 para verificar que FX(x) = 5 , 0 < x < θ.
(5) θ
b) Evalúe e interprete el intervalo hallado si X1 = 0,05; X2 = 0,2; X3 = 0,4; X4 =
0,025; X5 = 0,1.
Ejercicio 3.10. En el método de la variable base para construir intervalos de confianza,
descrito en la sección 3.2, se consideran los valores a y b tales que F (a) = α/2 y
W
F (b) = 1 − α/2, de modo que P (a ≤ W ≤ b) = 1 − α. Luego se determinan L1 y L2
W
tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . Esta manera de obtener a y b es una convención
aceptada; sin embargo, cualesquiera a y b que satisfagan F (b) − F (a) = 1 − α, son útiles.
W W
Es decir, se puede hallar un intervalo que eventualmente es mejor si se escogen los valores a
y b que minimizan el valor esperado de la longitud del intervalo, E(L2 − L1 ), y satisfagan
la condición F (b) − F (a). Ası́, una modificación del método para obtener un intervalo de
W W
confianza, a partir de una variable base, con longitud esperada mı́nima es la siguiente:
ii) Obtener g(a,b) = E(L2 −L1 ). Usar propiedades del valor esperado que permitan obtener
una expresión simplificada de g(a,b) para realizar el paso siguiente.
Sea X ∼ N(µ; σ 2 ), con σ 2 conocido. Use este método para encontrar el intervalo de confianza
para µ con la misma variable base de la deducción del intervalo de confianza usual en (3.1).
90
José Flores Delgado Intervalos de confianza 91
√
a) Si W1 = n(√ X̄n −λ)
λ
, compruebe que W1 es una variable base para λ y, a partir de
esta, construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.
√
n(X̄n −λ) D
Recuérdese que, por el T.L.C. √
λ
→ Z ∼ N(0; 1).
√
n(X̄n −λ)
b) Justifique por qué W2 = √ es una variable base para λ y, a partir de esta,
X̄n
construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.
√
n(X̄n −λ) D
Use el resultado asintótico siguiente: √ → Z ∼ N(0; 1).
X̄n
c) Se asume que el número de clientes que utilizan cierto cajero automático, durante un
intervalo de 10 minutos durante la tarde del fin de mes, sigue una distribución de
Poisson. Cuando se colocó este cajero se hizo esperando un promedio de 15 clientes
cada 10 minutos, qué puede concluir al respecto a partir de los resultados obtenidos
en 100 intervalos de 10 minutos cada uno:
19 19 25 26 18 19 20 18 13 21 25 12 19 17 17 14 24 22 19 21
17 16 20 19 20 20 29 20 27 21 17 21 19 17 23 24 20 20 15 22
22 24 20 21 24 16 26 26 17 22 23 22 16 20 15 23 15 18 13 22
25 21 18 17 27 19 15 22 21 13 16 26 20 23 25 17 21 18 25 15
22 13 20 21 22 12 14 22 17 36 19 26 20 17 12 16 23 17 20 17
Utilice los resultados de las partes anteriores. ¿Cuál de los dos intervalos cree que da
una mejor información?
Ejercicio 3.12. Sobre la rentabilidad, X, de cierta operación financiera, se sabe que tiene
distribución normal, que su promedio vale cero, pero se desconoce su volatilidad (σ).Para
obtener inferencias sobre σ se planifica tomar una muestra aleatoria de 20 observaciones.
1 P n
a) Demuestre que W1 = X 2 es una variable base para σ y úsela para construir
σ 2 j=1 j
un intervalo del 95 % de confianza. ¿Es este intervalo mejor que el intervalo usual
(determinado en la ecuación (3.3))?
2,11 -0,89 0,45 -0,44 -7,75 -3,37 5,61 1,09 4,19 -2,48
-6,35 7,96 2,37 -1,14 2,54 -7,65 7,24 -9,5 -2,12 17,14
91
92 José Flores Delgado Estadı́stica inferencial
Dı́a 1 2 3 4 5 6
V 3,43 3,38 3,59 3,41 3,52 3,6
X 1,0148 0,9854 1,0621 0,9499 1,0323 1,0227
Y 0,0147 -0,0147 0,0603 -0,0514 0,0317 0,0225
Dı́a 7 8 9 10 11 12
V 3,66 3,6 3,54 3,53 3,45 3,42
X 1,0167 0,9836 0,9833 0,9972 0,9773 0,9913
Y 0,0165 -0,0165 -0,0168 -0,0028 -0,0229 -0,0087
El precio anterior al primer dı́a fue V0 = 3,38. Además, se asume que X ∼ N(µX ; 0,0004) y,
1 2 2
por lo tanto, Y ∼ LogN(µY , σY2 ), con µY = eµX + 2 σX y σY2 = µY2 (eσX − 1).
b) A partir del intervalo hallado anteriormente, construya otro del 95 % de confianza para
estimar el valor del promedio de la rentabilidad continua de esta acción, µY .
Ejercicio 3.15. Sean X ∼ N(µ1 ; σ 2 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ 2 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior. Sea T definida en (2.4) del ejercicio 2.34. Justifique
por qué T es una variable base para µ1 − µ2 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar esta diferencia, dado en la ecuación siguiente:
" s s #
1 1 1 1
X̄ − Ȳ − t1− α Sp + ; X̄ − Ȳ + t1− α Sp + , (3.4)
2 n1 n2 2 n1 n2
92
José Flores Delgado Intervalos de confianza 93
Ejercicio 3.16. Se desea comparar dos procedimientos para realizar tareas similares y cuyos
tiempos respectivos siguen una distribución normal con la misma varianza. En particular,
se quiere saber cuál procedimiento es más rápido en general. Con ese fin se tomaron
dos muestras independientes de tareas realizadas con estos procedimientos, cuyos tiempos
correspondientes (medidos en minutos) se muestran en la tabla siguiente:
Ejercicio 3.17. Sean X ∼ N(µ1 ; σ12 ) e Y ∼ N(µ2 ; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable F definida en (2.4) de la subsección 2.5.4. Justifique
por qué F es una variable base para σ12 /σ22 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar este cociente, dado en la ecuación siguiente:
" #
S12 /S22 S12 /S22
; , (3.5)
F1− α2 F α2
Rentabilidad de la acción 1 -0,6 -0,1 0,3 -0,2 0,2 0,2 1,2 0,2 -0,7
Rentabilidad de la acción 2 1,4 -2,7 1,6 1,5 -1,8 1,9 1,2 -1,9 -0,1
93
94 José Flores Delgado Estadı́stica inferencial
Ejercicio 3.19. Sean X ∼ N(0; σ12 ) e Y ∼ N(0; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable
n1
P
n2 Xj2
j=1 σ22
F1 = n2
P 2 σ2
.
n1 Yj 1
j=1
a) Halle la distribución de F1 para comprobar que esta es una variable base para σ12 /σ22 .
Luego deduzca un intervalo del 100(1 − α) % de confianza, para estimar este cociente.
d) Use la variable base definida anteriormente para deducir un intervalo para estimar a θ
con una confianza del 95 %.
Ejercicio 3.21. Para predecir el consumo, Y, a partir del ingreso, X, se considere el modelo
de regresión lineal: Yj = α + β xj + ǫj , en donde los errores ǫj , son independientes y tienen
una distribución normal de media cero y varianza σ 2 (desconocida).
σ̂
T2 = r ∼ t(n − 2)
P
n
(Xi − X̄)2
i=1
94
José Flores Delgado Intervalos de confianza 95
Ejercicio 3.22. El ingreso mensual (en cientos de soles) de las familias en cierta región
se considera una variable aleatoria X ∼ G(θ1 ; θ2 ), con θ1 > 0, θ2 > 0. Para estimar
estos parámetros se tomará una muestra aleatoria de tamaño n = 100 y se usarán los
estimadores de máxima verosimilitud θ̂1 y θ̂2 . Como el tamaño de muestra es grande, son
válidas las distribuciones asintóticas dadas en (2.2): Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), donde
p
σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo elemento de la diagonal de la inversa de H la matriz hessiana
de Ln(L(θ1 ,θ2 )), el logaritmo natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).
a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Tomada la muestra aleatoria de 100 de estos ingresos se registraron los ingresos:
4,66 6,47 5,54 3,59 3,08 3,74 4,98 4,13 4,42 5,38 6,29 6,12 4,62 4,09 2,65 7,06 5,93 4,44 4,97 5,99
1,58 9,43 6,43 4,11 6,78 6,68 2,47 6,21 2,95 5,93 3,63 3,11 3,50 7,02 6,46 7,52 4,57 4,10 2,62 5,90
3,84 5,78 3,26 9,69 2,96 7,52 4,50 5,61 4,02 6,97 3,52 3,24 11,8 5,08 6,96 2,39 4,88 4,74 6,40 3,43
5,90 5,16 5,08 7,66 2,84 1,57 5,92 4,77 9,34 2,49 5,74 7,22 5,74 2,92 5,58 4,36 2,33 4,21 4,28 7,10
4,79 2,04 3,75 8,29 3,43 8,98 6,54 1,11 5,19 11,76 3,16 4,33 11,31 9,22 4,61 4,37 6,74 6,70 6,08 5,14
Ejercicio 3.23. En el contexto de los ejercicios 2.16 y 3.7, ahora se propone un modelo
Weibull (θ1 ; θ2 ). Se usarán la muestra disponible y los estimadores de máxima verosimilitud
aprox. p
θ̂1 y θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el
i-ésimo elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el
logaritmo natural de la función de verosimilitud evaluada en (θ̂1 ; θ̂2 ).
a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
−0,046940344 0,000369638
θˆ1 = 1,6426; H −1 = ;
ˆ ˆ ˆ 0,000369638 −0,000003015
θ2 = 0,0019; Ln(L(θ1 , θ2 )) = -163,127.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo Weibull propuesto puede
simplificarse a uno exponencial. Observe que W eibull(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.
95
96 José Flores Delgado Estadı́stica inferencial
e) Con Wn como variable base y el resultado anterior, deducir el intervalo usual del
100(1 − α) % de confianza para estimar a p, si el tamaño de muestra es suficientemente
grande:
1 p 1 p
p̄ − √ z1−α/2 p̄(1 − p̄) ; p̄ + √ z1−α/2 p̄(1 − p̄) .
n n
f) Una encuesta aplicada a una muestra aleatoria de 1000 electores reveló que solo 200
estaban de acuerdo con la gestión de cierta autoridad. Determine, qué se puede inferir,
a partir de estos últimos resultados y con una confianza del 95 %, sobre la la proporción
p de electores que aprueban la gestión de la autoridad. Use el resultado anterior.
Ejercicio 3.25. Para predecir el consumo, Y, a partir del ingreso, X, (ambos expresados en
las mismas u.m), se considere el modelo de regresión lineal: Yj = θ1 + θ2 xj + ǫj , en donde
los errores ǫj , j = 1, . . . ,n son independientes y tienen una distribución normal N(0; σ 2 ).
P
n
p xj Yj − nX̄ Ȳ
a) Sea T = SX (n − 2)(n − 1) / SCE ( θˆ2 − θ2 ), donde θ̂2 = j=1
(n−1)S 2
y
X
P
n
(n−1)2 S 2 S 2 − [ xj Yj − nX̄ Ȳ ]2
X Y
j=1
SCE = (n−1)S 2
. Pruebe que T ∼ t(n − 2).
X
Observaciones:
θˆ2 ∼ N( θ2 ; σ 2 /((n−1)S 2X ) ); SCE/σ 2 ∼ χ2 (n−2); θ̂2 y SCE son independientes.
96
4. Pruebas o contrastes de hipótesis
4.1. Introducción
Se tienen dos hipótesis relacionadas con los parámetros de la distribución de una variable
X, digamos, H0 , llamada hipótesis nula (pues en general esta es la que se cree será descartada)
y H1 llamada hipótesis alternativa (pues es la que se considerará como válida en caso
de descartar H0 ); las cuales se contrastan o someten a prueba, a partir de los resultados
obtenidos de una muestra aleatoria de X, es decir, se tomará una decisión optando por la
validez de una de las hipótesis.
Ejemplo 4.1. Como ejemplo veamos el problema siguiente en el que se contrastan dos
posiciones, por una parte la del fabricante de cierto tipo de componente, por otra la de un
comprador. El fabricante especifica que el tiempo de vida promedio de estos componentes es
de 10 meses; sin embargo el cliente afirma que este promedio es de solo 5 meses. En cualquier
caso asumimos que la duración del componente sigue una distribución exponencial. Si X es
el tiempo de vida de los componentes (en meses) y µ es la media correspondiente; entonces,
el problema enunciado anteriormente puede formularse como uno de contraste o prueba de
hipótesis, en el que las hipótesis estadı́sticas pueden ser expresadas como:
H0 : µ = 10 y H1 : µ = 5.
Definición 4.1. La regla de decisión o región crı́tica, RC, de una prueba o contraste de
hipótesis establece la condición que debe cumplir la muestra para rechazar la hipótesis nula.
Ejemplo 4.2. Para el problema planteado en los ejemplos anteriores consideremos que X
sea la duración del componente que compre el usuario. La regla de decisión dada puede ser
expresada en términos de X de la manera siguiente:
Se rechazará H0 , si X < 9.
97
98 José Flores Delgado Estadı́stica inferencial
Definición 4.2. Al tomar una decisión a partir de una muestra aleatoria, se puede cometer
uno de los tipos de errores siguientes:
α = 1 − e−9/10 = 0,5934.
1
H0 : µ = β
= 10
1
H1 : µ = β
=5
1
10
α
β
0 9 X
| {z }| {z }
Rechazar H0 Aceptar H0
98
José Flores Delgado Pruebas o contrastes de hipótesis 99
Por ejemplo, si el tiempo de vida del componente que compre el cliente resulta de 6,5 meses;
entonces, la decisión que se toma es rechazar H0 (lo especificado por el fabricante). En este
caso corremos el riesgo de caer dentro del 59,34 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al fabricante.
Por otra parte si, por ejemplo, el tiempo de vida del componente que compre el cliente resulta
de 9,5 meses, la decisión que se toma es aceptar H0 (lo especificado por el consumidor). En
este caso se corre el riesgo de caer dentro del 16,53 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al consumidor. También se puede decir que al tomar esta
decisión, se tendrá una confianza del 83,47 % de estar en lo correcto. A partir de estos casos,
se concluye que la regla de decisión es inadecuada, pues, al usarla se corren riesgos muy altos.
Para tener una buena regla de decisión o prueba estadı́stica, tanto α como β deben ser
suficientemente pequeños. Sin embargo, en la mayorı́a de los casos cuando disminuye uno de
estos valores, el otro aumenta. Ası́, se fija previamente el nivel de significación en 5 % ó 1 %
usualmente; luego se determina la regla de decisión o región crı́tica con la menor probabilidad
de cometer un error tipo II o, equivalentemente, con la máxima potencia. Por tal razón, estas
pruebas se llaman óptimas.
99
100 José Flores Delgado Estadı́stica inferencial
H0 : θ = 1/10 y H1 : θ = 1/5,
a partir de una muestra grande de tamaño n = 36, de modo que la probabilidad de cometer
un error tipo I sea α = 0,05. En este caso, el número de parámetros es k = 1, θ0 = 1/10 y
θ1 = 1/5. La estadı́stica que define la función de verosimilitud está dada por
L(θ) = f (X1 ; θ) . . . f (X36 ; θ) = θ36 e−θ X1 − ... −θ X36 = θ36 e−36 θ X̄ . (4.4)
X X
100
José Flores Delgado Pruebas o contrastes de hipótesis 101
Ası́, si esta simplificación dada en (4.6) se usan en las ecuaciones (4.5) y (4.7), sigue que
RC = { X1 , . . . , X36 : X̄ < c },
con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10. (4.8)
La ecuación (4.8) para c tiene una sola solución, pues, X̄ es una variable aleatoria continua y
su distribución acumulada tiene inversa. Para hallar este valor c podemos usar la propiedad
P36
de la distribución exponencial por la que T = 36X̄ = Xj ∼ G(36; θ). Ası́, (4.8) resulta
j=1
FT (36c) = 0,05; con θ = 1/10 ⇔ 36c = FT−1(0,05), con θ = 1/10 ⇔ 36c = 267,3117,
Ejemplo 4.6. En el contexto del ejemplo 4.5, al tomar la muestra se obtuvieron los valores
mostrados en la tabla siguiente:
2,89 0,64 5,45 13,76 12,96 19,09 0,09 3,14 11,94 0,90 1,69 0,28
0,2 1,08 1,49 0,1 2,01 2,52 4,84 2,65 2,79 2,64 14,47 3,76
3,33 2,17 22,31 9,86 28,43 1,78 2,06 0,33 7,33 10,17 1,56 3,77
Como X̄ = 5,68, se rechaza H0 . En este caso el error asociado a esta decisión es el de tipo
I, cuya probabilidad es α = 0,05. Ası́, según los resultados de esta muestra podemos inferir
que θ = 1/5; con un riesgo del 5 % de que esto sea falso.
Ejemplo 4.7. Sea X ∼ P (λ). Se desea contrastar las hipótesis
H0 : λ = 9 y H1 : λ = 8,
a partir de una muestra grande, de tamaño n = 49, y de modo que la probabilidad de cometer
un error tipo I sea α = 0,05.
Determinemos la región crı́tica óptima; es decir, aquella que tiene la menor probabilidad de
cometer un error tipo II, entre todas las definidas a partir de una muestra de X de tamaño
49. Según el Lema de Neyman-Pearson, sabemos que esta tiene la forma siguiente:
L(8)
RC = X1 , . . . , X49 : >c , (4.9)
L(9)
101
102 José Flores Delgado Estadı́stica inferencial
con c una constante que debe satisfacer (4.3). Para hallar c empecemos por determinar la
estadı́stica L que define la función de verosimilitud:
7(X̄−9)
Z= 3
∼ N(0, 1). (4.11)
Por lo tanto, RC = { X1 , . . . ,X49 : X̄ < 8,295 }; es decir, se rechaza H0 si, y sólo si,
X̄ < 8,295.
8 3 11 11 6 3 9 10 13 7 8 17 12 10 15 3 8
12 10 7 10 11 13 6 8 9 7 7 4 6 10 10 14 14
15 9 10 10 6 8 13 5 10 9 10 8 12 10 7
102
José Flores Delgado Pruebas o contrastes de hipótesis 103
En esta ecuación se puede considerar que 49X̄ ∼ P (49 × 8), puesto que λ = 8. También se
puede usar la aproximación de la distribución de X̄ por la normal X̄ ∼ N(8, 8/49), para
λ = 8, y su estandarización
7(X̄ − 8)
Z= √ ∼ N(0; 1). (4.13)
8
Ası́, de las ecuaciones (4.12) y (4.13), resulta
7(8,295−8)
β = 1 − FZ √
8
= 1 − 0,7673 = 0,2327.
Por lo tanto, ahora se puede obtener una mejor inferencia: según los resultados de esta
muestra podemos deducir que que λ = 9, con un riesgo de equivocarnos del 23,27 %.
La ecuación (4.5), que define la región crı́tica óptima, ahora tiene la forma siguiente:
L(θ1 )
RC = { X1 , . . . , X36 : > c }, (4.15)
L(1/10)
donde la constante c satisface
L(θ1 ) L(θ1 )
P > c, si H0 es verdadera = P > c, si θ = 1/10 = 0,05. (4.16)
L(1/10) L(1/10)
Para hallar la constante c que satisface (4.16), usamos (4.14) para obtener una expresión
más simple de la condición para rechazar H0 (dada en (4.15)):
103
104 José Flores Delgado Estadı́stica inferencial
pero como θ1 > 1/10, (4.17) equivale a X̄ < c, si esto último se usa en las ecuaciones (4.15)
y (4.16), resultan la mismas región óptima y constante c obtenidas en el ejemplo 4.5:
RC = { X1 , . . . , X36 : X̄ < c },
con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10.
Por lo tanto, como se vio en el ejemplo 4.5, c = 7,2583 y RC = { X1 , . . . ,X36 : X̄ < 7,2583 };
es decir, se rechaza H0 si, y sólo si, X̄ < 7,2583.
Observación 4.5. Por los resultados del ejemplo anterior, tenemos que, la regla de decisión
óptima, X̄ < 7,2583, basándose en una muestra de tamaño n = 36 y de modo que la
probabilidad de cometer un error tipo I sea α = 0,05, para contrastar las hipótesis siguientes:
no depende del valor θ1 > 1/10; es decir, esta regla es la misma para cada valor de θ > 1/10
que se fije. En este caso decimos que esta regla de decisión (o región crı́tica) es uniformemente
óptima o uniformemente más poderosa, para dicha prueba o contraste de hipótesis, y la
denotamos por UMP.
Definición 4.4. Dadas las hipótesis
H0 : θ = θ0 y H1 : θ ∈ Θ1 ,
H0 : θ = θ0 y H1 : θ = θ1 .
Ejemplo 4.10. Por los resultados del ejemplo 4.9, la región crı́tica uniformemente más
poderosa, de nivel α = 0,05 y un tamaño de muestra 36, para contrastar las hipótesis
104
José Flores Delgado Pruebas o contrastes de hipótesis 105
β = β(θ) = P (X̄ ≥ 7,4253) = 1 − FX̄ (7,4253) = 1 − F36X̄ (267,3108), θ > 1/10. (4.20)
P
36
Si en (4.20) usamos el hecho que T = 36X̄ = Xj ∼ G(36; θ), se obtiene
j=1
α−1 −267,3108 θ
X e (267,3108 θ)j
β = β(θ) = , θ > 1/10. (4.21)
j=0
j!
0,73
0,39
0,13
0,03
0,1 0,12 0,14 0,16 0,18 0,2 θ
Observe que el lı́mite superior para β(θ) es 1 − α = 0,95, que se obtiene si θ tiende a 1/10
(especificación en H0 ), pero decrece rápidamente hacia cero conforme θ se aleja de este valor
(la probabilidad de equivocarse al descartar H0 va disminuyendo, como era de esperar).
105
106 José Flores Delgado Estadı́stica inferencial
H0 : θ = 1/10 y H1 : θ 6= 1/10,
Veamos que este contraste de hipótesis no posee una región crı́tica UMP. Para esto
consideramos las hipótesis
Como fue visto en el ejemplo 4.9, la regla de decisión óptima cuando, α = 0,05 y n = 36,
está dada por el Lema de Neyman-Pearson:
L(θ1 )
RC = X1 , . . . , X36 : >c ,
L(1/10)
L(θ1 ) 1
> c ⇔ e−36(θ1 − 10 ) X̄ > c ⇔ (θ1 − 1
10
)X̄ <c (4.24)
L(1/10)
entonces, X̄ < c, si θ1 > 1/10, o X̄ > c, si θ1 < 1/10. De aquı́, si θ1 > 1/10 la regla de
decisión óptima está dada por X̄ < 7,4253, como fue visto en los ejemplos 4.9 y 4.10. Por
otra parte, si θ1 < 1/10 se verifica que la regla está dada por X̄ > 12,7418. Por lo tanto, no
existe la regla de decisión UMP.
106
José Flores Delgado Pruebas o contrastes de hipótesis 107
RC = { X1 , . . . Xn : Λ < c }, (4.26)
H0 : θ = 1/10 y H1 : θ 6= 1/10,
Como ya fue visto, L(θ) = θ36 e−36 θ X̄ y θ̂mv = 1/X̄ . Ası́, la razón de verosimilitud de (4.25)
resulta 1
1 36 −36 10 X̄
L(θ0 ) ( 10 ) e 36
Λ= = 1 −36 ( 1
) X̄
= 10−36 e36 X̄ 36 e− 10 X̄ . (4.28)
L(θ̂mv ) ( X̄ )36 e X̄
Ası́, la condición que debe satisfacer la muestra para rechazar H0 , dada por (4.26), es la
siguiente:
36
Λ < c ⇔ 10−36 e36 X̄ 36 e− 10 X̄ < c ⇔ X̄ e−X̄/10 < c′ ⇔ ( X̄ < c1 ⊎ X̄ > c2 ),
107
108 José Flores Delgado Estadı́stica inferencial
o, equivalentemente, si
En esta ecuación usamos la propiedad T = 36X̄ ∼ G(36; 1/10), si θ = 1/10 (como se hizo
en ejemplos anteriores), para obtener (mediante el programa R o el Excel):
Por lo tanto, de las ecuaciones (4.29) y (4.30), resultan c1 = 7,0039 y c2 = 13,5213. Ası́ una
regla de decisión que da el método de la razón de verosimilitud es rechazar H0 si X̄ < 7,0039
o si X̄ > 13,5213.
Una alternativa para hallar los valores de las constantes c1 y c2 es hacerlo aproximadamente,
mediante el uso de la aproximación de la distribución de X̄ por la normal, X̄ ∼ N( 1θ , 36θ
1
2 ),
RC = { X1 , . . . , Xn : Λ < c }, (4.31)
Ejemplo 4.14. Como en el contraste de hipótesis del ejemplo 4.13 el tamaño de muestra es
grande, podemos usar la propiedad anterior. Ası́, de (4.28) y 4.31, una regla de decisión por
el método de la razón de verosimilitud es rechazar H0 si
36
10−36 e36 X̄ 36 e− 10 X̄ < c
108
José Flores Delgado Pruebas o contrastes de hipótesis 109
Ejercicio 4.1. Los errores que se presentan en un disco para almacenar información ocurren
de acuerdo con un proceso de Poisson. El fabricante especifica que la tasa promedio de errores
es de un error por cada diez centı́metros cuadrados. Un usuario sospecha de tal especificación
y sostiene que en realidad esta tasa de ocurrencias es de tres errores por cada diez centı́metros
cuadrados. El fabricante desechará su especificación y aceptará la del usuario, siempre y
cuando en una muestra de diez centı́metros cuadrados se halle más de dos errores.
Ejercicio 4.2. En el ejercicio 2.16, se supone que en promedio los afiliados permanecerán
Γ( 1 + 1)
empleados por 30 años; esto quiere que θ = 0,00087, pues, en este modelo E(X) = 2 1 .
θ2
La AFP sospecha que este promedio es mayor o, equivalentemente, que θ < 0,00087. Ası́, se
quiere contrastar las hipótesis siguientes:
Construya la Región Crı́tica UMP para este contraste, que tenga una probabilidad de error
tipo I α = 0,05. Use la regla deducida y la muestra dada en dicho ejercicio, para decidir si
se confirma la sospecha de la AFP. Puede usar la distribución asintótica de θ̂mv .
Ejercicio 4.4. Sea X ∼ G(2; θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
aleatoria de X : X1 , . . . , X5 y se fija el nivel de significación α = 0,05.
a) Para θ1 > 1/3, halle la región óptima para contrastar las hipótesis:
H0 : θ = 1/3 y H1 : θ = θ1 .
P
5
Nota. Xj ∼ G(10; θ). Si T ∼ G(10; 1/3) : FT (16,2762) = 0,05.
j=1
109
110 José Flores Delgado Estadı́stica inferencial
Ejercicio 4.5. El salario anual (en miles de soles) de los trabajadores de cierto sector es
una variable aleatoria X ∼ LogN(µ; σ 2 = 1).
a) Use el Lema de Neyman-Pearson para obtener la región crı́tica óptima, con α = 0,05
y un tamaño de muestra n = 9, para contrastar las hipótesis:
H0 : µ = µ0 y H1 : µ = µ1 , con µ1 < µ0 .
( Lnx − µ )2
1 −
Recuerde que fX (x) = √ e 2σ 2 .
2πσ x
b) Se sostenı́a que µX , el promedio del salario anual en este sector, era de 55 mil soles;
sin embargo, actualmente se piensa que este es más bien de 50 mil soles.
Ası́, se decide tomar una muestra aleatoria con n = 9 y fijar el nivel de significación
en α = 0,05, para contrastar las hipótesis siguientes:
H0 : µX = 55 y H1 : µX = 50.
Exprese estas hipótesis en términos del parámetro µ, en lugar de µX (es decir, halle los
valores de µ0 y de µ1 de la parte anterior). Luego, obtenga la región crı́tica óptima.
1 2
Tenga en cuenta que µX = e µ+ 2 σ y, por lo tanto, µ = Ln(µX ) − 21 σ 2 .
c) Una muestra aleatoria de 9 salarios anuales (en miles de soles) dio los valores siguientes:
Decida por una de las dos hipótesis, a partir de la región crı́tica obtenida anteriormente
y los resultados de esta muestra.
Ejercicio 4.6. Sea X ∼ N(µ; 1). Para α = 0,05 y una muestra aleatoria de tamaño 16, se
desea contrastar las hipótesis: H0 : µ = 0 y H1 : µ 6= 0.
d) Si µ = 0,5, ¿cuál es la probabilidad de tomar una decisión errada con la región crı́tica
deducida?
110
José Flores Delgado Pruebas o contrastes de hipótesis 111
Ejercicio 4.7. Sea X ∼ N(µ; σ 2 ), con ambos parámetros desconocidos. Con α = 0,05 y
una muestra aleatoria de tamaño 16 se quiere contrastar la hipótesis H0 : σ 2 = 1 con la
hipótesis alternativa H1 : σ 2 6= 1.
a) Sea σ12 > 1. Use el teorema de Neyman-Pearson para deducir la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.
b) Sea σ12 < 1. Use el teorema de Neyman-Pearson para deducir la la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.
c) ¿Existe una regla de decisión óptima para el contraste de las hipótesis de interés?
d) Deduzca una regla de decisión para el contraste de las hipótesis que se desea realizar,
mediante el método de la razón de verosimilitud.
Ejercicio 4.8. Sea X ∼ exp(θ), es decir, fX (x) = θ e−θ x , x > 0, con θ > 0. Se desea
contrastar las hipótesis H0 : θ = 0,2 y H1 : θ > 0,2, a partir de una muestra aleatoria de
tamaño n = 10 y con α = 0,05 (probabilidad de error tipo I).
b) Con la región crı́tica UMP, encuentre una expresión para β(θ) (la probabilidad de
cometer un error de tipo II) y bosqueje su gráfica a partir de lı́m + β(θ), lı́m β(θ) y
θ→0,2 θ→∞
los valores de la tabla siguiente que previamente deberá completar:
111
112 José Flores Delgado Estadı́stica inferencial
H0 : λ = 9 y H1 : λ 6= 9,
a partir de una muestra grande, de tamaño n = 36, y de modo que la probabilidad de cometer
un error tipo I sea α = 0,05.
5 3 2 6 6 7 3 3 6 7 7 9
7 5 3 12 6 10 7 2 6 8 0 7
4 6 5 6 3 5 5 9 3 9 5 3
Ejercicio 4.10. El ingreso de una región, medido en miles de soles, se considera una variable
aleatoria X. Se asume que X ∼ Pareto(1; θ); es decir, f (x) = θ x−(θ+1) , x > 1, con θ > 0.
X
Se desea contrastar las hipótesis H0 : θ = 8 y H1 : θ > 8, considerando n = 100 y α = 0,05.
1,04 1,01 1,08 1,21 1,20 1,30 1,00 1,04 1,18 1,01 1,02 1,00 1,00 1,02 1,02 1,00 1,03 1,04 1,07 1,04
1,04 1,04 1,22 1,05 1,05 1,03 1,36 1,15 1,48 1,02 1,29 1,00 1,11 1,15 1,35 1,05 1,03 1,12 1,04 1,13
1,01 1,02 1,01 1,04 1,06 1,06 1,04 1,43 1,00 1,02 1,00 1,24 1,01 1,03 1,13 1,1 1,15 1,11 1,01 1,01
1,12 1,09 1,02 1,04 1,07 1,11 1,07 1,02 1,34 1,10 1,06 1,14 1,15 1,03 1,02 1,18 1,01 1,01 1,13 1,12
1,43 1,24 1,22 1,07 1,06 1,10 1,06 1,01 1,00 1,14 1,10 1,12 1,08 1,01 1,20 1,04 1,02 1,02 1,03 1,03
Determine la conclusión que se deriva de la regla de decisión UMP. Analice qué ocurre
si considera el intervalo de confianza (determinado en la parte a) asociado con esta
muestra.
2
Ejercicio 4.11. Si X ∼ Weibull(2; θ), es decir, f (x) = 2θ x e−θ x , x > 0, con θ > 0.
X
P
n
a) Halle la distribución asintótica de Xj .
j=1
112
José Flores Delgado Pruebas o contrastes de hipótesis 113
σ2 9,5 10 15 20 25
β(σ 2 )
Yj = θ xj + ǫj , j = 1, . . . , 5,
113
114 José Flores Delgado Estadı́stica inferencial
Ejercicio 4.16. En el ejercicio 3.22, sobre el ingreso mensual de las familias en cierta región,
suponga que se desea contrastar las hipótesis H0 : θ1 = 1 y H1 : θ1 6= 1.
Ejercicio 4.17. En el contexto del ejercicio 3.7, suponga que para estudiar si el modelo se
puede reducir a uno exponencial se consideran las hipótesis
H0 : θ1 = 1 y H1 : θ1 6= 1.
114
José Flores Delgado Pruebas o contrastes de hipótesis 115
Ejercicio 4.18. Los ingresos en cierto sector laboral siguen una distribución normal con
media µ = 20000 soles y desviación estándar σ = 1000 soles. Recientemente se ha sugerido
que la desviación estándar de estos ingresos es, en realidad, de 2000 soles. Para resolver
este problema estadı́sticamente se tomará una muestra aleatoria de 16 de estos ingresos y se
considerará una probabilidad de cometer un error tipo α = 0,05.
b) Evalúe, mediante probabilidades, los riesgos a los que está sujeta la regla de
decisión deducida anteriormente. ¿Encuentra algún inconveniente para esta regla?,
¿qué sugerirı́a para mejorarla?
a) Hallar la regla de decisión UMP. Observe que la muestra por observar corresponde a
la variable aleatoria:
(
1, si el empresario está de acuerdo,
X=
0, si el empresario está en desacuerdo;
por lo tanto, f (x) = px (1 − p)1−x , x = 0; 1.
X
x 0 1 2 3 4 5 6 7 8 9
F (x) 0 0 0 0,01 0,05 0,17 0,4 0,7 0,92 1
T
0 0 1 0 0 1 0 1 0
115
5. Introducción a la inferencia bayesiana
En el enfoque bayesiano, para hacer inferencia sobre determinado asunto, se parte de expresar
el conocimiento que se tenga de este mediante un modelo o distribución de probabilidades,
esto se puede explicar porque no conocemos exactamente el asunto por averiguar, ası́,
podemos asumirlo aleatorio y describirlo mediante una asignación o modelo de probabilidades
que refleje ese conocimiento. La inferencia se realiza a partir de una información recibida,
también considerada aleatoria y que está relacionada con el asunto de interés, formalmente
esta información la proporciona una muestra aleatoria de una variable cuya distribución
depende del asunto que se desea averiguar. La inferencia bayesiana consiste en determinar
cómo, por causa de esta información recibida, cambia el conocimiento que tenı́amos sobre el
asunto, es decir, en determinar el nuevo modelo de probabilidades que refleje lo aprendido,
esto es, el modelo de probabilidad, sobre el asunto, condicional al valor de la información
recibida.
A continuación describimos la estimación bayesiana para un parámetro; pero antes
advertimos que para tratar de mantener nuestra notación que para las variables aleatorias
usamos letras mayúsculas, denotaremos ahora al parámetro (la variable aleatoria) por θ y
cualquier valor particular de este por θ, de modo que para el espacio paramétrico (el conjunto
de valores posibles del parámetro) continuaremos con la notación Θ, ası́ podemos escribir,
por ejemplo, θ = θ, θ ∈ Θ.
Respecto a la inferencia clásica, la familia paramétrica de modelos para fX , el modelo
probabilı́stico de X, será ahora la familia de modelos para f , el modelo probabilı́stico
θ
X| =θ
116
José Flores Delgado Introducción a la Inferencia bayesiana 117
Definición 5.2. Una muestra aleatoria simple de X está integrada por n variables aleatorias,
X1 . . . , Xn , tales que, dado cualquier valor del parámetro, digamos θ = θ, estas variables
son independientes y tiene el mismo modelo.
El Teorema de Bayes. este teorema proporciona una fórmula para obtener la distribución
a posteriori.
f(θ, x1 , . . . , xn )
θ, X1 . . . , Xn
f (θ) =
θ| X1 = x1 . . . , Xn = xn f (x1 , . . . , xn )
X1 = x 1 . . . , Xn
∝ f (θ, x1 , . . . , xn )
θ, X1 . . . , Xn
∝ f (θ) f (x1 , . . . , xn ),
θ X1 = x1 . . . , Xn = xn — θ=θ
Ası́, para obtener la distribución a posteriori asociada a una muestra aleatoria simple, se
tiene la fórmula general siguiente:
117
118 José Flores Delgado Estadı́stica inferencial
En este caso la variable X de la que se registrará una muestra, asume dos valores: 1, que
indica de acuerdo y 0, que indica en desacuerdo. Con el enfoque clásico se tenı́a X ∼ B(1,,p)
(véase el ejemplo 2.1), ahora con el enfoque bayesiano tenemos que X|P = p ∼ B(1; p),
por lo tanto,
Con estos dos modelos aplicamos la fórmula general para hallar la distribución a posteriori:
P
n P
n
Ası́, P | X1 = x1 . . . , Xn = xn ∼ B(2 + xj ; 8 + n − xj ).
j=1 j=1
Obsérvese que para n grande esta estimación bayesiana se aproxima a p̄, la estimación clásica;
en efecto, Pn
P
n xj
2+ xj 2 j=1 2
j=1 n
+ n n
+ p̄
p̂ = E P | X1 = x1 . . . , Xn = xn = 10+n
= 10 = 10 .
n
+1 n
+1
118
José Flores Delgado Introducción a la Inferencia bayesiana 119
Ejemplo 5.3. Como en el ejemplo anterior la estimación bayesiana está dada por
P
n P
n
2+ xj 2+ Xj
j=1 j=1
p̂ = 10+n
; entonces, el estimador bayesiano es P̂ = 10+n
.
Para construir el intervalo de confianza bayesiano del 100(1 − α) % de confianza usual basta
determinar a y b tales que
P θ ≤ a |X1 = x1 , . . . , Xn = xn = α2 y P θ ≤ b |X1 = x1 , . . . , Xn = xn = 1 − α2
Para encontrar el intervalo del 95 % de confianza bayesiano usual, usamos esta distribución y
ayuda computacional (por ejemplo, el Excel) par encontrar los valores de a y b que satisfacen
por lo tanto, a partir de los resultados de esta muestra registrada, se infiere que existe
una probabilidad de 0,95 de que la proporción de electores (que están de acuerdo con la
gestión) está entre 0,3541 y 0,4389. Nótese que se puede reemplazar la palabra confianza por
probabilidad.
119
120 José Flores Delgado Estadı́stica inferencial
Ejercicio 5.1.
En el contexto de los ejemplos 3.1 y 3.3, en los que se trata de hacer inferencia sobre µ, el
tiempo promedio para llevar a cabo cierta tarea, se supuso que X ∼ N(µ; 102 ); es decir,
1
(x−µ)2
que fX (x) = 101√π e (2)102 − ∞ < x < ∞. Supongamos, ahora, que un estudiante dispone
de cierta información sobre este parámetro y decide aplicar el enfoque bayesiano.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de 50 y una desviación estándar de 4. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.
120
José Flores Delgado Introducción a la Inferencia bayesiana 121
Ejercicio 5.2.
c) La información que dispone el estudiante indican que este parámetro tiene una media de
0,8 y una desviación estándar de 0,1. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.
Ejercicio 5.3.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro puede tomar valores indistintamente entre
cero y uno. Dé la función de probabilidad a priori que corresponde en este caso.
121
122 José Flores Delgado Estadı́stica inferencial
Ejercicio 5.4.
c) La información que dispone el estudiante indican que este parámetro puede tomar
valores indistintamente entre cero y uno. Dé la función de probabilidad a priori que
corresponde en este caso.
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.
Ejercicio 5.5.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de 0,8 y una desviación
estándar de 0,1. Si el estudiante decide considerar una distribución a priori beta, encuentre
valores razonables para los parámetros que debe tener esta y dé la función de probabilidad
correspondiente.
122
José Flores Delgado Introducción a la Inferencia bayesiana 123
Ejercicio 5.6.
b) Cómo debe expresar el estudiante que fX (x) = β 2 x e−β x, x > 0, es decir, que
X ∼ G(2; β), si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.
Ejercicio 5.7.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.
123
124 José Flores Delgado Estadı́stica inferencial
Ejercicio 5.8.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos. Si el estudiante decide considerar una distribución a priori Weibull con el
parámetro α = 1, encuentre un valor razonable para el otro parámetro que debe tener
esta y dé la función de probabilidad correspondiente.
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.
Ejercicio 5.9.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos y una desviación
estándar de uno. Si el estudiante decide considerar una distribución a priori gamma,
encuentre valores razonables para los parámetros que debe tener esta y dé la función de
probabilidad correspondiente
124
José Flores Delgado Introducción a la Inferencia bayesiana 125
Ejercicio 5.10.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.
Ejercicio 5.11.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.
125
126 José Flores Delgado Estadı́stica inferencial
Ejercicio 5.12.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de 0,75 y una desviación estándar de 0,1. Si el estudiante decide considerar una
distribución a priori beta, encuentre valores razonables para los parámetros que debe
tener esta y dé la función de probabilidad correspondiente.
4; 3; 4; 5; 3; 3; 4; 5; 4; 4; 6; 4; 4; 4; 5.
126
Bibliografı́a
7. Tucker (1989).
Introducción a la Teorı́a Matemática de Probabilidades y Estadı́stica.
Barcelona: Ed. Vinces Vives.
127