Está en la página 1de 127

Estadı́stica Inferencial

Facultad de Ciencias Sociales

Especialidad de Economı́a

José Flores Delgado

Agosto de 2014
Prólogo
Este trabajo corresponde a las notas de clases que el autor ha impartido en uno de los
horarios del curso de Estadı́stica Inferencial, destinado a los alumnos de la especialidad de
Economı́a de la Facultad de Ciencias Sociales de la Pontificia Universidad Católica del Perú.

En esta versión, además de corregir los errores detectados, se han añadido ejercicios
propuestos, mejorado los temas de inferencia. Pido disculpas por los errores que permanecen.

Agradezco a la Facultad de Ciencias Sociales y a la sección de Matemáticas, por las


facilidades brindadas para la elaboración de este texto.

También quiero agradecer al profesor Arturo Calderón la valiosa información proporcio-


nada sobre este curso.

Quiero advertir a los alumnos que este texto no debe sustituir a las referencias
bibliográficas —lectura más que necesaria para un mejor aprendizaje—, ni a las clases, ni a
sus propios apuntes —que espero ahora puedan hacer en mejores condiciones—.

Me permito también felicitar a ustedes, alumnos, por su madurez demostrada al optar


por esta Universidad, sabiendo de su exigencia y prestigio reconocidos; los invito a que
contribuyan a mantenerlos, como lo han hecho quienes los precedieron.

Finalmente, debo mencionar que este trabajo ha requerido de mucha dedicación personal,
tarea que no hubiera sido posible sin la comprensión y estı́mulo de mi esposa.

José Flores Delgado.

Lima, agosto de 2014.

2
Índice

1. Vector aleatorio o variables aleatorias distribuidas conjuntamente 11

1.1. Modelo probabilı́stico conjunto . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.1. Propiedades de la función de distribución conjunta . . . . . . . . . . 14

1.2. Valor esperado de una función real de variables aleatorias . . . . . . . . . . . 14

1.3. Propiedades del valor esperado relacionadas con la suma de variables . . . . 15

1.4. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Forma alternativa para el cálculo de la distribución condicional . . . . . . . . 20

Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . 23

1.7. Propiedades del valor esperado y la varianza relacionadas con variables


aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.8. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Propiedad para el cálculo del valor esperado . . . . . . . . . . . . . . . . . . 25

1.9. Covarianza y correlación de dos variables aleatorias . . . . . . . . . . . . . . 27

1.9.1. Propiedades de la varianza y la covarianza relacionadas con la suma


de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.10. Vector de medias y matriz de varianzas-covarianzas . . . . . . . . . . . . . . 29

Media varianza de una transformación lineal . . . . . . . . . . . . . . . . . . 30

1.11. La distribución normal bivariable . . . . . . . . . . . . . . . . . . . . . . . . 30

1.12. La distribución normal multivariable . . . . . . . . . . . . . . . . . . . . . . 32

1.13. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 34

3
4 José Flores Delgado Estadı́stica inferencial

1.14. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2. Inferencia estadı́stica 55

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.2. Estimación puntual de parámetros . . . . . . . . . . . . . . . . . . . . . . . . 59

2.3. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.3.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Esperanzas y varianzas de la media, varianza y proporción muestrales 60

2.3.2. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.3.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Teorı́a Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Convergencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . 62

Convergencia en probabilidad (Plim) . . . . . . . . . . . . . . . . . . 63

Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . . . 63

Otras propiedades de convergencia, el Teorema de Slutsky . . . . . . 64

La Ley Fuerte de Los Grandes Números . . . . . . . . . . . . . . . . 64

El Teorema del Lı́mite Central . . . . . . . . . . . . . . . . . . . . . . 64

Criterio para convergencia en probabilidad . . . . . . . . . . . . . . . 65

2.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Distribución asintótica del estimador de máxima verosimilitud . . . . 67

Propiedad de invarianza del estimador de máxima verosimilitud . . . 67

2.4.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.4.3. Cuadrados mı́nimos y Regresión . . . . . . . . . . . . . . . . . . . . . 68

El modelo de regresión lineal simple sin intercepto . . . . . . . . . . . 69

El modelo de regresión lineal simple con intercepto . . . . . . . . . . 70

2.5. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4
José Flores Delgado Tablas 5

2.5.1. La distribución normal y el muestreo para estimar a la media, µ, de


una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . 71

2.5.2. La distribución ji-cuadrado y el muestreo para estimar a la varianza,


σ 2 , de una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . 72

2.5.3. La distribución t de student y el muestreo para estimar a la media, µ,


de una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . 72

2.5.4. La distribución F de Fisher y el muestreo para estimar la razón entre


dos varianzas, σ12 /σ22 , de dos variables aleatorias . . . . . . . . . . . . 73

2.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3. Estimación por intervalo 85

3.1. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2. Metodologı́a (método de la variable base ) . . . . . . . . . . . . . . . . . . . 86

3.3. Intervalo de confianza para la media µ cuando σ 2 es conocido . . . . . . . . 86

3.4. Intervalo de confianza para la media µ cuando σ 2 es desconocido . . . . . . . 87

3.5. Intervalo de confianza para la varianza σ 2 de una población normal . . . . . 87

3.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4. Pruebas o contrastes de hipótesis 97

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.2. El Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.3. El método de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . 106

4.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5. Introducción a la inferencia bayesiana 116

5.1. Nociones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.2. Inferencia bayesiana de parámetros . . . . . . . . . . . . . . . . . . . . . . . 116

5.3. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Bibliografı́a 127

5
6 José Flores Delgado Estadı́stica inferencial

Tabla de Modelos probabilı́sticos


1. Binomial X ∼ b(n,p); n ∈ +, 0 < p < 1 N 2. Poisson X ∼ P (λ); λ > 0
 λ x
f (x) = nx px (1 − p)n−x , x = 0,1 . . . , n f (x) = e−λ , x = 0, 1, . . .
x!
µX = np, σX2 = np(1 − p), µX = λ, σX2 = λ,
t
MX (t) = (pet + 1 − p)n , t ∈ R MX (t) = eλ(e −1) , t ∈ R
X = número de éxitos en n ensayos, X = número de éxitos en una región que
en un proceso de Bernoulli, mide t, en un proceso de Poisson con tasa ω,
⇒ X ∼ b(n; p), p = P (E). ⇒ X ∼ P (λ), λ = ωt.
3. Geométrico X ∼ g(p), 0 < p < 1 4. Exponencial X ∼ exp (β); β > 0.
f (x) = p(1− p)x−1 ; F (x) = 1−(1− p)x , x = 1,2, . . . f (x) = β e−β x
; F (x) = 1 − e−β x , x > 0.
1 1−p β
µX = , σX2 = µX = 1/β, σX2 = 1/β 2 , MX (t) = , t < β.
p p2 β−t
pe t
MX (t) = 1−(1−p)e t , t < −Ln(1 − p). X = medida de la región hasta el primer
X = número de ensayos hasta el primer éxito éxito, en un proceso de Poisson con tasa ω,
Γ(1 + t)
⇒ X ∼ g(p), p = P (E). ⇒ X ∼ exp(ω). E(X t ) = ,∀t > 0.
βt
5. Pascal X ∼ P s(r,p); r ∈ + , 0 < p < 1 N 6. Gamma X ∼ G(α,β); α > 0, β > 0
 β α α−1 −β x
f (x) = pr x−1
r−1
(1 − p)x−r , x = r, r + 1, . . . f (x) = x e , x > 0.
Γ(α)
P e−βx (βx)j
N
r 2 r(1 − p) α−1
µX = , σX = . F (x) = 1 − , x > 0; α ∈ + .
p p2 j=0 j!
pet
r β α
MX (t) = 1−(1−p)e t , t < −Ln(1 − p). µX = α/β, σX2 = α/β 2, MX (t) = ( ) , t < β.
β−t
X = número de ensayos hasta obtener X= medida de la región hasta el r-ésimo
el r-ésimo éxito, en un proceso de Bernoulli, éxito, en un proceso de Poisson con tasa ω,
Γ(α + t)
⇒ X ∼ P s(r; p), p = P (E). ⇒ X ∼ G(r,ω). E(X t ) = t ,∀t > 0.
β Γ(α)
7. Normal X ∼ N(µ, σ 2 ); µ ∈ R, σ > 0 8. Lognormal X ∼ LogN(µ, σ 2); µ ∈ , σ > 0 R
(lnx − µ)2
1 (x−µ)2 1 −
f (x) = √ e− 2σ2 , − ∞ < x < ∞; f (x) = √ x−1 e 2σ 2 , x > 0;
2πσ 2πσ
1 2 2 (2µ+σ 2 )/2 2 σ2 1 2 2
µX = µ, σX2 = σ 2 , MX (t) = e tµ+ 2 σ t , ∀t ∈ R. µX = e , σX = µ2X (e −1); E(X t ) = e tµ+ 2 σ t .
9. Beta X ∼ B(α; β); α > 0, β > 0 10. Weibull X ∼ W (α; β); α > 0, β > 0
Γ(α+β) α α
f (x) = Γ(α)Γ(β) xα−1 (1 − x)β−1 , 0 ≤ x ≤ 1. f (x) = αβxα−1 e−βx ; F (x) = 1 − e−βx , x > 0.
α αβ Γ(1 + α1 ) Γ(1 + α2 ) − Γ2 (1 + α1 )
µX = y σX2 = 2
. µX = y σ 2
= .
α+β (α + β) (α + β + 1) β 1/α X
β 2/α
Γ(α + β) Γ(t + α) Γ(1 + αt )
E(X t ) = ,∀t > 0. t
E(X ) = ,∀t > 0.
Γ(α)Γ(t + α + β) β t/α
11. Uniforme X ∼ U(a; b) 12. Hipergeométrico X ∼ H(N, M, n)
1 (M )(N−M )
f (x) = , a ≤ x ≤ b. f (x) = x Nn−x , x = 0,1, . . . , n.
b−a (n)
a+b (b−a)2
µX = 2
y σX2 = 12
. µX = np y σX2 = np(1 − p)( N −n
N −1
), con p = M N
.
Z ∞
x−1 −t √
Función gamma: Γ(x) = t e dt;Γ(x+1) = xΓ(x), x > 0; Γ(0,5) = π; m ∈ N+: Γ(m) = (m−1) !
0

6
José Flores Delgado Tablas 7
Tabla de la distribución normal estándar
FZ (−a,bc) = P(Z ≤ −a,bc)

-a,b c
0 1 2 3 4 5 6 7 8 9
-0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
7
8 José Flores Delgado Estadı́stica inferencial
Tabla de la distribución normal estándar
FZ (a,bc) = P(Z ≤ a,bc)

a,b c
0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
8
José Flores Delgado Tablas 9
Tabla de la distribución t de student
FT (tγ ) = P(T ≤ tγ ) = γ

g.l. t0,9 t0,95 t0,975 t0,99 t0,995 t0,999 t0,9995


1 3,0777 6,3137 12,7062 31,8210 63,6559 318,2888 636,5776
2 1,8856 2,9200 4,3027 6,9645 9,9250 22,3285 31,5998
3 1,6377 2,3534 3,1824 4,5407 5,8408 10,2143 12,9244
4 1,5332 2,1318 2,7765 3,7469 4,6041 7,1729 8,6101
5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8935 6,8685
6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2075 5,9587
7 1,4149 1,8946 2,3646 2,9979 3,4995 4,7853 5,4081
8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008 5,0414
9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2969 4,7809
10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437 4,5868
11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0248 4,4369
12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296 4,3178
13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520 4,2209
14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874 4,1403
15 1,3406 1,7531 2,1315 2,6025 2,9467 3,7329 4,0728
16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6861 4,0149
17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458 3,9651
18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105 3,9217
19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5793 3,8833
20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518 3,8496
21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5271 3,8193
22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050 3,7922
23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850 3,7676
24 1,3178 1,7109 2,0639 2,4922 2,7970 3,4668 3,7454
25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502 3,7251
26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350 3,7067
27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210 3,6895
28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082 3,6739
29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3963 3,6595
30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852 3,6460
35 1,3062 1,6896 2,0301 2,4377 2,7238 3,3400 3,5911
40 1,3031 1,6839 2,0211 2,4233 2,7045 3,3069 3,5510
50 1,2987 1,6759 2,0086 2,4033 2,6778 3,2614 3,4960
60 1,2958 1,6706 2,0003 2,3901 2,6603 3,2317 3,4602
70 1,2938 1,6669 1,9944 2,3808 2,6479 3,2108 3,4350
80 1,2922 1,6641 1,9901 2,3739 2,6387 3,1952 3,4164
90 1,2910 1,6620 1,9867 2,3685 2,6316 3,1832 3,4019
100 1,2901 1,6602 1,9840 2,3642 2,6259 3,1738 3,3905
110 1,2893 1,6588 1,9818 2,3607 2,6213 3,1660 3,3811
120 1,2886 1,6576 1,9799 2,3578 2,6174 3,1595 3,3734
∞ 1,2816 1,6448 1,9600 2,3264 2,5758 3,0902 3,2905
9
10 José Flores Delgado Estadı́stica inferencial
Tabla de la distribución Ji-cuadrado
FW (χ2γ ) = P(W ≤ χ2γ ) = γ
g.l. χ20,005 χ20,01 χ20,025 χ20,05 χ20,1 χ20,9 χ20,95 χ20,975 χ20,99 χ20,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3777 9,2103 10,5967
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3448 12,8383
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8601
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7495
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8118 18,5476
7 0,9892 1,2390 1,6899 2,1674 2,8331 12,0170 14,0672 16,0128 18,4753 20,2778
8 1,3444 1,6465 2,1797 2,7326 3,4895 13,3616 15,5073 17,5345 20,0902 21,9551
9 1,7350 2,0879 2,7004 3,3251 4,1682 14,6837 16,9190 19,0228 21,6661 23,5892
10 2,1559 2,5582 3,2470 3,9403 4,8652 15,9872 18,3070 20,4832 23,2093 25,1882
11 2,6032 3,0535 3,8157 4,5748 5,5778 17,2750 19,6751 21,9201 24,7250 26,7569
12 3,0738 3,5706 4,4038 5,2260 6,3038 18,5493 21,0261 23,3367 26,2170 28,2994
13 3,5651 4,1069 5,0088 5,8919 7,0415 19,8119 22,3620 24,7356 27,6882 29,8195
14 4,0747 4,6604 5,6287 6,5706 7,7895 21,0642 23,6848 26,1189 29,1412 31,3192
15 4,6009 5,2294 6,2621 7,2610 8,5468 22,3071 24,9958 27,4884 30,5779 32,8012
16 5,1422 5,8122 6,9076 7,9616 9,3122 23,5418 26,2962 28,8454 32,0000 34,2671
17 5,6972 6,4078 7,5642 8,6718 10,0852 24,7690 27,5871 30,1910 33,4086 35,7185
18 6,2647 7,0149 8,2307 9,3905 10,8649 25,9894 28,8693 31,5264 34,8053 37,1563
19 6,8439 7,6327 8,9065 10,1170 11,6509 27,2036 30,1435 32,8523 36,1909 38,5824
20 7,4338 8,2604 9,5908 10,8508 12,4426 28,4120 31,4105 34,1696 37,5662 39,9968
21 8,0337 8,8972 10,2829 11,5913 13,2396 29,6151 32,6706 35,4789 38,9322 41,4011
22 8,6427 9,5425 10,9823 12,3380 14,0415 30,8133 33,9244 36,7807 40,2893 42,7957
23 9,2604 10,1957 11,6885 13,0905 14,8480 32,0069 35,1725 38,0757 41,6384 44,1814
24 9,8863 10,8564 12,4011 13,8484 15,6587 33,1962 36,4150 39,3641 42,9798 45,5586
25 10,5196 11,5240 13,1197 14,6114 16,4734 34,3816 37,6525 40,6465 44,3141 46,9279
26 11,1602 12,1981 13,8439 15,3792 17,2919 35,5632 38,8851 41,9232 45,6418 48,2899
27 11,8076 12,8785 14,5734 16,1514 18,1139 36,7412 40,1133 43,1945 46,9630 49,6447
28 12,4614 13,5647 15,3079 16,9279 18,9392 37,9159 41,3371 44,4608 48,2783 50,9934
29 13,1212 14,2564 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5880 52,3357
30 13,7868 14,9534 16,7908 18,4926 20,5992 40,2560 43,7730 46,9793 50,8921 53,6721
35 17,1919 18,5089 20,5694 22,4650 24,7966 46,0588 49,8018 53,2034 57,3421 60,2746
40 20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 55,7585 59,3417 63,6908 66,7659
45 24,3110 25,9012 28,3661 30,6122 33,3504 57,5053 61,6562 65,4101 69,9569 73,1659
50 27,9908 29,7067 32,3573 34,7642 37,6887 63,1671 67,5048 71,4202 76,1540 79,4901
55 31,7348 33,5704 36,3981 38,9580 42,0596 68,7962 73,3115 77,3805 82,2922 85,7492
60 35,5346 37,4849 40,4818 43,1880 46,4589 74,3970 79,0819 83,2976 88,3793 91,9518
65 39,3833 41,4436 44,6030 47,4496 50,8830 79,9730 84,8206 89,1772 94,4221 98,1049
70 43,2751 45,4417 48,7576 51,7393 55,3289 85,5271 90,5312 95,0231 100,4251 104,2150
75 47,2061 49,4751 52,9419 56,0541 59,7945 91,0614 96,2167 100,8394 106,3928 110,2855
80 51,1721 53,5400 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3289 116,3210
85 55,1698 57,6340 61,3888 64,7494 68,7772 102,0789 107,5218 112,3933 118,2358 122,3246
90 59,1963 61,7540 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1162 128,2990
95 63,2496 65,8983 69,9249 73,5198 77,8184 113,0377 118,7516 123,8580 129,9728 134,2467
100 67,3276 70,0649 74,2219 77,9294 82,3581 118,4980 124,3421 129,5612 135,8066 140,1693
105 71,4284 74,2520 78,5364 82,3537 86,9093 123,9469 129,9180 135,2470 141,6201 146,0698
110 75,5501 78,4584 82,8670 86,7916 91,4710 129,3852 135,4802 140,9165 147,4144 151,9488
115 79,6915 82,6825 87,2128 91,2422 96,0427 134,8135 141,0297 146,5710 153,1906 157,8080
120 83,8516 86,9232 91,5726 95,7047 100,6237 140,2326 146,5673 152,2114 158,9500 163,6485

10
1. Vector aleatorio o variables aleatorias distribuidas
conjuntamente

En el tratamiento con n variables aleatorias resulta necesario un modelo de probabilidad


que no solo permita describir a cada variable individualmente, sino a todas en conjunto; de
modo que se pueda estudiar algunas relaciones entre estas que no se puedan apreciar con el
modelo individual de cada una de ellas.

Ejemplo 1.1. Sean X el número de operaciones bancarias que se realizan en un dı́a a


través de la internet e Y el número de operaciones que originaron un sobregiro; cuyo
conjunto de valores que pueden asumir simultáneamente (rango conjunto de estas variables)
es RX,Y = { (x,y) ∈ N2 : y = 0, . . . ,x; x = 0, 1, . . . }. Los modelos probabilı́sticos de estas
variables no contemplan la relación de dependencia entre estas variables, tampoco permiten
obtener probabilidades relacionadas con ambas variables simultáneamente, por ejemplo, que
todas las operaciones originen un sobregiro.

1.1. Modelo probabilı́stico conjunto

Definición 1.1. El modelo probabilı́stico 1 (o distribución de probabilidades) conjunto de


las variables aleatorias X1 , . . . , Xn es la función f : Rn → R, caracterizada por la propiedad
que, para cualquier subconjunto A ∈ Rn , la probabilidad de que estas asuman valores en
dicho conjunto, P (X1 , . . . , Xn ) ∈ A), se obtiene, según sean las variables discretas o
continuas, mediante:
 X X

 ... f (x1 , . . . , xn ), si X1 , . . . , Xn son discretas,



 (x1 , ... , xn )∈A
 
P (X1 , . . . , Xn ) ∈ A = Z Z



 . . . f (x1 , . . . , xn )dx1 . . . dxn , si X1 , . . . , Xn son continuas.



A
Con esta función se obtendrá todo lo relacionado con las variables X1 , . . . , Xn . Si f no
está definida en todo Rn se extiende, sin afectar los resultados, definiendo f (x1 , . . . , xn ) = 0,
para todo valor x1 , . . . , xn fuera del rango conjunto. También es posible considerar el caso
mixto, es decir, cuando algunas variables sean discretas y otras continuas, en esta situación
cada variable discreta aporta una suma y cada variable continua, una integral.
1
El término usual en los textos clásicos es el de distribución de probabilidades, pero el autor ha preferido
el de modelo probabilı́stico para enfatizar su aplicación como modelo. Coincidimos, por ejemplo, con Del
Pino (2000).

11
12 José Flores Delgado Estadı́stica inferencial

Ejemplo 1.2. Un inversionista está interesado en dos acciones: una americana, la otra
europea; el precio al cabo de un año (en ciertas unidades monetarias [u.m.]) de la americana
es X, el de la europea Y. Además, se ha observado que la acción americana siempre cuesta
menos del doble de lo que cuesta la segunda. Supongamos que X e Y sean variables aleatorias
continuas y, para ejemplificar, que la densidad conjunta de estas variables está dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.

A continuación, calcularemos algunas probabilidades.

(i) Un inversionista comprará una acción de cada bien y obtendrá la utilidad deseada si, al
cabo de una año, el precio de cada una es superior a 1 u.m. Entonces, la probabilidad
de que logre su objetivo está dada por
Z ∞ Z 2y 
P (X > 1 ∩ Y > 1) = 2e dx dy = 2e−2 = 0,27067.
−2y
1 1

Si calculamos la probabilidad anterior cambiando el orden de integración, se obtiene:


Z 2 Z ∞  Z ∞ Z ∞ 
−2y
2e dy dx + 2e dy dx = 2e−2 = 0,27067.
−2y
1 1 2 x/2

(ii) Determinemos la probabilidad de que el precio de la acción americana sea mayor que
el de la europea: Z ∞ Z x 
−2y 1
P (X > Y ) = 2e dy dx = .
0 x/2 2
O, cambiando el orden de integración, tenemos:
Z ∞ Z 2y 
−2y 1
P (X > Y ) = 2e dx dy = .
0 y 2

Ejemplo 1.3. Como en el ejemplo 1.1, sean X el número de operaciones bancarias, que se
realizan en un dı́a a través de la internet, e Y el número de operaciones que originaron un
sobregiro. Supongamos que la función de probabilidad conjunta de X e Y esté dada por
 
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y

Con esta función podemos obtener la probabilidad de cualquier evento que se exprese en
términos de las variables X e Y, por ejemplo:

(i) La probabilidad de que realicen 50 operaciones y que solo 10 de estas ocasionen un


sobregiro:
 
e−60 6050 50
P (X = 50 ∩ Y = 10) = f (50; 10) = (0,3)10 (0,7)50−10 = 0,0008987.
XY 50! 10

12
José Flores Delgado Vector Aleatorio 13

(ii) La probabilidad P (15 ≤ X ≤ 17 ∩ X − 1 ≤ Y ≤ X) :


= f (15; 14) + f (15; 15) + f (16; 15) + f (16; 16) + f (17; 16) + f (17; 17)
XY XY XY XY XY XY
−17
= 1 x10 .

(iii) La probabilidad de que se realicen 50 operaciones y a lo más 10 originen un sobregiro:


P
50 P 10
P (X = 50 ∩ Y ≤ 10) = f (x,y)
x=50 y=0 XY

P10
= f (50; y)
y=0 XY
 
10 e−60 6050 50
P
= (0,3)y (0,7)50−y
y=0 50! y
= 0,0018349.
(iv) La probabilidad de que todas las operaciones realizadas ocasionen un sobregiro:
P
∞ P x
P (X = Y ) = f (x,y)
x=0 y=x X Y
 
∞ e−60 60x x
P
∞ P
= f (x; x) = (0,3)x (0,7)x−x
x=0 X Y x=0 x! x
∞ e−60 60x
P
= (0,3)x
x=0 x!
P∞ 18x
= e−60 = e−60 e18
x=0 x!
= 5,7 x10−19 .
(v) La probabilidad de que se realicen 50 operaciones:
 
50 e−60 6050 50
P50 P
P (X = 50) = f (50,y) = (0,3)y (0,7)50−y
y=0 X Y y=0 50! y
−60 50 P
 
e 60 50 50 e−60 6050
= (0,3)y (0,7)50−y = (0,3 + 0,7)50
50! y=0 y 50!
e−60 6050
=
50!
(vi) La función de probabilidad de Y, f (y) = P (Y = y), puede obtenerse ası́:
Y
∞ e−60 60x x
 
P
P (Y = y) = (0,3)y (0,7)x−y
x=y x! y
P∞ e−60 60x x!
= (0,3)y (0,7)x−y
x=y x! y! (x − y)!
P∞ e−60 60z + y
= (0,3)y (0,7)z
z = 0 y! z!
e−60 60 y P∞ (60 × 0,7)z
= (0,3)y
y! z=0 z!
−60 y
e (60 × 0,3) 60×0,7
= e
y!
e−18 (18) y
= , y = 0, 1, . . .
y!

13
14 José Flores Delgado Estadı́stica inferencial

1.1.1. Propiedades de la función de distribución conjunta

Entre otras, las propiedades de la función de distribución conjunta son las siguientes:
1. Si X1 , . . . , Xn son variables aleatorias discretas distribuidas conjuntamente, fX , ... , Xn
1
queda definida mediante:
f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ), ∀(x1 , . . . , xn ) ∈ RX .
X1 , . . . , Xn 1 , ... , Xn

2. Si X1 , . . . , Xn son variables aleatorias discretas distribuidas conjuntamente, se verifica


que

X X∞
n
0 ≤ f (x1 , . . . , xn ) ≤ 1, ∀(x1 , . . . , xn ) ∈ R , y ··· f (x1 , . . . , xn ) = 1.
X1 , . . . , Xn X1 , . . . , Xn
xn =−∞ xn =−∞

3. Si X1 , . . . , Xn son variables aleatorias continuas distribuidas conjuntamente, se tiene


que
Z∞ Z∞
n
0 ≤ f (x1 , . . . , xn ), ∀(x1 , . . . , xn ) ∈ R , y ··· f (x1 , . . . , xn )dx1 . . . dxn = 1.
X1 , . . . , Xn
−∞ −∞
Observación 1.1. Si se desea buscar una distribución de probabilidades que modele
conjuntamente a un grupo de variables aleatorias, deberá buscarse esta entre las que
satisfacen la propiedad 2, en el caso discreto, y la 3, en el caso continuo.

1.2. Valor esperado de una función real de variables aleatorias

Sean X1 , . . . , Xn variables aleatorias, con función de distribución conjunta de


probabilidades f , y g : RX1 , ... , Xn → R; entonces, el valor esperado de la variable
X1 , . . . , Xn
aleatoria g(X1, . . . , Xn ) puede obtenerse a partir de la distribución conjunta de dichas
variables, según sean estas discretas o continuas, como se indica a continuación:
 ∞ ∞
 X X

 ··· g(x1 , . . . , xn )f(x1 , . . . , xn ), si las variables son discretas;

  xn =−∞ x1 =−∞ X1 , . . . , Xn

E g(X1 , . . . , Xn ) = Z∞ Z∞



 · · · g(x1 , . . . , xn )f(x1 , . . . , xn )dx1 . . . dxn , si las variables son continuas.
 X1 , . . . , Xn
−∞ −∞

Esta propiedad es una de las más importantes y es la generalización la propiedad siguiente:


sea X una variable aleatoria y g : RX → R una función; entonces, la esperanza de la variable
aleatoria g(X) puede obtenerse con la distribución de probabilidades de X, fX , según sea
esta discreta o continua, como se indica a continuación:
 ∞
 X

 g(x)f (x), si X es discreta;



 x=−∞
X

E(g(X)) =

 Z∞



 g(x)f (x)dx, si X es continua.

 X
−∞

14
José Flores Delgado Vector Aleatorio 15

Ejemplo 1.4. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.

Hallemos, a continuación, las esperanzas de algunas funciones reales de X e Y :


a) El precio promedio de la acción americana es E(X); para calcularlo podemos considerar
g(x,y) = x. Ası́,
Z∞  Z∞  Z ∞ Z 2y 
−2y
E(X) = E(g(X,Y )) = g(x,y)f (x,y)dx dy = x2e dx dy = 1.
0 0
−∞ −∞

Si cambiamos el orden de integración resulta:


Z∞  Z∞  Z ∞ Z ∞ 
−2y
E(X) = E(g(X,Y )) = g(x,y)f (x,y)dy dx = x2e dy dx = 1.
0 x/2
−∞ −∞

b) El precio promedio de la acción europea es E(Y ); y considerando aquı́


g(x,y) = y, resulta:
Z∞  Z∞  Z ∞ Z ∞ 
−2y
E(Y ) = E(g(X,Y )) = yf (x,y)dy dx = y2e dy dx = 1.
0 x/2
−∞ −∞

O, cambiando el orden de integración:


Z ∞ Z 2y 
−2y
E(Y ) = y2e dx dy = 1.
0 0
Z ∞ Z ∞ 
2 2 −2y
c) E(X ) = x 2e dy dx = 2. Ası́, σX2 = 2 − 12 = 1.
0 x/2
Z ∞ Z ∞ 
2 3
−2y
d) E(Y ) =2
y 2e dy dx = . Luego, σY2 = 32 − 12 = 21 .
Z0 ∞ Zx/2∞  2 Z ∞ Z 2y 
−2y 3 −2y 3
e) E(XY ) = xy 2e dy dx = = 2xye dx dy = .
0 x/2 2 0 0 2

1.3. Propiedades del valor esperado relacionadas con la suma de


variables

Si X1 , . . . , Xn son variables aleatorias y a0 , . . . , an , números reales cualesquiera;


entonces, se cumplen las propiedades siguientes:

1. E(X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ).

2. E(a0 + a1 X1 + . . . + an Xn ) = a0 + a1 E(X1 ) + . . . + an E(Xn ).



3. E g1 (X1 , . . . , Xn )+ . . . +gm (X1 , . . . , Xn ) = E(g1 (X1 , . . . , Xn ))+ . . . +E(gm (X1 , . . . , Xn )),
para cualesquiera gi funciones reales con medias finitas.

15
16 José Flores Delgado Estadı́stica inferencial

Los ejemplos siguientes ilustran el uso de estas propiedades.

Ejemplo 1.5. El precio de cierta acción, el dı́a n, es una variable aleatoria Xn , para
n = 1, 2, . . . Las variables X1 , X2 ,. . . , tienen una media igual a cero y una desviación estándar
igual a 1. Por otra parte, la utilidad que genera la acción, el dı́a n, es una variable aleatoria
Yn , con: Yn = X1 + 2X2 + . . . + n Xn , para n = 1, 2 . . .
Determinemos el valor promedio de la utilidad que genera la acción, el dı́a n. Como la
esperanza de una suma es la suma de sus esperanzas, tenemos que

E(Yn ) = E(X1 + 2X2 + . . . + n Xn )


= E(X1 ) + 2E(X2 ) + . . . + n E(Xn )
= 0.

Ejemplo 1.6. Sean X1 , . . . , Xn variables aleatorias, cada una con media µ; entonces, la
media de X̄ también es µ.
P
n P
n P
n
En efecto, E(X̄) = E( n1 Xj ) = 1
n
E(Xj ) = 1
n
µ= 1
n
nµ = µ.
j=1 j=1 j=1

1.4. Distribuciones marginales

La distribución de probabilidades de cualquier variable, que integre un vector aleatorio,


se llama distribución marginal. Para obtenerla se puede sumar o integrar la distribución
conjunta sobre el resto de variables, según sean estas discretas o continuas:
X XX X
f (x) = ··· ··· f (x1 , . . . , xi−1 ,x,xi+1 , . . . , xn ), si las variables son discretas
Xi X1 , . . . , Xn
x1 xi−1 xi+1 xn

Z∞ Z∞
f (x) = ··· f (x1 , . . . , xi−1 ,x,xi+1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn , si las variables
Xi X1 , . . . , Xn
−∞ −∞
son continuas.

Respecto al cálculo de estas distribuciones marginales tenemos las consideraciones


siguientes:

(i) en el cálculo de estas sumas e integrales se debe tener en cuenta que los lı́mites ya
no corresponden al rango conjunto de las n variables, sino al que corresponde a las
restantes cuando se fija el valor de la variable cuya marginal se determinará;

(ii) cuando se combinan variables discretas y continuas, cada una de las n − 1 variables
restantes, distintas a Xi , contribuyen en el cálculo de la marginal, con una suma, si
fuera discreta, o con una integral, si fuera continua;

(iii) no solo se puede obtener la distribución marginal de una variable; sino también la
conjunta de un grupo de ellas.

16
José Flores Delgado Vector Aleatorio 17

Ejemplo 1.7. Para las variables X e Y, del ejemplo 1.2, con densidad conjunta
(
2e−2y , 0 < x < 2y;
f (x,y) =
XY 0, en otro caso,

las densidades marginales se obtienen a continuación:


Z∞ Z ∞
f (x) = f (x,y) dy = 2e−2y dy = e−x , x > 0;
X XY x/2
−∞

Z∞ Z 2y
f (y) = f (x,y) dx = 2e−2y dx = 4e−2y y, y > 0.
Y XY 0
−∞

Ejemplo 1.8. Para las variables X e Y, del ejemplo 1.3, con función de probabilidad conjunta
dada por  
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y
las distribuciones marginales se obtienen como sigue:
 
x e−60 60x x
P P y x−y e−60 60x
f (x) = f (x,y) = (0,3) (0,7) = , x = 0, 1, . . . ;
X y XY y=0 x! y x!
 
∞ e−60 60x x
P P e−18 18x
f (y) = f (x,y) = (0,3)y (0,7)x−y = , x = 0, 1, . . .
Y x XY x=y x! y x!

1.5. Distribuciones condicionales

Definición 1.2. Si X e Y son variables aleatorias, distribuidas conjuntamente, la


distribución (o modelo probabilı́stico) condicional de X dado Y = y, que será denotada
por f , se define mediante
X|Y = y

f (x,y)
XY
f (x) := , donde y es tal que f (y) > 0 .
X|Y = y f (y) Y
Y

Esta distribución (o modelo) describe el comportamiento probabilı́stico de la variable


aleatoria X, cuando se conoce la información adicional que la variable aleatoria Y asume
el valor particular y, ası́, con esta deben calcularse probabilidades, esperanzas, varianzas y
todo lo relacionado con X, es decir, se aplica la teorı́a sobre una variable aleatoria, pero el
modelo f se cambia por f .
X X|Y = y

Por ejemplo, en el caso continuo, la probabilidad de que X ∈ A, el valor esperado de X, el


valor esperado de g(X) y la varianza de X, cuando Y = y, se obtienen como sigue:

17
18 José Flores Delgado Estadı́stica inferencial

Z
P (X ∈ A | Y = y) = f(x) dx ,
X|Y = y
A

Z∞
E(X |Y = y) = xf(x)dx ,
X|Y = y
−∞

Z∞

E g(X) |Y = y = g(x)f(x)dx ,
X|Y = y
−∞

V (X |Y = y) = E ( X − E(X|Y = y) )2 |Y = y = E(X 2 |Y = y) − E 2 (X|Y = y)
Z∞ Z 2
2
= x f(x)dx − xf(x)dx .
X|Y = y X|Y = y
−∞

Observación 1.2. En el caso discreto, esta distribución condicional no es más que la


probabilidad condicional, como se verifica a continuación:
f (x,y) P (X = x ∩ Y = y)
XY
f (x) = = = P (X = x| Y = y)
X|Y = y f (y) P (Y = y)
Y

Ejemplo 1.9. Para las variables X e Y con densidad conjunta:


(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.

Hallemos la distribución condicional de X, dado Y = y, con y > 0 :


f (x,y) 2e−2y 1
XY
f (x) := = −2y
= , 0 < x < 2y.
X|Y = y f (y) 4e y 2y
Y

Como ya se dijo, con esta nueva distribución se deben calcular probabilidades, esperanzas
y todo sobre la variable X, cuando se sabe que Y = y. A continuación se ilustran estos
cálculos.

i) Dado que Y = y, con y cualquier valor posible de Y , esto es y > 0, el valor esperado
de X se obtiene como sigue:
Z ∞ Z 2y
x
E(X|Y = y) = xf (x) dx = dx = y.
−∞ X|Y = y 0 2y
Ası́, si la acción europea cuesta y u.m., la americana costará, en promedio, la misma
cantidad.

ii) Para calcular la probabilidad de que la acción americana valga más de 3 u.m., si se sabe
que la europea vale 2 u.m., es decir P (X > 3 |Y = 2), usamos la densidad condicional
f (x) = 41 , 0 < x < 4, como sigue:
X|Y = 2 Z ∞ Z 4
1 1
P (X > 3| Y = 2) = f (x) dx = dx = .
3 X|Y = 2 3 4 4

18
José Flores Delgado Vector Aleatorio 19

Ahora obtengamos la distribución condicional de Y dado que X = x :

f (x,y)
2e−2y
f (y) = X,Y
= = 2e−2y+x , y > x/2; con x > 0.
Y |X = x f (x) e−x
X

La distribución de Y cambia si se sabe que X asume un valor (véase el ejemplo 1.7).

A continuación también se efectúan algunos cálculos con esta distribución condicional.

Z∞ Z ∞
i) Como se cumple para toda densidad: f (y) dy = 2 e−2y+x dy = 1, x > 0.
Y|X = x x/2
−∞
Z∞ Z ∞
1 1
ii) E(Y | X = x) = yf (y) dy = y 2e−2y+x dy = + x; x > 0.
Y|X = x x/2 2 2
−∞
Zy Z y
iii) P (Y ≤ y| X = x) = f (z) dz = 2e−2z+x dz = −e−2y+x + 1, y > x/2.
Y|X = x x/2
−∞
Z∞ Z ∞
2 1 1 1
2
iv) E(Y | X = x) = y f (y) dy = y 22e−2y+x dy = + x + x2 ; x > 0.
Y|X = x x/2 2 2 4
−∞

1
v) V (Y | X = x) = E(Y 2 | X = x) − E 2 (Y | X = x) = 2
+ 12 x + 41 x2 − ( 12 + 21 x)2 = 14 .

Ejemplo 1.10. Para las variables X e Y de los ejemplos 1.3 y 1.8 en el que:
 
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x ; x = 0, 1, . . .
XY x! y
e−60 60x
f (x) = , x = 0, 1, . . .
X x!
e−18 18y
f (y) = , y = 0, 1, . . .
Y y!
Obtengamos las distribuciones condicionales:

− Dado Y = y, con y = 0, 1, . . . :
 
e−60 60x x
f (x,y) (0,3)y (0,7)x−y
x! y e−42 42x−y
f (x) := X Y = = , x = y, y + 1, . . .
X|Y = y f (y) e−18 18y (x − y)!
Y
y!
− Dado X = x, con x = 0, 1, . . . :
 
e−60 60x x
f (x,y) (0,3)y (0,7)x−y  
x! y x
f (y) := X Y = −60 x = (0,3)y (0,7)x−y , y = 0, 1, . . . x.
Y |X = x f (x) e 60 y
X
x!
Nótese que Y |X = x ∼ b(n = x; p = 0,3), en particular E(Y |X = x) = 0,3x.

19
20 José Flores Delgado Estadı́stica inferencial

A continuación describimos una forma alternativa para calcular las distribuciones


condicionales, por lo general más simple.

Forma alternativa para el cálculo de la distribución condicional

Puesto que en la definición de la distribución condicional de X, dado Y = y, evaluada en x el


denominador, f (y), no depende del valor de x que se considere, sigue que f (x) es proporcional
Y X| Y = y
al numerador; es decir, f (x) = c f (x,y) , con c una constante que solo depende de y, el valor
X| Y = y X,Y
fijado para Y, mas no ası́ de x. Una notación usual para indicar esta proporcionalidad es la
siguiente:
f (x) ∝ f (x,y)
X| Y = y X,Y

Para determinar el modelo condicional, a partir de esta proporcionalidad, se puede identificar


un modelo conocido, si lo hubiera, o hallar la constante de proporcionalidad, c, mediante
la propiedad que la suma o la integral de la función de distribución de probabilidades
(dependiendo de si el caso es discreto o continuo) debe dar uno.

Ejemplo 1.11. Para nuestro ejemplo en el que X e Y tienen una densidad conjunta
(
2e−2y , 0 < x < 2y,
f (x,y) =
0 , en otro caso,

usaremos esta forma alternativa para calcular las distribuciones condicionales.

a) Obtención del modelo condicional de X dado Y = y :


Primero notemos que solo interesan los valores de y > 0, puesto que en otro caso la
distribución conjunta vale cero. Ahora, fijado y > 0 notamos que solo interesan los
valores de x tales que 0 < x < 2y (en otro caso la distribución conjunta vale cero).
Luego, a partir de f (x) ∝ f (x,y), se obtiene
X| Y = y X,Y

f (x) ∝ 2e−2y , 0 < x < 2y;


X| Y = y

para y > 0. Esta distribución de X dado Y = y, es constante respecto a x en el intervalo


(0; y); por lo tanto, se trata de la distribución uniforme; es decir, X| Y = y ∼ U(0; 2y);
para y > 0.
b) Obtención del modelo condicional de Y dado X = x :
En este caso solo son de interés los valores de x > 0. Ahora, fijado x > 0 solo interesan
los valores de y tales que y > x/2 (fuera de este intervalo la densidad conjunta vale
cero). Luego, a partir de f (y) ∝ f (x,y), resulta
Y|X = x X,Y

f (y) ∝ 2e−2y ∝ e−2y , y > x/2;


Y|X = x

para x > 0. Como no se identifica un modelo conocido, para determinar el modelo


condicional se debe hallar la constante de proporcionalidad c en

f (y) = c e−2y , y > x/2;


Y |X = x

20
José Flores Delgado Vector Aleatorio 21

para x > 0. Esta constante debe satisfacer


Z Z ∞
1 = f (y) dy = ce−2y dy.
Y|X = x x/2

De este modo c = 2ex ; por lo tanto,

f (y) = c f (x,y) = 2 ex e−2y = 2e−2y+x , y > x/2;


Y|X = x X,Y

para x > 0.

Observación 1.3. Puesto que para obtener E(X|Y = y) y V (X|Y = y) solo se reemplaza f
X
(el modelo de X) por f (el modelo condicional), las propiedades de la esperanza y de la
Y|X = x
varianza para una variable aleatoria también son válidas para E(X|Y = y) y V (X|Y = y);
ası́, por ejemplo,

a) E(a |Y = y) = a, ∀a ∈ R;

b) Si a ≤ X ≤ b, entonces, a ≤ E(X |Y = y) ≤ b;

c) E(a + bX |Y = y) = a + bE(X|Y = y) y V (a + bX|Y = y) = b2 V (X|Y = y), para a y


b constantes;

d) E a0 + a1 g1 (X) + . . . + an gn (X) |Y = y
 
= a0 + a1 E g1 (X) |Y = y + . . . + an E gn (X) |Y = y ;

e) El Principio de Sustitución
P (g(X,Y ) ∈ A|Y = y) = P (g(X,y) ∈ A|Y = y),
E(g(X,Y )|Y = y) = E(g(X,y)|Y = y).

Observación 1.4. Si (X1 , . . . , Xn ) es un vector aleatorio, podemos definir:


f (xi1 , . . . , xim1 , xj1 , . . . , xjm2 )
Xi1 , . . . , Xim , Xj1 , . . . , Xjm
f (xi1 , . . . , xim1 ) = 1 2
.
Xi1 , . . . , Xim | Xj1 = xj1 , . . . , Xjm = xjm
1 2 2
f (xj1 , . . . , xjm2 )
Xj1 , . . . , Xjm
2

Ası́, también son válidas las propiedades del valor esperado relacionadas con una suma dadas
en la sección 1.3, por ejemplo:

E(a0 + a1 X1 + . . . + an Xn |Xi = x) = a0 + a1 E(X1 |Xi = x) + . . . + an E(Xn |Xi = x).

Propiedad (la regla del producto)

Si X e Y son dos variables aleatorias distribuidas conjuntamente, sigue de la definición de


la distribución condicional que:

f (x,y) = f (x)f (y) = f (y)f (x)


XY X Y |X = x Y X|Y = y

21
22 José Flores Delgado Estadı́stica inferencial

Ejemplo 1.12. La ejecución de una tarea se realiza en dos etapas sucesivas. En el estudio
para modelar cómo varı́an conjuntamente los tiempos de ejecución de estas etapas, se
determinó que el tiempo de la primera, X (en dı́as), tiene una distribución exponencial
x
con una media de dos dı́as, es decir, f (x) = 12 e− 2 , x > 0. También se ha observado que
X
mientras mayor fue el tiempo necesario para ejecutar la primera etapa, menor resultó el
tiempo promedio de la segunda, de modo que si la ejecución de la primera etapa fue x horas,
la distribución del tiempo de la segunda, Y, resultó exponencial con una media 1/x, es decir,
f (y) = xe−x y , y > 0; x > 0. Supongamos se realizará esta tarea y se requiere que cada etapa
Y |X = x
culmine, a más tardar, en medio dı́a.

A continuación, usaremos la información anterior para hallar la probabilidad de lograrlo, es


decir, la probabilidad P (X ≤ 0,5 ∩ Y ≤ 0,5) :

De la información dada y la regla del producto, la distribución conjunta de X e Y resulta


como sigue:
1 − x −x y x −( 1 + y ) x
f (x,y) = f (x)f (y) = e 2 xe = e 2 , x > 0, y > 0.
XY X Y |X = x 2 2
Con esta distribución conjunta podemos averiguar todo lo relacionado con estas variables,
en particular, lo pedido:
Z 0,5 Z 0,5
x −( 12 + y ) x
P (X ≤ 0,5 ∩ Y ≤ 0,5) = 2
e dy dx = 0,0489.
0 0

Ejemplo 1.13. Los usuarios de un cajero automático acceden a este según un proceso
de Poisson con una tasa de 500 usuarios por dı́a. Además, se sabe que cualquier usuario
tiene una probabilidad igual a 0,1 de hacer una transferencia a otra cuenta y lo hace
independientemente de los demás usuarios. Se quiere determinar la probabilidad de que,
en un dı́a dado, todos los usuarios hagan un transferencia.

Las variables aleatorias siguientes nos permitirán usar la teorı́a de vector aleatorio:

X, el número de usuarios que acceden al cajero en un dı́a,

e Y , el número de usuarios que realizan una transferencia.

Ası́, por las condiciones dadas, sigue inmediatamente que

X ∼ P (500) e Y | X = x ∼ b(x; 0,1), para x > 0.

Ahora, usamos estas distribuciones y la regla del producto para hallar la distribución conjunta
de ambas variables:
 
e−500 500x x
f (x, y) = f (x) f(y) = (0,1)y (0,9)x−y , y = 0, . . . , x; x = 0, 1, . . .
X,Y X Y|X = x x! y
Con este modelo podemos obtener la probabilidad que interesa:
 
∞ e−500 500x x
P∞ P x P∞ P
P (X = Y ) = f (x, y) = f (x, x) = (0,1)x (0,9)x−x = e−350 .
x=0 y=x X,Y x=0 X,Y x=0 x! x

22
José Flores Delgado Vector Aleatorio 23

1.6. Variables aleatorias independientes

Definición 1.3. Se dice que las variables aleatorias X1 , . . . , Xn son independientes, si su


distribución conjunta es igual al producto de las respectivas distribuciones marginales, es
decir, si:
∀(x1 , . . . , xn ) ∈ Rn : f (x1 , . . . , xn ) = f (x1 ) . . . f (xn ).
X1 , . . . , Xn X1 Xn

De aquı́ se deduce que para cualesquiera A1 , . . . , An ∈ R :

P (X1 ∈ A1 ∩ . . . ∩ Xn ∈ An ) = P (X1 ∈ A1 ) . . . P (Xn ∈ An )

Por lo tanto, para el cálculo de probabilidades de eventos en los que las variables estén
separadas es suficiente calcular las probabilidades marginales.

Ejemplo 1.14. Las variables aleatorias discretas X e Y, con rangos { −20, 5 } y función de
probabilidad conjunta, fX,Y , dada en la tabla siguiente, son independientes.

x y -20 5
-20 1/25 4/25
5 4/25 16/25

1 4
En efecto, de f (−20) = 5
= f (−20) y f (5) = 5
= f (5), siguen
X Y X Y

f (−20, − 20) = f (−20) f (−20),


X,Y X Y

f (−20, 5) = f (−20) f (5),


X,Y X Y

f (5, − 20) = f (5) f (−20),


X,Y X Y

f (5,5) = f (5) f (5);


X,Y X Y

es decir, las variables son independientes.

Ejemplo 1.15. Las variables aleatorias continuas X e Y de los ejemplos 1.2 y 1.7 no son
independientes, pues, f (x, y) 6= f (x) f (y), 0 < x < 2y.
X,Y X Y

Ejercicio 1.1. Verifique que las variables aleatorias X e Y, cuya función de densidad
conjunta sigue a continuación, son independientes:
(
4e−2(x+y) ; x > 0, y > 0.
f (x,y) =
X,Y 0 ; en otro caso.

Observación 1.5. Observe que si dos variables aleatorias, X e Y, son independientes, las
funciones de distribución condicionales son iguales a las marginales:

f (x) = f (x) y f (y) = f (y)


X| Y = y X Y |X = x Y

23
24 José Flores Delgado Estadı́stica inferencial

Propiedad. Funciones de variables independientes también son independientes. Es decir, si


X1 , . . . , Xn son independientes también lo son

g1 (X1 ), . . . , gn (Xn ),

para cualesquiera gi : RXi → R.

O, en general, funciones de grupos disjuntos de variables independientes también son


independientes. Es decir, si X1 , . . . , Xn son independientes también lo son

g1 (Xi1 , . . . , Xin1 ), . . . , gk (Xi1 , . . . , Xink ),

para cualesquiera Xi1 , . . . , Xin1 , . . . , Xik , . . . , Xink , tales que ij 6= il , y funciones gi :


RXi , ... , Xi → R.
1 ni

1.7. Propiedades del valor esperado y la varianza relacionadas


con variables aleatorias independientes

A continuación se enumeran algunas propiedades del valor esperado y de la varianza para


variables aleatorias independientes.

1. La esperanza del producto de variables independientes es igual al producto de sus


esperanzas. Es decir, si X1 , . . . , Xn son independientes:

E(X1 . . . Xn ) = E(X1 ) . . . E(Xn ).

2. La varianza de la suma de variables independientes es igual a la suma de sus varianzas.


Es decir, si X1 , . . . , Xn son independientes:

V (X1 + . . . + Xn ) = V (X1 ) + . . . + V (Xn ).

En general, si a0 , . . . , an , son números reales cualesquiera:

V (a0 + a1 X1 + . . . + an Xn ) = a21 V (X1 ) + . . . + a2n V (Xn ).

A continuación se ilustra el uso de estas propiedades.


Ejemplo 1.16. El precio de cierta acción, el dı́a n, es una variable aleatoria Xn , para
n = 1, 2, . . . Las variables X1 , X2 ,. . . son independientes, tienen una media igual a cero y
una desviación estándar igual a 1. Por otra parte, la utilidad que genera la acción, el dı́a n,
es una variable aleatoria Yn , con: Yn = X1 + 2X2 + . . . + n Xn , para n = 1, 2 . . .
Puesto que las variables son independientes, sigue que la varianza de la utilidad que genera
la acción, el dı́a n está dada por:

V (Yn ) = V (X1 + 2X2 + . . . + n Xn ) = V (X1 ) + 22V (X2 ) + . . . + n2 V (Xn ) = 1 + 22 + . . . + n2 .


n(n + 1)(2n + 1)
Ası́, V (Yn ) = .
6
24
José Flores Delgado Vector Aleatorio 25

Ejemplo 1.17. La utilidad que genera un instrumento, en el instante t, está dada por:
Xt = Acos(W t + Θ), ∀t ≥ 0. A, W y Θ son variables aleatorias independientes, tales
que: E(A) = 0, V (A) = 1, y W y Θ tienen distribución uniforme en el intervalo [−π, π].
Determinemos la utilidad promedio del instrumento en el instante t. Para esto notemos que A
y cos(W t + Θ) son independientes, esto se justifica porque A, W y Θ son variables aleatorias
 
independientes. Luego, E(Xt ) = E Acos(W t + Θ) = E(A)E cos(W t + Θ) = 0.

Obsérvese que no ha sido necesario obtener el valor de la esperanza E cos(W t + Θ) , pero
este está bien definido; es decir, existe ya que la función coseno está limitada.

1.8. Esperanza Condicional

Definición 1.4. Sea la función g : RY → R, definida para todo y, valor de Y, mediante

g(y) = E(X| Y = y);

entonces, a la variable aleatoria g(Y ) se le denomina la Esperanza condicional de X


dado Y y se la denota por E(X| Y ) o µX| Y .

Recuérdese que
 ∞
 X

 x f (x) ; si X es discreta,


 x=−∞ X| Y = y
E(X| Y = y) = Z∞



 x f (x) dx ; si X es continua.

 X| Y = y
−∞

Ejemplo 1.18. Para las variables X e Y con densidad conjunta:


(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso,

Se tiene, según lo visto en 1.9, que


1
E(X| Y = y) = y, ∀y ∈ RY y E(Y | X = x) = 2
+ 21 x, ∀x ∈ RX ;
1
por lo tanto, E(X| Y ) = Y y E(Y | X) = 2
+ 12 X.

Propiedad: Además de las propiedades del valor esperado de una variable y las relacionadas
con la suma (vistas anteriormente), la esperanza condicional también satisface la siguiente:

E(X) = E (E(X| Y ))

Observaciones: esta propiedad puede ser útil para obtener la esperanza de una variable
aleatoria cuya distribución o esperanza es fácilmente obtenida a partir de los valores que
asuma otra variable.

25
26 José Flores Delgado Estadı́stica inferencial

También debe tenerse en cuenta que, según la definición, E(X|Y ) es una función de Y, por
lo tanto, podemos usar la propiedad:
 ∞
 X

 g(y)f (y), si Y es discreta,


 y=−∞ Y

E(g(Y )) = Z∞



 g(y)f (y)dy, si Y es continua,

 Y
−∞

para obtener:
 ∞
 X

 E(X| Y = y) f (y) , si Y es discreta,


  y=−∞
Y

E(X) = E E(X| Y ) = Z∞



 E(X| Y = y) f (y) dy , si Y es continua.

 Y
−∞

Los ejemplos siguientes ilustran el uso de esta propiedad.

Ejemplo 1.19. El precio de una acción, al cierre de las operaciones de un dı́a, puede subir,
con una probabilidad de 0,8, o bajar o mantenerse igual, con una probabilidad de 0,2. La
ganancia del corredor es una variable aleatoria con un media de 30 u.m., si la acción sube y
de 15 u.m., si la acción baja o se mantiene igual. Se desea averiguar cuál es el la ganancia
promedio del corredor al cierre de las operaciones de un dı́a.
Para este fin empecemos por expresar los datos dados en el lenguaje de variables aleatorias.
Consideremos las dos variables siguientes:

X = ganancia del corredor al cierre de las operaciones de un dı́a (en u.m.).


(
1, si al cierre de las operaciones la acción sube,
Y =
0, si al cierre de las operaciones la acción baja.

Se desea obtener E(X), el valor esperado de X. Por los datos dados se tiene que:

E(X| Y = 1) = 30, E(X| Y = 0) = 15, fY (1) = 0,8 y fY (0) = 0,2.

Con estos datos usamos la propiedad anterior de la esperanza condicional y la observación


hecha inmediatamente después para obtener:
P
E(X) = E(E(X| Y )) = E(X| Y = y) fY (y)
y∈RY

= E(X| Y = 0) fY (0) + E(X| Y = 1) fY (1)


= 15 × 0,2 + 30 × 0,8 = 27.
Ejemplo 1.20. En el contexto del ejemplo 1.13, usaremos la propiedad anterior para obtener
E(Y ) : el número promedio de usuarios que realizan una transacción.
Recordemos que X es el número de usuarios que acceden al cajero en un dı́a, Y, el número de
usuarios que realizan una transferencia, X ∼ P (500) e Y | X = x ∼ b(x; 0,1), para x > 0.

26
José Flores Delgado Vector Aleatorio 27

De los modelos anteriores, se deduce que: E(X) = 500 y que E(Y |X = x) = 0,1 x.

Ası́, E(Y |X) = 0,1 X y E(Y ) = E E(Y |X) = E(0,1 X) = p E(X) = 0,1 × 500 = 50.

Ejercicio 1.2. El número diario de clientes que acceden a un cajero automático es aleatorio,
con una media de 100 usuarios por dı́a. Cada usuario retira en promedio 50 soles, sin importar
el número de usuarios que acceden. Halle la media del retiro total diario de este cajero.

1.9. Covarianza y correlación de dos variables aleatorias

A continuación definiremos unos indicadores de asociación lineal entre dos variables


aleatorias, estos son la covarianza y el coeficiente de correlación.

Definición 1.5. Si X e Y son variables aleatorias, se define su covarianza, denotada por


cov(X,Y ) o σX,Y y su correlación, denotada por ρX,Y , mediante
σX,Y
cov(X,Y ) = σX,Y = E((X − µX )(Y − µY )) y ρ(X,Y ) = ρX,Y = .
σX σY
Para entender cómo se originan estas medidas, se consideran las gráficas siguientes:

Relación lineal directa Relación lineal inversa


• •
(xi − µX )(yi − µY ) < 0 • •(xi − µ )(yi − µ ) > 0 • •
• •• X Y •
• •
•• •• • •
µY µY
• • • • • ••
• •
• • •
(xi − µX )(yi − µY ) > 0 • (xi − µX )(yi − µY ) < 0 •
• •
E[ (X − µX )(Y − µY ) ] > 0 µX µX E[ (X − µX )(Y − µY ) ] < 0

Relación nula Relación no lineal


• •
• • •
• • •
• • •
µY • • µY • •

• •
• • • • • •
• • • •
E[ (X − µX )(Y − µY ) ] ≈ 0 • • E[ (X − µX )(Y − µY ) ] ≈ 0
µX µX

Observación 1.6. Una condición para que la covarianza esté definida es que E(XY ) lo esté.
Para esto basta que E(X 2 ) y E(Y 2 ) sean finitos, como sigue de la propiedad 1 siguiente.

Propiedades:
p
1. Desigualdad de Cauchy Schwartz: E(|XY |) ≤ E(X 2 )E(Y 2 ).
2. −1 ≤ ρX,Y ≤ 1.
3. ρX,Y = 1 ⇔ existen a ∈ R y b > 0 tales que P (Y = a + bX) = 1.
4. ρX,Y = −1 ⇔ existen a ∈ R y b < 0 tales que P (Y = a + bX) = 1.

27
28 José Flores Delgado Estadı́stica inferencial

5. Cov(X, Y ) = Cov(Y, X).


6. Cov(X, X) = V (X).
7. Cov(a, X) = 0, ∀a ∈ R.

8. Cov(X,Y ) = E(XY ) − E(X)E(Y ).

9. Si X e Y son independientes, entonces σX,Y = 0 = ρX,Y .

Observación 1.7. Por las propiedades anteriores, el coeficiente de correlación es un


indicador de asociación lineal, su signo da el posible tipo de asociación (directa o inversa) y
su valor absoluto el grado de tal asociación (mientras más cercano a 1, más fuerte será).

Ejemplo 1.21. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso,

tenemos que cov(X,Y ) = E(XY ) − E(X)E(Y ) = 23 − (1)(1) = 21 y ρ(X,Y ) = cov(X,Y


σX σY
)
=
1 √
√2 = 12 2 = 0,70711. Este valor del coeficiente de correlación indica cierto grado
(1) 1/2
de asociación lineal directa entre estas variables. Esto está en armonı́a con los resultados
obtenidos en el ejemplo 1.18: E(Y | X) = 1 + 12 X y E(X| Y ) = Y.

Observación 1.8. Por la propiedad 8, si dos variables aleatorias son independientes;


entonces, la covarianza de estas es cero. Sin embargo, la propiedad recı́proca no se verifica,
como lo muestra el ejemplo siguiente.

Ejemplo 1.22. Las variables aleatorias discretas X e Y, que tienen un rango conjunto
R = { (−1; 0), (−1; 1) (1; 0), (1; 2) } y una función de probabilidad conjunta f dada en
X, Y X, Y
la tabla siguiente, no son independientes pero su covarianza es cero.

y 0 1 2
x
1 1
−1 4 4 −−
3 1
1 8 −− 8

Para verificarlo note que:


XX
E(XY ) = xy f (x,y)
X, Y

= + (−1)(1)( 41 ) + (1)(0)( 38 ) + (1)(2)( 18 )


(−1)(0)( 41 )
= 0,
XX
E(X) = x f (x,y)
X, Y

= (−1)( 41 ) + (−1)( 41 ) + (1)( 38 ) + (1)( 18 )


= 0;

entonces, Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.

28
José Flores Delgado Vector Aleatorio 29

Por otra parte,


X 1 1 1 X 1 3 5
f (−1, 0) = 41 , f (−1) = f (−1, y) = + = y f (0) = f (x, 0) = + = ;
X, Y X
y
X, Y 4 4 2 Y
x
X, Y 4 8 8

ası́, f (−1, 0) 6= f (−1) f (0) y, por lo tanto, X e Y no son independientes.


X, Y X Y

1.9.1. Propiedades de la varianza y la covarianza relacionadas con la suma de


variables

Si X1 , Y1 , . . . , Xn , Yn son variables aleatorias y a0 , b0 , . . . , an , bn números cualesquiera,


se cumplen las propiedades siguientes:

n
X n n−1 X
 X X
1. V a0 + ai Xi = a2i V (Xi ) + 2 ai aj Cov(Xi , Xj ) .
i=1 i=1 i=1 j>i
n
X n
X

2. Si las variables tienen covarianza cero, V a0 + ai Xi = a2i V (Xi ).
i=1 i=1
 n
X m
X  n X
X m
3. Cov a0 + ai Xi , b0 + bj Yj = ai bj Cov(Xi , Yj ) .
i=1 j=1 i=1 j=1

Ejemplo 1.23. En el contexto del ejemplo 1.16, usemos la propiedad 3 para determinar la
covarianza entre el precio y la utilidad de la acción, en el dı́a n :
Cov(Xn , Yn ) = Cov(Xn , X1 + 2X2 + . . . + n Xn )
= Cov(Xn ,X1 ) + 2Cov(Xn ,X2 ) + . . . + nCov(Xn ,Xn )
= nCov(Xn ,Xn ) (los otros términos son ceros, por la independencia)
= nV (Xn ) = n.

Ejemplo 1.24. En el contexto de los ejemplos 1.1 y 1.2, la varianza del costo total de
adquirir cinco acciones americanas y tres europeas se obtiene con la propiedad 1:
1 1
V (5X + 3Y ) = 52 V (X) + 32 V (Y ) + 2(5)(3)Cov(X,Y ) = 52 (1) + 32 ( ) + 2(5)(3)( ) = 44,5.
2 2

1.10. Vector de medias y matriz de varianzas-covarianzas

Definición 1.6. Sea X = (X1 , . . . ,Xn )t un vector aleatorio columna, su vector de medias,
que lo denotaremos por E(X) o µX, se define como el vector columna (µXi )n×1 ; es decir,
 
µ X1
 . 
E(X) = µX =  ..  .
µ Xn n×1

29
30 José Flores Delgado Estadı́stica inferencial

La matriz de varianzas-covarianzas de X, denotada por Σ X , es la matriz ( σ Xi , Xj


)n×n :
 2  
E X1 − E(X1 ) · · · E ( X1 − E(X1 ) ) ( Xn − E(Xn ) )
 .. .. .. 
ΣX =  . . . 
 2
E ( Xn − E(Xn ) ) ( X1 − E(X1 ) ) ··· E Xn − E(Xn ) n×n

 
2
σX · · · σX1 , Xn
 ..
1
.. .. 
= 
 . . . .

2
σXn , X1 · · · σXn
n×n

Las definiciones anteriores aplicadas al vector aleatorio (X, Y )t dan:


! !
µX σX2 σX, Y
µ(X, Y )t = y Σ (X, Y )t
= .
µY σX, Y σY2
2×1 2×2

Propiedad de la media y de la varianza respecto a transformaciones lineales en


términos de matrices

Sea X n×1 = (X1 , . . . , Xn )t un vector aleatorio, con vector de medias µX y matriz de


varianzas-covarianzas ΣX . Si Am×1 y Bm×n son matrices; entonces, el vector aleatorio
Ym×1 = A + BX tiene un vector de medias µY = A + BµX y una matriz de varianzas-
covarianzas ΣY = BΣX Bt .
Ejemplo 1.25. Las variables X e Y, del ejemplo 1.24, tienen la matriz de varianzas-
covarianzas siguiente: !
1 21
Σ(X, Y )t = 1 1 .
2 2

El costo costo total de adquirir cinco acciones americanas y tres europeas, Z = 5X + 3Y, se
expresa matricialmente como !
X
Z = (5 3) .
Y
Por lo tanto, por la propiedad anterior, la varianza de este costo es igual a
! ! !
1 12 5 13 5
V (Z) = (5 3) 1 1 =( 4) = 44,5.
2 2
3 2 3

1.11. La distribución normal bivariable


Definición 1.7. se dice que el vector aleatorio (X,Y )t tiene una distribución normal
bivariable, si su densidad viene dada por la función siguiente:
( " 2     2 #)
1 1 x − µ1 x − µ1 y − µ2 y − µ2
f (x, y) = p exp − − 2ρ + ,
2πσ1 σ2 1−ρ 2 2(1 − ρ2 ) σ1 σ1 σ2 σ2

∀(x,y) ∈ R2 ; con σ1 > 0, σ2 > 0, − 1 < ρ < 1, µ1 ∈ R y µ2 ∈ R los parámetros de la


distribución.

30
José Flores Delgado Vector Aleatorio 31

Denotaremos lo anterior por (X,Y )t ∼ N2 (µ1 , µ2 , σ12 , σ22 , ρ).

Propiedades: si (X,Y )t ∼ N2 (µ1 , µ2 , σ12 , σ22 , ρ), se cumple las siguientes propiedades:

1. Las densidades marginales son normales: X ∼ N(µ1 , σ12 ) e Y ∼ N(µ2 , σ22 ).


Ası́, µ1 y σ12 son, respectivamente, la media y varianza de X; mientras que µ2 y σ22 , las
correspondientes a Y.

2. ρ es el coeficiente de correlación entre X e Y : ρX,Y .

3. ρ = 0 ⇒ X e Y son independientes.
Recuerde que si dos variables son independientes su covarianza es cero y, por lo
tanto, su coeficiente de correlación también es igual cero. Cuando las variables siguen
una distribución normal bivariable, también vale la propiedad recı́proca, es decir, un
coeficiente de correlación cero implica independencia.

4. Las densidades condicionales también son normales, con regresiones lineales y varianzas
constantes, como sigue a continuación:
ρσ2
Y |X = x ∼ N(µ2 + (x − µ1 ); σ22 (1 − ρ2 )).
σ1
En particular, el mejor pronóstico para Y, a partir del conocimiento que X = x, es
ρσ2
µ2 + (x − µ1 );
σ1

con el error promedio cometido al efectuar este pronóstico igual a σ22 (1 − ρ2 ) :


independiente del valor que asume X.

5. Las variables aleatorias X e Y tienen una distribución conjunta normal si, y solo si,
cualquier combinación lineal de estas variables, con por lo menos uno de los coeficientes
distinto de cero, tiene distribución normal.

6. Si las variables aleatorias X e Y tienen una distribución conjunta normal, también la


tienen V = a + bX y W = c + dY, donde a,b,c y d son constantes con b y d distintas
de cero.

Ejemplo 1.26. Sea (X, Y ) un vector aleatorio cuya distribución conjunta es normal
bivariable, con matrices de medias y covarianzas siguientes:
 
36 192
!
9  25 125 
 
µ= y Σ= 
5  192 64 
125 25
Para ilustrar algunas de las propiedades anteriores, calcularemos las probabilidades
siguientes:

31
32 José Flores Delgado Estadı́stica inferencial

64
a) P (Y > 8). Para calcular esta probabilidad nótese que Y ∼ N(5; 25 ), por lo tanto
Y −5 8−5
Z = 8/5 ∼ N(0; 1) y P (Y > 8) = 1 − FY (8) = 1 − FZ ( 8/5 ) = 1 − FZ (1,875) =
1 − 0,9696 = 0,0304.

b) P (3X + 2Y > 40). Para calcular esta probabilidad aplicamos la propiedad 5 y


obtenemos que
2
W = 3X + 2Y ∼ N(µW ; σW ),

con µW = 3µX + 2µY = 37 y σW 2


= 32 σX
2
+ 22 σY2 + 2(3)(2)cov(X, Y ) = 32 ( 36
25
64
) + 22 ( 25 )+
192
2(3)(2)( 125 ) = 41,632. Es decir, W ∼ N(37; 41,632), con esta distribución se obtiene
el valor de la probabilidad

P (3X +2Y > 40) = 1−FW (40) = 1−FZ ( √40−37


41,632
) = 1−FZ (0,47) = 1−0,6808 = 0,3192.

c) P (X + Y ≤ 20 |X = 12) = P (12 + Y ≤ 20| X = 12) = P (Y ≤ 8| X = 12). Para esto


aplicamos la propiedad 4 y tenemos que Y |X = x ∼ N(8,2; 0,9216).

A continuación se generaliza la distribución normal bivariable al caso de más de dos


variables.

1.12. La distribución normal multivariable

Definición 1.8. Se dice que las variables aleatorias X1 , . . . , Xn tienen distribución conjunta
gaussiana (o normal) multivariable, si ∀(x1 , . . . , xn ) ∈ Rn , su densidad conjunta está dada
por:
1 1
f (x1 , . . . , xn ) = n/2 1/2
exp { − ( x − µ )t Σ−1 ( x − µ ) },
X1 , . . . , Xn (2π) ( det Σ ) 2
donde Σ es la matriz de varianzas-covarianzas:
 
σ12 cov(X1 , X2 ) ... cov(X1 , Xn )
 
 cov(X2 , X1 ) σ22 ... cov(X2 , Xn ) 
  
Σ = cov(Xi , Xj ) n×n =  · · · · 

 
 · · · · 
cov(Xn , X1 ) ... cov(Xn , Xn−1) σn2

y x y µ son los vectores:    


x1 µ1
   
 ·   · 
   
x=
 · , µ = 
  · ,

   
 ·   · 
xn µn
con µj = E(Xj ) y σj2 = V (Xj ), para j = 1, . . . , n.

Denotamos esto por (X1 , . . . , Xn )t ∼ Nn (µ; Σ).

32
José Flores Delgado Vector Aleatorio 33

En particular, para n = 2 se obtiene la densidad conjunta normal bivariable, en este caso la


matriz de varianzas-covarianzas es
!
σ12 ρ σ1 σ2
Σ=
ρ σ1 σ2 σ22

Propiedades: la distribución normal multivariable tiene las propiedades siguientes:

1. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable,


cada una de estas variables tiene distribución normal.

2. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable,


la densidad condicional de una de estas, dado cualquier otra, también es normal y tiene
una esperanza lineal y una varianza constante, como se muestra a continuación:
ρX σXj 
j , Xk
Xj |Xk = xk ∼ N µXj + (xk − µXk ); σX2 (1 − ρ2X ) .
σXk j j , Xk

3. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable;


entonces,
X1 , . . . , Xn son independientes ⇔ cov(Xi , Xj ) = 0,∀i 6= j.

4. Si X1 , . . . , Xn son variables aleatorias independientes y cada una con distribución


normal, entonces estas variables tienen distribución gaussiana conjunta, en efecto, si
Xj ∼ N(µj , σj2 ), j = 1, . . . ,n, y estas son independientes, la función de densidad
conjunta, ∀(x1 , . . . , xn ) ∈ Rn , está dada por
f (x1 , . . . , xn ) = fX1 (x1 ) ... fXn (xn )
X1 , . . . , Xn
(x1 −µ1 )2 (xn −µn )2
1 −
2σ12 1 − 2
2σn
= √ e ... √ e
2π σ1 2π σn
1 1 (x1 −µ1 )
2
(xn −µn )2
= exp { − 2 [ σ 2 + ··· + 2
σn ]}
(2π)n/2 σ1 . . . σn 1

1
= exp { − 12 ( x − µ )t Σ−1 ( x − µ ) },
(2π)n/2 ( det Σ )1/2
donde Σ, x y µ están dados por
 
σ12 0 . . . 0    
  x1 µ1
 0 σ22 . . . 0     
   ·   · 
 · · · ·     
 
Σ= , x = 
 · , µ = 
  · .

 · · · ·     
   ·   · 
 · · · 0 
 
xn µn
0 · · · 0 σn2

33
34 José Flores Delgado Estadı́stica inferencial

5. Las variables aleatorias X1 , . . . , Xn tienen distribución conjunta gaussiana si, y solo


si, cualquier combinación lineal a1 X1 + · · · + an Xn , con por lo menos un coeficiente
aj 6= 0, tiene distribución normal.

6. Si X n×1 = (X1 , . . . , Xn )t ∼ Nn( µX ; ΣX ) y Am×1 y Bm×n son matrices; entonces,


Y m×1 = A + BX ∼ Nm( µX ; ΣX ), con µY = A + BµX y ΣY = BΣX Bt .

1.13. Transformaciones de variables aleatorias

Sean X e Y variables aleatorias continuas con función de densidad f .


X,Y

Sea (W,Z) = g(X,Y ), con g una función inversible; es decir, W = g1 (X,Y ) y Z = g2 (X,Y ),
con g1 y g2 tales que X = h1 (W,Z) e Y = h2 (W,Z). La densidad conjunta de este nuevo
vector se puede obtener mediante:

f (w,z) = f ( h1 (w,z), h2 (w,z) ) | det(J) |, ∀(w,z) ∈ R2 ,


W,Z X,Y

∂h1 (w,z) ∂h1 (w,z)


!
∂w ∂z
con J = ∂h2 (w,z) ∂h2 (w,z)
.
∂w ∂z

Ejemplo 1.27. Sean X e Y dos variables aleatorias independientes con distribución


exponencial de parámetro β, es decir, f (x,y) = β 2 e−β(x+y) , x > 0, y > 0. Obtengamos
X,Y
la función de densidad conjunta de las variables W = X + Y y Z = X :

En este caso, X = Z e Y = W − Z; es decir, h1 (w,z) = z y h2 (w,z) = w − z. Luego


∂h1 (w,z) ∂h1 (w,z)
! ! !
∂z ∂z
∂w ∂z ∂w ∂z
0 1
J= ∂h2 (w,z) ∂h2 (w,z)
= ∂(w−z) ∂(w−z)
=
∂w ∂z ∂w ∂z
1 −1

y | det(J) | = | − 1| = 1.

Por lo tanto,

f (w,z) = f ( h1 (w,z), h2 (w,z) ) | det(J) |, ∀(w,z) ∈ R2


W,Z X,Y

= β 2 e−β w , z > 0, w − z > 0.

Ejercicio 1.3. Sean X e Y dos variables aleatorias independientes con distribución


exponencial de parámetro β, Sean X e Y dos variables aleatorias independientes con
distribución exponencial de parámetro β. Empléese el resultado del ejemplo anterior, para
verificar que W = X + Y tiene distribución gamma con parámetros 2 y β.

34
José Flores Delgado Vector Aleatorio 35

1.14. Ejercicios propuestos

Ejercicio 1.1. El número de unidades, X, que ofrece un comerciante para vender, e Y,


el número de unidades que el mercado está dispuesto a adquirir, son variables aleatorias
discretas cuya función de distribución de probabilidad conjunta está dada por la tabla
siguiente:

x y 0 1 2 3
0 0,28 0,04 0,04 0,04
1 0,03 0,21 0,03 0,03
2 0,02 0,04 0,12 0,02
3 0,03 0,02 0,01 0,04

a) Determine la probabilidad de que el número de unidades ofrecidas coincida con el


número de unidades que el mercado está dispuesto a adquirir.

b) Determine la probabilidad de que el mercado esté dispuesto a adquirir menos de la


cantidad ofrecida.

c) Determine la probabilidad de que el mercado esté dispuesto a adquirir, por lo menos,


una unidad.

d) Con la función de distribución de probabilidad conjunta halle P (X = 2). Luego,


obtenga inmediatamente f (2).
X

e) Obtenga f (2), pero con la fórmula para hallar el modelo marginal.


X

f) Si el mercado está dispuesto a adquirir solo una unidad, determine la probabilidad


correspondiente a cada posible valor de la cantidad ofrecida.

Ejercicio 1.2. El número de usuarios que acceden a cierto sistema, X, y el número de de


estos usuarios que solicitan un dato inexistente, Y, tienen un modelo probabilı́stico conjunto
dado por la función siguiente:
 x−1
 (0,2)(0,8)
; y = 0, . . . , x; x = 1, 2, . . .
f (x,y) = x+1
X,Y 
0; en otro caso.

a) Halle P (2 ≤ X − Y ≤ 3 ∩ X ≤ 3).

b) Halle f (x), ∀x ∈ R.
X

c) ¿Cuál es el número promedio de usuarios que acceden al sistema?

d) ¿Cuál es el número promedio de usuarios que solicitan un dato inexistente, cuando han
accedido 10 usuarios?

35
36 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.3. Las variables aleatorias X e Y tienen la siguiente función de densidad


conjunta:  2
 3y , 0 < y < x, 1 < x < 2,

f (x,y) = x3
X,Y 

0, en otro caso.

a) Halle P (X + Y < 2).

b) Halle f (x), ∀x ∈ R.
X

c) Halle f (y), ∀y ∈ R; con 1 < x < 2.


Y |X = x

d) Halle E(Y |X = x), para 1 < x < 2.

e) Si g(x) = E(Y |X = x), para 1 < x < 2. Halle E(g(X)).

Ejercicio 1.4. Considérense las variables aleatorias X e Y con la siguiente función de


densidad conjunta: 
 1
 , 0 < y < x, 4 ≤ x ≤ 8,
f (x,y) = 4x
X,Y 
 0, en otro caso.

a) Encuentre la probabilidad P (X + Y ≥ 8).

b) Halle f (6).
Y

c) Determine P (5 ≤ X ≤ 7 |Y = 6) y E(XY |Y = 6).

d) Halle E(5 + 4XY − 3X).

e) Halle E(X|Y = y),∀y ∈ [ 0, 4 ].

Ejercicio 1.5. Un fabricante adquiere un componente, bien del proveedor A ó bien del B, de
manera aleatoria. La duración, en dı́as, del componente adquirido es una variable aleatoria
continua X. Sea Y la variable aleatoria discreta con valores como siguen: 1, si el componente
es adquirido de A, 0, si el componente es adquirido de B. Las variables X e Y tiene el modelo
de probabilidad conjunto siguiente:
(
1 −x/30 1 −x/60
30
e (0,8)y y + 60 e (0,2)1−y (1 − y) , x > 0, y = 0, 1.
f (x,y) =
X,Y 0 , en otro caso.

a) Determine la probabilidad de que el componente dure más de 20 dı́as.

b) Halle la duración promedio del componente.

c) Si un componente proviene de A, halle la probabilidad de que dure más de 20 dı́as.

Tenga en cuenta que X es continua e Y, discreta.

36
José Flores Delgado Vector Aleatorio 37

Ejercicio 1.6. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos necesarios. Las cantidades de dinero (en miles de unidades monetarias) que el
fabricante destina para la compra de los insumos, A y B, son X e Y, respectivamente.
La función de densidad conjunta del vector aleatorio (X,Y ) es la siguiente:
(
6 y , 0 < x + y < 1, 0 < x < 1, 0 < y < 1;
f (x,y) =
X,Y 0 , en otro caso.

a) ¿Cuál es la probabilidad de que el fabricante destine una mayor cantidad de dinero a


la compra del bien A?

b) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra


de los insumos A y B no exceda las 500 unidades monetarias.

c) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra


del insumo A no exceda las 500 unidades monetarias.

d) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra


del insumo B no exceda las 500 unidades monetarias.

e) Si el fabricante destinó 200 unidades monetarias a la compra del bien B, determine


la probabilidad de que haya destinado una mayor cantidad de dinero a la compra del
bien A.

f) Determine la cantidad total de dinero que, en promedio, el fabricante destina a la


compra de estos insumos.

Ejercicio 1.7. El número de errores que se cometen en cierto proceso productivo, X, y el


número de errores graves, Y, tienen un modelo probabilı́stico conjunto dado por la función
siguiente:
( 
0,2(0,8)x−1 xy (0,1)y (0,9)x−y ; y = 0, 1, . . . , x; x = 1, 2, . . .
f (x,y) =
X,Y 0; en otro caso.

a) Se detiene el proceso si, y solo si, se cometen más de dos errores o más de un error
grave. Determine la probabilidad de que se detenga el proceso.

b) Determine la probabilidad de que en el proceso productivo se cometa a lo más un error


que no sea grave.

c) Halle la probabilidad de que, en el proceso productivo, se cometan cinco errores.

d) ¿Cuál es el número promedio de errores cometidos durante el proceso productivo?

e) ¿Cuál es el número promedio de errores graves cometidos, cuando han ocurrido 10


errores durante el proceso productivo?

37
38 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.8. Sean X e Y dos variables aleatorias con función de densidad conjunta f ;
X,Y
demuestre que Z
f (x) = f (x,y)dy.
X X,Y

Sugerencia: primero exprese F (x) = P (X ≤ x) en términos de la densidad conjunta; luego


X
recuerde que f (x) = F ′ (x).
X X

Ejercicio 1.9. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos, A y B, necesarios para la fabricación de su producto, de los cuales a lo más dos
tercios pueden destinarse a la compra de A. El precio (en miles de unidades monetarias) de
los insumos A y B son X e Y, respectivamente.
El vector aleatorio (X,Y ) tiene una función de densidad conjunta dada por:
(
81
13
y ; 0 < x + y ≤ 1, 0 < x ≤ 23 , y > 0.
f (x,y) =
0 ; en otro caso.

a) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos?

b) ¿Cuál es la probabilidad de que el precio de A sea menos de la mitad del presupuesto?

c) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos y con un gasto en A menor a la mitad del
presupuesto?

d) Si el gasto en A fue menos de la mitad del presupuesto, ¿cuál será la probabilidad de


que más de las tres cuartas partes del presupuesto hayan sido necesarias para adquirir
estos insumos?

e) Si el gasto en A fue la mitad del presupuesto, ¿cuál será la probabilidad de que más
de las tres cuartas partes del presupuesto hayan sido necesarias para adquirir estos
insumos?

f) Si el gasto en B fue la cuarta parte del presupuesto, ¿cuál será la probabilidad de que
el de A haya sido menos de la mitad del presupuesto?

g) Cuando el gasto en B es la cuarta parte del presupuesto, ¿cuál será, en promedio, el


de A?

h) Determine el valor esperado y la varianza del gasto total en estos insumos

i) Para la compra de otros insumos se requiere una cantidad dada por 0,1 + 0,2XY.
Determine el valor esperado y la varianza de esta cantidad.

38
José Flores Delgado Vector Aleatorio 39

Ejercicio 1.10. Sean X e Y dos variables aleatorias continuas tales que



 1 , x ∈ ] − 1; 1 [ − { 0 } ,
2
f (x) =
X  0, en otro caso;

 1 , − | x | < y < | x |, x ∈ ] − 1; 1 [ − { 0 }.
2|x|
f (y) =
Y |X = x  0; en otro caso.

a) Halle E(X n ), ∀n ∈ N+ .

b) Halle E(Y |X = x), E(Y |X) y E(Y ).

c) Halle E(Y n |X = x), E(Y n |X) y E(Y n ), ∀n ∈ N+ .

Ejercicio 1.11. Sean X e Y dos variables aleatorias continuas con función de densidad
conjunta dada por

 1 , − | x | < y < | x |, x ∈ ] − 1; 1 [ − { 0 },
4|x|
f(x,y) =
X,Y  0, en otro caso.

a) Halle P (X − 1 < Y < X + 1).

b) Halle f (y) y E(Y |X = x), ∀x ∈ ] − 1; 1 [ − { 0 }.


Y |X = x

c) Halle E(X) y E(XY ).

d) Verifique que Cov(X; Y ) = 0, pero estas variables no son independientes.

Ejercicio 1.12. Sea el vector aleatorio mixto (X, Y ) con modelo probabilı́stico conjunto
dado por (
xe−10xy (0,9)x−1, y > 0, x = 1; 2; . . .
f (x,y) =
0; en caso contrario.

a) Determine E(XY ).
Observe que X contribuye a los cálculos con una suma, pero Y con una integral.
Además, escoja el orden de las variables más apropiados para realizar los cálculos
mediante la identificación de modelos probabilı́sticos conocidos.

b) Determine el modelo condicional de Y dado X = x, para x > 0.

c) Halle P (Y > X|X = x) y E(XY |X = x) para x > 0.

d) Determine el modelo marginal de Y .


Emplee la identidad: e−10xy (0,9)x−1 = e−10y q x−1, con q = 0,9e−10y ∈ (0; 1).

39
40 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.13. En el contexto del ejemplo 1.12, halle E(Y |X = x), x > 0, E(Y |X) y E(Y ).

Ejercicio 1.14. Sean X e Y con función de densidad conjunta:


 1 2

 1 e− 2y2 x − 2π y , y > 0, − ∞ < x < ∞,
y
f(x,y) =
X,Y 
0, en otro caso.

a) Halle el modelo condicional de X dado Y = y, para y > 0.

b) Halle E(X|Y = y) y E(XY |Y = y), para y > 0.

c) Halle E(X|Y ) y E(XY |Y ).

d) Halle E(X) y E(XY ).


Ejercicio 1.15. El número de usuarios que llegan a una central telefónica por dı́a, X,
y el número de usuarios que hacen llamadas internacionales, Y, tienen una función de
probabilidad conjunta dada por:
(
x
(0,2)2 (0,8)x−1 x y
y (0,1) (0,9)
x−y ; y = 0, 1, . . . , x; x = 1, 2, . . .
f (x,y) =
0; en otro caso.

a) Determine la probabilidad de que, durante un dı́a, lleguen a lo más tres usuarios y solo
uno haga una llamada internacional.

b) Determine la probabilidad de que, durante un dı́a, a lo más un usuario haga llamadas


internacionales.

c) Halle el número promedio de usuarios que llegan por dı́a.

d) Halle f (10). No necesita hallar f (x), para todo x.


X X

e) ¿Cuál es el número promedio de usuarios que hacen llamadas internacionales, en los


dı́as que solo llegaron 10 usuarios?

f) Halle la esperanza condicional de Y dado X, E(Y | X); y úsela para determinar E(Y ).

Ejercicio 1.16. Sean X e Y dos variables aleatorias cuya función de densidad conjunta es
el producto de las densidades marginales, es decir, f(x,y) = f (x)f (y). Sea T = X + Y.
X,Y X Y

R∞
a) Pruebe que F (t) = f (x)F (t − x)dx. Note que F (t) = P (T ≤ t) = P (X + Y ≤ t).
T X Y T
−∞

R∞
b) Demuestre que f (t) = f (x)f (t − x)dx. Observe que en este caso vale
T X Y
−∞
 
Z∞ Z∞
∂  ∂  
f (x)F (t − x)dx = f (x)F (t − x) dx.
∂t X Y ∂t X Y
−∞ −∞

40
José Flores Delgado Vector Aleatorio 41

Ejercicio 1.17. Se desea hacer inferencias respecto de la proporción, X, de electores que


aprueban la gestión de una autoridad. Por encuestas previas se considera que X ∼ B(2; 8).
Esta información se actualizará, puesto que la autoridad ha realizado acciones para mejorar
su aprobación; ası́, se tomará una muestra de 1000 electores y se registrará la cantidad
de electores, Y , que aprueban la gestión en esta muestra. Por lo tanto, conocido cada
valor x, de X, el modelo de Y debe ser uno binomial, con parámetros 1000 y x; es decir,
Y |X = x ∼ b(1000; x), para x ∈ (0; 1).

a) Antes de tomar la muestra de 1000 electores, ¿cuál era el promedio de la proporción


de electores que estaban de acuerdo con la gestión de la autoridad?

b) Si al tomar la muestra de 1000 electores, resulta que 400 están de acuerdo con la
gestión de la autoridad; actualice la respuesta brindada anteriormente. Previamente
debe obtener el modelo condicional de X dado Y = 400.

c) ¿Puede inferir que la autoridad logró su objetivo?

Ejercicio 1.18. Sean X e Y dos variables aleatorias y A ⊂ R.


a) Demuestre que P (X ∈ A) = E( E(1A(X) |Y ) ).
Tenga presente que P (X ∈ A) = E( 1A(X) ) y use la propiedad E(X) = E(E(X|Y )).

b) Si Y ∼ exp(2) y X|Y = y ∼ exp(y), y > 0; halle P (X > 2). Use el resultado anterior.

Ejercicio 1.19. Sean X e Y dos variables aleatorias continuas e independientes, tales que
f (x) = 0,5 e−0,5 x , ∀x > 0, y f (y) = 31 e− y/3 , ∀y > 0.
X Y

a) Halle P (X + Y > 5).

b) Halle E(X + Y | X = 3).

Ejercicio 1.20. Sean X e Y dos variables continuas e independientes, con E(Y ) = µ.


Demuestre que f = f . Luego Halle E(Y |X = x) y E(Y |X).
Y |X = x Y

Ejercicio 1.21. Considérense las variables aleatorias positivas X e Y con función de


densidad conjunta f(x,y) = 4y 2 e−(x+2)y , x > 0, y > 0.
X,Y

a) Determine el modelo condicional de X dado Y = y, para y > 0.

b) Halle P (X > Y |Y = y), para y > 0.

c) Determine E(XY |Y = y), para y > 0.

d) Determine E(XY |Y ).

e) Halle E(XY ).

41
42 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.22. Sea X una variable aleatoria con distribución B(5, 1). Además, para cada
x valor posible de X, la función de densidad condicional de Y, dado que X = x, está dada
3y 2
por f(y) = 3 , 0 < y < x.
Y|X = x x

a) Halle E(Y |X = x) y E(Y ).

b) Halle E(Y 2 |X = x), E(Y 2 ) y V (Y ).

c) Halle E(XY |X = x), E(XY ) y Cov(X, Y ).

Ejercicio 1.23. La tasa de rentabilidad de la operación A es una variable aleatoria X y la de


5 3y 2
la operación B, Y. Además, E(X m ) = 5+m , ∀m ∈ N+ , y f (y) = 3 , 0 < y < x; ∀x ∈ RX .
Y |X = x x

a) Determine E(Y |X), E(Y 2 |X), E(XY |X), E(X 2 Y |X), E(XY 2 |X) y E(X 2 Y 2 |X).

b) Use una propiedad de la esperanza condicional y los resultados de la parte anterior


para obtener E(Y ), E(Y 2 ), E(XY ), E(X 2 Y ), E(XY 2 ) y E(X 2 Y 2 ).

c) Un capital de 840 u.m. se invierte en A y el capital final resultante se invierte en B.


Halle la media y la varianza del capital final que resulta de estas operaciones.

Ejercicio 1.24. Sean X e Y dos variables aleatorias, X ∼ U(0, 1) e Y ∼ B(2, 1).

a) Halle E(2X + 5Y − 1) y E(X 2 + Y − 2).

b) Si X e Y son independientes, halle E(XY ), E(X 2 Y ) E(X 2 Y 2 ), y V (2X + 5Y − 1).

c) Si X e Y son independientes, halle f y P (X + Y > 1,5).


X,Y

Ejercicio 1.25. Sean X e Y tales que Y ∼ N(0; 2) y X|Y = y ∼ N(y, 2), y ∈ R.

a) Halle E(X|Y = y), E(X|Y ), E(X).

b) Determine E(X 2 |Y = y), E(X 2 ), V (X).

c) Halle E(XY |Y = y), E(XY |Y ); E(XY ).

d) Si fue registrado el valor de X = 0, ¿cuál es ahora el modelo probabilı́stico de Y ?

Ejercicio 1.26. X e Y son tales que Y ∼ B(α; β) y X|Y = y ∼ b(n, y).

a) Halle E(X) y V (X). Emplee la propiedad E(X) = E(E(X|Y )).

b) Halle el modelo condicional conjunto de X e Y.

c) Halle el modelo condicional Y |X = x.

42
José Flores Delgado Vector Aleatorio 43

Ejercicio 1.27. Sean X e Y tales que Y ∼ G(4; 2) y X| Y = y ∼ P (y), ∀y > 0.

a) Halle E(XY ).

b) Halle el modelo condicional de Y | X = x, ∀x ∈ N.

Ejercicio 1.28. Sean X e Y tales que Y ∼ B(2; 1) y X|Y = y ∼ U(0; y), ∀y ∈ (0; 1).

a) Halle P (X + Y ≤ 1).

b) Halle E(XY ), empleando f .


X,Y

c) Obtenga E(X) empleando la propiedad E(X) = E(E(X|Y )).

d) Halle E(X 2 ) empleando la propiedad E(X) = E(E(X|Y )).

e) Halle E(XY ), empleando la propiedad E(X) = E(E(X|Y )).

Ejercicio 1.29. Sean X e Y tales que Y ∼ exp(1/10) e X| Y = y ∼ exp(y), ∀y > 0.

a) Determine E(X| Y = y), E(X 2 | Y = y) y P (X > 4y| Y = y).

b) Halle el modelo condicional de Y | X = x, ∀x > 0.

Ejercicio 1.30. Sean X e Y tales que X ∼ exp(5) e Y|X = x ∼ P (x), ∀x > 0.

a) Determine E(Y |X = x), E(Y 2 |X = x) y E(XY |X = x).

b) Obtenga el modelo condicional de X|Y = y, para y = 0, 1, . . .

Ejercicio 1.31. Sean X e Y tales que Y ∼ G(4; 2) y X| Y = y ∼ G(2; y), ∀y > 0.

a) Halle E(X|Y = y), E(X|Y ) y E(X).

b) Halle E(XY 2 |Y = y), E(XY 2 |Y ) y E(XY 2 ).

c) Halle el modelo condicional de Y |X = x, ∀x > 0.

Ejercicio 1.32. La tasa de rentabilidad de la operación A 2 es una variable aleatoria continua


R1 ∼ B(3; 47) y la de la operación B, R2 ∼ B(2; 48). Estas tasas son independientes. Se
dispone de un capital inicial de 200 unidades monetarias. Determine el valor esperado y la
varianza del capital final resultante, en cada uno de los casos siguientes:

a) se invertirán 125 en la operación A y el resto, en la B;

b) se invertirán las 200 u.m. en A y el capital final que resulte, en la operación B.


2
Nota: Cf = (1 + R)C0 , donde R es la rentabilidad, C0 el capital inicial y Cf , el capital final.

43
44 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.33. Resuelva el ejercicio anterior, si solo se sabe que E(R1 ) = 0,2, E(R2 ) = 0,25,
σR1 = σR2 = 0,1, E(R1 R2 ) = 0,058, E(R12R22 ) = 0,035, E(R12R1 ) = 0,04 y E(R1 R22 ) = 0,05.

Ejercicio 1.34. El número diario de pedidos que recibe una compañı́a es una variable
aleatoria aleatoria discreta N, con media 200 y desviación estándar 10. Cada pedido origina
una ganancia aleatoria, de modo que si la cantidad de pedidos efectuados durante el dı́a fue
n, entonces, el valor esperado de esta ganancia es de 10n. Halle la ganancia total esperada
producto de los pedidos en un dı́a.

Primero exprese los datos dados y lo pedido con las notaciones formales de la teorı́a tratada
en el curso, para esto considere también las variables aleatorias siguientes: Xj : ganancia
originada por el pedido j, para j = 1, 2, . . .

Ejercicio 1.35. El número de unidades vendidas es una variable aleatoria X con valores
posibles { 1; 2; 3 } y modelo probabilı́stico f (x) = x/6. La ganancia promedio es de 6 u.m.,
X
cuando se venden tres unidades, 5 u.m., si se venden solo dos unidades y 1 u.m., si se vende
solo una unidad. Halle la ganancia promedio. Previamente debe expresar los datos dados
con las notaciones usuales, para esto defina Y como la ganancia. Tenga presente el ejemplo
1.19.

Ejercicio 1.36. Un comerciante solo vende el producto A, el 75 % de los dı́as, en estos casos
su utilidad diaria es aleatoria con un media de 6 u.m. y una desviación estándar de 2 u.m.
En el 20 % de los dı́as el comerciante solo vende el producto B, en estos casos su utilidad
diaria también es aleatoria, pero con una media de 10 u.m. y una desviación estándar de 3
u.m. En el restante 5 % de los dı́as el comerciante vende ambos productos, en estos casos
su utilidad diaria es aleatoria, con una media de 20 u.m. y una desviación estándar de 2
u.m. Obtenga el promedio y la desviación estándar de la utilidad diaria de este comerciante.
Tenga presente el ejemplo 1.19.

Ejercicio 1.37. La rentabilidad de la operación A es una variable aleatoria X con


distribución uniforme en (0,1); la rentabilidad de la operación B es una variable aleatoria Y,
que es independiente de X y tiene un modelo probabilı́stico beta con parámetros α = β = 2.
Con la meta de alcanzar un capital de, por lo menos, 400 u.m., un negociante invertirá un
capital de 300 u.m. de la manera siguiente: 100 u.m. en A y 200 u.m. en B.

a) ¿Cuál es el valor esperado de su capital final?

b) ¿Cuál es la desviación estándar de su capital final?

c) Halle la covarianza entre la rentabilidad de A y el capital final.

d) Determine el modelo probabilı́stico conjunto de X e Y .

e) Cuantifique el riesgo que corre el negociante.

44
José Flores Delgado Vector Aleatorio 45

Ejercicio 1.38. Sean X e Y dos variables aleatorias. Demuestre que

Cov(a + bX, c + dY ) = bdCov(X, Y ).

Use la definición y no emplee otras propiedades de la covarianza.

Ejercicio 1.39. Demuestre que ρa + bX, c + dY = ρX, Y , con b > 0 y d > 0. Use el resultado
del ejercicio 1.38 y las propiedades básicas de la varianza. Diga, informalmente, por qué no
sorprende este resultado.

Ejercicio 1.40. Sean X1 , . . . , X100 variables aleatorias independientes con media cero y
desviación estándar 1. Sea Sn = X1 + 2X2 + . . . , + nXn , para cada n = 1, . . . , 100.

a) Halle la media y la varianza de Sn .

b) Halle la covarianza entre Sn y Xn .

c) Halle la covarianza entre S20 y S23 .

Ejercicio 1.41. El precio unitario del bien A es una variable aleatoria con media 10 u.m. y
desviación estándar 2 u.m.; y el precio del bien B es una variable aleatoria con media 9 u.m.
y desviación estándar 1 u.m. Además, el coeficiente de correlación entre estos precios es de
0,8. Una canasta está formada por tres unidades de A y 5 unidades de B.

a) ¿Cuál es la información que proporciona este coeficiente de correlación?

b) Halle la media y la varianza del costo de esta canasta.

c) El precio del bien C es una variable aleatoria con media 5 u.m. y desviación estándar
1 u.m. El coeficiente de correlación entre los precios de A y de C es de 0.2 y el
correspondiente a los precios de B y de C, de 0.7. Otra canasta consta de seis unidades
de A, dos de B y tres de C. Halle la covarianza entre los costos de estas dos canastas.

Ejercicio 1.42. Sea X una variable aleatoria continua, cuyo modelo probabilı́stico está dado
por f (x) = 21 , ∀ x ∈ RX = [ −1; 1]. Considérese también una variable aleatoria Y tal que
X
E(Y |X) = 0, E(Y 2 |X) = X 2 , E(Y 3 |X) = 0 y E(Y 4 |X) = 95 X 4 . Halle E(Y 4 ) y E(X 2 Y 2 ).

Ejercicio 1.43. Una persona consume los bienes A y B, en cantidades aleatorias X e Y ,


respectivamente. El consumo de B, tiene una media de 25 unidades y una desviación estándar
de 5 unidades. Además, conocido el consumo de B, digamos y, el de A tiene un modelo
binomial con parámetros n = y y p = 0,25.

a) Obtenga E(X|Y = y) y E(X|Y ). Luego determine el consumo promedio de A.

b) Halle E(X 2 |Y = y), E(X 2 |Y ), E(X 2 ) y la varianza de la cantidad consumida de A.

c) Halle E(XY |Y = y), E(XY |Y ) y E(XY ). Luego obtenga la covarianza entre X e Y.

45
46 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.44. Sean X, Y, Z, U, V y W variables independientes, con medias iguales a


cero y varianzas finitas.
a) Determine E(5 − X + Y − 4Z − UV + XW ),

b) Halle Cov(10 + 2X − 3Y + Z, 20 + 5XZ + 4W U − UV W ).

Ejercicio 1.45. Sean X e Y dos variables aleatorias tales que E(X) = 20, V (X) =
9, E(Y ) = 10, V (Y ) = 1 y Cov(X,Y ) = 3. La utilidad de venta 1 está dado por 4X − 2Y,
mientras que la de la venta 2 está dado por 7 + 3X + 5Y.
a) Halle el valor esperado y la varianza de la utilidad de la venta 1.

b) Halle la covarianza de estas utilidades.

Ejercicio 1.46. El ingreso anual neto, en cierta unidad monetaria (u.m.), está dado por
10 + 0,9X + 0,8Y + 0,7Z, con X, Y y Z variables aleatorias tales que E(X) = 1, V (X) =
4, E(Y ) = 2, V (Y ) = 1, E(Z) = 3, V (Z) = 9, ρ = 0,8, ρ = 0,2, Y y Z son independientes.
X,Y X,Z
Halle el valor esperado y la varianza del ingreso anual neto.

Ejercicio 1.47. Sean X1 , . . . , Xn variables aleatorias independientes. Se definen las variables


aleatorias X(1) y X(n) , como el mı́nimo y máximo, respectivamente, de las variables anteriores;
es decir, X(1) = min{X1 , . . . , Xn } y X(n) = max{X1 , . . . , Xn }.
a) Demuestre que F (x) = F (x) . . . F (x).
X(n) X1 Xn

b) Demuestre que F (x) = 1 − [ 1 − F (x) ] . . . [ 1 − F (x) ].


X(1) X1 Xn

c) Si X1 , . . . , Xn son idénticamente distribuidas, demuestre que F (x) = F n(x).


X(n) X1

d) Si X1 , . . . , Xn son idénticamente distribuidas, demuestre que F (x) = 1 − [ 1 − F (x) ]n .


X(1) X1

Ejercicio 1.48. Sean X1 , . . . , Xn variables aleatorias independientes.


a) Si X1 ∼ exp(beta), demuestre que X(1) ∼ exp(nβ). Use el ejercicio 1.47d.

b) Si X1 ∼ W (α; β), demuestre que X(1) ∼ W (α; nβ). Use el ejercicio 1.47d.

c) El modelo probabilı́stico Weibull potenciado (W p), Mudholkar G. y Srivastava


α γ
D. (1993)3, tiene función de distribución acumulada F (x) = (1 − e−β x ) , x > 0;
α > 0, β > 0, γ > 0. Si X1 ∼ W (α; β; γ), demuestre que X(n) ∼ W p(nα; β; nγ). Use el
ejercicio 1.47c.

d) El modelo probabilı́stico exponencial generalizado (expg), Gupta y Kundu (1999)4 ,


tiene como función de distribución acumulada F (x) = (1 − e−β x )α , x > 0; α > 0, β > 0.
Si X1 ∼ expg(α; β), demuestre que X(n) ∼ expg(nα; β). Use el ejercicio 1.47c.
3
Mudholkar G.S. y Srivastava D.K. Exponentiated Weibull family for analyzing bathtub failure rate data.
IEEE Transactions on Reliability, 41 :299-302, 1993.
4
Gupta and Kundu. Theory and methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2):173-188, 1999.

46
José Flores Delgado Vector Aleatorio 47

Ejercicio 1.49. El problema que se describe a continuación es un caso particular de la teorı́a


propuesta en Cooner et al. (2007) 5 . El objetivo general es describir y modelar el tiempo hasta
la ocurrencia de algún evento de interés, E.

El número de factores de riesgo latentes, que podrı́an originar la ocurrencia del evento E, es
una variable aleatoria discreta positiva, N, con distribución geométrica con parámetro 0,2,
es decir,
fN (n) = 0,2(0,8)n−1 , n = 1, 2, . . .
Para cada n ∈ { 1, 2, . . . }, sea Tn el tiempo de activación del factor de riesgo n (es decir, el
tiempo que transcurre hasta que se presente este factor de riesgo). Estos tiempos T1 , T2 , . . .
son variables aleatorias independientes e independientes de N y cada Ti tiene distribución
exponencial con parámetro 2, es decir,

FT (t) = 1 − e−2 t , t > 0.


i

Además, el evento de interés, E, ocurre en el instante que se activa el último factor de riesgo;
es decir, si T es el tiempo hasta la ocurrencia del evento E; entonces, se cumple que

T := máximo { T1 , . . . , TN }.

Con esta información determine el modelo probabilı́stico de T . Siga los pasos siguientes:

a) Use el ejercicio 1.47c y el principio de sustitución para determinar F (t), t > 0.


T |N = n

b) Determine f(t), t > 0. Tenga en cuenta que T es continua.


T |N = n

c) Determine f (n,t), n ∈
N,T
N+, t > 0. Use la regla del producto y los resultados de a y b.
d) Determine f (t), t > 0. Use el resultado anterior y tenga en cuenta que N es discreta.
T

Ejercicio 1.50. Resuelva el ejercicio 1.49, pero ahora asuma que N siga una distribución
1 4n
de Poisson truncada con parámetro 4, es decir, que fN (n) = 4 , n = 1, 2, . . .
e − 1 n!
Ejercicio 1.51. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W (2; 5).

Ejercicio 1.52. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W p(2; 5; 3) (vea el
ejercicio 1.48c).

Ejercicio 1.53. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ expg(2; 5; 3) (vea
el ejercicio 1.48d).

Ejercicio 1.54. Resuelva el ejercicio 1.49 considerando ahora que T = mı́nimo{ T1 , . . . , TN }.

Ejercicio 1.55. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
y T1 ∼ W (2; 5).
5
Cooner, F., Banerjee, S., Carlin, B.P. and Sinha, D. Flexible cure rate modeling under latent activation
schemes. Journal of the American Statistical Association 102(478), 560–572.

47
48 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.56. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
y T1 ∼ W p(2; 5; 3) (vea el ejercicio 1.48c).

Ejercicio 1.57. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
T1 ∼ expg(2; 5; 3) (vea el ejercicio 1.48d).

Ejercicio 1.58. Sean W, X, Y y Z variables aleatorias independientes con media cero y


varianza 1.

a) Halle E(2W + ZX 2 Y − 5W 2 Z).

b) Halle V (2W + ZXY − 5W Z).

Ejercicio 1.59. Sean X1 , . . . ,Xn variables aleatorias independientes e idénticamente


distribuidas, tales que E(X1 ) = 0, E(X12 ) = m2 , E(X13 ) = m3 y E(X14 ) = m4 . Determine

P
n P
n
a) V (X12 ); b) V ( Xi2 ); c) V ( X1 Xj );
i=2 j=2

P
n P
n P
n P
n
d) Cov(X12 ; Xi2 ); e) Cov(X12; X1 Xj ); f) Cov( Xi2 ; X1 Xj );
i=2 j=2 i=2 j=2

P
n P
n P
n P
n
g) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = nX12 + Xi2 − 2 X1 Xj ;
j=2 j=2 i=2 j=2

P
n P
n P
n
h) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = (X1 − Xj )2 ;
j=1 j=1 j=2

P
n
i) V ( (Xi − Xj )2 ), para i = 1, . . . ,n;
j=1

P
n P
n−1
j) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=2 l=1

P
n P
n
k) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=1 l=1

P
n P
n
l) Cov( (Xi − Xj )2 , (Xk − Xl )2 ); para i,k = 1, . . . ,n, con i < k.
j=1 l=1

P
n P
n
n−3
m) V ( (Xi − Xj )2 ). Respuesta: 4n(n − 1)2 [m4 − n−1
m22 ].
i=1 j=1
P
n P
n P
n P
n PP
Sugerencia. V ( (Xi − Xj )2 ) = V ( Yi ) = V (Yi ) + 2 Cov(Yi ,Yk ), donde
i=1 j=1 i=1 i=1 i<k
P
n
Yi = (Xi − Xj )2 , para i = 1, . . . ,n.
j=1

Ejercicio 1.60. Sean X1 , . . . ,Xn variables aleatorias independientes e idénticamente


distribuidas con E(X1 ) = µ, E(X1 − µ)2 = σ 2 , E(X1 − µ)3 = m′3 y E(X1 − µ)4 = m′4 .
Pn Pn
Determine V ( (Xi − Xj )2 ). Sugerencia: use el resultado del ejercicio anterior para las
i=1 j=1
n−3
variables Y1 = X1 − µ, . . . , Yn = Xn − µ. Respuesta: 4n(n − 1)2 [m′4 − n−1
σ 4 ].

48
José Flores Delgado Vector Aleatorio 49

Ejercicio 1.61. Sean X1 , . . . , Xn variables aleatorias independientes, cada una tiene la


misma media µ y la misma varianza σ 2 . Halle cov(X1 , X̄) y cov(Xj − X̄, X̄).

Ejercicio 1.62. Si X e Y son dos variables independientes, halle cov(X + Y, X − Y ).

Ejercicio 1.63. Sea (X,Y )t ∼ N2 (1; 2; 1; 1; 0).


a) Halle µ y Σ el vector de medias y la matriz de varianzas-covarianzas del vector (X,Y )t .

b) Sean U = 1 + 2X − 3Y, V = X + Y y W = X − Y. Halle el vector de medias y la


matriz de varianzas-covarianzas del vector (U,V,W )t . Emplee la propiedad: el vector
Ym×1 = Am×1 + Bm×n X n×1 tiene un vector de medias µY = A + BµX y una matriz
de varianzas-covarianzas ΣY = AΣX Bt .

Ejercicio 1.64. Un fabricante debe adquirir una cantidad X del bien A y una cantidad Y
del bien B. Las matrices de medias y de varianzas-covarianzas del vector (X,Y )t son
 
36 192
!
9  25 125 
 
µ= y Σ= .
5  192 64 
125 25
El fabricante recibe las ofertas de dos comerciantes de estos bienes: c1 , que ofrece el bien
A a 4 u.m. por unidad y el bien B a 7 u.m., y c2 , que ofrece el bien A a 3 u.m. por unidad
y el bien B a 8 u.m. Además de estos precios, se debe sumar el costo fijo que origina cada
oferta: 5 u.m., la de c1 , y 4 u.m. la de c2 . El comerciante se enfrenta con este problema en
muchas oportunidades, bajo las mismas condiciones. Responda las preguntas siguientes que
se formula el comerciante: (i) por cuál de las ofertas optar, (ii) cuál de la ofertas origina un
costo menos variable, (iii) la covarianza entre los costos de las dos ofertas.
Responda con y sin la propiedad dada en la sección 1.10.

Ejercicio 1.65. En el ejercicio 1.64, suponga que (X, Y )t es un vector aleatorio cuya
distribución conjunta es normal bivariable. Halle la probabilidad de que el costo total de
la oferta de c1 no pase de 30 u.m., si se sabe que debe adquirir 5 unidades de A.

Ejercicio 1.66. Sea (X, Y )t un vector aleatorio cuya distribución conjunta es normal
bivariable, cuyas matrices de medias y de varianzas-covarianzas son, respectivamente,
 
! 225 96
15  
µ= y Σ= .
20
96 64
a) Halle el vector de medias y la matriz de varianzas-covarianzas del vector (2X, 3Y )t .
b) Sean U = 2X + 3Y y V = X + Y. Halle el vector de medias y la matriz de varianzas-
covarianzas del vector (U, V )t . Emplee la propiedad 1.10.
c) Demuestre que el vector (U, V )t tiene distribución normal bivariable. Use la propiedad
5 de la normal bivariable.

d) Halle P (X + Y ≤ 50 |X = 25).

49
50 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.67. Los ingresos brutos mensuales de una familia provienen de tres rubros que
dan las siguientes cantidades (en cierta unidad monetaria): X, Y y Z. El ingreso neto mensual
de esta familia está dado por I = 0,9X +0,8Y +0,7Z −40. La distribución conjunta del vector
(X, Y, Z)t es normal multivariada con las matrices de medias y de varianzas-covarianzas:
   
40 4 −8 0
   
µ =  60  y Σ =  −8 25 0 
80 0 0 36

a) Halle la media del ingreso neto mensual de esta familia.

b) Halle la varianza del ingreso neto mensual de esta familia.

c) Determine la probabilidad de que el ingreso neto mensual de esta familia esté entre 95
y 110 unidades monetarias, es decir, P (95 ≤ I ≤ 110).

d) El ahorro mensual de esta familia es S = 0,1X − 0,2Y + Z − 30. Halle la covarianza


entre el ahorro mensual y el ingreso neto mensual de esta familia, es decir, Cov(I, S).

Ejercicio 1.68. Sean ǫ1, . . . , ǫn, variables aleatorias tales que


E(ǫj ) = 0, para j = 1, . . . , n.
V (ǫj ) = σ 2 , para j = 1, . . . , n.
y Cov(ǫi , ǫj ) = 0, ∀i 6= j.

Dadas las constantes conocidas x1 , . . . , xn , se considera el modelo de regresión lineal simple6 :

Yj = βxj + ǫj , para j = 1, . . . , n,

donde β es una constante desconocida que se estima por


n
X xj
β̂ = bj Yj , donde bj = Pn , para j = 1, . . . , n.
j=1 x2i
a) Halle E(Yj ), para j = 1, . . . n. i=1

b) Halle V (Yj ), para j = 1, . . . n.

c) Halle Cov(Yi , Yj ), i 6= j.

d) Halle E(β̂).

e) Halle V (β̂).

f) Halle Cov(Yi , β̂), para i = 1, . . . , n.

g) Halle la varianza de Ȳ .
6
En los capı́tulos siguientes se estudiará con más detalle este modelo usado en muchas áreas y
especialidades como, por ejemplo, econometrı́a.

50
José Flores Delgado Vector Aleatorio 51

Ejercicio 1.69. Sean ǫ1 , . . . , ǫn, variables aleatorias tales que


E(ǫj ) = 0, para j = 1, . . . , n.
V (ǫ j ) = σ 2 , para j = 1, . . . , n.
y Cov(ǫi , ǫj ) = 0, ∀i 6= j.

Sean α y β, parámetros para estimar, y las constantes conocidas siguientes: x1 , . . . , xn .


Considere el modelo de regresión lineal dado por

Yj = α + βxj + ǫj , para j = 1, . . . , n.

Como estimadores de los parámetros se proponen los siguientes:


P
n xj − X̄
β̂ = bj Yj , donde bj = P
n , para j = 1, . . . , n.
j=1
(xi − X̄)2
i=1

P
n 1
α̂ = aj Yj , donde aj = − bj X̄ , para j = 1, . . . , n.
j=1 n

Como pronóstico de Yj se propone a Ŷj = α̂ + β̂xj , j = 1, . . . , n.

a) Halle E(Yj ), para j = 1, . . . , n.

b) Halle V (Yj ), para j = 1, . . . , n.

c) Uno de los argumentos usados para escoger estos estimadores fue el siguiente:

✭✭En promedio, el valor del estimador coincide con el valor del parámetro que estima✮✮.
¿Es válido este argumento? Justifique con la teorı́a tratada en este capı́tulo.

d) Halle Cov(Yi , Yj ), ∀i 6= j.

e) Use los resultados de las partes anteriores para hallar V (β̂) y V (α̂).

f) Halle Cov(α̂, β̂).

g) Halle Cov(Yk , β̂), para k = 1, . . . , n.

h) Halle la media Ŷj , para j = 1, . . . , n.

i) Halle la media y la varianza de Yj − Ŷj , para j = 1, . . . , n.

j) Use los resultados de las partes anteriores para hallar V (Ŷj ).

Ejercicio 1.70. En el ejercicio 1.68, sea α̂1 = Ȳ /X̄.

a) Halle E(α̂1 ) y V (α̂1 ).

b) Si Yˆj = α̂1 + β̂xj , j = 1, . . . , n, halle E(Yˆj ) y V (Yˆj ).

51
52 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.71. En el ejercicio 1.68, considere que para k ∈ { 1, . . . , n } se define Ŷk =


Pn xk xj
cj Yj , donde cj = P
n , j = 1, . . . , n. Determine expresiones simplificadas para
j=1 2
xi
i=1

a) E(Ŷk ), para k = 1, . . . , n.

b) V (Ŷk ), para k = 1, . . . , n.

c) Cov(Yk , Ŷk ), para k = 1, . . . , n.

d) V (Yk − Ŷk ), para k = 1, . . . , n.

e) E(Yk − Ŷk )2 , para k = 1, . . . , n.


Pn
(Yk − Ŷk )2
f) E( c
σ 2 ), si c
σ 2 = k=1 .
n−1
Ejercicio 1.72. En el ejercicio 1.69 considere que para cada k ∈ { 1, . . . , n } :
n
X 1 (xk − X̄)
Ŷk = cj Yj , donde cj = + P
n (xj − X̄) , para j = 1, . . . , n.
n 2
j=1 (xi − X̄)
i=1
Determine expresiones simplificadas para
Pn P
n
a) E(Ŷk ), para k = 1, . . . , n. Verifique las identidades cj = 1 y cj xj = xk .
j=1 j=1
P 2 1
n
(xk −X̄)2
b) V (Ŷk ), para k = 1, . . . , n. Verifique la identidad cj = n + Pn .
j=1 (xi −X̄)2
i=1
c) Cov(Yk , Ŷk ), para k = 1, . . . , n.
d) V (Yk − Ŷk ), para k = 1, . . . , n.
e) E(Yk − Ŷk )2 para k = 1, . . . , n.
P
n
(Yk −Ŷk )2
f) E( c
σ 2 ), donde c
σ2 = k=1
n−2
.

g) Demuestre que Ŷj = α̂ + β̂xj , j = 1, . . . , n, donde α̂ y β̂ son como el ejercicio anterior.

Ejercicio 1.73. En el modelo de regresión lineal con intercepto, dado en el ejercicio 1.69,
para cada k = 1, . . . , n, se definen Ŷk := α̂ + β̂xk (el valor ajustado de Yk o estimación del
valor promedio de Yk ) y ǫˆk := Yk − Ŷk (el residuo).

a) Halle E(Ŷk ), k = 1, . . . , n.

b) Halle la covarianza entre α̂ y β̂.

c) Halle V (Ŷk ), k = 1, . . . , n.

d) Halle Cov(Yk ; Ŷk ), k = 1, . . . , n.

e) Halle E(ǫˆk ), k = 1, . . . , n.
f) Halle V (ǫˆj ), j = 1, . . . , n. P
n

j=1
ǫ̂ j
2

g) Halle E(σ̂ 2 ), donde σ̂ 2 = n−2


.

52
José Flores Delgado Vector Aleatorio 53

Ejercicio 1.74. El modelo de regresión con intercepto, dado en el ejercicio 1.69, puede ser
escrito matricialmente como Y = Xβ + ǫ, donde Y = ( Yi )n×1 , X = ( 1, xi )n×2 , β = (α, β)t
y ǫ = ( ǫi )n×1 .
a) Halle el vector de medias y la matriz de varianzas-covarianzas de ǫ.
b) Halle el vector de medias y la matriz de varianzas-covarianzas del vector Y , a partir
del resultado anterior.
−1
c) El estimador usal de β = (α̂; β̂)t se puede expresar como β̂ = X ′ X X ′ Y . A partir
de esto, halle el vector de medias y la matriz de varianzas-covarianzas de β̂.
d) Si Ŷ = X β̂, halle su vector de medias y su matriz de varianzas-covarianzas.
−1
Observe que Ŷ = X X ′ X X ′ Y .

e) Si ǫ̂ = Y − X β̂, halle su vector de medias y su matriz de varianzas-covarianzas.


−1 
Observe que ǫ̂ = I − X X ′ X X ′ Y .

Ejercicio 1.75. Considere el ✭✭modelo de regresión múltiple✮✮ definido como

Yn×1 = Xn×k β k×1 + ǫ n×1 ,

ǫ
donde n×1 es un vector aleatorio con vector de medias nulo y matriz de varianza covarianza
σ 2 In×n , donde In×n es la matriz identidad de orden n,

β k×1 es un vector columna de constantes



y Xn×k una matriz no aleatoria de valores conocidos y tal que det Xt X =6 0.
−1
Sea el vector aleatorio β̂ k×1 = Xt X Xt Y y defina ǫ̂ n×1 como ǫ̂ = Y − X β̂ .
a) Halle el vector de medias de Y .
b) Halle la matriz de varianzas-covarianzas de Y .

c) Halle el vector de medias de ǫ̂ n×1 .

d) Halle la matriz de varianzas-covarianzas de ǫ̂ n×1 .

e) Halle la distribución de ǫ̂ n×1 .

f) Halle el vector de medias de β̂ k×1.


g) Halle la matriz de varianza-covarianzas de β̂ k×1.
Ejercicio 1.76. Dadas las variables X e Y del ejercicio 1.6, sean W = X y Z = Y /X. Use la
técnica de cambio de variable ilustrada en el ejemplo 1.27 para hallar la función de densidad
conjunta de las variables W y Z, luego determine la función de densidad de Z.

Ejercicio 1.77. Sean X e Y dos variables aleatorias independientes, con X ∼ G(α,1) e


X
Y ∼ G(β,1). Halle e identifique la distribución de V = X+Y .
X
Use el método del jacobiano para las variables transformadas V = X+Y
y W = X.

53
54 José Flores Delgado Estadı́stica inferencial

Ejercicio 1.78. Un cliente entra a una agencia de un banco. El tiempo que permanece
un cliente en la cola de un banco es una variable aleatoria X y el tiempo que este cliente
permanece en la ventanilla de atención es una variable aleatoria Y. Las variables anteriores
son independientes y tienen distribución exponencial de parámetro β. Obtenga la distribución
X
de W = X+Y (la proporción del tiempo que permanece en la cola, respecto al tiempo total
de permanencia en la agencia)7 . Use el procedimiento para transformaciones descrito en la
sección 1.13, con una de las variables W y la otra Z = Y.

Ejercicio 1.79. Se dice que una variable aleatoria, X, tiene distribución Ji-cuadrado, con
N
parámetro ν, si X ∼ G(ν/2; 1/2), donde ν ∈ + ; se denota esto por X ∼ χ2 (ν). Por otra
parte, la distribución t de student corresponde a la función de densidad

Γ( ν+1
2
)
f (x) = √ x2 ν+1
, − ∞ < x < ∞,
πν Γ( ν2 )(1 + ν
) 2

donde ν > 0, es el parámetro de la distribución. Si X tiene esta densidad se dice que X tiene
distribución t de student con ν grados de libertad, se denota por X ∼ t(ν).
Sean Z y W dos variables aleatorias independientes, Z ∼ N(0,1) y W ∼ χ2 (ν). Sea la
variable
Z
T =r ,
W
ν
demuestre que T ∼ t(ν). Primero use el método del jacobiano para hallar la función de
densidad conjunta de las variables transformadas U = W y T , a partir de la correspondiente
a Z y W.

Ejercicio 1.80. La distribución F de Fisher corresponde a la función de densidad


ν1 ν1
ν1 +ν2
Γ( 2
)(ν1 /ν2 ) 2 x 2 −1
f (x) = ν ν ν1 +ν2 , x > 0.
Γ( 21 )Γ( 21 )(1 + (ν1 /ν2 )x) 2

donde ν > 0, es el parámetro de la distribución. Si X tiene esta densidad se dice que X


tiene distribución F con ν1 grados de libertad en el numerador y ν2 grados de libertad
en el denominador, se denota por X ∼ F (ν1 , ν2 ). Sean U e W dos variables aleatorias
independientes, U ∼ χ2 (ν1 ) y W ∼ χ2 (ν2 ). Sea la variable

U/ν1
F = ,
W/ν2

demuestre que F ∼ F (ν1 ; ν2 ). Primero use el método del jacobiano para hallar la función
de densidad conjunta de las variables transformadas U y F , a partir de la correspondiente a
U y W.

7
Este ejercicio es una adaptación de un problema clásico en confiabilidad. Véase Devore y Berk, pág. 263,
2007.

54
2. Inferencia estadı́stica

2.1. Introducción

Inferencia significa obtener una consecuencia a partir de ciertas observaciones. Hacer


inferencias es la labor más importante de la estadı́stica y consiste en deducir algo sobre
determinada población, a partir de solamente una muestra. Claramente no se puede
garantizar que las deducciones que se hagan de este modo sean válidas; ası́, lo que se hace
es dar ciertos márgenes de error y niveles de confianza para tales deducciones o inferencias.
Es importante mencionar que existen dos enfoques de inferencia estadı́stica, el clásico y el
bayesiano. Nosotros trataremos los conceptos de estimación y contraste o prueba de hipótesis
paramétricos desde el enfoque clásico.

Ejemplo 2.1. Para averiguar la proporción, p, de electores que aprueban la gestión de una
autoridad municipal se elige una muestra de 500 electores y a partir de sus opiniones se
estimará la proporción de interés.

Definición 2.1. (Muestra) Las observaciones que se tendrán para realizar las inferencias se
denominan la muestra y las denotaremos por X1 , . . . , Xn , con n el número de observaciones
disponibles o tamaño de muestra.

Observación 2.1. Podemos decir que antes de registrar los valores de la muestra, se planifica
para obtener inferencias confiables y esto se consigue al aplicar la teorı́a de probabilidades
con las variables aleatorias que integran la muestra. Después de registrar estos valores se
lleva a cabo lo planificado para obtener las inferencias, pero estos valores ya son conocidos
(por lo tanto, no son variables aleatorias).

Definición 2.2. Si en la muestra las variables aleatorias, X1 , . . . , Xn , son independientes y


tienen la misma distribución que la variable X, decimos que se trata de una muestra aleatoria
simple de X (o, brevemente, una muestra aleatoria de X).

Observación 2.2. En la práctica, estas variables se generan efectuando n mediciones de una


variable X, en n oportunidades o sujetos elegidos al azar. Estas mediciones u observaciones
son desconocidas antes de proceder a escoger las n oportunidades, sujetos u objetos, sobre
los cuales se medirá la variable; ası́, podemos considerarla como una variable aleatoria;
además con una distribución como la de X, pues asumimos condiciones similares en las
mediciones; tampoco hay razón para pensar que una medición influya sobre la otra, de este
modo, asumimos también que las variables son independientes. A X la podemos denominar
la variable de la población, pues de esta se registrará una muestra.

55
56 José Flores Delgado Estadı́stica inferencial

Observación 2.3. Si X1 , . . . , Xn es una muestra aleatoria simple, podemos deducir, entre


otras, las propiedades siguientes:

a) La función de distribución conjunta de X1 , . . . , Xn está dada por

f (x1 , . . . , xn ) = f (x1 ) . . . f (xn )


X1 , . . . , Xn X1 Xn

= f (x1 ) . . . f (xn )
X X

b) Cualquier resumen de una variable de la muestra (probabilidad, esperanza, varianza,


etcétera) es el mismo que el correspondiente para X, por ejemplo:
∀A ∈ R : P (Xj ∈ A) = P (X ∈ A), j = 1, . . . ,n;
E(Xj ) = E(X), j = 1, . . . ,n;
para cualquier función g de R en R : E(g(Xj )) = E(g(X)), j = 1, . . . ,n;
y V (Xj ) = V (X), j = 1, . . . ,n.

Ejemplo 2.2. En el ejemplo 2.1, en el que se quiere averiguar la proporción, p, de electores


que aprueban la gestión de la autoridad, se tomará una muestra aleatoria de 500 electores y se
registrará si aprueba (1) o desaprueba (0). La muestra aleatoria la integrarán X1 , . . . , X500 ,
con Xj = 1, si el j-ésimo elector seleccionado en la muestra aprueba la gestión, y Xj = 0, si
no la aprueba (para j = 1, . . . , 500). Estas variables son aleatorias independientes y tienen
el mismo modelo probabilı́stico. Estas caracterı́sticas las debe tener toda muestra aleatoria
simple: sus valores no pueden predecirse con certeza, un resultado no influye sobre otros y
la probabilidad de que cualquier elector apruebe la gestión es la misma (es decir, p). Ası́,
cada una de estas variables sigue un modelo probabilı́stico de Bernoulli b(1; p) y podemos
considerar que la variable de la población sea X (la respuesta de un elector), con X ∼ b(1; p).
La función de distribución conjunta de X1 , . . . , Xn está dada por
f (x1 , . . . , x500 ) = f (x1 ) . . . f (x500 )
X1 , . . . , X500 X1 X500

= f (x1 ) . . . f (x500 )
X X
x1 1−x1
= p (1 − p) . . . px500 (1 − p)1−x500
P
500 P
500
xj 500− xj
= p j=1
(1 − p) j=1
, xj ∈ { 0; 1 }.

Ejemplo 2.3. Se quiere averiguar si el tiempo promedio, µ, que necesitan los operarios
para llevar a cabo cierta tarea de un proceso de producción es el debido. Para este fin se
tomará una muestra aleatoria de 36 empleados adiestrados y se medirán los tiempos que
estos tardan en realizar la tarea. La muestra la integrarán X1 , . . . , X36 , con Xj el tiempo
que tardará el j-ésimo empleado seleccionado en la muestra. Por ser una muestra aleatoria
estas variables son aleatorias independientes y tienen el mismo modelo probabilı́stico (esto
es razonable, pues sus valores no pueden predecirse con certeza, un resultado no debe influir
sobre otros y porque los empleados han sido adiestrados para realizar la tarea).
Para aplicar la teorı́a de inferencia estadı́stica (paramétrica) se necesita asumir un modelo

56
José Flores Delgado Inferencia estadı́stica 57

probabilı́stico para estas variables, en este caso puede ser uno normal con media µ y
desviación estándar σ. De este modo, la variable de interés o de la población X puede
considerarse como el tiempo para llevar a cabo la tarea y se tiene que X ∼ N(µ; σ 2 ). Por
lo tanto la función de distribución conjunta de X1 , . . . , Xn está dada por

f (x1 , . . . , x36 ) = f (x1 ) . . . f (x36 )


X1 , . . . , X36 X1 X36

= f (x1 ) . . . f (x36 )
X X
(x −µ)2 (x36 −µ)2
− 1 2
= √1
2π σ
e 2σ ... √1
2π σ
e− 2 σ2

X
36
− 2 1σ 2
R.
(xj − µ)2
1
= ( √ 2π σ
)n e j=1 , xj ∈

Definición 2.3. (Parámetro) Un parámetro es una cantidad, θ ∈ k , que puede asumir R


R
valores en un conjunto Θ ⊂ k (denominado espacio paramétrico), y está relacionado con
la distribución de probabilidades (o modelo probabilı́stico) de las observaciones): fX , . . . , X .
1 n

Ejemplo 2.4. En el ejemplo 2.1, el parámetro de interés es p : la proporción de electores


que aprueban la gestión; en el ejemplo 2.3 µ : el tiempo promedio para llevar a cabo la tarea.

La tabla siguiente muestra los parámetros prinicipales:

Parámetro Notación Definición Descripción


Media µ E(X) Media de X
Varianza σ2 V (X) Varianza de X
p
Desviación estándar σ V (X) Desviación estándar de X
Proporción p P (X ∈ A) Proporción de veces que X ∈ A

Definición 2.4. Una estadı́stica es cualquier resumen basado en la muestra, o sea,


cualquier función g(X1 , . . . , Xn) de las variables de la muestra que carece de parámetros
desconocidos.

Observación 2.4. Recuerde las frases siguientes: ✭✭las estadı́sticas demuestran que . . . ✮✮,
✭✭las estadı́sticas no mienten✮✮, etc.

Ejemplo 2.5. Si X1 , . . . , Xn es una muestra aleatoria, son estadı́sticas, entre otras:


P
n
Xj
j=1
a) X̄ = n
: la media aritmética de las observaciones.

b) X(1) = mı́n(X1 , . . . , Xn) : el menor valor observado.

c) X(n) = máx(X1 , . . . , Xn ) : el mayor valor observado.

d) X1 : el primer valor observado.

e) Xn : el último valor observado.

57
58 José Flores Delgado Estadı́stica inferencial

P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
: la varianza de la muestra.
El denominador n − 1 en lugar de n es para obtener mejores estimaciones.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
: la desviación estándar de la muestra.

h) Me : la mediana de los valores de la muestra.

i) P25 : el percentil 25 de la muestra.

j) P75 : el percentil 75 de la muestra.

1
P
n
k) p̄ = n
1A(Xj ) : la proporción de valores de la muestra que asumen valores en A.
j=1
Aquı́ 1A(·) es la función indicadora de A; es decir, 1A(x) = 1, si x ∈ A, y 1A(x) = 0, si
x 6∈ A.

Ejemplo 2.6. En el ejemplo 2.3, para obtener inferencias sobre el tiempo promedio, µ,
que necesitan los operarios para llevar a cabo la tarea, se registró la muestra siguiente
correspondiente a los tiempos (en minutos) de 36 empleados (elegidos al azar y que recibieron
el mismo adiestramiento para realizar la misma tarea):

47,00 37,22 52,44 62,76 61,98 67,33 28,16 47,66 60,95


39,13 43,10 33,10 31,53 40,22 42,26 28,82 44,32 45,96
51,35 46,35 46,73 46,30 63,43 49,15 48,14 44,87 69,72
58,66 73,76 43,45 66,61 33,88 55,39 59,02 69,19 49,26

Entonces, podemos obtener las principales estadı́sticas de estos datos por medio del Excel,
la secuencia para esto es: Herramientas → Análisis de datos → Estadı́stica descriptiva.
Ası́ obtenemos los valores de algunas estadı́sticas:
P
n
Xj
j=1
a) X̄ = n
= 49,7.

b) X(1) = mı́n(X1 , . . . Xn ) = 28,16.

c) X(n) = máx(X1 , . . . Xn ) = 73,76.

d) X1 = 47.

e) Xn = 49,26.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
= 147,5998.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
= 12,1491.

h) Me = 47,33.

58
José Flores Delgado Inferencia estadı́stica 59

i) P25 = 42,26.

j) P75 = 60,95.

1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : la proporción de veces que es necesario más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea (para esto último se ha usado la función del Excel
“contar si”).

Observación 2.5. Una estadı́stica es una variable aleatoria, varı́a de una muestra a otra,
pero registrada la muestra se obtiene uno de sus valores posibles.

2.2. Estimación puntual de parámetros

Definición 2.5. Dada una muestra X1 , . . . , Xn , un estimador de un parámetro θ es


cualquier estadı́stica, θ̂ = θ̂n = θ(X1 , . . . , Xn ), usada para estimar (aproximar) el valor
desconocido de este parámetro.

Ejemplo 2.7. En el ejemplo 2.1, el estimador usual es la proporción en la muestra de


P
n
electores que aprueban la gestión de la autoridad: p̄ = n1 1 (Xj ).
j=1 {1}

Ejemplo 2.8. En el contexto del ejemplo 2.3, podemos considerar como estimadores de µ,
entre otros existentes, a µ̂1 la media correspondiente a las observaciones primera y última,
es decir, X̄2 = (X1 + X36 )/2 y a µ̂2 la media de la muestra completa, es decir, X̄.

Como fue observado, los estimadores son variables aleatorias, varı́an de una muestra a
otra; sin embargo, estos no pueden ser tan arbitrarios; se procura, entre otras propiedades,
que en promedio estén próximos al verdadero valor del parámetro y que varı́en poco de una
a otra muestra observada. Veamos a continuación, cuál de los dos estimadores propuestos en
el ejemplo anterior es mejor, es decir, cuál cumple mejor el objetivo antes mencionado.

Ejemplo 2.9. Sean µ̂1 y µ̂2 los estimadores de µ del ejemplo anterior. Analicemos sus
valores esperados; para esto usamos la propiedad por la cual la esperanza de una suma de
variables es la suma de las esperanzas correspondientes a dichas variables:

E(µ̂1 ) = E( 12 (X1 + X36 )) = 12 E(X1 + X36 ) = 12 (E(X1 ) + E(X36 )) = 12 (µ + µ) = µ


1
P
36
1
P
36
1
P36
1
P
36
1
E(µ̂2 ) = E( 36 Xj ) = 36 E( Xj ) = 36 ( E(Xj )) = 36 ( µ) = 36 (36µ) = µ;
j=1 j=1 j=1 j=1

entonces, tanto µ̂1 como µ̂2 coinciden, en promedio, con el valor verdadero del parámetro.

Ahora comparemos sus variabilidades. Para esto usamos la propiedad por la cual la varianza
de una suma de variables independientes es igual a la suma de las varianzas correspondientes:

59
60 José Flores Delgado Estadı́stica inferencial

V (µ̂1 ) = V ( 21 (X1 + X36 )) = 1


22
V (X1 + X36 ) = 1
22
(V (X1 ) + V (X36 )) = 1
22
(σ 2 + σ 2 ) = 12 σ 2

1
P
36
1
P
36
1
P
36
1
P
36
1 1 2
V (µ̂2 ) = V ( 36 Xj ) = 362
V ( Xj ) = 362
( V (Xj )) = 362
( σ2) = 362
(36σ 2 ) = 36
σ ;
j=1 j=1 j=1 j=1

Como ambos estimadores tienen como valor promedio a µ, pero el segundo (basado en las
36 observaciones) es menos variable (como era de esperar) resulta mejor.
A continuación formalizamos algunos términos vistos en el ejemplo anterior.

2.3. Propiedades de los estimadores

2.3.1. Insesgamiento

Definición 2.6. Si θ̂ es un estimador del parámetro θ, diremos que este es insesgado respecto
a θ, si
E(θ̂) = θ, ∀θ ∈ Θ.

Al valor esperado E(θ̂ − θ) = E(θ̂) − θ se le denomina sesgo del estimador.

Observación 2.6. El estimador varı́a de una muestra a otra; pero si este es insesgado
resulta que el promedio de los valores que puede asumir coincide con el valor del parámetro
que estima.

La tabla siguiente muestra los parámetros más conocidos, asociados con una muestra
aleatoria de la variable X (de media µ y varianza σ 2 ), y sus correspondientes estimadores
usuales

Parámetro Estimador
P
n
µ (media) =E(X) X̄ = n1 Xj
j=1
1
P
n
1
P
n
σ 2 (varianza) = V (X) S2 = n−1
(Xj − X̄)2 = n−1
( Xj2 − nX̄ 2 )
j=1 j=1
1
P
n
p (proporción de A)= P (X ∈ A) p̄ = n
1 (Xj )
j=1 A

Observación 2.7. En la tabla siguiente se muestran los valores esperados y varianzas de


los estimadores usuales.

Estimador Esperanza Varianza


σ2
X̄ µ n
1 n−3
S2 σ2 n
( E(X − µ)4 − n−1
σ4 )
p(1−p)
p̄ p n

60
José Flores Delgado Inferencia estadı́stica 61

Los resultados anteriores son una consecuencia de las propiedades de la esperanza y de la


varianza, de que las variables de la muestra sean independientes y que tengan la misma
distribución8 . En particular, los estimadores usuales son insesgados.

Definición 2.7. Un estimador es asintóticamente insesgado si el lı́mite de su valor esperado,


cuando el tamaño de las observaciones tiende a infinito, es igual al parámetro.

P
n
Ejemplo 2.10. El estimador σˆ2 = 1
n
(Xj − X̄)2 = n−1 2
n
S es un estimador sesgado de σ 2 ,
j=1
pero asintóticamente insesgado. En efecto, como E(S 2 ) = σ 2 ; entonces, E(σˆ2 ) = n−1
n
σ 2 . Por
lo tanto, lı́m E(σˆ2 ) = σ 2 .
n→∞

Observación 2.8. Como ya se dijo, un estimador es una variable aleatoria; registrada la


muestra este toma un valor particular que se puede llamar la estimación.

Ejemplo 2.11. A partir de la muestra del ejemplo 2.6, veamos algunos ejemplos de
estimación:
P
n
Xj
j=1
a) X̄ = n
= 49,7. Entonces, podemos estimar que el tiempo promedio que los
empleados necesitan para llevar a cabo la tarea es de 49,7 minutos.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
b) S = n−1
= n−1
= 147,5998. Entonces, podemos estimar que la
varianza, del tiempo que los empleados necesitan para llevar a cabo la tarea, es de
147,5998 minutos2 .
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
c) S = n−1
= n−1
= 12,1491. La desviación estándar del tiempo
que los empleados necesitan para llevar a cabo la tarea se estima en 12,1491 minutos.

h) Me = 47,33. Ası́, estimamos que la mitad de los empleados requieren un tiempo de


47,33 minutos o menos.

i) P25 = 42,26. Ası́, estimamos que la cuarta parte de los empleados requieren un tiempo
de 42,26 minutos o menos.

j) P75 = 60,95. Ası́, estimamos que el 75 % de los empleados requieren un tiempo de 60,95
minutos o menos.

1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : proporción de empleados que requieren más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea = 14/36 = 0,3. Ası́, estimamos que el 30 % de los
empleados requiere más de 50 minutos para llevar a cabo la tarea.
8
Esta forma de expresar la varianza de S 2 se encuentra en Casella (2002), ejercicio 5.8, pág. 257. Vea
también los ejercicios propuestos 1.59, 1.60 y 2.3.

61
62 José Flores Delgado Estadı́stica inferencial

2.3.2. Eficiencia

Definición 2.8. Si θ̂1 y θ̂2 son dos estimadores insesgados del parámetro θ, diremos que θ̂1
es más eficiente que θ̂2 , si
V (θ̂1 ) < V (θ̂2 ).
Esta definición es razonable, pues, si dos estimadores de un mismo parámetro son insesgados,
es razonable afirmar que el de menor variabilidad sea mejor, pues esto significa que suele
diferir del parámetro (su media) con menor frecuencia, de una a otra muestra.

Ejemplo 2.12. En el ejemplo 2.9 la media de la muestra de todas las observaciones es más
eficiente que el que considera solo dos.

Definición 2.9. El error cuadrático medio de un estimador θ̂, del parámetro θ, lo


denotaremos por ECM(θ̂) y se define mediante ECM(θ̂) = E(θ̂ − θ)2 .

Observación 2.9. Si un estimador es insesgado, su error cuadrático medio coincide con su


varianza. En general, dados dos estimadores de un parámetro, diremos que es mejor el de
menor error cuadrático medio.

Definición 2.10. Dada una familia F de estimadores insesgados de un parámetro, diremos


que el mejor estimador de esta familia (MEIF ) es el más eficiente.

Ejemplo 2.13. Consideremos una muestra aleatoria de una variable con (varianza finita) y
la familia de estimadores de la media que son combinaciones lineales de las variables de la
muestra e insesgados; entonces, MEIF = X̄.

Ejemplo 2.14. En el modelo de regresión lineal del ejercicio 1.68, Yj = βxj + ǫj , j =


1, . . . , n, donde ǫ1 , . . . , ǫn variables aleatorias tales que E(ǫj ) = 0, V (ǫj ) = σ 2 , para j =
1, . . . , n, y Cov(ǫi , ǫj ) = 0, ∀i 6= j; x1 , . . . , xn constantes conocidas y β es el parámetro para
Pn P
n
estimar. Entonces, el mejor estimador lineal insesgado está dado por β̂ = xj Yj / x2i .
j=1 i=1

2.3.3. Consistencia

Previamente se presentará brevemente un resumen de los conceptos básicos de la Teorı́a


Asintótica (estudio de los lı́mites cuando el tamaño de muestra tiende al infinito).
Definición 2.11. Sea (Xn )n∈N+ una secuencia de variables aleatorias definidas en un mismo
espacio probabilı́stico (Ω, P ) y X una variable aleatoria definida en el mismo espacio. Se
dice que (Xn )n∈N+ converge a X fuertemente o casi seguramente, si P ( lı́m Xn = X) = 1.
n→∞
c.s.
Esto se denota por Xn → X o lı́m Xn = X, c.s.
n→∞

N
Ejemplo 2.15. Sea X ∼ U[0; 1] y para cada n ∈ + , sea Xn = X + n1X . Nótese que, si
N
X = 0 : Xn = 1, ∀n ∈ + ; ası́, lı́m Xn = 1. Sin embargo, si 0 < X ≤ 1 : lı́m n1X = 0; ası́,
n→∞  n→∞
lı́m Xn = X. Por lo tanto, P lı́m Xn = X = P (0 < X ≤ 1) = 1 y lı́m Xn = X, c.s.
n→∞ n→∞ n→∞

62
José Flores Delgado Inferencia estadı́stica 63

Observación 2.10. La convergencia casi segura satisface propiedades similares a las de la


convergencia de secuencias reales, por ejemplo:

a) Si lı́m Xn = X, c.s. y lı́m Yn = Y , c.s.; entonces, lı́m (cXn + dYn ) = cX + dY, c.s.
n→∞ n→∞ n→∞

b) Si lı́m Xn = X, c.s. y lı́m Yn = Y , c.s., con P (Y 6= 0) = 1; entonces,


n→∞ n→∞
lı́m (cXn /dYn ) = cX/dY, c.s., si d 6= 0.
n→∞

c) Si g es una función continua y lı́m Xn = X, c.s.; entonces, lı́m g(Xn ) = g(X), c.s.
n→∞ n→∞

Definición 2.12. Sea (Xn )n∈N+ una secuencia de variables aleatorias definidas en un mismo
espacio probabilı́stico (Ω, P ) y X una variable aleatoria definida en el mismo espacio. Se dice
que (Xn )n∈N+ converge a X en probabilidad, si ∀ǫ > 0 : lı́m P ( |Xn − X| > ǫ ) = 0. Esto se
n→∞
p
denota por Xn → X o P lim Xn = X.

Ejemplo 2.16. De la observación 2.7 y la desigualdad de Chebychev, sigue que los


estimadores usuales de los parámetros básicos convergen en probabilidad a sus respectivos
parámetros.

Ejemplo 2.17. Como en el ejemplo 2.15, Xn = X + n1X , ∀n ∈ N+, con X ∼ U[0; 1], veamos
p
que Xn → X :

P ( |Xn − X| > ǫ ) = P ( n1X > ǫ) = P (nX < 1ǫ ) = P (X < 1


ǫ log(n)
) = 1
ǫ log(n)
;

por lo tanto, lı́m P ( |Xn − X| > ǫ ) = 0.


n→∞

Observación 2.11. El resultado del ejemplo anterior no es una coincidencia, se cumple que

lı́m Xn = X, c.s. ⇒ P limXn = X.


n→∞

Además, tal como la convergencia casi segura, la convergencia en probabilidad satisface


propiedades similares a las de la convergencia de secuencias reales, por ejemplo:

a) Si P limXn = X y P limYn = Y ; entonces, P lim(cXn + dYn ) = cX + dY .

b) Si P limXn = X, y P limYn = Y , con P (Y 6= 0) = 1; entonces, P lim(cXn /dYn ) =


cX/dY , si d 6= 0.

c) Si g es una función continua y P limXn = X; entonces, P limg(Xn ) = g(X) .

Definición 2.13. Sea (Xn )n∈N+ una secuencia de variables aleatorias, con distribuciones
acumuladas F1 , F2 . . . , respectivamente. Se dice que esta secuencia de variables converge en
distribución a la variable aleatoria X, con distribución acumulada F, si para todo x, punto
de continuidad de F, se tiene que lı́m Fn (x) = F (x).
n→∞

D
Notación: Xn → X.

63
64 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.1. Sea (Xn )n∈N+ una secuencia de variables aleatorias con Xn ∼ exp(−n) 9 . La
distribuciones
( acumuladas de estas variables están dadas por
0, si x ≤ 0,
Fn (x) =
1 − e−nx ; si x > 0;
ası́, (
0, si x ≤ 0,
lı́m Fn (x) =
n→∞ 1, si x > 0.
Por otra parte, la distribución acumulada de X = 0, está dada por
(
0, si x < 0,
F (x) =
1, si x ≥ 0;
entonces, F es continua para todo x 6= 0 y para estos puntos tenemos que lı́m Fn (x) = F (x).
n→∞
D
Por lo tanto, Xn → 0.
p D
Observación 2.12. Se cumple que Xn → X ⇒ Xn → X. También se cumplen las
propiedades siguientes, las tres primeras son conocidas como El Teorema de Slutsky.
D D
a) Xn → X y P limYn = c ⇒ Xn + Yn → X + c;
D D
b) Xn → X y P limYn = c ⇒ Xn Yn → cX;
D Xn D X
c) Xn → X y P limYn = c ⇒ → , si c 6= 0 y P (Yn 6= 0) = 1.
Yn c
D D
d) Xn → X y P limYn = c ⇒ g(Xn ) → g(X), si g es continua.
D D
e) an (Xn − µ) → X ⇒ an (g(Xn ) − g(µ)) → g ′(µ)X, si y g diferenciable en µ.

Observación 2.13. Los teoremas más importantes de la teorı́a asintótica, acerca de los
tipos de convergencia anteriores, para la teorı́a de inferencia estadı́stica son los siguientes:

a) La Ley Fuerte de los Grandes Números:

a1 ) (Caso de variables independientes) Sea (Xn )n∈N+ una secuencia de variables


P

V (Xn )
aleatorias independientes con varianzas finitas, tal que n2
es finita y existe
n=1
lı́m E(X̄n ); entonces, lı́m X̄n = lı́m E(X̄n ), c.s.
n→∞ n→∞ n→∞

a2 ) (Caso de variables independientes e idénticamente distribuidas) Sea (Xn )n∈N+ una


secuencia de variables aleatorias independientes e idénticamente distribuidas, con
media µ (finita); entonces, lı́mn→∞ X̄n = µ, c.s.
b) Sea (Xn ) n∈N+ una secuencia de variables aleatorias independientes e idénticamente
distribuidas, con E(Xn ) = µ y V (Xn ) = σ 2 ; entonces,

n( X̄n − µ ) D
→ Z ∼ N(0, 1).
σ
9
Xn puede ser la duración de un sistema de estructura en serie integrado por n componentes cuyas
duraciones son independientes y con distribución exponencial de media 1.

64
José Flores Delgado Inferencia estadı́stica 65

Definición 2.14. Un estimador o, mejor dicho, la secuencia de estimadores (θ̂n )n∈N+ es


P
consistente débilmente para el parámetro θ, si θ̂n → θ.

Definición 2.15. Si la convergencia en la definición anterior es casi seguramente; es decir,


si lı́m θ̂n = θ, c.s., se dice que el estimador es consistente (fuertemente).
n→∞

P
Observación 2.14. Recuérdese que lı́mn→∞ θ̂n = θ, c.s. ⇒ θ̂n → θ. Por lo tanto, si un
estimador es consistente fuertemente, también es consistente débilmente.

Ejemplo 2.18. En el caso de una muestra aleatoria de X, tenemos los resultados siguientes:
a) si E(X) = µ, lı́m X̄n = µ, c.s.;
n→∞
b) si V (X) = σ 2 , lı́m Sn2 = σ 2 , c.s.;
n→∞
c) si P (X ∈ A) = p; lı́m p̄n = p, c.s.
n→∞

Los resultados son consecuencia de la Ley Fuerte de los Grandes Números. Por lo tanto, los
estimadores usuales de los parámetros básicos son consistentes fuertemente y, en particular,
consistentes débilmente. Esta Ley permite verificar fácilmente la consistencia fuerte de
estimadores que tenga la forma de la media de una muestra aleatoria simple de una variable
con media finita.
S
Ejemplo 2.19. El coeficiente de variación muestral, X̄ , es un estimador consistente
σ
fuertemente del coeficiente de la población µ . Esto es una consecuencia de los resultados
anteriores y de las propiedades dadas en la observación 2.10. En efecto, lı́m S 2 = σ 2 , c.s.;
√ n→∞
por lo tanto, lı́m S = σ 2 = σ, c.s. Además, lı́m X̄ = µ, c.s. Por lo tanto, lı́m X̄S = σµ , c.s.
n→∞ n→∞ n→∞

Ejemplo 2.20. Si X es una variable aleatoria con media cero; entonces, para muestras
P
n
aleatorias simples n1 Xj2 es un estimador consistente fuertemente de σ 2 . Para llegar a esta
j=1
conclusión basta observar que por ser X1 , . . . , Xn una muestra aleatoria de X, es decir,
estas variables son independientes y tienen la misma distribución que la de X; entonces,
X12 , . . . , Xn2 son variables aleatorias independientes con la misma distribución que la de X 2 ,
la cual tiene una media E(X 2 ) = σ 2 ; por lo tanto, por la Ley Fuerte de los Grandes Números,
Pn
sigue que lı́m n1 Xj2 = E(X 2 ) = σ 2 , c.s.
n→∞ j=1

El teorema siguiente establece condiciones suficientes para tener consistencia débil.

Teorema Si el estimador de θ, θ̂ = θ̂n = θ̂(X1 , . . . , Xn ), satisface las condiciones siguientes:

i) lı́m E(θ̂) = θ , esto es, θ̂ es asintóticamente insesgado para estimar a θ,


n→∞

ii) lı́m V (θ̂) = 0 , esto es, θ̂ es asintóticamente eficiente para estimar a θ;


n→∞

entonces, θ̂ es un estimador consistente (débilmente) para θ.

65
66 José Flores Delgado Estadı́stica inferencial

2.4. Métodos de estimación

A continuación trataremos los métodos más conocidos para obtener estimaciones de


parámetros.

2.4.1. Máxima verosimilitud

Definición 2.16. Supongamos que el modelo probabilı́stico de la muestra que se registrará,


X1 , . . . ,Xn , dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ Rk . Dada una muestra
registrada X1 = x1 , . . . , Xn = xn , definimos la función de verosimilitud de los parámetros
θ1 , . . . , θk , asociada a esta muestra, mediante
L(θ1 , . . . , θk ) = f (x1 , . . . , xn ) = f (x1 ) . . . f (xn )
X1 , . . . , Xn X1 Xn

Obsérvese que, si las variables son discretas, entonces, la función de verosimilitud, asociada
a la muestra X1 = x1 , . . . , Xn = xn , es la probabilidad de que se obtenga justamente dicha
muestra. Esto justifica su nombre.

Definición 2.17. Supongamos que el modelo probabilı́stico de la muestra que se registrará,


X1 , . . . ,Xn , dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ Rk . Dada una muestra
registrada X1 = x1 , . . . , Xn = xn , las estimaciones obtenidas por el método de máxima
verosimilitud de los parámetros θ1 , . . . , θk están dadas por aquellos valores de los parámetros
que maximizan su función de verosimilitud, es decir,

(θ̂1 , . . . ,θ̂k ) = máximo L(θ1 , . . . , θk ).

Definición 2.18. Si la estimación por máxima verosimilitud de θ = (θ1 , . . . ,θk ), asociada


a la muestra registrada X1 = x1 , . . . , Xn = xn , está dada por g(x1 , . . . , xn ); entonces, el
estimador de θ por máxima verosimilitud está dado por g(X1 , . . . , Xn ).

Ejemplo 2.21. Si X tiene distribución de Poisson con parámetro λ (desconocido); entonces,


la función de verosimilitud, basada en una muestra registrada de X : X1 = x1 , . . . , Xn = xn ,
está dada por

L(λ) = f (x1 ) . . . f (xn ) =


X1 Xn
e−λ λx1
x1 !
...
e−λ λxn
xn !
e−n λ λn x̄
= Qn , λ > 0; x1 ∈ N, . . . , x
n ∈ N,
xj !
j=1

De aquı́, es fácil verificar que L es maximizada cuando λ = x̄. Entonces, la estimación de λ,


por máxima verosimilitud, es λ̂ = x̄ y el estimador, λ̂ = X̄.

Ejemplo 2.22. Si X tiene distribución exponencial con parámetro β (desconocido), la


función de verosimilitud basada en una muestra registrada de X : X1 = x1 , . . . , Xn = xn ,
está dada por L(λ) = f (x1 ) . . . f (xn ) = β e−β x1 . . . βe−β xn = β n e−n x̄ β , β > 0; xi > 0.
X1 Xn

De aquı́, es fácil verificar que L es maximizada cuando β = 1/x̄. Entonces, la estimación por
máxima verosimilitud de β es x̄ y el estimador, 1/X̄.

66
José Flores Delgado Inferencia estadı́stica 67

Propiedades del estimador de máxima verosimilitud

Distribución asintótica del estimador de máxima verosimilitud. Sean la familia


de distribuciones o modelos de probabilidad { f (x; θ) }θ ∈ Θ, que satisface las condiciones de
regularidad, X una variable aleatoria con función de distribución f (x; θ), con θ ∈ Θ, y θ̂mv
X
el estimador de máxima verosimilitud; entonces,
√ D
n (θ̂mv − θ) → N(0; I −1 (θ)),


2 ∂2

con I(θ) = E ∂θ
ln( f (X; θ) = −E ∂ θ2
Ln(f (X; θ) .
X

√ aprox. 1
Ası́, si el tamaño de muestra n es grande, n (θ̂mv − θ) ∼ N(θ; n
I −1 (θ)).

Observación 2.15. Para más de un parámetro; es decir, si θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ k y R


θ̂ es el estimador de máxima verosimilitud, existen condiciones de regularidad similares de
modo que
√ D
n (θ̂ − θ) → N(0; I −1 (θ)), (2.1)

donde I(θ) se denomina la matriz de Información de Fisher y está definida por


h  2 i
I(θ) = − E ∂θ∂i ∂θj Ln(f (X; θ)) .
X k×k

aprox. 1
Ası́ el tamaño de muestra n es grande, θ̂ ∼ Nk (θ; n
I −1 (θ)).

El cálculo de I(θ) suele ser complejo; sin embargo, se puede obtener una aproximación como
sigue a continuación. Sea H(θ) la matriz hessiana del logaritmo de la función de verosimilitud
asociada con la muestra X1 , . . . ,Xn ; es decir,
h i
∂2
H(θ) = ∂θi ∂θj
Ln(L(X1 , . . . ,Xn ; θ1 , . . . ,θk )) .
k×k

Se cumple que
aprox.
θ̂ ∼ Nk (θ; −H −1 (θ̂)), (2.2)

a −H(θ̂) se le denomina la matriz de información de Fisher observada.

Además, si θˆimv es el estimador de máxima verosimilitud de θi , se tiene que


√ √ ˆ
n (θˆimv − θi ) D n (θimv − θi ) D
→ N(0; 1) y → N(0; 1), (2.3)
σ̂ θˆimvI σ̂ θˆimvH

donde σ̂ θˆimvI y σ̂ θˆimvH son los i-ésimos elementos de la diagonal de I −1 (θ) y −H −1 (θ̂),
respectivamente.

Invarianza Si θ̂mv es el estimador de θ y g es una función continua; entonces, el estimador


de máxima verosimilitud de g(θ) es g(θ̂mv ).

67
68 José Flores Delgado Estadı́stica inferencial

2.4.2. Momentos

Recordemos que si X es una variable aleatoria, su k−ésimo momento está dado por
mk = E(X k ). Análogamente, si X1 , . . . , Xn es una muestra aleatoria de X, se define el
Pn
k−ésimo momento, denotado Mk , mediante Mk = n1 Xjk .
j=1

Definición 2.19. Sea X una variable aleatoria cuya distribución dependa de los parámetros
θ1 , . . . , θk , entonces, los estimadores de estos parámetros, según el método de los momentos,
corresponden a la solución del sistema de k ecuaciones (con estos parámetros como
incógnitas), siguiente:
mj = Mj , j = 1, . . . , k.

Ejemplo 2.23. Si X tiene distribución de Poisson con parámetro λ (desconocido), entonces,


Pn
m1 = E(X) = λ y M1 = n1 Xj = X̄. Por lo tanto, el estimador de λ, según el método de
j=1
los momentos, corresponde a la solución de la ecuación con incógnita λ : m1 = M1 , es decir,
λ = X̄. Ası́ λ̂ = X̄.

Ejemplo 2.24. Si X tiene distribución normal con parámetros µ y σ 2 (desconocidos),


P
n P
n
entonces, m1 = E(X) = µ, M1 = n1 Xj = X̄, m2 = E(X 2 ) = σ 2 + µ2 y M2 = n1 Xj2 .
j=1 j=1
2
Por lo tanto, los estimadores de µ y de σ , según el método de los momentos, corresponden
a la solución del sistema de ecuaciones (con estos parámetros como incógnitas): m1 = M1 y
m2 = M2 o, equivalentemente,

µ = X̄
1
P
n
σ 2 + µ2 = n
Xj2 ,
j=1

P
n P
n
cuya solución es µ = X̄ y σ 2 = 1
n
Xj2 − X̄ 2 . Por lo tanto, µ̂ = X̄ y σˆ2 = 1
n
Xj2 − X̄ 2 .
j=1 j=1

2.4.3. Cuadrados mı́nimos y Regresión

Se tiene una variable Y que es explicada por su relación funcional con una variable X;
pero con un error aleatorio de medición u observación ǫ, es decir, se tiene el modelo siguiente:

Y = g(X,θ) + ǫ

La variable X no se considera aleatoria, pues, sus valores serán determinados o fijados


previamente, se llama variable independiente;

g es una función que depende de X y del vector de parámetros θ ∈ Θ ⊂ Rk .

El error ǫ es una variable aleatoria con media cero, es decir, E(ǫ) = 0.

Por lo tanto, en promedio, la relación existente sı́ es lineal, es decir, E(Y ) = g(X,θ).

68
José Flores Delgado Inferencia estadı́stica 69

Esto último significa que, dado un mismo valor particular para la variable independiente,
digamos X = x, entonces, por causa del error aleatorio, el valor que podemos observar como
respuesta no es necesariamente y = g(x,θ), sino que es uno de una gama de valores con una
distribución de media g(x,θ). La variable Y es la variable dependiente o de respuesta a los
valores determinados de la variable independiente.

A este modelo se le conoce como regresión; y el objetivo es predecir el valor de la variable


dependiente asociado a determinados valores de las variable independiente.

Empezamos por seleccionar n valores de la variable independiente, X = x1 , . . . , X = xn y


observaremos las correspondientes respuestas: Y1 , . . . , Yn

Obsérvese que, según el modelo, la respuesta Yi asociada al valor de la variable independiente


X = xi , es Yi = g(xi ) + ǫi , i = 1, . . . , n.

Asumimos los supuestos siguientes:

E(ǫi ) = 0 y V (ǫi ) = σ 2 , para i = 1, . . . , n, y cov(ǫi , ǫj ) = 0, si i 6= j.

Entonces Yi es una variable de valor esperado E(Yi ) = g(xi ,θ). Ası́ podemos formar dos
vectores, uno el vector de respuestas observadas: (y1 , . . . , yn ); y el otro de respuestas
esperadas: (g(x1 ,θ), . . . ,g(xn ,θ)). El método de los cuadrados mı́nimos establece que las
estimaciones de los parámetros del modelo deben ser tales que minimicen la distancia o,
equivalentemente, el cuadrado de la distancia existente entre los vectores de respuestas
observadas y el de respuestas esperadas:
n
X
Q(θ) = (yi − g(xi ,θ))2
i=1

El modelo de regresión lineal simple sin intercepto: Y = β X + ǫ


P
n
En este caso Yi = β xi + ǫi , i = 1, . . . ,n, y Q(β) = (yi − β xi )2 . Al minimizar Q(β),
i=1
se obtiene el estimador de cuadrados mı́nimos de β :
P
n
xj Yj
j=1
β̂ = Pn .
x2
j
j=1

Una forma alternativa de expresar este estimador es la dada en el ejercicio 1.68; es decir,
n
X xj
β̂ = bj Yj , con bj = P
n , para j = 1, . . . , n.
2
j=1 xi
i=1

Esta forma alternativa resulta muy conveniente para el estudio de la propiedades del
estimador, pues, estas son heredadas de las variables Yj .

69
70 José Flores Delgado Estadı́stica inferencial

El modelo de regresión lineal simple con intercepto:

Y =α+ βX +ǫ
P
n
En este caso Yi = α + β xi + ǫi , i = 1, . . . ,n, y Q(α,β) = (yi − α − β xi )2 . Al minimizar
i=1
Q(α,β), se obtienen los estimadores de cuadrados mı́nimos de α y β :
P
n
(xj − X̄)(Yj − Ȳ )
j=1
β̂ = P
n y α̂ = Ȳ − β̂ X̄.
(xj − X̄)2
j=1

Observación 2.16. (Teorema de Gauss Markov) Los estimadores anteriores son los mejores
estimadores lineales e insesgados.

Los estimadores de máxima verosimilitud en la regresión lineal

Si, además de los supuestos clásicos, asumimos que los errores tienen distribución normal,
entonces, la función de verosimilitud asociada a la muestra Y1 = y1 , . . . . . . Yn = yn , con el
modelo de regresión lineal sin intercepto es la siguiente:
L(β, σ 2 ) = f (y1 ) ... f (yn )
Y1 Yn

1 1 2 1 1 2
= √ e− 2 σ2 (y1 −θ X1) . . . √ e− 2 σ2 (yn −β Xn )
2π σ 2πσ
1 P
n
− (yj −β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e j=1
.

Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
Xj Y j
j=1 1 Pn
β̂ = Pn y σ̂ 2 = (Yj − β̂Xj )2 .
n j=1
Xi2
i=1
La función de verosimilitud, en el modelo de regresión lineal con intercepto, es la siguiente:
L(α, β, σ 2) = f (y1 ) ... f (yn )
Y1 Yn

1 1 2 1 1 2
= √ e− 2 σ2 (y1 −α−β X1 ) . . . √ e− 2 σ2 (yn −α−β Xn )
2π σ 2πσ
1 P
n
− (yj −α−β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e . j=1

Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
(Xj − X̄)(Yj − Ȳ )
j=1 1 Pn
β̂ = P
n , α̂ = Ȳ − β̂ X̄ y σ̂ 2 = (Yj − α̂ − β̂Xj )2 .
n j=1
(Xi − X̄)2
i=1

70
José Flores Delgado Inferencia estadı́stica 71

Observación 2.17. En el modelo de regresión lineal, los estimadores obtenidos con el


método de los cuadrados mı́nimos coinciden con los obtenidos con el de máxima verosimilitud,
pero solo con este último se puede estimar la varianza de los errores. Para efectos de cálculos
son útiles las fórmulas siguientes:

P
n P
n P
n 
Xj Y j − nX̄ Ȳ Yj2 − nȲ 2 − β̂ 2 Xj2 − nX̄ 2
j=1 j=1 j=1
β̂ = Pn y σ̂ 2 = .
n−2
Xj2 − nX̄ 2
j=1

Otra forma alternativa de expresar estos estimadores, conveniente para el estudio de sus
propiedades, es la dada en el ejercicio 1.69; es decir,

P
n xj − X̄
β̂ = bj Yj , con bj = P
n , j = 1, . . . , n;
j=1
(xi − X̄)2
i=1
P
n 1
α̂ = aj Yj , con aj = − bj X̄ , j = 1, . . . , n.
j=1 n

2.5. Distribuciones muestrales

Las distribuciones muestrales son distribuciones de algunas estadı́sticas (funciones de una


muestra aleatoria), que se usan en el muestreo. A continuación veremos algunas de estas.

2.5.1. La distribución normal y el muestreo para estimar a la media, µ, de una


variable aleatoria.

Uno de los resultados más importantes relacionados con esta distribución normal y el
muestreo para la estimación de la media, µ, de una variable es el siguiente:

Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,

σ2
X̄ ∼ N(µ; ).
n

Este resultado es una consecuencia inmediata de la propiedad de cerradura de la distribución


normal respecto a la suma de variables independientes. En general (sin importar cuál sea
la distribución de X), si el tamaño de muestra es grande; el resultado anterior es válido
aproximadamente (esto debido al teorema del lı́mite central); es decir:

aprox. σ2
X̄ ∼ N(µ; ).
n

71
72 José Flores Delgado Estadı́stica inferencial

2.5.2. La distribución ji-cuadrado y el muestreo para estimar a la varianza, σ 2 ,


de una variable aleatoria.

La distribución ji-cuadrado corresponde al caso particular de la distribución gamma con


α = ν/2 y β = 1/2, aquı́ ν ∈ N+ es el parámetro de la distribución y se llama grados de
libertad. Si la variable aleatoria X tiene esta distribución ji-cuadrado con grados de libertad
ν, lo denotamos por X ∼ χ2 (ν). Los valores esperados son: µX = ν y σX2 = 2ν.
La gráfica de esta densidad es con tendencia central y sesgada hacia la derecha.

Propiedades: la distribución ji-cuadrado tiene las propiedades siguientes:

1. Si Z ∼ N(0,1), entonces Z 2 ∼ χ2 (1).


2. Propiedad de cerradura respecto a la suma de variables independientes:
Si W1 , W2 , . . . , Wk son k variables aleatorias independientes con distribuciones ji-
cuadrado con grados de libertad ν1 , . . . , νk ; entonces,
k
X k
X
W = Wi ∼ χ2 ( νi ).
i=1 i=1

3. Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,


(n − 1)S 2
W = 2
∼ χ2 (n − 1).
σ
Esta propiedad es muy importante en la inferencia respecto de la varianza.

Ejercicio 2.2. Una técnica para llevar a cabo cierta tarea asegura que la distribución de los
tiempos que necesitan los operarios de una compañı́a, adiestrados con ella, sea normal. Para
estimar a σ 2 (la varianza de estos tiempos) se tomará una muestra de n = 17 y se usará S 2
(la varianza de la muestra) como estimación. Determine la probabilidad de que la estimación
resulte mayor que el doble del valor verdadero de la varianza σ 2 .

2.5.3. La distribución t de student y el muestreo para estimar a la media, µ,


de una variable aleatoria.

La distribución t de student corresponde a la función de densidad siguiente:


Γ( ν+1
2
)
f (x) = √ x2 ν+1
,
πν Γ( ν2 )(1 + ν
) 2
con ν > 0. Si la variable aleatoria X tiene esta densidad se dice que X tiene distribución
t de student con parámetro o grados de libertad ν. Esto lo denotamos por X ∼ t(ν). Los
ν
valores esperados son: µX = 0 y σX2 = ν−2 (ν > 2).

La gráfica de esta densidad es similar a la de la normal estándar, es decir, es simétrica


alrededor de cero, pero las áreas laterales decrecen hacia cero menos rápidamente. Esta
similitud aumenta con el valor de ν.

72
José Flores Delgado Inferencia estadı́stica 73

Propiedades: la distribución t tiene las propiedades siguientes:


1. Si los grados de libertad de la distribución t de student son grandes, esta se aproxima
a la distribución normal estándar; es decir, si X ∼ t(ν) y ν es grande, entonces
aprox.
X ∼ N(0,1).
2. Si Z ∼ N(0,1), W ∼ χ2 (ν) y estas variables son independientes; entonces10 ,
Z
T =r ∼ t(ν)
W
ν

3. Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,


X̄ − µ
√ ∼ t(n − 1).
T =
S/ n
Esta propiedad es el resultado más importante para la inferencia de la media, µ, cuando
no se conoce la varianza.

2.5.4. La distribución F de Fisher y el muestreo para estimar la razón entre


dos varianzas, σ12 /σ22 , de dos variables aleatorias

La distribución F está caracterizada por la función de densidad siguiente:


ν1 ν1
ν1 +ν2
Γ( 2
)(ν1 /ν2 ) 2 x 2 −1
f (x) = ν ν ν1 +ν2 , x > 0.
Γ( 21 )Γ( 21 )(1 + (ν1 /ν2 )x) 2

Si la variable aleatoria X tiene esta distribución, denotaremos esto por X ∼ F (ν1 , ν2 ).


ν2 2ν22 (ν1 +ν2 −2)
Los valores esperados son: µX = ν2 −2
(ν2 > 2) y σX2 = ν1 (ν2 −2)2 (ν2 −4)
(ν2 > 4).

Propiedades: la distribución F tiene las propiedades siguientes:


1
1. Si X ∼ F (ν1 , ν2 ), entonces ∼ F (ν2 , ν1 ).
X
2. Si W1 ∼ χ2 (ν1 ) y W2 ∼ χ2 (ν2 ) son variables independientes; entonces11 ,
W1 /ν1
F = ∼ F (ν1 , ν2 ).
W2 /ν2
3. Sea X ∼ N(µ1 ; σ12 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable. Sea también
Y ∼ N(µ2 ; σ22 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e independiente
de la muestra anterior; entonces,
S12 / σ12
F = 2 2 ∼ F (n1 − 1,n2 − 1), (2.4)
S2 / σ2
con S12 y S22 las varianzas muestrales correspondientes.
Esta propiedad es el resultado más importante para la inferencia respecto de la razón
entre dos varianzas.
10
Véase el ejercicio propuesto 1.79.
11
Véase el ejercicio 1.80.

73
74 José Flores Delgado Estadı́stica inferencial

2.6. Ejercicios propuestos

Ejercicio 2.1. Dada una muestra aleatoria de la variable X (con media µ y varianza σ 2 ),
digamos X1 , . . . , Xn , use las propiedades de esperanza, varianza y covarianza necesarias para
demostrar los resultados siguientes:

a) E(Xj − X̄) = 0, para j = 1, . . . , n.

b) Cov(Xj , X̄) = σ 2 /n, para j = 1, . . . , n.

c) V (Xj − X̄) = (n − 1) σ 2/n, para j = 1, . . . , n.

d) E(Xj − X̄)2 = (n − 1) σ 2/n, para j = 1, . . . , n.


P
n
e) E( (Xj − X̄)2 ) = (n − 1)σ 2 .
j=1

f) E(S 2 ) = σ 2 .

Ejercicio 2.2. Sea X una variable aleatoria con E(X) = µ y varianza σ 2 . Sea X1 , . . . , Xn
una muestra aleatoria de X.
P
n
a) ¿Son Xi y Xj independientes? Justifique.
j6=i

1 1
P
n
b) Halle cov(Xi , X̄), con i = 1, . . . , n. Obsérvese que X̄ = n
Xi + n
Xj .
j6=i

c) Use los resultados de las partes anteriores para hallar cov(Xi − X̄, X̄), con i = 1, . . . , n.

Ejercicio 2.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, que tiene
media µ, varianza σ 2 y momento m4 finito. Demuestre que la varianza de S 2 está dada como
en la tabla de la observación 2.712 .
P
n P
n P
n 2
Sugerencia. Verifique que (Xi − Xj )2 = 2n( Xj2 − n X ) y use el ejercicio 1.60.
i=1 j=1 j=1

Ejercicio 2.4. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


momentos mk . Obtenga los valores siguientes en términos de µ, σ 2 y momentos poblacionales:

a) Cov(Xjk , X̄), ∀k ∈ N+, para j = 1, . . . , n.


b) Cov(Xjk , Xim X̄), ∀k, m ∈ N+ , para i 6= j.

c) V (Xj X̄), ∀j, para j = 1, . . . , n.

Ejercicio 2.5. Sea θ̂ un estimador de θ. Demuestre que el error cuadrático medio de θ̂,
E(θ̂ − θ)2 , es igual a V (θ̂) + [ E(θ̂ − θ) ]2 .
12
Como fue mencionado antes, esta forma de expresar la varianza de S 2 se encuentra en Casella (2002),
ejercicio 5.8, pág. 257

74
José Flores Delgado Inferencia estadı́stica 75

Ejercicio 2.6. Si X ∼ U(0; θ). Determine cuál de los estimadores siguientes de θ tiene un
menor error cuadrático medio: X̄ ó 2X̄.

Ejercicio 2.7. Sea θ̂ tal que E(θ̂) = 3 θ y V (θ̂) = 16 θ2 /n, con n el tamaño de la muestra.

a) Halle E(θ̂ −θ)2 , el error cuadrático medio de θ̂. Sugerencia: desarrolle el cuadrado antes
de aplicar el valor esperado.

b) Halle c tal que θ̂1 = c θ̂ sea un estimador insesgado.

c) Estudie cuál de los dos estimadores dados tiene un menor error cuadrático medio.

Ejercicio 2.8. Sea X ∼ N(µ, σ 2 ), ambos parámetros son desconocidos. Para estimar a µ (la
media de la población) se planifica tomar una muestra aleatoria de X, digamos X1 , . . . , Xn .
Como estimador se considerará a X̄ (la media de la muestra).

a) Uno de los argumentos usados para escoger tal estimador fue el siguiente: “en promedio,
el valor de este coincidirá con el valor del parámetro”. ¿Es válido este argumento?

b) Uno de los objetivos que se desea lograr es que el error de estimación no supere la
mitad de σ (la desviación estándar de la población). Determine el tamaño de muestra
que se debe elegir, de modo que la probabilidad de lograr el objetivo anterior sea, por
lo menos, 0,95. Recuerde que X ∼ N(µ, σ 2 ) ⇒ X̄ ∼ N(µ, σ 2 /n).

2
P
n
c) Verifique si el estimador µ̂2 = n(n+1)
j Xj también satisface el argumento
j=1
mencionado en la parte a. ¿Cuál de estos estimadores propuestos es preferible?

Ejercicio 2.9. En el ejemplo 2.3 suponga que la distribución de los tiempos que necesitan
los operarios de una compañı́a, adiestrados con ella, sea normal. Para hacer inferencias sobre
la media y la varianza de estos tiempos se dispondrá de una muestra aleatoria de tamaño n.

2
P
n
a) Compare el estimador usual de la media con el estimador µ̂2 = n(n+1)
j Xj .
j=1

b) ¿Es µ̂2 un estimador consistente de la media?

c) Si n = 17, determine la probabilidad de que el estimador usual de la varianza no exceda


al doble del valor de esta.

Ejercicio 2.10. Sea X una variable aleatoria con E(X m ) = θm/2 Γ(1 + m2 ), ∀m ∈ N+ . Como
2
estimadores de θ se consideran a θ̂1 = c1 X , θ̂2 = c2 S 2 y θ̂3 = c3 X 2 , donde las constantes
c1 , c2 y c3 son tales que los estimadores resultan insesgados.

a) Determine los valores de las constantes c1 , c2 y c3 . (1 punto)

b) Estudie la consistencia (fuerte) de estos estimadores. (1,5 puntos)

c) Determine, de ser posible, cuál de estos estimadores es el más eficiente. (1,5 puntos)

75
76 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.11. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


distribución exp(β), con β > 0 (desconocido). Considérese el parámetro θ = 1/β 2 y sus
estimadores siguientes:
n
1 X 2 2
θ̂1 = Xj y θ̂2 = X .
2n j=1

a) Verifique que θ̂1 es un estimador insesgado.

b) Verifique que θ̂2 es un estimador sesgado, pero asintóticamente insesgado.


P
n
c) Demuestre que T = Xj ∼ G(n, β).
j=1

Recuerde que si las variables son independientes M (t) = M (t) . . . M (t).


T X1 Xn

d) Estudie cuál de los estimadores anteriores es más preciso, en general.

e) Estudie la consistencia fuerte de los estimadores dados.

f) Demuestre que los estimadores siguientes de β son consistentes (fuertemente):


r
1 n+1 2
β̂1 = , β̂2 = y β̂3 = ,
X̄ nX̄ M2
P
N+.
n
1 k!
con M2 = n
Xj2 . Recuérdese que, para este modelo, mk = E(X k ) = βk
, ∀k ∈
j=1

Ejercicio 2.12. Sea X1 , . . . , Xn una muestra aleatoria de una variable X, con función de
x + 1 −x/θ
distribución de probabilidades f (x) = e , x > 0.
θ(θ + 1)

a) Encuentre el estimador de máxima verosimilitud de θ y su distribución asintótica.

b) Encuentre el estimador de momentos de θ y estudie su consistencia.

Ejercicio 2.13. Sean X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


distribución binomial b(m, p) con m conocido y p por estimar. Considere los estimadores de
X̄ X1 + X2 X1
p siguientes: p̂1 = , p̂2 = X̄ , p̂3 = y p̂4 = .
m 2m m

a) Determine cuáles de los estimadores son insesgados y, entre estos, el más eficiente.

b) Si n = 10 y m = 1, determine la probabilidad de que p̂1 produzca un error de estimación


de 0,1, como máximo, cuando p = 0,8.

c) Si n es suficientemente grande, determine la distribución aproximada del estimador p̂1 .

d) Considerando como estimador a p̂1 , halle, si existe, el tamaño de muestra n


suficientemente grande que, con una probabilidad de por lo menos 0,95, produzca
un error de estimación de 0,1, como máximo.

76
José Flores Delgado Inferencia estadı́stica 77

Ejercicio 2.14. Sea X1 , . . . , Xn una muestra aleatoria de una distribución de Poisson con
parámetro λ. Determine cuáles de los estimadores de λ siguientes son insesgados y, entre
estos, el más eficiente: λb1 = X̄, λb2 = nX̄, λb3 = X1 +X
2
2
y λb4 = Xn1 .

Ejercicio 2.15. Sea X1 , . . . , Xn una muestra aleatoria de una distribución exponencial con
media θ. Considere los estimadores de θ siguientes: θ̂1 = X̄, θ̂2 = X1 y θ̂3 = X1 +X
2
2
.

a) ¿Son estos estimadores insesgados?

b) ¿Cuál de estos estimadores es más eficiente?

Ejercicio 2.16. Un economista que labora en una AFP supone que el tiempo, X, que
permanecen empleados sus afiliados sigue el modelo probabilı́stico Weibull (2; β): f (x) =
X
2
2 β x e−β x , x > 0, con x medido en años y β un parámetro para estimar.
Γ( k2 + 1)
a) Halle el lı́mite casi seguro de M2 . Para este modelo E(X k ) = k , ∀k ∈ N.
β2
b) ¿Es β̂ = 1/M2 un estimador consistente fuertemente?
c) Sea p la probabilidad de que un cliente permanezca afiliado más de un año. Averigüe
si p̂ = e−β̂ es un estimador consistente de p, con β̂ como en la parte anterior.
2
Obsérvese que p = P (X > 1) = e−β , pues, FX (x) = 1 − e−β x , x > 0.
d) Deducir los estimadores que proporcionan los métodos de máxima verosimilitud y de
los momentos. Estudie si son consistentes.
e) Determine la información de Fisher para este modelo
f) Si β̂mv es el estimador obtenido por el método de máxima verosimilitud,

use el resultado
n (β̂mv −β) D
anterior para verificar el resultado asintótico siguiente: β
→ N(0, 1).
g) Se tomará una muestra de tamaño n = 36. Use el resultado anterior para hallar el
valor de c tal que P ( β̂1+c
mv
≤ β ≤ β̂1−c
mv
) ≈ 0,95.
h) Tomada la muestra mencionada en la parte anterior, se obtuvieron los valores
siguientes:
31,02 14,57 42,6 67,73 65,72 79,76 5,4 32,35 63,08 17,27 23,71 9,65
8,11 18,94 22,27 5,87 25,9 28,99 40,17 29,74 30,49 29,65 69,45 35,42
33,33 26,92 86,23 57,33 97,34 24,33 77,85 10,48 49,41 58,24 84,78 35,44
Halle βmv la estimación de máxima verosimilitud, de β, correspondiente; luego, a partir
del resultado obtenido en la parte anterior, obtenga un intervalo tal que β se encuentre
en este, con una confianza del 95 % (aproximadamente).
i) Use la estimación anterior para estimar el tiempo promedio que permanecen empleados
los afiliados.
j) Estudie si los estimadores de β siguientes son consistentes fuertemente:
4−π π 4 − π + nπ
β̂2 = 2
, β̂3 = 2 y β̂4 = 2 .
4S 4X 4n X

77
78 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.17. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


distribución B(α; 2), con α (desconocido). Considérese α̂ = 2X̄/(1 − X̄). Averigüe si α̂
es un estimador consistente.
Γ( k2 + 1)
Ejercicio 2.18. Sea X tal que mk = k , ∀k ∈ N+. Estudie la consistencia del
 k 2/k θ 2

Γ( 2 + 1)
estimador de θ : θ̂ = Mk
.

Ejercicio 2.19. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


distribución exp(β), con β > 0 (desconocido). Considérese θ = 1/β 2 y los estimadores
1 Pn n 2
de θ siguientes: θ̂1 = Xj2 y θ̂2 = X̄ .
2n j=1 n+1

a) Verifique que θ̂1 es un estimador consistente fuertemente.

b) Halle el lı́mite casi seguro de X̄.

c) Determine si θ̂2 también es consistente.

d) Demuestre que el estimador de máxima verosimilitud de β es consistente.



Ejercicio 2.20. Sea X ∼ G(α; β) y considere β̂ = M2 −X̄ 2
.

a) Halle el lı́mite casi seguro de X̄.

b) Halle el lı́mite casi seguro de M2 .

c) ¿Es β̂ un estimador consistente fuertemente?

Ejercicio 2.21. Sea X ∼ G(2; β).

a) Halle los estimadores de β por máxima verosimilitud y momentos. Compárelos.

b) Halle el lı́mite casi seguro de X̄.

c) Demuestre que los estimadores hallados anteriormente son consistentes.

Ejercicio 2.22. Sea X ∼ P ascal(2; p), estime el estimador de p por máxima verosimilitud,
estudie su consistencia y compárelo con el que proporciona el método de los momentos.

Ejercicio 2.23. La rentabilidad diaria de una acción es una variable aleatoria X, con
distribución N(0, σ 2 ). Se tomará una muestra aleatoria de n observaciones de X.

a) Si n = 25, halle el valor de c, para que, con una probabilidad de 0,95, el coeficiente de
variación muestral | S/X̄ | sea mayor que c.

b) Estudie insesgamiento, eficiencia y consistencia para los estimadores siguientes de σ 2 :


P
n
σ̂12 = S 2 , σ̂22 = n1 Xj2 y σ̂32 = nX̄ 2 .
j=1

c) Si n = 20, halle c tal que P (σˆ2 > cσ 2 ) = 0,05.


d) Si n = 20, halle dos valores positivos, c1 y c2 , tales que P (c1 σˆ2 ≤ σ 2 ≤ c2 σˆ2 ) = 0,95.

78
José Flores Delgado Inferencia estadı́stica 79

Ejercicio 2.24. El ingreso en el sector A es una variable aleatoria X ∼ N(µ, σ 2 ). Para


estimar σ 2 se tomará una muestra aleatoria de tamaño n = 20 de este sector y se
considerará como estimador a la varianza de la muestra S 2 . Determine P ( 21 S 2 ≤ σ 2 ≤ 2S 2 ).

Ejercicio 2.25. Sean X1 , . . . ,Xn , una muestra aleatoria de X ∼ N(µ, σ 2 ), S, la desviación


2
estándar muestral, y W = (n−1)S
σ 2 .

a) Halle E( W ). Recuerde que W ∼ χ2 (n − 1) = G( n−1 2
, 12 ).
b) Halle el valor esperado de S y verifique que es un estimador asintóticamente insesgado
σ

para σ. Note que S = √n−1 W.

Ejercicio 2.26. El número de clientes hasta el primero que compra cierto producto
se considera una variable aleatoria X con distribución geométrica cuyo parámetro p
será estimado a partir de una muestra aleatoria. Es decir, f (x) = (1 − p)x−1 p, x = 1, 2, . . . .
X

a) Halle, justificando debidamente, el lı́mite casi seguro de X̄.


1
b) Demuestre que p̂ = es un estimador consistente fuertemente.

c) Sea θ = P (X > 2). Averigüe si θ̂ = ( X̄−1

)2 es un estimador consistente (fuertemente).

Ejercicio 2.27. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con


distribución exp(β), con β > 0 (desconocido). Considérese como parámetro para estimar
a θ = 1/β y los estimadores siguientes: θ̂1 = X̄ y θ̂2 = nX(1) (recuerde que X(1) =
min{ X1 , . . . , Xn } ).
a) Demuestre que X(1) ∼ exp(nβ). Use el ejercicio 1.47.
b) Verifique si estos estimadores son insesgados y determine el más eficiente.
c) Estudie la consistencia de θ̂2 .

Ejercicio 2.28. En una fábrica se produce una gran cantidad de componentes electrónicos,
cada uno de estos puede estar defectuoso con una probabilidad igual a p, e independiente-
mente de los demás. En un control de la calidad, cada dı́a se toma una muestra aleatoria
de 30 componentes. Sea X el número de componentes, en la muestra de un dı́a, que están
defectuosos.
a) A partir de una muestra aleatoria, X1 , . . . , Xn , de la variable X, halle el estimador
del parámetro p, de la distribución de X, que se obtiene con el método de máxima
verosimilitud.
b) Halle el valor esperado del estimador de p hallado anteriormente. ¿Es este estimador
insesgado? ¿Cuál es su desviación estándar?
c) En una semana se obtuvieron los datos siguientes:

Dı́a 1 2 3 4 5 6 7
Número de componentes defectuosos 1 2 2 1 3 0 1

Calcule la estimación de p que proporciona el método de máxima verosimilitud.

79
80 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.29. Para el ingreso mensual, X (en miles de soles), en cierto sector, se propone
el modelo probabilı́stico beta siguiente: f (x) = α xα−1 , 0 < x ≤ 1, con α > 0 un parámetro
X
por estimar a partir de una muestra aleatoria de tamaño n de X.

a) Demuestre que X̄ es un estimador consistente del ingreso promedio.

b) Halle los estimadores de α por los métodos de momentos y de máxima verosimilitud.

c) Determine si el estimador hallado en la parte anterior es consistente (fuertemente).

d) Use la propiedad de invarianza para estimar p: la proporción de comerciantes con


ingresos mayores que 0,675 miles de soles. Note que p = P (X > 0,675).

e) Si n = 36 y α̂mv es el estimador de máxima verosimilitud de α, determine,


α̂mv α̂mv
aproximadamente, P ( 1,196 ≤ α ≤ 0,804 ). Use la distribución asintótica dada en (2.1).

Ejercicio 2.30. El ingreso en cierto sector se considera una variable aleatoria X con
distribución gamma con parámetros α = 4 y β por estimar a partir de una muestra aleatoria.
Es decir, f (x) = 16 x3 β 4 e−β x , x > 0.
X

a) Encuentre β̂mv : el estimador de β por el método de máxima verosimilitud.

b) Halle el lı́mite casi seguro de β̂mv . ¿Es β̂mv consistente (fuertemente)?

1
 ∂ 2 −1
c) Halle la varianza aproximada de β̂mv : n
E ( ln( f (X; β) ) .
∂β X

Ejercicio 2.31. En cierto sector, el salario es una variable aleatoria continua X ∼ exp(β).
Sea p la proporción de asalariados que ganan más del salario mı́nimo, 675 soles, es decir,
p = P (X > 675). Se tomará una muestra aleatoria de n asalariados de la región y
se registrarán sus salarios: X1 , . . . ,Xn . Use la propiedad de invarianza para encontrar el
estimador de p. Tenga en cuenta que p = 1 − FX(675) = e−675β y que, por el ejemplo 2.22, el
estimador de máxima verosimilitud de β es β̂mv = X̄1 .

Ejercicio 2.32. En el ejercicio 2.31, suponga que en lugar de registrar el salario X solo se
registrará si este mayor que el salario mı́nimo, con el valor 1, o si no lo es, con el valor 0. Es
decir, se registrará una muestra aleatoria, Y1 , . . . ,Yn , de la variable Y = 1 (X).
]675, ∞[

a) Demuestre que fY (1) = p y fY (0) = 1 − p. Por lo tanto, fY (y) = p y (1 − p)1−y , y = 0, 1.


b) Demuestre que la función de verosimilitud de p, asociada a la muestra observada
P
n P
n
yj n− yj
Y1 = y1 , . . . ,Yn = yn , está dada por L(p) = p j=1
(1 − p) j=1
.
c) Determine el estimador de máxima verosimilitud de p.
d) ¿El estimador anterior es insesgado?, ¿fuertemente consistente? ¿cuál es su varianza?
e) Determine el estimador de p que se obtiene por el método de los momentos.

80
José Flores Delgado Inferencia estadı́stica 81

Ejercicio 2.33. Sean θ̂1 , . . . , θ̂n estimadores insesgados del parámetro θ, igualmente
eficientes y no-correlacionados. Considere la familia de estimadores de θ que son
R
combinaciones lineales de estos estimadores: { a1 θ̂1 + · · · + an θ̂n : a1 ∈ , . . . ,an ∈ }. R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer
a1 , . . . , an para que los estimadores de esta familia sean insesgados.
b) Halle una expresión simplificada para g(a1 , . . . , an ) = V (a1 θ̂1 + · · · + an θ̂n ).

c) Use las partes anteriores para encontrar el estimador, de esta familia, que tenga la
menor varianza y sea insesgado.

Ejercicio 2.34. Sean X ∼ N(µ1 ; σ12 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ22 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior.

a) Halle la distribución de X̄, de Ȳ y de X̄ − Ȳ .


(n1 −1)S 2 (n2 −1)S 2
b) Halle la distribución de U1 = σ12
X
y de U2 = σ22
Y

(n1 + n2 − 2)Sp2 2 (n1 − 1)S12 + (n2 − 1)S22


c) Si σ1 = σ2 = σ, y U = , con S p = , halle la
σ2 n1 + n2 − 2
distribución de U.
d) Si σ1 = σ2 , se define la variable T mediante

X̄ − Ȳ − (µ1 − µ2 )
T = q . (2.5)
Sp n1 + n1
1 2

Demuestre que T ∼ t(n1 + n2 − 2)

Ejercicio 2.35. En el ejercicio 2.34, considere σ12 = σ22 = σ 2 . Sea la familia de estimadores
de σ 2 que son combinaciones lineales de SX2 y SY2 : { aSX2 + bSY2 : a ∈ , b ∈ }. R R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer a y
b para que los estimadores de esta familia sean insesgados.

b) Halle una expresión simplificada para g(a,b) = V (aSX2 + bSY2 ).

c) Encuentre el estimador insesgado de esta familia que tenga la menor varianza.

Ejercicio 2.36. El ingreso en el sector A es una variable aleatoria X ∼ N(µ1 , σ12 ) y en


sector B, Y ∼ N(µ2 , σ12 ). Para estudiar las varianzas se tomará una muestra aleatoria de
cada sector, de tamaños iguales a 20 y de modo que resulten independientes.

a) Uno de los objetivos es que P ( 21 SX2 ≤ σ12 ≤ 2SX2 ) = P ( 12 SY2 ≤ σ22 ≤ 2SY2 ) ≈ 0,95. ¿Esto
se logra? Note que 12 SX2 ≤ σ12 ≤ 2SX2 ⇔ 21 σ12 ≤ SX2 ≤ 2σ12 .
 S2 σ2

b) Halle d tal que P SX2 > d σ12 = 0,05.
Y 2  
SX2 σ12 S2
c) Halle dos constantes positivas, d1 y d2 tales que P d1 2 ≤ σ2 ≤ d2 S 2 X
= 0,95.
SY 2 Y

81
82 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.37. Las distribuciones de los salarios, X e Y, de dos sectores sindicalizados son
normales, con medias µ1 y µ2 y varianzas σ12 y σ22 , respectivamente. Para realizar inferencias
sobre la diferencia de estas medias: θ = µ1 − µ2 se tomarán dos muestras de tamaños n1 y
n2 , una de cada sector. Se considera como estimador de θ a θ̂ = X̄ − Ȳ .

a) Demuestre que θ̂ es un estimador insesgado.


b) Halle la distribución de X̄ y de Ȳ .
c) Halle la distribución de θ̂.
d) Suponga que σ1 = σ2 = σ y n1 = n2 = 50. Halle, aproximadamente, la probabilidad
de que el error de estimación no exceda a 0,4σ.
e) Suponga que σ1 = σ2 = σ y n1 = n2 = n. Halle n de modo que la probabilidad de que
el error de estimación no exceda a 0,4σ sea, aproximadamente 0,95.
f) Suponga que θ = µ1 = µ2 y considere los estimadores X̄, Ȳ y n1nX̄+n 2 Ȳ
1 +n2
, verifique que
son insesgados y determine cuál es más eficiente, si σ1 = σ2 y n1 = n2 .

Ejercicio 2.38. Dado el parámetro θ, sean θ̂1 y θ̂2 dos estimadores independientes,
insesgados e igualmente eficientes, basados en muestras del mismo tamaño. Se define un
tercer estimador, θ̂, de la manera siguiente: θ̂ = x θ̂1 + (1 − x) θ̂2 , 0 < x < 1.

a) Demuestre que este nuevo estimador de θ también es insesgado.


b) Halle x, de modo que la varianza de este nuevo estimador sea mı́nima.
c) Aplique el resultado anterior para resolver la parte f del ejercicio 2.37.
d) Suponga que θ̂1 y θ̂2 sean consistentes y demuestre que θ̂ también lo es.

Ejercicio 2.39. Sean ǫ1 , . . . , ǫn , variables aleatorias con media cero, varianza σ 2 y


cov(ǫi , ǫj ) = 0, i 6= j. Sean β, un parámetro para estimar, y x1 , . . . , xn constantes conocidas.
Considere el modelo de regresión: Yj = βxj + ǫj , j = 1, . . . , n. Halle el mejor estimador de
β que sea insesgado y función lineal de las variables Yj .

Use el método de los multiplicadores de Lagrange; para esto observe que una condición
P
n P
n
necesaria y suficiente para que cj Yj sea un estimador insesgado de β es que cj xj = 1.
j=1 j=1

Ejercicio 2.40. Sean ǫ1 , . . . , ǫn , variables aleatorias con media cero, varianza σ 2 y


cov(ǫi , ǫj ) = 0, i 6= j. Sean α y β, parámetro para estimar, y x1 , . . . , xn constantes conocidas.
Considere el modelo de regresión Yj = α + βxj + ǫj , j = 1, . . . , n.

a) Halle el mejor estimador de β que sea insesgado y función lineal de las variables Yj .
Use el método de los multiplicadores de Lagrange; para esto observe que
n
X n
X n
X
E( cj Yj ) = β, ∀β ⇔ cj = 0 y cj xj = 1.
j=1 j=1 j=1

b) Halle el mejor estimador de α que sea insesgado y función lineal de las variables Yj .

82
José Flores Delgado Inferencia estadı́stica 83

Ejercicio 2.41. En el modelo de regresión lineal simple con intercepto, considere además
que los errores tengan distribución normal.

a) Justifique por qué Yj ∼ N(α + β xj ; σ 2 ), j = 1, . . . ,n.

b) Muestre que β̂ y α̂ tienen distribución normal y halle sus parámetros.


P
n 1
c) Sea Ŷj = α̂ + β̂ xj . Muestre que Ŷj = ci Yi , con ci = + bi (xj − X̄) , i = 1, . . . , n.
i=1 n

d) Muestre que E(Ŷj ) = α + β xj = E(Yj ) y V (Ŷj ) = [ n1 + bj (xj − X̄) ] σ 2 .


1
f) Muestre que Cov(Yj , Ŷj ) = n
+ bj (xj − X̄)σ 2 = V (Ŷj ).

e) Determine la distribución de Ŷj y compárela con la de Yj , j = 1, . . . , n.


P
n 
f) Muestre que E (Yj − Ŷj )2 = (n − 2)σ 2 . Use E(X 2 ) = V (X) + E 2 (X).
j=1

1 P n
g) Demuestre que σ̂ 2 = (Yj − α̂ − β̂xj )2 es un estimador insesgado de σ 2 .
n − 2 j=1

h) Halle la distribución de Yj − Ŷj , j = 1, . . . ,n.

Ejercicio 2.42. En el estudio respecto a la relación entre el consumo del bien A, Y, y el precio
del bien B, X, se considera el modelo de regresión lineal siguiente: Yj = θ xj +ǫj , j = 1, . . . , 5,
donde x1 , . . . , x5 son los valores del precio de B fijados en el estudio, mientras que ǫ1 , . . . , ǫ5 ,
son variables aleatorias independientes y cada una con distribución N(0; σ 2 ). La inferencia
estadı́stica se hará a partir de los resultados de una muestra aleatoria (de consumos de A):
Y1 , . . . , Y5, asociada a los valores fijados para el precio de B, x1 , . . . , x5 , respectivamente.
Determine la función de verosimilitud asociada a los valores de la muestra registrada
Y1 = y1 , Y2 = y2 , Y3 = y3 , Y4 = y4 , Y5 = y5 . Luego, deduzca las estimaciones y los estimadores
de máxima verosimilitud.

Observe que L(θ,σ 2 ) = f (y1 , . . . , y5) = f (y1 ) . . . f (y5 ) y determine el modelo probabilı́stico
Y1 , . . . , Y5 Y1 Y5
de Yj , para j = 1, . . . , 5.

Ejercicio 2.43. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX y lı́m n
= µX 2 . Demuestre que β̂ es consistente (fuertemente).
n→∞ n→∞

Ejercicio 2.44. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ es consistente débilmente.
n→∞ j=1 n→∞ j=1

Ejercicio 2.45. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX , y lı́m n
= µX 2 . Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ n→∞

83
84 José Flores Delgado Estadı́stica inferencial

Ejercicio 2.46. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ j=1 n→∞ j=1

Ejercicio 2.47. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
idénticamente distribuidas, E(X1 ) = µ, V (X1 ) = σ 2 y m4 = E(X 4 ). Para cada n ∈ N+ ,
P
n
Xj
j=1 2
sea X̄ = n
y S12 = X 2 − X .

σ
a) Demuestre que lı́m = 1, c.s.
n→∞ S1

n ( X̄−µ ) D
b) Demuestre que S1
→ Z, donde Z ∼ N(0, 1).
√ √
n ( X̄−µ ) σ n( X̄−µ )
Observe que S1
= S1 σ
y use el Teorema de Slutsky (observación 2.12 d).

n(X 2 − (µ2 +σ2 ) ) D
c) Demuestre que √ → Z, donde Z ∼ N(0, 1).
m4 −(µ2 +σ2 )2

√ 2
n ( X − µ2 ) D
d) Demuestre que σ
→ Y , donde Y ∼ N(0, 4µ2 ) Use la propiedad e de la
observación 2.12.

Ejercicio 2.48. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
P
n
idénticamente distribuidas. Sea p = P (X1 ∈ A) y p̄n = n1 1A (Xj ), ∀n ∈ N+ .
j=1

a) Demuestre que (1A (Xj ))n∈N+ es una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Halle E(1A (X1 )) y V (1A (X1 )).

b) Demuestre que lı́m p̄n = p, c.s. Use la Ley Fuerte de los Grandes Números.
n→∞

p̄n (1−p̄n )
c) Demuestre que lı́m √
p̄n −p
= 1, c.s.
n→∞

D
d) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1). Use el Teorema del Lı́mite Central.
p(1−p)


D
e) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1).
p̄n (1−p̄n )
√ √ √
n( p̄n −p ) p̄n (1−p̄n )
Observe que √ = √ p̄n −p √n( p̄n −p ) y use el Teorema de Slutsky (observación
p̄n (1−p̄n ) p(1−p)
2.12 d).

84
3. Estimación por intervalo

3.1. Intervalos de Confianza

Definición 3.1. Sean X1 , . . . , Xn , una muestra aleatoria de X, L1 = L1 (X1 , . . . Xn ) y


L2 = L2 (X1 , . . . , Xn ), dos estadı́sticas de esta muestra, y 0 < γ < 1. Se dice que [L1 ; L2 ] es
un intervalo de confianza, de nivel 100 γ %, para estimar al parámetro θ, si

P (L1 ≤ θ ≤ L2 ) = γ .

Ejemplo 3.1. Si X ∼ N(µ, 102 ) representa el tiempo (en minutos) para llevar a cabo cierta
tarea; entonces, para una muestra aleatoria de tamaño n = 36 :

36(X̄ − µ)
Z= ∼ N(0; 1).
10
De aquı́ se obtiene

P (X̄ − 5 ≤ µ ≤ X̄ + 5) = P (−5 ≤ X̄ − µ ≤ 5) = P (−3 ≤ Z ≤ 3) = FZ (3) − FZ (−3) = 0,99.

Por lo tanto, [X̄ − 5; X̄ + 5] es un intervalo de confianza de nivel 99 %, para estimar a µ.

Observación 3.1. La probabilidad γ, en la definición anterior, es válida antes de tomar


la muestra. Tomada la muestra, L1 y L2 asumen valores particulares, digamos L1 = l1 y
L2 = l2 . No es cierto que P (l1 ≤ θ ≤ l2 ) = γ, pues l1 , l2 y θ son constantes (recuerde que,
según nuestro enfoque, el parámetro θ es una constante desconocida); ası́ P (l1 ≤ θ ≤ l2 ) solo
puede ser cero, si el valor del parámetro θ no está en dicho intervalo, o bien igual a uno, si
el valor del parámetro θ sı́ se encuentra en dicho intervalo. Sin embargo, podemos decir, con
un grado de confianza del 100 γ %, que l1 ≤ θ ≤ l2 .

Ejemplo 3.2. Tomada la muestra aleatoria de tamaño 36, en el ejemplo anterior, resultó X̄
= 49,7 min. Asumiendo que σ = 10 minutos, podemos inferir, con una conf ianza del 99 %,
que el tiempo promedio necesario para llevar a cabo la tarea, µ, está entre 44,7 y 54,7 minutos.
Dicho de otro modo, estimamos el tiempo promedio en 49,7 minutos, con un margen de error
de 5 minutos, esto se puede inferir con una confianza del 99 %.

Observación 3.2. Un intervalo de confianza debe tener un alto nivel de credibilidad y un


margen de error esperado pequeño, en general, no se puede optimizar al mismo tiempo ambos
requisitos. Por esta razón, se fija el nivel de confianza en el valor usual 95 % ( o 99 %) y se
construye el intervalo que, con este nivel, tenga la menor longitud esperada.

85
86 José Flores Delgado Estadı́stica inferencial

3.2. Metodologı́a (método de la variable base )

Sea X ∼ fX (x; θ) y sea (X1 , . . . , Xn ) una muestra aleatoria de X. Para construir un


Intervalo del 100(1 − α) % de confianza para estimar a θ, se realizan los pasos siguientes:

i) Determinar una variable base W = W (X1 , . . . , Xn ; θ), es decir, una función de la


muestra y del parámetro θ, pero cuya distribución fW no dependa de θ.

α α
ii) Encontrar los valores a y b, tales que FW (a) = y FW (b) = 1 − . Por lo tanto,
2 2
P (a ≤ W ≤ b) = 1 − α.

iii) Hallar L1 y L2 , tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . De este modo P (L1 ≤ θ ≤ L2 ) =


1 − α. Por lo tanto, un intervalo del 100(1 − α) % de confianza para estimar a θ es

[ L1 (X1 , . . . , Xn ), L2 (X1 , . . . , Xn ) ],

3.3. Intervalo de confianza para la media µ cuando σ 2 es conocido

Sean X ∼ N(µ; σ 2 ), con σ 2 conocido, y X1 , . . . , Xn una muestra aleatoria de esta


variable. Un intervalo del 100(1 − α) % de confianza para estimar a µ es el siguiente:
 
σ σ
X̄ − z1− α √ ; X̄ + z1− α √ , (3.1)
2 n 2 n

con z1− α el percentil 100(1 − α2 ) de la distribución normal estándar. Este intervalo se puede
2
X̄−µ
deducir a partir de la variable base Z = √
σ/ n
∼ N(0; 1).

Observación 3.3. En general, sin importar cuál sea la distribución de X, pero que el tamaño
de muestra sea grande, el resultado anterior es aproximado, pues, en este caso la distribución
normal de Z es solo una aproximación, válida por el teorema del lı́mite central.

Ejemplo 3.3. En el contexto del ejemplo 1, en el que X ∼ N(µ, 102 ) representa el tiempo
(en minutos) para llevar a cabo cierta tarea, si al tomar la muestra aleatoria de tamaño 36,
se obtuvo una media de 49,7 minutos para llevar a cabo la tarea; entonces, de (3.1) se obtiene
el intervalo del 95 % de confianza para estimar a µ siguiente:

10 10
[ 49,7 − 1,96( √ ) ; 49,7 + 1,96( √ ) ] = [ 46,43; 52,97 ].
36 36

Ası́, según los resultados de esta muestra se infiere, con un grado de confianza del 95 %, que
el tiempo promedio, µ, para llevar a cabo la tarea está entre 46,43 y 52,97 minutos.

86
José Flores Delgado Intervalos de confianza 87

3.4. Intervalo de confianza para la media µ cuando σ 2 es


desconocido

Si X ∼ N(µ; σ 2 ), con σ 2 desconocido, y X1 , . . . , Xn es una muestra aleatoria de X;


entonces, un intervalo del 100(1 − α) % de confianza para estimar a µ está dado por
 
S S
X̄ − t1− α √ ; X̄ + t1− α √ , (3.2)
2 n 2 n
con t1− α el percentil 100(1 − α2 ) de la distribución t de student con n − 1 grados de libertad.
2

Ejemplo 3.4. Suponga que X ∼ N(µ, σ 2 ) representa al salario quincenal (en soles) de los
trabajadores de construcción civil. Con fines de estimar la media y la desviación estándar,
de los salarios en este sector, fue registrada la muestra aleatoria siguiente:

1349,9 861,2 1622,1 2138,2 2099,2 2366,6 408,2 1382,9 2047,5 956,6
1154,9 654,8 576,5 1011,2 1113,2 441 1216 1298 1567,4 1317,3
1336,5 1314,9 2171,3 1457,4 1406,9 1243,4 2486,1 1932,8 2687,8 1172,5

De esta muestra X̄ = 1426,41 y S = 593,72. De una tabla t de student con 29 grados de


libertad se obtiene t1− α = t0,975 = 2,0452. Por lo tanto, a partir de (3.2) y los resultados de
2
esta muestra podemos inferir, con una confianza del 95 %, que la media de los salarios de los
trabajadores de construcción civil está entre 1204,71 y 1648,11 soles.

3.5. Intervalo de confianza para la varianza σ 2 de una población


normal

Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces, un


intervalo del 100(1 − α) % de confianza para estimar a σ 2 está dado por
" #
(n − 1)S 2 (n − 1)S 2
; , (3.3)
χ21− α χ2α
2 2

α
2
con χ1− α y χ2α los percentiles 100(1 − 2
) y 100( α2 ) de la distribución ji-cuadrado con n − 1
2 2
grados de libertad, respectivamente.
Ejemplo 3.5. En el ejemplo anterior, estimemos la desviación estándar de los salarios
quincenales. Como en el ejemplo anterior S = 593,72. De una tabla ji-cuadrado con 29
grados de libertad se obtienen los percentiles χ2α = χ20,025 = 16,0471 y χ21− α = χ20,975 =
2 2
45,7223. Estos valores en (3.1) dan el intervalo de estimación del 95 % de confianza
para σ 2 : [223580,1723; 637037,2038]. De este intervalo se obtiene el correspondiente a
σ : [472,84; 798,15]. Por lo tanto, a partir de los resultados de esta muestra, podemos inferir,
con una confianza del 95 %, que la desviación estándar de los salarios de los trabajadores de
construcción civil está entre 472,84 y 798,15 soles.

87
88 José Flores Delgado Estadı́stica inferencial

3.6. Ejercicios propuestos

Ejercicio 3.1. Se desea estimar la duración media, θ, de cierta clase de dispositivo


eléctrónico cuya duración sigue una distribución exponencial. Para este fin, se toma una
muestra de un solo dispositivo y se mide su duración X.

a) Sea el estimador θ̂ = X, ¿es este insesgado? ¿Cuál es su error estándar de estimación?

b) Determine el nivel de confianza del intervalo [ θ̂/20; 20θ̂ ] para estimar a θ.

Ejercicio 3.2. Sea [L1 ; L2 ] un intervalo del 100γ % de confianza para estimar θ. Si g es una
función monótona creciente (esto es, x ≤ y ⇔ g(x) ≤ g(y)), demuestre que [ g(L1 ); g(L2 ) ]
es un intervalo del 100γ % de confianza para estimar a g(θ).

Ejercicio 3.3. El tiempo, en meses, hasta que el precio de una acción logra su valor óptimo
es una variable aleatoria X ∼ exp(β). Para obtener inferencias acerca del parámetro β, se
tomará una muestra aleatoria de tamaño n de X : (X1 , . . . ,Xn ), y se considerará como
estimador de β a β̂ = X(1) , con X(1) = min{X1 , . . . ,Xn }. Sea también Y = β X(1) .

a) Use el ejercicio 1.47 para demostrar que Y ∼ exp(n).

b) Use la variable base Y, dada anteriormente, para deducir un intervalo del 95 % de


confianza para estimar a β.

c) Se dispone de la muestra aleatoria de 10 valores de X siguiente:

0,96 0,21 1,82 4,59 4,32 6,36 0,03 1,05 3,98 0,30

Según esta muestra disponible y el intervalo de confianza deducido en la parte anterior,


entre qué valores se puede afirmar, con una confianza del 95 %, que se encontrará
µX : el tiempo promedio en el que el precio de esta acción logra su valor óptimo.
1
Recuerde que si X ∼ exp(β), entonces, µX = .
β
Ejercicio 3.4. En el ejercicio propuesto 2.16:

a) A partir del resultado la parte c, obtenga una variable base y construya un intervalo
de confianza, del 95 %, para estimar a β.

b) A partir del resultado anterior, deducir un intervalo de confianza, del 95 %, para estimar
el tiempo promedio que permanecen afiliados los empleados. Luego obtenga e interprete
el intervalo de estimación que se obtiene con la muestra dada.

c) Verifique W = β X(1) también es una variable base para β y deducir un intervalo
de confianza, del 95 %. Luego obtenga e interprete el intervalo de estimación que se
2
obtiene con la muestra dada. Recuerde que FX (x) = 1 − e−β x , x > 0.

88
José Flores Delgado Intervalos de confianza 89

Ejercicio 3.5. A partir del intervalo de confianza usual para la varianza σ 2 de una población
normal, dado por la ecuación (3.3), deducir uno (con el mismo grado de confianza) para la
desviación estándar σ.

Ejercicio 3.6. En contexto del ejercicio propuesto 2.29:


α̂mv α̂mv
a) Determine el grado de confianza que tiene el intervalo [ 1,196 ; 0,804
] para estimar α. Use
el resultado de la última parte de ese ejercicio.
b) A partir del I.C. anterior construya uno, con el mismo grado de confianza, para estimar
el ingreso mensual promedio.
c) Evalúe e interprete los intervalos de confianza anteriores, si al tomar la muestra
aleatoria de 36 ingresos (en miles de soles) se obtuvieron los resultados siguientes:

0,57 0,83 0,97 0,71 0,93 0,77 0,23 0,82 0,61 0,62 0,71 0,73
0,83 0,77 0,72 0,99 0,44 0,85 0,67 0,45 0,83 0,48 0,48 0,85
0,90 0,86 0,91 0,75 0,68 0,74 0,95 0,94 0,67 0,74 1,00 0,89

Ejercicio 3.7. Otro de los modelos usados para una variable aleatoria positiva es el
exponencial generalizado 13 , el cual se define por la función de densidad siguiente:

f (x) = θ1 θ2 e−θ2 x (1 − e−θ2 x )θ1 −1 , x > 0; θ1 > 0, θ2 > 0.

Si una variable X sigue este modelo lo denotamos por X ∼ expg(θ1 ; θ2 ).

Suponga nuevamente el contexto del ejercicio 2.16, pero ahora se propone un modelo
expg(θ1 ; θ2 ). Se usará la muestra disponible y los estimadores de máxima verosimilitud θ̂1 y
aprox. p
θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo
elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el logaritmo
natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).

a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
ˆ
θ1 = 2,4007; −0,377969155 −0,003391514
H −1 = .
−0,003391514 −0,00005279384
θˆ2 = 0,0410; Ln(L(θˆ1 , θˆ2 )) = −163,5017.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo exponencial generalizado
propuesto puede simplificarse a uno exponencial. Observe que expg(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.
13
Gupta & Kundu(1999). Theory & methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2), 173–188. Vea también el ejercicio 1.48d)

89
90 José Flores Delgado Estadı́stica inferencial

Ejercicio 3.8. Sea X ∼ G(2, θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
P
5
aleatoria de X : X1 , . . . , X5 . Considere también la variable W = θ Xj .
j=1

P
5
a) Verifique W es una variable base para θ. Tenga en cuenta que Xj ∼ G(10, θ).
j=1
Luego construya un intervalo del 95 % de confianza para estimar a θ. Considere que si
Y ∼ G(10, 1); entonces, FY (4,7954) = 0,025 y FY (17,0848) = 0,975.

b) Para la muestra siguiente: X1 = 5,5, X2 = 2,2, X3 = 4,4, X4 = 1,25, X5 = 1,1; evalúe


e interprete el intervalo hallado anteriormente.

Ejercicio 3.9. El error del pronóstico con un modelo es una variable aleatoria X con
distribución uniforme en (0, θ). Se tomará una muestra aleatoria de X : X1 , . . . , X5 .

X(5)
a) Verifique W = es una variable base para θ y construya un intervalo del 95 % de
θ
x5
confianza. Puede usar el ejercicio 1.47 para verificar que FX(x) = 5 , 0 < x < θ.
(5) θ
b) Evalúe e interprete el intervalo hallado si X1 = 0,05; X2 = 0,2; X3 = 0,4; X4 =
0,025; X5 = 0,1.
Ejercicio 3.10. En el método de la variable base para construir intervalos de confianza,
descrito en la sección 3.2, se consideran los valores a y b tales que F (a) = α/2 y
W
F (b) = 1 − α/2, de modo que P (a ≤ W ≤ b) = 1 − α. Luego se determinan L1 y L2
W
tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . Esta manera de obtener a y b es una convención
aceptada; sin embargo, cualesquiera a y b que satisfagan F (b) − F (a) = 1 − α, son útiles.
W W
Es decir, se puede hallar un intervalo que eventualmente es mejor si se escogen los valores a
y b que minimizan el valor esperado de la longitud del intervalo, E(L2 − L1 ), y satisfagan
la condición F (b) − F (a). Ası́, una modificación del método para obtener un intervalo de
W W
confianza, a partir de una variable base, con longitud esperada mı́nima es la siguiente:

i) Determinar L1 y L2 tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . Estos valores


dependerán de la muestra X1 , . . . , Xn , de a y de b, es decir, L1 = L1 (X1 , . . . , Xn , a, b)
y L2 = L2 (X1 , . . . , Xn , a, b). W es la variable base escogida.

ii) Obtener g(a,b) = E(L2 −L1 ). Usar propiedades del valor esperado que permitan obtener
una expresión simplificada de g(a,b) para realizar el paso siguiente.

iii) Resolver el problema de optimización: mı́n g(b,a), sujeto a F (b) − F (a) = 1 − α.


a,b W W

iv) En las expresiones de L1 y L2 del paso i reemplazar los valores de a y de b obtenidos


en el paso iii.

Sea X ∼ N(µ; σ 2 ), con σ 2 conocido. Use este método para encontrar el intervalo de confianza
para µ con la misma variable base de la deducción del intervalo de confianza usual en (3.1).

90
José Flores Delgado Intervalos de confianza 91

Ejercicio 3.11. Considere X1 , . . . , Xn , una muestra aleatoria, grande, de una distribución


de Poisson con parámetro λ.


a) Si W1 = n(√ X̄n −λ)
λ
, compruebe que W1 es una variable base para λ y, a partir de
esta, construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.

n(X̄n −λ) D
Recuérdese que, por el T.L.C. √
λ
→ Z ∼ N(0; 1).

n(X̄n −λ)
b) Justifique por qué W2 = √ es una variable base para λ y, a partir de esta,
X̄n
construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.

n(X̄n −λ) D
Use el resultado asintótico siguiente: √ → Z ∼ N(0; 1).
X̄n

c) Se asume que el número de clientes que utilizan cierto cajero automático, durante un
intervalo de 10 minutos durante la tarde del fin de mes, sigue una distribución de
Poisson. Cuando se colocó este cajero se hizo esperando un promedio de 15 clientes
cada 10 minutos, qué puede concluir al respecto a partir de los resultados obtenidos
en 100 intervalos de 10 minutos cada uno:
19 19 25 26 18 19 20 18 13 21 25 12 19 17 17 14 24 22 19 21
17 16 20 19 20 20 29 20 27 21 17 21 19 17 23 24 20 20 15 22
22 24 20 21 24 16 26 26 17 22 23 22 16 20 15 23 15 18 13 22
25 21 18 17 27 19 15 22 21 13 16 26 20 23 25 17 21 18 25 15
22 13 20 21 22 12 14 22 17 36 19 26 20 17 12 16 23 17 20 17

Utilice los resultados de las partes anteriores. ¿Cuál de los dos intervalos cree que da
una mejor información?

Ejercicio 3.12. Sobre la rentabilidad, X, de cierta operación financiera, se sabe que tiene
distribución normal, que su promedio vale cero, pero se desconoce su volatilidad (σ).Para
obtener inferencias sobre σ se planifica tomar una muestra aleatoria de 20 observaciones.

1 P n
a) Demuestre que W1 = X 2 es una variable base para σ y úsela para construir
σ 2 j=1 j
un intervalo del 95 % de confianza. ¿Es este intervalo mejor que el intervalo usual
(determinado en la ecuación (3.3))?

b) Al tomar la muestra de tamaño 20 se obtuvieron los valores de X siguientes:

2,11 -0,89 0,45 -0,44 -7,75 -3,37 5,61 1,09 4,19 -2,48
-6,35 7,96 2,37 -1,14 2,54 -7,65 7,24 -9,5 -2,12 17,14

Evalúe e interprete el intervalo determinado en la parte a. ¿Serı́a cierto que la


volatilidad supera el valor de 2?

91
92 José Flores Delgado Estadı́stica inferencial

Ejercicio 3.13. Sean X ∼ N(0; σ 2 ) y la muestra aleatoria X1 , . . . , Xn . A partir de cada


P
n
uno de los estimadores de σ 2 siguientes: σ̂12 = S 2 , σ̂22 = n1 Xj2 y σ̂32 = nX̄ 2 , obtenga una
j=1
variable base y un intervalo de confianza del nivel 95 % de confianza para estimar a σ 2 .

Ejercicio 3.14. En el estudio sobre la rentabilidad de cierta acción, que se cotiza en la


bolsa de valores, se acostumbra usar dos tipos de tasas definidas a partir del precio (V ) de
la acción: la rentabilidad bruta (X), que es el cociente entre los precios de cierre del dı́a y
el del anterior, y la rentabilidad continua (Y ), que es el logaritmo natural del cociente entre
los precios de cierre del dı́a y el del anterior. Para estimar los promedios de estos tipos de
tasas de rentabilidad (µX y µY ) se registraron los precios de cierre de 12 dı́as consecutivos y
se calcularon los dos tipos de rentabilidad. Los resultados se muestran en la tabla siguiente:

Dı́a 1 2 3 4 5 6
V 3,43 3,38 3,59 3,41 3,52 3,6
X 1,0148 0,9854 1,0621 0,9499 1,0323 1,0227
Y 0,0147 -0,0147 0,0603 -0,0514 0,0317 0,0225
Dı́a 7 8 9 10 11 12
V 3,66 3,6 3,54 3,53 3,45 3,42
X 1,0167 0,9836 0,9833 0,9972 0,9773 0,9913
Y 0,0165 -0,0165 -0,0168 -0,0028 -0,0229 -0,0087

El precio anterior al primer dı́a fue V0 = 3,38. Además, se asume que X ∼ N(µX ; 0,0004) y,
1 2 2
por lo tanto, Y ∼ LogN(µY , σY2 ), con µY = eµX + 2 σX y σY2 = µY2 (eσX − 1).

a) Construya un intervalo del 95 % de confianza para estimar el valor del promedio de la


rentabilidad bruta de esta acción, µX , con la muestra dada. Use (3.1).

b) A partir del intervalo hallado anteriormente, construya otro del 95 % de confianza para
estimar el valor del promedio de la rentabilidad continua de esta acción, µY .

Ejercicio 3.15. Sean X ∼ N(µ1 ; σ 2 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ 2 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior. Sea T definida en (2.4) del ejercicio 2.34. Justifique
por qué T es una variable base para µ1 − µ2 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar esta diferencia, dado en la ecuación siguiente:
" s s #
1 1 1 1
X̄ − Ȳ − t1− α Sp + ; X̄ − Ȳ + t1− α Sp + , (3.4)
2 n1 n2 2 n1 n2

(n1 − 1)S12 + (n2 − 1)S22


con Sp2 = y t1− α el percentil 100(1 − α2 ) de la distribución t de
n1 + n2 − 2 2

student con n1 + n2 − 2 grados de libertad.

92
José Flores Delgado Intervalos de confianza 93

Ejercicio 3.16. Se desea comparar dos procedimientos para realizar tareas similares y cuyos
tiempos respectivos siguen una distribución normal con la misma varianza. En particular,
se quiere saber cuál procedimiento es más rápido en general. Con ese fin se tomaron
dos muestras independientes de tareas realizadas con estos procedimientos, cuyos tiempos
correspondientes (medidos en minutos) se muestran en la tabla siguiente:

X = tiempo con el procedimiento 1


1,90 5,63 4,14 5,68 5,75 4,75 2,82 5,24 3,94 5,60
1,83 6,68 4,59 4,94 7,55 3,00 1,39 4,55 1,75 8,50
Y = tiempo con el procedimiento 2
3,25 0,65 3,67 4,17 0,86 1,68 5,08 1,63 4,74 1,40
5,52 0,60 3,06 3,30 3,14 5,19 0,69 7,04 3,29 3,72
3,84 1,90 3,64 3,65 1,40 4,87 3,93 4,45 2,39 3,67

a) Estime, puntualmente, µ1 − µ2 : la diferencia entre los tiempos promedios de cada


procedimiento. A partir de esta estimación, ¿qué se puede concluir, aparentemente?

b) Estime µ1 − µ2 mediante el intervalo del 95 % de confianza que se deduce de (3.4) en


el ejercicio 3.15. ¿Qué se puede concluir?

Ejercicio 3.17. Sean X ∼ N(µ1 ; σ12 ) e Y ∼ N(µ2 ; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable F definida en (2.4) de la subsección 2.5.4. Justifique
por qué F es una variable base para σ12 /σ22 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar este cociente, dado en la ecuación siguiente:
" #
S12 /S22 S12 /S22
; , (3.5)
F1− α2 F α2

con F1− α y F α los percentiles 100(1 − α2 ) y 100( α2 ) de la distribución F con grados de


2 2
libertad en el numerador y denominador iguales a n1 − 1 y n2 − 1, respectivamente.

Ejercicio 3.18. La rentabilidad mensual al invertir en la acción 1 se considera una variable


aleatoria X ∼ N(0, σ12 ) y la rentabilidad mensual al invertir en la acción 2, Y ∼ N(0, σ22 ).
Se desea decidir por cuál de las dos acciones invertir; es decir, determinar cuál de las dos
tiene una rentabilidad con menor volatilidad (puesto que el promedio de ambas es el mismo).
Use el intervalo de confianza del 95 % que deduce de (3.5) del ejercicio 3.17 y las muestras
aleatorias siguientes:

Rentabilidad de la acción 1 -0,6 -0,1 0,3 -0,2 0,2 0,2 1,2 0,2 -0,7
Rentabilidad de la acción 2 1,4 -2,7 1,6 1,5 -1,8 1,9 1,2 -1,9 -0,1

93
94 José Flores Delgado Estadı́stica inferencial

Ejercicio 3.19. Sean X ∼ N(0; σ12 ) e Y ∼ N(0; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable
n1
P
n2 Xj2
j=1 σ22
F1 = n2
P 2 σ2
.
n1 Yj 1
j=1

a) Halle la distribución de F1 para comprobar que esta es una variable base para σ12 /σ22 .
Luego deduzca un intervalo del 100(1 − α) % de confianza, para estimar este cociente.

b) Use el intervalo de confianza anterior para resolver el ejercicio 3.18. Compare.

Ejercicio 3.20. Considere el modelo de regresión lineal: Yj = θ Xj + ǫj , j = 1, . . . , n, con


los supuestos clásicos. Sea θ̂ es el estimador de cuadrados mı́nimos de θ. Suponga también
que los errores ǫj , j = 1, . . . , n, tienen una distribución normal con varianza σ 2 conocida.

a) Halle la distribución de las variables Yj , j = 1, . . . , n.


P
n 
b) Demuestre que θ̂ ∼ N θ; σ 2 / Xj2 .
j=1

c) Justifique por qué Z, la estandarización de θ̂, es una variable base para θ.

d) Use la variable base definida anteriormente para deducir un intervalo para estimar a θ
con una confianza del 95 %.

Ejercicio 3.21. Para predecir el consumo, Y, a partir del ingreso, X, se considere el modelo
de regresión lineal: Yj = α + β xj + ǫj , en donde los errores ǫj , son independientes y tienen
una distribución normal de media cero y varianza σ 2 (desconocida).

a) Construya un intervalo de confianza del 95 % para estimar la propensión marginal a


consumir y luego evalúelo para los datos dados. Use la variable base siguiente:

σ̂
T2 = r ∼ t(n − 2)
P
n
(Xi − X̄)2
i=1

b) Se tiene la hipótesis de que un incremento en el ingreso de 100 u.m. originará un


incremento en el consumo mayor que 40 u.m. Analice la veracidad de esta hipótesis,
mediante el intervalo de la parte anterior y la muestra siguiente:

xj 1 1,5 2 2,5 3 3,5 4 4,5 5


Yj 0,8 1,2 1,4 1,6 1,8 2 2,4 2,6 3

94
José Flores Delgado Intervalos de confianza 95

Ejercicio 3.22. El ingreso mensual (en cientos de soles) de las familias en cierta región
se considera una variable aleatoria X ∼ G(θ1 ; θ2 ), con θ1 > 0, θ2 > 0. Para estimar
estos parámetros se tomará una muestra aleatoria de tamaño n = 100 y se usarán los
estimadores de máxima verosimilitud θ̂1 y θ̂2 . Como el tamaño de muestra es grande, son
válidas las distribuciones asintóticas dadas en (2.2): Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), donde
p
σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo elemento de la diagonal de la inversa de H la matriz hessiana
de Ln(L(θ1 ,θ2 )), el logaritmo natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).

a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Tomada la muestra aleatoria de 100 de estos ingresos se registraron los ingresos:

4,66 6,47 5,54 3,59 3,08 3,74 4,98 4,13 4,42 5,38 6,29 6,12 4,62 4,09 2,65 7,06 5,93 4,44 4,97 5,99
1,58 9,43 6,43 4,11 6,78 6,68 2,47 6,21 2,95 5,93 3,63 3,11 3,50 7,02 6,46 7,52 4,57 4,10 2,62 5,90
3,84 5,78 3,26 9,69 2,96 7,52 4,50 5,61 4,02 6,97 3,52 3,24 11,8 5,08 6,96 2,39 4,88 4,74 6,40 3,43
5,90 5,16 5,08 7,66 2,84 1,57 5,92 4,77 9,34 2,49 5,74 7,22 5,74 2,92 5,58 4,36 2,33 4,21 4,28 7,10
4,79 2,04 3,75 8,29 3,43 8,98 6,54 1,11 5,19 11,76 3,16 4,33 11,31 9,22 4,61 4,37 6,74 6,70 6,08 5,14

Procesada la muestra con el programa estadı́stico R se obtuvieron:


θˆ1 5,8908 !
−0,6571 −0,1255
θˆ2 1,1253 H −1 = .
ˆ ˆ −0,1255 −0,0261
Ln(L(θ1 , θ2 )) -212,8558
Evalúe e interprete los intervalos de confianza hallados en la parte anterior.
c) Use una de sus conclusiones anteriores para averiguar si el modelo gamma propuesto
puede simplificarse a uno exponencial.

Ejercicio 3.23. En el contexto de los ejercicios 2.16 y 3.7, ahora se propone un modelo
Weibull (θ1 ; θ2 ). Se usarán la muestra disponible y los estimadores de máxima verosimilitud
aprox. p
θ̂1 y θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el
i-ésimo elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el
logaritmo natural de la función de verosimilitud evaluada en (θ̂1 ; θ̂2 ).
a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
−0,046940344 0,000369638
θˆ1 = 1,6426; H −1 = ;
ˆ ˆ ˆ 0,000369638 −0,000003015
θ2 = 0,0019; Ln(L(θ1 , θ2 )) = -163,127.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo Weibull propuesto puede
simplificarse a uno exponencial. Observe que W eibull(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.

95
96 José Flores Delgado Estadı́stica inferencial

Ejercicio 3.24. Sea X1 , . . . , Xn una muestra aleatoria de X. Considere el parámetro


P
n
p = P (X ∈ A) y su estimador usual p̄ = n1 Yj , con Yj = 1A (Xj ), j = 1, . . . , n.
j=1
a) Demuestre que E(Y ) = p y V (Y ) = p(1 − p). Note que Y1 , . . . , Yn es una muestra
aleatoria de Y = 1A (X).
p
b) Para cada n ∈ +
N
, sea Un = p
p(1 − p)
p̄(1 − p̄)
. Halle el lı́mite casi seguro de Un .

N+, sea Zn = √n(p̄−p)



D
c) Para cada n ∈ . Use el T.L.C. para demostrar que Zn → N(0; 1).
p(1−p)

N+, sea Wn = √n(p̄−p)



d) Para cada n ∈ . Use los resultados anteriores y el Teorema de
p̄(1−p̄)
D
Slutsky para demostrar que Wn → N(0; 1). Note que Wn = Un Zn .

e) Con Wn como variable base y el resultado anterior, deducir el intervalo usual del
100(1 − α) % de confianza para estimar a p, si el tamaño de muestra es suficientemente
grande:
 1 p 1 p 
p̄ − √ z1−α/2 p̄(1 − p̄) ; p̄ + √ z1−α/2 p̄(1 − p̄) .
n n
f) Una encuesta aplicada a una muestra aleatoria de 1000 electores reveló que solo 200
estaban de acuerdo con la gestión de cierta autoridad. Determine, qué se puede inferir,
a partir de estos últimos resultados y con una confianza del 95 %, sobre la la proporción
p de electores que aprueban la gestión de la autoridad. Use el resultado anterior.

Ejercicio 3.25. Para predecir el consumo, Y, a partir del ingreso, X, (ambos expresados en
las mismas u.m), se considere el modelo de regresión lineal: Yj = θ1 + θ2 xj + ǫj , en donde
los errores ǫj , j = 1, . . . ,n son independientes y tienen una distribución normal N(0; σ 2 ).
P
n
p xj Yj − nX̄ Ȳ
a) Sea T = SX (n − 2)(n − 1) / SCE ( θˆ2 − θ2 ), donde θ̂2 = j=1
(n−1)S 2
y
X
P
n
(n−1)2 S 2 S 2 − [ xj Yj − nX̄ Ȳ ]2
X Y
j=1
SCE = (n−1)S 2
. Pruebe que T ∼ t(n − 2).
X

Observaciones:
θˆ2 ∼ N( θ2 ; σ 2 /((n−1)S 2X ) ); SCE/σ 2 ∼ χ2 (n−2); θ̂2 y SCE son independientes.

b) Construya el intervalo de confianza del 95 % para estimar a θ2 (la propensión marginal


a consumir). Considere como variable base a T (definida anteriormente).

c) Se dispone de la muestra siguiente:

xj 1 1,5 2 2,5 3 3,5 4 4,5 5


Yj 0,8 1,2 1,4 1,6 1,8 2 2,4 2,6 3

Evalúe e interprete el intervalo hallado anteriormente. Luego infiera, estadı́sticamente,


respecto de la hipótesis siguiente: un incremento en el ingreso de 100 u.m. originará un
incremento en el consumo mayor que 40 u.m.

96
4. Pruebas o contrastes de hipótesis

4.1. Introducción

Se tienen dos hipótesis relacionadas con los parámetros de la distribución de una variable
X, digamos, H0 , llamada hipótesis nula (pues en general esta es la que se cree será descartada)
y H1 llamada hipótesis alternativa (pues es la que se considerará como válida en caso
de descartar H0 ); las cuales se contrastan o someten a prueba, a partir de los resultados
obtenidos de una muestra aleatoria de X, es decir, se tomará una decisión optando por la
validez de una de las hipótesis.

Ejemplo 4.1. Como ejemplo veamos el problema siguiente en el que se contrastan dos
posiciones, por una parte la del fabricante de cierto tipo de componente, por otra la de un
comprador. El fabricante especifica que el tiempo de vida promedio de estos componentes es
de 10 meses; sin embargo el cliente afirma que este promedio es de solo 5 meses. En cualquier
caso asumimos que la duración del componente sigue una distribución exponencial. Si X es
el tiempo de vida de los componentes (en meses) y µ es la media correspondiente; entonces,
el problema enunciado anteriormente puede formularse como uno de contraste o prueba de
hipótesis, en el que las hipótesis estadı́sticas pueden ser expresadas como:

H0 : µ = 10 y H1 : µ = 5.

Supongamos que el fabricante decidiera descartar su especificación y aceptar la del cliente,


siempre y cuando el tiempo de vida del componente que compre el cliente resultara menor
que 9 meses.

Definición 4.1. La regla de decisión o región crı́tica, RC, de una prueba o contraste de
hipótesis establece la condición que debe cumplir la muestra para rechazar la hipótesis nula.

Observación 4.1. La regla de decisión se expresa usualmente en términos de una estadı́stica


que indica cuándo se debe rechazar H0 , esta estadı́stica es llamada, por tal razón, estadı́stica
de prueba o de contraste. Esta regla tiene carácter aleatorio, pues depende de la muestra
aleatoria.

Ejemplo 4.2. Para el problema planteado en los ejemplos anteriores consideremos que X
sea la duración del componente que compre el usuario. La regla de decisión dada puede ser
expresada en términos de X de la manera siguiente:

Se rechazará H0 , si X < 9.

97
98 José Flores Delgado Estadı́stica inferencial

Definición 4.2. Al tomar una decisión a partir de una muestra aleatoria, se puede cometer
uno de los tipos de errores siguientes:

I : rechazar H0 siendo esta verdadera,


II : aceptar H0 siendo esta falsa;

el primero se denomina error de tipo I, pues, al llamar hipótesis nula a H0 esperarı́amos


es que esta fuera rechazada; el otro se denomina error de tipo II. Las probabilidades
correspondientes a estos errores se denotan por α y β, respectivamente. Es decir,

α = P (rechazar H0 siendo esta verdadera)


β = P (aceptar H0 siendo esta falsa).

Ejemplo 4.3. En el problema planteado en los ejemplos anteriores, recordamos la regla de


decisión para rechazar H0 para obtener

α = P (Rechazar H0 siendo esta verdadera)


= P (X < 9 siendo µ = 10);

pero como hemos asumido que X tiene distribución exponencial y, si H0 es verdadera, es


decir, si µ = 10, tenemos que FX (x) = 1 − e−x/10 , x > 0 (recuérdese que la media en la
distribución exponencial es el inverso del parámetro); ası́

α = 1 − e−9/10 = 0,5934.

Por otra parte, cuando H0 es falsa o, equivalentemente, cuando H1 es verdadera, X tiene


distribución exponencial con media µ = 5 y FX (x) = 1 − e−x/5 , x > 0, por lo tanto

β = P ( Aceptar H0 siendo esta falsa)


= P (X ≥ 9 siendo µ = 5).
= 1 − (1 − e−9/5) = 0,1653.

La gráfica siguiente ilustra los valores de α y β :


fX
1
5

1
H0 : µ = β
= 10
1
H1 : µ = β
=5
1
10

α
β
0 9 X
| {z }| {z }

Rechazar H0 Aceptar H0

98
José Flores Delgado Pruebas o contrastes de hipótesis 99

Definición 4.3. También se define la potencia del contraste, o de la prueba, como la


probabilidad de rechazar H0 siendo falsa. La denotamos por π, ası́, π = 1 − β.

Observación 4.2. El nombre de potencia se justifica por la razón siguiente: si H0 es la


llamada hipótesis nula, desearı́amos que, justamente, nuestra decisión sea la de rechazarla
cuando esta sea realmente falsa; es decir, rechazarla sin cometer error.

Ejemplo 4.4. En el problema formulado en los ejemplos anteriores, la potencia es 1 − β =


0,8347. Entonces, según los valores obtenidos de α, β y π, podemos decir que al aplicar esta
decisión de carácter aleatoria:

− si H0 es verdadera, en el 59,34 % de las veces la decisión es incorrecta;

− si H0 es falsa, en el 16,53 % de las veces la decisión es incorrecta,

− si H0 es falsa, en el 83,47 % de los casos la decisión es correcta.

Por ejemplo, si el tiempo de vida del componente que compre el cliente resulta de 6,5 meses;
entonces, la decisión que se toma es rechazar H0 (lo especificado por el fabricante). En este
caso corremos el riesgo de caer dentro del 59,34 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al fabricante.

Por otra parte si, por ejemplo, el tiempo de vida del componente que compre el cliente resulta
de 9,5 meses, la decisión que se toma es aceptar H0 (lo especificado por el consumidor). En
este caso se corre el riesgo de caer dentro del 16,53 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al consumidor. También se puede decir que al tomar esta
decisión, se tendrá una confianza del 83,47 % de estar en lo correcto. A partir de estos casos,
se concluye que la regla de decisión es inadecuada, pues, al usarla se corren riesgos muy altos.

Observación 4.3. Como en el caso de los intervalos de confianza, las probabilidades


anteriores son válidas antes de tomar la muestra. Después de tomar la muestra, si se rechaza
H0 , se dice que se tiene un “nivel de significación” igual a la de tomar una decisión incorrecta,
pues, cuando H0 es verdadera, el 100(1−α) % de las muestras conducen a rechazarla (según la
interpretación de la probabilidad como frecuencia), es decir, a tomar una decisión incorrecta.

Para tener una buena regla de decisión o prueba estadı́stica, tanto α como β deben ser
suficientemente pequeños. Sin embargo, en la mayorı́a de los casos cuando disminuye uno de
estos valores, el otro aumenta. Ası́, se fija previamente el nivel de significación en 5 % ó 1 %
usualmente; luego se determina la regla de decisión o región crı́tica con la menor probabilidad
de cometer un error tipo II o, equivalentemente, con la máxima potencia. Por tal razón, estas
pruebas se llaman óptimas.

99
100 José Flores Delgado Estadı́stica inferencial

4.2. El Lema de Neyman-Pearson

Supongamos que el modelo probabilı́stico de la muestra que se registrará, X1 , . . . ,Xn ,


dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ, con Θ = { θ0 , θ1 } ⊂ k ; es decir, R
f (x1 , . . . ,xn ) = f (x1 , . . . ,xn ; θ) = f (x1 ; θ) . . . f (xn ; θ).
X1 , . . . ,Xn X1 , . . . ,Xn X1 Xn

Sea L(θ) = L(θ; X1 , . . . ,Xn ) la estadı́stica que define la función de verosimilitud:

L(θ) = L(θ; X1 , . . . ,Xn ) = f (X1 , . . . ,Xn ; θ) = f (X1 ; θ) . . . f (Xn ; θ). (4.1)


X1 , . . . ,Xn X1 Xn

Dadas las hipótesis:


H 0 : θ = θ0 y H 1 : θ = θ1 ,
la región crı́tica óptima, RC, entre todas las que tienen una probabilidad de cometer el error
tipo I igual a α, es decir, aquella con menor probabilidad del Error tipo II, β, está dada por
 
L(θ1 )
RC = X1 , . . . ,Xn : >c , (4.2)
L(θ0 )
donde c es una constante que satisface la ecuación
 
L(θ1 )
P > c, cuando H0 es verdadera = α. (4.3)
L(θ0 )

Ejemplo 4.5. Sea X ∼ exp(θ). Se desea contrastar las hipótesis siguientes:

H0 : θ = 1/10 y H1 : θ = 1/5,

a partir de una muestra grande de tamaño n = 36, de modo que la probabilidad de cometer
un error tipo I sea α = 0,05. En este caso, el número de parámetros es k = 1, θ0 = 1/10 y
θ1 = 1/5. La estadı́stica que define la función de verosimilitud está dada por

L(θ) = f (X1 ; θ) . . . f (X36 ; θ) = θ36 e−θ X1 − ... −θ X36 = θ36 e−36 θ X̄ . (4.4)
X X

En este caso la región crı́tica óptima, dada en (4.2), resulta


 
L(1/5)
RC = X1 , . . . , X36 : >c , (4.5)
L(1/10)

donde la constante c, de (4.3), satisface


   
L(1/5) L(1/5)
P > c, si H0 es verdadera = P > c, si θ = 1/10 = 0,05. (4.6)
L(1/10) L(1/10)
Para hallar la constante c, se simplifica la condición que debe satisfacer la muestra para
rechazar H0 (la dada en la ecuación (4.5)), a partir de (4.4):

L(1/5) (1/5)36 e−36 X̄/5 1 1


>c⇔ > c ⇔ e−36( 5 − 10 ) X̄ > c ⇔ X̄ < c. (4.7)
L(1/10) 36
(1/10) e −36 X̄/10

100
José Flores Delgado Pruebas o contrastes de hipótesis 101

Ası́, si esta simplificación dada en (4.6) se usan en las ecuaciones (4.5) y (4.7), sigue que

RC = { X1 , . . . , X36 : X̄ < c },

con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10. (4.8)
La ecuación (4.8) para c tiene una sola solución, pues, X̄ es una variable aleatoria continua y
su distribución acumulada tiene inversa. Para hallar este valor c podemos usar la propiedad
P36
de la distribución exponencial por la que T = 36X̄ = Xj ∼ G(36; θ). Ası́, (4.8) resulta
j=1

FT (36c) = 0,05; con θ = 1/10 ⇔ 36c = FT−1(0,05), con θ = 1/10 ⇔ 36c = 267,3117,

donde el valor 267,3117 corresponde a la inversa de la distribución acumulada G(36; 1/10)


evaluada en 0,05, que se obtiene mediante métodos numéricos (o programa computacional,
como el R o el Excel). Por lo tanto, c = 7,4253 RC = { X1 , . . . ,X36 : X̄ < 7,4253 }; es decir,
se rechaza H0 , si, X̄ < 7,4253.

Una alternativa es obtener una aproximación del valor de c a partir de la aproximación de


la distribución de X̄ por la normal (pues n = 36 es grande), X̄ ∼ N(1/θ ; 1/(36θ2 )). En
particular, si H0 es verdadera, es decir, si θ = 1/10, se tiene que X̄ ∼ N(10; 102 /36) y
Z = 0,6(X̄ − 10) ∼ N(0, 1). Ası́, la ecuación (4.8) resulta

FZ (0,6(c − 10)) = 0,05 ⇔ 0,6(c − 10) = −1,645 ⇔ c = 7,2583.

Ejemplo 4.6. En el contexto del ejemplo 4.5, al tomar la muestra se obtuvieron los valores
mostrados en la tabla siguiente:

2,89 0,64 5,45 13,76 12,96 19,09 0,09 3,14 11,94 0,90 1,69 0,28
0,2 1,08 1,49 0,1 2,01 2,52 4,84 2,65 2,79 2,64 14,47 3,76
3,33 2,17 22,31 9,86 28,43 1,78 2,06 0,33 7,33 10,17 1,56 3,77

Como X̄ = 5,68, se rechaza H0 . En este caso el error asociado a esta decisión es el de tipo
I, cuya probabilidad es α = 0,05. Ası́, según los resultados de esta muestra podemos inferir
que θ = 1/5; con un riesgo del 5 % de que esto sea falso.
Ejemplo 4.7. Sea X ∼ P (λ). Se desea contrastar las hipótesis

H0 : λ = 9 y H1 : λ = 8,

a partir de una muestra grande, de tamaño n = 49, y de modo que la probabilidad de cometer
un error tipo I sea α = 0,05.

Determinemos la región crı́tica óptima; es decir, aquella que tiene la menor probabilidad de
cometer un error tipo II, entre todas las definidas a partir de una muestra de X de tamaño
49. Según el Lema de Neyman-Pearson, sabemos que esta tiene la forma siguiente:
 
L(8)
RC = X1 , . . . , X49 : >c , (4.9)
L(9)

101
102 José Flores Delgado Estadı́stica inferencial

con c una constante que debe satisfacer (4.3). Para hallar c empecemos por determinar la
estadı́stica L que define la función de verosimilitud:

e−λ λX1 e−λ λX49 Y49 −1


−49λ 49 X̄
L(λ) = f (X1 ; λ) . . . f (X49 ; λ) = ... =e λ Xj .
X X X1 ! X49 ! j=1

Ası́, la condición que debe satisfacer la muestra para rechazar H0 es la siguiente:


Q
49 −1
−49 (8) 49 X̄
e 8 Xj  X̄  
L(8) j=1 8 8
≥c⇔  −1 >c⇔ > c ⇔ X̄ Ln > c ⇔ X̄ < c.
L(9) Q
49 9 9
e−49 (9) 9 49 X̄ Xj
j=1

De este resultado y la ecuación (4.9), se deducen que se debe rechazar H0 si X̄ < c y la


región crı́tica es RC = { X1 , . . . , X49 : X̄ < c }, donde c satisface

P (X̄ < c, con λ = 9) = 0,05 ⇔ FX̄ (c) = 0,05, con λ = 9. (4.10)

En este caso, la ecuación (4.10) determina el valor de la constante c; pero probablemente


no tenga solución o existan infinitas, pues, X̄ es una variable discreta (observe que los
valores posibles para X̄ son 0; 1/49; 2/49; . . . ). Para averiguarlo se debe tener en cuenta
que 49X̄ ∼ P (49 × 9), si λ = 9. Ası́, se pueden obtener (de la distribución de Poisson con
λ = 49 × 9) los valores FX̄ (406/49) = 0,0488, FX̄ (407/49) = 0,0539 y FX̄ (408/49) = 0,0595.
Por lo tanto, no existe un valor de c para el que se obtenga una probabilidad de error tipo I
exactamente igual a 0,05; el valor más cercano a esta probabilidad es 0,0539, que se obtiene
para cuando c = 407/49 = 8,3061. Como en el ejemplo anterior, puesto que el tamaño de
muestra es grande, una alternativa es obtener una aproximación del valor de c a partir de la
aproximación de la distribución de X̄ por la normal: X̄ ∼ N(λ; λ/49). En particular, si H0
es verdadera, esto es si λ = 9, se tiene que X̄ ∼ N(9; 9/49) y su estandarización:

7(X̄−9)
Z= 3
∼ N(0, 1). (4.11)

Ası́, de las ecuaciones (4.10) y (4.11), resulta


 
FZ 7(c−9)
3
= 0,05 ⇔ 7(c−9)
3
= −1,645 ⇔ c = 8,295.

Por lo tanto, RC = { X1 , . . . ,X49 : X̄ < 8,295 }; es decir, se rechaza H0 si, y sólo si,
X̄ < 8,295.

Ejemplo 4.8. En el ejemplo 4.7, tomemos la decisión y evaluemos el riesgo correspondiente,


si se obtuvo la muestra siguiente:

8 3 11 11 6 3 9 10 13 7 8 17 12 10 15 3 8
12 10 7 10 11 13 6 8 9 7 7 4 6 10 10 14 14
15 9 10 10 6 8 13 5 10 9 10 8 12 10 7

102
José Flores Delgado Pruebas o contrastes de hipótesis 103

Para esta muestra X̄ = 454 49


= 9,27, entonces se debe aceptar H0 . En este caso el
error asociado a esta decisión es el de tipo II, cuya probabilidad es β. Es decir, β =

P aceptar H0 siendo falsa , pero como se acepta H0 si X̄ ≥ 8,295, sigue que

β = P X̄ > 8,295, si λ = 8 ⇔ β = 1 − F (8,295), con λ = 8. (4.12)

En esta ecuación se puede considerar que 49X̄ ∼ P (49 × 8), puesto que λ = 8. También se
puede usar la aproximación de la distribución de X̄ por la normal X̄ ∼ N(8, 8/49), para
λ = 8, y su estandarización
7(X̄ − 8)
Z= √ ∼ N(0; 1). (4.13)
8
Ası́, de las ecuaciones (4.12) y (4.13), resulta
 
7(8,295−8)
β = 1 − FZ √
8
= 1 − 0,7673 = 0,2327.

Por lo tanto, ahora se puede obtener una mejor inferencia: según los resultados de esta
muestra podemos deducir que que λ = 9, con un riesgo de equivocarnos del 23,27 %.

Observación 4.4. Por el Lema de Neyman-Pearson, el valor de 0,2327, hallado en el ejemplo


anterior, es el menor valor que se puede obtener para β (la probabilidad de cometer un error
tipo II) entre las reglas de decisión que tengan un valor de α = 0,05 y sean obtenidas a partir
de una muestra de tamaño 49.

Ejemplo 4.9. Sea X ∼ exp(θ). Se desea contrastar las hipótesis siguientes:

H0 : θ = 1/10 y H1 : θ = θ1 , con θ1 > 1/10,

a partir de una muestra, de tamaño n = 36, y de modo que la probabilidad de cometer un


error tipo I sea α = 0,05.

Como en el ejemplo 4.5, se puede aplicar el Lema de Neyman-Pearson. La estadı́stica que


define la verosimilitud L es la misma dada en la ecuación (4.4):

L(θ) = θ36 e−36 θ X̄ . (4.14)

La ecuación (4.5), que define la región crı́tica óptima, ahora tiene la forma siguiente:
L(θ1 )
RC = { X1 , . . . , X36 : > c }, (4.15)
L(1/10)
donde la constante c satisface
   
L(θ1 ) L(θ1 )
P > c, si H0 es verdadera = P > c, si θ = 1/10 = 0,05. (4.16)
L(1/10) L(1/10)
Para hallar la constante c que satisface (4.16), usamos (4.14) para obtener una expresión
más simple de la condición para rechazar H0 (dada en (4.15)):

L(θ1 ) θ136 e−36θ1 X̄ 1


>c⇔ > c ⇔ (θ1 − 10
) X̄ > c; (4.17)
L(1/10) (1/10)36 e−36 X̄/10

103
104 José Flores Delgado Estadı́stica inferencial

pero como θ1 > 1/10, (4.17) equivale a X̄ < c, si esto último se usa en las ecuaciones (4.15)
y (4.16), resultan la mismas región óptima y constante c obtenidas en el ejemplo 4.5:

RC = { X1 , . . . , X36 : X̄ < c },

con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10.
Por lo tanto, como se vio en el ejemplo 4.5, c = 7,2583 y RC = { X1 , . . . ,X36 : X̄ < 7,2583 };
es decir, se rechaza H0 si, y sólo si, X̄ < 7,2583.
Observación 4.5. Por los resultados del ejemplo anterior, tenemos que, la regla de decisión
óptima, X̄ < 7,2583, basándose en una muestra de tamaño n = 36 y de modo que la
probabilidad de cometer un error tipo I sea α = 0,05, para contrastar las hipótesis siguientes:

H0 : θ = 1/10 y H1 : θ = θ1 , con θ1 > 1/10,

no depende del valor θ1 > 1/10; es decir, esta regla es la misma para cada valor de θ > 1/10
que se fije. En este caso decimos que esta regla de decisión (o región crı́tica) es uniformemente
óptima o uniformemente más poderosa, para dicha prueba o contraste de hipótesis, y la
denotamos por UMP.
Definición 4.4. Dadas las hipótesis

H0 : θ = θ0 y H1 : θ ∈ Θ1 ,

decimos que la región crı́tica RC o (regla de decisión) es uniformemente óptima o


uniformemente más poderosa, entre todas aquellas regiones con una probabilidad de cometer
el error tipo I igual a α > 0 y basadas en una muestra aleatoria de tamaño n, si para cada
θ1 ∈ Θ1 (que se fije), RC es la región óptima para contrastar las hipótesis:

H0 : θ = θ0 y H1 : θ = θ1 .

Ejemplo 4.10. Por los resultados del ejemplo 4.9, la región crı́tica uniformemente más
poderosa, de nivel α = 0,05 y un tamaño de muestra 36, para contrastar las hipótesis

H0 : θ = 1/10 y H1 : θ > 1/10,

está dada por X̄ < 7,4253.


Definición 4.5. Si la hipótesis nula, H0 , especifica más de un valor, diremos que la hipótesis
es compuesta; es decir, si H0 : θ ∈ Θ0 , con #(Θ0 ) > 1. En este caso definimos el error tipo
I del contraste como
α = sup P ( Rechazar H0 ).
θ∈Θ0

Si la hipótesis alternativa es compuesta, digamos H1 : θ ∈ Θ1 , con #(Θ1 ) > 1, la probabilidad


del error tipo II y la potencia del contraste son funciones de θ :

β = β(θ) = P ( aceptar H0 ), ∀ θ ∈ Θ1 (4.18)


π = π(θ) = P ( aceptar H0 ), ∀ θ ∈ Θ1 . (4.19)

104
José Flores Delgado Pruebas o contrastes de hipótesis 105

Ejemplo 4.11. Sean las hipótesis del ejemplo 4.10, es decir,

H0 : θ = 1/10 y H1 : θ > 1/10,

cuya regla de decisión UMP es rechazar H0 si X̄ < 7,4253. La probabilidad de cometer el


error tipo II, según esta regla de decisión y la ecuación (4.18), resulta:

β = β(θ) = P (X̄ ≥ 7,4253) = 1 − FX̄ (7,4253) = 1 − F36X̄ (267,3108), θ > 1/10. (4.20)

P
36
Si en (4.20) usamos el hecho que T = 36X̄ = Xj ∼ G(36; θ), se obtiene
j=1

α−1 −267,3108 θ
X e (267,3108 θ)j
β = β(θ) = , θ > 1/10. (4.21)
j=0
j!

De (4.21) resulta la tabulación siguiente:

θ 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24


β(θ) 0,95 0,7334 0,3861 0,1315 0,0298 0,0047 0,0006 0,0001

Cuya gráfica sigue a continuación


β(θ)
0,95

0,73

0,39

0,13

0,03
0,1 0,12 0,14 0,16 0,18 0,2 θ

Observe que el lı́mite superior para β(θ) es 1 − α = 0,95, que se obtiene si θ tiende a 1/10
(especificación en H0 ), pero decrece rápidamente hacia cero conforme θ se aleja de este valor
(la probabilidad de equivocarse al descartar H0 va disminuyendo, como era de esperar).

Una alternativa para obtener β(θ) es usar en 4.20 la aproximación de la distribución de X̄


por la normal, X̄ ∼ N( 1θ ; 36θ
1 1
2 ) o Z = 6θ(X̄ − θ ) ∼ N(0 ; 1). Ası́

β = β(θ) = 1 − FX̄ (7,4253) = 1 − FZ ( 6θ(7,4253 − 1θ ) ), θ > 1/10. (4.22)

El ejemplo siguiente muestra que no siempre existe la regla de decisión UMP.

105
106 José Flores Delgado Estadı́stica inferencial

Ejemplo 4.12. Sea X ∼ exp(β). Se desea contrastar las hipótesis siguientes:

H0 : θ = 1/10 y H1 : θ 6= 1/10,

a partir de una muestra grande de tamaño n = 36 y de modo que la probabilidad de cometer


un error tipo I sea α = 0,05.

Veamos que este contraste de hipótesis no posee una región crı́tica UMP. Para esto
consideramos las hipótesis

H0 : θ = 1/10 y H1 : θ = θ1 , con θ 6= 1/10.

Como fue visto en el ejemplo 4.9, la regla de decisión óptima cuando, α = 0,05 y n = 36,
está dada por el Lema de Neyman-Pearson:
 
L(θ1 )
RC = X1 , . . . , X36 : >c ,
L(1/10)

donde la constante c satisface


 
L(θ1 )
P > c, si θ = 1/10 = 0,05. (4.23)
L(1/10)

Además, para la constante c que satisface (4.23) se tiene

L(θ1 ) 1
> c ⇔ e−36(θ1 − 10 ) X̄ > c ⇔ (θ1 − 1
10
)X̄ <c (4.24)
L(1/10)

entonces, X̄ < c, si θ1 > 1/10, o X̄ > c, si θ1 < 1/10. De aquı́, si θ1 > 1/10 la regla de
decisión óptima está dada por X̄ < 7,4253, como fue visto en los ejemplos 4.9 y 4.10. Por
otra parte, si θ1 < 1/10 se verifica que la regla está dada por X̄ > 12,7418. Por lo tanto, no
existe la regla de decisión UMP.

A continuación se describirá un método general para obtener reglas de decisiones para


contrastar dos hipótesis, el cual se acostumbra usar cuando no existe la regla de decisión
UMP.

4.3. El método de la razón de verosimilitud

Supongamos que el modelo probabilı́stico de la muestra que se registrará, X1 , . . . ,Xn ,


dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ, con θ ∈ Θ = Θ0 ⊎ Θ1 ⊂ k . Sea R
L(θ) = L(θ; X1 , . . . ,Xn ) la estadı́stica que define la función de verosimilitud (como en (4.1)).
Considérense θ̂mv , el estimador de máxima verosimilitud, y θ̂0 , el estimador que máxima la
verosimilitud restringida a Θ0 ; es decir,

θ̂mv = Máximo L(θ) y θ̂0 = Máximo L(θ).


θ∈Θ θ ∈ Θ0

106
José Flores Delgado Pruebas o contrastes de hipótesis 107

Se define la estadı́stica de la razón de verosimilitud Λ como


L(θ̂0 )
Λ= . (4.25)
L(θ̂mv )
Dadas las hipótesis
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 ,
se define la región crı́tica del método de la razón de verosimilitud como

RC = { X1 , . . . Xn : Λ < c }, (4.26)

donde c es un número entre 0 y 1. En particular, si se quiere que la probabilidad de cometer


el error tipo I sea α; c debe ser tal que

P Λ ≤ c, si H0 es verdadera = α.

Observación 4.6. Si la hipótesis nula es simple, es decir, H0 = θ0 y Θ0 = { θ0 }; entonces,


θˆ0 = θ0 y la razón de verosimilitud (4.25) resulta
L(θ0 )
Λ= . (4.27)
L(θ̂mv )
Ejemplo 4.13. Consideremos el contraste de las hipótesis

H0 : θ = 1/10 y H1 : θ 6= 1/10,

a partir de una muestra grande de tamaño n = 36 y de modo que la probabilidad de cometer


un error tipo I sea α = 0,05. Como se vio en el ejemplo 4.12, no existe la regla de decisión
UMP, por lo tanto, aplicaremos el método de la razón de verosimilitud.

Como ya fue visto, L(θ) = θ36 e−36 θ X̄ y θ̂mv = 1/X̄ . Ası́, la razón de verosimilitud de (4.25)
resulta 1
1 36 −36 10 X̄
L(θ0 ) ( 10 ) e 36
Λ= = 1 −36 ( 1
) X̄
= 10−36 e36 X̄ 36 e− 10 X̄ . (4.28)
L(θ̂mv ) ( X̄ )36 e X̄

Ası́, la condición que debe satisfacer la muestra para rechazar H0 , dada por (4.26), es la
siguiente:
36
Λ < c ⇔ 10−36 e36 X̄ 36 e− 10 X̄ < c ⇔ X̄ e−X̄/10 < c′ ⇔ ( X̄ < c1 ⊎ X̄ > c2 ),

donde la última equivalencia se justifica porque la función g(x) = x e− x/10 es creciente si


1
x < 10 y decreciente si x > 10 ( g ′ (x) = − 10 e− x/10 (x − 10) ); y c1 y c2 son constantes tales
que satisfacen la ecuación siguiente:

P (Rechazar H0 siendo verdadera) = P X̄ < c1 ⊎ X̄ > c2 , si θ = 1/10 = 0,05.

Por lo tanto, podemos elegir estas constantes, c1 y c2 , tales que

P ( X̄ < c1 ) = 0,025 y P ( X̄ > c2 ) = 0,025, si θ = 1/10

107
108 José Flores Delgado Estadı́stica inferencial

o, equivalentemente, si

F (c1 ) = 0,025 y F (c2 ) = 0,0975, con θ = 1/10. (4.29)


X̄ X̄

En esta ecuación usamos la propiedad T = 36X̄ ∼ G(36; 1/10), si θ = 1/10 (como se hizo
en ejemplos anteriores), para obtener (mediante el programa R o el Excel):

F (252,1396) = 0,025 y F (486,7653) = 0,0975, si θ = 1/10. (4.30)


T T

Por lo tanto, de las ecuaciones (4.29) y (4.30), resultan c1 = 7,0039 y c2 = 13,5213. Ası́ una
regla de decisión que da el método de la razón de verosimilitud es rechazar H0 si X̄ < 7,0039
o si X̄ > 13,5213.

Una alternativa para hallar los valores de las constantes c1 y c2 es hacerlo aproximadamente,
mediante el uso de la aproximación de la distribución de X̄ por la normal, X̄ ∼ N( 1θ , 36θ
1
2 ),

en la ecuación (4.29). En particular, si H0 es verdadera, es decir, si θ = 1/10 se tiene que


X̄ ∼ N(10; 102 /36) y Z = 0,6(X̄ − 10) ∼ N(0; 1).

Propiedad (distribución asintótica de la estadı́stica de la razón de verosimilitud). Si el


tamaño de muestra es grande; entonces, cuando H0 es verdadera se tiene la distribución
aproximada siguiente:
 aprox. 2
−2 Ln Λ ∼ χ (r),
con r el número de parámetros especificados en H0 . Por lo tanto, si el tamaño de muestra
es grande, una región crı́tica dada por el método de la razón de verosimilitud equivale a

RC = { X1 , . . . , Xn : Λ < c }, (4.31)

donde la constante c es tal que


−2Ln(c) = χ21−α , (4.32)
con χ21−α el percentil 100(1 − α) de la distribución ji-cuadrado con r grados de libertad.

Ejemplo 4.14. Como en el contraste de hipótesis del ejemplo 4.13 el tamaño de muestra es
grande, podemos usar la propiedad anterior. Ası́, de (4.28) y 4.31, una regla de decisión por
el método de la razón de verosimilitud es rechazar H0 si
36
10−36 e36 X̄ 36 e− 10 X̄ < c

donde la constante c es tal que −2Ln(c) = χ20,95 , con la distribución ji-cuadrado de 1


grado de libertad. De una tabla de la distribución ji-cuadrado con 1 grado de libertad,
resulta χ21−α = 3,8415; por lo tanto, c = 0,1465 y la regla de decisión será rechazar H0 si
36 1
10−36 e36 X̄ 36 e− 10 X̄ < 0,1462 o, equivalentemente, si X̄ e− 10 X̄ < 3,4877.

108
José Flores Delgado Pruebas o contrastes de hipótesis 109

4.4. Ejercicios propuestos

Ejercicio 4.1. Los errores que se presentan en un disco para almacenar información ocurren
de acuerdo con un proceso de Poisson. El fabricante especifica que la tasa promedio de errores
es de un error por cada diez centı́metros cuadrados. Un usuario sospecha de tal especificación
y sostiene que en realidad esta tasa de ocurrencias es de tres errores por cada diez centı́metros
cuadrados. El fabricante desechará su especificación y aceptará la del usuario, siempre y
cuando en una muestra de diez centı́metros cuadrados se halle más de dos errores.

a) Formule el problema como un contraste de hipótesis; es decir, especifique las hipótesis


por contrastar y la regla de decisión para rechazar la hipótesis nula.

b) Cuantificar los riesgos a los que está sujeta la decisión a tomar.

c) Una muestra de 10 centı́metros cuadrados presentó tres errores. Obtenga la inferencia


correspondiente ¿Es esta inferencia verdadera? Explique.

Ejercicio 4.2. En el ejercicio 2.16, se supone que en promedio los afiliados permanecerán
Γ( 1 + 1)
empleados por 30 años; esto quiere que θ = 0,00087, pues, en este modelo E(X) = 2 1 .
θ2
La AFP sospecha que este promedio es mayor o, equivalentemente, que θ < 0,00087. Ası́, se
quiere contrastar las hipótesis siguientes:

H0 : θ = 0,00087 y H1 : θ < 0,00087.

Construya la Región Crı́tica UMP para este contraste, que tenga una probabilidad de error
tipo I α = 0,05. Use la regla deducida y la muestra dada en dicho ejercicio, para decidir si
se confirma la sospecha de la AFP. Puede usar la distribución asintótica de θ̂mv .

Ejercicio 4.3. Resolver el ejercicio 3.18 con un contraste de hipótesis.

Ejercicio 4.4. Sea X ∼ G(2; θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
aleatoria de X : X1 , . . . , X5 y se fija el nivel de significación α = 0,05.

a) Para θ1 > 1/3, halle la región óptima para contrastar las hipótesis:

H0 : θ = 1/3 y H1 : θ = θ1 .

P
5
Nota. Xj ∼ G(10; θ). Si T ∼ G(10; 1/3) : FT (16,2762) = 0,05.
j=1

b) Determine, si existe, la región uniformemente más poderosa para contrastar las


hipótesis: H0 : θ = 1/3 y H1 : θ > 1/3.
En caso afirmativo, determine la conclusión que se deriva de la muestra siguiente:
X1 = 5,5, X2 = 2,2, X3 = 4,4, X4 = 1,25, X5 = 1,1.
Cuantifique el riesgo asociado a esta conclusión.

109
110 José Flores Delgado Estadı́stica inferencial

Ejercicio 4.5. El salario anual (en miles de soles) de los trabajadores de cierto sector es
una variable aleatoria X ∼ LogN(µ; σ 2 = 1).

a) Use el Lema de Neyman-Pearson para obtener la región crı́tica óptima, con α = 0,05
y un tamaño de muestra n = 9, para contrastar las hipótesis:

H0 : µ = µ0 y H1 : µ = µ1 , con µ1 < µ0 .

( Lnx − µ )2
1 −
Recuerde que fX (x) = √ e 2σ 2 .
2πσ x
b) Se sostenı́a que µX , el promedio del salario anual en este sector, era de 55 mil soles;
sin embargo, actualmente se piensa que este es más bien de 50 mil soles.
Ası́, se decide tomar una muestra aleatoria con n = 9 y fijar el nivel de significación
en α = 0,05, para contrastar las hipótesis siguientes:

H0 : µX = 55 y H1 : µX = 50.

Exprese estas hipótesis en términos del parámetro µ, en lugar de µX (es decir, halle los
valores de µ0 y de µ1 de la parte anterior). Luego, obtenga la región crı́tica óptima.
1 2
Tenga en cuenta que µX = e µ+ 2 σ y, por lo tanto, µ = Ln(µX ) − 21 σ 2 .

c) Una muestra aleatoria de 9 salarios anuales (en miles de soles) dio los valores siguientes:

xj 3,1 2,1 3,7 4,7 4,6 5,1 1,2 3,2 4,5

Decida por una de las dos hipótesis, a partir de la región crı́tica obtenida anteriormente
y los resultados de esta muestra.

Ejercicio 4.6. Sea X ∼ N(µ; 1). Para α = 0,05 y una muestra aleatoria de tamaño 16, se
desea contrastar las hipótesis: H0 : µ = 0 y H1 : µ 6= 0.

a) ¿Existe la región óptima para este contraste?

b) Deducir la región crı́tica que proporciona el método de la razón de verosimilitud.


R R
Observe que en este caso θ = (µ, σ 2 ) ∈ Θ = × + y Θ0 = {0} × + . R
c) Dé la conclusión correspondiente a la región deducida anteriormente y la muestra
siguiente

0,20 -0,78 0,74 1,78 1,70 2,23 -1,68 0,27


1,60 -0,59 -0,19 -1,19 -1,35 -0,48 -0,27 -1,62

d) Si µ = 0,5, ¿cuál es la probabilidad de tomar una decisión errada con la región crı́tica
deducida?

110
José Flores Delgado Pruebas o contrastes de hipótesis 111

Ejercicio 4.7. Sea X ∼ N(µ; σ 2 ), con ambos parámetros desconocidos. Con α = 0,05 y
una muestra aleatoria de tamaño 16 se quiere contrastar la hipótesis H0 : σ 2 = 1 con la
hipótesis alternativa H1 : σ 2 6= 1.

a) Sea σ12 > 1. Use el teorema de Neyman-Pearson para deducir la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.

b) Sea σ12 < 1. Use el teorema de Neyman-Pearson para deducir la la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.

c) ¿Existe una regla de decisión óptima para el contraste de las hipótesis de interés?

d) Deduzca una regla de decisión para el contraste de las hipótesis que se desea realizar,
mediante el método de la razón de verosimilitud.

e) Según la regla anterior, cuál es la conclusión que corresponde a la muestra siguiente:

0,20 -0,78 0,74 1,78 1,70 2,23 -1,68 0,27


1,60 -0,59 -0,19 -1,19 -1,35 -0,48 -0,27 -1,62

Ejercicio 4.8. Sea X ∼ exp(θ), es decir, fX (x) = θ e−θ x , x > 0, con θ > 0. Se desea
contrastar las hipótesis H0 : θ = 0,2 y H1 : θ > 0,2, a partir de una muestra aleatoria de
tamaño n = 10 y con α = 0,05 (probabilidad de error tipo I).

a) Deduzca la región crı́tica UMP.


P
10
Tenga en cuenta que T = Xj ∼ G(10; θ) y, para θ = 0,2, FT (27,127) = 0,05.
j=1

b) Con la región crı́tica UMP, encuentre una expresión para β(θ) (la probabilidad de
cometer un error de tipo II) y bosqueje su gráfica a partir de lı́m + β(θ), lı́m β(θ) y
θ→0,2 θ→∞
los valores de la tabla siguiente que previamente deberá completar:

θ 0,20 0,22 0,25 0,28 0,33 0,36 0.40 0,50 0,66 1


β(θ)

Tenga en cuenta la tabulación de la distribución acumulada de T ∼ G(10; θ) siguiente:

θ 0,22 0,25 0,28 0,33 0,36 0,4 0,5 0,66 1


FT (27,127) 0,0817 0,1481 0,2346 0,4063 0,5124 0,6431 0,8683 0,9838 0,9999

c) Al tomar la muestra aleatoria de diez valores de X se registraron los valores siguientes:


2,41; 0,53; 4,54; 11,47; 10,80; 15,91; 0,07; 2,62; 9,95; 0,75. Cuantifique el riesgo
asociado para las decisiones como la que se debe tomar en este caso, si se considera
valores de θ entre 0,36 y 0,66.

111
112 José Flores Delgado Estadı́stica inferencial

Ejercicio 4.9. Si X ∼ P oisson(λ), se desea contrastar las hipótesis siguientes:

H0 : λ = 9 y H1 : λ 6= 9,

a partir de una muestra grande, de tamaño n = 36, y de modo que la probabilidad de cometer
un error tipo I sea α = 0,05.

a) Encuentre una regla de decisión por el método de la razón de verosimilitud.

b) Determine la decisión correspondiente a la muestra siguiente:

5 3 2 6 6 7 3 3 6 7 7 9
7 5 3 12 6 10 7 2 6 8 0 7
4 6 5 6 3 5 5 9 3 9 5 3

Ejercicio 4.10. El ingreso de una región, medido en miles de soles, se considera una variable
aleatoria X. Se asume que X ∼ Pareto(1; θ); es decir, f (x) = θ x−(θ+1) , x > 1, con θ > 0.
X
Se desea contrastar las hipótesis H0 : θ = 8 y H1 : θ > 8, considerando n = 100 y α = 0,05.

a) Determine el estimador de máxima verosimilitud de θ. Use su distribución asintótica


para hallar un intervalo de confianza para θ.

b) Determine, la regla de decisión UMP para el contraste de hipótesis de interés.

c) Si se registró la muestra siguiente de ingresos:

1,04 1,01 1,08 1,21 1,20 1,30 1,00 1,04 1,18 1,01 1,02 1,00 1,00 1,02 1,02 1,00 1,03 1,04 1,07 1,04
1,04 1,04 1,22 1,05 1,05 1,03 1,36 1,15 1,48 1,02 1,29 1,00 1,11 1,15 1,35 1,05 1,03 1,12 1,04 1,13
1,01 1,02 1,01 1,04 1,06 1,06 1,04 1,43 1,00 1,02 1,00 1,24 1,01 1,03 1,13 1,1 1,15 1,11 1,01 1,01
1,12 1,09 1,02 1,04 1,07 1,11 1,07 1,02 1,34 1,10 1,06 1,14 1,15 1,03 1,02 1,18 1,01 1,01 1,13 1,12
1,43 1,24 1,22 1,07 1,06 1,10 1,06 1,01 1,00 1,14 1,10 1,12 1,08 1,01 1,20 1,04 1,02 1,02 1,03 1,03

Determine la conclusión que se deriva de la regla de decisión UMP. Analice qué ocurre
si considera el intervalo de confianza (determinado en la parte a) asociado con esta
muestra.
2
Ejercicio 4.11. Si X ∼ Weibull(2; θ), es decir, f (x) = 2θ x e−θ x , x > 0, con θ > 0.
X

P
n
a) Halle la distribución asintótica de Xj .
j=1

b) Para n = 49 y α = 0,05, determine la regla de decisión UMP para contrastar las


hipótesis H0 : θ = 9 y H1 : θ > 9. Puede usar el resultado de la parte anterior.

c) Considerando la región crı́tica UMP, encuentre una expresión para β(θ) : la


probabilidad de cometer un error del tipo II. Luego haga un bosquejo de esta gráfica
en el que considere los valores de lı́m+ β(θ) y lı́m β(θ).
θ→9 θ→∞

112
José Flores Delgado Pruebas o contrastes de hipótesis 113

Ejercicio 4.12. En el ejercicio 3.12, sobre la rentabilidad de cierta operación financiera


X ∼ N(0, σ 2 ), suponga que se desea contrastar las hipótesis sobre la volatilidad (σ):
H0 : σ 2 = 4 y H1 : σ 2 > 4, con α = 0,05, a partir de una muestra aleatoria de 20
observaciones.

a) Deduzca la regla de decisión UMP.

b) Considerando la región crı́tica UMP, encuentre una expresión para β(σ 2 ) : la


probabilidad de cometer un error del tipo II. Luego, complete los valores de la tabla
siguiente:

σ2 9,5 10 15 20 25
β(σ 2 )

Obtenga 2lı́m+ β(σ 2 ), lı́m


2
β(σ 2 ) y, conjuntamente con la tabla anterior, bosqueje la
σ →9 σ →∞
gráfica de β(σ 2 ).

d) Determine la inferencia correspondiente a la regla de decisión UMP y la muestra dada


en el ejercicio 3.12. Concluya, según la regla de decisión UMP, y trate de cuantificar el
riesgo asociado a este tipo de conclusión.

e) Responder la parte anterior si considera el intervalo de confianza de la parte b del


ejercicio 3.12.

f) Para el contraste de hipótesis H0 : σ 2 = 9, con H1 : σ 2 = 25, determine cuál es el


mayor valor que puede asumir la potencia de cualquier regla de decisión con n = 20 y
α = 0,05.

Ejercicio 4.13. En el estudio respecto a la relación entre el consumo del bien A, Y, y el


precio del bien B, X, se considera el modelo de regresión lineal siguiente:

Yj = θ xj + ǫj , j = 1, . . . , 5,

donde x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5 son valores del precio de B fijados en el estudio,


mientras que ǫ1 , . . . , ǫ5 , son variables aleatorias independientes y con distribución normal
estándar, que corresponden a los errores del modelo.

a) Determine la regla de decisión óptima para contrastar las hipótesis H0 : θ = 0 y H1 :


θ = 1,5, a partir de la muestra (de consumos de A) Y1 , . . . , Y5 (asociada a los valores
de x1 , . . . , x5 ). Considere α = 0,05 y exprese esta regla a partir de θ̂ el estimador de
máxima verosimilitud (que también es el de cuadrados mı́nimos).

b) Para la muestra Y1 = 2, Y2 = 3,5, Y3 = 5,5, Y4 = 8, Y5 = 9,5, determine la inferencia


correspondiente a partir de los resultados de la parte anterior (no olvide incluir el riesgo
asociado).

113
114 José Flores Delgado Estadı́stica inferencial

Ejercicio 4.14. En el ejercicio 3.8, si X ∼ G(2, θ), se dedujo un intervalo del 95 % de


confianza para estimar a θ, a partir de una muestra aleatoria de X : X1 , . . . , X5 . Ahora
considere que para contrastar las hipótesis H0 : θ = 1,5 y H1 : θ 6= 1,5, se rechazará H0 , si
el valor del parámetro especificado en esta hipótesis no está en dicho intervalo de confianza.

a) Determine la probabilidad de cometer un error de tipo I con esta regla de decisión.

b) Suponga que θ = 2,5 y determine la probabilidad de cometer un error de tipo II.


P
5
Recuerde que T = Xj ∼ G(10, θ) y use el programa R o el Excel.
j=1

c) Determine la inferencia que corresponde a la muestra registrada en el ejercicio 3.8 y


evalúe el riesgo asociado.

Ejercicio 4.15. Resolver el ejercicio 3.23 mediante un contraste de hipótesis y el método


de la razón de verosimilitud.

Ejercicio 4.16. En el ejercicio 3.22, sobre el ingreso mensual de las familias en cierta región,
suponga que se desea contrastar las hipótesis H0 : θ1 = 1 y H1 : θ1 6= 1.

a) Considere una muestra aleatoria X1 , . . . , X100 y determine una expresión para


estadı́stica de verosimilitud L(θ1 , θ2 ) = L(θ1 , θ2 ; X1 , . . . , X100 ) y su logaritmo natural
Ln(L(θ1 , θ2 )). Luego, obtenga la forma de la región crı́tica que proporciona el método
de la razón de verosimilitud y comente al respecto de la conveniencia de la distribución
asintótica de la estadı́stica.

b) Si se usa la distribución asintótica de la razón de verosimilitud, determine el valor de


la constante c, de la ecuación (4.31), que define la región crı́tica en 4.32, con un nivel
de significación α = 0,05.

c) Con el nivel de significación α = 0,05, la muestra y los resultados proporcionados en el


ejercicio 3.22, determine la conclusión correspondiente al contraste de estas hipótesis.
No olvide dar el riesgo asociado.

d) Según el intervalo de confianza hallado en el ejercicio 3.22 para θ1 , ¿cuál serı́a la


conclusión respecto a este contraste de hipótesis?

Ejercicio 4.17. En el contexto del ejercicio 3.7, suponga que para estudiar si el modelo se
puede reducir a uno exponencial se consideran las hipótesis

H0 : θ1 = 1 y H1 : θ1 6= 1.

El tamaño de muestra se fija en 36 y la probabilidad de cometer el error de tipo I, en 0,05.

Determine la conclusión que se deriva del test de la razón de verosimilitud y la muestra


registrada.

114
José Flores Delgado Pruebas o contrastes de hipótesis 115

Ejercicio 4.18. Los ingresos en cierto sector laboral siguen una distribución normal con
media µ = 20000 soles y desviación estándar σ = 1000 soles. Recientemente se ha sugerido
que la desviación estándar de estos ingresos es, en realidad, de 2000 soles. Para resolver
este problema estadı́sticamente se tomará una muestra aleatoria de 16 de estos ingresos y se
considerará una probabilidad de cometer un error tipo α = 0,05.

a) Formule el problema como una de contraste de hipótesis y determine la regla de decisión


óptima correspondiente.

b) Evalúe, mediante probabilidades, los riesgos a los que está sujeta la regla de
decisión deducida anteriormente. ¿Encuentra algún inconveniente para esta regla?,
¿qué sugerirı́a para mejorarla?

c) Concluya (clara y precisamente) a partir de la muestra de ingresos (en soles) siguiente:

23270,13 19101,61 20303,39 20984,96 21574,76 17864,82 21735,78 18111,64


22760,42 21766,99 22018,16 18432,84 19202,83 18542,15 17429,19 17930,26

Ejercicio 4.19. En la población de grandes empresarios de Lima se desea averiguar sobre


la proporción, p, de empresarios de acuerdo con cierta medida que el gobierno ha tomado
recientemente. En particular se tiene las hipótesis siguientes:
H0 : p = 0,75 y H1 : p < 0,75.
El problema será resuelto estadı́sticamente, a partir de una muestra aleatoria de 9
empresarios en la que se registrará si el empresario está de acuerdo, 1, o en desacuerdo,
0. Para cuantificar el riesgo tipo I se considerará α = 0,05.

a) Hallar la regla de decisión UMP. Observe que la muestra por observar corresponde a
la variable aleatoria:
(
1, si el empresario está de acuerdo,
X=
0, si el empresario está en desacuerdo;
por lo tanto, f (x) = px (1 − p)1−x , x = 0; 1.
X

Además, si T es la suma de una muestra de X de tamaño 9; entonces, T ∼ b(9; p). Por


lo tanto, se tiene la tabla siguiente de la distribución acumulada de T ∼ b(9; 0,75) :

x 0 1 2 3 4 5 6 7 8 9
F (x) 0 0 0 0,01 0,05 0,17 0,4 0,7 0,92 1
T

b) Al tomar la muestra aleatoria de 9 empresarios se registraron los valores siguientes:

0 0 1 0 0 1 0 1 0

Concluya (clara y precisamente) respecto de las hipótesis de interés, a partir de los


resultados anteriores.

115
5. Introducción a la inferencia bayesiana

5.1. Nociones previas

En el enfoque bayesiano, para hacer inferencia sobre determinado asunto, se parte de expresar
el conocimiento que se tenga de este mediante un modelo o distribución de probabilidades,
esto se puede explicar porque no conocemos exactamente el asunto por averiguar, ası́,
podemos asumirlo aleatorio y describirlo mediante una asignación o modelo de probabilidades
que refleje ese conocimiento. La inferencia se realiza a partir de una información recibida,
también considerada aleatoria y que está relacionada con el asunto de interés, formalmente
esta información la proporciona una muestra aleatoria de una variable cuya distribución
depende del asunto que se desea averiguar. La inferencia bayesiana consiste en determinar
cómo, por causa de esta información recibida, cambia el conocimiento que tenı́amos sobre el
asunto, es decir, en determinar el nuevo modelo de probabilidades que refleje lo aprendido,
esto es, el modelo de probabilidad, sobre el asunto, condicional al valor de la información
recibida.
A continuación describimos la estimación bayesiana para un parámetro; pero antes
advertimos que para tratar de mantener nuestra notación que para las variables aleatorias
usamos letras mayúsculas, denotaremos ahora al parámetro (la variable aleatoria) por θ y
cualquier valor particular de este por θ, de modo que para el espacio paramétrico (el conjunto
de valores posibles del parámetro) continuaremos con la notación Θ, ası́ podemos escribir,
por ejemplo, θ = θ, θ ∈ Θ.
Respecto a la inferencia clásica, la familia paramétrica de modelos para fX , el modelo
probabilı́stico de X, será ahora la familia de modelos para f , el modelo probabilı́stico
θ
X| =θ

de X dado θ = θ. Por ejemplo, si con la metodologı́a de la inferencia clásica se tiene


X ∼ exp(β), es decir, f (x) = β e−β x , x > 0, con β > 0;
X

entonces, con la metodologı́a de la inferencia bayesiana se tiene


X|β = β ∼ exp(β), es decir, f (x) = β e−β x , x > 0; con β > 0.
X| β =β

5.2. Inferencia bayesiana de parámetros

Definición 5.1. La distribución a priori de θ , f , es el modelo o distribución del parámetro,


θ
antes de tomar la muestra (antes de recibir la nueva información).
Observación 5.1. Como su nombre lo expresa, la distribución a priori refleja el conocimiento
que se tiene del parámetro, antes de tomar la muestra.

116
José Flores Delgado Introducción a la Inferencia bayesiana 117

Definición 5.2. Una muestra aleatoria simple de X está integrada por n variables aleatorias,
X1 . . . , Xn , tales que, dado cualquier valor del parámetro, digamos θ = θ, estas variables
son independientes y tiene el mismo modelo.

Definición 5.3. Dada una muestra observada, X1 = x1 . . . , Xn = xn , la distribución


a posteriori de θ , asociada a esta muestra, es el modelo condicional de θ dada esta muestra
observada: f
θ | X1 = x 1 . . . , Xn = x n
Observación 5.2. El objetivo de la metodologı́a bayesiana es obtener la distribución a
posteriori.

El Teorema de Bayes. este teorema proporciona una fórmula para obtener la distribución
a posteriori.
f(θ, x1 , . . . , xn )
θ, X1 . . . , Xn
f (θ) =
θ| X1 = x1 . . . , Xn = xn f (x1 , . . . , xn )
X1 = x 1 . . . , Xn

∝ f (θ, x1 , . . . , xn )
θ, X1 . . . , Xn
∝ f (θ) f (x1 , . . . , xn ),
θ X1 = x1 . . . , Xn = xn — θ=θ

y si la muestra es aleatoria simple

f (θ) ∝ f (θ) f (x1 , . . . , xn )


θ | X1 = x 1 . . . , Xn = x n θ X1 = x1 . . . , Xn = xn — θ=θ

∝ f (θ) f (x1 ) · · · f (xn )


θ X1 | θ =θ Xn | θ =θ

∝ f (θ) f (x1 ) · · · f (xn )


θ X| θ =θ X| θ =θ

Ası́, para obtener la distribución a posteriori asociada a una muestra aleatoria simple, se
tiene la fórmula general siguiente:

f (θ) ∝ f (θ) f (x1) . . . . f (xn)


θ | X1 = x 1 . . . , Xn = x n θ X| θ =θ X | Θ= θ

Esta es la fórmula para realizar la inferencia bayesiana sobre un parámetro es simple,


como también lo es su deducción; sin embargo, su aplicación puede requerir de de métodos
computacionales.

Ejemplo 5.1. (Estimación de la proporción) Para estimar la proporción P de personas


aprueban la gestión de una autoridad municipal, como se describió en el ejemplo 2.1, se
tomará una muestra aleatoria de tamaño n = 500 personas y para cada una de ellas se
registrará si está o no de acuerdo. Determinemos la distribución a posteriori.

117
118 José Flores Delgado Estadı́stica inferencial

Supongamos que la información disponible indique una proporción de aceptación de


alrededor de 0,2, con una varianza cercana a 0,01. Para esta información existen muchos
modelos que la reflejen, esto hace que la elección del modelo probabilı́stico que servirá de
distribución a priori sea subjetiva; ası́, elegimos uno conveniente pero que este en armonı́a
con esta información disponible. Podemos considerar una distribución a priori beta, pues esta
sirve para modelar variables con el rango de una proporción, cuyos parámetros resultarán
de las ecuaciones siguientes:
α αβ
0,2 = y 0,01 = 2
;
α+β (α + β) (α + β + 1)
por lo tanto, α = 2 y β = 8. Ası́, la distribución a priori que consideraremos está dada por

f (p) = 72 p(1 − p)7 , 0 < p < 1.


P =p

En este caso la variable X de la que se registrará una muestra, asume dos valores: 1, que
indica de acuerdo y 0, que indica en desacuerdo. Con el enfoque clásico se tenı́a X ∼ B(1,,p)
(véase el ejemplo 2.1), ahora con el enfoque bayesiano tenemos que X|P = p ∼ B(1; p),
por lo tanto,

f (x) = px (1 − p)1−x , x ∈ { 0; 1 }; 0 < p < 1.


X|P = p

Con estos dos modelos aplicamos la fórmula general para hallar la distribución a posteriori:

f (p) ∝ f (p) f (x1 ) . . . f (xn )


P | X1 = x1 . . . θ, Xn = xX|
n P = p X| P = p

∝ 72 p(1 − p)7 px1 (1 − p)1−x1 . . . pxn (1 − p)1−xn , xj ∈ { 0; 1 }, 0 < p < 1,


P
n P
n
1+ xj 7+n− xj
∝ p j=1
(1 − p) j=1
, xj ∈ { 0; 1 }, 0 < p < 1;

P
n P
n
Ası́, P | X1 = x1 . . . , Xn = xn ∼ B(2 + xj ; 8 + n − xj ).
j=1 j=1

De este modelo resulta toda inferencia estadı́stica bayesiana, veamos a continuación la


estimación puntual y un intervalo de confianza.
Definición 5.4. La estimación bayesiana está dada por la media de la distribución a

posteriori: θ̂ = E θ |X1 = x1 , . . . , Xn = xn
Ejemplo 5.2. Ası́, en el ejemplo anterior
P
n P
n
 2+ xj 2+ xj
j=1 j=1
p̂ = E P | X1 = x1 . . . , Xn = xn = P
n P
n = 10+n
.
2+ xj +8+n− xj
j=1 j=1

Obsérvese que para n grande esta estimación bayesiana se aproxima a p̄, la estimación clásica;
en efecto, Pn
P
n xj
 2+ xj 2 j=1 2
j=1 n
+ n n
+ p̄
p̂ = E P | X1 = x1 . . . , Xn = xn = 10+n
= 10 = 10 .
n
+1 n
+1

118
José Flores Delgado Introducción a la Inferencia bayesiana 119

Definición 5.5. Sea g(x1 , . . . , xn ) definida por la estimación bayesiana, es decir,



θ̂ = E θ |X1 = x1 , . . . , Xn = xn = g(x1 , . . . , xn ). El estimador bayesiano está dado
por θ̂ = g(X1, . . . , Xn ).

Ejemplo 5.3. Como en el ejemplo anterior la estimación bayesiana está dada por
P
n P
n
2+ xj 2+ Xj
j=1 j=1
p̂ = 10+n
; entonces, el estimador bayesiano es P̂ = 10+n
.

Definición 5.6. Si L1 = L1 (X1 , . . . , Xn ) y L2 = L2 (X1 , . . . , Xn ) son estadı́sticas, tales que



P L1 ≤ θ ≤ L2 |X1 = x1 , . . . , Xn = xn = γ;

entonces, [ L1 , L2 ] es un intervalo de confianza bayesiano (o intervalo de credibilidad) del


100 γ % para estimar a θ .

Para construir el intervalo de confianza bayesiano del 100(1 − α) % de confianza usual basta
determinar a y b tales que
 
P θ ≤ a |X1 = x1 , . . . , Xn = xn = α2 y P θ ≤ b |X1 = x1 , . . . , Xn = xn = 1 − α2

o, equivalentemente, F (a) = α2 y F (b) = 1 − α2


θ | X1 = x 1 . . . , Xn = x n θ | X1 = x 1 . . . , Xn = x n
Ejemplo 5.4. Supongamos, en los ejemplos anteriores, que se considera n = 500 y al
registrar la muestra 200 de los electores manifestó estar de acuerdo con la gestión de la
autoridad. Ası́ la proporción en la muestra es p̄ = 0,4; por lo tanto, la estimación bayesiana
es
2 2
n
+ p̄ 500
+ 0,4
p̂ = 10 = 10 = 0,3960.
n
+1 500
+1
La distribución a posteriori:
P
n P
n
P | X1 = x1 . . . , Xn = xn ∼ B(2 + xj ; 8 + n − xj ) = B(202; 308).
j=1 j=1

Para encontrar el intervalo del 95 % de confianza bayesiano usual, usamos esta distribución y
ayuda computacional (por ejemplo, el Excel) par encontrar los valores de a y b que satisfacen

F (a) = 0,025 y F (b) = 0,975;


P | X1 = x 1 . . . , Xn = x n P | X1 = x 1 . . . , Xn = x n

ası́, a = 0,3541 y b = 0,4389, por lo tanto, [0,3541; 0,4389] es un intervalo del 95 % de


confianza para estimar a P, es decir,

P 0,3541 ≤ P ≤ 0,4389 |X1 = x1 , . . . , Xn = xn = 0,95;

por lo tanto, a partir de los resultados de esta muestra registrada, se infiere que existe
una probabilidad de 0,95 de que la proporción de electores (que están de acuerdo con la
gestión) está entre 0,3541 y 0,4389. Nótese que se puede reemplazar la palabra confianza por
probabilidad.

119
120 José Flores Delgado Estadı́stica inferencial

5.3. Ejercicios propuestos

Ejercicio 5.1.

En el contexto de los ejemplos 3.1 y 3.3, en los que se trata de hacer inferencia sobre µ, el
tiempo promedio para llevar a cabo cierta tarea, se supuso que X ∼ N(µ; 102 ); es decir,
1
(x−µ)2
que fX (x) = 101√π e (2)102 − ∞ < x < ∞. Supongamos, ahora, que un estudiante dispone
de cierta información sobre este parámetro y decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.


1
(x−µ)2
b) Cómo debe expresar el estudiante que fX (x) = 101√π e (2)102 − ∞ < x < ∞, es
2
decir, que X ∼ N(µ; 10 ); si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media
de 50 y una desviación estándar de 4. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante usará la muestra


registrada en los ejemplos 3.1 y 3.3.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de las
hipótesis siguientes es más probable que sea verdadera: H0 : µ ≤ 50 o H1 : p > 50.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra registrada y el enfoque bayesiano, determine la confianza que
tiene el intervalo clásico del 95 % de confianza, obtenido en el ejemplo 3.3, para
estimar al parámetro.

120
José Flores Delgado Introducción a la Inferencia bayesiana 121

Ejercicio 5.2.

Un estudiante de inferencia estadı́stica clásica considera X ∼ b(10; p), con p ∈ (0; 1)


 x
desconocido; es decir, que fX (x) = 10
x
p (1 − p)10−x , x > 0. Puesto que el estudiante dispone
de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.


 x
b) Cómo debe expresar el estudiante que fX (x) = 10 x
p (1 − p)10−x , x > 0, es decir, que
X ∼ b(10; p), si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media de
0,8 y una desviación estándar de 0,1. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de
las hipótesis siguientes es más probable que sea verdadera: H0 : p ≤ 0,8 o
H1 : p > 0,8.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [0,2; 0,6] para estimar al parámetro.

Ejercicio 5.3.

Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro puede tomar valores indistintamente entre
cero y uno. Dé la función de probabilidad a priori que corresponde en este caso.

121
122 José Flores Delgado Estadı́stica inferencial

Ejercicio 5.4.

Un estudiante de inferencia estadı́stica clásica considera X ∼ g(p), con p ∈ (0; 1)


desconocido, es decir, que fX (x) = (1 − p)x−1 p, x = 1, 2, . . . . Puesto que el estudiante
dispone de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.

b) Cómo debe expresar el estudiante que fX (x) = (1 − p)x−1 p, x = 1, 2, . . . , es decir, que


X ∼ g(p), si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro puede tomar
valores indistintamente entre cero y uno. Dé la función de probabilidad a priori que
corresponde en este caso.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de
las hipótesis siguientes es más probable que sea verdadera: H0 : p ≤ 0,8 o
H1 : p > 0,8.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor, c, tal que la probabilidad de que el parámetro sea menor o igual que c sea
de 0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [0,2; 0,6] para estimar al parámetro.

Ejercicio 5.5.

Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de 0,8 y una desviación
estándar de 0,1. Si el estudiante decide considerar una distribución a priori beta, encuentre
valores razonables para los parámetros que debe tener esta y dé la función de probabilidad
correspondiente.

122
José Flores Delgado Introducción a la Inferencia bayesiana 123

Ejercicio 5.6.

Un estudiante de inferencia estadı́stica clásica considera X ∼ G(2; β), con β > 0


desconocido, es decir, que fX (x) = β 2 x e−β x , x > 0. Puesto que el estudiante dispone de
cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.

b) Cómo debe expresar el estudiante que fX (x) = β 2 x e−β x, x > 0, es decir, que
X ∼ G(2; β), si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de las
hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 1 o H1 : β > 1.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [0,2; 0,6] para estimar al parámetro.

Ejercicio 5.7.

Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.

123
124 José Flores Delgado Estadı́stica inferencial

Ejercicio 5.8.

Un estudiante de inferencia estadı́stica clásica considera X ∼ W eibull(2; β), con β > 0


2
desconocido, es decir, que fX (x) = 2β x e−β x , x > 0. Puesto que el estudiante dispone de
cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.


2
b) Cómo debe expresar el estudiante que fX (x) = 2β x e−β x , x > 0, es decir, que
X ∼ G(2; β), si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos. Si el estudiante decide considerar una distribución a priori Weibull con el
parámetro α = 1, encuentre un valor razonable para el otro parámetro que debe tener
esta y dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de
las hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 0,1 o
H1 : β > 0,1.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [4; 6] para estimar al parámetro.

Ejercicio 5.9.

Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos y una desviación
estándar de uno. Si el estudiante decide considerar una distribución a priori gamma,
encuentre valores razonables para los parámetros que debe tener esta y dé la función de
probabilidad correspondiente

124
José Flores Delgado Introducción a la Inferencia bayesiana 125

Ejercicio 5.10.

Un estudiante de inferencia estadı́stica clásica considera X ∼ P (λ), con λ > 0 desconocido,


es decir, que fX (x) = e−λ λx / x ! , x = 0, 1, . . . Puesto que el estudiante dispone de cierta
información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.

b) Cómo debe expresar el estudiante que fX (x) = e−λ λx / x ! , x = 0, 1, . . . , es decir, que


X ∼ P (λ), si aplicará el enfoque bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de las
hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 1 o H1 : β > 1.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [3; 6] para estimar al parámetro.

Ejercicio 5.11.

Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.

125
126 José Flores Delgado Estadı́stica inferencial

Ejercicio 5.12.

Un estudiante de inferencia estadı́stica clásica considera X ∼ Ps(3; p), con p ∈ (0; 1)



desconocido, es decir, que fX (x) = x−1
3−1
(1 − p)x−3 p3 , x = 3, 4, . . . Puesto que el estudiante
dispone de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

a) Explique por qué es razonable esta decisión del estudiante.



b) Cómo debe expresar el estudiante que fX (x) = x−1
3−1
(1 −p)x−3 p3 , x = 3, 4, . . . , es decir,
que X ∼ Ps(3; p), si aplicará el enfoque bayesiano.
Use las notaciones que empleamos desde el curso anterior.

c) La información que dispone el estudiante indican que este parámetro tiene una media
de 0,75 y una desviación estándar de 0,1. Si el estudiante decide considerar una
distribución a priori beta, encuentre valores razonables para los parámetros que debe
tener esta y dé la función de probabilidad correspondiente.

d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra


aleatoria de 15 valores de X siguiente:

4; 3; 4; 5; 3; 3; 4; 5; 4; 4; 6; 4; 4; 4; 5.

d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.


d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de
las hipótesis siguientes es más probable que sea verdadera: H0 : p ≤ 0,75 o
H1 : p > 0,75.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [0,7; 0,8] para estimar al parámetro.

126
Bibliografı́a

1. Calderón, Arturo (2012).


Apuntes de Clase de Estadı́stica.
Lima PUCP.

2. Jay Devore y Kenneth Berk (2007).


Modern Mathematical Statistics With Applications.
Duxbury Press.

3. Dudewicz E. y Mishra S. (1998).


Modern Mathematical Statistics. John Wiley y Sons.

4. Larson, Harold (1990).


Introducción a la Teorı́a de Probabilidades y Estadı́stica.
México: Ed. Limusa Wiley.

5. Mendenhall, William y Sincich, Terry (1997).


Probabilidad y Estadı́stica para Ingenierı́a y Ciencias.
México: Prentice-Hall Hispanoamericana, S.A.

6. Estadı́stica: teorı́a y métodos


Del Pino M. Guido
Santiago de Chile : Ediciones Universidad Católica, 2000.

7. Tucker (1989).
Introducción a la Teorı́a Matemática de Probabilidades y Estadı́stica.
Barcelona: Ed. Vinces Vives.

127

También podría gustarte