Estadistica Inferencial - 2014 - Flores PDF

Estadı́stica Inferencial
Facultad de Ciencias Sociales
Especialidad de Economı́a
José Flores Delgado
Agosto de 2014
Prólogo
Este trabajo corresponde a las notas de clases que el autor ha impartido en uno de los
horarios del curso de Estadı́stica Inferencial, destinado a los alumnos de la especialidad de
Economı́a de la Facultad de Ciencias Sociales de la Pontificia Universidad Católica del Perú.
En esta versión, además de corregir los errores detectados, se han añadido ejercicios
propuestos, mejorado los temas de inferencia. Pido disculpas por los errores que permanecen.
Agradezco a la Facultad de Ciencias Sociales y a la sección de Matemáticas, por las

facilidades brindadas para la elaboración de este texto.
También quiero agradecer al profesor Arturo Calderón la valiosa información proporcio-

nada sobre este curso.
Quiero advertir a los alumnos que este texto no debe sustituir a las referencias
bibliográficas —lectura más que necesaria para un mejor aprendizaje—, ni a las clases, ni a
sus propios apuntes —que espero ahora puedan hacer en mejores condiciones—.
Me permito también felicitar a ustedes, alumnos, por su madurez demostrada al optar

por esta Universidad, sabiendo de su exigencia y prestigio reconocidos; los invito a que
contribuyan a mantenerlos, como lo han hecho quienes los precedieron.
Finalmente, debo mencionar que este trabajo ha requerido de mucha dedicación personal,
tarea que no hubiera sido posible sin la comprensión y estı́mulo de mi esposa.
José Flores Delgado.
Lima, agosto de 2014.
2
Índice
1. Vector aleatorio o variables aleatorias distribuidas conjuntamente 11
1.1. Modelo probabilı́stico conjunto . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1. Propiedades de la función de distribución conjunta . . . . . . . . . . 14
1.2. Valor esperado de una función real de variables aleatorias . . . . . . . . . . . 14
1.3. Propiedades del valor esperado relacionadas con la suma de variables . . . . 15
1.4. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Forma alternativa para el cálculo de la distribución condicional . . . . . . . . 20
Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . 23
1.7. Propiedades del valor esperado y la varianza relacionadas con variables

aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Propiedad para el cálculo del valor esperado . . . . . . . . . . . . . . . . . . 25
1.9. Covarianza y correlación de dos variables aleatorias . . . . . . . . . . . . . . 27
1.9.1. Propiedades de la varianza y la covarianza relacionadas con la suma

de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10. Vector de medias y matriz de varianzas-covarianzas . . . . . . . . . . . . . . 29
Media varianza de una transformación lineal . . . . . . . . . . . . . . . . . . 30
1.11. La distribución normal bivariable . . . . . . . . . . . . . . . . . . . . . . . . 30
1.12. La distribución normal multivariable . . . . . . . . . . . . . . . . . . . . . . 32
1.13. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 34
3
4 José Flores Delgado Estadı́stica inferencial
1.14. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2. Inferencia estadı́stica 55
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.2. Estimación puntual de parámetros . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.3.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Esperanzas y varianzas de la media, varianza y proporción muestrales 60
2.3.2. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Teorı́a Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Convergencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . 62
Convergencia en probabilidad (Plim) . . . . . . . . . . . . . . . . . . 63
Convergencia en distribución . . . . . . . . . . . . . . . . . . . . . . . 63
Otras propiedades de convergencia, el Teorema de Slutsky . . . . . . 64
La Ley Fuerte de Los Grandes Números . . . . . . . . . . . . . . . . 64
El Teorema del Lı́mite Central . . . . . . . . . . . . . . . . . . . . . . 64
Criterio para convergencia en probabilidad . . . . . . . . . . . . . . . 65
2.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Distribución asintótica del estimador de máxima verosimilitud . . . . 67
Propiedad de invarianza del estimador de máxima verosimilitud . . . 67
2.4.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.4.3. Cuadrados mı́nimos y Regresión . . . . . . . . . . . . . . . . . . . . . 68
El modelo de regresión lineal simple sin intercepto . . . . . . . . . . . 69
El modelo de regresión lineal simple con intercepto . . . . . . . . . . 70
2.5. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4
José Flores Delgado Tablas 5
2.5.1. La distribución normal y el muestreo para estimar a la media, µ, de

una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.5.2. La distribución ji-cuadrado y el muestreo para estimar a la varianza,

σ 2 , de una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . 72
2.5.3. La distribución t de student y el muestreo para estimar a la media, µ,

de una variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.5.4. La distribución F de Fisher y el muestreo para estimar la razón entre

dos varianzas, σ12 /σ22 , de dos variables aleatorias . . . . . . . . . . . . 73
3. Estimación por intervalo 85
3.1. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2. Metodologı́a (método de la variable base ) . . . . . . . . . . . . . . . . . . . 86
3.3. Intervalo de confianza para la media µ cuando σ 2 es conocido . . . . . . . . 86
3.4. Intervalo de confianza para la media µ cuando σ 2 es desconocido . . . . . . . 87
3.5. Intervalo de confianza para la varianza σ 2 de una población normal . . . . . 87
4. Pruebas o contrastes de hipótesis 97
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2. El Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.3. El método de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . 106
5. Introducción a la inferencia bayesiana 116
5.1. Nociones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.2. Inferencia bayesiana de parámetros . . . . . . . . . . . . . . . . . . . . . . . 116
Bibliografı́a 127
5
Tabla de Modelos probabilı́sticos

1. Binomial X ∼ b(n,p); n ∈ +, 0 < p < 1 N 2. Poisson X ∼ P (λ); λ > 0
λ x
f (x) = nx px (1 − p)n−x , x = 0,1 . . . , n f (x) = e−λ , x = 0, 1, . . .
x!
µX = np, σX2 = np(1 − p), µX = λ, σX2 = λ,
t
MX (t) = (pet + 1 − p)n , t ∈ R MX (t) = eλ(e −1) , t ∈ R
X = número de éxitos en n ensayos, X = número de éxitos en una región que
en un proceso de Bernoulli, mide t, en un proceso de Poisson con tasa ω,
⇒ X ∼ b(n; p), p = P (E). ⇒ X ∼ P (λ), λ = ωt.
3. Geométrico X ∼ g(p), 0 < p < 1 4. Exponencial X ∼ exp (β); β > 0.
f (x) = p(1− p)x−1 ; F (x) = 1−(1− p)x , x = 1,2, . . . f (x) = β e−β x
; F (x) = 1 − e−β x , x > 0.
1 1−p β
µX = , σX2 = µX = 1/β, σX2 = 1/β 2 , MX (t) = , t < β.
p p2 β−t
pe t
MX (t) = 1−(1−p)e t , t < −Ln(1 − p). X = medida de la región hasta el primer
X = número de ensayos hasta el primer éxito éxito, en un proceso de Poisson con tasa ω,
Γ(1 + t)
⇒ X ∼ g(p), p = P (E). ⇒ X ∼ exp(ω). E(X t ) = ,∀t > 0.
βt
5. Pascal X ∼ P s(r,p); r ∈ + , 0 < p < 1 N 6. Gamma X ∼ G(α,β); α > 0, β > 0
β α α−1 −β x
f (x) = pr x−1
r−1
(1 − p)x−r , x = r, r + 1, . . . f (x) = x e , x > 0.
Γ(α)
P e−βx (βx)j
N
r 2 r(1 − p) α−1
µX = , σX = . F (x) = 1 − , x > 0; α ∈ + .
p p2 j=0 j!
pet
r β α
MX (t) = 1−(1−p)e t , t < −Ln(1 − p). µX = α/β, σX2 = α/β 2, MX (t) = ( ) , t < β.
β−t
X = número de ensayos hasta obtener X= medida de la región hasta el r-ésimo
el r-ésimo éxito, en un proceso de Bernoulli, éxito, en un proceso de Poisson con tasa ω,
Γ(α + t)
⇒ X ∼ P s(r; p), p = P (E). ⇒ X ∼ G(r,ω). E(X t ) = t ,∀t > 0.
β Γ(α)
7. Normal X ∼ N(µ, σ 2 ); µ ∈ R, σ > 0 8. Lognormal X ∼ LogN(µ, σ 2); µ ∈ , σ > 0 R
(lnx − µ)2
1 (x−µ)2 1 −
f (x) = √ e− 2σ2 , − ∞ < x < ∞; f (x) = √ x−1 e 2σ 2 , x > 0;
2πσ 2πσ
1 2 2 (2µ+σ 2 )/2 2 σ2 1 2 2
µX = µ, σX2 = σ 2 , MX (t) = e tµ+ 2 σ t , ∀t ∈ R. µX = e , σX = µ2X (e −1); E(X t ) = e tµ+ 2 σ t .
9. Beta X ∼ B(α; β); α > 0, β > 0 10. Weibull X ∼ W (α; β); α > 0, β > 0
Γ(α+β) α α
f (x) = Γ(α)Γ(β) xα−1 (1 − x)β−1 , 0 ≤ x ≤ 1. f (x) = αβxα−1 e−βx ; F (x) = 1 − e−βx , x > 0.
α αβ Γ(1 + α1 ) Γ(1 + α2 ) − Γ2 (1 + α1 )
µX = y σX2 = 2
. µX = y σ 2
= .
α+β (α + β) (α + β + 1) β 1/α X
β 2/α
Γ(α + β) Γ(t + α) Γ(1 + αt )
E(X t ) = ,∀t > 0. t
E(X ) = ,∀t > 0.
Γ(α)Γ(t + α + β) β t/α
11. Uniforme X ∼ U(a; b) 12. Hipergeométrico X ∼ H(N, M, n)
1 (M )(N−M )
f (x) = , a ≤ x ≤ b. f (x) = x Nn−x , x = 0,1, . . . , n.
b−a (n)
a+b (b−a)2
µX = 2
y σX2 = 12
. µX = np y σX2 = np(1 − p)( N −n
N −1
), con p = M N
.
Z ∞
x−1 −t √
Función gamma: Γ(x) = t e dt;Γ(x+1) = xΓ(x), x > 0; Γ(0,5) = π; m ∈ N+: Γ(m) = (m−1) !
0
6
Tabla de la distribución normal estándar
FZ (−a,bc) = P(Z ≤ −a,bc)
-a,b c
0 1 2 3 4 5 6 7 8 9
-0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
7
Tabla de la distribución normal estándar
FZ (a,bc) = P(Z ≤ a,bc)
a,b c
0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
8
Tabla de la distribución t de student
FT (tγ ) = P(T ≤ tγ ) = γ
g.l. t0,9 t0,95 t0,975 t0,99 t0,995 t0,999 t0,9995

1 3,0777 6,3137 12,7062 31,8210 63,6559 318,2888 636,5776
2 1,8856 2,9200 4,3027 6,9645 9,9250 22,3285 31,5998
3 1,6377 2,3534 3,1824 4,5407 5,8408 10,2143 12,9244
4 1,5332 2,1318 2,7765 3,7469 4,6041 7,1729 8,6101
5 1,4759 2,0150 2,5706 3,3649 4,0321 5,8935 6,8685
6 1,4398 1,9432 2,4469 3,1427 3,7074 5,2075 5,9587
7 1,4149 1,8946 2,3646 2,9979 3,4995 4,7853 5,4081
8 1,3968 1,8595 2,3060 2,8965 3,3554 4,5008 5,0414
9 1,3830 1,8331 2,2622 2,8214 3,2498 4,2969 4,7809
10 1,3722 1,8125 2,2281 2,7638 3,1693 4,1437 4,5868
11 1,3634 1,7959 2,2010 2,7181 3,1058 4,0248 4,4369
12 1,3562 1,7823 2,1788 2,6810 3,0545 3,9296 4,3178
13 1,3502 1,7709 2,1604 2,6503 3,0123 3,8520 4,2209
14 1,3450 1,7613 2,1448 2,6245 2,9768 3,7874 4,1403
15 1,3406 1,7531 2,1315 2,6025 2,9467 3,7329 4,0728
16 1,3368 1,7459 2,1199 2,5835 2,9208 3,6861 4,0149
17 1,3334 1,7396 2,1098 2,5669 2,8982 3,6458 3,9651
18 1,3304 1,7341 2,1009 2,5524 2,8784 3,6105 3,9217
19 1,3277 1,7291 2,0930 2,5395 2,8609 3,5793 3,8833
20 1,3253 1,7247 2,0860 2,5280 2,8453 3,5518 3,8496
21 1,3232 1,7207 2,0796 2,5176 2,8314 3,5271 3,8193
22 1,3212 1,7171 2,0739 2,5083 2,8188 3,5050 3,7922
23 1,3195 1,7139 2,0687 2,4999 2,8073 3,4850 3,7676
24 1,3178 1,7109 2,0639 2,4922 2,7970 3,4668 3,7454
25 1,3163 1,7081 2,0595 2,4851 2,7874 3,4502 3,7251
26 1,3150 1,7056 2,0555 2,4786 2,7787 3,4350 3,7067
27 1,3137 1,7033 2,0518 2,4727 2,7707 3,4210 3,6895
28 1,3125 1,7011 2,0484 2,4671 2,7633 3,4082 3,6739
29 1,3114 1,6991 2,0452 2,4620 2,7564 3,3963 3,6595
30 1,3104 1,6973 2,0423 2,4573 2,7500 3,3852 3,6460
35 1,3062 1,6896 2,0301 2,4377 2,7238 3,3400 3,5911
40 1,3031 1,6839 2,0211 2,4233 2,7045 3,3069 3,5510
50 1,2987 1,6759 2,0086 2,4033 2,6778 3,2614 3,4960
60 1,2958 1,6706 2,0003 2,3901 2,6603 3,2317 3,4602
70 1,2938 1,6669 1,9944 2,3808 2,6479 3,2108 3,4350
80 1,2922 1,6641 1,9901 2,3739 2,6387 3,1952 3,4164
90 1,2910 1,6620 1,9867 2,3685 2,6316 3,1832 3,4019
100 1,2901 1,6602 1,9840 2,3642 2,6259 3,1738 3,3905
110 1,2893 1,6588 1,9818 2,3607 2,6213 3,1660 3,3811
120 1,2886 1,6576 1,9799 2,3578 2,6174 3,1595 3,3734
∞ 1,2816 1,6448 1,9600 2,3264 2,5758 3,0902 3,2905
9
Tabla de la distribución Ji-cuadrado
FW (χ2γ ) = P(W ≤ χ2γ ) = γ
g.l. χ20,005 χ20,01 χ20,025 χ20,05 χ20,1 χ20,9 χ20,95 χ20,975 χ20,99 χ20,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3777 9,2103 10,5967
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3448 12,8383
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8601
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7495
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8118 18,5476
7 0,9892 1,2390 1,6899 2,1674 2,8331 12,0170 14,0672 16,0128 18,4753 20,2778
8 1,3444 1,6465 2,1797 2,7326 3,4895 13,3616 15,5073 17,5345 20,0902 21,9551
9 1,7350 2,0879 2,7004 3,3251 4,1682 14,6837 16,9190 19,0228 21,6661 23,5892
10 2,1559 2,5582 3,2470 3,9403 4,8652 15,9872 18,3070 20,4832 23,2093 25,1882
11 2,6032 3,0535 3,8157 4,5748 5,5778 17,2750 19,6751 21,9201 24,7250 26,7569
12 3,0738 3,5706 4,4038 5,2260 6,3038 18,5493 21,0261 23,3367 26,2170 28,2994
13 3,5651 4,1069 5,0088 5,8919 7,0415 19,8119 22,3620 24,7356 27,6882 29,8195
14 4,0747 4,6604 5,6287 6,5706 7,7895 21,0642 23,6848 26,1189 29,1412 31,3192
15 4,6009 5,2294 6,2621 7,2610 8,5468 22,3071 24,9958 27,4884 30,5779 32,8012
16 5,1422 5,8122 6,9076 7,9616 9,3122 23,5418 26,2962 28,8454 32,0000 34,2671
17 5,6972 6,4078 7,5642 8,6718 10,0852 24,7690 27,5871 30,1910 33,4086 35,7185
18 6,2647 7,0149 8,2307 9,3905 10,8649 25,9894 28,8693 31,5264 34,8053 37,1563
19 6,8439 7,6327 8,9065 10,1170 11,6509 27,2036 30,1435 32,8523 36,1909 38,5824
20 7,4338 8,2604 9,5908 10,8508 12,4426 28,4120 31,4105 34,1696 37,5662 39,9968
21 8,0337 8,8972 10,2829 11,5913 13,2396 29,6151 32,6706 35,4789 38,9322 41,4011
22 8,6427 9,5425 10,9823 12,3380 14,0415 30,8133 33,9244 36,7807 40,2893 42,7957
23 9,2604 10,1957 11,6885 13,0905 14,8480 32,0069 35,1725 38,0757 41,6384 44,1814
24 9,8863 10,8564 12,4011 13,8484 15,6587 33,1962 36,4150 39,3641 42,9798 45,5586
25 10,5196 11,5240 13,1197 14,6114 16,4734 34,3816 37,6525 40,6465 44,3141 46,9279
26 11,1602 12,1981 13,8439 15,3792 17,2919 35,5632 38,8851 41,9232 45,6418 48,2899
27 11,8076 12,8785 14,5734 16,1514 18,1139 36,7412 40,1133 43,1945 46,9630 49,6447
28 12,4614 13,5647 15,3079 16,9279 18,9392 37,9159 41,3371 44,4608 48,2783 50,9934
29 13,1212 14,2564 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5880 52,3357
30 13,7868 14,9534 16,7908 18,4926 20,5992 40,2560 43,7730 46,9793 50,8921 53,6721
35 17,1919 18,5089 20,5694 22,4650 24,7966 46,0588 49,8018 53,2034 57,3421 60,2746
40 20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 55,7585 59,3417 63,6908 66,7659
45 24,3110 25,9012 28,3661 30,6122 33,3504 57,5053 61,6562 65,4101 69,9569 73,1659
50 27,9908 29,7067 32,3573 34,7642 37,6887 63,1671 67,5048 71,4202 76,1540 79,4901
55 31,7348 33,5704 36,3981 38,9580 42,0596 68,7962 73,3115 77,3805 82,2922 85,7492
60 35,5346 37,4849 40,4818 43,1880 46,4589 74,3970 79,0819 83,2976 88,3793 91,9518
65 39,3833 41,4436 44,6030 47,4496 50,8830 79,9730 84,8206 89,1772 94,4221 98,1049
70 43,2751 45,4417 48,7576 51,7393 55,3289 85,5271 90,5312 95,0231 100,4251 104,2150
75 47,2061 49,4751 52,9419 56,0541 59,7945 91,0614 96,2167 100,8394 106,3928 110,2855
80 51,1721 53,5400 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3289 116,3210
85 55,1698 57,6340 61,3888 64,7494 68,7772 102,0789 107,5218 112,3933 118,2358 122,3246
90 59,1963 61,7540 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1162 128,2990
95 63,2496 65,8983 69,9249 73,5198 77,8184 113,0377 118,7516 123,8580 129,9728 134,2467
100 67,3276 70,0649 74,2219 77,9294 82,3581 118,4980 124,3421 129,5612 135,8066 140,1693
105 71,4284 74,2520 78,5364 82,3537 86,9093 123,9469 129,9180 135,2470 141,6201 146,0698
110 75,5501 78,4584 82,8670 86,7916 91,4710 129,3852 135,4802 140,9165 147,4144 151,9488
115 79,6915 82,6825 87,2128 91,2422 96,0427 134,8135 141,0297 146,5710 153,1906 157,8080
120 83,8516 86,9232 91,5726 95,7047 100,6237 140,2326 146,5673 152,2114 158,9500 163,6485
10
1. Vector aleatorio o variables aleatorias distribuidas
conjuntamente
En el tratamiento con n variables aleatorias resulta necesario un modelo de probabilidad

que no solo permita describir a cada variable individualmente, sino a todas en conjunto; de
modo que se pueda estudiar algunas relaciones entre estas que no se puedan apreciar con el
modelo individual de cada una de ellas.
Ejemplo 1.1. Sean X el número de operaciones bancarias que se realizan en un dı́a a

través de la internet e Y el número de operaciones que originaron un sobregiro; cuyo
conjunto de valores que pueden asumir simultáneamente (rango conjunto de estas variables)
es RX,Y = { (x,y) ∈ N2 : y = 0, . . . ,x; x = 0, 1, . . . }. Los modelos probabilı́sticos de estas
variables no contemplan la relación de dependencia entre estas variables, tampoco permiten
obtener probabilidades relacionadas con ambas variables simultáneamente, por ejemplo, que
todas las operaciones originen un sobregiro.
1.1. Modelo probabilı́stico conjunto
Definición 1.1. El modelo probabilı́stico 1 (o distribución de probabilidades) conjunto de

las variables aleatorias X1 , . . . , Xn es la función f : Rn → R, caracterizada por la propiedad
que, para cualquier subconjunto A ∈ Rn , la probabilidad de que estas asuman valores en
dicho conjunto, P (X1 , . . . , Xn ) ∈ A), se obtiene, según sean las variables discretas o
continuas, mediante:
 X X

 ... f (x1 , . . . , xn ), si X1 , . . . , Xn son discretas,



 (x1 , ... , xn )∈A

P (X1 , . . . , Xn ) ∈ A = Z Z



 . . . f (x1 , . . . , xn )dx1 . . . dxn , si X1 , . . . , Xn son continuas.



A
Con esta función se obtendrá todo lo relacionado con las variables X1 , . . . , Xn . Si f no
está definida en todo Rn se extiende, sin afectar los resultados, definiendo f (x1 , . . . , xn ) = 0,
para todo valor x1 , . . . , xn fuera del rango conjunto. También es posible considerar el caso
mixto, es decir, cuando algunas variables sean discretas y otras continuas, en esta situación
cada variable discreta aporta una suma y cada variable continua, una integral.
1
El término usual en los textos clásicos es el de distribución de probabilidades, pero el autor ha preferido
el de modelo probabilı́stico para enfatizar su aplicación como modelo. Coincidimos, por ejemplo, con Del
Pino (2000).
11
Ejemplo 1.2. Un inversionista está interesado en dos acciones: una americana, la otra
europea; el precio al cabo de un año (en ciertas unidades monetarias [u.m.]) de la americana
es X, el de la europea Y. Además, se ha observado que la acción americana siempre cuesta
menos del doble de lo que cuesta la segunda. Supongamos que X e Y sean variables aleatorias
continuas y, para ejemplificar, que la densidad conjunta de estas variables está dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.
A continuación, calcularemos algunas probabilidades.
(i) Un inversionista comprará una acción de cada bien y obtendrá la utilidad deseada si, al
cabo de una año, el precio de cada una es superior a 1 u.m. Entonces, la probabilidad
de que logre su objetivo está dada por
Z ∞ Z 2y
P (X > 1 ∩ Y > 1) = 2e dx dy = 2e−2 = 0,27067.
−2y
1 1
Si calculamos la probabilidad anterior cambiando el orden de integración, se obtiene:

Z 2 Z ∞ Z ∞ Z ∞
−2y
2e dy dx + 2e dy dx = 2e−2 = 0,27067.
−2y
1 1 2 x/2
(ii) Determinemos la probabilidad de que el precio de la acción americana sea mayor que
el de la europea: Z ∞ Z x
−2y 1
P (X > Y ) = 2e dy dx = .
0 x/2 2
O, cambiando el orden de integración, tenemos:
Z ∞ Z 2y
−2y 1
P (X > Y ) = 2e dx dy = .
0 y 2
Ejemplo 1.3. Como en el ejemplo 1.1, sean X el número de operaciones bancarias, que se
realizan en un dı́a a través de la internet, e Y el número de operaciones que originaron un
sobregiro. Supongamos que la función de probabilidad conjunta de X e Y esté dada por

e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y
Con esta función podemos obtener la probabilidad de cualquier evento que se exprese en
términos de las variables X e Y, por ejemplo:
(i) La probabilidad de que realicen 50 operaciones y que solo 10 de estas ocasionen un

sobregiro:

e−60 6050 50
P (X = 50 ∩ Y = 10) = f (50; 10) = (0,3)10 (0,7)50−10 = 0,0008987.
XY 50! 10
12
José Flores Delgado Vector Aleatorio 13
(ii) La probabilidad P (15 ≤ X ≤ 17 ∩ X − 1 ≤ Y ≤ X) :

= f (15; 14) + f (15; 15) + f (16; 15) + f (16; 16) + f (17; 16) + f (17; 17)
XY XY XY XY XY XY
−17
= 1 x10 .
(iii) La probabilidad de que se realicen 50 operaciones y a lo más 10 originen un sobregiro:

P
50 P 10
P (X = 50 ∩ Y ≤ 10) = f (x,y)
x=50 y=0 XY
P10
= f (50; y)
y=0 XY

10 e−60 6050 50
P
= (0,3)y (0,7)50−y
y=0 50! y
= 0,0018349.
(iv) La probabilidad de que todas las operaciones realizadas ocasionen un sobregiro:
P
∞ P x
P (X = Y ) = f (x,y)
x=0 y=x X Y

∞ e−60 60x x
P
∞ P
= f (x; x) = (0,3)x (0,7)x−x
x=0 X Y x=0 x! x
∞ e−60 60x
P
= (0,3)x
x=0 x!
P∞ 18x
= e−60 = e−60 e18
x=0 x!
= 5,7 x10−19 .
(v) La probabilidad de que se realicen 50 operaciones:

50 e−60 6050 50
P50 P
P (X = 50) = f (50,y) = (0,3)y (0,7)50−y
y=0 X Y y=0 50! y
−60 50 P

e 60 50 50 e−60 6050
= (0,3)y (0,7)50−y = (0,3 + 0,7)50
50! y=0 y 50!
e−60 6050
=
50!
(vi) La función de probabilidad de Y, f (y) = P (Y = y), puede obtenerse ası́:
Y
∞ e−60 60x x

P
P (Y = y) = (0,3)y (0,7)x−y
x=y x! y
P∞ e−60 60x x!
= (0,3)y (0,7)x−y
x=y x! y! (x − y)!
P∞ e−60 60z + y
= (0,3)y (0,7)z
z = 0 y! z!
e−60 60 y P∞ (60 × 0,7)z
= (0,3)y
y! z=0 z!
−60 y
e (60 × 0,3) 60×0,7
= e
y!
e−18 (18) y
= , y = 0, 1, . . .
y!
13
1.1.1. Propiedades de la función de distribución conjunta
Entre otras, las propiedades de la función de distribución conjunta son las siguientes:
1. Si X1 , . . . , Xn son variables aleatorias discretas distribuidas conjuntamente, fX , ... , Xn
1
queda definida mediante:
f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ), ∀(x1 , . . . , xn ) ∈ RX .
X1 , . . . , Xn 1 , ... , Xn
2. Si X1 , . . . , Xn son variables aleatorias discretas distribuidas conjuntamente, se verifica

que
∞
X X∞
n
0 ≤ f (x1 , . . . , xn ) ≤ 1, ∀(x1 , . . . , xn ) ∈ R , y ··· f (x1 , . . . , xn ) = 1.
X1 , . . . , Xn X1 , . . . , Xn
xn =−∞ xn =−∞
3. Si X1 , . . . , Xn son variables aleatorias continuas distribuidas conjuntamente, se tiene

que
Z∞ Z∞
n
0 ≤ f (x1 , . . . , xn ), ∀(x1 , . . . , xn ) ∈ R , y ··· f (x1 , . . . , xn )dx1 . . . dxn = 1.
X1 , . . . , Xn
−∞ −∞
Observación 1.1. Si se desea buscar una distribución de probabilidades que modele
conjuntamente a un grupo de variables aleatorias, deberá buscarse esta entre las que
satisfacen la propiedad 2, en el caso discreto, y la 3, en el caso continuo.
1.2. Valor esperado de una función real de variables aleatorias
Sean X1 , . . . , Xn variables aleatorias, con función de distribución conjunta de

probabilidades f , y g : RX1 , ... , Xn → R; entonces, el valor esperado de la variable
X1 , . . . , Xn
aleatoria g(X1, . . . , Xn ) puede obtenerse a partir de la distribución conjunta de dichas
variables, según sean estas discretas o continuas, como se indica a continuación:
 ∞ ∞
 X X

 ··· g(x1 , . . . , xn )f(x1 , . . . , xn ), si las variables son discretas;

 xn =−∞ x1 =−∞ X1 , . . . , Xn
E g(X1 , . . . , Xn ) = Z∞ Z∞



 · · · g(x1 , . . . , xn )f(x1 , . . . , xn )dx1 . . . dxn , si las variables son continuas.
 X1 , . . . , Xn
−∞ −∞
Esta propiedad es una de las más importantes y es la generalización la propiedad siguiente:

sea X una variable aleatoria y g : RX → R una función; entonces, la esperanza de la variable
aleatoria g(X) puede obtenerse con la distribución de probabilidades de X, fX , según sea
esta discreta o continua, como se indica a continuación:
 ∞
 X

 g(x)f (x), si X es discreta;



 x=−∞
X

E(g(X)) =

 Z∞



 g(x)f (x)dx, si X es continua.

 X
−∞
14
Ejemplo 1.4. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.
Hallemos, a continuación, las esperanzas de algunas funciones reales de X e Y :

a) El precio promedio de la acción americana es E(X); para calcularlo podemos considerar
g(x,y) = x. Ası́,
Z∞ Z∞ Z ∞ Z 2y
−2y
E(X) = E(g(X,Y )) = g(x,y)f (x,y)dx dy = x2e dx dy = 1.
0 0
−∞ −∞
Si cambiamos el orden de integración resulta:

Z∞ Z∞ Z ∞ Z ∞
−2y
E(X) = E(g(X,Y )) = g(x,y)f (x,y)dy dx = x2e dy dx = 1.
0 x/2
−∞ −∞
b) El precio promedio de la acción europea es E(Y ); y considerando aquı́

g(x,y) = y, resulta:
Z∞ Z∞ Z ∞ Z ∞
−2y
E(Y ) = E(g(X,Y )) = yf (x,y)dy dx = y2e dy dx = 1.
0 x/2
−∞ −∞
O, cambiando el orden de integración:

Z ∞ Z 2y
−2y
E(Y ) = y2e dx dy = 1.
0 0
Z ∞ Z ∞
2 2 −2y
c) E(X ) = x 2e dy dx = 2. Ası́, σX2 = 2 − 12 = 1.
0 x/2
Z ∞ Z ∞
2 3
−2y
d) E(Y ) =2
y 2e dy dx = . Luego, σY2 = 32 − 12 = 21 .
Z0 ∞ Zx/2∞ 2 Z ∞ Z 2y
−2y 3 −2y 3
e) E(XY ) = xy 2e dy dx = = 2xye dx dy = .
0 x/2 2 0 0 2
1.3. Propiedades del valor esperado relacionadas con la suma de

variables
Si X1 , . . . , Xn son variables aleatorias y a0 , . . . , an , números reales cualesquiera;

entonces, se cumplen las propiedades siguientes:
1. E(X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ).
2. E(a0 + a1 X1 + . . . + an Xn ) = a0 + a1 E(X1 ) + . . . + an E(Xn ).

3. E g1 (X1 , . . . , Xn )+ . . . +gm (X1 , . . . , Xn ) = E(g1 (X1 , . . . , Xn ))+ . . . +E(gm (X1 , . . . , Xn )),
para cualesquiera gi funciones reales con medias finitas.
15
Los ejemplos siguientes ilustran el uso de estas propiedades.
Ejemplo 1.5. El precio de cierta acción, el dı́a n, es una variable aleatoria Xn , para
n = 1, 2, . . . Las variables X1 , X2 ,. . . , tienen una media igual a cero y una desviación estándar
igual a 1. Por otra parte, la utilidad que genera la acción, el dı́a n, es una variable aleatoria
Yn , con: Yn = X1 + 2X2 + . . . + n Xn , para n = 1, 2 . . .
Determinemos el valor promedio de la utilidad que genera la acción, el dı́a n. Como la
esperanza de una suma es la suma de sus esperanzas, tenemos que
E(Yn ) = E(X1 + 2X2 + . . . + n Xn )

= E(X1 ) + 2E(X2 ) + . . . + n E(Xn )
= 0.
Ejemplo 1.6. Sean X1 , . . . , Xn variables aleatorias, cada una con media µ; entonces, la
media de X̄ también es µ.
P
n P
n P
n
En efecto, E(X̄) = E( n1 Xj ) = 1
n
E(Xj ) = 1
n
µ= 1
n
nµ = µ.
j=1 j=1 j=1
1.4. Distribuciones marginales
La distribución de probabilidades de cualquier variable, que integre un vector aleatorio,

se llama distribución marginal. Para obtenerla se puede sumar o integrar la distribución
conjunta sobre el resto de variables, según sean estas discretas o continuas:
X XX X
f (x) = ··· ··· f (x1 , . . . , xi−1 ,x,xi+1 , . . . , xn ), si las variables son discretas
Xi X1 , . . . , Xn
x1 xi−1 xi+1 xn
Z∞ Z∞
f (x) = ··· f (x1 , . . . , xi−1 ,x,xi+1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn , si las variables
Xi X1 , . . . , Xn
−∞ −∞
son continuas.
Respecto al cálculo de estas distribuciones marginales tenemos las consideraciones

siguientes:
(i) en el cálculo de estas sumas e integrales se debe tener en cuenta que los lı́mites ya
no corresponden al rango conjunto de las n variables, sino al que corresponde a las
restantes cuando se fija el valor de la variable cuya marginal se determinará;
(ii) cuando se combinan variables discretas y continuas, cada una de las n − 1 variables
restantes, distintas a Xi , contribuyen en el cálculo de la marginal, con una suma, si
fuera discreta, o con una integral, si fuera continua;
(iii) no solo se puede obtener la distribución marginal de una variable; sino también la
conjunta de un grupo de ellas.
16
Ejemplo 1.7. Para las variables X e Y, del ejemplo 1.2, con densidad conjunta
(
2e−2y , 0 < x < 2y;
f (x,y) =
XY 0, en otro caso,
las densidades marginales se obtienen a continuación:

Z∞ Z ∞
f (x) = f (x,y) dy = 2e−2y dy = e−x , x > 0;
X XY x/2
−∞
Z∞ Z 2y
f (y) = f (x,y) dx = 2e−2y dx = 4e−2y y, y > 0.
Y XY 0
−∞
Ejemplo 1.8. Para las variables X e Y, del ejemplo 1.3, con función de probabilidad conjunta
dada por
e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x; x = 0, 1, . . .
XY x! y
las distribuciones marginales se obtienen como sigue:

x e−60 60x x
P P y x−y e−60 60x
f (x) = f (x,y) = (0,3) (0,7) = , x = 0, 1, . . . ;
X y XY y=0 x! y x!

∞ e−60 60x x
P P e−18 18x
f (y) = f (x,y) = (0,3)y (0,7)x−y = , x = 0, 1, . . .
Y x XY x=y x! y x!
1.5. Distribuciones condicionales
Definición 1.2. Si X e Y son variables aleatorias, distribuidas conjuntamente, la

distribución (o modelo probabilı́stico) condicional de X dado Y = y, que será denotada
por f , se define mediante
X|Y = y
f (x,y)
XY
f (x) := , donde y es tal que f (y) > 0 .
X|Y = y f (y) Y
Y
Esta distribución (o modelo) describe el comportamiento probabilı́stico de la variable

aleatoria X, cuando se conoce la información adicional que la variable aleatoria Y asume
el valor particular y, ası́, con esta deben calcularse probabilidades, esperanzas, varianzas y
todo lo relacionado con X, es decir, se aplica la teorı́a sobre una variable aleatoria, pero el
modelo f se cambia por f .
X X|Y = y
Por ejemplo, en el caso continuo, la probabilidad de que X ∈ A, el valor esperado de X, el

valor esperado de g(X) y la varianza de X, cuando Y = y, se obtienen como sigue:
17
Z
P (X ∈ A | Y = y) = f(x) dx ,
X|Y = y
A
Z∞
E(X |Y = y) = xf(x)dx ,
X|Y = y
−∞
Z∞

E g(X) |Y = y = g(x)f(x)dx ,
X|Y = y
−∞

V (X |Y = y) = E ( X − E(X|Y = y) )2 |Y = y = E(X 2 |Y = y) − E 2 (X|Y = y)
Z∞ Z 2
2
= x f(x)dx − xf(x)dx .
X|Y = y X|Y = y
−∞
Observación 1.2. En el caso discreto, esta distribución condicional no es más que la

probabilidad condicional, como se verifica a continuación:
f (x,y) P (X = x ∩ Y = y)
XY
f (x) = = = P (X = x| Y = y)
X|Y = y f (y) P (Y = y)
Y
Ejemplo 1.9. Para las variables X e Y con densidad conjunta:

(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso.
Hallemos la distribución condicional de X, dado Y = y, con y > 0 :

f (x,y) 2e−2y 1
XY
f (x) := = −2y
= , 0 < x < 2y.
X|Y = y f (y) 4e y 2y
Y
Como ya se dijo, con esta nueva distribución se deben calcular probabilidades, esperanzas
y todo sobre la variable X, cuando se sabe que Y = y. A continuación se ilustran estos
cálculos.
i) Dado que Y = y, con y cualquier valor posible de Y , esto es y > 0, el valor esperado
de X se obtiene como sigue:
Z ∞ Z 2y
x
E(X|Y = y) = xf (x) dx = dx = y.
−∞ X|Y = y 0 2y
Ası́, si la acción europea cuesta y u.m., la americana costará, en promedio, la misma
cantidad.
ii) Para calcular la probabilidad de que la acción americana valga más de 3 u.m., si se sabe
que la europea vale 2 u.m., es decir P (X > 3 |Y = 2), usamos la densidad condicional
f (x) = 41 , 0 < x < 4, como sigue:
X|Y = 2 Z ∞ Z 4
1 1
P (X > 3| Y = 2) = f (x) dx = dx = .
3 X|Y = 2 3 4 4
18
Ahora obtengamos la distribución condicional de Y dado que X = x :
f (x,y)
2e−2y
f (y) = X,Y
= = 2e−2y+x , y > x/2; con x > 0.
Y |X = x f (x) e−x
X
La distribución de Y cambia si se sabe que X asume un valor (véase el ejemplo 1.7).
A continuación también se efectúan algunos cálculos con esta distribución condicional.
Z∞ Z ∞
i) Como se cumple para toda densidad: f (y) dy = 2 e−2y+x dy = 1, x > 0.
Y|X = x x/2
−∞
Z∞ Z ∞
1 1
ii) E(Y | X = x) = yf (y) dy = y 2e−2y+x dy = + x; x > 0.
Y|X = x x/2 2 2
−∞
Zy Z y
iii) P (Y ≤ y| X = x) = f (z) dz = 2e−2z+x dz = −e−2y+x + 1, y > x/2.
Y|X = x x/2
−∞
Z∞ Z ∞
2 1 1 1
2
iv) E(Y | X = x) = y f (y) dy = y 22e−2y+x dy = + x + x2 ; x > 0.
Y|X = x x/2 2 2 4
−∞
1
v) V (Y | X = x) = E(Y 2 | X = x) − E 2 (Y | X = x) = 2
+ 12 x + 41 x2 − ( 12 + 21 x)2 = 14 .
Ejemplo 1.10. Para las variables X e Y de los ejemplos 1.3 y 1.8 en el que:

e−60 60x x
f (x,y) = (0,3)y (0,7)x−y , y = 0, . . . ,x ; x = 0, 1, . . .
XY x! y
e−60 60x
f (x) = , x = 0, 1, . . .
X x!
e−18 18y
f (y) = , y = 0, 1, . . .
Y y!
Obtengamos las distribuciones condicionales:
− Dado Y = y, con y = 0, 1, . . . :

e−60 60x x
f (x,y) (0,3)y (0,7)x−y
x! y e−42 42x−y
f (x) := X Y = = , x = y, y + 1, . . .
X|Y = y f (y) e−18 18y (x − y)!
Y
y!
− Dado X = x, con x = 0, 1, . . . :

e−60 60x x
f (x,y) (0,3)y (0,7)x−y
x! y x
f (y) := X Y = −60 x = (0,3)y (0,7)x−y , y = 0, 1, . . . x.
Y |X = x f (x) e 60 y
X
x!
Nótese que Y |X = x ∼ b(n = x; p = 0,3), en particular E(Y |X = x) = 0,3x.
19
A continuación describimos una forma alternativa para calcular las distribuciones

condicionales, por lo general más simple.
Forma alternativa para el cálculo de la distribución condicional
Puesto que en la definición de la distribución condicional de X, dado Y = y, evaluada en x el

denominador, f (y), no depende del valor de x que se considere, sigue que f (x) es proporcional
Y X| Y = y
al numerador; es decir, f (x) = c f (x,y) , con c una constante que solo depende de y, el valor
X| Y = y X,Y
fijado para Y, mas no ası́ de x. Una notación usual para indicar esta proporcionalidad es la
siguiente:
f (x) ∝ f (x,y)
X| Y = y X,Y
Para determinar el modelo condicional, a partir de esta proporcionalidad, se puede identificar

un modelo conocido, si lo hubiera, o hallar la constante de proporcionalidad, c, mediante
la propiedad que la suma o la integral de la función de distribución de probabilidades
(dependiendo de si el caso es discreto o continuo) debe dar uno.
Ejemplo 1.11. Para nuestro ejemplo en el que X e Y tienen una densidad conjunta
(
2e−2y , 0 < x < 2y,
f (x,y) =
0 , en otro caso,
usaremos esta forma alternativa para calcular las distribuciones condicionales.
a) Obtención del modelo condicional de X dado Y = y :

Primero notemos que solo interesan los valores de y > 0, puesto que en otro caso la
distribución conjunta vale cero. Ahora, fijado y > 0 notamos que solo interesan los
valores de x tales que 0 < x < 2y (en otro caso la distribución conjunta vale cero).
Luego, a partir de f (x) ∝ f (x,y), se obtiene
X| Y = y X,Y
f (x) ∝ 2e−2y , 0 < x < 2y;

X| Y = y
para y > 0. Esta distribución de X dado Y = y, es constante respecto a x en el intervalo

(0; y); por lo tanto, se trata de la distribución uniforme; es decir, X| Y = y ∼ U(0; 2y);
para y > 0.
b) Obtención del modelo condicional de Y dado X = x :
En este caso solo son de interés los valores de x > 0. Ahora, fijado x > 0 solo interesan
los valores de y tales que y > x/2 (fuera de este intervalo la densidad conjunta vale
cero). Luego, a partir de f (y) ∝ f (x,y), resulta
Y|X = x X,Y
f (y) ∝ 2e−2y ∝ e−2y , y > x/2;

Y|X = x
para x > 0. Como no se identifica un modelo conocido, para determinar el modelo

condicional se debe hallar la constante de proporcionalidad c en
f (y) = c e−2y , y > x/2;

Y |X = x
20
para x > 0. Esta constante debe satisfacer

Z Z ∞
1 = f (y) dy = ce−2y dy.
Y|X = x x/2
De este modo c = 2ex ; por lo tanto,
f (y) = c f (x,y) = 2 ex e−2y = 2e−2y+x , y > x/2;

Y|X = x X,Y
para x > 0.
Observación 1.3. Puesto que para obtener E(X|Y = y) y V (X|Y = y) solo se reemplaza f
X
(el modelo de X) por f (el modelo condicional), las propiedades de la esperanza y de la
Y|X = x
varianza para una variable aleatoria también son válidas para E(X|Y = y) y V (X|Y = y);
ası́, por ejemplo,
a) E(a |Y = y) = a, ∀a ∈ R;
b) Si a ≤ X ≤ b, entonces, a ≤ E(X |Y = y) ≤ b;
c) E(a + bX |Y = y) = a + bE(X|Y = y) y V (a + bX|Y = y) = b2 V (X|Y = y), para a y

b constantes;

d) E a0 + a1 g1 (X) + . . . + an gn (X) |Y = y

= a0 + a1 E g1 (X) |Y = y + . . . + an E gn (X) |Y = y ;
e) El Principio de Sustitución
P (g(X,Y ) ∈ A|Y = y) = P (g(X,y) ∈ A|Y = y),
E(g(X,Y )|Y = y) = E(g(X,y)|Y = y).
Observación 1.4. Si (X1 , . . . , Xn ) es un vector aleatorio, podemos definir:

f (xi1 , . . . , xim1 , xj1 , . . . , xjm2 )
Xi1 , . . . , Xim , Xj1 , . . . , Xjm
f (xi1 , . . . , xim1 ) = 1 2
.
Xi1 , . . . , Xim | Xj1 = xj1 , . . . , Xjm = xjm
1 2 2
f (xj1 , . . . , xjm2 )
Xj1 , . . . , Xjm
2
Ası́, también son válidas las propiedades del valor esperado relacionadas con una suma dadas
en la sección 1.3, por ejemplo:
E(a0 + a1 X1 + . . . + an Xn |Xi = x) = a0 + a1 E(X1 |Xi = x) + . . . + an E(Xn |Xi = x).
Propiedad (la regla del producto)
Si X e Y son dos variables aleatorias distribuidas conjuntamente, sigue de la definición de

la distribución condicional que:
f (x,y) = f (x)f (y) = f (y)f (x)

XY X Y |X = x Y X|Y = y
21
Ejemplo 1.12. La ejecución de una tarea se realiza en dos etapas sucesivas. En el estudio
para modelar cómo varı́an conjuntamente los tiempos de ejecución de estas etapas, se
determinó que el tiempo de la primera, X (en dı́as), tiene una distribución exponencial
x
con una media de dos dı́as, es decir, f (x) = 12 e− 2 , x > 0. También se ha observado que
X
mientras mayor fue el tiempo necesario para ejecutar la primera etapa, menor resultó el
tiempo promedio de la segunda, de modo que si la ejecución de la primera etapa fue x horas,
la distribución del tiempo de la segunda, Y, resultó exponencial con una media 1/x, es decir,
f (y) = xe−x y , y > 0; x > 0. Supongamos se realizará esta tarea y se requiere que cada etapa
Y |X = x
culmine, a más tardar, en medio dı́a.
A continuación, usaremos la información anterior para hallar la probabilidad de lograrlo, es

decir, la probabilidad P (X ≤ 0,5 ∩ Y ≤ 0,5) :
De la información dada y la regla del producto, la distribución conjunta de X e Y resulta

como sigue:
1 − x −x y x −( 1 + y ) x
f (x,y) = f (x)f (y) = e 2 xe = e 2 , x > 0, y > 0.
XY X Y |X = x 2 2
Con esta distribución conjunta podemos averiguar todo lo relacionado con estas variables,
en particular, lo pedido:
Z 0,5 Z 0,5
x −( 12 + y ) x
P (X ≤ 0,5 ∩ Y ≤ 0,5) = 2
e dy dx = 0,0489.
0 0
Ejemplo 1.13. Los usuarios de un cajero automático acceden a este según un proceso
de Poisson con una tasa de 500 usuarios por dı́a. Además, se sabe que cualquier usuario
tiene una probabilidad igual a 0,1 de hacer una transferencia a otra cuenta y lo hace
independientemente de los demás usuarios. Se quiere determinar la probabilidad de que,
en un dı́a dado, todos los usuarios hagan un transferencia.
Las variables aleatorias siguientes nos permitirán usar la teorı́a de vector aleatorio:
X, el número de usuarios que acceden al cajero en un dı́a,
e Y , el número de usuarios que realizan una transferencia.
Ası́, por las condiciones dadas, sigue inmediatamente que
X ∼ P (500) e Y | X = x ∼ b(x; 0,1), para x > 0.
Ahora, usamos estas distribuciones y la regla del producto para hallar la distribución conjunta
de ambas variables:

e−500 500x x
f (x, y) = f (x) f(y) = (0,1)y (0,9)x−y , y = 0, . . . , x; x = 0, 1, . . .
X,Y X Y|X = x x! y
Con este modelo podemos obtener la probabilidad que interesa:

∞ e−500 500x x
P∞ P x P∞ P
P (X = Y ) = f (x, y) = f (x, x) = (0,1)x (0,9)x−x = e−350 .
x=0 y=x X,Y x=0 X,Y x=0 x! x
22
1.6. Variables aleatorias independientes
Definición 1.3. Se dice que las variables aleatorias X1 , . . . , Xn son independientes, si su

distribución conjunta es igual al producto de las respectivas distribuciones marginales, es
decir, si:
∀(x1 , . . . , xn ) ∈ Rn : f (x1 , . . . , xn ) = f (x1 ) . . . f (xn ).
X1 , . . . , Xn X1 Xn
De aquı́ se deduce que para cualesquiera A1 , . . . , An ∈ R :
P (X1 ∈ A1 ∩ . . . ∩ Xn ∈ An ) = P (X1 ∈ A1 ) . . . P (Xn ∈ An )
Por lo tanto, para el cálculo de probabilidades de eventos en los que las variables estén
separadas es suficiente calcular las probabilidades marginales.
Ejemplo 1.14. Las variables aleatorias discretas X e Y, con rangos { −20, 5 } y función de
probabilidad conjunta, fX,Y , dada en la tabla siguiente, son independientes.
x y -20 5
-20 1/25 4/25
5 4/25 16/25
1 4
En efecto, de f (−20) = 5
= f (−20) y f (5) = 5
= f (5), siguen
X Y X Y
f (−20, − 20) = f (−20) f (−20),

X,Y X Y
f (−20, 5) = f (−20) f (5),

X,Y X Y
f (5, − 20) = f (5) f (−20),

X,Y X Y
f (5,5) = f (5) f (5);

X,Y X Y
es decir, las variables son independientes.
Ejemplo 1.15. Las variables aleatorias continuas X e Y de los ejemplos 1.2 y 1.7 no son
independientes, pues, f (x, y) 6= f (x) f (y), 0 < x < 2y.
X,Y X Y
Ejercicio 1.1. Verifique que las variables aleatorias X e Y, cuya función de densidad
conjunta sigue a continuación, son independientes:
(
4e−2(x+y) ; x > 0, y > 0.
f (x,y) =
X,Y 0 ; en otro caso.
Observación 1.5. Observe que si dos variables aleatorias, X e Y, son independientes, las
funciones de distribución condicionales son iguales a las marginales:
f (x) = f (x) y f (y) = f (y)

X| Y = y X Y |X = x Y
23
Propiedad. Funciones de variables independientes también son independientes. Es decir, si

X1 , . . . , Xn son independientes también lo son
g1 (X1 ), . . . , gn (Xn ),
para cualesquiera gi : RXi → R.
O, en general, funciones de grupos disjuntos de variables independientes también son

independientes. Es decir, si X1 , . . . , Xn son independientes también lo son
g1 (Xi1 , . . . , Xin1 ), . . . , gk (Xi1 , . . . , Xink ),
para cualesquiera Xi1 , . . . , Xin1 , . . . , Xik , . . . , Xink , tales que ij 6= il , y funciones gi :

RXi , ... , Xi → R.
1 ni
1.7. Propiedades del valor esperado y la varianza relacionadas

con variables aleatorias independientes
A continuación se enumeran algunas propiedades del valor esperado y de la varianza para

variables aleatorias independientes.
1. La esperanza del producto de variables independientes es igual al producto de sus

esperanzas. Es decir, si X1 , . . . , Xn son independientes:
E(X1 . . . Xn ) = E(X1 ) . . . E(Xn ).
2. La varianza de la suma de variables independientes es igual a la suma de sus varianzas.

Es decir, si X1 , . . . , Xn son independientes:
V (X1 + . . . + Xn ) = V (X1 ) + . . . + V (Xn ).
En general, si a0 , . . . , an , son números reales cualesquiera:
V (a0 + a1 X1 + . . . + an Xn ) = a21 V (X1 ) + . . . + a2n V (Xn ).
A continuación se ilustra el uso de estas propiedades.

Ejemplo 1.16. El precio de cierta acción, el dı́a n, es una variable aleatoria Xn , para
n = 1, 2, . . . Las variables X1 , X2 ,. . . son independientes, tienen una media igual a cero y
una desviación estándar igual a 1. Por otra parte, la utilidad que genera la acción, el dı́a n,
es una variable aleatoria Yn , con: Yn = X1 + 2X2 + . . . + n Xn , para n = 1, 2 . . .
Puesto que las variables son independientes, sigue que la varianza de la utilidad que genera
la acción, el dı́a n está dada por:
V (Yn ) = V (X1 + 2X2 + . . . + n Xn ) = V (X1 ) + 22V (X2 ) + . . . + n2 V (Xn ) = 1 + 22 + . . . + n2 .

n(n + 1)(2n + 1)
Ası́, V (Yn ) = .
6
24
Ejemplo 1.17. La utilidad que genera un instrumento, en el instante t, está dada por:
Xt = Acos(W t + Θ), ∀t ≥ 0. A, W y Θ son variables aleatorias independientes, tales
que: E(A) = 0, V (A) = 1, y W y Θ tienen distribución uniforme en el intervalo [−π, π].
Determinemos la utilidad promedio del instrumento en el instante t. Para esto notemos que A
y cos(W t + Θ) son independientes, esto se justifica porque A, W y Θ son variables aleatorias

independientes. Luego, E(Xt ) = E Acos(W t + Θ) = E(A)E cos(W t + Θ) = 0.

Obsérvese que no ha sido necesario obtener el valor de la esperanza E cos(W t + Θ) , pero
este está bien definido; es decir, existe ya que la función coseno está limitada.
1.8. Esperanza Condicional
Definición 1.4. Sea la función g : RY → R, definida para todo y, valor de Y, mediante
g(y) = E(X| Y = y);
entonces, a la variable aleatoria g(Y ) se le denomina la Esperanza condicional de X

dado Y y se la denota por E(X| Y ) o µX| Y .
Recuérdese que
 ∞
 X

 x f (x) ; si X es discreta,


 x=−∞ X| Y = y
E(X| Y = y) = Z∞



 x f (x) dx ; si X es continua.

 X| Y = y
−∞
Ejemplo 1.18. Para las variables X e Y con densidad conjunta:

(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso,
Se tiene, según lo visto en 1.9, que

1
E(X| Y = y) = y, ∀y ∈ RY y E(Y | X = x) = 2
+ 21 x, ∀x ∈ RX ;
1
por lo tanto, E(X| Y ) = Y y E(Y | X) = 2
+ 12 X.
Propiedad: Además de las propiedades del valor esperado de una variable y las relacionadas
con la suma (vistas anteriormente), la esperanza condicional también satisface la siguiente:
E(X) = E (E(X| Y ))
Observaciones: esta propiedad puede ser útil para obtener la esperanza de una variable
aleatoria cuya distribución o esperanza es fácilmente obtenida a partir de los valores que
asuma otra variable.
25
También debe tenerse en cuenta que, según la definición, E(X|Y ) es una función de Y, por
lo tanto, podemos usar la propiedad:
 ∞
 X

 g(y)f (y), si Y es discreta,


 y=−∞ Y
E(g(Y )) = Z∞



 g(y)f (y)dy, si Y es continua,

 Y
−∞
para obtener:
 ∞
 X

 E(X| Y = y) f (y) , si Y es discreta,


 y=−∞
Y
E(X) = E E(X| Y ) = Z∞



 E(X| Y = y) f (y) dy , si Y es continua.

 Y
−∞
Los ejemplos siguientes ilustran el uso de esta propiedad.
Ejemplo 1.19. El precio de una acción, al cierre de las operaciones de un dı́a, puede subir,
con una probabilidad de 0,8, o bajar o mantenerse igual, con una probabilidad de 0,2. La
ganancia del corredor es una variable aleatoria con un media de 30 u.m., si la acción sube y
de 15 u.m., si la acción baja o se mantiene igual. Se desea averiguar cuál es el la ganancia
promedio del corredor al cierre de las operaciones de un dı́a.
Para este fin empecemos por expresar los datos dados en el lenguaje de variables aleatorias.
Consideremos las dos variables siguientes:
X = ganancia del corredor al cierre de las operaciones de un dı́a (en u.m.).

(
1, si al cierre de las operaciones la acción sube,
Y =
0, si al cierre de las operaciones la acción baja.
Se desea obtener E(X), el valor esperado de X. Por los datos dados se tiene que:
E(X| Y = 1) = 30, E(X| Y = 0) = 15, fY (1) = 0,8 y fY (0) = 0,2.
Con estos datos usamos la propiedad anterior de la esperanza condicional y la observación

hecha inmediatamente después para obtener:
P
E(X) = E(E(X| Y )) = E(X| Y = y) fY (y)
y∈RY
= E(X| Y = 0) fY (0) + E(X| Y = 1) fY (1)

= 15 × 0,2 + 30 × 0,8 = 27.
Ejemplo 1.20. En el contexto del ejemplo 1.13, usaremos la propiedad anterior para obtener
E(Y ) : el número promedio de usuarios que realizan una transacción.
Recordemos que X es el número de usuarios que acceden al cajero en un dı́a, Y, el número de
usuarios que realizan una transferencia, X ∼ P (500) e Y | X = x ∼ b(x; 0,1), para x > 0.
26
De los modelos anteriores, se deduce que: E(X) = 500 y que E(Y |X = x) = 0,1 x.

Ası́, E(Y |X) = 0,1 X y E(Y ) = E E(Y |X) = E(0,1 X) = p E(X) = 0,1 × 500 = 50.
Ejercicio 1.2. El número diario de clientes que acceden a un cajero automático es aleatorio,
con una media de 100 usuarios por dı́a. Cada usuario retira en promedio 50 soles, sin importar
el número de usuarios que acceden. Halle la media del retiro total diario de este cajero.
1.9. Covarianza y correlación de dos variables aleatorias
A continuación definiremos unos indicadores de asociación lineal entre dos variables

aleatorias, estos son la covarianza y el coeficiente de correlación.
Definición 1.5. Si X e Y son variables aleatorias, se define su covarianza, denotada por

cov(X,Y ) o σX,Y y su correlación, denotada por ρX,Y , mediante
σX,Y
cov(X,Y ) = σX,Y = E((X − µX )(Y − µY )) y ρ(X,Y ) = ρX,Y = .
σX σY
Para entender cómo se originan estas medidas, se consideran las gráficas siguientes:
Relación lineal directa Relación lineal inversa

• •
(xi − µX )(yi − µY ) < 0 • •(xi − µ )(yi − µ ) > 0 • •
• •• X Y •
• •
•• •• • •
µY µY
• • • • • ••
• •
• • •
(xi − µX )(yi − µY ) > 0 • (xi − µX )(yi − µY ) < 0 •
• •
E[ (X − µX )(Y − µY ) ] > 0 µX µX E[ (X − µX )(Y − µY ) ] < 0
Relación nula Relación no lineal

• •
• • •
• • •
• • •
µY • • µY • •
•
• •
• • • • • •
• • • •
E[ (X − µX )(Y − µY ) ] ≈ 0 • • E[ (X − µX )(Y − µY ) ] ≈ 0
µX µX
Observación 1.6. Una condición para que la covarianza esté definida es que E(XY ) lo esté.
Para esto basta que E(X 2 ) y E(Y 2 ) sean finitos, como sigue de la propiedad 1 siguiente.
Propiedades:
p
1. Desigualdad de Cauchy Schwartz: E(|XY |) ≤ E(X 2 )E(Y 2 ).
2. −1 ≤ ρX,Y ≤ 1.
3. ρX,Y = 1 ⇔ existen a ∈ R y b > 0 tales que P (Y = a + bX) = 1.
4. ρX,Y = −1 ⇔ existen a ∈ R y b < 0 tales que P (Y = a + bX) = 1.
27
5. Cov(X, Y ) = Cov(Y, X).

6. Cov(X, X) = V (X).
7. Cov(a, X) = 0, ∀a ∈ R.
8. Cov(X,Y ) = E(XY ) − E(X)E(Y ).
9. Si X e Y son independientes, entonces σX,Y = 0 = ρX,Y .
Observación 1.7. Por las propiedades anteriores, el coeficiente de correlación es un

indicador de asociación lineal, su signo da el posible tipo de asociación (directa o inversa) y
su valor absoluto el grado de tal asociación (mientras más cercano a 1, más fuerte será).
Ejemplo 1.21. Para las variables X e Y con densidad conjunta dada por
(
2e−2y , 0 < x < 2y,
f (x,y) =
0, en otro caso,
tenemos que cov(X,Y ) = E(XY ) − E(X)E(Y ) = 23 − (1)(1) = 21 y ρ(X,Y ) = cov(X,Y

σX σY
)
=
1 √
√2 = 12 2 = 0,70711. Este valor del coeficiente de correlación indica cierto grado
(1) 1/2
de asociación lineal directa entre estas variables. Esto está en armonı́a con los resultados
obtenidos en el ejemplo 1.18: E(Y | X) = 1 + 12 X y E(X| Y ) = Y.
Observación 1.8. Por la propiedad 8, si dos variables aleatorias son independientes;

entonces, la covarianza de estas es cero. Sin embargo, la propiedad recı́proca no se verifica,
como lo muestra el ejemplo siguiente.
Ejemplo 1.22. Las variables aleatorias discretas X e Y, que tienen un rango conjunto
R = { (−1; 0), (−1; 1) (1; 0), (1; 2) } y una función de probabilidad conjunta f dada en
X, Y X, Y
la tabla siguiente, no son independientes pero su covarianza es cero.
y 0 1 2
x
1 1
−1 4 4 −−
3 1
1 8 −− 8
Para verificarlo note que:

XX
E(XY ) = xy f (x,y)
X, Y
= + (−1)(1)( 41 ) + (1)(0)( 38 ) + (1)(2)( 18 )

(−1)(0)( 41 )
= 0,
XX
E(X) = x f (x,y)
X, Y
= (−1)( 41 ) + (−1)( 41 ) + (1)( 38 ) + (1)( 18 )

= 0;
entonces, Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.
28
Por otra parte,

X 1 1 1 X 1 3 5
f (−1, 0) = 41 , f (−1) = f (−1, y) = + = y f (0) = f (x, 0) = + = ;
X, Y X
y
X, Y 4 4 2 Y
x
X, Y 4 8 8
ası́, f (−1, 0) 6= f (−1) f (0) y, por lo tanto, X e Y no son independientes.

X, Y X Y
1.9.1. Propiedades de la varianza y la covarianza relacionadas con la suma de

variables
Si X1 , Y1 , . . . , Xn , Yn son variables aleatorias y a0 , b0 , . . . , an , bn números cualesquiera,

se cumplen las propiedades siguientes:
n
X n n−1 X
X X
1. V a0 + ai Xi = a2i V (Xi ) + 2 ai aj Cov(Xi , Xj ) .
i=1 i=1 i=1 j>i
n
X n
X

2. Si las variables tienen covarianza cero, V a0 + ai Xi = a2i V (Xi ).
i=1 i=1
n
X m
X n X
X m
3. Cov a0 + ai Xi , b0 + bj Yj = ai bj Cov(Xi , Yj ) .
i=1 j=1 i=1 j=1
Ejemplo 1.23. En el contexto del ejemplo 1.16, usemos la propiedad 3 para determinar la
covarianza entre el precio y la utilidad de la acción, en el dı́a n :
Cov(Xn , Yn ) = Cov(Xn , X1 + 2X2 + . . . + n Xn )
= Cov(Xn ,X1 ) + 2Cov(Xn ,X2 ) + . . . + nCov(Xn ,Xn )
= nCov(Xn ,Xn ) (los otros términos son ceros, por la independencia)
= nV (Xn ) = n.
Ejemplo 1.24. En el contexto de los ejemplos 1.1 y 1.2, la varianza del costo total de
adquirir cinco acciones americanas y tres europeas se obtiene con la propiedad 1:
1 1
V (5X + 3Y ) = 52 V (X) + 32 V (Y ) + 2(5)(3)Cov(X,Y ) = 52 (1) + 32 ( ) + 2(5)(3)( ) = 44,5.
2 2
1.10. Vector de medias y matriz de varianzas-covarianzas
Definición 1.6. Sea X = (X1 , . . . ,Xn )t un vector aleatorio columna, su vector de medias,
que lo denotaremos por E(X) o µX, se define como el vector columna (µXi )n×1 ; es decir,
 
µ X1
 . 
E(X) = µX =  ..  .
µ Xn n×1
29
La matriz de varianzas-covarianzas de X, denotada por Σ X , es la matriz ( σ Xi , Xj

)n×n :
 2 
E X1 − E(X1 ) · · · E ( X1 − E(X1 ) ) ( Xn − E(Xn ) )
 .. .. .. 
ΣX =  . . . 
2
E ( Xn − E(Xn ) ) ( X1 − E(X1 ) ) ··· E Xn − E(Xn ) n×n
 
2
σX · · · σX1 , Xn
 ..
1
.. .. 
= 
 . . . .

2
σXn , X1 · · · σXn
n×n
Las definiciones anteriores aplicadas al vector aleatorio (X, Y )t dan:

! !
µX σX2 σX, Y
µ(X, Y )t = y Σ (X, Y )t
= .
µY σX, Y σY2
2×1 2×2
Propiedad de la media y de la varianza respecto a transformaciones lineales en

términos de matrices
Sea X n×1 = (X1 , . . . , Xn )t un vector aleatorio, con vector de medias µX y matriz de

varianzas-covarianzas ΣX . Si Am×1 y Bm×n son matrices; entonces, el vector aleatorio
Ym×1 = A + BX tiene un vector de medias µY = A + BµX y una matriz de varianzas-
covarianzas ΣY = BΣX Bt .
Ejemplo 1.25. Las variables X e Y, del ejemplo 1.24, tienen la matriz de varianzas-
covarianzas siguiente: !
1 21
Σ(X, Y )t = 1 1 .
2 2
El costo costo total de adquirir cinco acciones americanas y tres europeas, Z = 5X + 3Y, se
expresa matricialmente como !
X
Z = (5 3) .
Y
Por lo tanto, por la propiedad anterior, la varianza de este costo es igual a
! ! !
1 12 5 13 5
V (Z) = (5 3) 1 1 =( 4) = 44,5.
2 2
3 2 3
1.11. La distribución normal bivariable

Definición 1.7. se dice que el vector aleatorio (X,Y )t tiene una distribución normal
bivariable, si su densidad viene dada por la función siguiente:
( " 2 2 #)
1 1 x − µ1 x − µ1 y − µ2 y − µ2
f (x, y) = p exp − − 2ρ + ,
2πσ1 σ2 1−ρ 2 2(1 − ρ2 ) σ1 σ1 σ2 σ2
∀(x,y) ∈ R2 ; con σ1 > 0, σ2 > 0, − 1 < ρ < 1, µ1 ∈ R y µ2 ∈ R los parámetros de la

distribución.
30
Denotaremos lo anterior por (X,Y )t ∼ N2 (µ1 , µ2 , σ12 , σ22 , ρ).
Propiedades: si (X,Y )t ∼ N2 (µ1 , µ2 , σ12 , σ22 , ρ), se cumple las siguientes propiedades:
1. Las densidades marginales son normales: X ∼ N(µ1 , σ12 ) e Y ∼ N(µ2 , σ22 ).

Ası́, µ1 y σ12 son, respectivamente, la media y varianza de X; mientras que µ2 y σ22 , las
correspondientes a Y.
2. ρ es el coeficiente de correlación entre X e Y : ρX,Y .
3. ρ = 0 ⇒ X e Y son independientes.
Recuerde que si dos variables son independientes su covarianza es cero y, por lo
tanto, su coeficiente de correlación también es igual cero. Cuando las variables siguen
una distribución normal bivariable, también vale la propiedad recı́proca, es decir, un
coeficiente de correlación cero implica independencia.
4. Las densidades condicionales también son normales, con regresiones lineales y varianzas
constantes, como sigue a continuación:
ρσ2
Y |X = x ∼ N(µ2 + (x − µ1 ); σ22 (1 − ρ2 )).
σ1
En particular, el mejor pronóstico para Y, a partir del conocimiento que X = x, es
ρσ2
µ2 + (x − µ1 );
σ1
con el error promedio cometido al efectuar este pronóstico igual a σ22 (1 − ρ2 ) :

independiente del valor que asume X.
5. Las variables aleatorias X e Y tienen una distribución conjunta normal si, y solo si,
cualquier combinación lineal de estas variables, con por lo menos uno de los coeficientes
distinto de cero, tiene distribución normal.
6. Si las variables aleatorias X e Y tienen una distribución conjunta normal, también la

tienen V = a + bX y W = c + dY, donde a,b,c y d son constantes con b y d distintas
de cero.
Ejemplo 1.26. Sea (X, Y ) un vector aleatorio cuya distribución conjunta es normal
bivariable, con matrices de medias y covarianzas siguientes:
 
36 192
!
9  25 125 
 
µ= y Σ= 
5  192 64 
125 25
Para ilustrar algunas de las propiedades anteriores, calcularemos las probabilidades
siguientes:
31
64
a) P (Y > 8). Para calcular esta probabilidad nótese que Y ∼ N(5; 25 ), por lo tanto
Y −5 8−5
Z = 8/5 ∼ N(0; 1) y P (Y > 8) = 1 − FY (8) = 1 − FZ ( 8/5 ) = 1 − FZ (1,875) =
1 − 0,9696 = 0,0304.
b) P (3X + 2Y > 40). Para calcular esta probabilidad aplicamos la propiedad 5 y

obtenemos que
2
W = 3X + 2Y ∼ N(µW ; σW ),
con µW = 3µX + 2µY = 37 y σW 2

= 32 σX
2
+ 22 σY2 + 2(3)(2)cov(X, Y ) = 32 ( 36
25
64
) + 22 ( 25 )+
192
2(3)(2)( 125 ) = 41,632. Es decir, W ∼ N(37; 41,632), con esta distribución se obtiene
el valor de la probabilidad
P (3X +2Y > 40) = 1−FW (40) = 1−FZ ( √40−37

41,632
) = 1−FZ (0,47) = 1−0,6808 = 0,3192.
c) P (X + Y ≤ 20 |X = 12) = P (12 + Y ≤ 20| X = 12) = P (Y ≤ 8| X = 12). Para esto

aplicamos la propiedad 4 y tenemos que Y |X = x ∼ N(8,2; 0,9216).
A continuación se generaliza la distribución normal bivariable al caso de más de dos

variables.
1.12. La distribución normal multivariable
Definición 1.8. Se dice que las variables aleatorias X1 , . . . , Xn tienen distribución conjunta
gaussiana (o normal) multivariable, si ∀(x1 , . . . , xn ) ∈ Rn , su densidad conjunta está dada
por:
1 1
f (x1 , . . . , xn ) = n/2 1/2
exp { − ( x − µ )t Σ−1 ( x − µ ) },
X1 , . . . , Xn (2π) ( det Σ ) 2
donde Σ es la matriz de varianzas-covarianzas:
 
σ12 cov(X1 , X2 ) ... cov(X1 , Xn )
 
 cov(X2 , X1 ) σ22 ... cov(X2 , Xn ) 
 
Σ = cov(Xi , Xj ) n×n =  · · · · 

 
 · · · · 
cov(Xn , X1 ) ... cov(Xn , Xn−1) σn2
y x y µ son los vectores:    

x1 µ1
   
 ·   · 
   
x=
 · , µ = 
  · ,

   
 ·   · 
xn µn
con µj = E(Xj ) y σj2 = V (Xj ), para j = 1, . . . , n.
Denotamos esto por (X1 , . . . , Xn )t ∼ Nn (µ; Σ).
32
En particular, para n = 2 se obtiene la densidad conjunta normal bivariable, en este caso la

matriz de varianzas-covarianzas es
!
σ12 ρ σ1 σ2
Σ=
ρ σ1 σ2 σ22
Propiedades: la distribución normal multivariable tiene las propiedades siguientes:
1. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable,

cada una de estas variables tiene distribución normal.
2. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable,

la densidad condicional de una de estas, dado cualquier otra, también es normal y tiene
una esperanza lineal y una varianza constante, como se muestra a continuación:
ρX σXj
j , Xk
Xj |Xk = xk ∼ N µXj + (xk − µXk ); σX2 (1 − ρ2X ) .
σXk j j , Xk
3. Si X1 , . . . , Xn son variables aleatorias con distribución conjunta normal multivariable;

entonces,
X1 , . . . , Xn son independientes ⇔ cov(Xi , Xj ) = 0,∀i 6= j.
4. Si X1 , . . . , Xn son variables aleatorias independientes y cada una con distribución

normal, entonces estas variables tienen distribución gaussiana conjunta, en efecto, si
Xj ∼ N(µj , σj2 ), j = 1, . . . ,n, y estas son independientes, la función de densidad
conjunta, ∀(x1 , . . . , xn ) ∈ Rn , está dada por
f (x1 , . . . , xn ) = fX1 (x1 ) ... fXn (xn )
X1 , . . . , Xn
(x1 −µ1 )2 (xn −µn )2
1 −
2σ12 1 − 2
2σn
= √ e ... √ e
2π σ1 2π σn
1 1 (x1 −µ1 )
2
(xn −µn )2
= exp { − 2 [ σ 2 + ··· + 2
σn ]}
(2π)n/2 σ1 . . . σn 1
1
= exp { − 12 ( x − µ )t Σ−1 ( x − µ ) },
(2π)n/2 ( det Σ )1/2
donde Σ, x y µ están dados por
 
σ12 0 . . . 0    
  x1 µ1
 0 σ22 . . . 0     
   ·   · 
 · · · ·     
 
Σ= , x = 
 · , µ = 
  · .

 · · · ·     
   ·   · 
 · · · 0 
 
xn µn
0 · · · 0 σn2
33
5. Las variables aleatorias X1 , . . . , Xn tienen distribución conjunta gaussiana si, y solo

si, cualquier combinación lineal a1 X1 + · · · + an Xn , con por lo menos un coeficiente
aj 6= 0, tiene distribución normal.
6. Si X n×1 = (X1 , . . . , Xn )t ∼ Nn( µX ; ΣX ) y Am×1 y Bm×n son matrices; entonces,

Y m×1 = A + BX ∼ Nm( µX ; ΣX ), con µY = A + BµX y ΣY = BΣX Bt .
1.13. Transformaciones de variables aleatorias
Sean X e Y variables aleatorias continuas con función de densidad f .

X,Y
Sea (W,Z) = g(X,Y ), con g una función inversible; es decir, W = g1 (X,Y ) y Z = g2 (X,Y ),
con g1 y g2 tales que X = h1 (W,Z) e Y = h2 (W,Z). La densidad conjunta de este nuevo
vector se puede obtener mediante:
f (w,z) = f ( h1 (w,z), h2 (w,z) ) | det(J) |, ∀(w,z) ∈ R2 ,

W,Z X,Y
∂h1 (w,z) ∂h1 (w,z)

!
∂w ∂z
con J = ∂h2 (w,z) ∂h2 (w,z)
.
∂w ∂z
Ejemplo 1.27. Sean X e Y dos variables aleatorias independientes con distribución

exponencial de parámetro β, es decir, f (x,y) = β 2 e−β(x+y) , x > 0, y > 0. Obtengamos
X,Y
la función de densidad conjunta de las variables W = X + Y y Z = X :
En este caso, X = Z e Y = W − Z; es decir, h1 (w,z) = z y h2 (w,z) = w − z. Luego

∂h1 (w,z) ∂h1 (w,z)
! ! !
∂z ∂z
∂w ∂z ∂w ∂z
0 1
J= ∂h2 (w,z) ∂h2 (w,z)
= ∂(w−z) ∂(w−z)
=
∂w ∂z ∂w ∂z
1 −1
y | det(J) | = | − 1| = 1.
Por lo tanto,
f (w,z) = f ( h1 (w,z), h2 (w,z) ) | det(J) |, ∀(w,z) ∈ R2

W,Z X,Y
= β 2 e−β w , z > 0, w − z > 0.
Ejercicio 1.3. Sean X e Y dos variables aleatorias independientes con distribución

exponencial de parámetro β, Sean X e Y dos variables aleatorias independientes con
distribución exponencial de parámetro β. Empléese el resultado del ejemplo anterior, para
verificar que W = X + Y tiene distribución gamma con parámetros 2 y β.
34
1.14. Ejercicios propuestos
Ejercicio 1.1. El número de unidades, X, que ofrece un comerciante para vender, e Y,

el número de unidades que el mercado está dispuesto a adquirir, son variables aleatorias
discretas cuya función de distribución de probabilidad conjunta está dada por la tabla
siguiente:
x y 0 1 2 3
0 0,28 0,04 0,04 0,04
1 0,03 0,21 0,03 0,03
2 0,02 0,04 0,12 0,02
3 0,03 0,02 0,01 0,04
a) Determine la probabilidad de que el número de unidades ofrecidas coincida con el

número de unidades que el mercado está dispuesto a adquirir.
b) Determine la probabilidad de que el mercado esté dispuesto a adquirir menos de la

cantidad ofrecida.
c) Determine la probabilidad de que el mercado esté dispuesto a adquirir, por lo menos,

una unidad.
d) Con la función de distribución de probabilidad conjunta halle P (X = 2). Luego,

obtenga inmediatamente f (2).
X
e) Obtenga f (2), pero con la fórmula para hallar el modelo marginal.

X
f) Si el mercado está dispuesto a adquirir solo una unidad, determine la probabilidad

correspondiente a cada posible valor de la cantidad ofrecida.
Ejercicio 1.2. El número de usuarios que acceden a cierto sistema, X, y el número de de

estos usuarios que solicitan un dato inexistente, Y, tienen un modelo probabilı́stico conjunto
dado por la función siguiente:
 x−1
 (0,2)(0,8)
; y = 0, . . . , x; x = 1, 2, . . .
f (x,y) = x+1
X,Y 
0; en otro caso.
a) Halle P (2 ≤ X − Y ≤ 3 ∩ X ≤ 3).
b) Halle f (x), ∀x ∈ R.
X
c) ¿Cuál es el número promedio de usuarios que acceden al sistema?
d) ¿Cuál es el número promedio de usuarios que solicitan un dato inexistente, cuando han
accedido 10 usuarios?
35
Ejercicio 1.3. Las variables aleatorias X e Y tienen la siguiente función de densidad

conjunta:  2
 3y , 0 < y < x, 1 < x < 2,

f (x,y) = x3
X,Y 

0, en otro caso.
a) Halle P (X + Y < 2).
b) Halle f (x), ∀x ∈ R.
X
c) Halle f (y), ∀y ∈ R; con 1 < x < 2.

Y |X = x
d) Halle E(Y |X = x), para 1 < x < 2.
e) Si g(x) = E(Y |X = x), para 1 < x < 2. Halle E(g(X)).
Ejercicio 1.4. Considérense las variables aleatorias X e Y con la siguiente función de

densidad conjunta: 
 1
 , 0 < y < x, 4 ≤ x ≤ 8,
f (x,y) = 4x
X,Y 
 0, en otro caso.
a) Encuentre la probabilidad P (X + Y ≥ 8).
b) Halle f (6).
Y
c) Determine P (5 ≤ X ≤ 7 |Y = 6) y E(XY |Y = 6).
d) Halle E(5 + 4XY − 3X).
e) Halle E(X|Y = y),∀y ∈ [ 0, 4 ].
Ejercicio 1.5. Un fabricante adquiere un componente, bien del proveedor A ó bien del B, de
manera aleatoria. La duración, en dı́as, del componente adquirido es una variable aleatoria
continua X. Sea Y la variable aleatoria discreta con valores como siguen: 1, si el componente
es adquirido de A, 0, si el componente es adquirido de B. Las variables X e Y tiene el modelo
de probabilidad conjunto siguiente:
(
1 −x/30 1 −x/60
30
e (0,8)y y + 60 e (0,2)1−y (1 − y) , x > 0, y = 0, 1.
f (x,y) =
X,Y 0 , en otro caso.
a) Determine la probabilidad de que el componente dure más de 20 dı́as.
b) Halle la duración promedio del componente.
c) Si un componente proviene de A, halle la probabilidad de que dure más de 20 dı́as.
Tenga en cuenta que X es continua e Y, discreta.
36
Ejercicio 1.6. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos necesarios. Las cantidades de dinero (en miles de unidades monetarias) que el
fabricante destina para la compra de los insumos, A y B, son X e Y, respectivamente.
La función de densidad conjunta del vector aleatorio (X,Y ) es la siguiente:
(
6 y , 0 < x + y < 1, 0 < x < 1, 0 < y < 1;
f (x,y) =
X,Y 0 , en otro caso.
a) ¿Cuál es la probabilidad de que el fabricante destine una mayor cantidad de dinero a

la compra del bien A?
b) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra

de los insumos A y B no exceda las 500 unidades monetarias.
c) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra

del insumo A no exceda las 500 unidades monetarias.
d) Halle la probabilidad de que la cantidad de dinero destinada en total para la compra

del insumo B no exceda las 500 unidades monetarias.
e) Si el fabricante destinó 200 unidades monetarias a la compra del bien B, determine

la probabilidad de que haya destinado una mayor cantidad de dinero a la compra del
bien A.
f) Determine la cantidad total de dinero que, en promedio, el fabricante destina a la

compra de estos insumos.
Ejercicio 1.7. El número de errores que se cometen en cierto proceso productivo, X, y el

número de errores graves, Y, tienen un modelo probabilı́stico conjunto dado por la función
siguiente:
(
0,2(0,8)x−1 xy (0,1)y (0,9)x−y ; y = 0, 1, . . . , x; x = 1, 2, . . .
f (x,y) =
X,Y 0; en otro caso.
a) Se detiene el proceso si, y solo si, se cometen más de dos errores o más de un error
grave. Determine la probabilidad de que se detenga el proceso.
b) Determine la probabilidad de que en el proceso productivo se cometa a lo más un error

que no sea grave.
c) Halle la probabilidad de que, en el proceso productivo, se cometan cinco errores.
d) ¿Cuál es el número promedio de errores cometidos durante el proceso productivo?
e) ¿Cuál es el número promedio de errores graves cometidos, cuando han ocurrido 10

errores durante el proceso productivo?
37
Ejercicio 1.8. Sean X e Y dos variables aleatorias con función de densidad conjunta f ;
X,Y
demuestre que Z
f (x) = f (x,y)dy.
X X,Y
Sugerencia: primero exprese F (x) = P (X ≤ x) en términos de la densidad conjunta; luego

X
recuerde que f (x) = F ′ (x).
X X
Ejercicio 1.9. Un fabricante presupuesta mil unidades monetarias para la compra de los
insumos, A y B, necesarios para la fabricación de su producto, de los cuales a lo más dos
tercios pueden destinarse a la compra de A. El precio (en miles de unidades monetarias) de
los insumos A y B son X e Y, respectivamente.
El vector aleatorio (X,Y ) tiene una función de densidad conjunta dada por:
(
81
13
y ; 0 < x + y ≤ 1, 0 < x ≤ 23 , y > 0.
f (x,y) =
0 ; en otro caso.
a) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos?
b) ¿Cuál es la probabilidad de que el precio de A sea menos de la mitad del presupuesto?
c) ¿Cuál es la probabilidad de que más de las tres cuartas partes del presupuesto sean
necesarias para adquirir estos insumos y con un gasto en A menor a la mitad del
presupuesto?
d) Si el gasto en A fue menos de la mitad del presupuesto, ¿cuál será la probabilidad de

que más de las tres cuartas partes del presupuesto hayan sido necesarias para adquirir
estos insumos?
e) Si el gasto en A fue la mitad del presupuesto, ¿cuál será la probabilidad de que más
de las tres cuartas partes del presupuesto hayan sido necesarias para adquirir estos
insumos?
f) Si el gasto en B fue la cuarta parte del presupuesto, ¿cuál será la probabilidad de que
el de A haya sido menos de la mitad del presupuesto?
g) Cuando el gasto en B es la cuarta parte del presupuesto, ¿cuál será, en promedio, el

de A?
h) Determine el valor esperado y la varianza del gasto total en estos insumos
i) Para la compra de otros insumos se requiere una cantidad dada por 0,1 + 0,2XY.
Determine el valor esperado y la varianza de esta cantidad.
38
Ejercicio 1.10. Sean X e Y dos variables aleatorias continuas tales que


 1 , x ∈ ] − 1; 1 [ − { 0 } ,
2
f (x) =
X  0, en otro caso;

 1 , − | x | < y < | x |, x ∈ ] − 1; 1 [ − { 0 }.
2|x|
f (y) =
Y |X = x  0; en otro caso.
a) Halle E(X n ), ∀n ∈ N+ .
b) Halle E(Y |X = x), E(Y |X) y E(Y ).
c) Halle E(Y n |X = x), E(Y n |X) y E(Y n ), ∀n ∈ N+ .
Ejercicio 1.11. Sean X e Y dos variables aleatorias continuas con función de densidad
conjunta dada por

 1 , − | x | < y < | x |, x ∈ ] − 1; 1 [ − { 0 },
4|x|
f(x,y) =
X,Y  0, en otro caso.
a) Halle P (X − 1 < Y < X + 1).
b) Halle f (y) y E(Y |X = x), ∀x ∈ ] − 1; 1 [ − { 0 }.

Y |X = x
c) Halle E(X) y E(XY ).
d) Verifique que Cov(X; Y ) = 0, pero estas variables no son independientes.
Ejercicio 1.12. Sea el vector aleatorio mixto (X, Y ) con modelo probabilı́stico conjunto
dado por (
xe−10xy (0,9)x−1, y > 0, x = 1; 2; . . .
f (x,y) =
0; en caso contrario.
a) Determine E(XY ).
Observe que X contribuye a los cálculos con una suma, pero Y con una integral.
Además, escoja el orden de las variables más apropiados para realizar los cálculos
mediante la identificación de modelos probabilı́sticos conocidos.
b) Determine el modelo condicional de Y dado X = x, para x > 0.
c) Halle P (Y > X|X = x) y E(XY |X = x) para x > 0.
d) Determine el modelo marginal de Y .

Emplee la identidad: e−10xy (0,9)x−1 = e−10y q x−1, con q = 0,9e−10y ∈ (0; 1).
39
Ejercicio 1.13. En el contexto del ejemplo 1.12, halle E(Y |X = x), x > 0, E(Y |X) y E(Y ).
Ejercicio 1.14. Sean X e Y con función de densidad conjunta:

 1 2
√
 1 e− 2y2 x − 2π y , y > 0, − ∞ < x < ∞,
y
f(x,y) =
X,Y 
0, en otro caso.
a) Halle el modelo condicional de X dado Y = y, para y > 0.
b) Halle E(X|Y = y) y E(XY |Y = y), para y > 0.
c) Halle E(X|Y ) y E(XY |Y ).
d) Halle E(X) y E(XY ).

Ejercicio 1.15. El número de usuarios que llegan a una central telefónica por dı́a, X,
y el número de usuarios que hacen llamadas internacionales, Y, tienen una función de
probabilidad conjunta dada por:
(
x
(0,2)2 (0,8)x−1 x y
y (0,1) (0,9)
x−y ; y = 0, 1, . . . , x; x = 1, 2, . . .
f (x,y) =
0; en otro caso.
a) Determine la probabilidad de que, durante un dı́a, lleguen a lo más tres usuarios y solo
uno haga una llamada internacional.
b) Determine la probabilidad de que, durante un dı́a, a lo más un usuario haga llamadas

internacionales.
c) Halle el número promedio de usuarios que llegan por dı́a.
d) Halle f (10). No necesita hallar f (x), para todo x.

X X
e) ¿Cuál es el número promedio de usuarios que hacen llamadas internacionales, en los

dı́as que solo llegaron 10 usuarios?
f) Halle la esperanza condicional de Y dado X, E(Y | X); y úsela para determinar E(Y ).
Ejercicio 1.16. Sean X e Y dos variables aleatorias cuya función de densidad conjunta es
el producto de las densidades marginales, es decir, f(x,y) = f (x)f (y). Sea T = X + Y.
X,Y X Y
R∞
a) Pruebe que F (t) = f (x)F (t − x)dx. Note que F (t) = P (T ≤ t) = P (X + Y ≤ t).
T X Y T
−∞
R∞
b) Demuestre que f (t) = f (x)f (t − x)dx. Observe que en este caso vale
T X Y
−∞
 
Z∞ Z∞
∂  ∂
f (x)F (t − x)dx = f (x)F (t − x) dx.
∂t X Y ∂t X Y
−∞ −∞
40
Ejercicio 1.17. Se desea hacer inferencias respecto de la proporción, X, de electores que

aprueban la gestión de una autoridad. Por encuestas previas se considera que X ∼ B(2; 8).
Esta información se actualizará, puesto que la autoridad ha realizado acciones para mejorar
su aprobación; ası́, se tomará una muestra de 1000 electores y se registrará la cantidad
de electores, Y , que aprueban la gestión en esta muestra. Por lo tanto, conocido cada
valor x, de X, el modelo de Y debe ser uno binomial, con parámetros 1000 y x; es decir,
Y |X = x ∼ b(1000; x), para x ∈ (0; 1).
a) Antes de tomar la muestra de 1000 electores, ¿cuál era el promedio de la proporción

de electores que estaban de acuerdo con la gestión de la autoridad?
b) Si al tomar la muestra de 1000 electores, resulta que 400 están de acuerdo con la
gestión de la autoridad; actualice la respuesta brindada anteriormente. Previamente
debe obtener el modelo condicional de X dado Y = 400.
c) ¿Puede inferir que la autoridad logró su objetivo?
Ejercicio 1.18. Sean X e Y dos variables aleatorias y A ⊂ R.

a) Demuestre que P (X ∈ A) = E( E(1A(X) |Y ) ).
Tenga presente que P (X ∈ A) = E( 1A(X) ) y use la propiedad E(X) = E(E(X|Y )).
b) Si Y ∼ exp(2) y X|Y = y ∼ exp(y), y > 0; halle P (X > 2). Use el resultado anterior.
Ejercicio 1.19. Sean X e Y dos variables aleatorias continuas e independientes, tales que
f (x) = 0,5 e−0,5 x , ∀x > 0, y f (y) = 31 e− y/3 , ∀y > 0.
X Y
a) Halle P (X + Y > 5).
b) Halle E(X + Y | X = 3).
Ejercicio 1.20. Sean X e Y dos variables continuas e independientes, con E(Y ) = µ.

Demuestre que f = f . Luego Halle E(Y |X = x) y E(Y |X).
Y |X = x Y
Ejercicio 1.21. Considérense las variables aleatorias positivas X e Y con función de

densidad conjunta f(x,y) = 4y 2 e−(x+2)y , x > 0, y > 0.
X,Y
a) Determine el modelo condicional de X dado Y = y, para y > 0.
b) Halle P (X > Y |Y = y), para y > 0.
c) Determine E(XY |Y = y), para y > 0.
d) Determine E(XY |Y ).
e) Halle E(XY ).
41
Ejercicio 1.22. Sea X una variable aleatoria con distribución B(5, 1). Además, para cada
x valor posible de X, la función de densidad condicional de Y, dado que X = x, está dada
3y 2
por f(y) = 3 , 0 < y < x.
Y|X = x x
a) Halle E(Y |X = x) y E(Y ).
b) Halle E(Y 2 |X = x), E(Y 2 ) y V (Y ).
c) Halle E(XY |X = x), E(XY ) y Cov(X, Y ).
Ejercicio 1.23. La tasa de rentabilidad de la operación A es una variable aleatoria X y la de

5 3y 2
la operación B, Y. Además, E(X m ) = 5+m , ∀m ∈ N+ , y f (y) = 3 , 0 < y < x; ∀x ∈ RX .
Y |X = x x
a) Determine E(Y |X), E(Y 2 |X), E(XY |X), E(X 2 Y |X), E(XY 2 |X) y E(X 2 Y 2 |X).
b) Use una propiedad de la esperanza condicional y los resultados de la parte anterior

para obtener E(Y ), E(Y 2 ), E(XY ), E(X 2 Y ), E(XY 2 ) y E(X 2 Y 2 ).
c) Un capital de 840 u.m. se invierte en A y el capital final resultante se invierte en B.

Halle la media y la varianza del capital final que resulta de estas operaciones.
Ejercicio 1.24. Sean X e Y dos variables aleatorias, X ∼ U(0, 1) e Y ∼ B(2, 1).
a) Halle E(2X + 5Y − 1) y E(X 2 + Y − 2).
b) Si X e Y son independientes, halle E(XY ), E(X 2 Y ) E(X 2 Y 2 ), y V (2X + 5Y − 1).
c) Si X e Y son independientes, halle f y P (X + Y > 1,5).

X,Y
Ejercicio 1.25. Sean X e Y tales que Y ∼ N(0; 2) y X|Y = y ∼ N(y, 2), y ∈ R.
a) Halle E(X|Y = y), E(X|Y ), E(X).
b) Determine E(X 2 |Y = y), E(X 2 ), V (X).
c) Halle E(XY |Y = y), E(XY |Y ); E(XY ).
d) Si fue registrado el valor de X = 0, ¿cuál es ahora el modelo probabilı́stico de Y ?
Ejercicio 1.26. X e Y son tales que Y ∼ B(α; β) y X|Y = y ∼ b(n, y).
a) Halle E(X) y V (X). Emplee la propiedad E(X) = E(E(X|Y )).
b) Halle el modelo condicional conjunto de X e Y.
c) Halle el modelo condicional Y |X = x.
42
Ejercicio 1.27. Sean X e Y tales que Y ∼ G(4; 2) y X| Y = y ∼ P (y), ∀y > 0.
a) Halle E(XY ).
b) Halle el modelo condicional de Y | X = x, ∀x ∈ N.
Ejercicio 1.28. Sean X e Y tales que Y ∼ B(2; 1) y X|Y = y ∼ U(0; y), ∀y ∈ (0; 1).
a) Halle P (X + Y ≤ 1).
b) Halle E(XY ), empleando f .

X,Y
c) Obtenga E(X) empleando la propiedad E(X) = E(E(X|Y )).
d) Halle E(X 2 ) empleando la propiedad E(X) = E(E(X|Y )).
e) Halle E(XY ), empleando la propiedad E(X) = E(E(X|Y )).
Ejercicio 1.29. Sean X e Y tales que Y ∼ exp(1/10) e X| Y = y ∼ exp(y), ∀y > 0.
a) Determine E(X| Y = y), E(X 2 | Y = y) y P (X > 4y| Y = y).
b) Halle el modelo condicional de Y | X = x, ∀x > 0.
Ejercicio 1.30. Sean X e Y tales que X ∼ exp(5) e Y|X = x ∼ P (x), ∀x > 0.
a) Determine E(Y |X = x), E(Y 2 |X = x) y E(XY |X = x).
b) Obtenga el modelo condicional de X|Y = y, para y = 0, 1, . . .
Ejercicio 1.31. Sean X e Y tales que Y ∼ G(4; 2) y X| Y = y ∼ G(2; y), ∀y > 0.
a) Halle E(X|Y = y), E(X|Y ) y E(X).
b) Halle E(XY 2 |Y = y), E(XY 2 |Y ) y E(XY 2 ).
c) Halle el modelo condicional de Y |X = x, ∀x > 0.
Ejercicio 1.32. La tasa de rentabilidad de la operación A 2 es una variable aleatoria continua

R1 ∼ B(3; 47) y la de la operación B, R2 ∼ B(2; 48). Estas tasas son independientes. Se
dispone de un capital inicial de 200 unidades monetarias. Determine el valor esperado y la
varianza del capital final resultante, en cada uno de los casos siguientes:
a) se invertirán 125 en la operación A y el resto, en la B;
b) se invertirán las 200 u.m. en A y el capital final que resulte, en la operación B.

2
Nota: Cf = (1 + R)C0 , donde R es la rentabilidad, C0 el capital inicial y Cf , el capital final.
43
Ejercicio 1.33. Resuelva el ejercicio anterior, si solo se sabe que E(R1 ) = 0,2, E(R2 ) = 0,25,
σR1 = σR2 = 0,1, E(R1 R2 ) = 0,058, E(R12R22 ) = 0,035, E(R12R1 ) = 0,04 y E(R1 R22 ) = 0,05.
Ejercicio 1.34. El número diario de pedidos que recibe una compañı́a es una variable
aleatoria aleatoria discreta N, con media 200 y desviación estándar 10. Cada pedido origina
una ganancia aleatoria, de modo que si la cantidad de pedidos efectuados durante el dı́a fue
n, entonces, el valor esperado de esta ganancia es de 10n. Halle la ganancia total esperada
producto de los pedidos en un dı́a.
Primero exprese los datos dados y lo pedido con las notaciones formales de la teorı́a tratada
en el curso, para esto considere también las variables aleatorias siguientes: Xj : ganancia
originada por el pedido j, para j = 1, 2, . . .
Ejercicio 1.35. El número de unidades vendidas es una variable aleatoria X con valores
posibles { 1; 2; 3 } y modelo probabilı́stico f (x) = x/6. La ganancia promedio es de 6 u.m.,
X
cuando se venden tres unidades, 5 u.m., si se venden solo dos unidades y 1 u.m., si se vende
solo una unidad. Halle la ganancia promedio. Previamente debe expresar los datos dados
con las notaciones usuales, para esto defina Y como la ganancia. Tenga presente el ejemplo
1.19.
Ejercicio 1.36. Un comerciante solo vende el producto A, el 75 % de los dı́as, en estos casos
su utilidad diaria es aleatoria con un media de 6 u.m. y una desviación estándar de 2 u.m.
En el 20 % de los dı́as el comerciante solo vende el producto B, en estos casos su utilidad
diaria también es aleatoria, pero con una media de 10 u.m. y una desviación estándar de 3
u.m. En el restante 5 % de los dı́as el comerciante vende ambos productos, en estos casos
su utilidad diaria es aleatoria, con una media de 20 u.m. y una desviación estándar de 2
u.m. Obtenga el promedio y la desviación estándar de la utilidad diaria de este comerciante.
Tenga presente el ejemplo 1.19.
Ejercicio 1.37. La rentabilidad de la operación A es una variable aleatoria X con

distribución uniforme en (0,1); la rentabilidad de la operación B es una variable aleatoria Y,
que es independiente de X y tiene un modelo probabilı́stico beta con parámetros α = β = 2.
Con la meta de alcanzar un capital de, por lo menos, 400 u.m., un negociante invertirá un
capital de 300 u.m. de la manera siguiente: 100 u.m. en A y 200 u.m. en B.
a) ¿Cuál es el valor esperado de su capital final?
b) ¿Cuál es la desviación estándar de su capital final?
c) Halle la covarianza entre la rentabilidad de A y el capital final.
d) Determine el modelo probabilı́stico conjunto de X e Y .
e) Cuantifique el riesgo que corre el negociante.
44
Ejercicio 1.38. Sean X e Y dos variables aleatorias. Demuestre que
Cov(a + bX, c + dY ) = bdCov(X, Y ).
Use la definición y no emplee otras propiedades de la covarianza.
Ejercicio 1.39. Demuestre que ρa + bX, c + dY = ρX, Y , con b > 0 y d > 0. Use el resultado
del ejercicio 1.38 y las propiedades básicas de la varianza. Diga, informalmente, por qué no
sorprende este resultado.
Ejercicio 1.40. Sean X1 , . . . , X100 variables aleatorias independientes con media cero y
desviación estándar 1. Sea Sn = X1 + 2X2 + . . . , + nXn , para cada n = 1, . . . , 100.
a) Halle la media y la varianza de Sn .
b) Halle la covarianza entre Sn y Xn .
c) Halle la covarianza entre S20 y S23 .
Ejercicio 1.41. El precio unitario del bien A es una variable aleatoria con media 10 u.m. y
desviación estándar 2 u.m.; y el precio del bien B es una variable aleatoria con media 9 u.m.
y desviación estándar 1 u.m. Además, el coeficiente de correlación entre estos precios es de
0,8. Una canasta está formada por tres unidades de A y 5 unidades de B.
a) ¿Cuál es la información que proporciona este coeficiente de correlación?
b) Halle la media y la varianza del costo de esta canasta.
c) El precio del bien C es una variable aleatoria con media 5 u.m. y desviación estándar
1 u.m. El coeficiente de correlación entre los precios de A y de C es de 0.2 y el
correspondiente a los precios de B y de C, de 0.7. Otra canasta consta de seis unidades
de A, dos de B y tres de C. Halle la covarianza entre los costos de estas dos canastas.
Ejercicio 1.42. Sea X una variable aleatoria continua, cuyo modelo probabilı́stico está dado
por f (x) = 21 , ∀ x ∈ RX = [ −1; 1]. Considérese también una variable aleatoria Y tal que
X
E(Y |X) = 0, E(Y 2 |X) = X 2 , E(Y 3 |X) = 0 y E(Y 4 |X) = 95 X 4 . Halle E(Y 4 ) y E(X 2 Y 2 ).
Ejercicio 1.43. Una persona consume los bienes A y B, en cantidades aleatorias X e Y ,

respectivamente. El consumo de B, tiene una media de 25 unidades y una desviación estándar
de 5 unidades. Además, conocido el consumo de B, digamos y, el de A tiene un modelo
binomial con parámetros n = y y p = 0,25.
a) Obtenga E(X|Y = y) y E(X|Y ). Luego determine el consumo promedio de A.
b) Halle E(X 2 |Y = y), E(X 2 |Y ), E(X 2 ) y la varianza de la cantidad consumida de A.
c) Halle E(XY |Y = y), E(XY |Y ) y E(XY ). Luego obtenga la covarianza entre X e Y.
45
Ejercicio 1.44. Sean X, Y, Z, U, V y W variables independientes, con medias iguales a

cero y varianzas finitas.
a) Determine E(5 − X + Y − 4Z − UV + XW ),
b) Halle Cov(10 + 2X − 3Y + Z, 20 + 5XZ + 4W U − UV W ).
Ejercicio 1.45. Sean X e Y dos variables aleatorias tales que E(X) = 20, V (X) =
9, E(Y ) = 10, V (Y ) = 1 y Cov(X,Y ) = 3. La utilidad de venta 1 está dado por 4X − 2Y,
mientras que la de la venta 2 está dado por 7 + 3X + 5Y.
a) Halle el valor esperado y la varianza de la utilidad de la venta 1.
b) Halle la covarianza de estas utilidades.
Ejercicio 1.46. El ingreso anual neto, en cierta unidad monetaria (u.m.), está dado por
10 + 0,9X + 0,8Y + 0,7Z, con X, Y y Z variables aleatorias tales que E(X) = 1, V (X) =
4, E(Y ) = 2, V (Y ) = 1, E(Z) = 3, V (Z) = 9, ρ = 0,8, ρ = 0,2, Y y Z son independientes.
X,Y X,Z
Halle el valor esperado y la varianza del ingreso anual neto.
Ejercicio 1.47. Sean X1 , . . . , Xn variables aleatorias independientes. Se definen las variables

aleatorias X(1) y X(n) , como el mı́nimo y máximo, respectivamente, de las variables anteriores;
es decir, X(1) = min{X1 , . . . , Xn } y X(n) = max{X1 , . . . , Xn }.
a) Demuestre que F (x) = F (x) . . . F (x).
X(n) X1 Xn
b) Demuestre que F (x) = 1 − [ 1 − F (x) ] . . . [ 1 − F (x) ].

X(1) X1 Xn
c) Si X1 , . . . , Xn son idénticamente distribuidas, demuestre que F (x) = F n(x).

X(n) X1
d) Si X1 , . . . , Xn son idénticamente distribuidas, demuestre que F (x) = 1 − [ 1 − F (x) ]n .

X(1) X1
Ejercicio 1.48. Sean X1 , . . . , Xn variables aleatorias independientes.

a) Si X1 ∼ exp(beta), demuestre que X(1) ∼ exp(nβ). Use el ejercicio 1.47d.
b) Si X1 ∼ W (α; β), demuestre que X(1) ∼ W (α; nβ). Use el ejercicio 1.47d.
c) El modelo probabilı́stico Weibull potenciado (W p), Mudholkar G. y Srivastava

α γ
D. (1993)3, tiene función de distribución acumulada F (x) = (1 − e−β x ) , x > 0;
α > 0, β > 0, γ > 0. Si X1 ∼ W (α; β; γ), demuestre que X(n) ∼ W p(nα; β; nγ). Use el
ejercicio 1.47c.
d) El modelo probabilı́stico exponencial generalizado (expg), Gupta y Kundu (1999)4 ,

tiene como función de distribución acumulada F (x) = (1 − e−β x )α , x > 0; α > 0, β > 0.
Si X1 ∼ expg(α; β), demuestre que X(n) ∼ expg(nα; β). Use el ejercicio 1.47c.
3
Mudholkar G.S. y Srivastava D.K. Exponentiated Weibull family for analyzing bathtub failure rate data.
IEEE Transactions on Reliability, 41 :299-302, 1993.
4
Gupta and Kundu. Theory and methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2):173-188, 1999.
46
Ejercicio 1.49. El problema que se describe a continuación es un caso particular de la teorı́a

propuesta en Cooner et al. (2007) 5 . El objetivo general es describir y modelar el tiempo hasta
la ocurrencia de algún evento de interés, E.
El número de factores de riesgo latentes, que podrı́an originar la ocurrencia del evento E, es
una variable aleatoria discreta positiva, N, con distribución geométrica con parámetro 0,2,
es decir,
fN (n) = 0,2(0,8)n−1 , n = 1, 2, . . .
Para cada n ∈ { 1, 2, . . . }, sea Tn el tiempo de activación del factor de riesgo n (es decir, el
tiempo que transcurre hasta que se presente este factor de riesgo). Estos tiempos T1 , T2 , . . .
son variables aleatorias independientes e independientes de N y cada Ti tiene distribución
exponencial con parámetro 2, es decir,
FT (t) = 1 − e−2 t , t > 0.

i
Además, el evento de interés, E, ocurre en el instante que se activa el último factor de riesgo;
es decir, si T es el tiempo hasta la ocurrencia del evento E; entonces, se cumple que
T := máximo { T1 , . . . , TN }.
Con esta información determine el modelo probabilı́stico de T . Siga los pasos siguientes:
a) Use el ejercicio 1.47c y el principio de sustitución para determinar F (t), t > 0.

T |N = n
b) Determine f(t), t > 0. Tenga en cuenta que T es continua.

T |N = n
c) Determine f (n,t), n ∈
N,T
N+, t > 0. Use la regla del producto y los resultados de a y b.
d) Determine f (t), t > 0. Use el resultado anterior y tenga en cuenta que N es discreta.
T
Ejercicio 1.50. Resuelva el ejercicio 1.49, pero ahora asuma que N siga una distribución
1 4n
de Poisson truncada con parámetro 4, es decir, que fN (n) = 4 , n = 1, 2, . . .
e − 1 n!
Ejercicio 1.51. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W (2; 5).
Ejercicio 1.52. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ W p(2; 5; 3) (vea el
ejercicio 1.48c).
Ejercicio 1.53. Repita el ejercicio 1.49, pero considere ahora que T1 ∼ expg(2; 5; 3) (vea
el ejercicio 1.48d).
Ejercicio 1.54. Resuelva el ejercicio 1.49 considerando ahora que T = mı́nimo{ T1 , . . . , TN }.
Ejercicio 1.55. Repita el ejercicio 1.49, pero considere ahora que T = mı́nimo{ T1 , . . . , TN }
y T1 ∼ W (2; 5).
5
Cooner, F., Banerjee, S., Carlin, B.P. and Sinha, D. Flexible cure rate modeling under latent activation
schemes. Journal of the American Statistical Association 102(478), 560–572.
47
y T1 ∼ W p(2; 5; 3) (vea el ejercicio 1.48c).
T1 ∼ expg(2; 5; 3) (vea el ejercicio 1.48d).
Ejercicio 1.58. Sean W, X, Y y Z variables aleatorias independientes con media cero y

varianza 1.
a) Halle E(2W + ZX 2 Y − 5W 2 Z).
b) Halle V (2W + ZXY − 5W Z).
Ejercicio 1.59. Sean X1 , . . . ,Xn variables aleatorias independientes e idénticamente

distribuidas, tales que E(X1 ) = 0, E(X12 ) = m2 , E(X13 ) = m3 y E(X14 ) = m4 . Determine
P
n P
n
a) V (X12 ); b) V ( Xi2 ); c) V ( X1 Xj );
i=2 j=2
P
n P
n P
n P
n
d) Cov(X12 ; Xi2 ); e) Cov(X12; X1 Xj ); f) Cov( Xi2 ; X1 Xj );
i=2 j=2 i=2 j=2
P
n P
n P
n P
n
g) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = nX12 + Xi2 − 2 X1 Xj ;
j=2 j=2 i=2 j=2
P
n P
n P
n
h) V ( (X1 − Xj )2 ), observe que (X1 − Xj )2 = (X1 − Xj )2 ;
j=1 j=1 j=2
P
n
i) V ( (Xi − Xj )2 ), para i = 1, . . . ,n;
j=1
P
n P
n−1
j) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=2 l=1
P
n P
n
k) Cov( (X1 − Xj )2 , (Xn − Xl )2 );
j=1 l=1
P
n P
n
l) Cov( (Xi − Xj )2 , (Xk − Xl )2 ); para i,k = 1, . . . ,n, con i < k.
j=1 l=1
P
n P
n
n−3
m) V ( (Xi − Xj )2 ). Respuesta: 4n(n − 1)2 [m4 − n−1
m22 ].
i=1 j=1
P
n P
n P
n P
n PP
Sugerencia. V ( (Xi − Xj )2 ) = V ( Yi ) = V (Yi ) + 2 Cov(Yi ,Yk ), donde
i=1 j=1 i=1 i=1 i<k
P
n
Yi = (Xi − Xj )2 , para i = 1, . . . ,n.
j=1
Ejercicio 1.60. Sean X1 , . . . ,Xn variables aleatorias independientes e idénticamente

distribuidas con E(X1 ) = µ, E(X1 − µ)2 = σ 2 , E(X1 − µ)3 = m′3 y E(X1 − µ)4 = m′4 .
Pn Pn
Determine V ( (Xi − Xj )2 ). Sugerencia: use el resultado del ejercicio anterior para las
i=1 j=1
n−3
variables Y1 = X1 − µ, . . . , Yn = Xn − µ. Respuesta: 4n(n − 1)2 [m′4 − n−1
σ 4 ].
48
Ejercicio 1.61. Sean X1 , . . . , Xn variables aleatorias independientes, cada una tiene la

misma media µ y la misma varianza σ 2 . Halle cov(X1 , X̄) y cov(Xj − X̄, X̄).
Ejercicio 1.62. Si X e Y son dos variables independientes, halle cov(X + Y, X − Y ).
Ejercicio 1.63. Sea (X,Y )t ∼ N2 (1; 2; 1; 1; 0).

a) Halle µ y Σ el vector de medias y la matriz de varianzas-covarianzas del vector (X,Y )t .
b) Sean U = 1 + 2X − 3Y, V = X + Y y W = X − Y. Halle el vector de medias y la

matriz de varianzas-covarianzas del vector (U,V,W )t . Emplee la propiedad: el vector
Ym×1 = Am×1 + Bm×n X n×1 tiene un vector de medias µY = A + BµX y una matriz
de varianzas-covarianzas ΣY = AΣX Bt .
Ejercicio 1.64. Un fabricante debe adquirir una cantidad X del bien A y una cantidad Y
del bien B. Las matrices de medias y de varianzas-covarianzas del vector (X,Y )t son
 
36 192
!
9  25 125 
 
µ= y Σ= .
5  192 64 
125 25
El fabricante recibe las ofertas de dos comerciantes de estos bienes: c1 , que ofrece el bien
A a 4 u.m. por unidad y el bien B a 7 u.m., y c2 , que ofrece el bien A a 3 u.m. por unidad
y el bien B a 8 u.m. Además de estos precios, se debe sumar el costo fijo que origina cada
oferta: 5 u.m., la de c1 , y 4 u.m. la de c2 . El comerciante se enfrenta con este problema en
muchas oportunidades, bajo las mismas condiciones. Responda las preguntas siguientes que
se formula el comerciante: (i) por cuál de las ofertas optar, (ii) cuál de la ofertas origina un
costo menos variable, (iii) la covarianza entre los costos de las dos ofertas.
Responda con y sin la propiedad dada en la sección 1.10.
Ejercicio 1.65. En el ejercicio 1.64, suponga que (X, Y )t es un vector aleatorio cuya
distribución conjunta es normal bivariable. Halle la probabilidad de que el costo total de
la oferta de c1 no pase de 30 u.m., si se sabe que debe adquirir 5 unidades de A.
Ejercicio 1.66. Sea (X, Y )t un vector aleatorio cuya distribución conjunta es normal
bivariable, cuyas matrices de medias y de varianzas-covarianzas son, respectivamente,
 
! 225 96
15  
µ= y Σ= .
20
96 64
a) Halle el vector de medias y la matriz de varianzas-covarianzas del vector (2X, 3Y )t .
b) Sean U = 2X + 3Y y V = X + Y. Halle el vector de medias y la matriz de varianzas-
covarianzas del vector (U, V )t . Emplee la propiedad 1.10.
c) Demuestre que el vector (U, V )t tiene distribución normal bivariable. Use la propiedad
5 de la normal bivariable.
d) Halle P (X + Y ≤ 50 |X = 25).
49
Ejercicio 1.67. Los ingresos brutos mensuales de una familia provienen de tres rubros que
dan las siguientes cantidades (en cierta unidad monetaria): X, Y y Z. El ingreso neto mensual
de esta familia está dado por I = 0,9X +0,8Y +0,7Z −40. La distribución conjunta del vector
(X, Y, Z)t es normal multivariada con las matrices de medias y de varianzas-covarianzas:
   
40 4 −8 0
   
µ =  60  y Σ =  −8 25 0 
80 0 0 36
a) Halle la media del ingreso neto mensual de esta familia.
b) Halle la varianza del ingreso neto mensual de esta familia.
c) Determine la probabilidad de que el ingreso neto mensual de esta familia esté entre 95
y 110 unidades monetarias, es decir, P (95 ≤ I ≤ 110).
d) El ahorro mensual de esta familia es S = 0,1X − 0,2Y + Z − 30. Halle la covarianza

entre el ahorro mensual y el ingreso neto mensual de esta familia, es decir, Cov(I, S).
Ejercicio 1.68. Sean ǫ1, . . . , ǫn, variables aleatorias tales que

E(ǫj ) = 0, para j = 1, . . . , n.
V (ǫj ) = σ 2 , para j = 1, . . . , n.
y Cov(ǫi , ǫj ) = 0, ∀i 6= j.
Dadas las constantes conocidas x1 , . . . , xn , se considera el modelo de regresión lineal simple6 :
Yj = βxj + ǫj , para j = 1, . . . , n,
donde β es una constante desconocida que se estima por

n
X xj
β̂ = bj Yj , donde bj = Pn , para j = 1, . . . , n.
j=1 x2i
a) Halle E(Yj ), para j = 1, . . . n. i=1
b) Halle V (Yj ), para j = 1, . . . n.
c) Halle Cov(Yi , Yj ), i 6= j.
d) Halle E(β̂).
e) Halle V (β̂).
f) Halle Cov(Yi , β̂), para i = 1, . . . , n.
g) Halle la varianza de Ȳ .
6
En los capı́tulos siguientes se estudiará con más detalle este modelo usado en muchas áreas y
especialidades como, por ejemplo, econometrı́a.
50
Ejercicio 1.69. Sean ǫ1 , . . . , ǫn, variables aleatorias tales que

E(ǫj ) = 0, para j = 1, . . . , n.
V (ǫ j ) = σ 2 , para j = 1, . . . , n.
y Cov(ǫi , ǫj ) = 0, ∀i 6= j.
Sean α y β, parámetros para estimar, y las constantes conocidas siguientes: x1 , . . . , xn .

Considere el modelo de regresión lineal dado por
Yj = α + βxj + ǫj , para j = 1, . . . , n.
Como estimadores de los parámetros se proponen los siguientes:

P
n xj − X̄
β̂ = bj Yj , donde bj = P
n , para j = 1, . . . , n.
j=1
(xi − X̄)2
i=1
P
n 1
α̂ = aj Yj , donde aj = − bj X̄ , para j = 1, . . . , n.
j=1 n
Como pronóstico de Yj se propone a Ŷj = α̂ + β̂xj , j = 1, . . . , n.
a) Halle E(Yj ), para j = 1, . . . , n.
b) Halle V (Yj ), para j = 1, . . . , n.
c) Uno de los argumentos usados para escoger estos estimadores fue el siguiente:
✭✭En promedio, el valor del estimador coincide con el valor del parámetro que estima✮✮.
¿Es válido este argumento? Justifique con la teorı́a tratada en este capı́tulo.
d) Halle Cov(Yi , Yj ), ∀i 6= j.
e) Use los resultados de las partes anteriores para hallar V (β̂) y V (α̂).
f) Halle Cov(α̂, β̂).
g) Halle Cov(Yk , β̂), para k = 1, . . . , n.
h) Halle la media Ŷj , para j = 1, . . . , n.
i) Halle la media y la varianza de Yj − Ŷj , para j = 1, . . . , n.
j) Use los resultados de las partes anteriores para hallar V (Ŷj ).
Ejercicio 1.70. En el ejercicio 1.68, sea α̂1 = Ȳ /X̄.
a) Halle E(α̂1 ) y V (α̂1 ).
b) Si Yˆj = α̂1 + β̂xj , j = 1, . . . , n, halle E(Yˆj ) y V (Yˆj ).
51
Ejercicio 1.71. En el ejercicio 1.68, considere que para k ∈ { 1, . . . , n } se define Ŷk =

Pn xk xj
cj Yj , donde cj = P
n , j = 1, . . . , n. Determine expresiones simplificadas para
j=1 2
xi
i=1
a) E(Ŷk ), para k = 1, . . . , n.
b) V (Ŷk ), para k = 1, . . . , n.
c) Cov(Yk , Ŷk ), para k = 1, . . . , n.
d) V (Yk − Ŷk ), para k = 1, . . . , n.
e) E(Yk − Ŷk )2 , para k = 1, . . . , n.

Pn
(Yk − Ŷk )2
f) E( c
σ 2 ), si c
σ 2 = k=1 .
n−1
Ejercicio 1.72. En el ejercicio 1.69 considere que para cada k ∈ { 1, . . . , n } :
n
X 1 (xk − X̄)
Ŷk = cj Yj , donde cj = + P
n (xj − X̄) , para j = 1, . . . , n.
n 2
j=1 (xi − X̄)
i=1
Determine expresiones simplificadas para
Pn P
n
a) E(Ŷk ), para k = 1, . . . , n. Verifique las identidades cj = 1 y cj xj = xk .
j=1 j=1
P 2 1
n
(xk −X̄)2
b) V (Ŷk ), para k = 1, . . . , n. Verifique la identidad cj = n + Pn .
j=1 (xi −X̄)2
i=1
c) Cov(Yk , Ŷk ), para k = 1, . . . , n.
d) V (Yk − Ŷk ), para k = 1, . . . , n.
e) E(Yk − Ŷk )2 para k = 1, . . . , n.
P
n
(Yk −Ŷk )2
f) E( c
σ 2 ), donde c
σ2 = k=1
n−2
.
g) Demuestre que Ŷj = α̂ + β̂xj , j = 1, . . . , n, donde α̂ y β̂ son como el ejercicio anterior.
Ejercicio 1.73. En el modelo de regresión lineal con intercepto, dado en el ejercicio 1.69,
para cada k = 1, . . . , n, se definen Ŷk := α̂ + β̂xk (el valor ajustado de Yk o estimación del
valor promedio de Yk ) y ǫˆk := Yk − Ŷk (el residuo).
a) Halle E(Ŷk ), k = 1, . . . , n.
b) Halle la covarianza entre α̂ y β̂.
c) Halle V (Ŷk ), k = 1, . . . , n.
d) Halle Cov(Yk ; Ŷk ), k = 1, . . . , n.
e) Halle E(ǫˆk ), k = 1, . . . , n.
f) Halle V (ǫˆj ), j = 1, . . . , n. P
n
j=1
ǫ̂ j
2
g) Halle E(σ̂ 2 ), donde σ̂ 2 = n−2

.
52
Ejercicio 1.74. El modelo de regresión con intercepto, dado en el ejercicio 1.69, puede ser
escrito matricialmente como Y = Xβ + ǫ, donde Y = ( Yi )n×1 , X = ( 1, xi )n×2 , β = (α, β)t
y ǫ = ( ǫi )n×1 .
a) Halle el vector de medias y la matriz de varianzas-covarianzas de ǫ.
b) Halle el vector de medias y la matriz de varianzas-covarianzas del vector Y , a partir
del resultado anterior.
−1
c) El estimador usal de β = (α̂; β̂)t se puede expresar como β̂ = X ′ X X ′ Y . A partir
de esto, halle el vector de medias y la matriz de varianzas-covarianzas de β̂.
d) Si Ŷ = X β̂, halle su vector de medias y su matriz de varianzas-covarianzas.
−1
Observe que Ŷ = X X ′ X X ′ Y .
e) Si ǫ̂ = Y − X β̂, halle su vector de medias y su matriz de varianzas-covarianzas.

−1
Observe que ǫ̂ = I − X X ′ X X ′ Y .
Ejercicio 1.75. Considere el ✭✭modelo de regresión múltiple✮✮ definido como
Yn×1 = Xn×k β k×1 + ǫ n×1 ,
ǫ
donde n×1 es un vector aleatorio con vector de medias nulo y matriz de varianza covarianza
σ 2 In×n , donde In×n es la matriz identidad de orden n,
β k×1 es un vector columna de constantes

y Xn×k una matriz no aleatoria de valores conocidos y tal que det Xt X =6 0.
−1
Sea el vector aleatorio β̂ k×1 = Xt X Xt Y y defina ǫ̂ n×1 como ǫ̂ = Y − X β̂ .
a) Halle el vector de medias de Y .
b) Halle la matriz de varianzas-covarianzas de Y .
c) Halle el vector de medias de ǫ̂ n×1 .
d) Halle la matriz de varianzas-covarianzas de ǫ̂ n×1 .
e) Halle la distribución de ǫ̂ n×1 .
f) Halle el vector de medias de β̂ k×1.

g) Halle la matriz de varianza-covarianzas de β̂ k×1.
Ejercicio 1.76. Dadas las variables X e Y del ejercicio 1.6, sean W = X y Z = Y /X. Use la
técnica de cambio de variable ilustrada en el ejemplo 1.27 para hallar la función de densidad
conjunta de las variables W y Z, luego determine la función de densidad de Z.
Ejercicio 1.77. Sean X e Y dos variables aleatorias independientes, con X ∼ G(α,1) e

X
Y ∼ G(β,1). Halle e identifique la distribución de V = X+Y .
X
Use el método del jacobiano para las variables transformadas V = X+Y
y W = X.
53
Ejercicio 1.78. Un cliente entra a una agencia de un banco. El tiempo que permanece
un cliente en la cola de un banco es una variable aleatoria X y el tiempo que este cliente
permanece en la ventanilla de atención es una variable aleatoria Y. Las variables anteriores
son independientes y tienen distribución exponencial de parámetro β. Obtenga la distribución
X
de W = X+Y (la proporción del tiempo que permanece en la cola, respecto al tiempo total
de permanencia en la agencia)7 . Use el procedimiento para transformaciones descrito en la
sección 1.13, con una de las variables W y la otra Z = Y.
Ejercicio 1.79. Se dice que una variable aleatoria, X, tiene distribución Ji-cuadrado, con
N
parámetro ν, si X ∼ G(ν/2; 1/2), donde ν ∈ + ; se denota esto por X ∼ χ2 (ν). Por otra
parte, la distribución t de student corresponde a la función de densidad
Γ( ν+1
2
)
f (x) = √ x2 ν+1
, − ∞ < x < ∞,
πν Γ( ν2 )(1 + ν
) 2
donde ν > 0, es el parámetro de la distribución. Si X tiene esta densidad se dice que X tiene
distribución t de student con ν grados de libertad, se denota por X ∼ t(ν).
Sean Z y W dos variables aleatorias independientes, Z ∼ N(0,1) y W ∼ χ2 (ν). Sea la
variable
Z
T =r ,
W
ν
demuestre que T ∼ t(ν). Primero use el método del jacobiano para hallar la función de
densidad conjunta de las variables transformadas U = W y T , a partir de la correspondiente
a Z y W.
Ejercicio 1.80. La distribución F de Fisher corresponde a la función de densidad

ν1 ν1
ν1 +ν2
Γ( 2
)(ν1 /ν2 ) 2 x 2 −1
f (x) = ν ν ν1 +ν2 , x > 0.
Γ( 21 )Γ( 21 )(1 + (ν1 /ν2 )x) 2
donde ν > 0, es el parámetro de la distribución. Si X tiene esta densidad se dice que X

tiene distribución F con ν1 grados de libertad en el numerador y ν2 grados de libertad
en el denominador, se denota por X ∼ F (ν1 , ν2 ). Sean U e W dos variables aleatorias
independientes, U ∼ χ2 (ν1 ) y W ∼ χ2 (ν2 ). Sea la variable
U/ν1
F = ,
W/ν2
demuestre que F ∼ F (ν1 ; ν2 ). Primero use el método del jacobiano para hallar la función
de densidad conjunta de las variables transformadas U y F , a partir de la correspondiente a
U y W.
7
Este ejercicio es una adaptación de un problema clásico en confiabilidad. Véase Devore y Berk, pág. 263,
2007.
54
2. Inferencia estadı́stica
2.1. Introducción
Inferencia significa obtener una consecuencia a partir de ciertas observaciones. Hacer

inferencias es la labor más importante de la estadı́stica y consiste en deducir algo sobre
determinada población, a partir de solamente una muestra. Claramente no se puede
garantizar que las deducciones que se hagan de este modo sean válidas; ası́, lo que se hace
es dar ciertos márgenes de error y niveles de confianza para tales deducciones o inferencias.
Es importante mencionar que existen dos enfoques de inferencia estadı́stica, el clásico y el
bayesiano. Nosotros trataremos los conceptos de estimación y contraste o prueba de hipótesis
paramétricos desde el enfoque clásico.
Ejemplo 2.1. Para averiguar la proporción, p, de electores que aprueban la gestión de una
autoridad municipal se elige una muestra de 500 electores y a partir de sus opiniones se
estimará la proporción de interés.
Definición 2.1. (Muestra) Las observaciones que se tendrán para realizar las inferencias se
denominan la muestra y las denotaremos por X1 , . . . , Xn , con n el número de observaciones
disponibles o tamaño de muestra.
Observación 2.1. Podemos decir que antes de registrar los valores de la muestra, se planifica
para obtener inferencias confiables y esto se consigue al aplicar la teorı́a de probabilidades
con las variables aleatorias que integran la muestra. Después de registrar estos valores se
lleva a cabo lo planificado para obtener las inferencias, pero estos valores ya son conocidos
(por lo tanto, no son variables aleatorias).
Definición 2.2. Si en la muestra las variables aleatorias, X1 , . . . , Xn , son independientes y

tienen la misma distribución que la variable X, decimos que se trata de una muestra aleatoria
simple de X (o, brevemente, una muestra aleatoria de X).
Observación 2.2. En la práctica, estas variables se generan efectuando n mediciones de una

variable X, en n oportunidades o sujetos elegidos al azar. Estas mediciones u observaciones
son desconocidas antes de proceder a escoger las n oportunidades, sujetos u objetos, sobre
los cuales se medirá la variable; ası́, podemos considerarla como una variable aleatoria;
además con una distribución como la de X, pues asumimos condiciones similares en las
mediciones; tampoco hay razón para pensar que una medición influya sobre la otra, de este
modo, asumimos también que las variables son independientes. A X la podemos denominar
la variable de la población, pues de esta se registrará una muestra.
55
Observación 2.3. Si X1 , . . . , Xn es una muestra aleatoria simple, podemos deducir, entre

otras, las propiedades siguientes:
a) La función de distribución conjunta de X1 , . . . , Xn está dada por
f (x1 , . . . , xn ) = f (x1 ) . . . f (xn )

X1 , . . . , Xn X1 Xn
= f (x1 ) . . . f (xn )
X X
b) Cualquier resumen de una variable de la muestra (probabilidad, esperanza, varianza,

etcétera) es el mismo que el correspondiente para X, por ejemplo:
∀A ∈ R : P (Xj ∈ A) = P (X ∈ A), j = 1, . . . ,n;
E(Xj ) = E(X), j = 1, . . . ,n;
para cualquier función g de R en R : E(g(Xj )) = E(g(X)), j = 1, . . . ,n;
y V (Xj ) = V (X), j = 1, . . . ,n.
Ejemplo 2.2. En el ejemplo 2.1, en el que se quiere averiguar la proporción, p, de electores

que aprueban la gestión de la autoridad, se tomará una muestra aleatoria de 500 electores y se
registrará si aprueba (1) o desaprueba (0). La muestra aleatoria la integrarán X1 , . . . , X500 ,
con Xj = 1, si el j-ésimo elector seleccionado en la muestra aprueba la gestión, y Xj = 0, si
no la aprueba (para j = 1, . . . , 500). Estas variables son aleatorias independientes y tienen
el mismo modelo probabilı́stico. Estas caracterı́sticas las debe tener toda muestra aleatoria
simple: sus valores no pueden predecirse con certeza, un resultado no influye sobre otros y
la probabilidad de que cualquier elector apruebe la gestión es la misma (es decir, p). Ası́,
cada una de estas variables sigue un modelo probabilı́stico de Bernoulli b(1; p) y podemos
considerar que la variable de la población sea X (la respuesta de un elector), con X ∼ b(1; p).
La función de distribución conjunta de X1 , . . . , Xn está dada por
f (x1 , . . . , x500 ) = f (x1 ) . . . f (x500 )
X1 , . . . , X500 X1 X500
= f (x1 ) . . . f (x500 )
X X
x1 1−x1
= p (1 − p) . . . px500 (1 − p)1−x500
P
500 P
500
xj 500− xj
= p j=1
(1 − p) j=1
, xj ∈ { 0; 1 }.
Ejemplo 2.3. Se quiere averiguar si el tiempo promedio, µ, que necesitan los operarios
para llevar a cabo cierta tarea de un proceso de producción es el debido. Para este fin se
tomará una muestra aleatoria de 36 empleados adiestrados y se medirán los tiempos que
estos tardan en realizar la tarea. La muestra la integrarán X1 , . . . , X36 , con Xj el tiempo
que tardará el j-ésimo empleado seleccionado en la muestra. Por ser una muestra aleatoria
estas variables son aleatorias independientes y tienen el mismo modelo probabilı́stico (esto
es razonable, pues sus valores no pueden predecirse con certeza, un resultado no debe influir
sobre otros y porque los empleados han sido adiestrados para realizar la tarea).
Para aplicar la teorı́a de inferencia estadı́stica (paramétrica) se necesita asumir un modelo
56
José Flores Delgado Inferencia estadı́stica 57
probabilı́stico para estas variables, en este caso puede ser uno normal con media µ y
desviación estándar σ. De este modo, la variable de interés o de la población X puede
considerarse como el tiempo para llevar a cabo la tarea y se tiene que X ∼ N(µ; σ 2 ). Por
lo tanto la función de distribución conjunta de X1 , . . . , Xn está dada por
f (x1 , . . . , x36 ) = f (x1 ) . . . f (x36 )

X1 , . . . , X36 X1 X36
= f (x1 ) . . . f (x36 )
X X
(x −µ)2 (x36 −µ)2
− 1 2
= √1
2π σ
e 2σ ... √1
2π σ
e− 2 σ2
X
36
− 2 1σ 2
R.
(xj − µ)2
1
= ( √ 2π σ
)n e j=1 , xj ∈
Definición 2.3. (Parámetro) Un parámetro es una cantidad, θ ∈ k , que puede asumir R

R
valores en un conjunto Θ ⊂ k (denominado espacio paramétrico), y está relacionado con
la distribución de probabilidades (o modelo probabilı́stico) de las observaciones): fX , . . . , X .
1 n
Ejemplo 2.4. En el ejemplo 2.1, el parámetro de interés es p : la proporción de electores

que aprueban la gestión; en el ejemplo 2.3 µ : el tiempo promedio para llevar a cabo la tarea.
La tabla siguiente muestra los parámetros prinicipales:
Parámetro Notación Definición Descripción

Media µ E(X) Media de X
Varianza σ2 V (X) Varianza de X
p
Desviación estándar σ V (X) Desviación estándar de X
Proporción p P (X ∈ A) Proporción de veces que X ∈ A
Definición 2.4. Una estadı́stica es cualquier resumen basado en la muestra, o sea,

cualquier función g(X1 , . . . , Xn) de las variables de la muestra que carece de parámetros
desconocidos.
Observación 2.4. Recuerde las frases siguientes: ✭✭las estadı́sticas demuestran que . . . ✮✮,
✭✭las estadı́sticas no mienten✮✮, etc.
Ejemplo 2.5. Si X1 , . . . , Xn es una muestra aleatoria, son estadı́sticas, entre otras:

P
n
Xj
j=1
a) X̄ = n
: la media aritmética de las observaciones.
b) X(1) = mı́n(X1 , . . . , Xn) : el menor valor observado.
c) X(n) = máx(X1 , . . . , Xn ) : el mayor valor observado.
d) X1 : el primer valor observado.
e) Xn : el último valor observado.
57
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
: la varianza de la muestra.
El denominador n − 1 en lugar de n es para obtener mejores estimaciones.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
: la desviación estándar de la muestra.
h) Me : la mediana de los valores de la muestra.
i) P25 : el percentil 25 de la muestra.
j) P75 : el percentil 75 de la muestra.
1
P
n
k) p̄ = n
1A(Xj ) : la proporción de valores de la muestra que asumen valores en A.
j=1
Aquı́ 1A(·) es la función indicadora de A; es decir, 1A(x) = 1, si x ∈ A, y 1A(x) = 0, si
x 6∈ A.
Ejemplo 2.6. En el ejemplo 2.3, para obtener inferencias sobre el tiempo promedio, µ,
que necesitan los operarios para llevar a cabo la tarea, se registró la muestra siguiente
correspondiente a los tiempos (en minutos) de 36 empleados (elegidos al azar y que recibieron
el mismo adiestramiento para realizar la misma tarea):
47,00 37,22 52,44 62,76 61,98 67,33 28,16 47,66 60,95

39,13 43,10 33,10 31,53 40,22 42,26 28,82 44,32 45,96
51,35 46,35 46,73 46,30 63,43 49,15 48,14 44,87 69,72
58,66 73,76 43,45 66,61 33,88 55,39 59,02 69,19 49,26
Entonces, podemos obtener las principales estadı́sticas de estos datos por medio del Excel,
la secuencia para esto es: Herramientas → Análisis de datos → Estadı́stica descriptiva.
Ası́ obtenemos los valores de algunas estadı́sticas:
P
n
Xj
j=1
a) X̄ = n
= 49,7.
b) X(1) = mı́n(X1 , . . . Xn ) = 28,16.
c) X(n) = máx(X1 , . . . Xn ) = 73,76.
d) X1 = 47.
e) Xn = 49,26.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
f) S = n−1
= n−1
= 147,5998.
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
g) S = n−1
= n−1
= 12,1491.
h) Me = 47,33.
58
i) P25 = 42,26.
j) P75 = 60,95.
1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : la proporción de veces que es necesario más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea (para esto último se ha usado la función del Excel
“contar si”).
Observación 2.5. Una estadı́stica es una variable aleatoria, varı́a de una muestra a otra,
pero registrada la muestra se obtiene uno de sus valores posibles.
2.2. Estimación puntual de parámetros
Definición 2.5. Dada una muestra X1 , . . . , Xn , un estimador de un parámetro θ es

cualquier estadı́stica, θ̂ = θ̂n = θ(X1 , . . . , Xn ), usada para estimar (aproximar) el valor
desconocido de este parámetro.
Ejemplo 2.7. En el ejemplo 2.1, el estimador usual es la proporción en la muestra de

P
n
electores que aprueban la gestión de la autoridad: p̄ = n1 1 (Xj ).
j=1 {1}
Ejemplo 2.8. En el contexto del ejemplo 2.3, podemos considerar como estimadores de µ,
entre otros existentes, a µ̂1 la media correspondiente a las observaciones primera y última,
es decir, X̄2 = (X1 + X36 )/2 y a µ̂2 la media de la muestra completa, es decir, X̄.
Como fue observado, los estimadores son variables aleatorias, varı́an de una muestra a
otra; sin embargo, estos no pueden ser tan arbitrarios; se procura, entre otras propiedades,
que en promedio estén próximos al verdadero valor del parámetro y que varı́en poco de una
a otra muestra observada. Veamos a continuación, cuál de los dos estimadores propuestos en
el ejemplo anterior es mejor, es decir, cuál cumple mejor el objetivo antes mencionado.
Ejemplo 2.9. Sean µ̂1 y µ̂2 los estimadores de µ del ejemplo anterior. Analicemos sus
valores esperados; para esto usamos la propiedad por la cual la esperanza de una suma de
variables es la suma de las esperanzas correspondientes a dichas variables:
E(µ̂1 ) = E( 12 (X1 + X36 )) = 12 E(X1 + X36 ) = 12 (E(X1 ) + E(X36 )) = 12 (µ + µ) = µ

1
P
36
1
P
36
1
P36
1
P
36
1
E(µ̂2 ) = E( 36 Xj ) = 36 E( Xj ) = 36 ( E(Xj )) = 36 ( µ) = 36 (36µ) = µ;
j=1 j=1 j=1 j=1
entonces, tanto µ̂1 como µ̂2 coinciden, en promedio, con el valor verdadero del parámetro.
Ahora comparemos sus variabilidades. Para esto usamos la propiedad por la cual la varianza
de una suma de variables independientes es igual a la suma de las varianzas correspondientes:
59
V (µ̂1 ) = V ( 21 (X1 + X36 )) = 1

22
V (X1 + X36 ) = 1
22
(V (X1 ) + V (X36 )) = 1
22
(σ 2 + σ 2 ) = 12 σ 2
1
P
36
1
P
36
1
P
36
1
P
36
1 1 2
V (µ̂2 ) = V ( 36 Xj ) = 362
V ( Xj ) = 362
( V (Xj )) = 362
( σ2) = 362
(36σ 2 ) = 36
σ ;
j=1 j=1 j=1 j=1
Como ambos estimadores tienen como valor promedio a µ, pero el segundo (basado en las
36 observaciones) es menos variable (como era de esperar) resulta mejor.
A continuación formalizamos algunos términos vistos en el ejemplo anterior.
2.3. Propiedades de los estimadores
2.3.1. Insesgamiento
Definición 2.6. Si θ̂ es un estimador del parámetro θ, diremos que este es insesgado respecto
a θ, si
E(θ̂) = θ, ∀θ ∈ Θ.
Al valor esperado E(θ̂ − θ) = E(θ̂) − θ se le denomina sesgo del estimador.
Observación 2.6. El estimador varı́a de una muestra a otra; pero si este es insesgado
resulta que el promedio de los valores que puede asumir coincide con el valor del parámetro
que estima.
La tabla siguiente muestra los parámetros más conocidos, asociados con una muestra
aleatoria de la variable X (de media µ y varianza σ 2 ), y sus correspondientes estimadores
usuales
Parámetro Estimador
P
n
µ (media) =E(X) X̄ = n1 Xj
j=1
1
P
n
1
P
n
σ 2 (varianza) = V (X) S2 = n−1
(Xj − X̄)2 = n−1
( Xj2 − nX̄ 2 )
j=1 j=1
1
P
n
p (proporción de A)= P (X ∈ A) p̄ = n
1 (Xj )
j=1 A
Observación 2.7. En la tabla siguiente se muestran los valores esperados y varianzas de

los estimadores usuales.
Estimador Esperanza Varianza

σ2
X̄ µ n
1 n−3
S2 σ2 n
( E(X − µ)4 − n−1
σ4 )
p(1−p)
p̄ p n
60
Los resultados anteriores son una consecuencia de las propiedades de la esperanza y de la

varianza, de que las variables de la muestra sean independientes y que tengan la misma
distribución8 . En particular, los estimadores usuales son insesgados.
Definición 2.7. Un estimador es asintóticamente insesgado si el lı́mite de su valor esperado,

cuando el tamaño de las observaciones tiende a infinito, es igual al parámetro.
P
n
Ejemplo 2.10. El estimador σˆ2 = 1
n
(Xj − X̄)2 = n−1 2
n
S es un estimador sesgado de σ 2 ,
j=1
pero asintóticamente insesgado. En efecto, como E(S 2 ) = σ 2 ; entonces, E(σˆ2 ) = n−1
n
σ 2 . Por
lo tanto, lı́m E(σˆ2 ) = σ 2 .
n→∞
Observación 2.8. Como ya se dijo, un estimador es una variable aleatoria; registrada la

muestra este toma un valor particular que se puede llamar la estimación.
Ejemplo 2.11. A partir de la muestra del ejemplo 2.6, veamos algunos ejemplos de
estimación:
P
n
Xj
j=1
a) X̄ = n
= 49,7. Entonces, podemos estimar que el tiempo promedio que los
empleados necesitan para llevar a cabo la tarea es de 49,7 minutos.
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
2 j=1 j=1
b) S = n−1
= n−1
= 147,5998. Entonces, podemos estimar que la
varianza, del tiempo que los empleados necesitan para llevar a cabo la tarea, es de
147,5998 minutos2 .
s s
P
n P
n
(Xj − X̄)2 Xj2 − nX̄ 2
j=1 j=1
c) S = n−1
= n−1
= 12,1491. La desviación estándar del tiempo
que los empleados necesitan para llevar a cabo la tarea se estima en 12,1491 minutos.
h) Me = 47,33. Ası́, estimamos que la mitad de los empleados requieren un tiempo de

47,33 minutos o menos.
i) P25 = 42,26. Ası́, estimamos que la cuarta parte de los empleados requieren un tiempo
de 42,26 minutos o menos.
j) P75 = 60,95. Ası́, estimamos que el 75 % de los empleados requieren un tiempo de 60,95
minutos o menos.
1
P
n
14
k) p̄ = n
1 (Xj ) = 36
= 0,3 : proporción de empleados que requieren más de 50
j=1 ] 50; ∞ [
minutos para llevar a cabo la tarea = 14/36 = 0,3. Ası́, estimamos que el 30 % de los
empleados requiere más de 50 minutos para llevar a cabo la tarea.
8
Esta forma de expresar la varianza de S 2 se encuentra en Casella (2002), ejercicio 5.8, pág. 257. Vea
también los ejercicios propuestos 1.59, 1.60 y 2.3.
61
2.3.2. Eficiencia
Definición 2.8. Si θ̂1 y θ̂2 son dos estimadores insesgados del parámetro θ, diremos que θ̂1
es más eficiente que θ̂2 , si
V (θ̂1 ) < V (θ̂2 ).
Esta definición es razonable, pues, si dos estimadores de un mismo parámetro son insesgados,
es razonable afirmar que el de menor variabilidad sea mejor, pues esto significa que suele
diferir del parámetro (su media) con menor frecuencia, de una a otra muestra.
Ejemplo 2.12. En el ejemplo 2.9 la media de la muestra de todas las observaciones es más
eficiente que el que considera solo dos.
Definición 2.9. El error cuadrático medio de un estimador θ̂, del parámetro θ, lo

denotaremos por ECM(θ̂) y se define mediante ECM(θ̂) = E(θ̂ − θ)2 .
Observación 2.9. Si un estimador es insesgado, su error cuadrático medio coincide con su

varianza. En general, dados dos estimadores de un parámetro, diremos que es mejor el de
menor error cuadrático medio.
Definición 2.10. Dada una familia F de estimadores insesgados de un parámetro, diremos

que el mejor estimador de esta familia (MEIF ) es el más eficiente.
Ejemplo 2.13. Consideremos una muestra aleatoria de una variable con (varianza finita) y
la familia de estimadores de la media que son combinaciones lineales de las variables de la
muestra e insesgados; entonces, MEIF = X̄.
Ejemplo 2.14. En el modelo de regresión lineal del ejercicio 1.68, Yj = βxj + ǫj , j =

1, . . . , n, donde ǫ1 , . . . , ǫn variables aleatorias tales que E(ǫj ) = 0, V (ǫj ) = σ 2 , para j =
1, . . . , n, y Cov(ǫi , ǫj ) = 0, ∀i 6= j; x1 , . . . , xn constantes conocidas y β es el parámetro para
Pn P
n
estimar. Entonces, el mejor estimador lineal insesgado está dado por β̂ = xj Yj / x2i .
j=1 i=1
2.3.3. Consistencia
Previamente se presentará brevemente un resumen de los conceptos básicos de la Teorı́a

Asintótica (estudio de los lı́mites cuando el tamaño de muestra tiende al infinito).
Definición 2.11. Sea (Xn )n∈N+ una secuencia de variables aleatorias definidas en un mismo
espacio probabilı́stico (Ω, P ) y X una variable aleatoria definida en el mismo espacio. Se
dice que (Xn )n∈N+ converge a X fuertemente o casi seguramente, si P ( lı́m Xn = X) = 1.
n→∞
c.s.
Esto se denota por Xn → X o lı́m Xn = X, c.s.
n→∞
N
Ejemplo 2.15. Sea X ∼ U[0; 1] y para cada n ∈ + , sea Xn = X + n1X . Nótese que, si
N
X = 0 : Xn = 1, ∀n ∈ + ; ası́, lı́m Xn = 1. Sin embargo, si 0 < X ≤ 1 : lı́m n1X = 0; ası́,
n→∞ n→∞
lı́m Xn = X. Por lo tanto, P lı́m Xn = X = P (0 < X ≤ 1) = 1 y lı́m Xn = X, c.s.
n→∞ n→∞ n→∞
62
Observación 2.10. La convergencia casi segura satisface propiedades similares a las de la

convergencia de secuencias reales, por ejemplo:
a) Si lı́m Xn = X, c.s. y lı́m Yn = Y , c.s.; entonces, lı́m (cXn + dYn ) = cX + dY, c.s.
n→∞ n→∞ n→∞
b) Si lı́m Xn = X, c.s. y lı́m Yn = Y , c.s., con P (Y 6= 0) = 1; entonces,

n→∞ n→∞
lı́m (cXn /dYn ) = cX/dY, c.s., si d 6= 0.
n→∞
c) Si g es una función continua y lı́m Xn = X, c.s.; entonces, lı́m g(Xn ) = g(X), c.s.
n→∞ n→∞
Definición 2.12. Sea (Xn )n∈N+ una secuencia de variables aleatorias definidas en un mismo
espacio probabilı́stico (Ω, P ) y X una variable aleatoria definida en el mismo espacio. Se dice
que (Xn )n∈N+ converge a X en probabilidad, si ∀ǫ > 0 : lı́m P ( |Xn − X| > ǫ ) = 0. Esto se
n→∞
p
denota por Xn → X o P lim Xn = X.
Ejemplo 2.16. De la observación 2.7 y la desigualdad de Chebychev, sigue que los

estimadores usuales de los parámetros básicos convergen en probabilidad a sus respectivos
parámetros.
Ejemplo 2.17. Como en el ejemplo 2.15, Xn = X + n1X , ∀n ∈ N+, con X ∼ U[0; 1], veamos
p
que Xn → X :
P ( |Xn − X| > ǫ ) = P ( n1X > ǫ) = P (nX < 1ǫ ) = P (X < 1

ǫ log(n)
) = 1
ǫ log(n)
;
por lo tanto, lı́m P ( |Xn − X| > ǫ ) = 0.

n→∞
Observación 2.11. El resultado del ejemplo anterior no es una coincidencia, se cumple que
lı́m Xn = X, c.s. ⇒ P limXn = X.

n→∞
Además, tal como la convergencia casi segura, la convergencia en probabilidad satisface

propiedades similares a las de la convergencia de secuencias reales, por ejemplo:
a) Si P limXn = X y P limYn = Y ; entonces, P lim(cXn + dYn ) = cX + dY .
b) Si P limXn = X, y P limYn = Y , con P (Y 6= 0) = 1; entonces, P lim(cXn /dYn ) =

cX/dY , si d 6= 0.
c) Si g es una función continua y P limXn = X; entonces, P limg(Xn ) = g(X) .
Definición 2.13. Sea (Xn )n∈N+ una secuencia de variables aleatorias, con distribuciones
acumuladas F1 , F2 . . . , respectivamente. Se dice que esta secuencia de variables converge en
distribución a la variable aleatoria X, con distribución acumulada F, si para todo x, punto
de continuidad de F, se tiene que lı́m Fn (x) = F (x).
n→∞
D
Notación: Xn → X.
63
Ejercicio 2.1. Sea (Xn )n∈N+ una secuencia de variables aleatorias con Xn ∼ exp(−n) 9 . La
distribuciones
( acumuladas de estas variables están dadas por
0, si x ≤ 0,
Fn (x) =
1 − e−nx ; si x > 0;
ası́, (
0, si x ≤ 0,
lı́m Fn (x) =
n→∞ 1, si x > 0.
Por otra parte, la distribución acumulada de X = 0, está dada por
(
0, si x < 0,
F (x) =
1, si x ≥ 0;
entonces, F es continua para todo x 6= 0 y para estos puntos tenemos que lı́m Fn (x) = F (x).
n→∞
D
Por lo tanto, Xn → 0.
p D
Observación 2.12. Se cumple que Xn → X ⇒ Xn → X. También se cumplen las
propiedades siguientes, las tres primeras son conocidas como El Teorema de Slutsky.
D D
a) Xn → X y P limYn = c ⇒ Xn + Yn → X + c;
D D
b) Xn → X y P limYn = c ⇒ Xn Yn → cX;
D Xn D X
c) Xn → X y P limYn = c ⇒ → , si c 6= 0 y P (Yn 6= 0) = 1.
Yn c
D D
d) Xn → X y P limYn = c ⇒ g(Xn ) → g(X), si g es continua.
D D
e) an (Xn − µ) → X ⇒ an (g(Xn ) − g(µ)) → g ′(µ)X, si y g diferenciable en µ.
Observación 2.13. Los teoremas más importantes de la teorı́a asintótica, acerca de los
tipos de convergencia anteriores, para la teorı́a de inferencia estadı́stica son los siguientes:
a) La Ley Fuerte de los Grandes Números:
a1 ) (Caso de variables independientes) Sea (Xn )n∈N+ una secuencia de variables

P
∞
V (Xn )
aleatorias independientes con varianzas finitas, tal que n2
es finita y existe
n=1
lı́m E(X̄n ); entonces, lı́m X̄n = lı́m E(X̄n ), c.s.
n→∞ n→∞ n→∞
a2 ) (Caso de variables independientes e idénticamente distribuidas) Sea (Xn )n∈N+ una

secuencia de variables aleatorias independientes e idénticamente distribuidas, con
media µ (finita); entonces, lı́mn→∞ X̄n = µ, c.s.
b) Sea (Xn ) n∈N+ una secuencia de variables aleatorias independientes e idénticamente
distribuidas, con E(Xn ) = µ y V (Xn ) = σ 2 ; entonces,
√
n( X̄n − µ ) D
→ Z ∼ N(0, 1).
σ
9
Xn puede ser la duración de un sistema de estructura en serie integrado por n componentes cuyas
duraciones son independientes y con distribución exponencial de media 1.
64
Definición 2.14. Un estimador o, mejor dicho, la secuencia de estimadores (θ̂n )n∈N+ es

P
consistente débilmente para el parámetro θ, si θ̂n → θ.
Definición 2.15. Si la convergencia en la definición anterior es casi seguramente; es decir,

si lı́m θ̂n = θ, c.s., se dice que el estimador es consistente (fuertemente).
n→∞
P
Observación 2.14. Recuérdese que lı́mn→∞ θ̂n = θ, c.s. ⇒ θ̂n → θ. Por lo tanto, si un
estimador es consistente fuertemente, también es consistente débilmente.
Ejemplo 2.18. En el caso de una muestra aleatoria de X, tenemos los resultados siguientes:
a) si E(X) = µ, lı́m X̄n = µ, c.s.;
n→∞
b) si V (X) = σ 2 , lı́m Sn2 = σ 2 , c.s.;
n→∞
c) si P (X ∈ A) = p; lı́m p̄n = p, c.s.
n→∞
Los resultados son consecuencia de la Ley Fuerte de los Grandes Números. Por lo tanto, los
estimadores usuales de los parámetros básicos son consistentes fuertemente y, en particular,
consistentes débilmente. Esta Ley permite verificar fácilmente la consistencia fuerte de
estimadores que tenga la forma de la media de una muestra aleatoria simple de una variable
con media finita.
S
Ejemplo 2.19. El coeficiente de variación muestral, X̄ , es un estimador consistente
σ
fuertemente del coeficiente de la población µ . Esto es una consecuencia de los resultados
anteriores y de las propiedades dadas en la observación 2.10. En efecto, lı́m S 2 = σ 2 , c.s.;
√ n→∞
por lo tanto, lı́m S = σ 2 = σ, c.s. Además, lı́m X̄ = µ, c.s. Por lo tanto, lı́m X̄S = σµ , c.s.
n→∞ n→∞ n→∞
Ejemplo 2.20. Si X es una variable aleatoria con media cero; entonces, para muestras
P
n
aleatorias simples n1 Xj2 es un estimador consistente fuertemente de σ 2 . Para llegar a esta
j=1
conclusión basta observar que por ser X1 , . . . , Xn una muestra aleatoria de X, es decir,
estas variables son independientes y tienen la misma distribución que la de X; entonces,
X12 , . . . , Xn2 son variables aleatorias independientes con la misma distribución que la de X 2 ,
la cual tiene una media E(X 2 ) = σ 2 ; por lo tanto, por la Ley Fuerte de los Grandes Números,
Pn
sigue que lı́m n1 Xj2 = E(X 2 ) = σ 2 , c.s.
n→∞ j=1
El teorema siguiente establece condiciones suficientes para tener consistencia débil.
Teorema Si el estimador de θ, θ̂ = θ̂n = θ̂(X1 , . . . , Xn ), satisface las condiciones siguientes:
i) lı́m E(θ̂) = θ , esto es, θ̂ es asintóticamente insesgado para estimar a θ,

n→∞
ii) lı́m V (θ̂) = 0 , esto es, θ̂ es asintóticamente eficiente para estimar a θ;

n→∞
entonces, θ̂ es un estimador consistente (débilmente) para θ.
65
2.4. Métodos de estimación
A continuación trataremos los métodos más conocidos para obtener estimaciones de

parámetros.
2.4.1. Máxima verosimilitud
Definición 2.16. Supongamos que el modelo probabilı́stico de la muestra que se registrará,

X1 , . . . ,Xn , dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ Rk . Dada una muestra
registrada X1 = x1 , . . . , Xn = xn , definimos la función de verosimilitud de los parámetros
θ1 , . . . , θk , asociada a esta muestra, mediante
L(θ1 , . . . , θk ) = f (x1 , . . . , xn ) = f (x1 ) . . . f (xn )
X1 , . . . , Xn X1 Xn
Obsérvese que, si las variables son discretas, entonces, la función de verosimilitud, asociada
a la muestra X1 = x1 , . . . , Xn = xn , es la probabilidad de que se obtenga justamente dicha
muestra. Esto justifica su nombre.
Definición 2.17. Supongamos que el modelo probabilı́stico de la muestra que se registrará,

X1 , . . . ,Xn , dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ Rk . Dada una muestra
registrada X1 = x1 , . . . , Xn = xn , las estimaciones obtenidas por el método de máxima
verosimilitud de los parámetros θ1 , . . . , θk están dadas por aquellos valores de los parámetros
que maximizan su función de verosimilitud, es decir,
(θ̂1 , . . . ,θ̂k ) = máximo L(θ1 , . . . , θk ).
Definición 2.18. Si la estimación por máxima verosimilitud de θ = (θ1 , . . . ,θk ), asociada

a la muestra registrada X1 = x1 , . . . , Xn = xn , está dada por g(x1 , . . . , xn ); entonces, el
estimador de θ por máxima verosimilitud está dado por g(X1 , . . . , Xn ).
Ejemplo 2.21. Si X tiene distribución de Poisson con parámetro λ (desconocido); entonces,

la función de verosimilitud, basada en una muestra registrada de X : X1 = x1 , . . . , Xn = xn ,
está dada por
L(λ) = f (x1 ) . . . f (xn ) =

X1 Xn
e−λ λx1
x1 !
...
e−λ λxn
xn !
e−n λ λn x̄
= Qn , λ > 0; x1 ∈ N, . . . , x
n ∈ N,
xj !
j=1
De aquı́, es fácil verificar que L es maximizada cuando λ = x̄. Entonces, la estimación de λ,

por máxima verosimilitud, es λ̂ = x̄ y el estimador, λ̂ = X̄.
Ejemplo 2.22. Si X tiene distribución exponencial con parámetro β (desconocido), la

función de verosimilitud basada en una muestra registrada de X : X1 = x1 , . . . , Xn = xn ,
está dada por L(λ) = f (x1 ) . . . f (xn ) = β e−β x1 . . . βe−β xn = β n e−n x̄ β , β > 0; xi > 0.
X1 Xn
De aquı́, es fácil verificar que L es maximizada cuando β = 1/x̄. Entonces, la estimación por
máxima verosimilitud de β es x̄ y el estimador, 1/X̄.
66
Propiedades del estimador de máxima verosimilitud
Distribución asintótica del estimador de máxima verosimilitud. Sean la familia

de distribuciones o modelos de probabilidad { f (x; θ) }θ ∈ Θ, que satisface las condiciones de
regularidad, X una variable aleatoria con función de distribución f (x; θ), con θ ∈ Θ, y θ̂mv
X
el estimador de máxima verosimilitud; entonces,
√ D
n (θ̂mv − θ) → N(0; I −1 (θ)),
∂
2 ∂2

con I(θ) = E ∂θ
ln( f (X; θ) = −E ∂ θ2
Ln(f (X; θ) .
X
√ aprox. 1
Ası́, si el tamaño de muestra n es grande, n (θ̂mv − θ) ∼ N(θ; n
I −1 (θ)).
Observación 2.15. Para más de un parámetro; es decir, si θ = (θ1 , . . . ,θk ) ∈ Θ ⊂ k y R

θ̂ es el estimador de máxima verosimilitud, existen condiciones de regularidad similares de
modo que
√ D
n (θ̂ − θ) → N(0; I −1 (θ)), (2.1)
donde I(θ) se denomina la matriz de Información de Fisher y está definida por

h 2 i
I(θ) = − E ∂θ∂i ∂θj Ln(f (X; θ)) .
X k×k
aprox. 1
Ası́ el tamaño de muestra n es grande, θ̂ ∼ Nk (θ; n
I −1 (θ)).
El cálculo de I(θ) suele ser complejo; sin embargo, se puede obtener una aproximación como
sigue a continuación. Sea H(θ) la matriz hessiana del logaritmo de la función de verosimilitud
asociada con la muestra X1 , . . . ,Xn ; es decir,
h i
∂2
H(θ) = ∂θi ∂θj
Ln(L(X1 , . . . ,Xn ; θ1 , . . . ,θk )) .
k×k
Se cumple que
aprox.
θ̂ ∼ Nk (θ; −H −1 (θ̂)), (2.2)
a −H(θ̂) se le denomina la matriz de información de Fisher observada.
Además, si θîmv es el estimador de máxima verosimilitud de θi , se tiene que

√ √ ˆ
n (θîmv − θi ) D n (θimv − θi ) D
→ N(0; 1) y → N(0; 1), (2.3)
σ̂ θîmvI σ̂ θîmvH
donde σ̂ θîmvI y σ̂ θîmvH son los i-ésimos elementos de la diagonal de I −1 (θ) y −H −1 (θ̂),
respectivamente.
Invarianza Si θ̂mv es el estimador de θ y g es una función continua; entonces, el estimador

de máxima verosimilitud de g(θ) es g(θ̂mv ).
67
2.4.2. Momentos
Recordemos que si X es una variable aleatoria, su k−ésimo momento está dado por
mk = E(X k ). Análogamente, si X1 , . . . , Xn es una muestra aleatoria de X, se define el
Pn
k−ésimo momento, denotado Mk , mediante Mk = n1 Xjk .
j=1
Definición 2.19. Sea X una variable aleatoria cuya distribución dependa de los parámetros
θ1 , . . . , θk , entonces, los estimadores de estos parámetros, según el método de los momentos,
corresponden a la solución del sistema de k ecuaciones (con estos parámetros como
incógnitas), siguiente:
mj = Mj , j = 1, . . . , k.
Ejemplo 2.23. Si X tiene distribución de Poisson con parámetro λ (desconocido), entonces,

Pn
m1 = E(X) = λ y M1 = n1 Xj = X̄. Por lo tanto, el estimador de λ, según el método de
j=1
los momentos, corresponde a la solución de la ecuación con incógnita λ : m1 = M1 , es decir,
λ = X̄. Ası́ λ̂ = X̄.
Ejemplo 2.24. Si X tiene distribución normal con parámetros µ y σ 2 (desconocidos),

P
n P
n
entonces, m1 = E(X) = µ, M1 = n1 Xj = X̄, m2 = E(X 2 ) = σ 2 + µ2 y M2 = n1 Xj2 .
j=1 j=1
2
Por lo tanto, los estimadores de µ y de σ , según el método de los momentos, corresponden
a la solución del sistema de ecuaciones (con estos parámetros como incógnitas): m1 = M1 y
m2 = M2 o, equivalentemente,
µ = X̄
1
P
n
σ 2 + µ2 = n
Xj2 ,
j=1
P
n P
n
cuya solución es µ = X̄ y σ 2 = 1
n
Xj2 − X̄ 2 . Por lo tanto, µ̂ = X̄ y σˆ2 = 1
n
Xj2 − X̄ 2 .
j=1 j=1
2.4.3. Cuadrados mı́nimos y Regresión
Se tiene una variable Y que es explicada por su relación funcional con una variable X;
pero con un error aleatorio de medición u observación ǫ, es decir, se tiene el modelo siguiente:
Y = g(X,θ) + ǫ
La variable X no se considera aleatoria, pues, sus valores serán determinados o fijados

previamente, se llama variable independiente;
g es una función que depende de X y del vector de parámetros θ ∈ Θ ⊂ Rk .
El error ǫ es una variable aleatoria con media cero, es decir, E(ǫ) = 0.
Por lo tanto, en promedio, la relación existente sı́ es lineal, es decir, E(Y ) = g(X,θ).
68
Esto último significa que, dado un mismo valor particular para la variable independiente,
digamos X = x, entonces, por causa del error aleatorio, el valor que podemos observar como
respuesta no es necesariamente y = g(x,θ), sino que es uno de una gama de valores con una
distribución de media g(x,θ). La variable Y es la variable dependiente o de respuesta a los
valores determinados de la variable independiente.
A este modelo se le conoce como regresión; y el objetivo es predecir el valor de la variable

dependiente asociado a determinados valores de las variable independiente.
Empezamos por seleccionar n valores de la variable independiente, X = x1 , . . . , X = xn y

observaremos las correspondientes respuestas: Y1 , . . . , Yn
Obsérvese que, según el modelo, la respuesta Yi asociada al valor de la variable independiente

X = xi , es Yi = g(xi ) + ǫi , i = 1, . . . , n.
Asumimos los supuestos siguientes:
E(ǫi ) = 0 y V (ǫi ) = σ 2 , para i = 1, . . . , n, y cov(ǫi , ǫj ) = 0, si i 6= j.
Entonces Yi es una variable de valor esperado E(Yi ) = g(xi ,θ). Ası́ podemos formar dos
vectores, uno el vector de respuestas observadas: (y1 , . . . , yn ); y el otro de respuestas
esperadas: (g(x1 ,θ), . . . ,g(xn ,θ)). El método de los cuadrados mı́nimos establece que las
estimaciones de los parámetros del modelo deben ser tales que minimicen la distancia o,
equivalentemente, el cuadrado de la distancia existente entre los vectores de respuestas
observadas y el de respuestas esperadas:
n
X
Q(θ) = (yi − g(xi ,θ))2
i=1
El modelo de regresión lineal simple sin intercepto: Y = β X + ǫ

P
n
En este caso Yi = β xi + ǫi , i = 1, . . . ,n, y Q(β) = (yi − β xi )2 . Al minimizar Q(β),
i=1
se obtiene el estimador de cuadrados mı́nimos de β :
P
n
xj Yj
j=1
β̂ = Pn .
x2
j
j=1
Una forma alternativa de expresar este estimador es la dada en el ejercicio 1.68; es decir,
n
X xj
β̂ = bj Yj , con bj = P
n , para j = 1, . . . , n.
2
j=1 xi
i=1
Esta forma alternativa resulta muy conveniente para el estudio de la propiedades del
estimador, pues, estas son heredadas de las variables Yj .
69
El modelo de regresión lineal simple con intercepto:
Y =α+ βX +ǫ
P
n
En este caso Yi = α + β xi + ǫi , i = 1, . . . ,n, y Q(α,β) = (yi − α − β xi )2 . Al minimizar
i=1
Q(α,β), se obtienen los estimadores de cuadrados mı́nimos de α y β :
P
n
(xj − X̄)(Yj − Ȳ )
j=1
β̂ = P
n y α̂ = Ȳ − β̂ X̄.
(xj − X̄)2
j=1
Observación 2.16. (Teorema de Gauss Markov) Los estimadores anteriores son los mejores
estimadores lineales e insesgados.
Los estimadores de máxima verosimilitud en la regresión lineal
Si, además de los supuestos clásicos, asumimos que los errores tienen distribución normal,
entonces, la función de verosimilitud asociada a la muestra Y1 = y1 , . . . . . . Yn = yn , con el
modelo de regresión lineal sin intercepto es la siguiente:
L(β, σ 2 ) = f (y1 ) ... f (yn )
Y1 Yn
1 1 2 1 1 2
= √ e− 2 σ2 (y1 −θ X1) . . . √ e− 2 σ2 (yn −β Xn )
2π σ 2πσ
1 P
n
− (yj −β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e j=1
.
Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
Xj Y j
j=1 1 Pn
β̂ = Pn y σ̂ 2 = (Yj − β̂Xj )2 .
n j=1
Xi2
i=1
La función de verosimilitud, en el modelo de regresión lineal con intercepto, es la siguiente:
L(α, β, σ 2) = f (y1 ) ... f (yn )
Y1 Yn
1 1 2 1 1 2
= √ e− 2 σ2 (y1 −α−β X1 ) . . . √ e− 2 σ2 (yn −α−β Xn )
2π σ 2πσ
1 P
n
− (yj −α−β Xj )2
−n/2 2 −n/2 2 σ2
= (2 π) (σ ) e . j=1
Al maximizar esta función se obtiene la fórmula general para las estimaciones de los
parámetros y de aquı́ los estimadores siguientes:
P
n
(Xj − X̄)(Yj − Ȳ )
j=1 1 Pn
β̂ = P
n , α̂ = Ȳ − β̂ X̄ y σ̂ 2 = (Yj − α̂ − β̂Xj )2 .
n j=1
(Xi − X̄)2
i=1
70
Observación 2.17. En el modelo de regresión lineal, los estimadores obtenidos con el

método de los cuadrados mı́nimos coinciden con los obtenidos con el de máxima verosimilitud,
pero solo con este último se puede estimar la varianza de los errores. Para efectos de cálculos
son útiles las fórmulas siguientes:
P
n P
n P
n
Xj Y j − nX̄ Ȳ Yj2 − nȲ 2 − β̂ 2 Xj2 − nX̄ 2
j=1 j=1 j=1
β̂ = Pn y σ̂ 2 = .
n−2
Xj2 − nX̄ 2
j=1
Otra forma alternativa de expresar estos estimadores, conveniente para el estudio de sus
propiedades, es la dada en el ejercicio 1.69; es decir,
P
n xj − X̄
β̂ = bj Yj , con bj = P
n , j = 1, . . . , n;
j=1
(xi − X̄)2
i=1
P
n 1
α̂ = aj Yj , con aj = − bj X̄ , j = 1, . . . , n.
j=1 n
2.5. Distribuciones muestrales
Las distribuciones muestrales son distribuciones de algunas estadı́sticas (funciones de una

muestra aleatoria), que se usan en el muestreo. A continuación veremos algunas de estas.
2.5.1. La distribución normal y el muestreo para estimar a la media, µ, de una

variable aleatoria.
Uno de los resultados más importantes relacionados con esta distribución normal y el
muestreo para la estimación de la media, µ, de una variable es el siguiente:
Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,
σ2
X̄ ∼ N(µ; ).
n
Este resultado es una consecuencia inmediata de la propiedad de cerradura de la distribución

normal respecto a la suma de variables independientes. En general (sin importar cuál sea
la distribución de X), si el tamaño de muestra es grande; el resultado anterior es válido
aproximadamente (esto debido al teorema del lı́mite central); es decir:
aprox. σ2
X̄ ∼ N(µ; ).
n
71
2.5.2. La distribución ji-cuadrado y el muestreo para estimar a la varianza, σ 2 ,

de una variable aleatoria.
La distribución ji-cuadrado corresponde al caso particular de la distribución gamma con

α = ν/2 y β = 1/2, aquı́ ν ∈ N+ es el parámetro de la distribución y se llama grados de
libertad. Si la variable aleatoria X tiene esta distribución ji-cuadrado con grados de libertad
ν, lo denotamos por X ∼ χ2 (ν). Los valores esperados son: µX = ν y σX2 = 2ν.
La gráfica de esta densidad es con tendencia central y sesgada hacia la derecha.
Propiedades: la distribución ji-cuadrado tiene las propiedades siguientes:
1. Si Z ∼ N(0,1), entonces Z 2 ∼ χ2 (1).

2. Propiedad de cerradura respecto a la suma de variables independientes:
Si W1 , W2 , . . . , Wk son k variables aleatorias independientes con distribuciones ji-
cuadrado con grados de libertad ν1 , . . . , νk ; entonces,
k
X k
X
W = Wi ∼ χ2 ( νi ).
i=1 i=1
3. Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,

(n − 1)S 2
W = 2
∼ χ2 (n − 1).
σ
Esta propiedad es muy importante en la inferencia respecto de la varianza.
Ejercicio 2.2. Una técnica para llevar a cabo cierta tarea asegura que la distribución de los
tiempos que necesitan los operarios de una compañı́a, adiestrados con ella, sea normal. Para
estimar a σ 2 (la varianza de estos tiempos) se tomará una muestra de n = 17 y se usará S 2
(la varianza de la muestra) como estimación. Determine la probabilidad de que la estimación
resulte mayor que el doble del valor verdadero de la varianza σ 2 .
2.5.3. La distribución t de student y el muestreo para estimar a la media, µ,

de una variable aleatoria.
La distribución t de student corresponde a la función de densidad siguiente:

Γ( ν+1
2
)
f (x) = √ x2 ν+1
,
πν Γ( ν2 )(1 + ν
) 2
con ν > 0. Si la variable aleatoria X tiene esta densidad se dice que X tiene distribución
t de student con parámetro o grados de libertad ν. Esto lo denotamos por X ∼ t(ν). Los
ν
valores esperados son: µX = 0 y σX2 = ν−2 (ν > 2).
La gráfica de esta densidad es similar a la de la normal estándar, es decir, es simétrica

alrededor de cero, pero las áreas laterales decrecen hacia cero menos rápidamente. Esta
similitud aumenta con el valor de ν.
72
Propiedades: la distribución t tiene las propiedades siguientes:

1. Si los grados de libertad de la distribución t de student son grandes, esta se aproxima
a la distribución normal estándar; es decir, si X ∼ t(ν) y ν es grande, entonces
aprox.
X ∼ N(0,1).
2. Si Z ∼ N(0,1), W ∼ χ2 (ν) y estas variables son independientes; entonces10 ,
Z
T =r ∼ t(ν)
W
ν
3. Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces,

X̄ − µ
√ ∼ t(n − 1).
T =
S/ n
Esta propiedad es el resultado más importante para la inferencia de la media, µ, cuando
no se conoce la varianza.
2.5.4. La distribución F de Fisher y el muestreo para estimar la razón entre

dos varianzas, σ12 /σ22 , de dos variables aleatorias
La distribución F está caracterizada por la función de densidad siguiente:

ν1 ν1
ν1 +ν2
Γ( 2
)(ν1 /ν2 ) 2 x 2 −1
f (x) = ν ν ν1 +ν2 , x > 0.
Γ( 21 )Γ( 21 )(1 + (ν1 /ν2 )x) 2
Si la variable aleatoria X tiene esta distribución, denotaremos esto por X ∼ F (ν1 , ν2 ).

ν2 2ν22 (ν1 +ν2 −2)
Los valores esperados son: µX = ν2 −2
(ν2 > 2) y σX2 = ν1 (ν2 −2)2 (ν2 −4)
(ν2 > 4).
Propiedades: la distribución F tiene las propiedades siguientes:

1
1. Si X ∼ F (ν1 , ν2 ), entonces ∼ F (ν2 , ν1 ).
X
2. Si W1 ∼ χ2 (ν1 ) y W2 ∼ χ2 (ν2 ) son variables independientes; entonces11 ,
W1 /ν1
F = ∼ F (ν1 , ν2 ).
W2 /ν2
3. Sea X ∼ N(µ1 ; σ12 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable. Sea también
Y ∼ N(µ2 ; σ22 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e independiente
de la muestra anterior; entonces,
S12 / σ12
F = 2 2 ∼ F (n1 − 1,n2 − 1), (2.4)
S2 / σ2
con S12 y S22 las varianzas muestrales correspondientes.
Esta propiedad es el resultado más importante para la inferencia respecto de la razón
entre dos varianzas.
10
Véase el ejercicio propuesto 1.79.
11
Véase el ejercicio 1.80.
73
Ejercicio 2.1. Dada una muestra aleatoria de la variable X (con media µ y varianza σ 2 ),
digamos X1 , . . . , Xn , use las propiedades de esperanza, varianza y covarianza necesarias para
demostrar los resultados siguientes:
a) E(Xj − X̄) = 0, para j = 1, . . . , n.
b) Cov(Xj , X̄) = σ 2 /n, para j = 1, . . . , n.
c) V (Xj − X̄) = (n − 1) σ 2/n, para j = 1, . . . , n.
d) E(Xj − X̄)2 = (n − 1) σ 2/n, para j = 1, . . . , n.

P
n
e) E( (Xj − X̄)2 ) = (n − 1)σ 2 .
j=1
f) E(S 2 ) = σ 2 .
Ejercicio 2.2. Sea X una variable aleatoria con E(X) = µ y varianza σ 2 . Sea X1 , . . . , Xn
una muestra aleatoria de X.
P
n
a) ¿Son Xi y Xj independientes? Justifique.
j6=i
1 1
P
n
b) Halle cov(Xi , X̄), con i = 1, . . . , n. Obsérvese que X̄ = n
Xi + n
Xj .
j6=i
c) Use los resultados de las partes anteriores para hallar cov(Xi − X̄, X̄), con i = 1, . . . , n.
Ejercicio 2.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, que tiene
media µ, varianza σ 2 y momento m4 finito. Demuestre que la varianza de S 2 está dada como
en la tabla de la observación 2.712 .
P
n P
n P
n 2
Sugerencia. Verifique que (Xi − Xj )2 = 2n( Xj2 − n X ) y use el ejercicio 1.60.
i=1 j=1 j=1
Ejercicio 2.4. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con

momentos mk . Obtenga los valores siguientes en términos de µ, σ 2 y momentos poblacionales:
a) Cov(Xjk , X̄), ∀k ∈ N+, para j = 1, . . . , n.

b) Cov(Xjk , Xim X̄), ∀k, m ∈ N+ , para i 6= j.
c) V (Xj X̄), ∀j, para j = 1, . . . , n.
Ejercicio 2.5. Sea θ̂ un estimador de θ. Demuestre que el error cuadrático medio de θ̂,
E(θ̂ − θ)2 , es igual a V (θ̂) + [ E(θ̂ − θ) ]2 .
12
Como fue mencionado antes, esta forma de expresar la varianza de S 2 se encuentra en Casella (2002),
ejercicio 5.8, pág. 257
74
Ejercicio 2.6. Si X ∼ U(0; θ). Determine cuál de los estimadores siguientes de θ tiene un
menor error cuadrático medio: X̄ ó 2X̄.
Ejercicio 2.7. Sea θ̂ tal que E(θ̂) = 3 θ y V (θ̂) = 16 θ2 /n, con n el tamaño de la muestra.
a) Halle E(θ̂ −θ)2 , el error cuadrático medio de θ̂. Sugerencia: desarrolle el cuadrado antes
de aplicar el valor esperado.
b) Halle c tal que θ̂1 = c θ̂ sea un estimador insesgado.
c) Estudie cuál de los dos estimadores dados tiene un menor error cuadrático medio.
Ejercicio 2.8. Sea X ∼ N(µ, σ 2 ), ambos parámetros son desconocidos. Para estimar a µ (la
media de la población) se planifica tomar una muestra aleatoria de X, digamos X1 , . . . , Xn .
Como estimador se considerará a X̄ (la media de la muestra).
a) Uno de los argumentos usados para escoger tal estimador fue el siguiente: “en promedio,
el valor de este coincidirá con el valor del parámetro”. ¿Es válido este argumento?
b) Uno de los objetivos que se desea lograr es que el error de estimación no supere la
mitad de σ (la desviación estándar de la población). Determine el tamaño de muestra
que se debe elegir, de modo que la probabilidad de lograr el objetivo anterior sea, por
lo menos, 0,95. Recuerde que X ∼ N(µ, σ 2 ) ⇒ X̄ ∼ N(µ, σ 2 /n).
2
P
n
c) Verifique si el estimador µ̂2 = n(n+1)
j Xj también satisface el argumento
j=1
mencionado en la parte a. ¿Cuál de estos estimadores propuestos es preferible?
Ejercicio 2.9. En el ejemplo 2.3 suponga que la distribución de los tiempos que necesitan
los operarios de una compañı́a, adiestrados con ella, sea normal. Para hacer inferencias sobre
la media y la varianza de estos tiempos se dispondrá de una muestra aleatoria de tamaño n.
2
P
n
a) Compare el estimador usual de la media con el estimador µ̂2 = n(n+1)
j Xj .
j=1
b) ¿Es µ̂2 un estimador consistente de la media?
c) Si n = 17, determine la probabilidad de que el estimador usual de la varianza no exceda

al doble del valor de esta.
Ejercicio 2.10. Sea X una variable aleatoria con E(X m ) = θm/2 Γ(1 + m2 ), ∀m ∈ N+ . Como
2
estimadores de θ se consideran a θ̂1 = c1 X , θ̂2 = c2 S 2 y θ̂3 = c3 X 2 , donde las constantes
c1 , c2 y c3 son tales que los estimadores resultan insesgados.
a) Determine los valores de las constantes c1 , c2 y c3 . (1 punto)
b) Estudie la consistencia (fuerte) de estos estimadores. (1,5 puntos)
c) Determine, de ser posible, cuál de estos estimadores es el más eficiente. (1,5 puntos)
75

distribución exp(β), con β > 0 (desconocido). Considérese el parámetro θ = 1/β 2 y sus
estimadores siguientes:
n
1 X 2 2
θ̂1 = Xj y θ̂2 = X .
2n j=1
a) Verifique que θ̂1 es un estimador insesgado.
b) Verifique que θ̂2 es un estimador sesgado, pero asintóticamente insesgado.

P
n
c) Demuestre que T = Xj ∼ G(n, β).
j=1
Recuerde que si las variables son independientes M (t) = M (t) . . . M (t).

T X1 Xn
d) Estudie cuál de los estimadores anteriores es más preciso, en general.
e) Estudie la consistencia fuerte de los estimadores dados.
f) Demuestre que los estimadores siguientes de β son consistentes (fuertemente):

r
1 n+1 2
β̂1 = , β̂2 = y β̂3 = ,
X̄ nX̄ M2
P
N+.
n
1 k!
con M2 = n
Xj2 . Recuérdese que, para este modelo, mk = E(X k ) = βk
, ∀k ∈
j=1
Ejercicio 2.12. Sea X1 , . . . , Xn una muestra aleatoria de una variable X, con función de
x + 1 −x/θ
distribución de probabilidades f (x) = e , x > 0.
θ(θ + 1)
a) Encuentre el estimador de máxima verosimilitud de θ y su distribución asintótica.
b) Encuentre el estimador de momentos de θ y estudie su consistencia.
Ejercicio 2.13. Sean X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X, con

distribución binomial b(m, p) con m conocido y p por estimar. Considere los estimadores de
X̄ X1 + X2 X1
p siguientes: p̂1 = , p̂2 = X̄ , p̂3 = y p̂4 = .
m 2m m
a) Determine cuáles de los estimadores son insesgados y, entre estos, el más eficiente.
b) Si n = 10 y m = 1, determine la probabilidad de que p̂1 produzca un error de estimación

de 0,1, como máximo, cuando p = 0,8.
c) Si n es suficientemente grande, determine la distribución aproximada del estimador p̂1 .
d) Considerando como estimador a p̂1 , halle, si existe, el tamaño de muestra n

suficientemente grande que, con una probabilidad de por lo menos 0,95, produzca
un error de estimación de 0,1, como máximo.
76
Ejercicio 2.14. Sea X1 , . . . , Xn una muestra aleatoria de una distribución de Poisson con
parámetro λ. Determine cuáles de los estimadores de λ siguientes son insesgados y, entre
estos, el más eficiente: λb1 = X̄, λb2 = nX̄, λb3 = X1 +X
2
2
y λb4 = Xn1 .
Ejercicio 2.15. Sea X1 , . . . , Xn una muestra aleatoria de una distribución exponencial con
media θ. Considere los estimadores de θ siguientes: θ̂1 = X̄, θ̂2 = X1 y θ̂3 = X1 +X
2
2
.
a) ¿Son estos estimadores insesgados?
b) ¿Cuál de estos estimadores es más eficiente?
Ejercicio 2.16. Un economista que labora en una AFP supone que el tiempo, X, que
permanecen empleados sus afiliados sigue el modelo probabilı́stico Weibull (2; β): f (x) =
X
2
2 β x e−β x , x > 0, con x medido en años y β un parámetro para estimar.
Γ( k2 + 1)
a) Halle el lı́mite casi seguro de M2 . Para este modelo E(X k ) = k , ∀k ∈ N.
β2
b) ¿Es β̂ = 1/M2 un estimador consistente fuertemente?
c) Sea p la probabilidad de que un cliente permanezca afiliado más de un año. Averigüe
si p̂ = e−β̂ es un estimador consistente de p, con β̂ como en la parte anterior.
2
Obsérvese que p = P (X > 1) = e−β , pues, FX (x) = 1 − e−β x , x > 0.
d) Deducir los estimadores que proporcionan los métodos de máxima verosimilitud y de
los momentos. Estudie si son consistentes.
e) Determine la información de Fisher para este modelo
f) Si β̂mv es el estimador obtenido por el método de máxima verosimilitud,
√
use el resultado
n (β̂mv −β) D
anterior para verificar el resultado asintótico siguiente: β
→ N(0, 1).
g) Se tomará una muestra de tamaño n = 36. Use el resultado anterior para hallar el
valor de c tal que P ( β̂1+c
mv
≤ β ≤ β̂1−c
mv
) ≈ 0,95.
h) Tomada la muestra mencionada en la parte anterior, se obtuvieron los valores
siguientes:
31,02 14,57 42,6 67,73 65,72 79,76 5,4 32,35 63,08 17,27 23,71 9,65
8,11 18,94 22,27 5,87 25,9 28,99 40,17 29,74 30,49 29,65 69,45 35,42
33,33 26,92 86,23 57,33 97,34 24,33 77,85 10,48 49,41 58,24 84,78 35,44
Halle βmv la estimación de máxima verosimilitud, de β, correspondiente; luego, a partir
del resultado obtenido en la parte anterior, obtenga un intervalo tal que β se encuentre
en este, con una confianza del 95 % (aproximadamente).
i) Use la estimación anterior para estimar el tiempo promedio que permanecen empleados
los afiliados.
j) Estudie si los estimadores de β siguientes son consistentes fuertemente:
4−π π 4 − π + nπ
β̂2 = 2
, β̂3 = 2 y β̂4 = 2 .
4S 4X 4n X
77

distribución B(α; 2), con α (desconocido). Considérese α̂ = 2X̄/(1 − X̄). Averigüe si α̂
es un estimador consistente.
Γ( k2 + 1)
Ejercicio 2.18. Sea X tal que mk = k , ∀k ∈ N+. Estudie la consistencia del
k 2/k θ 2
Γ( 2 + 1)
estimador de θ : θ̂ = Mk
.

distribución exp(β), con β > 0 (desconocido). Considérese θ = 1/β 2 y los estimadores
1 Pn n 2
de θ siguientes: θ̂1 = Xj2 y θ̂2 = X̄ .
2n j=1 n+1
a) Verifique que θ̂1 es un estimador consistente fuertemente.
b) Halle el lı́mite casi seguro de X̄.
c) Determine si θ̂2 también es consistente.
d) Demuestre que el estimador de máxima verosimilitud de β es consistente.

X̄
Ejercicio 2.20. Sea X ∼ G(α; β) y considere β̂ = M2 −X̄ 2
.
a) Halle el lı́mite casi seguro de X̄.
b) Halle el lı́mite casi seguro de M2 .
c) ¿Es β̂ un estimador consistente fuertemente?
Ejercicio 2.21. Sea X ∼ G(2; β).
a) Halle los estimadores de β por máxima verosimilitud y momentos. Compárelos.
b) Halle el lı́mite casi seguro de X̄.
c) Demuestre que los estimadores hallados anteriormente son consistentes.
Ejercicio 2.22. Sea X ∼ P ascal(2; p), estime el estimador de p por máxima verosimilitud,
estudie su consistencia y compárelo con el que proporciona el método de los momentos.
Ejercicio 2.23. La rentabilidad diaria de una acción es una variable aleatoria X, con
distribución N(0, σ 2 ). Se tomará una muestra aleatoria de n observaciones de X.
a) Si n = 25, halle el valor de c, para que, con una probabilidad de 0,95, el coeficiente de
variación muestral | S/X̄ | sea mayor que c.
b) Estudie insesgamiento, eficiencia y consistencia para los estimadores siguientes de σ 2 :

P
n
σ̂12 = S 2 , σ̂22 = n1 Xj2 y σ̂32 = nX̄ 2 .
j=1
c) Si n = 20, halle c tal que P (σˆ2 > cσ 2 ) = 0,05.

d) Si n = 20, halle dos valores positivos, c1 y c2 , tales que P (c1 σˆ2 ≤ σ 2 ≤ c2 σˆ2 ) = 0,95.
78
Ejercicio 2.24. El ingreso en el sector A es una variable aleatoria X ∼ N(µ, σ 2 ). Para

estimar σ 2 se tomará una muestra aleatoria de tamaño n = 20 de este sector y se
considerará como estimador a la varianza de la muestra S 2 . Determine P ( 21 S 2 ≤ σ 2 ≤ 2S 2 ).
Ejercicio 2.25. Sean X1 , . . . ,Xn , una muestra aleatoria de X ∼ N(µ, σ 2 ), S, la desviación

2
estándar muestral, y W = (n−1)S
σ 2 .
√
a) Halle E( W ). Recuerde que W ∼ χ2 (n − 1) = G( n−1 2
, 12 ).
b) Halle el valor esperado de S y verifique que es un estimador asintóticamente insesgado
σ
√
para σ. Note que S = √n−1 W.
Ejercicio 2.26. El número de clientes hasta el primero que compra cierto producto
se considera una variable aleatoria X con distribución geométrica cuyo parámetro p
será estimado a partir de una muestra aleatoria. Es decir, f (x) = (1 − p)x−1 p, x = 1, 2, . . . .
X
a) Halle, justificando debidamente, el lı́mite casi seguro de X̄.

1
b) Demuestre que p̂ = es un estimador consistente fuertemente.
X̄
c) Sea θ = P (X > 2). Averigüe si θ̂ = ( X̄−1
X̄
)2 es un estimador consistente (fuertemente).

distribución exp(β), con β > 0 (desconocido). Considérese como parámetro para estimar
a θ = 1/β y los estimadores siguientes: θ̂1 = X̄ y θ̂2 = nX(1) (recuerde que X(1) =
min{ X1 , . . . , Xn } ).
a) Demuestre que X(1) ∼ exp(nβ). Use el ejercicio 1.47.
b) Verifique si estos estimadores son insesgados y determine el más eficiente.
c) Estudie la consistencia de θ̂2 .
Ejercicio 2.28. En una fábrica se produce una gran cantidad de componentes electrónicos,
cada uno de estos puede estar defectuoso con una probabilidad igual a p, e independiente-
mente de los demás. En un control de la calidad, cada dı́a se toma una muestra aleatoria
de 30 componentes. Sea X el número de componentes, en la muestra de un dı́a, que están
defectuosos.
a) A partir de una muestra aleatoria, X1 , . . . , Xn , de la variable X, halle el estimador
del parámetro p, de la distribución de X, que se obtiene con el método de máxima
verosimilitud.
b) Halle el valor esperado del estimador de p hallado anteriormente. ¿Es este estimador
insesgado? ¿Cuál es su desviación estándar?
c) En una semana se obtuvieron los datos siguientes:
Dı́a 1 2 3 4 5 6 7
Número de componentes defectuosos 1 2 2 1 3 0 1
Calcule la estimación de p que proporciona el método de máxima verosimilitud.
79
Ejercicio 2.29. Para el ingreso mensual, X (en miles de soles), en cierto sector, se propone
el modelo probabilı́stico beta siguiente: f (x) = α xα−1 , 0 < x ≤ 1, con α > 0 un parámetro
X
por estimar a partir de una muestra aleatoria de tamaño n de X.
a) Demuestre que X̄ es un estimador consistente del ingreso promedio.
b) Halle los estimadores de α por los métodos de momentos y de máxima verosimilitud.
c) Determine si el estimador hallado en la parte anterior es consistente (fuertemente).
d) Use la propiedad de invarianza para estimar p: la proporción de comerciantes con

ingresos mayores que 0,675 miles de soles. Note que p = P (X > 0,675).
e) Si n = 36 y α̂mv es el estimador de máxima verosimilitud de α, determine,

α̂mv α̂mv
aproximadamente, P ( 1,196 ≤ α ≤ 0,804 ). Use la distribución asintótica dada en (2.1).
Ejercicio 2.30. El ingreso en cierto sector se considera una variable aleatoria X con
distribución gamma con parámetros α = 4 y β por estimar a partir de una muestra aleatoria.
Es decir, f (x) = 16 x3 β 4 e−β x , x > 0.
X
a) Encuentre β̂mv : el estimador de β por el método de máxima verosimilitud.
b) Halle el lı́mite casi seguro de β̂mv . ¿Es β̂mv consistente (fuertemente)?
1
∂ 2 −1
c) Halle la varianza aproximada de β̂mv : n
E ( ln( f (X; β) ) .
∂β X
Ejercicio 2.31. En cierto sector, el salario es una variable aleatoria continua X ∼ exp(β).
Sea p la proporción de asalariados que ganan más del salario mı́nimo, 675 soles, es decir,
p = P (X > 675). Se tomará una muestra aleatoria de n asalariados de la región y
se registrarán sus salarios: X1 , . . . ,Xn . Use la propiedad de invarianza para encontrar el
estimador de p. Tenga en cuenta que p = 1 − FX(675) = e−675β y que, por el ejemplo 2.22, el
estimador de máxima verosimilitud de β es β̂mv = X̄1 .
Ejercicio 2.32. En el ejercicio 2.31, suponga que en lugar de registrar el salario X solo se
registrará si este mayor que el salario mı́nimo, con el valor 1, o si no lo es, con el valor 0. Es
decir, se registrará una muestra aleatoria, Y1 , . . . ,Yn , de la variable Y = 1 (X).
]675, ∞[
a) Demuestre que fY (1) = p y fY (0) = 1 − p. Por lo tanto, fY (y) = p y (1 − p)1−y , y = 0, 1.

b) Demuestre que la función de verosimilitud de p, asociada a la muestra observada
P
n P
n
yj n− yj
Y1 = y1 , . . . ,Yn = yn , está dada por L(p) = p j=1
(1 − p) j=1
.
c) Determine el estimador de máxima verosimilitud de p.
d) ¿El estimador anterior es insesgado?, ¿fuertemente consistente? ¿cuál es su varianza?
e) Determine el estimador de p que se obtiene por el método de los momentos.
80
Ejercicio 2.33. Sean θ̂1 , . . . , θ̂n estimadores insesgados del parámetro θ, igualmente
eficientes y no-correlacionados. Considere la familia de estimadores de θ que son
R
combinaciones lineales de estos estimadores: { a1 θ̂1 + · · · + an θ̂n : a1 ∈ , . . . ,an ∈ }. R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer
a1 , . . . , an para que los estimadores de esta familia sean insesgados.
b) Halle una expresión simplificada para g(a1 , . . . , an ) = V (a1 θ̂1 + · · · + an θ̂n ).
c) Use las partes anteriores para encontrar el estimador, de esta familia, que tenga la
menor varianza y sea insesgado.
Ejercicio 2.34. Sean X ∼ N(µ1 ; σ12 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ22 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior.
a) Halle la distribución de X̄, de Ȳ y de X̄ − Ȳ .

(n1 −1)S 2 (n2 −1)S 2
b) Halle la distribución de U1 = σ12
X
y de U2 = σ22
Y
(n1 + n2 − 2)Sp2 2 (n1 − 1)S12 + (n2 − 1)S22

c) Si σ1 = σ2 = σ, y U = , con S p = , halle la
σ2 n1 + n2 − 2
distribución de U.
d) Si σ1 = σ2 , se define la variable T mediante
X̄ − Ȳ − (µ1 − µ2 )
T = q . (2.5)
Sp n1 + n1
1 2
Demuestre que T ∼ t(n1 + n2 − 2)
Ejercicio 2.35. En el ejercicio 2.34, considere σ12 = σ22 = σ 2 . Sea la familia de estimadores
de σ 2 que son combinaciones lineales de SX2 y SY2 : { aSX2 + bSY2 : a ∈ , b ∈ }. R R
a) Encuentre una condición simplificada, suficiente y necesaria, que deben satisfacer a y
b para que los estimadores de esta familia sean insesgados.
b) Halle una expresión simplificada para g(a,b) = V (aSX2 + bSY2 ).
c) Encuentre el estimador insesgado de esta familia que tenga la menor varianza.
Ejercicio 2.36. El ingreso en el sector A es una variable aleatoria X ∼ N(µ1 , σ12 ) y en

sector B, Y ∼ N(µ2 , σ12 ). Para estudiar las varianzas se tomará una muestra aleatoria de
cada sector, de tamaños iguales a 20 y de modo que resulten independientes.
a) Uno de los objetivos es que P ( 21 SX2 ≤ σ12 ≤ 2SX2 ) = P ( 12 SY2 ≤ σ22 ≤ 2SY2 ) ≈ 0,95. ¿Esto
se logra? Note que 12 SX2 ≤ σ12 ≤ 2SX2 ⇔ 21 σ12 ≤ SX2 ≤ 2σ12 .
S2 σ2

b) Halle d tal que P SX2 > d σ12 = 0,05.
Y 2
SX2 σ12 S2
c) Halle dos constantes positivas, d1 y d2 tales que P d1 2 ≤ σ2 ≤ d2 S 2 X
= 0,95.
SY 2 Y
81
Ejercicio 2.37. Las distribuciones de los salarios, X e Y, de dos sectores sindicalizados son
normales, con medias µ1 y µ2 y varianzas σ12 y σ22 , respectivamente. Para realizar inferencias
sobre la diferencia de estas medias: θ = µ1 − µ2 se tomarán dos muestras de tamaños n1 y
n2 , una de cada sector. Se considera como estimador de θ a θ̂ = X̄ − Ȳ .
a) Demuestre que θ̂ es un estimador insesgado.

b) Halle la distribución de X̄ y de Ȳ .
c) Halle la distribución de θ̂.
d) Suponga que σ1 = σ2 = σ y n1 = n2 = 50. Halle, aproximadamente, la probabilidad
de que el error de estimación no exceda a 0,4σ.
e) Suponga que σ1 = σ2 = σ y n1 = n2 = n. Halle n de modo que la probabilidad de que
el error de estimación no exceda a 0,4σ sea, aproximadamente 0,95.
f) Suponga que θ = µ1 = µ2 y considere los estimadores X̄, Ȳ y n1nX̄+n 2 Ȳ
1 +n2
, verifique que
son insesgados y determine cuál es más eficiente, si σ1 = σ2 y n1 = n2 .
Ejercicio 2.38. Dado el parámetro θ, sean θ̂1 y θ̂2 dos estimadores independientes,
insesgados e igualmente eficientes, basados en muestras del mismo tamaño. Se define un
tercer estimador, θ̂, de la manera siguiente: θ̂ = x θ̂1 + (1 − x) θ̂2 , 0 < x < 1.
a) Demuestre que este nuevo estimador de θ también es insesgado.

b) Halle x, de modo que la varianza de este nuevo estimador sea mı́nima.
c) Aplique el resultado anterior para resolver la parte f del ejercicio 2.37.
d) Suponga que θ̂1 y θ̂2 sean consistentes y demuestre que θ̂ también lo es.
Ejercicio 2.39. Sean ǫ1 , . . . , ǫn , variables aleatorias con media cero, varianza σ 2 y

cov(ǫi , ǫj ) = 0, i 6= j. Sean β, un parámetro para estimar, y x1 , . . . , xn constantes conocidas.
Considere el modelo de regresión: Yj = βxj + ǫj , j = 1, . . . , n. Halle el mejor estimador de
β que sea insesgado y función lineal de las variables Yj .
Use el método de los multiplicadores de Lagrange; para esto observe que una condición
P
n P
n
necesaria y suficiente para que cj Yj sea un estimador insesgado de β es que cj xj = 1.
j=1 j=1
Ejercicio 2.40. Sean ǫ1 , . . . , ǫn , variables aleatorias con media cero, varianza σ 2 y

cov(ǫi , ǫj ) = 0, i 6= j. Sean α y β, parámetro para estimar, y x1 , . . . , xn constantes conocidas.
Considere el modelo de regresión Yj = α + βxj + ǫj , j = 1, . . . , n.
a) Halle el mejor estimador de β que sea insesgado y función lineal de las variables Yj .
Use el método de los multiplicadores de Lagrange; para esto observe que
n
X n
X n
X
E( cj Yj ) = β, ∀β ⇔ cj = 0 y cj xj = 1.
j=1 j=1 j=1
b) Halle el mejor estimador de α que sea insesgado y función lineal de las variables Yj .
82
Ejercicio 2.41. En el modelo de regresión lineal simple con intercepto, considere además
que los errores tengan distribución normal.
a) Justifique por qué Yj ∼ N(α + β xj ; σ 2 ), j = 1, . . . ,n.
b) Muestre que β̂ y α̂ tienen distribución normal y halle sus parámetros.

P
n 1
c) Sea Ŷj = α̂ + β̂ xj . Muestre que Ŷj = ci Yi , con ci = + bi (xj − X̄) , i = 1, . . . , n.
i=1 n
d) Muestre que E(Ŷj ) = α + β xj = E(Yj ) y V (Ŷj ) = [ n1 + bj (xj − X̄) ] σ 2 .

1
f) Muestre que Cov(Yj , Ŷj ) = n
+ bj (xj − X̄)σ 2 = V (Ŷj ).
e) Determine la distribución de Ŷj y compárela con la de Yj , j = 1, . . . , n.

P
n
f) Muestre que E (Yj − Ŷj )2 = (n − 2)σ 2 . Use E(X 2 ) = V (X) + E 2 (X).
j=1
1 P n
g) Demuestre que σ̂ 2 = (Yj − α̂ − β̂xj )2 es un estimador insesgado de σ 2 .
n − 2 j=1
h) Halle la distribución de Yj − Ŷj , j = 1, . . . ,n.
Ejercicio 2.42. En el estudio respecto a la relación entre el consumo del bien A, Y, y el precio
del bien B, X, se considera el modelo de regresión lineal siguiente: Yj = θ xj +ǫj , j = 1, . . . , 5,
donde x1 , . . . , x5 son los valores del precio de B fijados en el estudio, mientras que ǫ1 , . . . , ǫ5 ,
son variables aleatorias independientes y cada una con distribución N(0; σ 2 ). La inferencia
estadı́stica se hará a partir de los resultados de una muestra aleatoria (de consumos de A):
Y1 , . . . , Y5, asociada a los valores fijados para el precio de B, x1 , . . . , x5 , respectivamente.
Determine la función de verosimilitud asociada a los valores de la muestra registrada
Y1 = y1 , Y2 = y2 , Y3 = y3 , Y4 = y4 , Y5 = y5 . Luego, deduzca las estimaciones y los estimadores
de máxima verosimilitud.
Observe que L(θ,σ 2 ) = f (y1 , . . . , y5) = f (y1 ) . . . f (y5 ) y determine el modelo probabilı́stico
Y1 , . . . , Y5 Y1 Y5
de Yj , para j = 1, . . . , 5.
Ejercicio 2.43. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX y lı́m n
= µX 2 . Demuestre que β̂ es consistente (fuertemente).
n→∞ n→∞
Ejercicio 2.44. En el modelo de regresión lineal simple sin intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ es consistente débilmente.
n→∞ j=1 n→∞ j=1
Ejercicio 2.45. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n P
n
xj x2j
j=1 j=1
lı́m n
= µX , y lı́m n
= µX 2 . Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ n→∞
83
Ejercicio 2.46. En el modelo de regresión lineal simple con intercepto, suponga además que
P
n Pn
lı́m xj = ∞ y lı́m x2j = ∞. Demuestre que β̂ y α̂ son consistentes (fuertemente).
n→∞ j=1 n→∞ j=1
Ejercicio 2.47. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
idénticamente distribuidas, E(X1 ) = µ, V (X1 ) = σ 2 y m4 = E(X 4 ). Para cada n ∈ N+ ,
P
n
Xj
j=1 2
sea X̄ = n
y S12 = X 2 − X .
σ
a) Demuestre que lı́m = 1, c.s.
n→∞ S1
√
n ( X̄−µ ) D
b) Demuestre que S1
→ Z, donde Z ∼ N(0, 1).
√ √
n ( X̄−µ ) σ n( X̄−µ )
Observe que S1
= S1 σ
y use el Teorema de Slutsky (observación 2.12 d).
√
n(X 2 − (µ2 +σ2 ) ) D
c) Demuestre que √ → Z, donde Z ∼ N(0, 1).
m4 −(µ2 +σ2 )2
√ 2
n ( X − µ2 ) D
d) Demuestre que σ
→ Y , donde Y ∼ N(0, 4µ2 ) Use la propiedad e de la
observación 2.12.
Ejercicio 2.48. Sea (Xn )n∈N+ una secuencia de variables aleatorias independientes e
P
n
idénticamente distribuidas. Sea p = P (X1 ∈ A) y p̄n = n1 1A (Xj ), ∀n ∈ N+ .
j=1
a) Demuestre que (1A (Xj ))n∈N+ es una secuencia de variables aleatorias independientes e
idénticamente distribuidas. Halle E(1A (X1 )) y V (1A (X1 )).
b) Demuestre que lı́m p̄n = p, c.s. Use la Ley Fuerte de los Grandes Números.
n→∞
√
p̄n (1−p̄n )
c) Demuestre que lı́m √
p̄n −p
= 1, c.s.
n→∞
√
D
d) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1). Use el Teorema del Lı́mite Central.
p(1−p)
√
D
e) Demuestre que √n( p̄n −p ) → Z, donde Z ∼ N(0, 1).
p̄n (1−p̄n )
√ √ √
n( p̄n −p ) p̄n (1−p̄n )
Observe que √ = √ p̄n −p √n( p̄n −p ) y use el Teorema de Slutsky (observación
p̄n (1−p̄n ) p(1−p)
2.12 d).
84
3. Estimación por intervalo
3.1. Intervalos de Confianza
Definición 3.1. Sean X1 , . . . , Xn , una muestra aleatoria de X, L1 = L1 (X1 , . . . Xn ) y

L2 = L2 (X1 , . . . , Xn ), dos estadı́sticas de esta muestra, y 0 < γ < 1. Se dice que [L1 ; L2 ] es
un intervalo de confianza, de nivel 100 γ %, para estimar al parámetro θ, si
P (L1 ≤ θ ≤ L2 ) = γ .
Ejemplo 3.1. Si X ∼ N(µ, 102 ) representa el tiempo (en minutos) para llevar a cabo cierta
tarea; entonces, para una muestra aleatoria de tamaño n = 36 :
√
36(X̄ − µ)
Z= ∼ N(0; 1).
10
De aquı́ se obtiene
P (X̄ − 5 ≤ µ ≤ X̄ + 5) = P (−5 ≤ X̄ − µ ≤ 5) = P (−3 ≤ Z ≤ 3) = FZ (3) − FZ (−3) = 0,99.
Por lo tanto, [X̄ − 5; X̄ + 5] es un intervalo de confianza de nivel 99 %, para estimar a µ.
Observación 3.1. La probabilidad γ, en la definición anterior, es válida antes de tomar

la muestra. Tomada la muestra, L1 y L2 asumen valores particulares, digamos L1 = l1 y
L2 = l2 . No es cierto que P (l1 ≤ θ ≤ l2 ) = γ, pues l1 , l2 y θ son constantes (recuerde que,
según nuestro enfoque, el parámetro θ es una constante desconocida); ası́ P (l1 ≤ θ ≤ l2 ) solo
puede ser cero, si el valor del parámetro θ no está en dicho intervalo, o bien igual a uno, si
el valor del parámetro θ sı́ se encuentra en dicho intervalo. Sin embargo, podemos decir, con
un grado de confianza del 100 γ %, que l1 ≤ θ ≤ l2 .
Ejemplo 3.2. Tomada la muestra aleatoria de tamaño 36, en el ejemplo anterior, resultó X̄
= 49,7 min. Asumiendo que σ = 10 minutos, podemos inferir, con una conf ianza del 99 %,
que el tiempo promedio necesario para llevar a cabo la tarea, µ, está entre 44,7 y 54,7 minutos.
Dicho de otro modo, estimamos el tiempo promedio en 49,7 minutos, con un margen de error
de 5 minutos, esto se puede inferir con una confianza del 99 %.
Observación 3.2. Un intervalo de confianza debe tener un alto nivel de credibilidad y un

margen de error esperado pequeño, en general, no se puede optimizar al mismo tiempo ambos
requisitos. Por esta razón, se fija el nivel de confianza en el valor usual 95 % ( o 99 %) y se
construye el intervalo que, con este nivel, tenga la menor longitud esperada.
85
3.2. Metodologı́a (método de la variable base )
Sea X ∼ fX (x; θ) y sea (X1 , . . . , Xn ) una muestra aleatoria de X. Para construir un

Intervalo del 100(1 − α) % de confianza para estimar a θ, se realizan los pasos siguientes:
i) Determinar una variable base W = W (X1 , . . . , Xn ; θ), es decir, una función de la

muestra y del parámetro θ, pero cuya distribución fW no dependa de θ.
α α
ii) Encontrar los valores a y b, tales que FW (a) = y FW (b) = 1 − . Por lo tanto,
2 2
P (a ≤ W ≤ b) = 1 − α.
iii) Hallar L1 y L2 , tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . De este modo P (L1 ≤ θ ≤ L2 ) =

1 − α. Por lo tanto, un intervalo del 100(1 − α) % de confianza para estimar a θ es
[ L1 (X1 , . . . , Xn ), L2 (X1 , . . . , Xn ) ],
3.3. Intervalo de confianza para la media µ cuando σ 2 es conocido
Sean X ∼ N(µ; σ 2 ), con σ 2 conocido, y X1 , . . . , Xn una muestra aleatoria de esta

variable. Un intervalo del 100(1 − α) % de confianza para estimar a µ es el siguiente:

σ σ
X̄ − z1− α √ ; X̄ + z1− α √ , (3.1)
2 n 2 n
con z1− α el percentil 100(1 − α2 ) de la distribución normal estándar. Este intervalo se puede
2
X̄−µ
deducir a partir de la variable base Z = √
σ/ n
∼ N(0; 1).
Observación 3.3. En general, sin importar cuál sea la distribución de X, pero que el tamaño
de muestra sea grande, el resultado anterior es aproximado, pues, en este caso la distribución
normal de Z es solo una aproximación, válida por el teorema del lı́mite central.
Ejemplo 3.3. En el contexto del ejemplo 1, en el que X ∼ N(µ, 102 ) representa el tiempo
(en minutos) para llevar a cabo cierta tarea, si al tomar la muestra aleatoria de tamaño 36,
se obtuvo una media de 49,7 minutos para llevar a cabo la tarea; entonces, de (3.1) se obtiene
el intervalo del 95 % de confianza para estimar a µ siguiente:
10 10
[ 49,7 − 1,96( √ ) ; 49,7 + 1,96( √ ) ] = [ 46,43; 52,97 ].
36 36
Ası́, según los resultados de esta muestra se infiere, con un grado de confianza del 95 %, que
el tiempo promedio, µ, para llevar a cabo la tarea está entre 46,43 y 52,97 minutos.
86
José Flores Delgado Intervalos de confianza 87
3.4. Intervalo de confianza para la media µ cuando σ 2 es

desconocido
Si X ∼ N(µ; σ 2 ), con σ 2 desconocido, y X1 , . . . , Xn es una muestra aleatoria de X;

entonces, un intervalo del 100(1 − α) % de confianza para estimar a µ está dado por

S S
X̄ − t1− α √ ; X̄ + t1− α √ , (3.2)
2 n 2 n
con t1− α el percentil 100(1 − α2 ) de la distribución t de student con n − 1 grados de libertad.
2
Ejemplo 3.4. Suponga que X ∼ N(µ, σ 2 ) representa al salario quincenal (en soles) de los
trabajadores de construcción civil. Con fines de estimar la media y la desviación estándar,
de los salarios en este sector, fue registrada la muestra aleatoria siguiente:
1349,9 861,2 1622,1 2138,2 2099,2 2366,6 408,2 1382,9 2047,5 956,6
1154,9 654,8 576,5 1011,2 1113,2 441 1216 1298 1567,4 1317,3
1336,5 1314,9 2171,3 1457,4 1406,9 1243,4 2486,1 1932,8 2687,8 1172,5
De esta muestra X̄ = 1426,41 y S = 593,72. De una tabla t de student con 29 grados de

libertad se obtiene t1− α = t0,975 = 2,0452. Por lo tanto, a partir de (3.2) y los resultados de
2
esta muestra podemos inferir, con una confianza del 95 %, que la media de los salarios de los
trabajadores de construcción civil está entre 1204,71 y 1648,11 soles.
3.5. Intervalo de confianza para la varianza σ 2 de una población

normal
Si X ∼ N(µ; σ 2 ) y X1 , . . . , Xn es una muestra aleatoria de esta variable; entonces, un

intervalo del 100(1 − α) % de confianza para estimar a σ 2 está dado por
" #
(n − 1)S 2 (n − 1)S 2
; , (3.3)
χ21− α χ2α
2 2
α
2
con χ1− α y χ2α los percentiles 100(1 − 2
) y 100( α2 ) de la distribución ji-cuadrado con n − 1
2 2
grados de libertad, respectivamente.
Ejemplo 3.5. En el ejemplo anterior, estimemos la desviación estándar de los salarios
quincenales. Como en el ejemplo anterior S = 593,72. De una tabla ji-cuadrado con 29
grados de libertad se obtienen los percentiles χ2α = χ20,025 = 16,0471 y χ21− α = χ20,975 =
2 2
45,7223. Estos valores en (3.1) dan el intervalo de estimación del 95 % de confianza
para σ 2 : [223580,1723; 637037,2038]. De este intervalo se obtiene el correspondiente a
σ : [472,84; 798,15]. Por lo tanto, a partir de los resultados de esta muestra, podemos inferir,
con una confianza del 95 %, que la desviación estándar de los salarios de los trabajadores de
construcción civil está entre 472,84 y 798,15 soles.
87
Ejercicio 3.1. Se desea estimar la duración media, θ, de cierta clase de dispositivo

eléctrónico cuya duración sigue una distribución exponencial. Para este fin, se toma una
muestra de un solo dispositivo y se mide su duración X.
a) Sea el estimador θ̂ = X, ¿es este insesgado? ¿Cuál es su error estándar de estimación?
b) Determine el nivel de confianza del intervalo [ θ̂/20; 20θ̂ ] para estimar a θ.
Ejercicio 3.2. Sea [L1 ; L2 ] un intervalo del 100γ % de confianza para estimar θ. Si g es una
función monótona creciente (esto es, x ≤ y ⇔ g(x) ≤ g(y)), demuestre que [ g(L1 ); g(L2 ) ]
es un intervalo del 100γ % de confianza para estimar a g(θ).
Ejercicio 3.3. El tiempo, en meses, hasta que el precio de una acción logra su valor óptimo
es una variable aleatoria X ∼ exp(β). Para obtener inferencias acerca del parámetro β, se
tomará una muestra aleatoria de tamaño n de X : (X1 , . . . ,Xn ), y se considerará como
estimador de β a β̂ = X(1) , con X(1) = min{X1 , . . . ,Xn }. Sea también Y = β X(1) .
a) Use el ejercicio 1.47 para demostrar que Y ∼ exp(n).
b) Use la variable base Y, dada anteriormente, para deducir un intervalo del 95 % de

confianza para estimar a β.
c) Se dispone de la muestra aleatoria de 10 valores de X siguiente:
0,96 0,21 1,82 4,59 4,32 6,36 0,03 1,05 3,98 0,30
Según esta muestra disponible y el intervalo de confianza deducido en la parte anterior,

entre qué valores se puede afirmar, con una confianza del 95 %, que se encontrará
µX : el tiempo promedio en el que el precio de esta acción logra su valor óptimo.
1
Recuerde que si X ∼ exp(β), entonces, µX = .
β
Ejercicio 3.4. En el ejercicio propuesto 2.16:
a) A partir del resultado la parte c, obtenga una variable base y construya un intervalo
de confianza, del 95 %, para estimar a β.
b) A partir del resultado anterior, deducir un intervalo de confianza, del 95 %, para estimar
el tiempo promedio que permanecen afiliados los empleados. Luego obtenga e interprete
el intervalo de estimación que se obtiene con la muestra dada.
√
c) Verifique W = β X(1) también es una variable base para β y deducir un intervalo
de confianza, del 95 %. Luego obtenga e interprete el intervalo de estimación que se
2
obtiene con la muestra dada. Recuerde que FX (x) = 1 − e−β x , x > 0.
88
Ejercicio 3.5. A partir del intervalo de confianza usual para la varianza σ 2 de una población
normal, dado por la ecuación (3.3), deducir uno (con el mismo grado de confianza) para la
desviación estándar σ.
Ejercicio 3.6. En contexto del ejercicio propuesto 2.29:

α̂mv α̂mv
a) Determine el grado de confianza que tiene el intervalo [ 1,196 ; 0,804
] para estimar α. Use
el resultado de la última parte de ese ejercicio.
b) A partir del I.C. anterior construya uno, con el mismo grado de confianza, para estimar
el ingreso mensual promedio.
c) Evalúe e interprete los intervalos de confianza anteriores, si al tomar la muestra
aleatoria de 36 ingresos (en miles de soles) se obtuvieron los resultados siguientes:
0,57 0,83 0,97 0,71 0,93 0,77 0,23 0,82 0,61 0,62 0,71 0,73
0,83 0,77 0,72 0,99 0,44 0,85 0,67 0,45 0,83 0,48 0,48 0,85
0,90 0,86 0,91 0,75 0,68 0,74 0,95 0,94 0,67 0,74 1,00 0,89
Ejercicio 3.7. Otro de los modelos usados para una variable aleatoria positiva es el
exponencial generalizado 13 , el cual se define por la función de densidad siguiente:
f (x) = θ1 θ2 e−θ2 x (1 − e−θ2 x )θ1 −1 , x > 0; θ1 > 0, θ2 > 0.
Si una variable X sigue este modelo lo denotamos por X ∼ expg(θ1 ; θ2 ).
Suponga nuevamente el contexto del ejercicio 2.16, pero ahora se propone un modelo
expg(θ1 ; θ2 ). Se usará la muestra disponible y los estimadores de máxima verosimilitud θ̂1 y
aprox. p
θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo
elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el logaritmo
natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).
a) Use el método de la variable base para deducir el intervalo del 95 % de confianza para
estimar θi , a partir de la variable Zi , i = 1,2.
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
ˆ
θ1 = 2,4007; −0,377969155 −0,003391514
H −1 = .
−0,003391514 −0,00005279384
θˆ2 = 0,0410; Ln(L(θˆ1 , θˆ2 )) = −163,5017.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo exponencial generalizado
propuesto puede simplificarse a uno exponencial. Observe que expg(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.
13
Gupta & Kundu(1999). Theory & methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2), 173–188. Vea también el ejercicio 1.48d)
89
Ejercicio 3.8. Sea X ∼ G(2, θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
P
5
aleatoria de X : X1 , . . . , X5 . Considere también la variable W = θ Xj .
j=1
P
5
a) Verifique W es una variable base para θ. Tenga en cuenta que Xj ∼ G(10, θ).
j=1
Luego construya un intervalo del 95 % de confianza para estimar a θ. Considere que si
Y ∼ G(10, 1); entonces, FY (4,7954) = 0,025 y FY (17,0848) = 0,975.
b) Para la muestra siguiente: X1 = 5,5, X2 = 2,2, X3 = 4,4, X4 = 1,25, X5 = 1,1; evalúe

e interprete el intervalo hallado anteriormente.
Ejercicio 3.9. El error del pronóstico con un modelo es una variable aleatoria X con
distribución uniforme en (0, θ). Se tomará una muestra aleatoria de X : X1 , . . . , X5 .
X(5)
a) Verifique W = es una variable base para θ y construya un intervalo del 95 % de
θ
x5
confianza. Puede usar el ejercicio 1.47 para verificar que FX(x) = 5 , 0 < x < θ.
(5) θ
b) Evalúe e interprete el intervalo hallado si X1 = 0,05; X2 = 0,2; X3 = 0,4; X4 =
0,025; X5 = 0,1.
Ejercicio 3.10. En el método de la variable base para construir intervalos de confianza,
descrito en la sección 3.2, se consideran los valores a y b tales que F (a) = α/2 y
W
F (b) = 1 − α/2, de modo que P (a ≤ W ≤ b) = 1 − α. Luego se determinan L1 y L2
W
tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . Esta manera de obtener a y b es una convención
aceptada; sin embargo, cualesquiera a y b que satisfagan F (b) − F (a) = 1 − α, son útiles.
W W
Es decir, se puede hallar un intervalo que eventualmente es mejor si se escogen los valores a
y b que minimizan el valor esperado de la longitud del intervalo, E(L2 − L1 ), y satisfagan
la condición F (b) − F (a). Ası́, una modificación del método para obtener un intervalo de
W W
confianza, a partir de una variable base, con longitud esperada mı́nima es la siguiente:
i) Determinar L1 y L2 tales que a ≤ W ≤ b ⇔ L1 ≤ θ ≤ L2 . Estos valores

dependerán de la muestra X1 , . . . , Xn , de a y de b, es decir, L1 = L1 (X1 , . . . , Xn , a, b)
y L2 = L2 (X1 , . . . , Xn , a, b). W es la variable base escogida.
ii) Obtener g(a,b) = E(L2 −L1 ). Usar propiedades del valor esperado que permitan obtener
una expresión simplificada de g(a,b) para realizar el paso siguiente.
iii) Resolver el problema de optimización: mı́n g(b,a), sujeto a F (b) − F (a) = 1 − α.

a,b W W
iv) En las expresiones de L1 y L2 del paso i reemplazar los valores de a y de b obtenidos

en el paso iii.
Sea X ∼ N(µ; σ 2 ), con σ 2 conocido. Use este método para encontrar el intervalo de confianza
para µ con la misma variable base de la deducción del intervalo de confianza usual en (3.1).
90
Ejercicio 3.11. Considere X1 , . . . , Xn , una muestra aleatoria, grande, de una distribución

de Poisson con parámetro λ.
√
a) Si W1 = n(√ X̄n −λ)
λ
, compruebe que W1 es una variable base para λ y, a partir de
esta, construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.
√
n(X̄n −λ) D
Recuérdese que, por el T.L.C. √
λ
→ Z ∼ N(0; 1).
√
n(X̄n −λ)
b) Justifique por qué W2 = √ es una variable base para λ y, a partir de esta,
X̄n
construya el intervalo del 95 % de confianza para estimar a λ, que proporciona el
método de la variable base.
√
n(X̄n −λ) D
Use el resultado asintótico siguiente: √ → Z ∼ N(0; 1).
X̄n
c) Se asume que el número de clientes que utilizan cierto cajero automático, durante un
intervalo de 10 minutos durante la tarde del fin de mes, sigue una distribución de
Poisson. Cuando se colocó este cajero se hizo esperando un promedio de 15 clientes
cada 10 minutos, qué puede concluir al respecto a partir de los resultados obtenidos
en 100 intervalos de 10 minutos cada uno:
19 19 25 26 18 19 20 18 13 21 25 12 19 17 17 14 24 22 19 21
17 16 20 19 20 20 29 20 27 21 17 21 19 17 23 24 20 20 15 22
22 24 20 21 24 16 26 26 17 22 23 22 16 20 15 23 15 18 13 22
25 21 18 17 27 19 15 22 21 13 16 26 20 23 25 17 21 18 25 15
22 13 20 21 22 12 14 22 17 36 19 26 20 17 12 16 23 17 20 17
Utilice los resultados de las partes anteriores. ¿Cuál de los dos intervalos cree que da
una mejor información?
Ejercicio 3.12. Sobre la rentabilidad, X, de cierta operación financiera, se sabe que tiene
distribución normal, que su promedio vale cero, pero se desconoce su volatilidad (σ).Para
obtener inferencias sobre σ se planifica tomar una muestra aleatoria de 20 observaciones.
1 P n
a) Demuestre que W1 = X 2 es una variable base para σ y úsela para construir
σ 2 j=1 j
un intervalo del 95 % de confianza. ¿Es este intervalo mejor que el intervalo usual
(determinado en la ecuación (3.3))?
b) Al tomar la muestra de tamaño 20 se obtuvieron los valores de X siguientes:
2,11 -0,89 0,45 -0,44 -7,75 -3,37 5,61 1,09 4,19 -2,48
-6,35 7,96 2,37 -1,14 2,54 -7,65 7,24 -9,5 -2,12 17,14
Evalúe e interprete el intervalo determinado en la parte a. ¿Serı́a cierto que la

volatilidad supera el valor de 2?
91
Ejercicio 3.13. Sean X ∼ N(0; σ 2 ) y la muestra aleatoria X1 , . . . , Xn . A partir de cada

P
n
uno de los estimadores de σ 2 siguientes: σ̂12 = S 2 , σ̂22 = n1 Xj2 y σ̂32 = nX̄ 2 , obtenga una
j=1
variable base y un intervalo de confianza del nivel 95 % de confianza para estimar a σ 2 .
Ejercicio 3.14. En el estudio sobre la rentabilidad de cierta acción, que se cotiza en la

bolsa de valores, se acostumbra usar dos tipos de tasas definidas a partir del precio (V ) de
la acción: la rentabilidad bruta (X), que es el cociente entre los precios de cierre del dı́a y
el del anterior, y la rentabilidad continua (Y ), que es el logaritmo natural del cociente entre
los precios de cierre del dı́a y el del anterior. Para estimar los promedios de estos tipos de
tasas de rentabilidad (µX y µY ) se registraron los precios de cierre de 12 dı́as consecutivos y
se calcularon los dos tipos de rentabilidad. Los resultados se muestran en la tabla siguiente:
Dı́a 1 2 3 4 5 6
V 3,43 3,38 3,59 3,41 3,52 3,6
X 1,0148 0,9854 1,0621 0,9499 1,0323 1,0227
Y 0,0147 -0,0147 0,0603 -0,0514 0,0317 0,0225
Dı́a 7 8 9 10 11 12
V 3,66 3,6 3,54 3,53 3,45 3,42
X 1,0167 0,9836 0,9833 0,9972 0,9773 0,9913
Y 0,0165 -0,0165 -0,0168 -0,0028 -0,0229 -0,0087
El precio anterior al primer dı́a fue V0 = 3,38. Además, se asume que X ∼ N(µX ; 0,0004) y,
1 2 2
por lo tanto, Y ∼ LogN(µY , σY2 ), con µY = eµX + 2 σX y σY2 = µY2 (eσX − 1).
a) Construya un intervalo del 95 % de confianza para estimar el valor del promedio de la

rentabilidad bruta de esta acción, µX , con la muestra dada. Use (3.1).
b) A partir del intervalo hallado anteriormente, construya otro del 95 % de confianza para
estimar el valor del promedio de la rentabilidad continua de esta acción, µY .
Ejercicio 3.15. Sean X ∼ N(µ1 ; σ 2 ) y X1 , . . . , Xn1 una muestra aleatoria de esta variable.
Sean también Y ∼ N(µ2 ; σ 2 ) y Y1 , . . . , Yn2 una muestra aleatoria de esta variable e
independiente de la muestra anterior. Sea T definida en (2.4) del ejercicio 2.34. Justifique
por qué T es una variable base para µ1 − µ2 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar esta diferencia, dado en la ecuación siguiente:
" s s #
1 1 1 1
X̄ − Ȳ − t1− α Sp + ; X̄ − Ȳ + t1− α Sp + , (3.4)
2 n1 n2 2 n1 n2
(n1 − 1)S12 + (n2 − 1)S22

con Sp2 = y t1− α el percentil 100(1 − α2 ) de la distribución t de
n1 + n2 − 2 2
student con n1 + n2 − 2 grados de libertad.
92
Ejercicio 3.16. Se desea comparar dos procedimientos para realizar tareas similares y cuyos
tiempos respectivos siguen una distribución normal con la misma varianza. En particular,
se quiere saber cuál procedimiento es más rápido en general. Con ese fin se tomaron
dos muestras independientes de tareas realizadas con estos procedimientos, cuyos tiempos
correspondientes (medidos en minutos) se muestran en la tabla siguiente:
X = tiempo con el procedimiento 1

1,90 5,63 4,14 5,68 5,75 4,75 2,82 5,24 3,94 5,60
1,83 6,68 4,59 4,94 7,55 3,00 1,39 4,55 1,75 8,50
Y = tiempo con el procedimiento 2
3,25 0,65 3,67 4,17 0,86 1,68 5,08 1,63 4,74 1,40
5,52 0,60 3,06 3,30 3,14 5,19 0,69 7,04 3,29 3,72
3,84 1,90 3,64 3,65 1,40 4,87 3,93 4,45 2,39 3,67
a) Estime, puntualmente, µ1 − µ2 : la diferencia entre los tiempos promedios de cada

procedimiento. A partir de esta estimación, ¿qué se puede concluir, aparentemente?
b) Estime µ1 − µ2 mediante el intervalo del 95 % de confianza que se deduce de (3.4) en

el ejercicio 3.15. ¿Qué se puede concluir?
Ejercicio 3.17. Sean X ∼ N(µ1 ; σ12 ) e Y ∼ N(µ2 ; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable F definida en (2.4) de la subsección 2.5.4. Justifique
por qué F es una variable base para σ12 /σ22 y deduzca el intervalo del 100(1 − α) % de
confianza, para estimar este cociente, dado en la ecuación siguiente:
" #
S12 /S22 S12 /S22
; , (3.5)
F1− α2 F α2
con F1− α y F α los percentiles 100(1 − α2 ) y 100( α2 ) de la distribución F con grados de

2 2
libertad en el numerador y denominador iguales a n1 − 1 y n2 − 1, respectivamente.
Ejercicio 3.18. La rentabilidad mensual al invertir en la acción 1 se considera una variable

aleatoria X ∼ N(0, σ12 ) y la rentabilidad mensual al invertir en la acción 2, Y ∼ N(0, σ22 ).
Se desea decidir por cuál de las dos acciones invertir; es decir, determinar cuál de las dos
tiene una rentabilidad con menor volatilidad (puesto que el promedio de ambas es el mismo).
Use el intervalo de confianza del 95 % que deduce de (3.5) del ejercicio 3.17 y las muestras
aleatorias siguientes:
Rentabilidad de la acción 1 -0,6 -0,1 0,3 -0,2 0,2 0,2 1,2 0,2 -0,7
Rentabilidad de la acción 2 1,4 -2,7 1,6 1,5 -1,8 1,9 1,2 -1,9 -0,1
93
Ejercicio 3.19. Sean X ∼ N(0; σ12 ) e Y ∼ N(0; σ22 ). Sean también dos muestras
independientes de estas variables, X1 , . . . , Xn1 y Y1 , . . . , Yn2 , y S12 y S22 sus varianzas
correspondientes. Considere la variable
n1
P
n2 Xj2
j=1 σ22
F1 = n2
P 2 σ2
.
n1 Yj 1
j=1
a) Halle la distribución de F1 para comprobar que esta es una variable base para σ12 /σ22 .
Luego deduzca un intervalo del 100(1 − α) % de confianza, para estimar este cociente.
b) Use el intervalo de confianza anterior para resolver el ejercicio 3.18. Compare.
Ejercicio 3.20. Considere el modelo de regresión lineal: Yj = θ Xj + ǫj , j = 1, . . . , n, con

los supuestos clásicos. Sea θ̂ es el estimador de cuadrados mı́nimos de θ. Suponga también
que los errores ǫj , j = 1, . . . , n, tienen una distribución normal con varianza σ 2 conocida.
a) Halle la distribución de las variables Yj , j = 1, . . . , n.

P
n
b) Demuestre que θ̂ ∼ N θ; σ 2 / Xj2 .
j=1
c) Justifique por qué Z, la estandarización de θ̂, es una variable base para θ.
d) Use la variable base definida anteriormente para deducir un intervalo para estimar a θ
con una confianza del 95 %.
Ejercicio 3.21. Para predecir el consumo, Y, a partir del ingreso, X, se considere el modelo
de regresión lineal: Yj = α + β xj + ǫj , en donde los errores ǫj , son independientes y tienen
una distribución normal de media cero y varianza σ 2 (desconocida).
a) Construya un intervalo de confianza del 95 % para estimar la propensión marginal a

consumir y luego evalúelo para los datos dados. Use la variable base siguiente:
σ̂
T2 = r ∼ t(n − 2)
P
n
(Xi − X̄)2
i=1
b) Se tiene la hipótesis de que un incremento en el ingreso de 100 u.m. originará un

incremento en el consumo mayor que 40 u.m. Analice la veracidad de esta hipótesis,
mediante el intervalo de la parte anterior y la muestra siguiente:
xj 1 1,5 2 2,5 3 3,5 4 4,5 5

Yj 0,8 1,2 1,4 1,6 1,8 2 2,4 2,6 3
94
Ejercicio 3.22. El ingreso mensual (en cientos de soles) de las familias en cierta región
se considera una variable aleatoria X ∼ G(θ1 ; θ2 ), con θ1 > 0, θ2 > 0. Para estimar
estos parámetros se tomará una muestra aleatoria de tamaño n = 100 y se usarán los
estimadores de máxima verosimilitud θ̂1 y θ̂2 . Como el tamaño de muestra es grande, son
válidas las distribuciones asintóticas dadas en (2.2): Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), donde
p
σ̂θ̂i = −Hii−1 y Hii−1 el i-ésimo elemento de la diagonal de la inversa de H la matriz hessiana
de Ln(L(θ1 ,θ2 )), el logaritmo natural de la función de verosimilitud, evaluada en (θ̂1 ; θ̂2 ).
b) Tomada la muestra aleatoria de 100 de estos ingresos se registraron los ingresos:
4,66 6,47 5,54 3,59 3,08 3,74 4,98 4,13 4,42 5,38 6,29 6,12 4,62 4,09 2,65 7,06 5,93 4,44 4,97 5,99
1,58 9,43 6,43 4,11 6,78 6,68 2,47 6,21 2,95 5,93 3,63 3,11 3,50 7,02 6,46 7,52 4,57 4,10 2,62 5,90
3,84 5,78 3,26 9,69 2,96 7,52 4,50 5,61 4,02 6,97 3,52 3,24 11,8 5,08 6,96 2,39 4,88 4,74 6,40 3,43
5,90 5,16 5,08 7,66 2,84 1,57 5,92 4,77 9,34 2,49 5,74 7,22 5,74 2,92 5,58 4,36 2,33 4,21 4,28 7,10
4,79 2,04 3,75 8,29 3,43 8,98 6,54 1,11 5,19 11,76 3,16 4,33 11,31 9,22 4,61 4,37 6,74 6,70 6,08 5,14
Procesada la muestra con el programa estadı́stico R se obtuvieron:

θˆ1 5,8908 !
−0,6571 −0,1255
θˆ2 1,1253 H −1 = .
ˆ ˆ −0,1255 −0,0261
Ln(L(θ1 , θ2 )) -212,8558
Evalúe e interprete los intervalos de confianza hallados en la parte anterior.
c) Use una de sus conclusiones anteriores para averiguar si el modelo gamma propuesto
puede simplificarse a uno exponencial.
Ejercicio 3.23. En el contexto de los ejercicios 2.16 y 3.7, ahora se propone un modelo
Weibull (θ1 ; θ2 ). Se usarán la muestra disponible y los estimadores de máxima verosimilitud
aprox. p
θ̂1 y θ̂2 . Además, Zi = (θ̂i − θi )/σ̂θ̂i ∼ N(0; 1), i = 1, 2, con σ̂θ̂i = −Hii−1 y Hii−1 el
i-ésimo elemento de la diagonal de la inversa de H: la matriz hessiana de Ln(L(θ1 ,θ2 )), el
logaritmo natural de la función de verosimilitud evaluada en (θ̂1 ; θ̂2 ).
b) Al procesar la muestra disponible con el programa estadı́stico R se obtuvieron, entre
otros, los resultados siguientes: !
−0,046940344 0,000369638
θˆ1 = 1,6426; H −1 = ;
ˆ ˆ ˆ 0,000369638 −0,000003015
θ2 = 0,0019; Ln(L(θ1 , θ2 )) = -163,127.
Evalúe e interprete los intervalos de confianza de la parte anterior.
c) A partir de los resultados anteriores, determine si el modelo Weibull propuesto puede
simplificarse a uno exponencial. Observe que W eibull(1; θ2 ) = exp(θ2 ).
d) Ilustre, gráfica y cuantitativamente, cuál de los dos modelos usados se ajusta mejor a
la muestra dada.
95
Ejercicio 3.24. Sea X1 , . . . , Xn una muestra aleatoria de X. Considere el parámetro

P
n
p = P (X ∈ A) y su estimador usual p̄ = n1 Yj , con Yj = 1A (Xj ), j = 1, . . . , n.
j=1
a) Demuestre que E(Y ) = p y V (Y ) = p(1 − p). Note que Y1 , . . . , Yn es una muestra
aleatoria de Y = 1A (X).
p
b) Para cada n ∈ +
N
, sea Un = p
p(1 − p)
p̄(1 − p̄)
. Halle el lı́mite casi seguro de Un .
N+, sea Zn = √n(p̄−p)

√
D
c) Para cada n ∈ . Use el T.L.C. para demostrar que Zn → N(0; 1).
p(1−p)
N+, sea Wn = √n(p̄−p)

√
d) Para cada n ∈ . Use los resultados anteriores y el Teorema de
p̄(1−p̄)
D
Slutsky para demostrar que Wn → N(0; 1). Note que Wn = Un Zn .
e) Con Wn como variable base y el resultado anterior, deducir el intervalo usual del
100(1 − α) % de confianza para estimar a p, si el tamaño de muestra es suficientemente
grande:
1 p 1 p
p̄ − √ z1−α/2 p̄(1 − p̄) ; p̄ + √ z1−α/2 p̄(1 − p̄) .
n n
f) Una encuesta aplicada a una muestra aleatoria de 1000 electores reveló que solo 200
estaban de acuerdo con la gestión de cierta autoridad. Determine, qué se puede inferir,
a partir de estos últimos resultados y con una confianza del 95 %, sobre la la proporción
p de electores que aprueban la gestión de la autoridad. Use el resultado anterior.
Ejercicio 3.25. Para predecir el consumo, Y, a partir del ingreso, X, (ambos expresados en
las mismas u.m), se considere el modelo de regresión lineal: Yj = θ1 + θ2 xj + ǫj , en donde
los errores ǫj , j = 1, . . . ,n son independientes y tienen una distribución normal N(0; σ 2 ).
P
n
p xj Yj − nX̄ Ȳ
a) Sea T = SX (n − 2)(n − 1) / SCE ( θˆ2 − θ2 ), donde θ̂2 = j=1
(n−1)S 2
y
X
P
n
(n−1)2 S 2 S 2 − [ xj Yj − nX̄ Ȳ ]2
X Y
j=1
SCE = (n−1)S 2
. Pruebe que T ∼ t(n − 2).
X
Observaciones:
θˆ2 ∼ N( θ2 ; σ 2 /((n−1)S 2X ) ); SCE/σ 2 ∼ χ2 (n−2); θ̂2 y SCE son independientes.
b) Construya el intervalo de confianza del 95 % para estimar a θ2 (la propensión marginal

a consumir). Considere como variable base a T (definida anteriormente).
c) Se dispone de la muestra siguiente:
xj 1 1,5 2 2,5 3 3,5 4 4,5 5

Yj 0,8 1,2 1,4 1,6 1,8 2 2,4 2,6 3
Evalúe e interprete el intervalo hallado anteriormente. Luego infiera, estadı́sticamente,

respecto de la hipótesis siguiente: un incremento en el ingreso de 100 u.m. originará un
incremento en el consumo mayor que 40 u.m.
96
4. Pruebas o contrastes de hipótesis
4.1. Introducción
Se tienen dos hipótesis relacionadas con los parámetros de la distribución de una variable
X, digamos, H0 , llamada hipótesis nula (pues en general esta es la que se cree será descartada)
y H1 llamada hipótesis alternativa (pues es la que se considerará como válida en caso
de descartar H0 ); las cuales se contrastan o someten a prueba, a partir de los resultados
obtenidos de una muestra aleatoria de X, es decir, se tomará una decisión optando por la
validez de una de las hipótesis.
Ejemplo 4.1. Como ejemplo veamos el problema siguiente en el que se contrastan dos
posiciones, por una parte la del fabricante de cierto tipo de componente, por otra la de un
comprador. El fabricante especifica que el tiempo de vida promedio de estos componentes es
de 10 meses; sin embargo el cliente afirma que este promedio es de solo 5 meses. En cualquier
caso asumimos que la duración del componente sigue una distribución exponencial. Si X es
el tiempo de vida de los componentes (en meses) y µ es la media correspondiente; entonces,
el problema enunciado anteriormente puede formularse como uno de contraste o prueba de
hipótesis, en el que las hipótesis estadı́sticas pueden ser expresadas como:
H0 : µ = 10 y H1 : µ = 5.
Supongamos que el fabricante decidiera descartar su especificación y aceptar la del cliente,

siempre y cuando el tiempo de vida del componente que compre el cliente resultara menor
que 9 meses.
Definición 4.1. La regla de decisión o región crı́tica, RC, de una prueba o contraste de
hipótesis establece la condición que debe cumplir la muestra para rechazar la hipótesis nula.
Observación 4.1. La regla de decisión se expresa usualmente en términos de una estadı́stica

que indica cuándo se debe rechazar H0 , esta estadı́stica es llamada, por tal razón, estadı́stica
de prueba o de contraste. Esta regla tiene carácter aleatorio, pues depende de la muestra
aleatoria.
Ejemplo 4.2. Para el problema planteado en los ejemplos anteriores consideremos que X
sea la duración del componente que compre el usuario. La regla de decisión dada puede ser
expresada en términos de X de la manera siguiente:
Se rechazará H0 , si X < 9.
97
Definición 4.2. Al tomar una decisión a partir de una muestra aleatoria, se puede cometer
uno de los tipos de errores siguientes:
I : rechazar H0 siendo esta verdadera,

II : aceptar H0 siendo esta falsa;
el primero se denomina error de tipo I, pues, al llamar hipótesis nula a H0 esperarı́amos

es que esta fuera rechazada; el otro se denomina error de tipo II. Las probabilidades
correspondientes a estos errores se denotan por α y β, respectivamente. Es decir,
α = P (rechazar H0 siendo esta verdadera)

β = P (aceptar H0 siendo esta falsa).
Ejemplo 4.3. En el problema planteado en los ejemplos anteriores, recordamos la regla de

decisión para rechazar H0 para obtener
α = P (Rechazar H0 siendo esta verdadera)

= P (X < 9 siendo µ = 10);
pero como hemos asumido que X tiene distribución exponencial y, si H0 es verdadera, es

decir, si µ = 10, tenemos que FX (x) = 1 − e−x/10 , x > 0 (recuérdese que la media en la
distribución exponencial es el inverso del parámetro); ası́
α = 1 − e−9/10 = 0,5934.
Por otra parte, cuando H0 es falsa o, equivalentemente, cuando H1 es verdadera, X tiene

distribución exponencial con media µ = 5 y FX (x) = 1 − e−x/5 , x > 0, por lo tanto
β = P ( Aceptar H0 siendo esta falsa)

= P (X ≥ 9 siendo µ = 5).
= 1 − (1 − e−9/5) = 0,1653.
La gráfica siguiente ilustra los valores de α y β :

fX
1
5
1
H0 : µ = β
= 10
1
H1 : µ = β
=5
1
10
α
β
0 9 X
| {z }| {z }
Rechazar H0 Aceptar H0
98
José Flores Delgado Pruebas o contrastes de hipótesis 99
Definición 4.3. También se define la potencia del contraste, o de la prueba, como la

probabilidad de rechazar H0 siendo falsa. La denotamos por π, ası́, π = 1 − β.
Observación 4.2. El nombre de potencia se justifica por la razón siguiente: si H0 es la

llamada hipótesis nula, desearı́amos que, justamente, nuestra decisión sea la de rechazarla
cuando esta sea realmente falsa; es decir, rechazarla sin cometer error.
Ejemplo 4.4. En el problema formulado en los ejemplos anteriores, la potencia es 1 − β =

0,8347. Entonces, según los valores obtenidos de α, β y π, podemos decir que al aplicar esta
decisión de carácter aleatoria:
− si H0 es verdadera, en el 59,34 % de las veces la decisión es incorrecta;
− si H0 es falsa, en el 16,53 % de las veces la decisión es incorrecta,
− si H0 es falsa, en el 83,47 % de los casos la decisión es correcta.
Por ejemplo, si el tiempo de vida del componente que compre el cliente resulta de 6,5 meses;
entonces, la decisión que se toma es rechazar H0 (lo especificado por el fabricante). En este
caso corremos el riesgo de caer dentro del 59,34 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al fabricante.
Por otra parte si, por ejemplo, el tiempo de vida del componente que compre el cliente resulta
de 9,5 meses, la decisión que se toma es aceptar H0 (lo especificado por el consumidor). En
este caso se corre el riesgo de caer dentro del 16,53 % de los casos en los que esta decisión es
incorrecta; error que perjudicará al consumidor. También se puede decir que al tomar esta
decisión, se tendrá una confianza del 83,47 % de estar en lo correcto. A partir de estos casos,
se concluye que la regla de decisión es inadecuada, pues, al usarla se corren riesgos muy altos.
Observación 4.3. Como en el caso de los intervalos de confianza, las probabilidades

anteriores son válidas antes de tomar la muestra. Después de tomar la muestra, si se rechaza
H0 , se dice que se tiene un “nivel de significación” igual a la de tomar una decisión incorrecta,
pues, cuando H0 es verdadera, el 100(1−α) % de las muestras conducen a rechazarla (según la
interpretación de la probabilidad como frecuencia), es decir, a tomar una decisión incorrecta.
Para tener una buena regla de decisión o prueba estadı́stica, tanto α como β deben ser
suficientemente pequeños. Sin embargo, en la mayorı́a de los casos cuando disminuye uno de
estos valores, el otro aumenta. Ası́, se fija previamente el nivel de significación en 5 % ó 1 %
usualmente; luego se determina la regla de decisión o región crı́tica con la menor probabilidad
de cometer un error tipo II o, equivalentemente, con la máxima potencia. Por tal razón, estas
pruebas se llaman óptimas.
99
4.2. El Lema de Neyman-Pearson
Supongamos que el modelo probabilı́stico de la muestra que se registrará, X1 , . . . ,Xn ,

dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ, con Θ = { θ0 , θ1 } ⊂ k ; es decir, R
f (x1 , . . . ,xn ) = f (x1 , . . . ,xn ; θ) = f (x1 ; θ) . . . f (xn ; θ).
X1 , . . . ,Xn X1 , . . . ,Xn X1 Xn
Sea L(θ) = L(θ; X1 , . . . ,Xn ) la estadı́stica que define la función de verosimilitud:
L(θ) = L(θ; X1 , . . . ,Xn ) = f (X1 , . . . ,Xn ; θ) = f (X1 ; θ) . . . f (Xn ; θ). (4.1)

X1 , . . . ,Xn X1 Xn
Dadas las hipótesis:

H 0 : θ = θ0 y H 1 : θ = θ1 ,
la región crı́tica óptima, RC, entre todas las que tienen una probabilidad de cometer el error
tipo I igual a α, es decir, aquella con menor probabilidad del Error tipo II, β, está dada por

L(θ1 )
RC = X1 , . . . ,Xn : >c , (4.2)
L(θ0 )
donde c es una constante que satisface la ecuación

L(θ1 )
P > c, cuando H0 es verdadera = α. (4.3)
L(θ0 )
Ejemplo 4.5. Sea X ∼ exp(θ). Se desea contrastar las hipótesis siguientes:
H0 : θ = 1/10 y H1 : θ = 1/5,
a partir de una muestra grande de tamaño n = 36, de modo que la probabilidad de cometer
un error tipo I sea α = 0,05. En este caso, el número de parámetros es k = 1, θ0 = 1/10 y
θ1 = 1/5. La estadı́stica que define la función de verosimilitud está dada por
L(θ) = f (X1 ; θ) . . . f (X36 ; θ) = θ36 e−θ X1 − ... −θ X36 = θ36 e−36 θ X̄ . (4.4)
X X
En este caso la región crı́tica óptima, dada en (4.2), resulta

L(1/5)
RC = X1 , . . . , X36 : >c , (4.5)
L(1/10)
donde la constante c, de (4.3), satisface

L(1/5) L(1/5)
P > c, si H0 es verdadera = P > c, si θ = 1/10 = 0,05. (4.6)
L(1/10) L(1/10)
Para hallar la constante c, se simplifica la condición que debe satisfacer la muestra para
rechazar H0 (la dada en la ecuación (4.5)), a partir de (4.4):
L(1/5) (1/5)36 e−36 X̄/5 1 1

>c⇔ > c ⇔ e−36( 5 − 10 ) X̄ > c ⇔ X̄ < c. (4.7)
L(1/10) 36
(1/10) e −36 X̄/10
100
Ası́, si esta simplificación dada en (4.6) se usan en las ecuaciones (4.5) y (4.7), sigue que
RC = { X1 , . . . , X36 : X̄ < c },

con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10. (4.8)
La ecuación (4.8) para c tiene una sola solución, pues, X̄ es una variable aleatoria continua y
su distribución acumulada tiene inversa. Para hallar este valor c podemos usar la propiedad
P36
de la distribución exponencial por la que T = 36X̄ = Xj ∼ G(36; θ). Ası́, (4.8) resulta
j=1
FT (36c) = 0,05; con θ = 1/10 ⇔ 36c = FT−1(0,05), con θ = 1/10 ⇔ 36c = 267,3117,
donde el valor 267,3117 corresponde a la inversa de la distribución acumulada G(36; 1/10)

evaluada en 0,05, que se obtiene mediante métodos numéricos (o programa computacional,
como el R o el Excel). Por lo tanto, c = 7,4253 RC = { X1 , . . . ,X36 : X̄ < 7,4253 }; es decir,
se rechaza H0 , si, X̄ < 7,4253.
Una alternativa es obtener una aproximación del valor de c a partir de la aproximación de

la distribución de X̄ por la normal (pues n = 36 es grande), X̄ ∼ N(1/θ ; 1/(36θ2 )). En
particular, si H0 es verdadera, es decir, si θ = 1/10, se tiene que X̄ ∼ N(10; 102 /36) y
Z = 0,6(X̄ − 10) ∼ N(0, 1). Ası́, la ecuación (4.8) resulta
FZ (0,6(c − 10)) = 0,05 ⇔ 0,6(c − 10) = −1,645 ⇔ c = 7,2583.
Ejemplo 4.6. En el contexto del ejemplo 4.5, al tomar la muestra se obtuvieron los valores
mostrados en la tabla siguiente:
2,89 0,64 5,45 13,76 12,96 19,09 0,09 3,14 11,94 0,90 1,69 0,28
0,2 1,08 1,49 0,1 2,01 2,52 4,84 2,65 2,79 2,64 14,47 3,76
3,33 2,17 22,31 9,86 28,43 1,78 2,06 0,33 7,33 10,17 1,56 3,77
Como X̄ = 5,68, se rechaza H0 . En este caso el error asociado a esta decisión es el de tipo
I, cuya probabilidad es α = 0,05. Ası́, según los resultados de esta muestra podemos inferir
que θ = 1/5; con un riesgo del 5 % de que esto sea falso.
Ejemplo 4.7. Sea X ∼ P (λ). Se desea contrastar las hipótesis
H0 : λ = 9 y H1 : λ = 8,
a partir de una muestra grande, de tamaño n = 49, y de modo que la probabilidad de cometer
un error tipo I sea α = 0,05.
Determinemos la región crı́tica óptima; es decir, aquella que tiene la menor probabilidad de
cometer un error tipo II, entre todas las definidas a partir de una muestra de X de tamaño
49. Según el Lema de Neyman-Pearson, sabemos que esta tiene la forma siguiente:

L(8)
RC = X1 , . . . , X49 : >c , (4.9)
L(9)
101
con c una constante que debe satisfacer (4.3). Para hallar c empecemos por determinar la
estadı́stica L que define la función de verosimilitud:
e−λ λX1 e−λ λX49 Y49 −1

−49λ 49 X̄
L(λ) = f (X1 ; λ) . . . f (X49 ; λ) = ... =e λ Xj .
X X X1 ! X49 ! j=1
Ası́, la condición que debe satisfacer la muestra para rechazar H0 es la siguiente:

Q
49 −1
−49 (8) 49 X̄
e 8 Xj X̄
L(8) j=1 8 8
≥c⇔ −1 >c⇔ > c ⇔ X̄ Ln > c ⇔ X̄ < c.
L(9) Q
49 9 9
e−49 (9) 9 49 X̄ Xj
j=1
De este resultado y la ecuación (4.9), se deducen que se debe rechazar H0 si X̄ < c y la

región crı́tica es RC = { X1 , . . . , X49 : X̄ < c }, donde c satisface
P (X̄ < c, con λ = 9) = 0,05 ⇔ FX̄ (c) = 0,05, con λ = 9. (4.10)
En este caso, la ecuación (4.10) determina el valor de la constante c; pero probablemente

no tenga solución o existan infinitas, pues, X̄ es una variable discreta (observe que los
valores posibles para X̄ son 0; 1/49; 2/49; . . . ). Para averiguarlo se debe tener en cuenta
que 49X̄ ∼ P (49 × 9), si λ = 9. Ası́, se pueden obtener (de la distribución de Poisson con
λ = 49 × 9) los valores FX̄ (406/49) = 0,0488, FX̄ (407/49) = 0,0539 y FX̄ (408/49) = 0,0595.
Por lo tanto, no existe un valor de c para el que se obtenga una probabilidad de error tipo I
exactamente igual a 0,05; el valor más cercano a esta probabilidad es 0,0539, que se obtiene
para cuando c = 407/49 = 8,3061. Como en el ejemplo anterior, puesto que el tamaño de
muestra es grande, una alternativa es obtener una aproximación del valor de c a partir de la
aproximación de la distribución de X̄ por la normal: X̄ ∼ N(λ; λ/49). En particular, si H0
es verdadera, esto es si λ = 9, se tiene que X̄ ∼ N(9; 9/49) y su estandarización:
7(X̄−9)
Z= 3
∼ N(0, 1). (4.11)
Ası́, de las ecuaciones (4.10) y (4.11), resulta

FZ 7(c−9)
3
= 0,05 ⇔ 7(c−9)
3
= −1,645 ⇔ c = 8,295.
Por lo tanto, RC = { X1 , . . . ,X49 : X̄ < 8,295 }; es decir, se rechaza H0 si, y sólo si,
X̄ < 8,295.
Ejemplo 4.8. En el ejemplo 4.7, tomemos la decisión y evaluemos el riesgo correspondiente,

si se obtuvo la muestra siguiente:
8 3 11 11 6 3 9 10 13 7 8 17 12 10 15 3 8
12 10 7 10 11 13 6 8 9 7 7 4 6 10 10 14 14
15 9 10 10 6 8 13 5 10 9 10 8 12 10 7
102
Para esta muestra X̄ = 454 49

= 9,27, entonces se debe aceptar H0 . En este caso el
error asociado a esta decisión es el de tipo II, cuya probabilidad es β. Es decir, β =

P aceptar H0 siendo falsa , pero como se acepta H0 si X̄ ≥ 8,295, sigue que

β = P X̄ > 8,295, si λ = 8 ⇔ β = 1 − F (8,295), con λ = 8. (4.12)
X̄
En esta ecuación se puede considerar que 49X̄ ∼ P (49 × 8), puesto que λ = 8. También se
puede usar la aproximación de la distribución de X̄ por la normal X̄ ∼ N(8, 8/49), para
λ = 8, y su estandarización
7(X̄ − 8)
Z= √ ∼ N(0; 1). (4.13)
8
Ası́, de las ecuaciones (4.12) y (4.13), resulta

7(8,295−8)
β = 1 − FZ √
8
= 1 − 0,7673 = 0,2327.
Por lo tanto, ahora se puede obtener una mejor inferencia: según los resultados de esta
muestra podemos deducir que que λ = 9, con un riesgo de equivocarnos del 23,27 %.
Observación 4.4. Por el Lema de Neyman-Pearson, el valor de 0,2327, hallado en el ejemplo

anterior, es el menor valor que se puede obtener para β (la probabilidad de cometer un error
tipo II) entre las reglas de decisión que tengan un valor de α = 0,05 y sean obtenidas a partir
de una muestra de tamaño 49.
Ejemplo 4.9. Sea X ∼ exp(θ). Se desea contrastar las hipótesis siguientes:
H0 : θ = 1/10 y H1 : θ = θ1 , con θ1 > 1/10,
a partir de una muestra, de tamaño n = 36, y de modo que la probabilidad de cometer un

error tipo I sea α = 0,05.
Como en el ejemplo 4.5, se puede aplicar el Lema de Neyman-Pearson. La estadı́stica que

define la verosimilitud L es la misma dada en la ecuación (4.4):
L(θ) = θ36 e−36 θ X̄ . (4.14)
La ecuación (4.5), que define la región crı́tica óptima, ahora tiene la forma siguiente:
L(θ1 )
RC = { X1 , . . . , X36 : > c }, (4.15)
L(1/10)
donde la constante c satisface

L(θ1 ) L(θ1 )
P > c, si H0 es verdadera = P > c, si θ = 1/10 = 0,05. (4.16)
L(1/10) L(1/10)
Para hallar la constante c que satisface (4.16), usamos (4.14) para obtener una expresión
más simple de la condición para rechazar H0 (dada en (4.15)):
L(θ1 ) θ136 e−36θ1 X̄ 1

>c⇔ > c ⇔ (θ1 − 10
) X̄ > c; (4.17)
L(1/10) (1/10)36 e−36 X̄/10
103
pero como θ1 > 1/10, (4.17) equivale a X̄ < c, si esto último se usa en las ecuaciones (4.15)
y (4.16), resultan la mismas región óptima y constante c obtenidas en el ejemplo 4.5:
RC = { X1 , . . . , X36 : X̄ < c },

con c tal que P (Rechazar H0 siendo verdadera) = P X̄ < c , cuando θ = 1/10 = 0,05; es
decir,
FX̄ (c) = 0,05; con θ = 1/10.
Por lo tanto, como se vio en el ejemplo 4.5, c = 7,2583 y RC = { X1 , . . . ,X36 : X̄ < 7,2583 };
es decir, se rechaza H0 si, y sólo si, X̄ < 7,2583.
Observación 4.5. Por los resultados del ejemplo anterior, tenemos que, la regla de decisión
óptima, X̄ < 7,2583, basándose en una muestra de tamaño n = 36 y de modo que la
probabilidad de cometer un error tipo I sea α = 0,05, para contrastar las hipótesis siguientes:
H0 : θ = 1/10 y H1 : θ = θ1 , con θ1 > 1/10,
no depende del valor θ1 > 1/10; es decir, esta regla es la misma para cada valor de θ > 1/10
que se fije. En este caso decimos que esta regla de decisión (o región crı́tica) es uniformemente
óptima o uniformemente más poderosa, para dicha prueba o contraste de hipótesis, y la
denotamos por UMP.
Definición 4.4. Dadas las hipótesis
H0 : θ = θ0 y H1 : θ ∈ Θ1 ,
decimos que la región crı́tica RC o (regla de decisión) es uniformemente óptima o

uniformemente más poderosa, entre todas aquellas regiones con una probabilidad de cometer
el error tipo I igual a α > 0 y basadas en una muestra aleatoria de tamaño n, si para cada
θ1 ∈ Θ1 (que se fije), RC es la región óptima para contrastar las hipótesis:
H0 : θ = θ0 y H1 : θ = θ1 .
Ejemplo 4.10. Por los resultados del ejemplo 4.9, la región crı́tica uniformemente más
poderosa, de nivel α = 0,05 y un tamaño de muestra 36, para contrastar las hipótesis
H0 : θ = 1/10 y H1 : θ > 1/10,
está dada por X̄ < 7,4253.

Definición 4.5. Si la hipótesis nula, H0 , especifica más de un valor, diremos que la hipótesis
es compuesta; es decir, si H0 : θ ∈ Θ0 , con #(Θ0 ) > 1. En este caso definimos el error tipo
I del contraste como
α = sup P ( Rechazar H0 ).
θ∈Θ0
Si la hipótesis alternativa es compuesta, digamos H1 : θ ∈ Θ1 , con #(Θ1 ) > 1, la probabilidad

del error tipo II y la potencia del contraste son funciones de θ :
β = β(θ) = P ( aceptar H0 ), ∀ θ ∈ Θ1 (4.18)

π = π(θ) = P ( aceptar H0 ), ∀ θ ∈ Θ1 . (4.19)
104
Ejemplo 4.11. Sean las hipótesis del ejemplo 4.10, es decir,
H0 : θ = 1/10 y H1 : θ > 1/10,
cuya regla de decisión UMP es rechazar H0 si X̄ < 7,4253. La probabilidad de cometer el

error tipo II, según esta regla de decisión y la ecuación (4.18), resulta:
β = β(θ) = P (X̄ ≥ 7,4253) = 1 − FX̄ (7,4253) = 1 − F36X̄ (267,3108), θ > 1/10. (4.20)
P
36
Si en (4.20) usamos el hecho que T = 36X̄ = Xj ∼ G(36; θ), se obtiene
j=1
α−1 −267,3108 θ
X e (267,3108 θ)j
β = β(θ) = , θ > 1/10. (4.21)
j=0
j!
De (4.21) resulta la tabulación siguiente:
θ 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24

β(θ) 0,95 0,7334 0,3861 0,1315 0,0298 0,0047 0,0006 0,0001
Cuya gráfica sigue a continuación

β(θ)
0,95
0,73
0,39
0,13
0,03
0,1 0,12 0,14 0,16 0,18 0,2 θ
Observe que el lı́mite superior para β(θ) es 1 − α = 0,95, que se obtiene si θ tiende a 1/10
(especificación en H0 ), pero decrece rápidamente hacia cero conforme θ se aleja de este valor
(la probabilidad de equivocarse al descartar H0 va disminuyendo, como era de esperar).
Una alternativa para obtener β(θ) es usar en 4.20 la aproximación de la distribución de X̄

por la normal, X̄ ∼ N( 1θ ; 36θ
1 1
2 ) o Z = 6θ(X̄ − θ ) ∼ N(0 ; 1). Ası́
β = β(θ) = 1 − FX̄ (7,4253) = 1 − FZ ( 6θ(7,4253 − 1θ ) ), θ > 1/10. (4.22)
El ejemplo siguiente muestra que no siempre existe la regla de decisión UMP.
105
Ejemplo 4.12. Sea X ∼ exp(β). Se desea contrastar las hipótesis siguientes:
H0 : θ = 1/10 y H1 : θ 6= 1/10,
a partir de una muestra grande de tamaño n = 36 y de modo que la probabilidad de cometer

Veamos que este contraste de hipótesis no posee una región crı́tica UMP. Para esto
consideramos las hipótesis
H0 : θ = 1/10 y H1 : θ = θ1 , con θ 6= 1/10.
Como fue visto en el ejemplo 4.9, la regla de decisión óptima cuando, α = 0,05 y n = 36,
está dada por el Lema de Neyman-Pearson:

L(θ1 )
RC = X1 , . . . , X36 : >c ,
L(1/10)
donde la constante c satisface

L(θ1 )
P > c, si θ = 1/10 = 0,05. (4.23)
L(1/10)
Además, para la constante c que satisface (4.23) se tiene
L(θ1 ) 1
> c ⇔ e−36(θ1 − 10 ) X̄ > c ⇔ (θ1 − 1
10
)X̄ <c (4.24)
L(1/10)
entonces, X̄ < c, si θ1 > 1/10, o X̄ > c, si θ1 < 1/10. De aquı́, si θ1 > 1/10 la regla de
decisión óptima está dada por X̄ < 7,4253, como fue visto en los ejemplos 4.9 y 4.10. Por
otra parte, si θ1 < 1/10 se verifica que la regla está dada por X̄ > 12,7418. Por lo tanto, no
existe la regla de decisión UMP.
A continuación se describirá un método general para obtener reglas de decisiones para

contrastar dos hipótesis, el cual se acostumbra usar cuando no existe la regla de decisión
UMP.
4.3. El método de la razón de verosimilitud
Supongamos que el modelo probabilı́stico de la muestra que se registrará, X1 , . . . ,Xn ,

dependa del vector de parámetros θ = (θ1 , . . . ,θk ) ∈ Θ, con θ ∈ Θ = Θ0 ⊎ Θ1 ⊂ k . Sea R
L(θ) = L(θ; X1 , . . . ,Xn ) la estadı́stica que define la función de verosimilitud (como en (4.1)).
Considérense θ̂mv , el estimador de máxima verosimilitud, y θ̂0 , el estimador que máxima la
verosimilitud restringida a Θ0 ; es decir,
θ̂mv = Máximo L(θ) y θ̂0 = Máximo L(θ).

θ∈Θ θ ∈ Θ0
106
Se define la estadı́stica de la razón de verosimilitud Λ como

L(θ̂0 )
Λ= . (4.25)
L(θ̂mv )
Dadas las hipótesis
H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1 ,
se define la región crı́tica del método de la razón de verosimilitud como
RC = { X1 , . . . Xn : Λ < c }, (4.26)
donde c es un número entre 0 y 1. En particular, si se quiere que la probabilidad de cometer

el error tipo I sea α; c debe ser tal que

P Λ ≤ c, si H0 es verdadera = α.
Observación 4.6. Si la hipótesis nula es simple, es decir, H0 = θ0 y Θ0 = { θ0 }; entonces,

θˆ0 = θ0 y la razón de verosimilitud (4.25) resulta
L(θ0 )
Λ= . (4.27)
L(θ̂mv )
Ejemplo 4.13. Consideremos el contraste de las hipótesis
H0 : θ = 1/10 y H1 : θ 6= 1/10,
a partir de una muestra grande de tamaño n = 36 y de modo que la probabilidad de cometer

un error tipo I sea α = 0,05. Como se vio en el ejemplo 4.12, no existe la regla de decisión
UMP, por lo tanto, aplicaremos el método de la razón de verosimilitud.
Como ya fue visto, L(θ) = θ36 e−36 θ X̄ y θ̂mv = 1/X̄ . Ası́, la razón de verosimilitud de (4.25)
resulta 1
1 36 −36 10 X̄
L(θ0 ) ( 10 ) e 36
Λ= = 1 −36 ( 1
) X̄
= 10−36 e36 X̄ 36 e− 10 X̄ . (4.28)
L(θ̂mv ) ( X̄ )36 e X̄
Ası́, la condición que debe satisfacer la muestra para rechazar H0 , dada por (4.26), es la
siguiente:
36
Λ < c ⇔ 10−36 e36 X̄ 36 e− 10 X̄ < c ⇔ X̄ e−X̄/10 < c′ ⇔ ( X̄ < c1 ⊎ X̄ > c2 ),
donde la última equivalencia se justifica porque la función g(x) = x e− x/10 es creciente si

1
x < 10 y decreciente si x > 10 ( g ′ (x) = − 10 e− x/10 (x − 10) ); y c1 y c2 son constantes tales
que satisfacen la ecuación siguiente:

P (Rechazar H0 siendo verdadera) = P X̄ < c1 ⊎ X̄ > c2 , si θ = 1/10 = 0,05.
Por lo tanto, podemos elegir estas constantes, c1 y c2 , tales que
P ( X̄ < c1 ) = 0,025 y P ( X̄ > c2 ) = 0,025, si θ = 1/10
107
o, equivalentemente, si
F (c1 ) = 0,025 y F (c2 ) = 0,0975, con θ = 1/10. (4.29)

X̄ X̄
En esta ecuación usamos la propiedad T = 36X̄ ∼ G(36; 1/10), si θ = 1/10 (como se hizo
en ejemplos anteriores), para obtener (mediante el programa R o el Excel):
F (252,1396) = 0,025 y F (486,7653) = 0,0975, si θ = 1/10. (4.30)

T T
Por lo tanto, de las ecuaciones (4.29) y (4.30), resultan c1 = 7,0039 y c2 = 13,5213. Ası́ una
regla de decisión que da el método de la razón de verosimilitud es rechazar H0 si X̄ < 7,0039
o si X̄ > 13,5213.
Una alternativa para hallar los valores de las constantes c1 y c2 es hacerlo aproximadamente,
mediante el uso de la aproximación de la distribución de X̄ por la normal, X̄ ∼ N( 1θ , 36θ
1
2 ),
en la ecuación (4.29). En particular, si H0 es verdadera, es decir, si θ = 1/10 se tiene que

X̄ ∼ N(10; 102 /36) y Z = 0,6(X̄ − 10) ∼ N(0; 1).
Propiedad (distribución asintótica de la estadı́stica de la razón de verosimilitud). Si el

tamaño de muestra es grande; entonces, cuando H0 es verdadera se tiene la distribución
aproximada siguiente:
aprox. 2
−2 Ln Λ ∼ χ (r),
con r el número de parámetros especificados en H0 . Por lo tanto, si el tamaño de muestra
es grande, una región crı́tica dada por el método de la razón de verosimilitud equivale a
RC = { X1 , . . . , Xn : Λ < c }, (4.31)
donde la constante c es tal que

−2Ln(c) = χ21−α , (4.32)
con χ21−α el percentil 100(1 − α) de la distribución ji-cuadrado con r grados de libertad.
Ejemplo 4.14. Como en el contraste de hipótesis del ejemplo 4.13 el tamaño de muestra es
grande, podemos usar la propiedad anterior. Ası́, de (4.28) y 4.31, una regla de decisión por
el método de la razón de verosimilitud es rechazar H0 si
36
10−36 e36 X̄ 36 e− 10 X̄ < c
donde la constante c es tal que −2Ln(c) = χ20,95 , con la distribución ji-cuadrado de 1

grado de libertad. De una tabla de la distribución ji-cuadrado con 1 grado de libertad,
resulta χ21−α = 3,8415; por lo tanto, c = 0,1465 y la regla de decisión será rechazar H0 si
36 1
10−36 e36 X̄ 36 e− 10 X̄ < 0,1462 o, equivalentemente, si X̄ e− 10 X̄ < 3,4877.
108
Ejercicio 4.1. Los errores que se presentan en un disco para almacenar información ocurren
de acuerdo con un proceso de Poisson. El fabricante especifica que la tasa promedio de errores
es de un error por cada diez centı́metros cuadrados. Un usuario sospecha de tal especificación
y sostiene que en realidad esta tasa de ocurrencias es de tres errores por cada diez centı́metros
cuadrados. El fabricante desechará su especificación y aceptará la del usuario, siempre y
cuando en una muestra de diez centı́metros cuadrados se halle más de dos errores.
a) Formule el problema como un contraste de hipótesis; es decir, especifique las hipótesis

por contrastar y la regla de decisión para rechazar la hipótesis nula.
b) Cuantificar los riesgos a los que está sujeta la decisión a tomar.
c) Una muestra de 10 centı́metros cuadrados presentó tres errores. Obtenga la inferencia

correspondiente ¿Es esta inferencia verdadera? Explique.
Ejercicio 4.2. En el ejercicio 2.16, se supone que en promedio los afiliados permanecerán
Γ( 1 + 1)
empleados por 30 años; esto quiere que θ = 0,00087, pues, en este modelo E(X) = 2 1 .
θ2
La AFP sospecha que este promedio es mayor o, equivalentemente, que θ < 0,00087. Ası́, se
quiere contrastar las hipótesis siguientes:
H0 : θ = 0,00087 y H1 : θ < 0,00087.
Construya la Región Crı́tica UMP para este contraste, que tenga una probabilidad de error
tipo I α = 0,05. Use la regla deducida y la muestra dada en dicho ejercicio, para decidir si
se confirma la sospecha de la AFP. Puede usar la distribución asintótica de θ̂mv .
Ejercicio 4.3. Resolver el ejercicio 3.18 con un contraste de hipótesis.
Ejercicio 4.4. Sea X ∼ G(2; θ), es decir, f (x) = θ2 x e−θ x , ∀x > 0. Se tomará una muestra
X
aleatoria de X : X1 , . . . , X5 y se fija el nivel de significación α = 0,05.
a) Para θ1 > 1/3, halle la región óptima para contrastar las hipótesis:
H0 : θ = 1/3 y H1 : θ = θ1 .
P
5
Nota. Xj ∼ G(10; θ). Si T ∼ G(10; 1/3) : FT (16,2762) = 0,05.
j=1
b) Determine, si existe, la región uniformemente más poderosa para contrastar las

hipótesis: H0 : θ = 1/3 y H1 : θ > 1/3.
En caso afirmativo, determine la conclusión que se deriva de la muestra siguiente:
X1 = 5,5, X2 = 2,2, X3 = 4,4, X4 = 1,25, X5 = 1,1.
Cuantifique el riesgo asociado a esta conclusión.
109
Ejercicio 4.5. El salario anual (en miles de soles) de los trabajadores de cierto sector es
una variable aleatoria X ∼ LogN(µ; σ 2 = 1).
a) Use el Lema de Neyman-Pearson para obtener la región crı́tica óptima, con α = 0,05
y un tamaño de muestra n = 9, para contrastar las hipótesis:
H0 : µ = µ0 y H1 : µ = µ1 , con µ1 < µ0 .
( Lnx − µ )2
1 −
Recuerde que fX (x) = √ e 2σ 2 .
2πσ x
b) Se sostenı́a que µX , el promedio del salario anual en este sector, era de 55 mil soles;
sin embargo, actualmente se piensa que este es más bien de 50 mil soles.
Ası́, se decide tomar una muestra aleatoria con n = 9 y fijar el nivel de significación
en α = 0,05, para contrastar las hipótesis siguientes:
H0 : µX = 55 y H1 : µX = 50.
Exprese estas hipótesis en términos del parámetro µ, en lugar de µX (es decir, halle los
valores de µ0 y de µ1 de la parte anterior). Luego, obtenga la región crı́tica óptima.
1 2
Tenga en cuenta que µX = e µ+ 2 σ y, por lo tanto, µ = Ln(µX ) − 21 σ 2 .
c) Una muestra aleatoria de 9 salarios anuales (en miles de soles) dio los valores siguientes:
xj 3,1 2,1 3,7 4,7 4,6 5,1 1,2 3,2 4,5
Decida por una de las dos hipótesis, a partir de la región crı́tica obtenida anteriormente
y los resultados de esta muestra.
Ejercicio 4.6. Sea X ∼ N(µ; 1). Para α = 0,05 y una muestra aleatoria de tamaño 16, se
desea contrastar las hipótesis: H0 : µ = 0 y H1 : µ 6= 0.
a) ¿Existe la región óptima para este contraste?
b) Deducir la región crı́tica que proporciona el método de la razón de verosimilitud.

R R
Observe que en este caso θ = (µ, σ 2 ) ∈ Θ = × + y Θ0 = {0} × + . R
c) Dé la conclusión correspondiente a la región deducida anteriormente y la muestra
siguiente
0,20 -0,78 0,74 1,78 1,70 2,23 -1,68 0,27

1,60 -0,59 -0,19 -1,19 -1,35 -0,48 -0,27 -1,62
d) Si µ = 0,5, ¿cuál es la probabilidad de tomar una decisión errada con la región crı́tica
deducida?
110
Ejercicio 4.7. Sea X ∼ N(µ; σ 2 ), con ambos parámetros desconocidos. Con α = 0,05 y
una muestra aleatoria de tamaño 16 se quiere contrastar la hipótesis H0 : σ 2 = 1 con la
hipótesis alternativa H1 : σ 2 6= 1.
a) Sea σ12 > 1. Use el teorema de Neyman-Pearson para deducir la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.
b) Sea σ12 < 1. Use el teorema de Neyman-Pearson para deducir la la regla de decisión
óptima para contrastar las hipótesis H0 : σ 2 = 1 y H1 : σ 2 = σ12 . Asuma que µ = 0.
c) ¿Existe una regla de decisión óptima para el contraste de las hipótesis de interés?
d) Deduzca una regla de decisión para el contraste de las hipótesis que se desea realizar,
mediante el método de la razón de verosimilitud.
e) Según la regla anterior, cuál es la conclusión que corresponde a la muestra siguiente:
0,20 -0,78 0,74 1,78 1,70 2,23 -1,68 0,27

1,60 -0,59 -0,19 -1,19 -1,35 -0,48 -0,27 -1,62
Ejercicio 4.8. Sea X ∼ exp(θ), es decir, fX (x) = θ e−θ x , x > 0, con θ > 0. Se desea
contrastar las hipótesis H0 : θ = 0,2 y H1 : θ > 0,2, a partir de una muestra aleatoria de
tamaño n = 10 y con α = 0,05 (probabilidad de error tipo I).
a) Deduzca la región crı́tica UMP.

P
10
Tenga en cuenta que T = Xj ∼ G(10; θ) y, para θ = 0,2, FT (27,127) = 0,05.
j=1
b) Con la región crı́tica UMP, encuentre una expresión para β(θ) (la probabilidad de
cometer un error de tipo II) y bosqueje su gráfica a partir de lı́m + β(θ), lı́m β(θ) y
θ→0,2 θ→∞
los valores de la tabla siguiente que previamente deberá completar:
θ 0,20 0,22 0,25 0,28 0,33 0,36 0.40 0,50 0,66 1

β(θ)
Tenga en cuenta la tabulación de la distribución acumulada de T ∼ G(10; θ) siguiente:
θ 0,22 0,25 0,28 0,33 0,36 0,4 0,5 0,66 1

FT (27,127) 0,0817 0,1481 0,2346 0,4063 0,5124 0,6431 0,8683 0,9838 0,9999
c) Al tomar la muestra aleatoria de diez valores de X se registraron los valores siguientes:

2,41; 0,53; 4,54; 11,47; 10,80; 15,91; 0,07; 2,62; 9,95; 0,75. Cuantifique el riesgo
asociado para las decisiones como la que se debe tomar en este caso, si se considera
valores de θ entre 0,36 y 0,66.
111
Ejercicio 4.9. Si X ∼ P oisson(λ), se desea contrastar las hipótesis siguientes:
H0 : λ = 9 y H1 : λ 6= 9,
a partir de una muestra grande, de tamaño n = 36, y de modo que la probabilidad de cometer
a) Encuentre una regla de decisión por el método de la razón de verosimilitud.
b) Determine la decisión correspondiente a la muestra siguiente:
5 3 2 6 6 7 3 3 6 7 7 9
7 5 3 12 6 10 7 2 6 8 0 7
4 6 5 6 3 5 5 9 3 9 5 3
Ejercicio 4.10. El ingreso de una región, medido en miles de soles, se considera una variable
aleatoria X. Se asume que X ∼ Pareto(1; θ); es decir, f (x) = θ x−(θ+1) , x > 1, con θ > 0.
X
Se desea contrastar las hipótesis H0 : θ = 8 y H1 : θ > 8, considerando n = 100 y α = 0,05.
a) Determine el estimador de máxima verosimilitud de θ. Use su distribución asintótica

para hallar un intervalo de confianza para θ.
b) Determine, la regla de decisión UMP para el contraste de hipótesis de interés.
c) Si se registró la muestra siguiente de ingresos:
1,04 1,01 1,08 1,21 1,20 1,30 1,00 1,04 1,18 1,01 1,02 1,00 1,00 1,02 1,02 1,00 1,03 1,04 1,07 1,04
1,04 1,04 1,22 1,05 1,05 1,03 1,36 1,15 1,48 1,02 1,29 1,00 1,11 1,15 1,35 1,05 1,03 1,12 1,04 1,13
1,01 1,02 1,01 1,04 1,06 1,06 1,04 1,43 1,00 1,02 1,00 1,24 1,01 1,03 1,13 1,1 1,15 1,11 1,01 1,01
1,12 1,09 1,02 1,04 1,07 1,11 1,07 1,02 1,34 1,10 1,06 1,14 1,15 1,03 1,02 1,18 1,01 1,01 1,13 1,12
1,43 1,24 1,22 1,07 1,06 1,10 1,06 1,01 1,00 1,14 1,10 1,12 1,08 1,01 1,20 1,04 1,02 1,02 1,03 1,03
Determine la conclusión que se deriva de la regla de decisión UMP. Analice qué ocurre
si considera el intervalo de confianza (determinado en la parte a) asociado con esta
muestra.
2
Ejercicio 4.11. Si X ∼ Weibull(2; θ), es decir, f (x) = 2θ x e−θ x , x > 0, con θ > 0.
X
P
n
a) Halle la distribución asintótica de Xj .
j=1
b) Para n = 49 y α = 0,05, determine la regla de decisión UMP para contrastar las

hipótesis H0 : θ = 9 y H1 : θ > 9. Puede usar el resultado de la parte anterior.
c) Considerando la región crı́tica UMP, encuentre una expresión para β(θ) : la

probabilidad de cometer un error del tipo II. Luego haga un bosquejo de esta gráfica
en el que considere los valores de lı́m+ β(θ) y lı́m β(θ).
θ→9 θ→∞
112
Ejercicio 4.12. En el ejercicio 3.12, sobre la rentabilidad de cierta operación financiera

X ∼ N(0, σ 2 ), suponga que se desea contrastar las hipótesis sobre la volatilidad (σ):
H0 : σ 2 = 4 y H1 : σ 2 > 4, con α = 0,05, a partir de una muestra aleatoria de 20
observaciones.
a) Deduzca la regla de decisión UMP.
b) Considerando la región crı́tica UMP, encuentre una expresión para β(σ 2 ) : la

probabilidad de cometer un error del tipo II. Luego, complete los valores de la tabla
siguiente:
σ2 9,5 10 15 20 25
β(σ 2 )
Obtenga 2lı́m+ β(σ 2 ), lı́m

2
β(σ 2 ) y, conjuntamente con la tabla anterior, bosqueje la
σ →9 σ →∞
gráfica de β(σ 2 ).
d) Determine la inferencia correspondiente a la regla de decisión UMP y la muestra dada

en el ejercicio 3.12. Concluya, según la regla de decisión UMP, y trate de cuantificar el
riesgo asociado a este tipo de conclusión.
e) Responder la parte anterior si considera el intervalo de confianza de la parte b del

ejercicio 3.12.
f) Para el contraste de hipótesis H0 : σ 2 = 9, con H1 : σ 2 = 25, determine cuál es el

mayor valor que puede asumir la potencia de cualquier regla de decisión con n = 20 y
α = 0,05.
Ejercicio 4.13. En el estudio respecto a la relación entre el consumo del bien A, Y, y el

precio del bien B, X, se considera el modelo de regresión lineal siguiente:
Yj = θ xj + ǫj , j = 1, . . . , 5,
donde x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5 son valores del precio de B fijados en el estudio,

mientras que ǫ1 , . . . , ǫ5 , son variables aleatorias independientes y con distribución normal
estándar, que corresponden a los errores del modelo.
a) Determine la regla de decisión óptima para contrastar las hipótesis H0 : θ = 0 y H1 :

θ = 1,5, a partir de la muestra (de consumos de A) Y1 , . . . , Y5 (asociada a los valores
de x1 , . . . , x5 ). Considere α = 0,05 y exprese esta regla a partir de θ̂ el estimador de
máxima verosimilitud (que también es el de cuadrados mı́nimos).
b) Para la muestra Y1 = 2, Y2 = 3,5, Y3 = 5,5, Y4 = 8, Y5 = 9,5, determine la inferencia

correspondiente a partir de los resultados de la parte anterior (no olvide incluir el riesgo
asociado).
113
Ejercicio 4.14. En el ejercicio 3.8, si X ∼ G(2, θ), se dedujo un intervalo del 95 % de

confianza para estimar a θ, a partir de una muestra aleatoria de X : X1 , . . . , X5 . Ahora
considere que para contrastar las hipótesis H0 : θ = 1,5 y H1 : θ 6= 1,5, se rechazará H0 , si
el valor del parámetro especificado en esta hipótesis no está en dicho intervalo de confianza.
a) Determine la probabilidad de cometer un error de tipo I con esta regla de decisión.
b) Suponga que θ = 2,5 y determine la probabilidad de cometer un error de tipo II.

P
5
Recuerde que T = Xj ∼ G(10, θ) y use el programa R o el Excel.
j=1
c) Determine la inferencia que corresponde a la muestra registrada en el ejercicio 3.8 y

evalúe el riesgo asociado.
Ejercicio 4.15. Resolver el ejercicio 3.23 mediante un contraste de hipótesis y el método

de la razón de verosimilitud.
Ejercicio 4.16. En el ejercicio 3.22, sobre el ingreso mensual de las familias en cierta región,
suponga que se desea contrastar las hipótesis H0 : θ1 = 1 y H1 : θ1 6= 1.
a) Considere una muestra aleatoria X1 , . . . , X100 y determine una expresión para

estadı́stica de verosimilitud L(θ1 , θ2 ) = L(θ1 , θ2 ; X1 , . . . , X100 ) y su logaritmo natural
Ln(L(θ1 , θ2 )). Luego, obtenga la forma de la región crı́tica que proporciona el método
de la razón de verosimilitud y comente al respecto de la conveniencia de la distribución
asintótica de la estadı́stica.
b) Si se usa la distribución asintótica de la razón de verosimilitud, determine el valor de

la constante c, de la ecuación (4.31), que define la región crı́tica en 4.32, con un nivel
de significación α = 0,05.
c) Con el nivel de significación α = 0,05, la muestra y los resultados proporcionados en el

ejercicio 3.22, determine la conclusión correspondiente al contraste de estas hipótesis.
No olvide dar el riesgo asociado.
d) Según el intervalo de confianza hallado en el ejercicio 3.22 para θ1 , ¿cuál serı́a la

conclusión respecto a este contraste de hipótesis?
Ejercicio 4.17. En el contexto del ejercicio 3.7, suponga que para estudiar si el modelo se
puede reducir a uno exponencial se consideran las hipótesis
H0 : θ1 = 1 y H1 : θ1 6= 1.
El tamaño de muestra se fija en 36 y la probabilidad de cometer el error de tipo I, en 0,05.
Determine la conclusión que se deriva del test de la razón de verosimilitud y la muestra

registrada.
114
Ejercicio 4.18. Los ingresos en cierto sector laboral siguen una distribución normal con
media µ = 20000 soles y desviación estándar σ = 1000 soles. Recientemente se ha sugerido
que la desviación estándar de estos ingresos es, en realidad, de 2000 soles. Para resolver
este problema estadı́sticamente se tomará una muestra aleatoria de 16 de estos ingresos y se
considerará una probabilidad de cometer un error tipo α = 0,05.
a) Formule el problema como una de contraste de hipótesis y determine la regla de decisión

óptima correspondiente.
b) Evalúe, mediante probabilidades, los riesgos a los que está sujeta la regla de
decisión deducida anteriormente. ¿Encuentra algún inconveniente para esta regla?,
¿qué sugerirı́a para mejorarla?
c) Concluya (clara y precisamente) a partir de la muestra de ingresos (en soles) siguiente:
23270,13 19101,61 20303,39 20984,96 21574,76 17864,82 21735,78 18111,64

22760,42 21766,99 22018,16 18432,84 19202,83 18542,15 17429,19 17930,26
Ejercicio 4.19. En la población de grandes empresarios de Lima se desea averiguar sobre

la proporción, p, de empresarios de acuerdo con cierta medida que el gobierno ha tomado
recientemente. En particular se tiene las hipótesis siguientes:
H0 : p = 0,75 y H1 : p < 0,75.
El problema será resuelto estadı́sticamente, a partir de una muestra aleatoria de 9
empresarios en la que se registrará si el empresario está de acuerdo, 1, o en desacuerdo,
0. Para cuantificar el riesgo tipo I se considerará α = 0,05.
a) Hallar la regla de decisión UMP. Observe que la muestra por observar corresponde a
la variable aleatoria:
(
1, si el empresario está de acuerdo,
X=
0, si el empresario está en desacuerdo;
por lo tanto, f (x) = px (1 − p)1−x , x = 0; 1.
X
Además, si T es la suma de una muestra de X de tamaño 9; entonces, T ∼ b(9; p). Por

lo tanto, se tiene la tabla siguiente de la distribución acumulada de T ∼ b(9; 0,75) :
x 0 1 2 3 4 5 6 7 8 9
F (x) 0 0 0 0,01 0,05 0,17 0,4 0,7 0,92 1
T
b) Al tomar la muestra aleatoria de 9 empresarios se registraron los valores siguientes:
0 0 1 0 0 1 0 1 0
Concluya (clara y precisamente) respecto de las hipótesis de interés, a partir de los

resultados anteriores.
115
5. Introducción a la inferencia bayesiana
5.1. Nociones previas
En el enfoque bayesiano, para hacer inferencia sobre determinado asunto, se parte de expresar
el conocimiento que se tenga de este mediante un modelo o distribución de probabilidades,
esto se puede explicar porque no conocemos exactamente el asunto por averiguar, ası́,
podemos asumirlo aleatorio y describirlo mediante una asignación o modelo de probabilidades
que refleje ese conocimiento. La inferencia se realiza a partir de una información recibida,
también considerada aleatoria y que está relacionada con el asunto de interés, formalmente
esta información la proporciona una muestra aleatoria de una variable cuya distribución
depende del asunto que se desea averiguar. La inferencia bayesiana consiste en determinar
cómo, por causa de esta información recibida, cambia el conocimiento que tenı́amos sobre el
asunto, es decir, en determinar el nuevo modelo de probabilidades que refleje lo aprendido,
esto es, el modelo de probabilidad, sobre el asunto, condicional al valor de la información
recibida.
A continuación describimos la estimación bayesiana para un parámetro; pero antes
advertimos que para tratar de mantener nuestra notación que para las variables aleatorias
usamos letras mayúsculas, denotaremos ahora al parámetro (la variable aleatoria) por θ y
cualquier valor particular de este por θ, de modo que para el espacio paramétrico (el conjunto
de valores posibles del parámetro) continuaremos con la notación Θ, ası́ podemos escribir,
por ejemplo, θ = θ, θ ∈ Θ.
Respecto a la inferencia clásica, la familia paramétrica de modelos para fX , el modelo
probabilı́stico de X, será ahora la familia de modelos para f , el modelo probabilı́stico
θ
X| =θ
de X dado θ = θ. Por ejemplo, si con la metodologı́a de la inferencia clásica se tiene

X ∼ exp(β), es decir, f (x) = β e−β x , x > 0, con β > 0;
X
entonces, con la metodologı́a de la inferencia bayesiana se tiene

X|β = β ∼ exp(β), es decir, f (x) = β e−β x , x > 0; con β > 0.
X| β =β
5.2. Inferencia bayesiana de parámetros
Definición 5.1. La distribución a priori de θ , f , es el modelo o distribución del parámetro,

θ
antes de tomar la muestra (antes de recibir la nueva información).
Observación 5.1. Como su nombre lo expresa, la distribución a priori refleja el conocimiento
que se tiene del parámetro, antes de tomar la muestra.
116
José Flores Delgado Introducción a la Inferencia bayesiana 117
Definición 5.2. Una muestra aleatoria simple de X está integrada por n variables aleatorias,
X1 . . . , Xn , tales que, dado cualquier valor del parámetro, digamos θ = θ, estas variables
son independientes y tiene el mismo modelo.
Definición 5.3. Dada una muestra observada, X1 = x1 . . . , Xn = xn , la distribución

a posteriori de θ , asociada a esta muestra, es el modelo condicional de θ dada esta muestra
observada: f
θ | X1 = x 1 . . . , Xn = x n
Observación 5.2. El objetivo de la metodologı́a bayesiana es obtener la distribución a
posteriori.
El Teorema de Bayes. este teorema proporciona una fórmula para obtener la distribución
a posteriori.
f(θ, x1 , . . . , xn )
θ, X1 . . . , Xn
f (θ) =
θ| X1 = x1 . . . , Xn = xn f (x1 , . . . , xn )
X1 = x 1 . . . , Xn
∝ f (θ, x1 , . . . , xn )
θ, X1 . . . , Xn
∝ f (θ) f (x1 , . . . , xn ),
θ X1 = x1 . . . , Xn = xn — θ=θ
y si la muestra es aleatoria simple
f (θ) ∝ f (θ) f (x1 , . . . , xn )

θ | X1 = x 1 . . . , Xn = x n θ X1 = x1 . . . , Xn = xn — θ=θ
∝ f (θ) f (x1 ) · · · f (xn )

θ X1 | θ =θ Xn | θ =θ
∝ f (θ) f (x1 ) · · · f (xn )

θ X| θ =θ X| θ =θ
Ası́, para obtener la distribución a posteriori asociada a una muestra aleatoria simple, se
tiene la fórmula general siguiente:
f (θ) ∝ f (θ) f (x1) . . . . f (xn)

θ | X1 = x 1 . . . , Xn = x n θ X| θ =θ X | Θ= θ
Esta es la fórmula para realizar la inferencia bayesiana sobre un parámetro es simple,

como también lo es su deducción; sin embargo, su aplicación puede requerir de de métodos
computacionales.
Ejemplo 5.1. (Estimación de la proporción) Para estimar la proporción P de personas

aprueban la gestión de una autoridad municipal, como se describió en el ejemplo 2.1, se
tomará una muestra aleatoria de tamaño n = 500 personas y para cada una de ellas se
registrará si está o no de acuerdo. Determinemos la distribución a posteriori.
117
Supongamos que la información disponible indique una proporción de aceptación de

alrededor de 0,2, con una varianza cercana a 0,01. Para esta información existen muchos
modelos que la reflejen, esto hace que la elección del modelo probabilı́stico que servirá de
distribución a priori sea subjetiva; ası́, elegimos uno conveniente pero que este en armonı́a
con esta información disponible. Podemos considerar una distribución a priori beta, pues esta
sirve para modelar variables con el rango de una proporción, cuyos parámetros resultarán
de las ecuaciones siguientes:
α αβ
0,2 = y 0,01 = 2
;
α+β (α + β) (α + β + 1)
por lo tanto, α = 2 y β = 8. Ası́, la distribución a priori que consideraremos está dada por
f (p) = 72 p(1 − p)7 , 0 < p < 1.

P =p
En este caso la variable X de la que se registrará una muestra, asume dos valores: 1, que
indica de acuerdo y 0, que indica en desacuerdo. Con el enfoque clásico se tenı́a X ∼ B(1,,p)
(véase el ejemplo 2.1), ahora con el enfoque bayesiano tenemos que X|P = p ∼ B(1; p),
por lo tanto,
f (x) = px (1 − p)1−x , x ∈ { 0; 1 }; 0 < p < 1.

X|P = p
Con estos dos modelos aplicamos la fórmula general para hallar la distribución a posteriori:
f (p) ∝ f (p) f (x1 ) . . . f (xn )

P | X1 = x1 . . . θ, Xn = xX|
n P = p X| P = p
∝ 72 p(1 − p)7 px1 (1 − p)1−x1 . . . pxn (1 − p)1−xn , xj ∈ { 0; 1 }, 0 < p < 1,

P
n P
n
1+ xj 7+n− xj
∝ p j=1
(1 − p) j=1
, xj ∈ { 0; 1 }, 0 < p < 1;
P
n P
n
Ası́, P | X1 = x1 . . . , Xn = xn ∼ B(2 + xj ; 8 + n − xj ).
j=1 j=1
De este modelo resulta toda inferencia estadı́stica bayesiana, veamos a continuación la

estimación puntual y un intervalo de confianza.
Definición 5.4. La estimación bayesiana está dada por la media de la distribución a

posteriori: θ̂ = E θ |X1 = x1 , . . . , Xn = xn
Ejemplo 5.2. Ası́, en el ejemplo anterior
P
n P
n
2+ xj 2+ xj
j=1 j=1
p̂ = E P | X1 = x1 . . . , Xn = xn = P
n P
n = 10+n
.
2+ xj +8+n− xj
j=1 j=1
Obsérvese que para n grande esta estimación bayesiana se aproxima a p̄, la estimación clásica;
en efecto, Pn
P
n xj
2+ xj 2 j=1 2
j=1 n
+ n n
+ p̄
p̂ = E P | X1 = x1 . . . , Xn = xn = 10+n
= 10 = 10 .
n
+1 n
+1
118
Definición 5.5. Sea g(x1 , . . . , xn ) definida por la estimación bayesiana, es decir,

θ̂ = E θ |X1 = x1 , . . . , Xn = xn = g(x1 , . . . , xn ). El estimador bayesiano está dado
por θ̂ = g(X1, . . . , Xn ).
Ejemplo 5.3. Como en el ejemplo anterior la estimación bayesiana está dada por
P
n P
n
2+ xj 2+ Xj
j=1 j=1
p̂ = 10+n
; entonces, el estimador bayesiano es P̂ = 10+n
.
Definición 5.6. Si L1 = L1 (X1 , . . . , Xn ) y L2 = L2 (X1 , . . . , Xn ) son estadı́sticas, tales que

P L1 ≤ θ ≤ L2 |X1 = x1 , . . . , Xn = xn = γ;
entonces, [ L1 , L2 ] es un intervalo de confianza bayesiano (o intervalo de credibilidad) del

100 γ % para estimar a θ .
Para construir el intervalo de confianza bayesiano del 100(1 − α) % de confianza usual basta
determinar a y b tales que

P θ ≤ a |X1 = x1 , . . . , Xn = xn = α2 y P θ ≤ b |X1 = x1 , . . . , Xn = xn = 1 − α2
o, equivalentemente, F (a) = α2 y F (b) = 1 − α2

θ | X1 = x 1 . . . , Xn = x n θ | X1 = x 1 . . . , Xn = x n
Ejemplo 5.4. Supongamos, en los ejemplos anteriores, que se considera n = 500 y al
registrar la muestra 200 de los electores manifestó estar de acuerdo con la gestión de la
autoridad. Ası́ la proporción en la muestra es p̄ = 0,4; por lo tanto, la estimación bayesiana
es
2 2
n
+ p̄ 500
+ 0,4
p̂ = 10 = 10 = 0,3960.
n
+1 500
+1
La distribución a posteriori:
P
n P
n
P | X1 = x1 . . . , Xn = xn ∼ B(2 + xj ; 8 + n − xj ) = B(202; 308).
j=1 j=1
Para encontrar el intervalo del 95 % de confianza bayesiano usual, usamos esta distribución y
ayuda computacional (por ejemplo, el Excel) par encontrar los valores de a y b que satisfacen
F (a) = 0,025 y F (b) = 0,975;

P | X1 = x 1 . . . , Xn = x n P | X1 = x 1 . . . , Xn = x n
ası́, a = 0,3541 y b = 0,4389, por lo tanto, [0,3541; 0,4389] es un intervalo del 95 % de

confianza para estimar a P, es decir,

P 0,3541 ≤ P ≤ 0,4389 |X1 = x1 , . . . , Xn = xn = 0,95;
por lo tanto, a partir de los resultados de esta muestra registrada, se infiere que existe
una probabilidad de 0,95 de que la proporción de electores (que están de acuerdo con la
gestión) está entre 0,3541 y 0,4389. Nótese que se puede reemplazar la palabra confianza por
probabilidad.
119
Ejercicio 5.1.
En el contexto de los ejemplos 3.1 y 3.3, en los que se trata de hacer inferencia sobre µ, el
tiempo promedio para llevar a cabo cierta tarea, se supuso que X ∼ N(µ; 102 ); es decir,
1
(x−µ)2
que fX (x) = 101√π e (2)102 − ∞ < x < ∞. Supongamos, ahora, que un estudiante dispone
de cierta información sobre este parámetro y decide aplicar el enfoque bayesiano.
a) Explique por qué es razonable esta decisión del estudiante.

1
(x−µ)2
b) Cómo debe expresar el estudiante que fX (x) = 101√π e (2)102 − ∞ < x < ∞, es
2
decir, que X ∼ N(µ; 10 ); si aplicará el enfoque estadı́stico bayesiano.
Use las notaciones que empleamos desde el curso anterior.
c) La información que dispone el estudiante indican que este parámetro tiene una media
de 50 y una desviación estándar de 4. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.
d) Para obtener inferencias, con el enfoque bayesiano, el estudiante usará la muestra

registrada en los ejemplos 3.1 y 3.3.
d1 ) Deduzca la distribución a posteriori correspondiente a esta muestra.

d2 ) Obtenga la estimación bayesiana y el error promedio correspondientes.
d3 ) Deducir un intervalo de confianza del 95 % e interprételo.
Comente la diferencia más importante que tiene esta interpretación respecto de la
correspondiente a los intervalos de confianza obtenidos con la estadı́stica clásica.
d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de las
hipótesis siguientes es más probable que sea verdadera: H0 : µ ≤ 50 o H1 : p > 50.
d5 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine el
valor tal que el parámetro sea menor o igual que este con una probabilidad de
0,5.
d6 ) Según la muestra registrada y el enfoque bayesiano, determine la confianza que
tiene el intervalo clásico del 95 % de confianza, obtenido en el ejemplo 3.3, para
estimar al parámetro.
120
Ejercicio 5.2.
Un estudiante de inferencia estadı́stica clásica considera X ∼ b(10; p), con p ∈ (0; 1)

x
desconocido; es decir, que fX (x) = 10
x
p (1 − p)10−x , x > 0. Puesto que el estudiante dispone
de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

x
b) Cómo debe expresar el estudiante que fX (x) = 10 x
p (1 − p)10−x , x > 0, es decir, que
X ∼ b(10; p), si aplicará el enfoque estadı́stico bayesiano.
c) La información que dispone el estudiante indican que este parámetro tiene una media de
0,8 y una desviación estándar de 0,1. Si el estudiante decide considerar una distribución
a priori beta, encuentre valores razonables para los parámetros que debe tener esta y
dé la función de probabilidad correspondiente.
d) Para obtener inferencias, con el enfoque bayesiano, el estudiante registra la muestra

aleatoria de 15 valores de X siguiente:
2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

d4 ) Según la muestra anteriormente registrada y el enfoque bayesiano, diga cuál de
las hipótesis siguientes es más probable que sea verdadera: H0 : p ≤ 0,8 o
H1 : p > 0,8.
0,5.
d6 ) Según la muestra anteriormente registrada y el enfoque bayesiano, determine la
confianza que tiene el intervalo [0,2; 0,6] para estimar al parámetro.
Ejercicio 5.3.
Resuelva el ejercicio anterior, pero considere ahora para la parte c que la información que
dispone el estudiante indican que este parámetro puede tomar valores indistintamente entre
cero y uno. Dé la función de probabilidad a priori que corresponde en este caso.
121
Ejercicio 5.4.
Un estudiante de inferencia estadı́stica clásica considera X ∼ g(p), con p ∈ (0; 1)

desconocido, es decir, que fX (x) = (1 − p)x−1 p, x = 1, 2, . . . . Puesto que el estudiante
dispone de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.
b) Cómo debe expresar el estudiante que fX (x) = (1 − p)x−1 p, x = 1, 2, . . . , es decir, que

X ∼ g(p), si aplicará el enfoque estadı́stico bayesiano.
c) La información que dispone el estudiante indican que este parámetro puede tomar
valores indistintamente entre cero y uno. Dé la función de probabilidad a priori que
corresponde en este caso.

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

H1 : p > 0,8.
valor, c, tal que la probabilidad de que el parámetro sea menor o igual que c sea
de 0,5.
Ejercicio 5.5.
dispone el estudiante indican que este parámetro tiene una media de 0,8 y una desviación
estándar de 0,1. Si el estudiante decide considerar una distribución a priori beta, encuentre
valores razonables para los parámetros que debe tener esta y dé la función de probabilidad
correspondiente.
122
Ejercicio 5.6.
Un estudiante de inferencia estadı́stica clásica considera X ∼ G(2; β), con β > 0

desconocido, es decir, que fX (x) = β 2 x e−β x , x > 0. Puesto que el estudiante dispone de
cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.
b) Cómo debe expresar el estudiante que fX (x) = β 2 x e−β x, x > 0, es decir, que
X ∼ G(2; β), si aplicará el enfoque estadı́stico bayesiano.
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 1 o H1 : β > 1.
0,5.
Ejercicio 5.7.
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.
123
Ejercicio 5.8.
Un estudiante de inferencia estadı́stica clásica considera X ∼ W eibull(2; β), con β > 0

2
desconocido, es decir, que fX (x) = 2β x e−β x , x > 0. Puesto que el estudiante dispone de
cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

2
b) Cómo debe expresar el estudiante que fX (x) = 2β x e−β x , x > 0, es decir, que
X ∼ G(2; β), si aplicará el enfoque estadı́stico bayesiano.
de dos. Si el estudiante decide considerar una distribución a priori Weibull con el
parámetro α = 1, encuentre un valor razonable para el otro parámetro que debe tener
esta y dé la función de probabilidad correspondiente.

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

las hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 0,1 o
H1 : β > 0,1.
0,5.
confianza que tiene el intervalo [4; 6] para estimar al parámetro.
Ejercicio 5.9.
dispone el estudiante indican que este parámetro tiene una media de dos y una desviación
estándar de uno. Si el estudiante decide considerar una distribución a priori gamma,
encuentre valores razonables para los parámetros que debe tener esta y dé la función de
probabilidad correspondiente
124
Ejercicio 5.10.
Un estudiante de inferencia estadı́stica clásica considera X ∼ P (λ), con λ > 0 desconocido,

es decir, que fX (x) = e−λ λx / x ! , x = 0, 1, . . . Puesto que el estudiante dispone de cierta
información sobre este parámetro, decide aplicar el enfoque bayesiano.
b) Cómo debe expresar el estudiante que fX (x) = e−λ λx / x ! , x = 0, 1, . . . , es decir, que

X ∼ P (λ), si aplicará el enfoque bayesiano.
de dos y una desviación estándar de uno. Si el estudiante decide considerar una
distribución a priori gamma, encuentre valores razonables para los parámetros que
debe tener esta y dé la función de probabilidad correspondiente.

2; 3; 4; 1; 3; 1; 2; 2; 3; 4; 5; 4; 3; 2; 4.

hipótesis siguientes es más probable que sea verdadera: H0 : β ≤ 1 o H1 : β > 1.
0,5.
confianza que tiene el intervalo [3; 6] para estimar al parámetro.
Ejercicio 5.11.
dispone el estudiante indican que este parámetro tiene una media de dos. Si el estudiante
decide considerar una distribución a priori Weibull con el parámetro α = 1, encuentre un
valor razonable para el otro parámetro que debe tener esta y dé la función de probabilidad
correspondiente.
125
Ejercicio 5.12.
Un estudiante de inferencia estadı́stica clásica considera X ∼ Ps(3; p), con p ∈ (0; 1)

desconocido, es decir, que fX (x) = x−1
3−1
(1 − p)x−3 p3 , x = 3, 4, . . . Puesto que el estudiante
dispone de cierta información sobre este parámetro, decide aplicar el enfoque bayesiano.

b) Cómo debe expresar el estudiante que fX (x) = x−1
3−1
(1 −p)x−3 p3 , x = 3, 4, . . . , es decir,
que X ∼ Ps(3; p), si aplicará el enfoque bayesiano.
de 0,75 y una desviación estándar de 0,1. Si el estudiante decide considerar una
distribución a priori beta, encuentre valores razonables para los parámetros que debe
tener esta y dé la función de probabilidad correspondiente.

4; 3; 4; 5; 3; 3; 4; 5; 4; 4; 6; 4; 4; 4; 5.

H1 : p > 0,75.
0,5.
126
Bibliografı́a
1. Calderón, Arturo (2012).

Apuntes de Clase de Estadı́stica.
Lima PUCP.
2. Jay Devore y Kenneth Berk (2007).

Modern Mathematical Statistics With Applications.
Duxbury Press.
3. Dudewicz E. y Mishra S. (1998).

Modern Mathematical Statistics. John Wiley y Sons.
4. Larson, Harold (1990).

Introducción a la Teorı́a de Probabilidades y Estadı́stica.
México: Ed. Limusa Wiley.
5. Mendenhall, William y Sincich, Terry (1997).

Probabilidad y Estadı́stica para Ingenierı́a y Ciencias.
México: Prentice-Hall Hispanoamericana, S.A.
6. Estadı́stica: teorı́a y métodos

Del Pino M. Guido
Santiago de Chile : Ediciones Universidad Católica, 2000.
7. Tucker (1989).
Introducción a la Teorı́a Matemática de Probabilidades y Estadı́stica.
Barcelona: Ed. Vinces Vives.
127

Estadistica Inferencial - 2014 - Flores PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Inferencial - 2014 - Flores PDF

Cargado por

Copyright:

Formatos disponibles

Estadı́stica Inferencial

Facultad de Ciencias Sociales

José Flores Delgado

Agradezco a la Facultad de Ciencias Sociales y a la sección de Matemáticas, por las

También quiero agradecer al profesor Arturo Calderón la valiosa información proporcio-

Me permito también felicitar a ustedes, alumnos, por su madurez demostrada al optar

José Flores Delgado.

Lima, agosto de 2014.

1. Vector aleatorio o variables aleatorias distribuidas conjuntamente 11

1.1. Modelo probabilı́stico conjunto . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.1. Propiedades de la función de distribución conjunta . . . . . . . . . . 14

1.2. Valor esperado de una función real de variables aleatorias . . . . . . . . . . . 14

1.3. Propiedades del valor esperado relacionadas con la suma de variables . . . . 15

1.4. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Forma alternativa para el cálculo de la distribución condicional . . . . . . . . 20

La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . 23

1.7. Propiedades del valor esperado y la varianza relacionadas con variables

1.8. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Propiedad para el cálculo del valor esperado . . . . . . . . . . . . . . . . . . 25

1.9. Covarianza y correlación de dos variables aleatorias . . . . . . . . . . . . . . 27

1.9.1. Propiedades de la varianza y la covarianza relacionadas con la suma

1.10. Vector de medias y matriz de varianzas-covarianzas . . . . . . . . . . . . . . 29

Media varianza de una transformación lineal . . . . . . . . . . . . . . . . . . 30

1.11. La distribución normal bivariable . . . . . . . . . . . . . . . . . . . . . . . . 30

1.12. La distribución normal multivariable . . . . . . . . . . . . . . . . . . . . . . 32

1.13. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 34

1.14. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2. Estimación puntual de parámetros . . . . . . . . . . . . . . . . . . . . . . . . 59

2.3. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 60

Esperanzas y varianzas de la media, varianza y proporción muestrales 60

Convergencia casi segura . . . . . . . . . . . . . . . . . . . . . . . . . 62

Convergencia en probabilidad (Plim) . . . . . . . . . . . . . . . . . . 63

Otras propiedades de convergencia, el Teorema de Slutsky . . . . . . 64

La Ley Fuerte de Los Grandes Números . . . . . . . . . . . . . . . . 64

El Teorema del Lı́mite Central . . . . . . . . . . . . . . . . . . . . . . 64

Criterio para convergencia en probabilidad . . . . . . . . . . . . . . . 65

2.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Distribución asintótica del estimador de máxima verosimilitud . . . . 67

Propiedad de invarianza del estimador de máxima verosimilitud . . . 67

2.4.3. Cuadrados mı́nimos y Regresión . . . . . . . . . . . . . . . . . . . . . 68

El modelo de regresión lineal simple sin intercepto . . . . . . . . . . . 69

El modelo de regresión lineal simple con intercepto . . . . . . . . . . 70

2.5. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

2.5.1. La distribución normal y el muestreo para estimar a la media, µ, de

2.5.2. La distribución ji-cuadrado y el muestreo para estimar a la varianza,

2.5.3. La distribución t de student y el muestreo para estimar a la media, µ,

2.5.4. La distribución F de Fisher y el muestreo para estimar la razón entre

2.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3. Estimación por intervalo 85

3.1. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2. Metodologı́a (método de la variable base ) . . . . . . . . . . . . . . . . . . . 86

3.3. Intervalo de confianza para la media µ cuando σ 2 es conocido . . . . . . . . 86

3.4. Intervalo de confianza para la media µ cuando σ 2 es desconocido . . . . . . . 87

3.5. Intervalo de confianza para la varianza σ 2 de una población normal . . . . . 87

3.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4. Pruebas o contrastes de hipótesis 97

4.2. El Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.3. El método de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . 106

4.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5. Introducción a la inferencia bayesiana 116