Está en la página 1de 161

Estadstica I

Guillermo Julin Moreno Apuntes UAM


Eduardo Miravalls Sierra Doble Grado Mat.Inf.
UAM - 13/14 C1 Cdigo en Github
14 de junio de 2016 13:10
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

ndice general

I Estadstica descriptiva 3
I.1 Estadstica descriptiva de datos univariantes . . . . . . . . . . . . . . 3
I.1.1 Estadsticos de tendencia central . . . . . . . . . . . . . . . . 3
I.1.2 Estadsticos de dispersin . . . . . . . . . . . . . . . . . . . . 3
I.1.3 Representacin grfica de datos . . . . . . . . . . . . . . . . . 4
I.2 Estadstica descriptiva de datos bivariantes . . . . . . . . . . . . . . . 8
I.2.1 Representacin grfica . . . . . . . . . . . . . . . . . . . . . . 8
I.2.2 Regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

II Muestreo aleatorio 11
II.1 Conceptos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 11
II.1.1 Distribuciones aleatorias . . . . . . . . . . . . . . . . . . . . . 12
II.2 Problema de inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 15
II.2.1 Interpretacin estadstica de la ley de los grandes nmeros . . . 15
II.2.2 Funcin de distribucin emprica . . . . . . . . . . . . . . . . . 15
II.3 Estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
II.3.1 Media muestral y poblacional . . . . . . . . . . . . . . . . . . 18
II.3.2 Varianza muestral y poblacional . . . . . . . . . . . . . . . . . 20
II.3.3 Estadsticos de orden . . . . . . . . . . . . . . . . . . . . . . 20

III Estimacin paramtrica 22


III.1 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
III.1.1 Propiedades interesantes de los estimadores . . . . . . . . . . . 23
III.1.2 Estimador de mxima verosimilitud (EMV) . . . . . . . . . . . 26
III.1.3 Mtodo de los momentos . . . . . . . . . . . . . . . . . . . . 42
III.1.4 Metodologa bayesiana . . . . . . . . . . . . . . . . . . . . . . 43
III.2 Estimacin por intervalos de confianza . . . . . . . . . . . . . . . . . 46
III.2.1 Intervalos de confianza asintticos basados en el TCL . . . . . 47
III.2.2 Mtodo de la cantidad pivotal . . . . . . . . . . . . . . . . . . 48
III.2.3 Construccin de intervalos de confianza habituales . . . . . . . 48
III.2.4 Intervalos de confianza bayesianos . . . . . . . . . . . . . . . . 49

IV Contraste de hiptesis 50
IV.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
IV.1.1 Teora de Neyman-Pearson . . . . . . . . . . . . . . . . . . . 51
IV.2 Problema de una muestra . . . . . . . . . . . . . . . . . . . . . . . . 52
IV.2.1 Regiones de rechazo para contrastes habituales . . . . . . . . . 53
IV.3 Contrastes para dos muestras . . . . . . . . . . . . . . . . . . . . . . 54
0
Documento compilado el 14 de junio de 2016 a las 13:10

1 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.4 Consistencia de tests. Tests insesgados y UMP . . . . . . . . . . . . . 57


IV.4.1 Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . 57
IV.4.2 Familias paramtricas con cociente de verosimilitudes montono
y tests ptimos . . . . . . . . . . . . . . . . . . . . . . . . . . 59
IV.4.3 Construccin de tests. Test de cociente de verosimilitudes . . . 60
IV.4.4 Tests Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . 64

A Anexos 65
A.1 Condiciones suficientes para permutar la derivada con la integral . . . . 65
A.2 Distribuciones notables . . . . . . . . . . . . . . . . . . . . . . . . . . 66
A.3 Regiones de rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

B Ejercicios 75
B.1 Tema 1 - Estadstica descriptiva . . . . . . . . . . . . . . . . . . . . . 76
B.2 Tema 2 - Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . 91
B.3 Tema 3 - Estimacin puntual paramtrica . . . . . . . . . . . . . . . . 99
B.4 Tema 4 - Intervalos de confianza . . . . . . . . . . . . . . . . . . . . 110
B.5 Tema 5 - Contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . 120
B.5.1 Hoja 5A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
B.5.2 Hoja 5B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

C Exmenes 142
C.1 Enero 2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
C.1.1 Solucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
C.2 Junio 2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
C.2.1 Solucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
C.3 Enero 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
C.3.1 Solucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

ndice alfabtico 159

2 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Captulo I

Estadstica descriptiva

I.1. Estadstica descriptiva de datos univariantes


La estadstica descriptiva es el conjunto de tcnicas para resumir la informacin
proporcionada por una gran masa de datos. El primer objetivo natural es resumir la
informacin que proporcionan esos datos.

I.1.1. Estadsticos de tendencia central

Media Definicin I.1 Media.


Pn
i=1 xi
x=
n
Es la medida de tendencia central ms utilizada. Es bastante sensible a los valores
atpicos (outliers), observaciones anormalmente grandes que aparecen en el conjunto
de datos por errores de transcripcin o medicin.

Mediana Definicin I.2 Mediana. Es el valor que divide a los datos en dos mitades, de tal
forma que la mitad son menores y la otra mitad mayores que la mediana.
La mediana se calcula de la siguiente forma: dado un conjunto de datos
{x1 , . . . , xn }, la mediana es x n+1 si n es impar y el promedio entre x n2 y x n2 +1 si
2
n es par.

I.1.2. Estadsticos de dispersin

Varianza Definicin I.3 Varianza.


n n
1X 1X 2
2
= (xi x)2 = x x2
n i=1 n i=1 i

3 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Desviacin Definicin I.4 Desviacin tpica.


tpica
= 2

La desviacin tpica es la raz de la varianza.

Cuantil Definicin I.5 Cuantil. Para p (0, 1) se llama cuantil p o qp al valor que deja el
100p % de los datos a la izquierda.

Cuartil Definicin I.6 Cuartil. Los cuartiles son los tres datos que dejan a la izquierda el 25,
50 y 75 por ciento de los datos respectivamente. Es decir:

Q1 = q0.25
Q2 = q0.5 . El cuartil dos es la mediana.
Q3 = q0.75

Hay varios mtodos para el clculo de cuantiles. Para hacerlo a mano, podemos
usar el siguiente mtodo.
Si el dato en la posicin p(n + 1) no es un nmero entero,
 entonces
  se interpola

entre las observaciones ordenadas que estn en la posicin p(n + 1) y p(n + 1) +1
de la siguiente forma: sea j la parte entera de p(n + 1) y m la parte decimal. Entonces,

qp = (1 m)xj + mxj+1

Coeficiente Definicin I.7 Coeficiente de asimetra. El tercer momento con respecto a la media
de asime- se define como n
tra 1X
(xi x)3
n i=1
que, en su versin adimensional dividimos por 3 .
Un valor diferente de 0 indica asimetra de las muestras. Sin embargo, 0 no garantiza
simetra, solo que ambas colas se compensan.

I.1.3. Representacin grfica de datos

Box-plot Definicin I.8 Box-plot. El diagrama de caja o box-plot (imagen I.1) nos permite
visualizar las medidas de dispersin respecto a la mediana. Hay que aadir una nueva
medida, el rango intercuartlico, la diferencia entre el primer y el tercer cuartil:

RI = Q3 Q1

4 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

A partir del rango intercuartlico obtenemos los lmites inferior y superior de la


representacin:

Figura I.1: Diagrama de caja

Lmite Definicin I.9 Lmite inferior/superior. Se define el lmite superior (LS) y el inferior
inferior/- (LI) de la siguiente forma:
superior

LS = Q3 + 1.5RI
LI = Q1 1.5RI

Cualquier dato fuera del intervalo [LI, LS] se considera un atpico.

Histograma Definicin I.10 Histograma. El histograma se trata de una aproximacin discreta


a la funcin de densidad continua f (t) de la variable que estamos midiendo. Es un
diagrama de frecuencias que mantiene la forma de esa funcin de densidad.
Definimos una serie, las marcas de intervalos an1 , . . . , ann , donde n es el nmero de
intervalos y la longitud de cada intervalo es hn = anj+1 anj . Sea el conjunto {xi }i=0,...,m
los datos de nuestra muestra. Entonces, el estimador, la funcin fn , se define de la
siguiente forma:

 i m
X

i  xi anj , anj+1 1(anj ,anj+1 ] (xi )

fn (t) = = i=1
nhn nhn

5 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Recordemos la funcin indicatriz


(
1 nA
1A (n) =
0 n
/A

A grandes rasgos, lo que hace en una funcin es definir un nmero de intervalos


fijos de ancho hn . Al evaluar fn (t) buscamos en qu intervalo cae t y contamos cuntas
de nuestras mediciones estn tambin en ese intervalo.

Figura I.2: El histograma es una aproximacin de la funcin de densidad real en base


a la muestra que hemos obtenido.

I.1.3.1. Estimadores ncleo o kernel

Mtodo de Definicin I.11 Mtodo de ventana mvil. El mtodo de ventana mvil nos da una
ventana estimacin de la funcin de densidad en un punto t midiendo los xi que estn en el
mvil
intervalo de radio hn centrado en t. Matemticamente:

n n  
1 X 1 X t xi
fn (t) = 1[thn ,t+hn ] (xi ) = 1[1,1]
n2hn i=1 n2hn i=1 hn

Podemos reemplazar la funcin 12 1[1,1] por otra, llamada la funcin de densidad


K, kernel o ncleo:

Estimador Definicin I.12 Estimador ncleo. Dada una funcin de densidad K simtrica, no
ncleo necesariamente positiva, definimos el estimador kernel como:

n n  
1X 1 X t xi
fn (t) = Kh (t xi ) = K
n i=1 nhn i=1 hn

con Kh (x) = h1 K( hx ).
La eleccin del ncleo K no afecta especialmente a lo bien aproximada que est la
funcin de densidad. Sin embargo, s que influye la seleccin de la ventana hn (figura

6 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

I.3), tambin llamada bandwith en ingls. Si escogemos una ventana muy pequea,
damos demasiado peso a los datos de nuestra muestra. Si elegimos una ventana muy
grande, nuestra muestra pierde importancia y podemos perder informacin importante.
La eleccin del hn ms habitual Zes el que minimiza la distancia L2 entre f y f ,
 2
es decir, el parmetro que minimice
fh f . Sin embargo, hay un problema: no
sabemos qu es f . Hay trucos que imagino que veremos ms tarde.

Figura I.3: Los efectos que causa elegir una ventana ms grande o ms pequea en
el estimador

t2
Las funciones kernel ms usadas son la uniforme, 12 1[1,1] , la gaussiana 12 e 2 y
la de Epanechnikov, que matemticamente es la que mejor aproxima f .
El estimador kernel fn (t) es la funcin de densidad de una medida de probabilidad
que es la convolucin 1 de dos medidas de probabilidad: una, Kh (x) (el kernel
reescalado) y otra que da probabilidad n1 a cada punto de la muestra {xi } (distribucin
o medida emprica).

Generacin de datos del estimador kernel Supongamos que K es el ncleo


gaussiano. Podemos generar datos artificiales de la densidad as:

x0i = xi + hn Zi , i = 1, . . . , k

donde xi es una observacin elegida al azar entre los datos originales y Zi una
observacin aleatoria con probabilidad N (0, 1). Es decir, lo que hacemos es aadir un
dato aleatorio de la muestra y sumamos una pequea perturbacin aleatoria.
1
http://en.wikipedia.org/wiki/Convolution

7 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

I.2. Estadstica descriptiva de datos bivariantes


En esta seccin estudiaremos dos variables (X, Y ) para explorar la relacin entre
ambas y tratar de inferir si existe una relacin funcional para predecir los valores de
una variable en funcin de los de la otra.

I.2.1. Representacin grfica

Diagrama Definicin I.13 Diagrama de dispersin. El diagrama de dispersin representa cada


de disper- variable en funcin de la otra para que podamos ver la posible relacin entre ambas.
sin Ver figura I.4.

Figura I.4: Diagrama de dispersin

8 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

I.2.2. Regresin

Recta de Definicin I.14 Recta de regresin.


regresin
La recta de regresin de y sobre x es la recta de forma y = a + bx que ms se
aproxima a los datos, minimizando los cuadrados de la distancia:
n
X
a, b) = arg min
( (yi a bxi )2
a,b i=1

La recta de regresin se calcula obteniendo primero b:

b = x,y
x2

donde x,y se denomina covarianza muestral de x e y:



Xn n
X
1 1
x,y = (xi x)(yi y) = xi yi xy
n i=1 n i=1

y despus, sabiendo que la recta pasa por el punto (x, y), obtenemos a

= y bx
a

El valor b se denomina coeficiente de regresin lineal o parmetro de la


regresin. Cada valor ei = yi yi se denomina residuo. Hay que notar que

n
X n 
X  Xn  
ei = yi a
bxi =
yi (y bx) bxi =
i=1 i=1 i=1
n 
X 
= yi bxi ny + nbx = ny nbx ny + nbx = 0
i=1

P
Esta ecuacin ( ni=1 ei = 0) junto con
n
X
xi e 1 = 0
i=1

son las dos restricciones entre los residuos que nos dan la recta.

Varianza Definicin I.15 Varianza residual. La varianza residual s2R o e2 mide,


residual aproximadamente el error cuadrtico cometido en la aproximacin dada por la recta
de regresin:

n
1X 2
e2 =
s2R = e
n i=1 i

9 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Coeficiente Definicin I.16 Coeficiente de correlacin lineal. El coeficiente de correlacin


de corre- lineal o coeficiente de Pearson
lacin
lineal

x,y
r=

x
y
que cumple las siguientes condiciones:

0 r2 1
e2 =
y2 (1 r2 )
x
r = b

y

nos indica el grado de ajuste lineal entre las dos variables. Un valor absoluto ms
cercano a 1 indica una correlacin ms fuerte. Un valor absoluto cercano a cero indica
una correlacin dbil. El signo, positivo o negativo, indica si la correlacin es creciente
o decreciente.

10 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Captulo II

Muestreo aleatorio

La muestra aleatoria de una cierta v.a.1 X se denomina como la muestra aleatoria


o simplemente muestra.
Durante este tema, usaremos conceptos de Probabilidad, que repasar aqu
brevemente2 .

II.1. Conceptos de probabilidad

Distribucin Definicin II.1 Distribucin de una v.a..


de una v.a.
PX {B} = P {X B}

Funcin Definicin II.2 Funcin de distribucin.


de distri-
bucin F (t) = P {X t}

Media de Definicin II.3 Media de una distribucin. Tambin llamada esperanza de X:


una distri- Z
bucin
E (X) = F (t) dt

1
variable aleatoria
2
repasa PROB I

11 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Teorema II.1 (Teorema de cambio


 de espacio de integracin). Sea g una funcin
real medible tal que E g(X) es finita, entonces
Z Z

E g(X)) = g(x) dF (x) = g(x) dP (x)
R R

En particular Z
E (X) := = x dF (x)
R
y Z
V (X) := = 2
(x )2 dF (x)
R

Momento Definicin II.4 Momento. El momento k es la esperanza de X elevado a una potencia


de orden k. Es el valor esperado de la distancia de orden k con respecto a la media
 
k = E (X )k

II.1.1. Distribuciones aleatorias


Ver apndice A.2 (pgina 66).

II.1.1.1. Criterios de convergencia

Queremos buscar convergencias entre variables aleatorias.

Convergencia Definicin II.5 Convergencia en distribucin.


en distri-
bucin Se dice que Xn converge dbilmente o en distribucin a X si la funcin de
distribucin de Xn , Fn (x), tiende a F (x) para todo x punto de continuidad de F ;
donde F y Fn son las funciones de distribucin de X y Xn respectivamente.
Esto es equivalente a decir que

 
lm P Xn (, x] = P X (, x]
n

Notacin:
d w
Xn X Xn X
n n

12 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Convergencia Definicin II.6 Convergencia en probabilidad. Se dice que Xn converge en


en proba- probabilidad a X si > 0 se tiene que
bilidad

P |Xn X| > 0
n

Es decir, que para cualquier error que tomemos el error cometido en la aproximacin
va a tender a cero siempre que tomemos un Xn suficientemente grande.
Notacin:
P
Xn X
n

Convergencia Definicin II.7 Convergencia casi segura. Tambin denotada c.s o a.s en ingls,
casi segura convergencia en casi todo punto (c.t.p) o convergencia con probabilidad 1.
Se dice que Xn converge a X casi seguro si el conjunto de puntos que no son
convergentes tiende a ser vaco. Es decir
 
P Xn X = 1
n

Otra forma de interpretarlo es: Xn X cuando el conjunto de los tales que


n
X() es el lmite de la sucesin Xn () tiene probabilidad 1.
Ms estrictamente, la condicin se expresa como
 
P  Xn () X() = 1
n

Notacin
c.s
Xn X
n

Teorema II.2. Se puede probar que si {Xn } es una sucesin de variables aleatorias
y X es variable aleatoria,

c.s P d
Xn X = Xn X = Xn X
n n n

La recproca no es cierta.

13 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Teorema II.3 (Teorema de Slutsky). Sean {Xn }, {Yn } sucesiones de variables


d P
aleatorias tales que Xn X, Yn c con c R constante. Entonces
n n

d
a. Xn + Yn X + c
n

d
b. Xn Yn X c
n

Xn d X
c. si c 6= 0.
Yn n c

II.1.1.2. Desigualdades bsicas

Teorema II.4 (Desigualdad de Markov). Sea X v.a. Entonces, > 0,


 E (X)
P |X| >

Teorema II.5 (Desigualdad de Chebichev). Sea X v.a. Entonces, > 0, se


cumple que
n o V (X)

P X E (X) >
2

14 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

II.2. Problema de inferencia

II.2.1. Interpretacin estadstica de la ley de los grandes


nmeros

Teorema II.6 (Ley de los grandes nmeros). Sea {xk } una sucesin de v.a.i.i.d.
con media finita . Se verifica entonces que
n
1X c.s
X= xi
n i=1 n

II.2.2. Funcin de distribucin emprica

Funcin Definicin II.8 Funcin de distribucin emprica. La funcin de distribucin


de dis- emprica asociada a la muestra {xn } se define mediante
tribucin
emprica n
1X
P {X t} = Fn (t) = 1(,t] (xi )
n i=1

Es decir, Fn (t) es la proporcin de puntos de la muestra que caen en el intervalo


(, t].
Sin embargo, surge una duda: converge la funcin de distribucin emprica a la
funcin de distribucin original?
Intuitivamente, podemos pensar que cuantos ms puntos cojamos, ms se
aproximar a la funcin de distribucin original. De hecho, eso es lo que demuestra el
siguiente teorema:

Teorema II.7 (Teorema de Glivenko-Cantelli). Sean {xn } v.a.i.i.d. con funcin


de distribucin F . Se verifica que
c.s
kFn F k = sup Fn (t) F (t) 0
tR n

donde kFn F k es el estadstico de Kolmogorov-Smirnov.

Demostracin. Empezamos demostrando la convergencia de los trminos


intermedios. Es decir, queremos demostrar que

c.s
Fn (t) F (t) (II.1)
n

15 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Tenemos que
n
1X
Fn (t) = 1(,t] (xi )
n i=1

A cada uno de los trminos de los trminos de la suma 1(,t] (xi ) los podemos
llamar yi . Estos valores son una muestra de la distribucin

Y = 1(,t] (X)

Por lo tanto y por la LGN (II.6)


n
1X c.s
Fn (t) = Yi = Y E (Y )
n i=1 n

pero

 
E (Y ) = E 1(,t] (X) = P X (, t] = F (t)
por lo tanto hemos demostrado (II.1).
Ahora tenemos que demostrar que el lmite por la izquierda converge. Es decir,
hay que demostrar que
c.s
Fn (t ) F (t ) (II.2)
n

. Esa convergencia se da si y slo si en un conjunto de probabilidad 1 se tiene que


Fn (t ) F (t ). Segn la definicin de lmite, esto se da si y slo si
n

> 0 N  n N = Fn (t ) F (t ) < (II.3)

Sabemos que

> 0  Fn (t ) = Fn (x) x (t , t + ) (II.4)

Seguimos:


F (t ) = lm F (x) > 0 > 0  x (t, t) = F (x) F (t ) <
xt 2
(II.5)
Tomamos x (t , t) con un delta que cumpla tanto la condicin en (II.4)
como en (II.5). Entonces


Fn (t ) F (t ) = Fn (x) F (x) + F (x) F (t ) Fn (x) F (x) + F (x) F (t )
| {z } | {z }
(a) (b)


Sabemos que (a) es menor que 2
por (II.3) y que (b) tambin es menor que 2
por (II.5), por lo tanto

16 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra


Fn (t ) F (t ) <

Buscamos ahora una particin finita de R dada por t0 =


t1 tk =
tal que para todo > 0 se cumpla que F (ti ) F (ti1 ) . Lo construimos

de forma recursiva: dado ti1 tomamos

ti = sup{F (z) F (ti1 + }


zR

El siguiente paso: para todo ti1 t ti se tiene que

Fn (t) F (t) Fn (t
i ) F (ti ) +

Como Fn es no decreciente (es una funcin de distribucin), tenemos tambin


que

Fn (t) F (t) Fn (ti1 ) F (ti1 )

Con estas dos ltimas ecuaciones, llegamos a que

 

sup Fn (t) F (t) max max Fn (ti ) F (ti ) , max Fn (ti ) F (ti ) +
n
tR i=1,...,k i=1,...,k

c.s
Por (II.1), sabemos que Fn (ti ) F (ti ) 0, y por lo tanto
n
c.s
max Fn (ti ) F (ti ) 0
i=1,...,k n

De la misma forma, usando (II.2) tenemos que


c.s
max Fn (t
i ) F (tn
i ) 0
i=1,...,k n

Por lo tanto, todo ese mximo enorme vale 0, de tal forma que


lm sup Fn (t) F (t) = lm kFn F k
n tR n

para cualquier > 0 arbitrario que cojamos. Es decir, que


c.s
kFn F k = sup Fn (t) F (t) 0
tR n

17 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

II.3. Estadsticos
Cuando extraemos una muestra {xn } de X se pueden calcular algunas medidas
resumen. Cualquiera de ellas se puede expresar matemticamente como una funcin
T (x1 , . . . , xn ) de la muestra.

Estadstico Definicin II.9 Estadstico. Sea T (x1 , . . . , xn ) una funcin cuyo dominio incluye el
espacio muestral del vector aleatorio (X1 , . . . , Xn ). Entonces la variable aleatoria T se
denomina estadstico. La nica restriccin es que un estadstico no puede ser funcin
de un parmetro.
Como la distribucin de T se calcula a partir de la distribucin de las variables
Xi que constituyen la muestra, la denominaremos distribucin de T en el muestreo
(sampling distribution).

Error tpi- Definicin II.10 Error tpico. El error estndar o error tpico de un estadstico T ,
co es la desviacin tpica de su distribucin en el muestreo. Como en ocasiones depende
de alguna cantidad desconocida, tambin se denomina error tpico a una estimacin
de ese valor.
T
En ocasiones, se cumple que sigue una distribucin t de Student, lo que nos

permitir definir intervalos de confianza.

II.3.1. Media muestral y poblacional

Media Definicin II.11 Media muestral. La media muestral


muestral
n
1X
X= Xi
n i=1

se puede expresar de la siguiente forma


Z
X= x dFn (x)
R

La definicin es anloga con la de la media poblacional


Z
= x dF (x)
R

Esto nos da una clave de la estadstica: sustituir todo lo que desconozco de la


poblacin con su anlogo muestral3 (en este caso, pasamos de la funcin de distribucin
terica a la funcin de distribucin emprica). Slo quedara ver si los estimadores que
resultan son adecuados.

3
mtodo plugin

18 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La media muestral tiene otras relaciones muy importantes con :


 
1. X es estimador insesgado o centrado de : E X =
  2
2. V X = . Como es inversamente proporcional, est claro que cuantos ms
n
datos haya, mejor nos aproximaremos a lo que queremos estimar.

Teorema II.8 (Teorema central del lmite). Suponemos que {Xn } son v.a.i.i.d.
con media y desviacin tpica finitas. Entonces

X d
n Z N (0, 1)
n

Si denotamos la funcin de distribucin de la normal como


Z x
1 t2
(x) = e 2
2
entonces
( )
X
t R P n t (t) = P {Z t}
n

Por tanto, para n grande se cumple


 
  x
P n X x ( )

aunque las Xi no tengan distribucin normal.


Es decir:
X
n n(X ) N (0, )


X N (0, ) X N (, )
n n

19 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

II.3.2. Varianza muestral y poblacional


Una medida importante de dispersin de una variable aleatoria es la varianza
Z
V(X) = = (x )2 dF (x)
2
(II.6)
R

Varianza Definicin II.12 Varianza muestral.El anlogo muestral de 2 es la varianza


muestral muestral. Utilizando el criterio plugin en (II.6)

Z n
1X
n2
2
= (x X) dFn (x) = (Xi X)2
R n i=1

Teorema II.9. La varianza muestral cumple lo siguiente

 n1 2
E
n2 =
n
c.s
n2 2

n

Por lo tanto, la varianza muestral es un estimador sesgado. No es un problema


grande ya que cuando n acaba convergiendo a 2 y el sesgo

 n1 2 1 2
E
n2 2 = 2 =
n n
tambin tiende a cero. Es decir, es asintticamente insesgado.

Cuasivarianza n2 usamos la
Definicin II.13 Cuasivarianza muestral. En lugar de usar
muestral cuasivarianza muestral, definida como
n
S2 = n2

n1
de tal forma que se tiene

E S 2 = 2
c.s
S 2 2
n

II.3.3. Estadsticos de orden

20 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Estadstico Definicin II.14 Estadstico de orden. Dada una muestra {Xn }, se denotan como
de orden
X(1) X(n)

las observaciones de la muestra ordenadas de menor a mayor, llamados estadsticos de


orden. Cuando la distribucin de las v.a. es continua, la probabilidad de coincidencia
en valores es 0 y con probabilidad 1 se tiene que

X(1) < < X(n)

Los estadsticos de orden pueden utilizarse para definir la mediana o los cuartiles.
Sin embargo, podemos usar la funcin cuantlica para definir mejor estos conceptos.

Funcin Definicin II.15 Funcin cuantlica. La funcin cuantlica en p es el punto que deja
cuantlica una probabilidad p a la izquierda, de tal forma que una proporcin p de los individuos
de la poblacin X sera menor que el cuantil poblacional de orden p.
La funcin cuantlica correspondiente a la funcin de distribucin F se define

F 1 : R 7 (0, 1)

F 1 (p) = nf x  F (x) p

La funcin cuantlica nos permite obtener los cuantiles poblacionales de orden


p al valor F 1 (p). El anlogo es el cuantil muestral de orden p, se define a partir
de la funcin de distribucin emprica como Fn 1 (p).

21 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Captulo III

Estimacin paramtrica

En este tema supondremos que la muestra es absolutamente continua o discreta,


con funcin de densidad o probabilidad f (.; ) que es totalmente conocida salvo el
valor de un parmetro del cul slo se conoce su rango de posibles valores , al que
se llama el espacio paramtrico.

III.1. Estimadores

Estimador Definicin III.1 Estimador. Sean {Xn } v.a.i.i.d. con distribucin comn caracterizada
por la funcin de densidad/masa f (; ), con un parmetro desconocido del que slo
se sabe que pertenece al espacio paramtrico R.
El estimador es una funcin medible n = Tn (X1 , . . . , Xn ) que se utiliza para
estimar o aproximar el valor de .
Cuando tenemos una muestra aleatoria {Xn }, cada Tn (X1 , . . . , Xn ) es un
estimador de , una variable aleatoria. Si por el contrario tenemos una serie de
observaciones de una muestra {xn } entonces Tn (x1 , . . . , xn ) es una estimacin de .
Podemos evaluar la calidad de un estimador con el error cuadrtico medio
(ECM):


ECM(Tn ) = E (Tn )2

Si sumamos y restamos E (Tn ), nos queda que

ECM(Tn ) = V (Tn ) + sesgo2 (Tn )

que nos describe el error cuadrtico medio en funcin de la varianza y del sesgo de
Tn .

22 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.1.1. Propiedades interesantes de los estimadores


Buscaremos varias propiedades interesantes de los estimadores:

III.1.1.1. Ausencia de sesgo

Se dice que un estimador Tn es insesgado si, siempre que Xi f (; ) se tiene


que
E (Tn ) =

III.1.1.2. Consistencia

Se dice que {Tn } = {Tn (X1 , . . . , Xn )} es consistente en probabilidad si, siempre


P
que Xi f (.; ) se tiene que Tn .
n

Si reemplazamos la consistencia en probabilidad por la convergencia casi segura,


se obtiene la consistencia fuerte o casi segura.
Para probar la consistencia fuerte, usaremos el siguiente teorema:

Teorema III.1 (Teorema de la aplicacin continua). Sea g : R 7 R continua


en todo punto de un conjunto C tal que P {X C} = 1, entonces

d d
Si Xn X entonces g(Xn ) g(X).
n n

P P
Si Xn X entonces g(Xn ) g(X).
n n

c.s c.s
Si Xn X entonces g(Xn ) g(X).
n n

Otra forma de probarlo sera usar la desigualdad de Markov (II.4). Buscamos probar
que


P |Tn | > 0
n

entonces

 
P |Tn | > = P (Tn )2 > 2

que por Markov tenemos que

 E (Tn )2
P (Tn ) >
2 2

2

23 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

y entonces slo nos quedara probar que E (Tn )2 0.


n

Tambin podemos usar condiciones suficientes

Teorema III.2 (Condicin de Borel-Cantelli). Si se cumple que


X 
P |Tn | > < > 0
n=1

c.s
entonces Tn .
n

Con esta condicin, bastara ver que la probabilidad o la esperanza convergen y


automticamente se cumplira la condicin.

Ejemplo: Sean {Xn } v.a.i.i.d. con distribucin uniforme en el intervalo [0, ] con
> 0. Estudiar la consistencia de los siguientes estimadores de

a)
Tn = 2X

Este estimador se basa en que E (X) = 2 . Esto se estima mediante la media


muestral X, y por lo tanto un estimador razonable sera duplicar esa media muestral:
Tn = 2X.
Como Tn se expresa como una funcin continua de la media muestral, por la LFGN
y el teorema de la aplicacin continua

c.s
Tn = g(X) g() = 2 = 2E (X) =
n

y por lo tanto tiene consistencia fuerte.

b)
Tn = X(n) = max{X1 , . . . , Xn }

Aqu usaremos la segunda herramienta: estudiar la probabilidad que el estimador


no se aleja del valor esperado en ms de :

 n o  
P |Tn | > = P X(n) > = P X(n) > = P X(n) <

Si pedimos que el mximo sea menor que , es lo mismo que pedir que lo sean
todas las observaciones:

24 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra


P X(n) < = P {X1 < , . . . , Xn < }

Y con esto logramos quitarnos los estadsticos de orden, que nos causan problemas
al tratar de seguir con la demostracin. Como las variables de la muestra son
independientes, podemos expresarlo todo como producto

n
Y  n

P {Xi < } =
i=1

Esta probabilidad est contenida en el intervalo (0, 1) y por lo tanto converge a


cero cuando n . Entonces, Tn es un estimador de consistente en probabilidad.
Para examinar si se cumple la condicin de Borel-Cantelli, examinamos la serie

X  n
 X
P |Tn | > = <
n=1 n=1

se cumple la condicin y es un estimador consistente casi seguro.


Si quisisemos explorar cul de los dos estimadores es mejor, usaramos el error
cuadrtico medio.

III.1.1.3. Normalidad asinttica

Se dice que unasucesin de estimadores {Tn } del parmetro es asintticamente


normal con tasa n si

d
n(Tn ) N (0, )
n

Cmo se puede probar la normalidad asinttica? La herramienta se llama el


mtodo delta y es consecuencia casi inmediata del teorema del valor medio y de las
propiedades de la convergencia en distribucin: intentaremos expresar el estimador que
se propone como una funcin C 1 de la media muestral y aplicar entonces el Teorema
Central del Lmite (II.8).
Si llamamos Tn = g(X) con g C 1 entonces podemos expresar, con un entre
X y


n(g(X) g()) = g 0 ( ) n(X )
TV M

c.s c.s
Como X entonces y por lo tanto y usando el Thm. de la
n n
c.s
aplicacin continua (III.1) g 0 ( ) g 0 (). Al final
n

d
g 0 ( ) n(X ) N (0, g 0 () )
n

25 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

En general, se habla de normalidad asinttica con tasa an si se cumple que


d
an (Tn ) N (0, )
n

con an sucesin creciente y mayor que cero.

III.1.2. Estimador de mxima verosimilitud (EMV)


En lo que sigue vamos a suponer que {Xn } es una muestra formada por v.a.i.i.d.
cuya distribucin tiene una funcin de densidad o de masa f (.; 0 ) perteneciente a una
familia de funciones {f (.; )  }. 0 nos indica el valor real, y es un parmetro
genrico.
Intuitivamente, lo que pensamos con este mtodo es que la funcin de masa mide
lo verosmil que es que salga un cierto parmetro.

Funcin Definicin III.2 Funcin de verosimilitud. Tambin llamada likelihood function.


de verosi- Dada una muestra fija {xn }, se define como
militud
n
Y
Ln (; x1 , . . . , xn ) = Ln () = f (xi ; )
i=1

Estimador Definicin III.3 Estimador de mxima verosimilitud. Tambin llamado EMV o


de mxima MLE (maximum likelihood estimator) es el argumento que maximiza la funcin de
verosimili- verosimilitud:
tud

n = n (x, . . . , xn ) = arg max Ln (; x1 , . . . , xn )


cuando ese mximo est bien definido.


Para evitar usar derivadas en un producto potencialmente muy largo, podemos
maximizar el logaritmo de la verosimilitud, que es creciente y est bien definido porque
la densidad es siempre mayor que cero, y los casos en los que sea cero no los estudiamos
porque no ocurren (ocurren con probabilidad 0).

III.1.2.1. Clculo efectivo

El valor del estimador se obtiene como solucin de la ecuacin de verosimilitud.

n
X
log Ln = log f (; xi ) = 0
i=1

Ejemplos

26 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Distribucin de Poisson de parmetro . Suponemos que X Poisson ()


con > 0, de tal forma que
x
P {X = x} = e ; x Z+
x!

Dada una muestra {xn } de X. Entonces

P
n
n n n xi
Y Y Y x
n i=1
Ln () = f (xi ; ) = P {X = x} = e =e
i=1 i=1 i=1
x! x1 ! xn !

Tomamos logaritmos:
n
X
log Ln () = n + log xi log (x1 ! xn !)
i=1

y derivando
n
1X
log Ln () = n + xi
i=1

de tal forma que nos queda


X n
= 1
xi = x
n i=1

En la imagen (III.1) vemos cmo las diferentes funciones se aproximan a = 1.

Figura III.1: Diferentes funciones de verosimilitud para diferentes muestras de la


distribucin de Poisson

27 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Distribucin normal de parmetros , Tenemos


1 1 (x)
2
f (x; , ) = e 2 2
2 2

28 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La funcin de verosimilitud es

n P
n
Y 1 12
2
(xi )2
Ln = f (xi ; , ) = e i=1

i=1
(2)n/2 ( 2 )n/2

Tomamos logaritmos:

n
n 1 X
log Ln = log(2) n log 2 (xi )2
2 2 i=1

Derivamos con respecto de


n
X Xn
log Ln 1 1
= 2 (xi )(1) = 2 xi n = 0 = x
i=1 i=1

de tal forma que


= x.
Hacemos lo mismo con
n
log Ln n 1 X
= + 3 (xi )2 =
i=1

n n
1 1 X 1X
= n + 2 (xi )2 = 0 2 = (xi x)2
i=1 n i=1

2 = 2.
luego

Distribucin Weibull La funcin de densidad de la distribucin de Weibull, que


toma dos parmetros k y , es

 k1
k x x k
f (x; , k) = e( ) 1[0,) (x)

La funcin de verosimilitud para los dos parmetros es:

n
Y Y n  k1
k xi xi k
Ln (k, ) = f (xi , , k) = e( ) =
i=1 i=1

k1 k1
n P
n n P
n
Y 1k xki Y 1k xk
n n n(k1) i=1 n nk i=1 i
=k xi e =k xi e
i=1 i=1

Tomamos logaritmos:

29 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

n
X n
1 X k
log L = n log k nk log + (k 1) log xi k x
i=1
i=1 i

y derivamos con respecto de ambas variables



n
X n
X
log L 1 k 1
= nk (k)k1 xki = n + k xkk = 0
i=1
i=1

X n X n  
log L n xi k x1
= n log + log xi log =0
k k i=1 i=1

Con la primera ecuacin, tenemos que

k1
Xn Xn
1 1
k = xki = xk
n i=1 n i=1 i

De la segunda ecuacin resulta prcticamente imposible despejar k. Sin embargo,


podemos usar mtodos numricos para obtener el valor de k.

Teorema III.3 (Invarianza del EMV). Si es una funcin biyectiva y es el e.m.v.



de , entonces el e.m.v. de () es ()

Por ejemplo, tomamos X N (, ). Ya habamos calculado el e.m.v. de la


varianza, que era la varianza muestral.
Cmo calcular entonces
el e.m.v. de la
desviacin tpica? Sabiendo que = 2 , tomamos () = que es una funcin
biyectiva en R+ y por lo tanto podemos decir que emv () =
2

III.1.2.2. Motivacin del mtodo

Estudiamos la siguiente funcin



Yn n
1 1 1X
log Ln () = log f (Xi , ) = log f (Xi ; )
n n i=1
n i=1

que por la L.G.N. (II.6) converge a una funcin () que es el valor esperado de
esos logaritmos de las muestras:

1
logLn () ()
n n

donde Z
 
() = E0 log f (X; ) = log f (x; )f (x; 0 ) dx

30 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Teorema III.4 (Teorema MV1). Sea X f (.; 0 ). Supongamos que se satisfacen


las siguientes condiciones:

MV0) Parametrizacin adecuada Las distribuciones son distintas si el


parmetro es distinto.

MV1) Soporte comn Las distribuciones f (.; ) tienen un soporte comn.


Es decir, que las funciones de densidad o de masa tienen valor distinto de cero en
los mismos puntos.

MV2) () es finita para todo .


Entonces 0 es el nico mximo de la funcin () y adems


P0 Ln (0 ; X1 , . . . , Xn ) > Ln (; X1 , . . . , Xn ) 1 6= 0
n

En el teorema se habla del soporte, definmoslo formalmente:

Soporte Definicin III.4 Soporte. El soporte de una funcin de distribucin o masa f es el


conjunto de puntos en el que el valor de f es distinto de 0. Es decir,

soporte f = {x R  f (x) 6= 0}

Para la demostracin, primero veremos la siguiente desigualdad:

Teorema III.5 (Desigualdad de Jensen). Supongamos que X es una v.a. tal que
E (X) < (su 1
 esperanza existe y es finita) y que es una funcin convexa tal
que E (X) < .
Entonces 
E (X) (E (X))

Con esto, podemos pasar a la demostracin del teorema (III.4):

Demostracin. Decir que

Ln (0 ; X1 , . . . , Xn ) > Ln (; X1 , . . . , xn )
1
como una parbola y = x2 , ms o menos

31 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

es equivalente a que

log Ln (0 ; X1 , . . . , Xn ) > log Ln (; X1 , . . . , xn )


X n Xn
log f (Xi ; 0 ) > log f (Xi ; )
i=1 i=1
n
X
1  
0> log f (Xi ; ) log f (Xi ; 0 ) =
n i=1
n    
1X f (Xi ; ) P f (Xi ; ) f (Xi ; )
= log E0 log = E0 log <0
n i=1 f (Xi ; 0 ) n f (Xi ; 0 ) f (Xi ; 0 )

usando la L.G.N (II.6). Aplicando ahora la desigualdad de Jensen (III.5)


 
f (Xi ; ) f (Xi ; )
E0 log > log E0
f (Xi ; 0 ) f (Xi ; 0 )

Entonces
Z Z
f (Xi ; ) f (x; )
E0 = f (x; 0 ) dx = f (x; ) dx = 1
f (Xi ; 0 ) f (x; 0 )

y por lo tanto
 
f (Xi ; )
E0 log = log 1 = 0
f (Xi ; 0 )

Entonces, > 0



1 X n  

f (X i ; ) f (X; )
P log E0 log > 0

n i=1 f (Xi ; 0 ) f (X; 0 )
n


1 X n  

f (Xi ; ) f (X; )
P log E0 log 1

n i=1 f (Xi ; 0 ) f (X; 0 )
n

 

1 f (X; )
Tomo = E0 log y entonces
2 f (X; 0 )

1 Xn  
f (Xi ; ) 1 f (X; )
P log < E0 log < 0 1
n f (Xi ; 0 ) 2 f (X; 0 ) n
i=1

32 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.1.2.3. Consistencia del mtodo

Teorema III.6 (Teorema MV2). Supongamos que se cumplen las condiciones del
teorema MV1 (III.4) y adicionalmente

MV3) El espacio paremtrico es un intervalo abierto no necesariamente


finito y, para casi todo x, f (x; ) es diferenciable respecto a con derivada
continua.
Entonces, con probabilidad tendiente a 1, la ecuacin


log Ln (; X1 , . . . , Xn ) = 0 (III.1)

tiene una raz n = n (x1 , . . . , xn ) que converge en probabilidad a 0 (el
verdadero valor del parmetro). Si adems suponemos que la raz es nica, entonces
n maximiza la verosimilitud Ln y por lo tanto es el estimador de mxima
verosimilitud.

Demostracin. Sea > 0. Entonces para casi todo2 x en el intervalo =


(0 , 0 + ) se tiene que f (x; ) es diferenciable con derivada continua.

Ln (0 )
Ln (0 ) Ln (0 + )

0 0 0 +

Cogemos entonces un conjunto Sn definido de la siguiente forma:

Sn = {(x1 , . . . , xn )  Ln (0 ; x1 , . . . , xn ) > Ln (0 ; x1 , . . . , xn )
Ln (0 ; x1 , . . . , xn ) > Ln (0 + ; x1 , . . . , xn )}

Aplicando el teorema MV1 (III.4), tenemos que P0 (Sn ) 1.


n

En algn punto del interior del intervalo hay un mximo local. Como puede
haber varios mximos locales, tomo n como el punto de mximo local ms cercano
a 0 .
Se cumple que cada uno de esos puntos de mximo satisfacen la ecuacin de
verosimilitud (III.1). En consecuencia n satisface tambin esa misma ecuacin. Por
lo tanto
   

P n 0 < 1 P n 0 0
n n

33 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

y entonces

P
n 0
n

III.1.2.4. Informacin de Fisher

Supongamos el conjunto de todos los estimadores de un parmetro . Su error


cuadrtico medio es
 
= V + sesgo2 ()
ECM()

Si queremos buscar el mejor estimador, buscamos los que minimicen el ECM. Por
lo tanto, nos interesaremos en el subconjunto de estimadores insesgados (sesgo = 0).
Sin embargo, no tenemos una forma clara de distinguir cul es mejor entre esos
estimadores insesgados. En esta seccin vamos a buscar una escala, a la que llamaremos
la informacin de Fisher, que nos dar una cota para la varianza de un estimador.
R
Suponemos que en la integral f (x; ) dx se puede derivar dos veces bajo el signo
R 2
integral (esto es, que 2 f (x; ) dx existe) y que adems se puede permutar la integral

y la derivada parcial (vemos condiciones suficientes en el apndice A.1, pgina 65).


Entonces
Z Z

f (x; ) dx = 1 = f (x; ) dx = 0

Por tanto
Z  

(log f (x; ))f (x; ) dx = E log f (X; ) = 0

Si derivamos de nuevo en la integral

Z Z
2 2
f (x; ) dx = 0 = f (x; ) dx =
2 2
Z Z
2
= log f (x; )f (x; ) dx + log f (x; ) f (x; ) dx = (?)
2
Z Z  2
2
= log f (x; )f (x; ) dx + log f (x; ) f (x; ) dx =
2
" # " 2 #
2
= E log f (X; ) + E log f (X; ) =0
2

El segundo valor se llama informacin de Fisher:


2
Casi todo: puntos con probabilidad no nula

34 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Informacin Definicin III.5 Informacin de Fisher. Se denota por I() la informacin de Fisher
de Fisher del parmetro
!  2 !
2
I() = E 2 log f (X; ) = E log f (X; )

Representa intuitivamente la cantidad de informacin acerca del valor del parmetro


contenida en una observacin de X.
En qu consiste esa cantidad de informacin? Tomemos, por ejemplo, una normal
N (0, ) con pequea. Una observacin X que hagamos nos dar mucha informacin
sobre el modelo, ya que todos los valores de la normal estn muy agrupados, y por lo
tanto I() ser grande. Si tomamos grande, una observacin X no nos dar mucha
informacin sobre el modelo porque los valores estn ms dispersos, y por lo tanto
tendremos un valor de I() pequeo.
La informacin de Fisher nos da una cota inferior para la varianza.

Teorema III.7 (Cota de Frchet-Cramr-Rao). Dado un estimador insesgado


de , entonces   1
V
nI()
1
donde nI()
se llama la cota de Frchet-Cramr-Rao.

Demostracin. Tomamos la v.a. Z como la derivada del logaritmo de la verosimilitud

X n

Z= log Ln (X, ) = log f (Xi ; )
i=1

3
La desigualdad de Cauchy-Schwartz establece que

Cov2 (Z, Tn )
V (Tn )
V (Z)
Veremos que el numerador vale 1 si Tn es un estimador insesgado, y que
V (Z) = nI().
Primero observamos que

Xn  

E (Z) = E log f (Xi ; ) = 0
i=1

Y la varianza

n
X   X n  2 !

V (Z) = V log f (Xi ; ) = E log f (X; ) [] = nI()
i=1
i=1

35 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La primera parte est demostrada.


Ahora vemos que, si E (Z) = 0, entonces

Cov (Z, Tn ) = E (ZTn ) E (Z) E (Tn ) = E (ZTn )


| {z }
0

Como Z y Tn dependen de la muestra

Z

E (ZTn ) = E Z(X1 , . . . , Xn ) Tn (X1 , . . . , Xn ) = Z(x1 , . . . , xn )Tn (x1 , . . . , xn )f (x1 , . . . , xn )
Rn

Como las X1 , . . . , Xn son independientes,

n
Y
f (x1 , . . . , xn ) = f (xi ; )
i=1

y la integral nos queda entonces como una serie de integrales iteradas

Z Z n
Y
Z(x1 , . . . , xn ) Tn (x1 , . . . , xn ) f (xi ; ) dxi
R R i=1

Vemos cunto vale Z:

n
X f (xi ; )

Z= log f (xi ; ) =
i=1
f (xi ; )

Pero


n
X n
Y n
X n
Y
f (xi ; )
f (xj ; )
f (xi ; )
f (xi ; ) dxi = f (xi ;
i=1 i=1 i=1 j=1
j6=i

que por la regla de la cadena es igual a


Yn

f (xi ; )
i=1

y entonces nos queda que

36 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Z Z n
 Y
cov ( Z, Tn ) = E (ZTn ) = . . . Tn (x1 , . . . , xn ) f (xi ; ) dxi =
R R i=1
Z Z Yn

= . . . Tn (x1 , . . . , xn ) f (xi ; ) dxi =
R R i=1

= E (Tn )

Como Tn es un estimador insesgado E (Tn ) = y entonces Cov (Z, Tn ) = 1.


Por lo tanto, nos queda que
  1
V
nI()

Adems, si Tn no fuese un estimador insesgado

  2
dpaE (Tn )
V
nI()

y por lo tanto
 2

E

(Tn )
ECM(Tn ) + Sesgo 2 (Tn )
nI()

Estimador Definicin III.6 Estimador eficiente. Se dice que un estimador es eficiente si su


eficiente varianza es igual a la cota de Frchet-Cramr-Rao (III.7), es decir
  1
V =
nI()

III.1.2.5. Eficiencia asinttica

Teorema III.8 (Teorema MV3). Supongamos que se verifican las condiciones


MV0 - MV3 (ver teoremas III.4, III.6) y adems:

R
MV4) La integral f (x; ) dx se puede derivar dos veces bajo el signo
integral.

MV5) Para cada x la densidad f (x; ) es tres veces diferenciable con respecto
a , con la tercera derivada continua en .

3
Por ejemplo, porque no tengo ni idea de dnde sale esto.

37 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

MV6) La informacin de Fisher es estrictamente positiva y finita: 0 <


I(0 ) <

MV7) Para cada 0 existen un nmero c > 0 y una funcin M (x), que
pueden depender de 0 , tales que

E0 M (X) <

y
3 log f

(x; ) M (x) x; (0 c, 0 + c)
3

Entonces, si n (X1 , . . . , Xn ) es cualquier sucesin consistente de soluciones de


las ecuaciones de verosimilitud, se verifica
!
 
d 1
n n 0 N 0, p
n I(0 )

Demostracin.

n () = Ln
(III.2)
0n = n ()
(III.3)

f
f0 = f (III.4)

donde la funcin III.3 se llama el score (quizs).


Recordemos que n () depende de la muestra. Para cada muestra fija se tiene

 2
n 0
n (n ) =
0n (0 ) + (n 0 )00n (0 ) + 000

n (n )
2

Para algn n entre n y 0 . Como el primer miembro es 0, resulta

  0 ()2
1
n n
n n 0 =  
n1 00n (0 ) 1
2n
n 0 000 ( )
n n

Vamos a demostrar que esto converge en tres pasos:


p
Numerador converge a N (0, I(0 )).

Primera parte converge a I(0 ).

38 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Segunda parte denom. converge a 0 en prob.

Tendremos por lo tanto que


p
 
d N (0, I(0 )

n n 0
n I(0 ) + 0

Y usando la tercera condicin del teorema de Slutsky (II.3), tendremos que


p !
N (0, I(0 ) d 1
N 0, p
I(0 ) + 0 n I(0 )

Parte 1: Numerador
X n
"  0 #
1 0 n f 0 (Xi ; 0 ) f (Xi ; 0 )
n (0 ) = E0
n n i=1 f (Xi ; 0 ) f (Xi ; 0 )

 
f 0 (Xi ;0 )
Como E0 f (Xi ;0 )
= 0 (vete t a saber por qu), la aplicacin del TCL (II.8)
f 0 (Xi ;0 )
a las variables Yi = f (Xi ;0 ) y la definicin de I(0 ) proporcionan directamente

1 0 d
p
(0 ) N (0, V (Y ))
n n n

Calculamos ahora esa desviacin tpica:

 
V (Y ) = E Y 2 E (Y )2 = E Y 2 =
 2 !

= E log f (X; ) = I()

Y por lo tanto nos queda que

1 0  p 
d
(0 ) N 0, I(0 )
n n n

Parte 2: Denominador A Operamos con

1
00n (0 )
n
00n con respecto a tenemos que
Si derivamos de nuevo

n 2
X f 00
(x i ; )f (x i ; ) f 0
(x i ; )
00n () =

i=1
f 2 (xi ; )

39 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Entonces n1 00n (0 ) es un promedio, y por la LGN (II.6)

2
00 0
1 P f (xi ; )f (xi ; ) f (xi ; )
00n (0 ) E0 =
n n f 2 (xi ; )
 0 2 !  00 
f (Xi ; 0 ) f (Xi ; 0 )
= E0 E0
f (Xi ; 0 ) f (Xi ; 0 )
| {z }
I(0 )

Operamos ahora con la segunda parte

  Z
f 00 (Xi ; 0 ) f 00 (Xi ; 0 )
E0 = f (Xi ; 0 ) dx =
f (Xi ; 0 ) R f (Xi ; 0 )
Z
2

= f (x; ) dx
R 2
=0

y como segn el enunciado del teorema podemos permutar la derivada con la


integral dos veces, tenemos que

Z Z
2 2 2

f (x; ) dx = f (x; ) dx = 0 =0
R 2 2 R 2
=0 =0 =0

Por lo tanto

1 P
00n (0 ) I(0 )
n n

Paso 3: Segunda parte del denominador


1  
000 P
n 0 n (n ) 0
2n n

Por hiptesis del teorema, n se considera consistente y entonces


 
n 0 0
n

000 ( ), y demostraremos
Analizaremos ahora la segunda parte de esa ecuacin, n n
que tiende a una constante.

n
000 1 X 3
n (n ) = log f (Xi ; )
n i=1 3

40 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Como n es consistente, n , que es un punto intermedio entre n y 0 , tambin


tiende a 0 en probabilidad. Entonces podemos aplicar la hiptesis MV7 del teorema
y acotar la derivada parcial:

3

3 log f (Xi ; ) M (Xi )

y por lo tanto podemos acotar en probabilidad

n
000 1 X
n (n ) < M (Xi )
n i=1

Este trmino converge a una constante por lo tanto, y entonces se cumple que

1  
000 ( ) P 0
n 0 n n
2n n

41 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.1.3. Mtodo de los momentos


Sea X f (x; ), donde = (1 , . . . , p ) es un parmetro p-dimensional, con
p 1.

Si los momentos k () = E0 X k , k = 1, . . . , p son funciones sencillas de los
i , un procedimiento natural para obtener un estimador de es resolver en 1 , . . . , p
el sistema de ecuaciones

m1 = 1 ()

mp = p ()

donde cada mk es el momento muestral:

n
1X k
mk = X
n i=1 i

La idea es estimar el parmetro de tal forma que los momentos muestrales coincidan
con los momentos poblacionales. Por la LGN, cuando n entonces mk k (0 ).
El mtodo de los momentos se utiliza poco ya que da peores estimadores que el
EMV. Sin embargo, puede resultar muy til en casos en los que el EMV se calcula
difcilmente o directamente no se puede calcular. Ah hay que usar mtodos numricos
de aproximacin, y usando el mtodo de los momentos podemos encontrar una primera
aproximacin que mejore la convergencia de los algoritmos numricos de bsqueda de
races.

III.1.3.1. Ejemplos

Si se tiene el modelo
1 + x
f (x; ) = 1[1,1](x) [1, 1]
2
no es sencillo calcular el EMV pero s obtener el estimador por el mtodo de los
momentos:
Z 1

E (X) = xf (x; ) dx =
1 3

Por tanto, la solucin de X = E (X) es n = 3X, cuya varianza es

    2 3 2
V n = V 3X = 9 =
n n
ya que
 1 2
2 = V (X) = E X 2 E (X)2 =
3 9

42 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Este estimador es consistente ya que, por la LGN, 3X 3E (X).


n

Supongamos un ejemplo ms complicado: X Beta(a, b).

(a + b) a1
f (x; a, b) = x (1 x)b1 1[0,1] (x)
(a)(b)
y

Z 1
(a + b) a
E (X) = x (1 x)b1 dx =
0 (a)(b)
Z 1
(a + b) (a + 1) (a + b + 1) a
= x (1 x)b1 dx =
(a) (a + b + 1) 0 (a + 1)(b)
| {z }
=1 (f. densidad)

Sabiendo que (p + 1) = p(p)

(a + b) (a + 1) (a + b) a(a) a
= =
(a) (a + b + 1) (a) (a + b)(a + b) a+b

y los estimadores quedan como

!
X(1 X)
a
=X 1
s2
!
b = (1 X) X(1 X)
1
s2

III.1.4. Metodologa bayesiana


En muchos casos se tiene cierta informacin a priori, antes de extraer la muestra,
sobre la probabilidad de los diferentes valores del parmetro . En estos casos se sabe,
o se supone, que ciertos intervalos de valores de son ms probables que otros y
se concreta esta informacin en una distribucin a priori sobre cuya funcin de
densidad se denota ().
De manera formal, la estadstica bayesiana considera que el parmetro es una
variable aleatoria y que la informacin previa se puede expresar a travs de la
distribucin a priori del parmetro.
Entonces, si antes tenamos una v.a. X f (x; ), ahora lo que diremos es que X
sigue una distribucin condicionada por un parmetro: X f (x|).
En este caso, la muestra X1 , . . . , Xn contiene informacin de la muestra y tambin
de nuestro parmetro. Es decir, que podemos considerar la funcin de distribucin de
la muestra como n
Y
f (xi |)
i=1

43 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Para juntar toda esta informacin usaremos el Teorema de Bayes:

Teorema III.9 (Teorema de Bayes). Sea A1 , A2 , . . . una particin del espacio


muestral y sea B un suceso cualquiera. Entonces

 P {Ai B} P B|Ai P {Ai }
P Ai |B = =P  
P {B} j P B|Aj P Aj

Esta formulacin se refiere a sucesos probabilsticos. Podemos reformularla con


la informacin a priori del parmetro:

f (x1 , . . . , xn |)()
(|x1 , . . . , xn ) = Z (III.5)
f (x1 , . . . , xn | )( ) d

donde es todo el espacio paramtrico. A (|x1 , . . . , xn ) se le denomina


distribucin a posteriori

Como es una funcin de distribucin, tenemos que


Z
(|x1 , . . . , xn ) d = 1

para toda posible muestra (x1 , . . . , xn ). Estudiaremos entonces la siguiente integral


Z
f (x1 , . . . , xn |)()
Z

f (x1 , . . . , xn | )( ) d

En esta, integral, el trmino


Z
f (x1 , . . . , xn | )( ) d

es constante. Por lo tanto, lo que nos interesar ser el numerador, la integral


Z
f (x1 , . . . , xn |)() d

que nos dar la informacin que necesitamos.

Estimador Definicin III.7 Estimador Bayes. Se define, para cada muestra dada (x1 , . . . , xn )
Bayes como la esperanza de la distribucin a posteriori:
Z
Tn (x1 , . . . , xn ) = (|x1 , . . . , xn ) d

44 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.1.4.1. Ejemplos

La estadstica bayesiana se suele usar para estimar los votantes de un partido


poltico. Por ejemplo, sea la proporcin de votantes de un partido P , y sea X la
v.a. Bernoulli que toma valor 1 cuando un votante elige P y 0 en otro caso. Es decir
(
f (x|) = si x = 1
f (x|) = 1 si x = 0

Entonces tenemos que


n
Y Pn Pn
xi
f (x1 , . . . , xn |) = f (xi |) = i=1 (1 )n i=1 xi

i=1

Suponemos que la distribucin a priori es una Beta(4,10):

(14)
() = 3 (1 )9 1[0,1] ()
(4)(10)

As pues, aplicando la frmula de Bayes (III.5) nos queda


P P P P
xi
(1 )n xi 3
(1 )9 = 3+ xi
(1 )9+n xi
(III.6)
y entonces
X X
(|x1 , . . . , xn ) Beta(4 + xi , 10 + n xi )

El estimador Bayes es, por lo tanto


P
4 + xi n 4 + 10 4
Tn = = x+
14 + n |4 + 10
{z+ n } |4 + 10 +{zn 4 + 10}
(A) (B)

Es decir, pondera las dos informacin que tenamos: la media de la distribucin


a priori (B) y la media muestral (A). Si nos fijamos en la expresin, si tenemos un
tamao muestral muy grande (n ) damos mucho ms peso a la informacin de la
muestra que a la distribucin a priori. Sin embargo, si tenemos menos muestras nuestra
distribucin a priori influir ms en el resultado.
P
Con los datos xi = 125 y n = 1000, el estimador Bayes toma valor 0.127,
mientras que el e.m.v. valdra 0.125. Es decir, nuestro estimador bayesiano pondera la
informacin que tenamos previamente y considera que en nuestra distribucin a priori
era ms probable valores ms altos.
Curiosamente, en (III.6) hemos pasado de una distribucin a priori a una distribucin
a posteriori fcilmente identificable con una distribucin Beta. Esto tiene que ver con
el concepto de familias conjugadas.

45 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.1.4.2. Familias conjugadas

Familia Definicin III.8 Familia conjugada. Sea F una familia de distribuciones paramtricas
conjugada f (|), ; y sea una familia de distribuciones a priori () sobre el parmetro
.
Diremos que es la familia de dsitribuciones a priori conjugada de F si la
distribucin a posteriori (|x1 , . . . , xn ) tambin pertence a para toda muestra
(x1 , . . . , xn ) y para toda a priori de .
Tenemos varias familias conjugadas identificadas:

F
Binomial Beta
Normal Normal

Tabla III.1: Familias conjugadas

III.2. Estimacin por intervalos de confianza


Al igual que en el tema anterior, vamos a obtener informacin sobre un parmetro
desconocido a partir de una muestra X1 , . . . , Xn . Habamos logrado una
estimacin puntual, pero, por qu va a ser vlido slo ese valor? Podra ser vlido
un valor cercano al estimador?
Este tema responde a esa pregunta: ofrece un intervalo que tpicamente contiene a
un estimador puntual, de posibles valores para un parmetro. Veremos cmo construir
ese intervalo y la informacin que ofrecen.

Intervalo Definicin III.9 Intervalo de confianza. Sea una muestra X1 , . . . , Xn de una v.a.
de con- con una funcin de distribucin F (.; ), con R un parmetro desconocido.
fianza (1) (2) (1) (2)
Sean dos estadsticos Tn (X1 , . . . , Xn ) y Tn (X1 , . . . , Xn ) con Tn < Tn y un valor
(0, 1). Supongamos que se verifica
n o
P Tn(1) (X1 , . . . , Xn ) < < Tn(2) (X1 , . . . , Xn ) = 1

Entonces para una realizacin concreta de la muestra x1 , . . . , xn se dice que el


(1) (2)
intervalo (Tn (x1 , . . . , xn ), Tn (x1 , . . . , xn )) es un intervalo de confianza para con
nivel de confianza 1 y lo denotaremos como

IC1 ()

Probemos esta definicin con una muestra X1 , . . . , Xn de v.a.i.i.d. N (, ) donde


es un parmetro desconocido y es conocida. Se sabe que

46 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

 

XN ,
n

y, tipificando,

X
N (0, 1)

n

Por tanto, si para cualquier (0, 1), z denota el cuantil 1 en la normal


estndar ((z ) = 1 , siendo la funcin de distribucin de la N (0, 1)) tenemos
( )
X
P z/2 < < z/2 =1

n

y, despejando
 

P X z/2 < < X + z/2 =1
n n

Y por lo tanto, el intervalo


 

x z/2 , x + z/2
n n

es un intervalo de confianza de nivel 1 para .


Intuitivamente y en trminos frecuentistas, si por ejemplo 1 = 0.95 y extraemos
muchas muestras de una N (0, 1) aproximadamente en el 95 % de los casos el intervalo
contendr el verdadero valor de .

III.2.1. Intervalos de confianza asintticos basados en el


TCL
 
Si X no es normal, sabemos que si y son finitas, encontes X N ,
n
por el TCL (II.8). Entonces
( )
X
1 =' P z/2 z/2

n

Es decir, obtenemos un intervalo de confianza aproximado si el tamao de la


muestra es grande.

Aplicacin: Intervalo de confianza aproximado para una proporcin p Sean


X1 , . . . , Xn i.i.d. Bernoulli(p). Por el TCL

47 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

X p
q N (0, 1)
p(1p)
n

y reemplazando p por su estimador natural p = X obtenemos que el intervalo de


confianza aproximado para p es
r r !
x(1 x) x(1 x
x z/2 , x + z/2
n n

III.2.2. Mtodo de la cantidad pivotal


Una metodologa general para obtener un intervalo de confianza para consiste en
encontrar una funcin Q(; X1 , . . . , Xn ), llamada cantidad pivotal cuya distribucin
no dependa de y sea conocida, al menos de modo aproximado. A partir de esta
distribucin, fijado un valor (0, 1) se obtienen dos valores q1 (), q2 () tales que


P q1 () < Q(; X1 , . . . , Xn ) < q2 () = 1

Despejando se obtiene una expresin del tipo


n o
P Tn (X1 , . . . , Xn ) < Tn (X1 , . . . , Xn ) = 1
(1) (2)

III.2.3. Construccin de intervalos de confianza habituales


III.2.3.1. Distribucin 2

Estamos interesados en obtener intervalos de confianza exactos, vlidos para


cualquier n, para 2 en una normal. Para ello presentaremos una distribucin auxiliar
que tiene una especial importancia en estadstica, la distribucin 2k , que en realidad
es la distribucin ( 21 , k2 ). Esta distribucin surge del estudio de la distribucin de las
formas cuadrticas X 0 AX. En particular, si {Zn } son variables aleatorias normales
estandarizadas, entonces X
Zk2 2

De hecho, aplicando esto a una suma de varias v.a. X1 , . . . , Xn S 2 , nos queda que

(n 1)S 2
2n1
2
Este resultado proporciona directamente una cantidad pivotal y, en consecuencia,
un intervalo de confianza de nivel 1 para 2 :
!
(n 1)s2 (n 1)s2
,
2n1;/2 2n1;1/2

48 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

III.2.3.2. Distribucin t de Student

Sea Z N (0, 1) y W 2k . Supongamos que Z y W son independientes. Entonces


la distribucin de la v.a.

Z
T =p
W/k

se denomina distribucin t de Student con k grados de libertad. Su forma se


aproxima a una normal N (0, 1).

Teorema III.10 (Lema de Fischer-Cochran). Si X1 , . . . , Xn son v.a.i.i.d. con


distribucin N (, ) entonces X y S 2 (desviacin) son estadsticos independientes.

Este teorema tiene una consecuencia importante, y es que podemos obtener un


intervalo de confianza exacto para en N (, ) an cuando es desconocida.

III.2.4. Intervalos de confianza bayesianos


En un problema de inferencia con un enfoque bayesiano, el elemento fundamental
para realizar la inferencia es la distribucin a posteriori (|x1 , . . . , xn ). A partir de esa
distribucin se define una regin creble de nivel 1 como un subconjunto A
tal que
Z
(|x1 , . . . , xn ) d = 1
A

49 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Captulo IV

Contraste de hiptesis

IV.1. Conceptos bsicos


El objetivo de la teora de contraste de hiptesis es elegir entre dos posibilidades
excluyentes, las hiptesis nula e alternativa, relativas al valor de un parmetro
poblacional a partir de la informacin proporcionada por los datos muestrales.
Sea X1 , . . . , Xn una muestra aleatoria de una v.a. X con funcin de distribucin
F donde . Dada una particin del espacio paramtrico = 0 1 , deseamos
decidir, en base a la muestra obtenida, si est en 0 o en 1 . En el primer caso se
cumple la hiptesis nula, en el segundo la alternativa. Ambas hiptesis son excluyentes.
Para resolver el problema definiremos una regin de rechazo. Esta regin R Rn
nos permitir valorar si el parmetro est en 0 o en 1 en base a la muestra obtenida.
De esta forma, si (x1 , . . . , xn ) R, se rechaza la hiptesis nula.
El paso ms importante del contraste de hiptesis es construir la regin de rechazo
R, y a partir de entonces los pasos son muy mecnicos. En el apndice A.3, pgina 72,
tenemos varias muestras de regiones de rechazo.
En el test de hiptesis podemos cometer dos tipos de fallos:

Error de tipo I Rechazar H0 cuando H0 es cierta.


Error de tipo II Aceptar H0 cuando H0 es falsa.

Para medir la probabilidad de cometer uno de esos fallos definimos la funcin de


potencia

Funcin de Definicin IV.1 Funcin de potencia. La funcin de potencia de un test con regin
potencia de rechazo R para contrastar H0 : 0 frente a H1 : 1 es la funcin

n : 7 [0, 1]

7 n () = P (X1 , . . . , Xn ) R

y nos da la probabilidad de rechazar la hiptesis 0 .

50 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.1.1. Teora de Neyman-Pearson


Nos gustara que n (0 ) = 0 y que n (1 ) = 1, pero normalmente no pasar esto,
sino que n ser una funcin continua y suave del parmetro.
La teora de Neyman-Pearson trata de responder a este problema con los dos
siguientes pasos:

Acotar la mxima probabilidad de error de tipo I

Se fija un nivel de significacin (0, 1). Tpicamente se toma = 0.05.

Se define el tamao de un test como la mxima probabilidad de error de tipo


I, o como

max P {R} = max n ()


0

Se busca una regin de rechazo R tal que

max P {R}
0

Tal y como hemos definido , se puede considerar que el nivel de significacin nos
indica la probabilidad de cometer un error de tipo I, es decir, de rechazar H0 cuando
es cierta. Por lo tanto, cuanto menor es el nivel de significacin ms seguros estamos
de que no estamos rechazando H0 por error.

Minimizar la probabilidad de error de tipo II Se intenta buscar una regin de


rechazo R que maximice la funcin de potencia cuando 1 .
Aqu podemos ver por qu las dos hiptesis no son simtricas. Los tests de hiptesis
estn diseados para controlar la probabilidad mxima de rechazar H0 cuando es cierta.
En consecuencia, suelen ser conservadores con la hiptesis nula: hace falta mucha
evidencia muestral para rechazar H0 . Observemos que es posible que, con los mismos
datos, H0 se rechace para un nivel de significacin = 0.05 y se acepte para = 0.01.
Adems de la asimetra, tenemos que pensar que al aceptar H0 no significa que la
hayamos demostrado, sino simplemente que no se ha encontrado suficiente evidencia
emprica a nivel prefijado en contra de H0 . No es una demostracin matemtica.

51 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.2. Problema de una muestra


En una primera aproximacin, los problemas de contraste de hiptesis pueden
clasificarse en problemas de una muestra o de dos, segn haya slo una poblacin
de inters o queramos comparar dos poblaciones y dispongamos de una muestra de
cada una de ellas. Presentaremos las ideas bsicas en el caso de los problemas de una
muestra pero pueden extenderse de modo anlogo a los de dos muestras.

Dualidad con los intervalos de confianza En algunos casos de hiptesis nula


simple, aparece una dualidad entre el contraste de hiptesis y los intervalos de confianza
(III.2). Si tenemos H0 : = 0 , entonces aceptar H0 significa que IC1 (), es
decir, que est en el intervalo de confianza. La regin de rechazo sera entonces

R = {(x1 , . . . , xn )  (x1 , . . . , xn )
/ IC1 ()}

P-valor del Definicin IV.2 p-valor del contraste. Se define el p-valor del contraste como el
contraste nfimo de los niveles de significacin para los que se rechaza H0 .
De esta forma, si es menor que el p-valor, aceptaremos H0 y si es mayor, la
rechazaremos.
Qu informacin nos va a dar el p-valor? Supongamos que tenemos, por ejemplo,
un p-valor pequeo (< 0.01). Con este valor rechazaramos la hiptesis nula para
los valores ms habituales de niveles de significacin (0.01, 0.05, 0.1). Por lo tanto, en
este caso lo razonable sera rechazar H0 .
Por otra parte, supongamos que tenemos un p-valor grande (> 0.1). En este
caso, aceptaramos la hiptesis nula para los valores ms habituales de , y entonces
lo razonable sera aceptar H0 .
Un p-valor que se encuentra entre 0.01 y 0.1 se considera dudoso. Lo razonable
es revisar la muestra, y si es posible, aumentar su tamao. No se puede decidir de
manera razonable entre H0 y H1 .
De forma general, el p-valor de contraste nos dice la probabilidad de observar la
muestra que hemos obtenido suponiendo que H0 es cierta. Si es muy bajo, nos indicar
que es muy poco probable que la muestra obtenida haya salido as por pura casualidad.

52 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.2.1. Regiones de rechazo para contrastes habituales


IV.2.1.1. Contraste de la media de una distribucin

En todo caso se rechaza H0 cuando (X1 , . . . , Xn ) R. Para hallar las regiones de


rechazo buscaremos los estadsticos de contraste, medidas de lo razonable que es
la hiptesis nula y que depende de la muestra obtenida. Cuando la hiptesis nula sea
cierta, el estadstico del contraste estar en zonas de alta probabilidad.

Distribucin normal con varianza conocida Primero construiremos el estadstico


del contraste Z, que depende de la media muestral obtenida.

X 0
Z=
/ n

Si H0 : = 0 es cierta entonces Z N (0, 1). Entonces las regiones de rechazo


son

H0 R
= 0 {(x1 , . . . , xn )  |Z| z 2 }
0 {(x1 , . . . , xn )  Z z 2 }
0 {(x1 , . . . , xn )  Z z 2 }

Tabla IV.1: Regiones de rechazo para una normal N (, ).

Distribucin normal con varianza desconocida Sea X1 , . . . , Xn una muestra


aleatoria de X N (, ) con desconocido. Entonces el estadstico del contraste
sigue una distribucin T de Student de n 1 grados de libertad:

X 0
T =
s/ n

H0 R
= 0 {(x1 , . . . , xn )  |T | t 2 }
0 {(x1 , . . . , xn )  T t 2 }
0 {(x1 , . . . , xn )  T t 2 }

Tabla IV.2: Regiones de rechazo para una normal N (, ) con desconocida.

53 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Tests de nivel aproximado (muestras grandes) para la media de cualquier


distribucin Sea X1 , . . . , Xn una muestra aleatoria de X con E (X) = < .
Entonces el estadstico del contraste es

X 0 T CL
Z= N (0, 1)
S/ n

si H0 : = 0 es cierta. Por lo tanto, nos quedamos con las siguientes regiones:

H0 R
= 0 {(x1 , . . . , xn )  |Z| z 2 }
0 {(x1 , . . . , xn )  Z z 2 }
0 {(x1 , . . . , xn )  Z z 2 }

Tabla IV.3: Regiones de rechazo para la media de cualquier distribucin

IV.3. Contrastes para dos muestras


Supongamos que tenemos 2 muestras X1 , ..., XN y Y1 , ..., YN . Siendo 1 la
esperanza de X y 2 la esperanza de Y .
Podemos plantear hiptesis del tipo

H0 : 1 = 2

H0 : 1 2

H0 : 1 = 2

Este ltimo caso (si las varianzas son iguales) suele ser un requisito previo antes de
plantearte contrastes como el segundo ejemplo.
Uno de los test ms usuales es el de igualdad de medias para dos poblaciones
homocedsticas , es decir, con 1 = 2 .
Si  

X N (1 , ) X 1 N 0, n1
Independientes  
Y N (2 , )
Y 2 N 0, n2

Entonces:
(X 1 ) (Y 2 )
q N (0, 1)
n11 + n12

Todo esto suponiendo que 1 = 2 , desconociendo su valor real. Nos gustara por
tanto, tener en el estadstico un estimador de .

54 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Con este razonamiento podemos deducir que la regin de rechazo es:

Contraste de igualdad de medias Si



(n 1)S 2
X N (1 , ) X1 , ..., Xn1 1 2 1 2(n1 1)
Independientes 1

Y N (2 , ) Y1 , ..., Yn1
(n1 1)S22
2(n2 1)
2 2

Para seguir con el contraste de igualdad de medias necesitamos definir la


distribucin Fisher-Snedecor con n1 y n2 grados de libertad. . La distribucin se
parece mucho a la 2 , y su funcin de distribucin se obtiene as:

Q1 2n1 ; Q2 2n2
Q1 /n1
F
Q2 /n2

Volviendo al caso donde estbamos podemos definir un estadstico de esta manera:

(n1 1)S12
12 (n1 1)
(n2 1)S22
Fn1 1,n2 1
22 (n2 1)

Sigue una F de Fisher.


Simplificando y suponiendo cierta la hiptesis de homocedasticidad (1 = 2 )
S2
tenemos que F = 12 Fn1 1,n2 1 .
S2
Este es el estadstico del contraste para comparar varianzas de dos poblaciones
normales. Si el valor nos queda en las colas de la distribucin, rechazaremos la hiptesis
de igualdad de varianzas.
Con este razonamiento podemos construir la regin de rechazo, que es
( r )
1 1
R = |x y| > tn1 +n2 2;/2 sp +
n1 n2

siendo
(n1 1)s21 + (n2 1)s22
s2p =
n1 + n2 2
la varianza combinada.

Ejemplo: Sean X, Y poblaciones de datos emparejados tal que E (X) = 1 y


E (Y ) = 2 .
Qu significa datos emparejados? Muestras tomadas ambas a los mismo individuos
de la mezcla despus de una medicina por ejemplo, siendo X la medida antes e Y
despus. Esto quiere decir que X, Y no son independientes.

55 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

El procedimiento estndar para este tipo de casos es suponer que

D = X Y N (d , )

Y ahora expresamos nuestra hiptesis en funcin de D, de la que sabemos que

E (D) = d = 1 2

Si H0 : 1 = 2 H0 : d = 0. La regin de rechazo de esta hiptesis ser



d


R= > tn1; 2

Sd / n

Si H0 : 1 2 H0 : d 0

Si H0 : 1 2 H0 : d 0

En el apndice encontramos un ejercicio realizado en R ?????

56 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.4. Consistencia de tests. Tests insesgados y


UMP

Sucesin Definicin IV.3 Sucesin consistente. Se dice que una sucesin de tests con un
consisten- nivel prefijado es consistente cuando
te

lm n () = 1 1 = \ 0
n

Es decir, que la probabilidad de rechazar la hiptesis nula cuando es falsa, dada por
la funcin de potencia (IV.1), tienda a uno con muestras suficientemente grandes.

Test inses- Definicin IV.4 Test insesgado. Se dice que un test es insesgado cuando
gado

n () 0

es decir, cuando cumple la teora de Neyman-Pearson (ver seccin IV.1.1); y adems

n () 1

Test UMP Definicin IV.5 Test UMP. Se dice que un test es uniformemente ms potente
(UMP) dentro de una clase Bn, de tests de nivel basados en muestras de tamao
n cuando

n () n (), 1

siendo n la funcin de potencia de cualquier otro test de la clase Bn, .

IV.4.1. Lema de Neyman-Pearson


Recordemos la funcin de verosimilitud, que meda lo verosmil que es el valor del
parmetro a la vista de la muestra. Para comparar dos hiptesis simples Hi : = i ,
calcularamos la funcin de verosimilitud para esos dos valores y veramos cul es ms
probable. Extendiendo esta idea, llegamos al lema de Neyman-Pearson.

57 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Teorema IV.1 (Lema de Neyman-Pearson). Se considera el problema de hiptesis


simple y alternativa simple, es decir, que

H0 : = 0
H1 : = 1

Denotemos n
Y
fn (x1 , . . . , xn ; ) = f (xi ; )
i=1

Dado (0, 1), supongamos que la regin de rechazo


 
fn (x1 , . . . , xn ; 1 )
R = (x1 , . . . , xn  >k
fn (x1 , . . . , xn ; 0 )

verifica P0 (R ) = . Entonces

P1 {R } P1 {R}

siendo R la regin crtica de cualquier otro test tal que P0 {R} .


En otras palabras, R es el test ptimo de nivel para el problema considerado.

Demostracin. Denotamos x = (x1 , . . . , xn ) para cortar.


Tenemos que probar que P1 {R } P1 {R} es mayor o igual que cero.
Z Z

P1 {R } P1 {R} = fn (x; 1 ) dx fn (x; 1 ) dx
R Rc Rc R

Por definicin de R
Z Z
fn (x; 1 ) dx k fn (x; 0 ) dx
R Rc R Rc

y tambin
Z Z
fn (x; 1 ) dx k fn (x; 0 ) dx
Rc R Rc R

Por lo tanto,
Z Z 

P1 {R } P1 {R} k fn (x; 0 ) dx fn (x; 0 ) dx =
R Rc Rc R
Z Z 
=k fn (x; 0 ) dx fn (x; 0 ) dx =
R R
 
= k P0 {R } P0 {R} 0

58 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

IV.4.2. Familias paramtricas con cociente de verosimilitu-


des montono y tests ptimos
En la subseccin anterior hemos construido tests ptimos en problemas de hiptesis
simple y alternativa simple. Pasaremos ahora a definirlos en modelos ms complejos.

Familia Definicin IV.6 Familia paramtrica CVM. Se dice que f (|) es una familia
para- paramtrica con cociente de verosimilitudes montono (CVM) si existe un
mtrica estadstico Tn (x1 , . . . , xn ) tal que, para todo 1 , 2 con 1 < 2 la razn de
CVM
verosimilitudes

fn (x1 , . . . , xn ; 2 )
fn (x1 , . . . , xn ; 1 )
es una funcin montona no decreciente de Tn (x1 , . . . , xn ).
Podemos ver algunos ejemplos de este tipo de familias.

Distribucin exponencial Tomemos X exp() con > 0 y f (x; ) = ex


para x > 0. El cociente de las dos funciones es
P  n
2n e2 xi 2 P
P = e(1 2 ) xi
1n e1 xi 1
con 1 2 < 0. Entonces, si consideramos

1 X
Tn (x1 , . . . , xn ) = P Tn (x1 , . . . , xn ) = xi
xi

Tenemos tenemos un estimador montonamente creciente y


 n  n
2 P
(1 2 ) xi 2 1
e = e(1 2 ) T
1 1

Teorema IV.2. Supongamos que F (; ) cumpla la propiedad CVM (cociente de


verosimilitudes montono) y que k es tal que:

P0 {tn > k } =

Adems suponemos que P0 {Tn = c} = 0, , c.


Entonces:
R = {(x1 , . . . , xn ) : Tn (x1 , . . . , xn ) > k }
es la regin crtica de un test ptimo1 de nivel para contrastar

H0 : 0
H1 : > 0 .

59 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Vamos a ver otro ejemplo:

Ejemplo: Ya hemos visto que la exponencial tiene CVM (cociente verosimilitudes


montono).
Por el teorema tenemos que el test ptimo de nivel para H0 : 0 ; H1 :
> 0 .
Podemos construir la regin de rechazo
1
R = {(x1 , . . . , xn ) : Pn > k }
i=1 xi

donde
Xn
1
P 0 Xi < =
k
i=1

Ejemplo: Sea f (; ) una uniforme en (0, ). Se deja como ejercicio para el lector
la comprobacin de que la propiedad de CVM y la obtencin del estadstico (que es el
mximo de la muestra)

IV.4.3. Construccin de tests. Test de cociente de


verosimilitudes

Estadstico Definicin IV.7 Estadstico del contraste de razn de verosimilitudes.


del con-
traste de Sea f (; ) donde = (1 , . . . , n ) Rk , siendo un intervalo Rk . Dada
razn de una muestra x = (x1 , . . . , xn ), sea
verosimili-
n
Y
tudes
fn (x; ) = f (x1 ; )
i=1

Consideremos el problema de contrastar a nivel :

H0 : i = ci para i = 1, . . . , r k
H1 : 1 6= ci para algn i = 1, . . . , r.

El estadstico del contraste de razn de verosimilitudes es


sup0 fn (x; ) sup0 fn (x; )
n = =
sup fn (x; )
fn (x; )

donde es el e.m.v. (III.3) de , y


1
Uniformemente ms potente (UMP)

60 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Si H0 es cierta y el verdadero valor de estn en 0 entonces n 1, porque


n tiende al verdadero valor del parmetro.

Si H0 es falsa, el e.m.v.() tiende a un valor fuera de 0 . Entonces n tomar


un valor significativamente menor que 1.

De esta forma, podemos construir una regin de rechazo

R = {(x1 , . . . , xn  n (x1 , . . . , xn ) < k }

Hallar k segn la probabilidad de error que queramos es algo complejo. Por eso
nos apoyamos en el siguiente teorema:

Teorema IV.3. Supongamos que

a. El e.m.v. n es estimador consistente en probabilidad del parmetro .

b. Para todo x, la funcin log f (x; ) tiene derivadas parciales terceras respecto
a los componentes de contnuas.

c. En las integrales que involucran a la funcin f (x; ) se pueden permutar las


derivadas con el signo integral.

d. La matriz de informacin de Fisher


!
2
I() = log f (X; )
i j
1i,jk

es invertible para cada .

Entonces, bajo H0 ,
d
2 log n 2r
n

IV.4.3.1. Aplicacin a tests de bondad de ajuste

Sea X una v.a. discreta que toma los valores a1 , . . . ak . Denotemos pi =


P {X = ai }. Supongamos que se desea contrastar

H0 : pi = pi0 i = 1, . . . , k

basado en una muestra x1 , . . . , xn . Obsrvese que, en este caso, con la notacin


del teorema, r = k 1 porque cuando se fijan k 1 probabilidades pi , queda fijada la
probabilidad restante. Por tanto, se rechaza H0 al nivel cuando

2 log n > 2k1;

61 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Consideramos f (x1 , . . . , xn ; p1 , . . . , pk ) como la probabilidad de haber observado


la muestra x1 , . . . , xn con los valores de los parmetros p1 , . . . , pk .
Entonces el numerador de n es
n! Ok
pO
10 pk0
1

O1 ! Ok !

siendo Oj = i  xi = aj las frecuencias observadas de los distintos valores
de la variable. Ntese que, bajo H0 , (O1 , . . . , Ok ) tiene distribucin multinomial
M(n : p10 , . . . , pk0 ).
En el denominador tenemos que poner los e.m.v. de cada p, de la siguiente forma

ok
pk =
n
y por lo tanto el denominador queda
 O1  Ok
n! O1 Ok

O1 ! Ok ! n n

Sustituyendo en n es inmediato ver que que el estadstico de contraste se puede


expresar en la forma
Xk  
Oi
2 log n = 2 Oi log
i=1
ei
donde ei = npi0 i = 1, . . . , k son las frecuencias esperadas (bajo H0 ) de los distintos
valores de la variable en una muestra de tamao n.

Ejemplo: Experimento de Mendel Un ejemplo clsico de este tipo de ajuste se


puede ver en el experimento de Mendel, en el que se cruzaron plantas de guisantes con
fenotipo rugoso-amarillo con otras de fenotipo liso-verde. En la segunda generacin se
podan observar cuatro fenotipos cuyas respectivas probabilidades, segn la teora de
la herencia mendeliana, deban ser

9 3 3 1
p10 = , p20 = , p30 = , p40 =
16 16 16 16
Observados n = 556 guisantes en la segunda generacin del experimento, se
obtuvieron los siguientes nmeros de guisantes con estos fenotipos:

01 = 315, O2 = 101, O3 = 108, O4 = 32.

Proporcionan estos resultados alguna evidencia en contra de la teora mendeliana?


9 1
Aplicamos el test para contrastar H0 : p1 = 16
, . . . , p4 = 16
.

9 3 1
e1 = 556 = 312.75, e2 = e3 = 556 = 104.25, e4 = 556 = 34.75,
16 16 16

62 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Obtenemos el estadstico
k
X  
Oi
2 log n = 2 Oi log = 0.4754
i=1
ei

El p-valor, calculado a partir de la distribucin 23 , es 0.9281 lo que no indica ninguna


evidencia estadstica en contra de H0 .

63 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Hay una controversia clsica en la historia de la ciencia en el sentido de que los


resultados de Mendel eran demasiado buenos, es decir, haba demasiada concordancia
entre las Oi y las ei (por ejemplo, R.A. Fisher era de esta opinin; ver su artculo de
1936, Has Mendels work been rediscovered?, en The Annals of Science).
Se ha sugerido que este supuesto exceso de concordancia podra deberse a un
sesgo de repeticin (confirmation bias) producido por la repeticin de los resultados
hasta que las Oi concordasen fuertemente con las ei . Tambin se ha conjeturado que
algn ayudante de Mendel pudo actuar con exceso de celo manipulando los resultados.
En todo caso, las ideas bsicas de Mendel eran acertadas y han tenido una influencia
decisiva.

IV.4.4. Tests Bayesianos


Se desea contrastar

H0 : 0 frente a H1 : \ 0

Obteniendo la informacin de una muestra x1 , . . . , xn .


La metodologa bayesiana supone que la densidad que ha generado los datos es
f (|) y que el parmetro puede considerarse como una v.a. con distribucin a priori
(). A partir de aqu, se calcula la distribucin a posteriori (|x1 , . . . , xn ) dada por

fn (x1 , . . . , xn |)()
(|x1 , . . . , xn ) = R , donde
f (x , . . . , xn |)()d
n 1

n
Y
fn (x1 , . . . , xn |) = f (xi ; ).
i=1

El elemento fundamental en la inferencia bayesiana es siempre la distribucin a


posteriori. A partir de ella se pueden calcular las probabilidades a posteriori de ambas
hiptesis:
Z

P 0 |x1 , . . . , xn = (H0 |x1 , . . . , xn ) = (|x1 , . . . , xn )d,
0

P 1 |x1 , . . . , xn = (H1 |x1 , . . . , xn ) = 1 (H0 |x1 , . . . , xn )

y se toma la decisin en funcin de sus valores. Tpicamente, se optar por H1


cuando
(H1 |x1 , . . . , xn ) , (0, 1)
es un valor que se fija dependiendo de la gravedad que se atribuya al error de tipo I
(IV.1).
Observacin: la metodologa bayesiana de contraste de hiptesis depende
fuertemente de la eleccin de la distribucin a priori .

64 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Apndice A

Anexos

A.1. Condiciones suficientes para permutar la


derivada con la integral
Sea una funcin p(x, ) con x R y T donde T es un intervalo abierto de los
reales. Supongamos que

1. p(x, ) es integrable con respecto a x para cada (se cumple automticamente


si p es funcin de densidad.

2. Para casi todo punto1 existe p(x, ) .

3. Existe una funcin integrable g : R 7 R tal que


p(x, ) g(x)

Entonces para todo


Z Z

p(x, ) dx = p(x, ) dx
R R

1
Para todo x salvo los que tienen probabilidad 0

65 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

A.2. Distribuciones notables

66 de 160
La distribucion normal

Funci
on de densidad:
1 1 x 2
f (x; , ) = e 2 ( ) , x R, R, > 0
2
Momentos:
E(X ) = , V(X ) = 2
Aplicaciones: Es un modelo muy habitual para la distribuci on de
magnitudes (en fsica, genetica, etc.) que se pueden considerar
como la suma de muchos peque nos efectos independientes (TCL).
En Estadstica aparece como distribuci on lmite de muchos
estadsticos que se usan para la inferencia.

La distribucion exponencial

Funci
on de densidad:

f (x) = e x I[0,) (x) ( > 0)

Momentos:
1 1
E(X ) = , V(X ) = 2

Aplicaciones: en modelos de fiabilidad (tiempo de espera hasta que
se produce una avera en un sistema).
Una propiedad interesante (falta de memoria): Si X sigue una
distribuci
on exponencial de parametro , se tiene para a > 0 y
x > 0,
P{X > x + a|X > x} = e a
(no depende de x).

La distribucion gamma

Funci
on de densidad:
ap ax p1
f (x) = e x I[0,) (x), (a > 0, p > 0),
(p)
R
donde (p) = 0 x p1 e x dx. Esta funci on verifica
(p) = (p 1)! cuando p N y (p + 1) = p(p)
Momentos:
p p
E(X ) = , V(X ) = 2
a a
Aplicaciones: Cuando p N se llama distribuci on de Erlang y se
usa en problemas de fiabilidad (tiempo de espera hasta p fallos),
cantidad de lluvia cada, cuanta de las reclamaciones a las
compa nas de seguro, modelos de supervivencia,.... Para a = 1/2
p = n/2, con n N, se llama distribuci on 2 con n grados de
libertad y desempe na un importante papel en Estadstica.
La distribucion uniforme

Funci
on de densidad:
1
f (x; a, ) = I (x), (a, R, a < )
a [a,]
Momentos:
+a ( a)2
E(X ) = , V(X ) =
2 12
Aplicaciones:
La uniforme se relaciona con otras distribuciones a traves de la
siguiente propiedad: si X es v.a. con f. de dist. F continua,
entonces Y = F (X ) tiene distribuci
on uniforme estandar (i.e. con
a = 0, = 1). Esta propiedad se utiliza en los metodos de
generaci
on de numeros (pseudo-)aleatorios: se generan n umeros de
una v.a. Y uniforme estandar y se transforman con F 1 para
obtener observaciones aleatorias con la distribuci
on F .

La distribucion beta

Funci
on de densidad:
(a + b) a1
f (x; a, b) = x (1 x)b1 I[0,1] (x),
(a)(b)

siendo a, b > 0 y la funcion gamma que aparece en la definici on


de la distribuci
on del mismo nombre.
a ab
Momentos: E(X ) = a+b , V(X ) = (a+b+1)(a+b)2.

Aplicaciones: Dependiendo de los valores de los parametros la


densidad beta adopta formas muy variadas. Esta distribuci on (o
sus versiones reescaladas en otros intervalos diferentes a [0,1])
proporciona un modelo muy flexible para describir variables
aleatorias reales de soporte compacto.

La distribucion de Weibull

Funci
on de densidad:
k  x k1 (x/)k
f (x; , k) = e I[0,) (x), (k > 0, > 0)

Momentos:
      
1 2 2 2 1
E(X ) = 1 + , V(X ) = 1 + 1+
k k k

Aplicaciones:
Tiempos de supervivencia, problemas de fiabilidad en ingeniera,
distribuciones de velocidad del viento en ingeniera, de periodos de
incubacion de algunas enfermedades, etc.
La distribucion de Pareto

Funci
on de densidad:
a
f (x; a, ) = I[a,) (x), (a > 0, > 1)
x +1
Momentos:
 2
a a
E (X ) = , V (X ) = , si > 2
1 1 2

Aplicaciones:
Distribuci
on de ingresos, de reservas de petr
oleo, de area
quemadas en bosques, de tama nos de ficheros enviados por e-mail,
de tamanos de partculas,...

La distribucion de Cauchy

Funci
on de densidad:
1
f (x; , a) = h  i
x 2
a 1 + a

Momentos: No tiene momentos finitos


Aplicaciones: En el estudio de emisiones de partculas. Si Z es un
angulo aleatorio distribuido uniformemente entre /2 y /2,
tang (Z ) tiene distribucion de Cauchy. El cociente de dos v.a.
normales estandar independientes tiene tambien distribucion de
Cauchy.

La distribucion lognormal

Funci
on de densidad:
1 1 log xm 2
f (x; m, a) = e 2 ( a )I
[0,) (x), (m R, a > 0)
xa 2
Momentos:
1 2 2 2
E(X ) = e m+ 2 a , V(X ) = (e a 1)e 2m+a

Aplicaciones: Si X tiene distribuci


on lognormal, log X tiene
distribuci
on normal. Se usa en geologa (tama
no de rocas
sedimentarias) y en general en aquellos casos en los que una
variable puede considerarse producto de muchos factores de
peque no efecto individual.
La distribucion de Bernoulli

Funcion de probabilidad (o de masa): Se dice que una v.a. X


on de Bernoulli de parametro p [0, 1] (y se denota
tiene distribuci
X B(1, p) o bien X Be(p)) si

P(X = 1) = p, P(X = 0) = 1 p.

Momentos:
E(X ) = p, V(X ) = p(1 p)
Aplicaciones: Experimentos aleatorios binarios, i.e. con s
olo dos
posibles resultados.

La distribucion binomial

Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci
on
binomial de parametro p [0, 1] (y se denota X B(n, p)) si
 
n k
P(X = k) = p (1 p)nk , k = 0, 1, . . . , n
k

Momentos:
E(X ) = np, V(X ) = np(1 p)
Aplicaciones: N
umero de exitos en n pruebas de Bernoulli
independientes en cada una de las cuales la probabilidad de exito
es p. La suma de n v.a. independientes con distribucion B(1, p) es
B(n, p).

La distribucion de Poisson
Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci
on
de Poisson de parametro > 0 (y se denota X P()) si

k
P(X = k) = e , k = 0, 1, 2, . . .
k!
Momentos:
E(X ) = , V(X ) =
Aplicaciones: Frecuentemente se utiliza como modelo
probabilstico para el estudio de fen
omenos como el n umero de
sucesos (tales como llegadas de clientes a un servicio, llamadas
telef
onicas a una centralita, accidentes,...) que se producen en un
periodo de tiempo prefijado. Aparece como lmite de la binomial
en el siguiente sentido: Si Xn B(n, pn ) y npn > 0, entonces

k
lim P(Xn = k) = e , k = 0, 1, 2, . . .
n k!
La distribucion binomial negativa

Funci
on de probabilidad: Se dice que una v.a. X tiene distribuci on
binomial negativa de parametros p [0, 1] y r N (y se denota
X BN(r , p)) si
 
k 1 r
P(X = k) = p (1 p)kr , k = r , r + 1, r + 2, . . .
r 1

Momentos:
r 1p
E(X ) = , V(X ) = r 2
p p
Aplicaciones: Es un modelo discreto de tiempo de espera: En
una sucesi on de experimentos de Bernoulli con probabilidad exito
p, la distribuci
on del n
umero de pruebas necesarias para obtener r
exitos es BN(r , p). La distribuci
on BN(1, p) se denomina
geometrica.
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

A.3. Regiones de rechazo

72 de 160

CONTRASTES DE HIPOTESIS

NOTACION:
= nivel de significacion del contraste.
n= tama no de la muestra.
H0 = hipotesis nula.
R= region crtica o de rechazo de H0 .
1) X N (, ).
n o
H0 : = 0 ( desconocida); R = | x 0 | > tn1;/2 sn
n o
H0 : 0 ( desconocida); R= x 0 > tn1; sn
n o
H0 : 0 ( desconocida); R= x 0 < tn1;1 sn (tn1;1 = tn1; )
n h io
H0 : = 0 ; R = n1 02
s 2
/ 2
n1;1/2 , 2
n1;/2
n o
H0 : 0 ; R = n1 02
s2 > 2n1;
n o
H0 : 0 ; R = n1 2
s 2 < 2
n1;1
0

2) X B(1, p) (muestras grandes)


 q 
H0 : p = p0 ; R = | x p0 | > z/2 p0 (1p
n
0)

 q 
p0 (1p0 )
H0 : p p0 ; R= p0 > z
x n
 q 
p0 (1p0 )
H0 : p p0 ; R= p0 < z1
x n (z1 = z )

3) Contrastes para la media de una poblaci


on no necesariamente
normal (muestras grandes)
n o
H0 : = 0 ( desconocida); x 0 | > z/2 sn
R = |
n o
H0 : 0 ( desconocida); R= x 0 > z sn
n o
H0 : 0 ( desconocida); R= x 0 < z1 sn (z1 = z )

4) Dos poblaciones normales independientes.


X N (1 , 1 ); (X1 , . . . , Xn1 ) m. a. de X; se calcula x y s21 .
Y N (2 , 2 ); (Y1 , . . . , Yn2 ) m. a. de Y ; se calcula y y s22 .

(n1 1)s21 + (n2 1)s22


s2p =
n1 + n2 2
n q o
H0 : 1 = 2 (1 = 2 ); x y| > tn1 +n2 2;/2 sp n11 +
R = | 1
n2
 q 2 
s s2
H0 : 1 = 2 (1 6= 2 ); R = |
x y| > tf ;/2 n11 + n22
n q o
H0 : 1 2 (1 = 2 ); R= x y > tn1 +n2 2; sp n11 + 1
n2
 q 2 
s s2
H0 : 1 2 (1 6= 2 ); R= x y > tf ; n11 + n22
n q o
H0 : 1 2 (1 = 2 ); R= x y < tn1 +n2 2;1 sp n11 + 1
n2
 q 2 
s1 s22
H0 : 1 2 (1 6= 2 ); R= x y < tf ;1 n1 + n2
  
H0 : 1 = 2 ; R = s21 /s22
/ Fn1 1;n2 1;1/2 , Fn1 1;n2 1;/2

H0 : 1 2 ; R = s21 /s22 > Fn1 1;n2 1;

H0 : 1 2 ; R = s21 /s22 < Fn1 1;n2 1;1

(s21 /n1 + s22 /n2 )2


donde f = entero m
as pr
oximo a (s21 /n1 )2 (s22 /n2 )2
n1 1 + n2 1

5) Comparacion de proporciones (muestras grandes e independientes).


X B(1, p1 ); (X1 , . . . Xn1 ) m. a. de X.
Y B(1, p2 ); (Y1 , . . . Yn2 ) m. a. de Y .
 r  
H0 : p1 = p2 ; R = | x y| > z/2 p(1 p) n11 + 1
n2
 r  
H0 : p1 p2 ; R= y > z p(1 p) n11 +
x 1
n2
 r  
H0 : p1 p2 ; R= y < z1 p(1 p) n11 +
x 1
n2

P P
x i + yi n1 x
+ n2 y
donde p = =
n1 + n2 n1 + n2
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Apndice B

Ejercicios

75 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.1. Tema 1 - Estadstica descriptiva

Ejercicio 1.1:

Realizar un analisis descriptivo de los datos britanicos de ingresos familiares contenidos en el


fichero Datos-ingresos.txt. En concreto, calcular los estadsticos de tendencia central, las
medidas de dispersion y representar un diagrama de cajas y un estimador kernel de la funcion
de densidad. Comentar los resultados.
> x = scan(Datos-ingresos.txt)
Read 6711 items
> mean(x)
[1] 1.022779
> median(x)
[1] 0.9417
> var(x)
[1] 0.3657983
> sd(x)
[1] 0.6048126
> boxplot(x)
8
6
4
2
0

> hist(x)
Histogram of x
1500
Frequency
500
0

0 2 4 6 8
x
1

76 de 160
> plot(density(x,kernel=gaussian))
density.default(x = x, kernel = "gaussian")

0.6
Density
0.4
0.2
0.0

0 2 4 6 8
N = 6711 Bandwidth = 0.08785

> sum(x>2)/length(x)
[1] 0.0606467
> skewness(x)
[1] 1.797857

2
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.2: Demostrar que


n
X n
X
2
(xi x) = mn (xi a)2
aR
i=1 i=1

Definimos una funcin n


X
g(a) = (xi a)2
i=1

buscamos su derivada n
X
0
g (a) = 2 (xi a)
i=1

e igualamos a cero:

n
X
2 (xi a) = 0
i=1
n
X n
X
xi a=0
i=1 i=1
nx = na
x=a

Esto quiere decir que la media muestral es el valor que minimiza la distancia con
cada uno de los datos de la muestra.

78 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.3:

Representar, en un mismo grafico, los diagramas de cajas correspondientes a la variable Largo


del fichero tortugas.txt para el conjunto de datos global, para los ejemplares hembra y para los
ejemplares macho. Es decir, el grafico debe incluir tres diagramas de cajas, de izquierda a derecha:
el primero debe corresponder a la variable global (sin distinci
on de sexos), el segundo al subconjunto
de los datos correspondiente a las hembras y el tercero al correspondiente a los machos. Emplear
colores distintos para los tres diagramas.

Soluci
on:
X = read.table("tortugas.txt",header=T)
boxplot(X$Largo,X$Largo[X$Sexo==1],X$Largo[X$Sexo==0],
names=cbind("Total","Machos","Hembras"),col=cbind("green","blue","red"))
180
160
140
120
100

Total Machos Hembras

79 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.4:

Los datos del fichero Datos-kevlar.txt corresponden al tiempo hasta el fallo (en horas) de
101 barras de un material utilizado en los transbordadores espaciales, llamado Kevlar49/epoxy,
sometidas a un cierto nivel de esfuerzo. Los datos han sido tomados de Barlow et al. (1984).
(a) Calcula las principales medidas numericas descriptivas de estos datos.
(b) Representa un diagrama de cajas.
(c) Representa un histograma con un n
umero de clases apropiado.
(d) Estudia la presencia de datos atpicos en la muestra. Si hay datos atpicos, suprmelos y
repite todos los apartados anteriores. Compara los resultados obtenidos.

> x = scan(Datos-kevlar.txt)
Read 101 items
> mean(x)
[1] 1.024018
> median(x)
[1] 0.799838
> var(x)
[1] 1.248112
> sd(x)
[1] 1.117189
> skewness(x)
[1] 3.009575
> boxplot(x)
8
6
4
2
0

> hist(x) Histogram of x


10 20 30 40 50 60
Frequency
0

0 2 4 6 8
x
1

80 de 160
> hist(x)$breaks
[1] 0 1 2 3 4 5 6 7 8
> n=length(x)
> sqrt(n)
[1] 10.04988
> n=length(x)
> sqrt(n)
[1] 10.04988
> (max(x)-min(x))/sqrt(n)
[1] 0.7840221
> max(x)
[1] 7.889078
> min(x)
[1] 0.00975351
> hist(x,breaks=seq(0,8,0.5))
Histogram of x
30
Frequency
20
5 10
0

0 2 4 6 8
x
> plot(density(x,kernel=gaussian))
density.default(x = x, kernel = "gaussian")
0.0 0.1 0.2 0.3 0.4 0.5
Density

0 2 4 6 8
N = 101 Bandwidth = 0.3231

2
> xOrd=sort(x)
> xOrdSin=xOrd[1:(n-3)]
> mean(xOrdSin)
[1] 0.8841606
> median(xOrdSin)
[1] 0.7889238
> var(xOrdSin)
[1] 0.5386131
> boxplot(xOrdSin)

3.0
2.0
1.0
0.0

> skewness(xOrdSin)
[1] 0.9158652
> xOrdSin=xOrd[1:(n-4)]
> boxplot(xOrdSin)
3.0
2.0
1.0
0.0

3
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.5: Determina si es verdadero o falso:


a) Si aadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta
en 7 unidades y el rango intercuartlico no cambia.
b) Si todos los datos de un conjunto se multiplican por -2, la desviacin tpica
se dobla.
c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla.
d) Al multiplicar por tres todos los datos de un conjunto, el coeficiente de
asimetra no vara
e) Si el coeficiente de correlacin entre dos variables vale -0.8, los valores por
debajo del promedio de una variable estn asociados con valores por debajo del
promedio de la otra.
f) Si i yi < xi entonces el coeficiente de correlacin es negativo.
g) Si cambiamos el signo de todos los datos de un conjunto, el coeficiente de
asimetra tambin cambia de signo.
h) Al restar una unidad a cada dato de un conjunto, la desviacin tpica siempre
disminuye.
i) Si a un conjunto de datos con media x se le aade un nuevo dato que coincide
con x, la media no cambia y la desviacin tpica disminuye.

Apartado a)
Falso. Aadir siete a todos los datos es una traslacin, as que la distribucin de
los datos no cambia. El rango intercuartlico se mantiene y el cuantil tambin.

Apartado b)
Teniendo en cuenta que si multiplicamos todos los datos del conjunto por 2 la
media tambin se multiplica por 2, y sustituyendo en la frmula de la varianza:

s s
0 1X 1X 
= n(2xi )2 (2x)2 = 4 nx2i x2 = 4 2 = 2
n i=1 n i=1

Por lo tanto, la desviacin tpica s se dobla.

Apartado c)
Usando los clculos del apartado anterior vemos que la varianza se multiplica por
cuatro.

Apartado d)
Efectivamente: cambiar el signo hara una reflexin de los datos sobre el eje Y y la
asimetra estara orientada hacia el lado contrario.

Apartado e)

83 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Teniendo en cuenta que si multiplicamos todos los datos del conjunto por 3 la
media tambin se multiplica por 3
El coeficiente de asimetra se calcula:

n
1X
(xi x)3
n i=1

Sustituyendo en la frmula del coeficiente de asimetra

n n n
1X 1X 3 1X
(3xi 3x)3 = 3 (xi x)3 = 27 (x x)3
n i=1 n i=1 n i=1

Por lo tanto el coeficiente de asimetra s vara.

Apartado f)
Falso.
n
(
1X y j = xj 1
2 =
(yj y)2 = P P
n j=1 y = n1 nj=1 (xj 1) = n1 ( nj=1 xj ) 1 = x 1

n n
1X 1X
= (xj 1 (x 1))2 = (xj x)2 = 2
n j=1 n j=1

Apartado g)
Falso. 2 variables pueden tener una correlacin creciente aunque yi < xi .

Apartado h)
Falso. La desviacin tpica se mantiene (los datos siguen estando igual de
separados).

Apartado i)
Verdadero. Al hacer el clculo de la media no vara (en la frmula del ejercicio 2 se
puede comprobar que si aadimos un xi = x el sumatorio de la derecha queda igual)
y la desviacin tpica disminuye.

84 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.6:

Calcula el diagrama de dispersion de las dos variables correspondientes al peso y a la cir-


cunferencia de abdomen que aparecen en el fichero Datos-bodyfat.txt. Calcula la recta de
regresion y el coeficiente de correlacion. Comenta los resultados.
> Datos=read.table(Datos-bodyfat.txt)
> Peso=Datos[,4]
> CircAbd=Datos[,8]
> plot(Peso,CircAbd)
140
120
CircAbd
100
80

150 200 250 300 350


Peso
> lm(CircAbd~Peso)

Call:
lm(formula = CircAbd ~ Peso)

Coefficients:
(Intercept) Peso
34.2604 0.3258
> cor(Peso,CircAbd)
[1] 0.8879949
> zz=abline(lm(CircAbd~Peso))
140
120
CircAbd
100
80

150 200 250 300 350


Peso
1

85 de 160
> hist(Peso)
> hist(CircAbd) Histogram of Peso Histogram of CircAbd

80

80
60

60
Frequency

Frequency
40

40
20

20
0

0
100 150 200 250 300 350 60 80 100 120 140
Peso CircAbd
> hist(log(Peso))
> hist(log(CircAbd))
Histogram of log(Peso) Histogram of log(CircAbd)

80
50

60
Frequency

Frequency
40
30

20
10
0

4.8 5.0 5.2 5.4 5.6 5.8 4.2 4.4 4.6 4.8 5.0
log(Peso) log(CircAbd)
> skewness(Peso)
[1] 1.198077
> skewness(log(Peso))
[1] 0.317743
> skewness(log(CircAbd))
[1] 0.3548225
plot(log(Peso),log(CircAbd))
5.0
4.8
log(CircAbd)
4.6
4.4

4.8 5.0 5.2 5.4 5.6 5.8


log(Peso)
2
Analogas preguntas para las dos variables del fichero Datos-geyser.txt.
> Datos=read.table(Datos-geyser.txt,header=T)
> y=Datos[,2]
> x=Datos[,3]
> plot(x,y)
> zz=lm(y~x)
> abline(zz)
> zz

Call:
lm(formula = y ~ x)

Coefficients:
(Intercept) x
33.83 10.74
> cor(x,y)
[1] 0.8584273
90
80
70
y
60
50
40

2.0 2.5 3.0 3.5 4.0 4.5 5.0


x
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.7: Relaciona los histogramas con los boxplot

Fijndose en los intervalos entre los que se mueven los datos es la forma ms fcil.

12
21
33

Ejercicio 1.8: Del diagrama de dispersin presentado se pregunta:


a) Existe alguna relacin?
b) Hay algn dato atpico?
c) De los 3 valores siguientes: 0.01, 0.83, 0, 73 cul crees que podra
corresponder al coeficiente de correlacin?

Apartado a)
Parece que s.

Apartado b)
Bastante obvio que s

Apartado c)
0.83. Como la nube de puntos parece que se aproxima a una recta con pendiente
positiva, la correlacin debe ser positiva. Adems, como se parece bastante a una
recta, la correlacin debe ser cercana a 1.

88 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.9:

Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso qumico propor-


ciona los siguientes resultados:

Temperatura (x) -5 -4 -3 -2 -1 0 1 2 3 4 5
Rendimiento (y) 1 5 4 7 10 8 9 13 14 13 18

(a) Representa el diagrama de dispersion de los datos anteriores y calcula el coeficiente de


correlacion entre las dos variables. Se puede admitir que existe una relacion lineal apro-
ximada entre ambas, es decir, yi a + bxi ?
(b) Calcula el termino independiente y la pendiente de la recta de mnimos cuadrados.
(c) Que rendimiento predeciras para un nuevo proceso realizado a temperatura x = 3,5?

# Temperatura:
x = -5:5
# Rendimiento:
y = c(1,5,4,7,10,8,9,13,14,13,18)

# Diagrama de dispersion
plot(x,y)

# Coeficiente de correlacion
cor(x,y)

# Recta de regresion:
zz = lm(y~x)
abline(zz)

# Prediccion para temperatura x=3.5:


new <- data.frame(x = 3.5)
Prediccion = predict.lm(zz,new)
15
10
y
5

4 2 0 2 4
x
y = 9,27 + 1,44x r = 0,956 y(3,5) = 9,27 + 1,44 3,5 = 14,30

89 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 1.10: Qu valor tiene que tomar x para que el coeficiente de


correlacin sea 1?
a) A = {(1, 1), (2, 3), (2, 3), (4, x)}
b) B = {(1, 1), (2, 3), (3, 4), (4, x)}

Para que el coeficiente de correlacin sea exactamente 1, los puntos tienen que
estar en la misma recta. Buscamos el x que cumpla eso.
Apartado a)
x=6

Apartado b)
Imposible (porque los 3 puntos dados no estn alineados)

90 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.2. Tema 2 - Muestreo aleatorio


Ejercicio 2.1: Se desea estimar el momento de orden 4, 3 = E X 3
en una v.a. X con distribucin exponencial de parmetro 2, es decir, la funcin
de distribucin de X es F (t) = P {X t} = 1 e2t para t 0. Definir un
estimador natural para 3 y calcular su error cuadrtico medio.

Usando el criterio de plugin, podramos definir el estimador


Z

3 = x3 dFn (x)
R

Calculamos ahora el error cuadrtico medio:

 
3 ) = E (
ECM( 3 3 )2 = E (
3 E (
3 ) + E (
3 ) 3 ) 2 =


E (3 E (3 ))2 + (E (3 ) 3 )2 + 2 (
3 E (3 )) (E (3 ) 3 )
| {z } | {z } | {z }
(a) (b) (c)

Calculamos (b) que es el sesgo2 (3 ) :

3 ) = E (
sesgo( 3 ) 3 = 3 3 = 0

Como el sesgo es 0, tenemos


 que (c) es tambin 0.
Solo nos queda calcular E (a) , que es la varianza:

 X  X  
1 1 1 X  V X 3
V (
3 ) = V Xi3 = 2 V Xi3 = 2 V Xi3 =
n n n n

y, teniendo en cuenta el enunciado,


 2
  
3 2 6! 3! 171
V X 3
=E X 6
E X = 6 =
2 23 16

y por lo tanto
 
171 1
ECM(
3 ) = =O 0
16n n n

donde lo que ms nos importa es la convergencia a cero, que indica que cuanto
ms muestras tenemos mejor ser el estimador.

91 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 2.2: Supongamos que la muestra tiene tamao n = 50 y que la


distribucin de las Xi es una N (4, 1).
a) Obtener,utilizando la desigualdad
 de Chebichev, una cota superior para la


probabilidad P X 4 > 0.3 .
 

b) Calcula exactamente P X 4 > 0.3 utilizando la distribucin de Xi .

Apartado a)
Como = 4, la desigualdad de Chebichev nos da una cota de
 
  V X
V (X)
P X 4 > 0.3 2
= ' 0.22
0.3 n 0.32

Apartado b)
Normalizamos

X 4
Z= N (0, 1)
1
50

y calculamos.

  ( )
0.3

P X 4 > 0.3 = P |Z| > 1 = 2 P {Z > 2.12} = 0.034

50

Ejercicio 2.3: Utilizando R dibuja la funcin de densidad y la funcin de


distribucin de una v.a. con distribucin beta de parmetros a = 3, b = 6.
A continuacin dibuja, sobrepuestas en cada uno de los grficos, las aproximaciones
a F y f obtenidas respectivamente mediante la funcin emprica y un estimador
kernel.
Verificar empricamente el grado de aproximacin, en las estimaciones de F y f,
que se obtiene mediante un experimento de simulacin basado en 200 muestras de
tamao 20. Es decir, considerando, por ejemplo, la estimacin de F, se trata de
simular 200 muestras de tamao 20; para cada una de ellas evaluar el error (medido
en la norma del supremo) que se comete al aproximar F por Pn . Por ltimo, calcular
el promedio de los 200 errores obtenidos. Anlogamente para la estimacin de f.

# Dibuja la funcin de densidad y la funcion de distribucin de una v.a. con


# distribucin beta de parametros a=3 y b=6.

92 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

a = 3
b = 6
n = 20
t = seq(0,1,0.01)
densidad = dbeta(t, a, b, ncp = 0, log = FALSE)
fndistrib = pbeta(t, a, b, ncp = 0, log = FALSE)
X = rbeta(n,a, b, ncp = 0)
kernelest = density(X,kernel="gaussian")
M = max(max(densidad),max(kernelest$y))
distremp = ecdf(X)

layout(matrix(1:2,2,1))
layout.show(2)

plot(t,densidad,type="l",lwd=2,col="tomato3",xlab="",ylab="",ylim=c(0,M),
main="Densidad y estimador kernel",font.main=1,cex.main=1)
lines(kernelest,type="l",lwd=2,col="navyblue")
mtext("Distribucin beta(3,6)",side=3,line=3,cex=1.5)
plot(t,fndistrib,type="l",lwd=2,col="tomato3",xlab="",ylab="",ylim=c(0,1),
main="Funcin de distribucin poblacional y emprica",font.main=1,cex.main=1)
lines(distremp,do.points=FALSE,lwd=2,col="navyblue")

# Verificar empiricamente el grado de aproximacion:


nMC = 200
Supremo1 = rep(0,nMC) ; Supremo2 = rep(0,nMC)
for (i in 1:nMC){
XMC = rbeta(n,a, b, ncp = 0)
kernelMC = density(XMC,kernel="gaussian")
densidadMC = dbeta(kernelMC$x, a, b, ncp = 0, log = FALSE)
Supremo1[i] = max(abs(kernelMC$y - densidadMC))
distempMC = ecdf(XMC)
Supremo2[i] = max(abs(distempMC(t) - fndistrib))
}
Error1 = mean(Supremo1)
Error2 = mean(Supremo2)

Ejercicio 2.4: Denotemos por


Z
2
Cn = Fn (t) F (t) dF (t)
R

la llamada discrepancia de Cramer-Von Mises entre Fn y F .


a) Converge a cero casi seguro esta discrepancia?

b) Calcular la distribucin asinttica de la sucesin Dn = n Fn (t) F (t)
para un valor fijo t R.

93 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Apartado a)
Z Z
2 2
Cn = Fn (t) F (t) dF (t) = Fn (t) F (t) f (t) dt
R R

Tenemos que


Fn (t) F (t) sup Fn (t) F (t) = kFn F k
t

entonces
Z Z
2
Fn (t) F (t) f (t) dt kFn F k2 f (t) dt = kFn F k2
R R

Finalmente, por el teorema de Glivenko-Cantelli (II.7) tenemos que

c.s
kFn F k2 0
n

Apartado b)
Para calcular la distribucin asinttica de


Dn = n Fn (t) F (t)

usamos el Teorema Central del Lmite (II.8). Necesitamos algo que se asemeje a
una media muestral, y de hecho

n n
1X 1X
Fn (t) = 1(,t] (Xi ) = Yi = Y
n i=1 n i=1

Por otra parte, Y = 1(,t] (X) y por lo tanto



E (Y ) = E 1(,t] (X) = P {X t} = F (t)

Ya podemos aplicar el TCL, pero nos falta saber cul es la desviacin tpica de Y .
Como es una distribucin de Bernoulli

V(Y ) = p(1 p) = F (t)(1 F (t))

y por lo tanto aplicando el TCL


 p 
d
Dn N 0, F (t)(1 F (t))
n

94 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 2.5: Sea X una v.a. cuya funcin de densidad depende de un


parmetro desconocido R, concretamente
1 1
f (x; ) =
1 + (x )2

para x R. Comprobar que coincide con la mediana y la moda de X pero que


la media E (X) no est definida.
Disear un experimento de simulacin en R, tomando algn valor concreto de ,
orientado a comprobar cmo se comportan la mediana muestral y la media muestral
como estimadores de : mientras la mediana muestral se acerca al verdadero valor
de al aumentar N , la media muestral oscila fuertemente y no se acerca a
aunque se aumente el tamao muestral n.

Viendo la funcin, vemos que es simtrica con respecto al eje x = . Por lo tanto, el
punto que deja a izquierda y derecha la misma probablidad, la mediana, es precisamente
.
La moda es el valor mximo de la distribucin,
1 2(x )
f 0 (x; ) = = 0 x =
(1 + (x )2 )2

Y se ve que es un mximo porque es el punto en el que el signo de la derivada pasa


de positivo a negativo.

Ejercicio 2.6: Se extrae una muestra aleatoria de tamao n = 600 de una


v.a. cuya desviacin tpica es = 3. Calcular aproximadamente la probabilidad
 

P X < 0.1

Tenemos 2 posibilidades: Tipificar o con Chebichev.


Segn Chebichev, tenemos que

n o V (X)
P X E (X) >
2
   
Tenemos que = E X , tenemos que hallar V X :

  V (X) 2
V X = = = 0.015
n n
Y por lo tanto,

95 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

   

P X < 0.1 = 1 P X > 0.1 0.5
| {z }
1.5

Que no es una aproximacin muy buena. As que pasamos a tipificar:

X
Z= N (0, 1)

n

Entonces:
   

P X < 0.1 = 1 P X > 0.1 =
( ) ( )
0.1 n 0.1 n
= 1 P |Z| > =12P Z > = 0.582

   
V(X)
(Recordemos que V X = n
y que E X = = E (X))

Ejercicio 2.7: Sea X una v.a con distribucin absolutamente continua.


Sea F la correspondiente funcin de distribucin y f = F 0 continua en todo
punto la funcin de densidad. Para r {1, . . . , n}, denotemos por X(r) el r-
simo estadstico ordenado de una muestra de tamao n extrada de X. Calcular la
funcin de distribucin y la de densidad de la v.a. X(r) .

Por definicin, la funcin de distribucin es:


FX(r) (x) = P X(r) x

que es la probabilidad que al menos r elementos de la muestra sean menores o


iguales que x. Luego la probabilidad es igual a

n
X 
P exactamente j observaciones de la muestra1 son x =
j=r

n
X n
X
 n nj
= P B(n, F (x)) = j = j
F (x) 1 F (x)
j=r j=r j

Ahora slo falta calcular la densidad de X(r) , y la obtenemos derivando la funcin


de distribucin:
1
que una observacin sea exactemente x es una Bernouilli, y la suma de Bernouillis es la
Binomial

96 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

fX(r) (x) =

Xn
n
= j(F (x)j1 (1 F (x))nj f (x) (F (x))j (n j)(1 F (x))nj1 f (x) =

j=r j

n
X n
X
n j1 nj n j nj1
= j(F (x) (1 F (x)) f (x) (F (x)) (n j)(1 F (x)) f (x) =
j=r j j=r j

Xn
n n
= r(F (x))r1 (1 F (x))n1 f (x) + j1
j(F (x)) f (x)(1 F (x))
nj

r j=r+1 j

n
X n
j nj1
(n j)(F (x)) (1 F (x)) f (x) =
j=r j

n1
X
n 1 r1 nr n 1 l nl1
n (F (x)) (1 F (x)) f (x) + n (F (x)) (1 F (x)) f (x)
r1 l=r l

n1
X n 1 j nj1
n (F (x)) (1 F (x)) f (x)
j=r j

Los dos ltimos trminos se cancelan y nos queda que:



n 1 r1 nr
fX(r) (x) = n (F (x)) (1 F (x)) f (x)
r1

Consideremos los dos casos particulares del mnimo y mximo de la muestra. Con
el mnimo, r = 1 y entonces:
n
 X n
FX(1) (x) = P X(1) x = j
(F (x)) (1 F (x))
nj
= 2 1 (1 F (x))n
j=1 j

En el caso del mximo:


n
Y
 
FX(n) (x) = P X(n) x = P X(j) x = 3 (F (x))n
j=1


P
n n
2
1 = 1n = (1 F (x) + F (x))n = (F (x))j (1 F (x))nj
j=0 j
3
j X(j) X = P {X x} = F (x)

97 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 2.8: Sea fn un estimador kernel de la densidad basado en un


ncleo K que es una funcin de densidad con media finita. Comprobar que, en
general,
 fn (t) es un estimador sesgado de f (t) en el sentido de que no se tiene

E fn (t) = f (t) para todo t y para toda densidad f .

Lo que buscamos es calcular el sesgo:


 
sesgo (fn (t)) = E fn (t) f (t) (B.1)


  Xn   Xn  !
1 t X i 1 t X i
E fn (t) = E K = E K =
nh i=1 h nh i=1 h
 ! Z  
1 tX 1 tx
= E K = K f (x) dx = ...
h h h R h

Haciendo un cambio de variable x = t hz, dx = h dz, los lmites se invierten,

Z   Z Z
1 tx 1
... = K f (x) d(x) = K(z)f (thz)(h) dz = K(z)f (thz) dz
h h h

R
Usando que K es funcin de densidad = K = 1, (B.1) nos queda

Z Z Z
 
... = K(z)f (t hz) dz K(z)f (t) dz = K(z) f (t hz) f (t) dz =

Z Z Z
0 1 2 00 2 1 3 000
= hf (t) zK(z) dz + h f (t) z K(z) dz + h f (t) z 3 K(z) dz +
2 6

Al hacer el desarrollo de Taylor, como K es una funcin simtrica, las integrales


con ndice impar (con z = 1, 3, . . . ) se anulan. Sin embargo, el segundo trmino no lo
hace. Por lo tanto, el sesgo de un estimador kernel no es nunca cero.
El sesgo del estimador kernel depende de h (el parmetro de suavizado o bandwith)
en potencias pares. Por eso, se toma de manera tal que h 0 y entonces
n

sesgo fn (t) 0 pero manteniendo un equilibrio para que la varianza tambin sea
n
pequea y no tengamos picos en el histograma (ver seccin I.1.3.1).

98 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.3. Tema 3 - Estimacin puntual paramtrica

Ejercicio 3.1: Sea X una v.a. con distribucin exponencial de parmetro .


Calcula la funcin de distribucin, la de densidad y la funcin cuantlica de la v.a.
Y = X 1/3 .

Y
4
Como X exp() ( > 0) Y = X 1/3 X = ( )3

y 3 ( y )3
3
y2
f (x) = f (( ) ) = e = e = f (y)
Z
Y 3 y y2
F (X) = F (( ) ) = f (( )3 )(3 3 )dy =

Z 2
y y 3 y 3
= 3 2 e 2 dy = e 2 + C = F (Y ), C R

y3
Finalmente, como e 2 es creciente con valor mximo 0 y mnimo -1 = C = 1.
La funcin cuantlica por definicin es: F 1 (p) = inf {y  F (y) p}, luego
y3
F 1 (p) = nf {y  1 e 2 p}
p[0,1]

Ejercicio 3.2: Supongamos que X mide el error cometido en la medicin


de una magnitud. X es una v.a. normal de media 0 y varianza .

X N (0, ), > 0, = (0, )

Se desea estimar a partir de una muestra.


a) Calcular el estimador de mxima verosimilitud Tn .
b) Probar que Tn es insesgado y eficiente.
c) Estudiar la distribucin asinttica de Tn .

Apartado a)
Buscamos el mximo de la funcin de verosimilitud
n
Y 1 1 P 2
2 xi
Ln (; X1 , ..., Xn ) = f (xi ; ) = n e

i=1
( 2 ) 2

El mximo de la funcin de verosimilitud ser tambin el mximo de la


logverosimilitud
4
Esta solucin puede estar mal. Edu

99 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

n n 1 X 2
logLn () = log(2) log() xi
2 2 2
Para ello derivamos e igualamos a 0.

n 1 X 2
logLn () = + 2 xi = 0
2 2
P 2!
1 n x 1X 2
+ 2 i = 0 = Tn = e.m.v.() = xi
2 n

Apartado b)
P  
E (Tn ) = E 1
n
x2i = E X 2 =

Nos tenemos que dar cuentade que V (X) = E X 2 E (X)2 . En este caso
E (X) = = 0 por lo que E X 2 = por hiptesis. Vamos a calcular la informacin
de fisher para comprobar si el estimador es eficiente o no.

1 1 1
logf (x; ) = log(2) log() X 2
2 2 2
Derivamos:
1 1
logf (x; ) = + 2 X 2
2 2
Elegimos derivar otra vez o elevar al cuadrado (2 alternativas para calcularlo).
En este caso vamos a elevar al cuadrado:
!
1 X4 X2
logf (X; ) = 2 1+ 2 2
4

Entonces la informacin de fisher ser:

!  !
1 X 4
X 2 E X 4 E X 2
I() = E 2 1+ 2 2 = 1 1+ 2
4 42 2


Aplicamos por hiptesis: E X 4 = 32
!
1 32 1
I() = 2 1+ 2 2 =
4 22

Vamos a calcular
 X 
1 1 X  n 
V (Tn ) = V x2i = 2 V x2i = 2 V X 2 =
n n n

100 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

1   1 22 1
E X 4 E X 2 = (32 2 ) = =
n n n nI()

Como la varianza coincide con la cota de Frcher-Cramer-Rao entonces podemos


decir que es un estimador eficiente.
Los siguientes pasos para comprobar lo bueno que es el estimador son:

Tn asintticamente normal.

Tn es consistente casi seguro.

Apartado c)
Vamos a estudiar la distribucin asinttica:

d
n(Tn ) N (0, ())
n

Llamando Yi = Xi2 = E (Y ) = E X 2 =
Entonces por el TCL (Teorema Central del Lmite):
d
p
n(Y E (Y )) N (0, V (Y ))
n

  2
Donde V (Y ) = V X 2 = E (X 2 )2 E X 2 = 32 2 = 22

Ejercicio 3.3: Se dispone de un gran lote de piezas producidas en una


cadena de montaje. Denotemos por p la proporcin de piezas defectuosas en ese
lote. Supongamos que se seleccionan al azar sucesivamente (con reemplazamiento)
piezas del lote hasta que se encuentra una defectuosa. Sea X la variable aleatoria
que indica el nmero de la extraccin en la que aparece la primera pieza defectuosa.
a) Calcular P {X = k} para k = 1, 2, . . . Obtener el estimador de p por el
mtodo de los momentos, a partir de una muestra X1 , . . . , Xn .
b) Obtener el estimador de p por el mtodo de mxima verosimilitud. Calcular
su distribucin asinttica.

Apartado a)
La probabilidad sigue una distribucin geomtrica de parmetro p:

P {X = k} = (1 p)k1 p

Apartado b)
Calculamos la funcin de verosimilitud:

101 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

n n P
n
Y Y xi 1
xi 1
Ln (p; x1 , . . . , xn ) = f (xi ; p) = (1 p) p = (1 p)i=1 pn
i=1 i=1

Tomamos logaritmos

n
X
log Ln (p) = log(1 p) (xi 1) + n log p
i=1

y derivando
n
1 X n
log Ln (p) = (xi 1) + = 0
p 1 p i=1 p
n
1 p 1 X 1
= (xi 1) 1 p = p(x 1) emv(p) = p =
p n i=1 x

Vamos a calcular su distribucin asinttica, aplicando el mtodo delta.


Para ello observamos que tomando g(x) = x1 , tenemos que g(x) = p.
1 1
Comprobamos que g(E (X)) = E(X)
= 1 =p
p

Luego por el mtodo delta y aplicando el TCL:

 p 
d
n(g(X) g(E (X))) = p p) N 0, g 0 (E (X)) V (X)
n(
n

1p
Como g 0 (x) = 1
x2
, y V (X) = p2
, entonces

!
 p  1 1p  p 
N 0, g 0 (E (X)) V (X) = N 0, 1 = N 0, p 1 p
p2
p

Ejercicio 3.4: Estudiar si es eficiente el estimador de mxima verosimilitud


de una poisson.

x
P (X = x) = e
x!
El clculo del estimador de mxima verosimilitud se hizo en clase llegando a = x
(III.1.2.1).
Para ver si es eficiente vemos si es su varianza es igual a la cota de FCR. Necesitamos
la informacin de Fisher para comprobar eso.

102 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Para calcular la informacin de fisher derivamos el logaritmo de la densidad

log f (; x) = + x log log x!

x
log f (; x) = 1 + + 0

Para calcular la informacin de Fisher podemos volver a derivar o elevar al cuadrado.
Elegimos volver a derivar

2 x
2
log f (; x) = 2

Entonces tenemos que
!  
2 x 1 1
I() = E 2 log f (; x) = E = E (X) =
2 2

1
La cota de FCR ser entonces 1 = .
n n
Calculamos la varianza:

V (x)
V () = V (x) = =
n n
Como tenemos la igualdad podemos afirmar que si es un estimador eficiente.

Ejercicio 3.5: Distribucin de Rayleigh, cuya funcin de densidad es:


x x22
f (x; ) = e 2 I[0,) (x), > 0
2

a) Calcular el estimador de mxima verosimilitud (e.m.v.) y por el mtodo de


los momentos
b) Calcular la consistencia del e.m.v.
c) Son asintticamente normales ambos estimadores?

Apartado a)

x1 ... xn 12 Pni=1 x2i


Ln (; x1 , ..., xn ) = e 2
2
X 1 X 2
logLn () = logxi 2nlog 2 xi
2
 
l 1 1 X 2
gLn () = 2n + 2 xi = 0
o

103 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

P P ! 21
x2i x2i
= 2 = = = emv() =
2n 2n

 p 2
2
Estimador razonable porque E x 2
= V (x) + E (x) =
2
+ 4 2
2
=
2 2 1
2 = 2
E(x2 )
Buscamos ahora el estimador por el mtodo de los momentos
r

E (X) = =X
2

y entonces el estimador es r
2
= X

Apartado b)
Consistencia: 2 = 12 Y , Yi = Xi2
Por la ley fuerte de los grandes nmeros (II.6) sabemos que:
cs
Y E (Y ) = E (X 2 ) = 22
n

Vamos a aplicar el teorema de Slutsky.


q
Sea g(x) = 12 x definida sobre [0, ).
  q P 2 q
xi c.s
Teorema de Slutsky (II.3) = g Y = 2 n g(E ) = 12 2 = =
1
n

El e.m.v. de , es consistente c.s.

Apartado c)
Queremos aplicar el mtodo delta:

   
 d p
n( ) = n g Y g E(Y ) N (0, g 0 (E(Y )) V (Y )
n

E (Y ) = E (X 2 ) = 22
V (Y ) = E(X 4 ) E 2 (X 2 ) = 84 44 = 44
1 1
Entonces tenemos que g 0 (E(Y )) = p = .
2 2E(Y ) 4
Con esta informacin completamos:
r !
d 1
n( ) N 0,
n 2

104 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Buscamos ahora la convergencia asinttica del estimador por el mtodo de los


momentos:

  r
2 2 2
n( ) = n X E (X) = n(X E (X))

que, por el TCL (II.8)

r r r ! r !
2 d 2 4 4
n(X E (X)) N 0, =N 0,
n 2

y por lo tanto es efectivamente asintticamente normal.

Ejercicio 3.6: Se dice que una v.a. X tiene distribucin Beta de parmetros
a>0y
b > 0 (y se denota X Beta(a, b)) si su funcin de densidad es

(a + b) a1
f (x; a, b) = x (1 x)b1 1[0,1] (x).
(a)(b)

siendo la funcin gamma que aparece en la definicin de la distribucin del mismo


nombre. Calcular el valor de E (X) y V (X).

Vamos a utilizar la siguiente propiedad de la gamma: (n + 1) = n (n).


Empecemos con E (X):

Z1 Z1
(a + b) a1
E (X) = xf (x)dx = x x (1 x)b1 dx = (B.2)
(a)(b)
0 0
Z1
(a + b) (a + 1)(b) (a + 1 + b) (a+1)1
= x (1 x)b1 dx =
(a)(b) (a + 1 + b) (a + 1)(b)
0
| {z }
=1 porque es la funcin de densidad de una Beta(a + 1, b)

(a + b) a (a)(b) a
= =
(a)(b) (a + b) (a + b) a+b

Y ahora calcularemos la varianza:



V (X) = E X 2 E (X)2 (B.3)

105 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Z1 Z1
 (a + b) a1
E X 2
= x2 f (x)dx = x2 x (1 x)b1 dx = (B.4)
(a)(b)
0 0
Z1
(a + b) (a + 2)(b) (a + 2 + b) (a+2)1
= x (1 x)b1 dx =
(a)(b) (a + 2 + b) (a + 2)(b)
0
| {z }
=1 porque es la funcin de densidad de una Beta(a + 2, b)

(a + 1)a (a + b) (a)(b) (a + 1)a


= =
(a + b + 1)(a + b) (a)(b) (a + b) (a + b + 1)(a + b)

Sustituimos en (B.3) lo obtenido en (B.2) y (B.4):


 2
(a + 1)a a (a + 1) a (a + b) a2 (a + b + 1)
V (X) = = =
(a + b + 1)(a + b) a+b (a + b + 1)(a + b)2
a3 + a2 b + a2 + ab a3 a2 b a2 ab
= 2
=
(a + b + 1)(a + b) (a + b + 1)(a + b)2

Ejercicio 3.7:

Ver transparencias 36 y 37 del tema 3.


Ejercicio 3.8: Sea X N (, ). Estamos interesados en la estimacin
de basados en muestras X1 , . . . , Xn de tamao n. Calcular la cota de Frchet-
Cramer-Rao (III.7) para estimadores insesgados.

La cota FCR es
1
nI()

Podamos calcular la informacin de Fisher como

 2 ! !
2
I() = E log f (X; ) = E log f (X; )
2

Usaremos la segunda expresin. Calculamos primero el logaritmo:

1 1 1
log f (X; ) = log 2 log (x )2
2 2 2
y derivamos dos veces

106 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

1 1
log f (X; ) = log f (X; ) = + 2 (x )2
2 2 
2 1 2 2 1 1 1 2
log f (X; ) = 2 3 (x ) = 2 (x )
2 2 2 2

Calculamos ahora la esperanza:



 !
1 1 1 1 1 1 2 1
E (x )2 = E (X ) =
2 2 2 2 | {z } 22

22
y por lo tanto la cota FCR vale , el valor mnimo.
n

Ejercicio 3.9: Sea X1 , . . . , Xn una muestra de una v.a. con funcin de


densidad

f (x; ) = x1

Sea n
1 X
Tn (X1 , . . . , Xn ) = log Xi
n i=1

a) Probar que
1 1
E (Tn ) = ; V (Tn ) = 2
n
b) Es eficiente Tn como estimador de 1 ?

Apartado a)
Aplicamos que la esperanza de la media muestral de una variable es la esperanza
de la variable. En este caso nuestra variable es logX.
Z 1
1
E (Tn ) = E (log X) = log xx1 dx =
0
  V (X)
Calculamos ahora la varianza (aplicando V X = ).
n

V (log X)
V (Tn ) = =
n
  1
= E log2 X E (log X)2 = 2

107 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 3.10: El nmero de fallos que se producen anualmente en cierto


mecanismo es una v.a. con distribucin de Poisson de parmetro . El valor de
no es conocido exactamente, pero se tiene cierta informacin a priori que permite
considerarlo como una v.a. con distribucin (a, p) (a y p son conocidos). Si
x1 , . . . , xn son observaciones observaciones independientes de la variable aleatoria
nmero de fallos, calcular la distribucin a posteriori y obtener, a partir de ella,
un estimador puntual para .

Sea X nmero de fallos anuales P oisson(), > 0.


Su funcin de densidad es
x

f (x|) = P {X = x} = e , x = 1, 2, 3, ...
x!
Y el prior es
ap a p1
() = e con > 0, a > 0, p > 0
(p)
Entonces

n
Y xi
ap a p1
(|x1 , . . . , xn ) f (x1 , . . . , xn |)() = e e
i=1
xi ! (p)
n
X
P
n

e(n+a) ( xi +p)1
(a + n, xi + p)

Luego el estimador Bayes de es


P
n Pn
 xi + p xi p n p a
E (|x1 , . . . , xn ) = = + = x + = x
a+n a+n a+n a + n
| {z } a a + n
| {z }
n
1 n
0

108 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 3.11: (Este ejercicio es del parcial del ao pasado)

X U nif [0, ] Con



1

0x
f (x) =

0 x
/ [0, ]

Vamos a calcular la funcin de distribucin:


Z x Z x
1 x
F (x) = P {X x} = f (t)dt = dt = si0 x
inf ty 0


x

0x
F =

0 x
/ [0, ]

Nos piden dibujar las funciones.


Vamos a calcular

n

1 n
Y xi [0, ]

Ln (; xi ) = f (xi ) =

0 xi
/ [0, ]
i=1

Calculamos la logLn que nos piden dibujarla:




nlog() si max({x })
i
logLn () =

0 si no

Dibujoo!


n = e.m.v.() = max Ln ()

Tambin vale tomando el logaritmo:

n = e.m.v.() = arg maslogLn () = max{xi }


porque

nlog() max{x }
i
logLn() =

si no

109 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.4. Tema 4 - Intervalos de confianza

Ejercicio 4.1 y 2:
a) Representa un estimador de la funcin de densidad de la v.a. X = cantidad
de contaminacin por mercurio (en p.p.m.) en los peces capturados en los ros
norteamericanos Lumber y Wacamaw (ver fichero Datos-mercurio.txt). Comparar
esta densidad estimada con la densidad normal de igual media y desviacin tpica
(representada en la misma grfica). En vista de las dos funciones diras que la
funcin de densidad de X es aproximadamente normal?
b) Obtener un intervalo de confianza de nivel 0.95 para la media de X.
c) Se puede considerar fiable este intervalo a pesar de la posible no-normalidad
de X?
d) Qu tamao muestral habr que tomar para estimar la contaminacin media
con un error mximo de 0.06?

Solucionado por Amparo, descargable aqu.

Ejercicio 4.3:
a) Representa en un mismo grfico las densidades de las distribuciones 2k con
k = 4,8,20,30.
b) X (5, 10). Calcular P{X 3}
c) Sea Y 2200 . Calcular P{Y 3}

Apartado a)
El cdigo R utilizado para generar las grficas es:

> x = seq(0,20,length.out=1000)
> d1=dchisq(x,df=4)
> d2=dchisq(x,df=8)
> d3=dchisq(x,df=10)
> d4=dchisq(x,df=20)
> plot(x,d1,type=l)
> lines(x,d2,type=l,col=blue)
> lines(x,d3,type=l,col=green)
> lines(x,d4,type=l,col=red)

110 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Apartado b)
Vamos a usar el resultado visto en clase: Si X (a, p) entonces tenemos que
a a
X c ( , p) = c X ( , p)
 c   c
a 1 k
Como ,p , y a = 5, p = 10
c 2 2

Tenemos que c = 10, luego:


P {10X 30} = P 220 30

Tenemos varias opciontes. Una de ellas es ir a R y calcularlo con el comando


pchisq(30, 20) = 0.93

Y la otra es irse a las tablas y vemos que P{220 30} ' 1 0.1+0.05
2
= 0.93, ya
que en las tablas estamos entre 28.4 y 31.4.

Apartado c)
Sea Y 2200
Podemos hacerlo en R directamente y nos da P {Y 3} = 10141
A mano, aplicamos el T.C.L, que dice:
d
n(X ) N (0, )
n

111 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra
r !
V (X)
Entonces tenemos: X N E (X) ,
n
  
Donde5 E (X) = E Z 2 = V (Z) = 1 y V (X) = V Z 2 = V 21 = 2
Con lo que: r !  
2 1
XN 1, = N 1,
200 10

Sustituyendo y estandarizando:

  ( )
3
3 1
P X 'P Z 200
1 = P {Z 9.85} = 3 1023
20 10

Una diferencia bastante distinta a lo que deca R. Tras un debate entre Miguel y
Amparo de 10 minutos no se ha llegado a ninguna conclusin.

Ejercicio 4.4:
a) Utilizando el fichero Datos-lipidos.txt, estima, mediante un intervalo de
confianza de nivel 0.95, la proporcin de pacientes que tienen una concentracin
de colesterol superior o igual a 220 mg/dl. Qu tamao muestral habr que usar
para tener una probabilidad aproximada de 0.95 de no cometer un error mayor que
0.01 en la estimacin de esta proporcin?
b)

Solucionado por Amparo, descargable aqui

Ejercicio 4.5: Sea una v.a. con funcin de densidad f (x; ) = x(+1) 1[1,)
a) Obtener el e.m.v.
b) Obtener su distribucin asinttica
c) Calcular la cantidad pivotal aproximada y, a partir de ella, un intervalo de
confianza de nivel aproximada 1 para

Apartado a)

logL() 1
= 0 = e.m.v.() =
Y
donde Y = logXi

Apartado b)

5
Recuerda: V 2k = 2 k

112 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Posibles caminos:
d
a) ?
n
d
b) n( ) N (0, ?)
n

113 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La primera opcin es algo difusa y la segunda es mucho ms concreta y mejor.



Tenemos que examinar la expresin n( ) Tenemos 2 posibilidades con las
que calcular este tipo de cosas (T.C.L.) y mtodo delta (que es el que emplearemos a
continuacin)

= E (X) ; = V (X)
 
n g(X) g(u) N (0, g 0 (u) )
n

Aplicando el mtodo delta:


 
 d 0 1 p
n( ) =
n g(y) g(E (Y )) N 0, g V (Y )
= N (0, )
n

| {z }
2

Peeero... hay que tener cuidado con que = g(E (Y )) porque sino no podemos
aplicar el mtodo delta.
Z
  1 1
V (Y ) = E Y 2
E 2
Y = (log x)2 x(+1) dx 2 = 2

|1 {z }
2
2

Apartado c)
La cantidad pivotal es un estadstico que depende de la muestra y del parmetro
desconocido (del que estamos calculando el intervalo) y cuya distribucin, al menos
asintticamente) es totalmente conocida.
En el apartado b) hemos encontrado la distribucin asinttica para poder construir
la cantidad pivotal.
Tipificamos el resultado anterior para evitar que la distribucin dependa del
parmetro desconocido.
!
1
n( ) = n 1 = Q(; X1 , ..., XN )

y depende
Esta es nuestra cantidad pivotal, que depende de la muestra (por el )
del parmetro.
1 = P = {q1 () Q(; X1 , ..., XN ) q2 ()}
Tras despejar obtenemos

IC1 () = ( , )
1+ 1 z/2 1 1 z/2
n n

114 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 4.6: Sea X1 , . . . , Xn una muestra de una v.a. uniforme en el


interalo [0, ] con 0 < < 1. Obtener una cantidad pivotal para a partir del emv.
Usando esta cantidad pivotal construye un intervalo de confianza para de nivel
prefijado 1 .

El e.m.v es
emv() = = max Xi
La cantidad pivotal para = Q(; X1 , . . . , Xn )




n o  Yn 0 
x<0
x n
FX(n) (x) = P n x = P X(n) x = P {Xi x} = 0x



i=1 1 x>1

X(n)
Tomo Q(; X1 , . . . , Xn ) = = , que es vlido como cantidad pivotal porque
n

 
0 x<0
X(n)
P {Q x} = P n
x = x 0x


1 x>1

Tenemos que elegir dos valores q1 , q2 de tal forma que


1 = P q1 () Q(; X1 , . . . , Xn ) q2 ()

Cmo elegirlos? !Queremos buscar que la longitud del intervalo de confianza


n n
IC1 () = , sea mnima. Calculamos esa longitud:
q2 q 1
   
1 1 q 2 q 1
len IC = n = n
q1 q 2 q1 q 2

Es decir, tenemos que buscar que q1 q2 sea ms pequeo y adems tienen que
ser lo mayores posible. Por lo tanto, la eleccin ptima es

q2 = 1, q1 = 1/n

115 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 4.7: Construye tres intervalos de confianza asintticos diferentes


para el parmetro de una distribucin de Poisson usando los tres mtodos
siguientes:
a) Utiliza el comportamiento asinttico de la media muestral, estima de forma
consistente la varianza y aplica el teorema de Slutsky.
b) Igual que el anterior, pero sin estimar la varianza
c) Aplicando el mtodo delta para estabilizar la varianza, es decir, buscando
d
una funcin g tal que n(g(X) g()) N (0, 1).
n

Apartado a)
El TCL (II.8) nos dice que

X d
n N (0, 1)
n
Entonces tenemos que
( )
X
1 = P z/2 n z/2 (B.5)

P,c.s
Sustituyo en el denominador por una estimacin consistente :
n

X d
n p N (0, 1)
n

Como sabemos que = E (X), tomamos la media muestral como el estimador:


= X. La convergencia nos queda entonces como

X d
n N (0, 1)
X n
X
y por lo tanto tomamos n como nuestra cantidad pivotal. Despejamos
X
ahora en (B.5):
s s


X X
P X z/2 X + z/2

n n

Apartado b)
Partimos de nuevo de (B.5), pero no tenemos que estimar . Esta ecuacin es
equivalente a

116 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

( )
(X )2
P n 2
z/2

De ah slo tenemos que despejar para hallar nuestro intervalo de confianza.

Apartado c)
Tenemos que buscar que se satisfaga la ecuacin
d
n(g(X) g()) N (0, 1)
n

Sin embargo, el mtodo delta (III.1.1.3) nos dice algo distinto:

d p
n(g(X) g()) N (0, g 0 () V (X))
n

Entonces tenemos que

0
g () = 1 = g 0 () = 1


e integrando vemos que g() = 2 .

Ejercicio 4.8:
a) Se desea evaluar aproximadamente, por el mtodo de Montecarlo, la integral
Z 1
p= f (x) dx
0

de una funcin continua f : [0, 1] 7 [0, 1]. Para ello se generan 500 observaciones
independientes (Xi , Yi ) con i = 1, . . . , 500 con distribucin uniforme en el cuadrado
[0, 1] [0, 1] y se estima p mediante
500
X Zi
p =
i=1
500

donde la v.a. Zi vale 1 si Yi f (Xi ) y 0 en caso contrario. Qu distribucin


P tienen
las Zi ? Suponiendo que, en una muestra concreta hemos obtenido 500 z
i=1 i = 255,
obtener un intervalo de confianza de nivel 0.99 para la correspondiente estimacin
de p.

Apartado a)
La v.a. sigue una distribucin de Bernoulli, de tal forma que


P {Z = 1} = P Y f (X) (B.6)

117 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La distribucin de densidad de la v.a. (Xi , Yi ) es


(
1 (x, y) [0, 1] [0, 1]
f (x, y) =
0 en otro caso

Aplicando esto en (B.6)

Z 1 Z f (x) Z 1

P {Z = 1} = P (X, Y ) {(x, y)  y f (x) } = dy dx = f (x) dx = p
0 0 0

y llegamos a la forma de estimar la integral que queramos.


Vamos a contruir el intervalo de confianza de nuvel 0.99.

r ! r !
z(1 z) p(1 p)
IC0.99 (p) = z Z0.005 = p 2575 ) = (0.45 0.057)
500 500

Apartado b)
En este caso sabemos el valor de
Z 1
1
p= x2 dx =
0 3
Buscamos un n que cumpla:
s
1
3
23
z0.005 = n > 14734.72
n

Ejercicio 4.9: Sea X una v.a. con distribucin normal de media y varianza
. Estamos interesados en la estimacin de basados
 en muestras X1 , ..., Xn . Si
s denota la cuasivarianza muestral, calcular V s y compararla con la cota de
2 2

Frchet-Cramer-Rao obtenida en la relacin 3 de problemas.

Comentarios previos: Sabemos que s2 es un estimador insesgado de


n
1 X
V (X) = (Xi X)2
n 1 i=1

Vamos a calcular V s2
Posibilidades:

Aunque es un poco largo


  h i2
V s 2
=E s 4
E s 2

118 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Si X N (, ) entonces
(n 1)s2
2n1
2

Vamos a utilizar la segunda opcin6 y que V 2n1 = 2(n 1):

!  
 n1 2 2 4 n1 2
V s 2
=V s = V s =
2 n1 (n 1)2 2
4  2 = 2 22
= V 2
n1 = 2(n 1) =
(n 1)2 (n 1)2 n1
 
2 2
s por lo tanto no es eficiente porque la Cota de FCR es: . Por ser la
n
varianza de una N (, ), cuya cota de FCR se calcula en el problema 8H3.

6
ver (III.2.3.1)

119 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.5. Tema 5 - Contraste de hiptesis

B.5.1. Hoja 5A

Ejercicio 5.1: En octubre de 2007 el peridico The New York Times realiz
un muestreo en 20 restaurantes y tiendas de Nueva York con objeto de analizar la
variable X, que representa el contenido en ppm de metilmercurio en el sushi de atn
que se pone a la venta. La media y la cuasi-desviacin tpica muestrales obtenidas
con estas 20 observaciones de X fueron x = 0.794, s = 0.2953. Supongamos que
X tiene distribucin aproximadamente normal.
a) Proporcionan estos datos suficiente evidencia estadstica a nivel 0.05 a favor
de la hiptesis de que la concentracin media de metilmercurio en las raciones de
sushi de atn en la poblacin considerada es superior a 0.6 ppm? El p-valor, es
menor o mayor que 0.01?
b) Obtener, a partir de estos datos, un intervalo de confianza de nivel 0.95
para la concentracin media de metilmercurio en toda la poblacin. Calcular el
mnimo tamao muestral mnimo que habra que utilizar para, con una probabilidad
de 0.95, estimar la concentracin media de metilmercurio con un error mximo de
0.06 ppm.

Apartado a)
Empezamos definiendo la hiptesis nula, que ser que 0.6 ya que queremos
una evidencia muy fuerte para rechazar que la concentracin suba del nivel mnimo.
Tenemos el siguiente contraste a nivel = 0.05:

H0 : 0.6
H1 : > 0.6

La regin de rechazo en este caso es

R = {T > t19; }

donde
x 0.6
T = = 2.938
0.2953/ 20

Por otra parte, t19; = 1.729. Se cumple la condicin de la regin de rechazo, por
lo tanto rechazamos H0 . El p-valor del contraste tendr que ser menor entonces que
0.05.
Para saber si el p-valor es menor que 0.01 calculamos t19;0.01 = 2.53. Como sigue
siendo menor que T , seguimos rechazando H0 y por lo tanto el p-valor del contraste
ser menor que 0.01.
Si quisisemos obtener el p-valor concreto del contraste, buscaramos el valor de
tal que t19; = 2.938. En R, obtendramos este valor con la orden

120 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

> pt(2.938, 19, lower.tail=FALSE)


[1] 0.004221168

El p-valor es por lo tanto 0.004. Esto quiere decir que la probabilidad de obtener la
muestra que hemos conseguido suponiendo que H0 sea cierta (esto es, suponiendo que
la media de ppm de metilmercurio en el atn es menor que 0.6) es extremadamente
baja, y o bien hemos obtenido una muestra muy, muy extraa o H0 es falsa. Por
lo tanto, lo razonable sera rechazar la hiptesis nula y decir que, de media, la
concentracin de metilmercurio es mayor que 0.6.

Apartado b)
El intervalo de confianza sera
 
s
IC0.95 () = x tn1; 2 = (0.656, 0.932)
n

/ IC0.95 (), rechazaramos H0 : = 0.06 a nivel = 0.05.


Como adems 0.6
Para hallar el tamao muestral mnimo buscamos que

IC0.95 () = (x 0.06)

Despejando, tenemos que resolver

s
tn1;0.025 < 0.06
n

Como no conocemos s, lo sustituimos por una aproximacin, la cuasivarianza


muestral de los 20 restaurantes que tenamos al principio. Adems, intuimos que n
va a ser grande y por lo tanto t se aproximara a una distribucin normal Z = N (0, 1),
y por lo tanto

tn1;0.025 z0.025 = 1.96

y entonces n > 93.


Otra forma de aproximar el tn1;0.025 sera sustituirlo por t1 ya que a menos grados
de libertad, menor peso tienen las colas, luego tn1;0.025 < t1;0.025 .
Despejando obtenemos que n > 3910.
Finalmente, otra forma de aproximarlo sera tomar n 1 = 20, ya que sabemos
que el n va a ser mayor que 20. Con esta aproximacin obtenemos que n > 105.

121 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.2:

En vista de los datos Datos-mercurio.txt hay suficiente evidencia estadstica para afirmar que
el nivel medio de contaminacion por mercurio en los dos ros es diferente? Contrastar la hipotesis
de igualdad de varianzas.
Indicar, en cada caso, las suposiciones previas necesarias para garantizar la validez de los procedi-
mientos empleados.

Suponemos que X = Nivel de contaminaci on por mercurio en un pez (de la especie large mouth bass)
elegido al azar en el ro Lumber e Y = Nivel de contaminaci
on por mercurio en un pez (de la misma
especie) del ro Wacamaw son v.a. independientes y siguen una distribucion normal: X N (1 , 1 )
e Y N (2 , 2 ).
Contrastemos primero la hipotesis de igualdad de varianzas a nivel :

H0 : 1 = 2 (1)
H1 : 1 6= 2 .

La region de rechazo es R = {s21 /s22


/ [Fn1 1;n2 1;1/2 , Fn1 1;n2 1;/2 ]}.
X = read.table(Datos-mercurio.txt)
ContHg = X$V5
Rio = X$V1
ContHgL = ContHg[Rio==0]
ContHgW = ContHg[Rio==1]
s2L = var(ContHgL)
s2W = var(ContHgW)
s2L/s2W
[1] 0.6119333
alpha = 0.1
n1 = length(ContHgL)
n2 = length(ContHgW)
c(qf(alpha/2,n1-1,n2-1),qf(alpha/2,n1-1,n2-1,lower.tail=F))
[1] 0.690974 1.430908
Por tanto, a nivel = 0,1 no podemos considerar las varianzas iguales.
alpha = 0.05
c(qf(alpha/2,n1-1,n2-1),qf(alpha/2,n1-1,n2-1,lower.tail=F))
[1] 0.6432225 1.5328961
A nivel = 0,05 tampoco.
Entonces la region de rechazo del contraste

H0 : 1 = 2 (2)
H1 : 1 6= 2

a nivel de significacion es
s
s21 s22
R = |
x y| tf ;/2 + ,
n1 n2

donde f = 169 es el entero mas proximo a


 2 2
s1 s22
n1 + n2
(s21 /n1 )2 (s22 /n2 )2
= 168,57. (3)
n1 1 + n2 1

122 de 160
q
s21 s22
Como |x y| = 0,198 y t169;0,025 n1 + n2 = 0,223, no tenemos suficiente evidencia estadstica para
rechazar H0 : 1 = 2 .

Con R podemos hacer t-tests (contrastes en los que el estadstico del contraste sigue una distribucion
t) de la siguiente manera:
t.test(ContHg ~ Rio, alternative = "two.sided", mu = 0, paired = FALSE, var.equal
= FALSE, conf.level = 0.95)
o equivalentemente
t.test(ContHgL, ContHgW, alternative = "two.sided", mu = 0, paired = FALSE, var.
equal = FALSE, conf.level = 0.95)
Obtenemos como resultado
Welch Two Sample t-test

data: ContHgL and ContHgW


t = -1.7547, df = 168.57, p-value = 0.08114
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.42150363 0.02481087
sample estimates:
mean of x mean of y
1.078082 1.276429
El valor t es el del estadstico del contraste
y
x
t= q ,
s21 s22
n1 + n2

on (3). El intervalo de confianza es IC0,95 (1 2 ).


y df es el valor de la expresi

Con t.test tambien podemos hacer contrastes para una sola muestra (es decir, contrastes acerca
de la media de una N (, ) con desconocido). Por ejemplo, si quisieramos contrastar H0 = 1 1
frente a H1 : 1 < 1 escribiramos:
t.test(ContHgL, alternative = "less", mu = 1, conf.level = 0.95)

Y para hacer el contraste (1) de igualdad de varianzas


> var.test(ContHgL, ContHgW, ratio = 1, alternative = "two.sided", conf.level =
0.95)

F test to compare two variances

data: ContHgL and ContHgW


F = 0.6119, num df = 72, denom df = 97, p-value = 0.0294
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3992008 0.9513555
sample estimates:
ratio of variances
0.6119333

2
Otra posibilidad para hacer el contraste (2) sin suponer normalidad de X e Y (ver figura)
density.default(x = ContHgL) density.default(x = ContHgW)

0.5
0.6

0.4
0.4

0.3
Density

Density
0.2
0.2

0.1
0.0

0.0
0 1 2 3 4 0 1 2 3 4
N = 73 Bandwidth = 0.2475 N = 98 Bandwidth = 0.2983

aprox aprox
es utilizar que, por el TCL, X N (1 , 1 / n1 ) e Y N (2 , 2 / n2 ). Si X e Y son indepen-
dientes entonces s
12 2
X Y aprox
N 1 2 , + 2
n1 n2

y, por el Teorema de Slustky, si H0 : 1 = 2 es cierta entonces


s
s 2 s2
aprox
X Y N 0, 1
+ 2 .
n1 n2

q
s2 s2
A nivel = 0,05 no podemos rechazar la hipotesis nula (2) porque |
x y| = 0,198 < z/2 n11 + n22 =
0,222, pero s podemos rechazar a nivel = 0,1.
Observemos que, como el tama no muestral es grande, las regiones de rechazo suponiendo normalidad
y utilizando la aproximacion del TCL son practicamente iguales.

3
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.3:

Con objeto de averiguar si la estatura de las personas disminuye significativamente a lo largo de


la jornada se seleccionaron al azar diez mujeres de la misma edad de las que se midi o su estatura
(en cm.) por la manana al levantarse (Xi ) y por la noche antes de acostarse (Yi ). Se obtuvieron los
siguientes resultados:

Xi 169.7 168.5 165.9 177.8 179.6 168.9 169.2 167.9 181.8 163.3
Yi 168.2 166.4 166.7 177.2 177.9 168.0 169.5 166.7 182.5 161.1

Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05, a favor de la hip
otesis de
que la estatura disminuye a lo largo de la jornada?

Definimos D = X Y , la variacion que experimenta la estatura (en cm.) de una mujer entre el
momento de levantarse y el de acostarse. Suponemos que D N (, ) con y desconocidos. A
nivel de significacion = 0,05, queremos contrastar

H0 : 0 (la estatura no disminuye a lo largo del da)


H1 : > 0 (la estatura disminuye a lo largo del da).

La region de rechazo de este test es


 
sd
R= d > tn1; ,
n

donde d = 0,84 y sd = 1,11 son la media y cuasidesviaci


on tpica de los valores observados de D:

di 1.5 2.1 -0.8 0.6 1.7 0.9 -0.3 1.2 -0.7 2.2

sd 1,11 s hay suficiente evidencia estadstica, a nivel = 0,05,


Como tn1; = 1,833 = 0,64 < d,
n 10
para rechazar H0 .

125 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.4: Los niveles en sangre de una hormona denominada FSH estn
asociados con la fertilidad femenina. Las mujeres que tienen un nivel de FSH alto
(superior a 10 IU/L) tienen en general ms dificultad para concebir que aquellas
que tienen niveles bajos de FSH. En un estudio realizado recientemente, se analiz
la posible relacin entre el grupo sanguneo y la fertilidad. Para ello se midieron los
niveles de FSH en una muestra de 254 mujeres en edad frtil con grupo sanguneo
O y result que 43 de ellas tenan niveles altos de FSH y, por tanto, podran
tener dificultades para concebir. En otra muestra, independiente de la anterior, de
309 mujeres cuyo grupo sanguneo no es O, result que 27 tenan niveles altos de
FSH.
a) Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05,
a favor de la hiptesis de que las mujeres con grupo sanguneo 0 tienen ms
dificultades para concebir que las que tienen otro grupo sanguneo?
b) Calcular el tamao muestral necesario para, con probabilidad 0.95, estimar
en la poblacin de mujeres del grupo 0 el porcentaje de las que tienen un nivel alto
de FSH, con un error mximo de 2 puntos.

Consideramos la v.a. X que vale 1 si una mujer del grupo 0 tiene nivel alto de FSH
y 0 si no, y que sigue una distribucin de Bernoulli con probabilidad p1 . Anlogamente,
definimos la v.a. Y que vale 1 si una mujer del grupo no 0 tiene nivel alto de FSH y 0
si no, y que sigue una distribucin de Bernoulli con probabilidad p2 .
Tenemos que

254
X
xi = 43
i=1
309
X
yi = 27
i=1

Apartado a)
Primero tenemos que definir la hiptesis nula:

H0 : p1 p2

es decir, que las mujeres con grupo 0 no tienen ms dificultad para concebir.
Tomamos esto como la hiptesis nula porque es la que aceptamos por defecto, y
queremos una evidencia muy fuerte para poder decir que es falsa.
Para construir la regin de rechazo, usamos la regin del formulario para
comparacin de proporciones. Usando el TCL, tenemos que si p1 = p2 = p entonces
tanto X como Y van a seguir una distribucin normal con ni = n1 o n2 segn sea X
Y

126 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

s
p(1 p)
N p,
ni

y por lo tanto el estadstico del contraste es

X Y
Z=r  
p(1 p) n11 + 1
n2

siendo p un estimador puntual de p, y que se calcula como


P P
xi + yi n1 x + n2 y
p= =
n1 + n2 n1 + n2
La regin de rechazo es

s
 
1 1
R= x y > z0.05 p(1 p) + {0.0819 > 0.0460 }
n1 n2

y por lo tanto rechazamos la hiptesis nula al nivel = 0.05.


Calculamos ahora el p-valor para tener ms datos sobre la hiptesis:


p-valor = P N (0, 1) > z =

Apartado b)
Necesitamos un intervalo de confianza
s
x(1 x
IC0.95 (p1 ) = x z0 .025
n1

q
donde z0 .025 x(1x
n1
es el error cometido al estimar p1 con el IC, y que tiene que
ser menor que 0.02. Como no tenemos el valor de x, lo sustituimos por el valor de
la media muestral obtenido en la anterior medicin, de tal forma que tenemos que
n1 1351 para obtener la confianza requerida.
Si quisisemos ser ms conservadores, sustituiramos x por el valor mximo que
podemos obtener, aunque en este caso saldra un tamao muestral mucho ms grande.

127 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.5: El gasto telefnico medio bimensual en una muestra de 10


usuarios elegidos al azar en una ciudad ha resultado ser 90 euros y la cuasidesviacin
tpica 11 euros. En otra ciudad se ha tomado, de modo independiente, otra muestra
de 12 usuarios y los valores obtenidos para la media y la cuasidesviacin tpica
muestrales han sido, respectivamente, 80 y 10.
a) Proporcionan estos datos suficiente evidencia estadstica, al nivel 0.05,
a favor de la hiptesis de que el gasto medio en la primera ciudad es ms alto
que el gasto medio en la segunda? Suponer que las varianzas de las variables que
indican los gastos telefnicos en ambas ciudades son iguales. Indicar claramente
las restantes suposiciones necesarias para garantizar la validez del procedimiento
empleado.
b) El p-valor es mayor o menor que 0.01? Razonar la respuesta.

Apartado a)
Definimos las dos variables aleatorias que tenemos: X es el gasto medio bimensual
en la primera ciudad, y Y el gasto en la segunda. Tomamos las esperanzas y varianzas:

E (X) = 1 , V (X) = 12
E (Y ) = 2 , V (Y ) = 22

Definimos la hiptesis nula: H0 : 1 2 , es decir, que el gasto medio en la


primera ciudad no es mayor que en la segunda.
Tenemos que suponer que X e Y son normales para poder definir bien el estadstico
del contraste. Si ussemos cualquier otra distribucin el estadstico del contraste toma
una distribucin mucho ms complicada que no podramos determinar correctamente.
Tambin suponemos que son independientes.
La regin de rechazo es
( r )
1 1
R= x y > tn1 +n2 2, sp +
n1 n2

Calculando, tenemos que

x y = 10 y s2p = 109.45
R = {10 > 7.73 }

y por lo tanto rechazamos la hiptesis nula.

Apartado b)
Calculamos la regin de rechazo para = 0.01:

R = {10 > 11.32}

128 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

y por lo tanto para nivel 0.01 no hay evidencia para rechazar H0 . Entonces, el
p-valor es mayor que 0.01.

129 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.6: Se realiza un experimento para comparar los incrementos en


los niveles plasmticos de insulina producidos por la ingesta de carne y de pescado.
Para ello se midieron los incrementos (medido esn picomoles por litro) producidos
en la concentracin de insulina en la sangre de 6 voluntarios, 90 minutos despus
de comer un bistec de 250 gramos. Dos das ms tarde se realiz de nuevo el
experimento con las mismas 6 personas, despus de consumir un filete de pescado.
En la tabla se observan los resultados:
Persona 1 2 3 4 5 6
Resultados con la carne: 109 106 111 105 110 108
Resultados con el pescado: 100 95 105 106 80 88
a) Proporcionan estos datos suficiente estadstica a nivel significacin 0.05 para
afirmar que el incremento medio...?

Apartado a)

1) Definir las variables:

X nivel de insulina en 1 voluntario tras la ingesta de carne. Llamamos a


E (X) = 1

Y nivel de insulina en el mismo voluntario tras la ingesta de carne. E (Y ) = 2

Tenemos que las variables no son independientes (porque son muestras tomadas
de los mismo voluntarios). A este tipo de datos le llamamos datos emparejados

2) Definir las hiptesis

H0 : 1 2

H1 : 1 > 2

3) Como tenemos datos emparejados, podemos trabajar ms facilmente con la


diferencia, es decir, definimos D = X Y y definimos el contraste (siendo E (D) = )

0 :0

H1 : > 0

Que es un contraste equivalente.


Adems tenemos que D N (, )
Suponer que la diferencia es una normal es el procedimiento estndar para datos
emparejados. (nos la jugamos, es una hiptesis del problema, que puede ser ms o
menos razonable. En este caso, lo nico que de momento sabemos hacer es suponer que

130 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

es normal (si no fuera normal, tendramos que aplciar el TCL (para lo que necesitamos
n grande) y con este tamao muestral (6) no podramos aplicarlo)
Mirando en la tabla de regiones de rechazo tenemos:
 
sd
R = d > tn1;
n
d
Donde es el estadstico del contraste, que sigue una tn1 .
sd / n
De los datos extraemos d = 12.5; sd = 10.97.
Para = 0.05 calculamos el cuantil correspondiente de la t de Student. Para
= 0.05 es 9.02.
De aqu deducimos que s hay evidencia para rechazar la hiptesis nula (porque
d
> 9.02).
sd / n

Apartado b)
Tomando = 0.01 no se cumple la condicin de rechazo, no pudiendo negar
entonces la hiptesis nula.

Apartado c)
Es el tpico ejercicio mecnico de extraer el tamao muestral.

Ejercicio 5.7: Se ha comprobado que la probabilidad de curacin espontnea


(sin medicacin alguna) de cierta enfermedad es de 0.4. Un laboratorio ha obtenido
un nuevo medicamento para tratar la enfermedad y quiere demostrar que es eficaz.
Para ello, se aplica el tratamiento a 100 pacientes que sufren la enfermedad en
silencio y se observa cuntos de ellos se leen este texto.
a) Si se han curado 50 personas de las 100. puede afirmarse que el
medicamento es eficaz a nivel = 0.05? Calcula el p-valor del contraste.
b) Cuntas personas de las 100 deberan curarse como mnimo para poder
afirmar al nivel = 0.001 que el tratamiento es eficaz?
c) Supongamos que la probabilidad de curacin con el tratamiento fuese
realmente de 0.5 y que se realiza el test de nivel 0.05 con 100 personas. Cul
sera la probabilidad de error, es decir, la probabilidad de rechazar el medicamento
como intil?

Apartado a)
P
100
Sea X Bernouilli(p), luego xi = nmero de pacientes que se curan.
i
Tenemos el siguiente contraste a nivel = 0.05:
H0 : p 0.4
H1 : p > 0.4

131 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

La regin de rechazo es

x 0.4
R = {z = q > z0.05 }
0.40.6
100

Como x0.4
0.40.6
= 2.041 > 1.645 = hay evidencia muestral para afirmar que el
100
medicamento es eficaz a nivel = 0.05 (rechazo H0 ).
El pvalor se calcula as

> pnorm(2.041, lower.tail=FALSE)


[1] 0.02062541

Luego a nivel = 0.01 < p-valor, no habra suficiente evidencia muestral para rechazar
la hiptesis nula.

Apartado b)

100
X
x 0.4
q > z0.001 = xi > 55.1
0.40.6
100

Apartado c)
Como p = 0.5 H1 es cierta = solo puede cometerse el error de tipo II. Luego

Pp=0.5 {error tipo II} = Pp=0.5 {aceptar H0 } = 1 Pp=0.5 {R} = 1 n (0.5) =



( r ) q
X 0.4 0.4 0.6 XN (p, p(1p) )=N (0.5,0.05)
n
=1P q > z0.05 = 1 P X > 0.4 + z0.05 =

0.40.6
100
100
q

0.4 + z0.05 0.40.6
0.5

X 0.5 100
=1P Z = > =

0.05 0.05

= 1 P {Z > 0.388} = 1 (1 P {Z > 0.388}) = 0.35

132 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.8:
a) Supongamos que en una determinada poblacin de referencia, formada por
adultos sanos, el nivel en sangre de la enzima heptica GGT (gamma-glutamil-
transpeptidasa) sigue aproximadamente una distribucin normal con media
poblacional 42IU/L y desviacin tpica poblacional 13. Calcular aproximadamente
el porcentaje de personas en la poblacin que tienen un nivel de GGT superior a
80.
b) Supongamos ahora que se selecciona una muestra de 61 personas en otra
poblacin formada por bebedores habituales no diagnosticados de alcoholismo y
se obtiene una media muestra de 58 IU/L con una desviacin tpica de 21. Hay
suficiente evidencia estadstica, al nivel 0.05, para afirmar que la concentracin
media de GGT en la poblacin de bebedores es mayor que 42?

Apartado a)
Sea X N (42, 13),
 
X 42 80 42
P {X > 80} = P > = 0.0017
13 13

Apartado b)
Sea Y el nivel de GGT en sangre
Tenemos el siguiente contraste a nivel = 0.05:

H0 : 42
H1 : > 42

La regin de rechazo es

y 42
R = {z = > Z0.05 }
s/ 61

Y por lo tanto rechazamos H0 ya que 5.95 > 1.645. Podemos calcular el p-valor
de la siguiente manera


p-valor = P N (0, 1) > 5.95 = 7 108

Con lo cual, es muy razonable rechazar la hiptesis nula.

133 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

B.5.2. Hoja 5B

Ejercicio 5.1: Tenemos una X exp(). Queremos contrastar para


= 0.01 las dos siguientes hiptesis: H0 : = 5 frente a H1 : = 1 , siendo
1 > 5 un valor prefijado.
a) Obtener la regin crtica del test UMP.
b) Calcular la probabilidad de error de tipo II en este test.
P
c) Supongamos que para una determinada muestra, se obtiene 5i=1 xi = 5.
Qu decisin habra que adoptar si se utiliza el test construido en a)?

Apartado a)
Primero comprobamos la propiedad de CVM7 :
 n
fn (x1 , . . . , xn ; 1 ) 1 P
n

= e(1 5) xi
fn (x1 , . . . , xn ; 5) 5

Efectivamente, la funcin es montona.


Por tanto, la regin de rechazo del test UMP es, por el lema de Neyman-Pearson
(IV.1), la siguiente:
( n )
1 (1 5)
P
n
xi >k
R = e
5

Ya que una vez fijado 1 lo que determina la cota superior es el sumatorio, tenemos
que
nX o
R = xi < c tal que P=5 {R } =

Como X exp() = (, 1) y las Xi son v.a.i., tenemos que


X
Xi (, n)

y entonces


P=5 {R } = = P (5, n) < c

De esta forma, c es el cuantil de la distribucin (5, n):

c = q5;n ()

Finalmente, como = 0.01, entonces


7
Ejemplo tpico de aplicar el lema de Neyman-Pearson (IV.1).

134 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

( n )
X
R = xi < q5;n (0.01)

Apartado b)
Calculamos el error de tipo II, (IV.1)

nX o 
P1 {Rc } = 1P1 {R} = 1P1 xi < q5;n (0, 01) = 1P (1 , n) < q5;n (0, 01)

Usando las propiedades de la distribucin gamma, tenemos que


 
1 5
(1 , n) = 5, n = (5, n)
5 1
y entonces

   
1 1
P1 {R } = 1 P (5, n) < q5;n (0, 01) = P (5, n) q5;n (0, 01) 0
c
5 5 1

Concretamente tenemos que

 
1 1
P1 {R } = 1 0.01 P q5;n (0.01) (5, n) < q5;n (0, 01) = 0.99 O(1 )
c
5 5

Lo que quiere decir que la probabilidad de error de tipo II se hace arbitrariamente


cercana a 1 - cerca de 1 .

Apartado c)
Nuestra muestra nos da una estimacin puntual de x = 1.
Bajo la hiptesis nula, la media de la poblacin debera ser 15 , ya que E (X) = 1 .
Bajo la hiptesis alternativa, la media debera ser < 15 .
Intuitivamente, no tenemos evidencia muestral en contra de H0 . Comprobmoslo
ahora calculando la regin de rechazo: tenemos que calcular el cuantil de la distribucin
Gamma:

q5,5 (0.01) = 0.2558 5 0.2558

Luego no hay evidencia muestral para rechazar la hiptesis nula, tal y como
habamos intuido.

135 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.2:
En una piscifactora se desea contrastar la hiptesis nula de que el porcentaje
de peces adultos que miden menos de 20 cm es como mximo del 10 % . Para ello,
se toma una muestra de 6 peces y se rechaza H0 si se encuentra ms de uno con
longitud inferior a 20 cm.
a) Cul es el nivel de significacin de este contraste?
b) Calcula la potencia del contraste si en realidad hay un 20 % de peces que
miden menos de 20 cm.

Sea X Bernouilli(p) tal que


(
1 si un pez adulto de la piscifactora mide menos de 20cm
X=
0 en otro caso

Tenemos pues el siguiente contraste a nivel :

H0 : p 0.1
H1 : p > 0.1

Nos dicen que



X6 X6
R= xi > 1 = xi 2

P
6
Ntese que xi es una binomial (6, p).
Apartado a)
Tamao del test = max P {error tipo I} = maxp0.1 Pp {R} .
Tenemos que maximizar la siguiente expresin:


X6 X6 X6
(p) = Pp {R} = Pp X i 2 = 1 Pp Xi = 0 Pp Xi = 1 =

= 1 (1 p)6 6 (1 p)5 p = 1 (1 p)5 (1 + 5p)

Notese que hay 6 formas de obtener un 1 y cinco 0s. Bien, derivemos:

0 (p) = 5(1 p)4 (1) (1 + 5p) (1 p)5 (5) =


= (1 p)4 (5 + 25p 5 5p) = (1 p)4 (20p) > 0 p (0, 1) es creciente en (0, 1)

Luego

max Pp {R} = max (p) = (0.1) = 1 0.95 (1 + 5 0.1) = 0.1143


p0.1 p0.1

136 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ntese que como es montona creciente, alcanza su mximo en el extremo del


intervalo.

Apartado b)
Simplemente debemos calcular el valor de la funcin de potencia. Es decir, sustituir:

(0.2) = 1 (1 0.2)5 (1 + 5 0.2) = 0.3446

Ejercicio 5.3: El error que se comete en la medicin de una magnitud es


una v.a. X cuya funcin de densidad es

1 x2
f (x; ) = e 2
2
siendo > 0 un parmetro que se desea estimar. Obtener el test uniformemente
ms potente de nivel para contrastar H0 : 0 frente a H1 : > 0

OBSERVACIN: los errores de los aparatos de medicin se suponen que siguen


una N(0, ).


Sea X N (0, ), > 0, donde X es el error cometido por el aparato de
medicin.
Tenemos que comprobar primero que el cociente de verosimilitudes es montono.
Para ello tomamos 1 < 2 y calculamos la razn de verosimilitudes:

  n2  P
f (x1 , . . . , xn ; 2 ) 1 12 1
1 x2i
= e 2 1
f (x1 , . . . , xn ; 1 ) 2
P 2
que s es una funcin creciente8 de Tn = xi . Por lo tanto esta es una familia
paramtrica CVM (ver definicin IV.6). Aplicando el teorema (IV.2)
( n )
X
R = {Tn > k }  P0 {R} = = P0 Xi2 > k

Cmo resolvemos la expresin de k ? Tomamos

k = 0 2n;

Por lo que
( n )
X
R = P0 Xi2 > 0 2n;

8
Porque el exponente de la exponencial es siempre positivo

137 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.4:

Sea X1 , . . . , Xn una muestra de una poblacion con funcion de densidad

f (x, ) = e(x) 1[,) (x)

siendo > 0. Calcula el test de razon de verosimilitudes, de nivel , para contrastar H0 : 0


frente a H1 : > 0 .

Soluci
on: La funcion de verosimilitud es
n
n
{ n
en i=1 xi si x(1) ,
fn (x1 , . . . , xn ; ) = f (xi ; ) = e i=1 (xi ) 1[,) (x(1) ) = (1)
0 si > x(1) ,
i=1

donde hemos utilizado que x(1) := mn1in xi y que


n
{
1 si xi para todo 1 i n
1[,) (xi ) =
0 si no
i=1
( )
= 1[,) mn (xi ) .
1in

Como la verosimilitud (1) es una funcion creciente en , el estimador de maxima verosimilitud


(e.m.v.) de es = x(1) .
Calculemos la razon de verosimilitudes
sup0 fn (x1 , . . . , xn ; )
n = .
sup fn (x1 , . . . , xn ; )

Observemos que 0 = (0, 0 ] y = (0, ). Como la verosimilitud es creciente en , tenemos que


n
sup fn (x1 , . . . , xn ; ) = en0 i=1 xi
.
0

Como el supremo del denominador de n se alcanza cuando es igual al e.m.v., tenemos que
n
sup fn (x1 , . . . , xn ; ) = en i=1 xi
.

Por tanto, n = en(0 x(1) ) .


El test de razon de verosimilitudes es el que tiene como region crtica o de rechazo

R = {(x1 , . . . , x1 ) : n < k } (2)

donde k se elige de manera que el tama


no del test (la maxima probabilidad de error de tipo I)

ax P(R)
m
0

sea igual a . Ahora bien, observemos que


1
n < k en(0 x(1) ) < k n(0 x(1) ) < log(k ) x(1) > 0 log(k ) =: 0 + c .
n
Por tanto, la region de rechazo (2) equivale a la region

R = {(x1 , . . . , x1 ) : x(1) > 0 + c }

donde c es tal que


max P(R) = max P {X(1) > 0 + c } = .
0 0

138 de 160
Para completar la expresion de la region de rechazo, determinemos c . Observemos que

P {X(1) > 0 + c } = P { mn Xi > 0 + c }


1in
= P {X1 > 0 + c , X2 > 0 + c , . . . , Xn > 0 + c }
n
= P {Xi > 0 + c } = (P {X > 0 + c })n
i=1
n(0 +c )
= e , (3)

donde hemos usado que



P {X > 0 + c } = e(x) dx = e(0 +c ) .
0 +c

Como la funcion (3) es creciente en tenemos que


1
= max en(0 +c ) = en(0 +c 0 ) = enc c = log .
0 n

Observemos que, como (0, 1), se cumple que c > 0.


As pues, finalmente la expresion de la region crtica del test de razon de verosimilitudes para el
contraste del enunciado es
{ }
1
R = (x1 , . . . , x1 ) : x(1) > 0 log .
n

Intuitivamente es una region crtica razonable, pues rechazamos que 0 cuando la menor de las
observaciones de la muestra esta demasiado alejada de estos valores de . Recordemos que, para un
fijo el soporte de la densidad f (; ) es precisamente el intervalo [, ) y f (x, ) es decreciente en
x. As que esperamos que, al muestrear de f (, ), salgan observaciones justo a la derechade . Es
decir, si estoy contrastando H0 : < 3 y todas las observaciones de la muestra son mucho mayores
que 0 = 3, intuimos que H0 es falsa.

2
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Ejercicio 5.5: Sea X1 , . . . , X16 una muestra de tamao 16 de una poblacin


normal de esperanza y varianza 2 = 1. Se desea contrastar H0 : = 0 frente
a H1 : 6= 0.
a) Calcula la regin crtica del contraste de razn de verosimilitudes de nivel
= 0.05. Qu decisin se toma a nivel = 0.05 si con 16 datos se ha obtenido
una media muestral x = 1?
b) Para el contraste anterior, cul es el valor de la funcin de potencia evaluada
en = 0.75?

Apartado a)
Sea X N (, 1), calculamos la funcin de verosimilitud:

1 P
12 (xi )2
f (x1 , . . . , xn ; ) = e
(2)n/2

Nuestro espacio paramtrico es

0 = { = 0 }
=R

Entonces el cociente es9

f (x1 , . . . , xn ; 0) 1 P 2 P
= e 2 ( xi (xi x) ) = e 2 nx
2 1 2
n =
f (x1 , . . . , xn ; x)

Y la regin de rechazo es

R = {n < k } donde k es tal que P=0 {R} =

La regin de rechazo se puede expresar (utilizando (IV.4.3.1)) de forma equivalente

R = {2 log n > c } = {nx2 > c }

con c cumpliendo la misma condicin que k . Es decir


n 2 o
= P=0 nX > c

Sabemos que la distribucin de una media de normales es tambin una normal,


luego bajo H0 : = 0, X N (0, 1n ).
2
De la misma forma n X N (0, 1) y finalmente nx2 21 . Entonces

R = {nx2 > 21; }


9
recuerda que el EMV() = x

140 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

A nivel = 0.05, como n = 16 y x = 1, tenemos que

R = {16 > 3.84 }

y por lo tanto, hay evidencia muestral para rechazar la hiptesis nula.

Apartado b)
Tenemos que

n 2 o
n ( = 0.75) = P=0.75 {rechazar H0 } = P=0.75 {R} = P=0.75 nX > 21;

Evaluando

2
nX = n(X 0.75 + 0.75)2 = n(X 0.75)2 +0.752 + 2(X 0.75) 0.75
| {z } | {z }
21 nueva v.a. problemn

Amparo observa que esto nos complica la vida, as que toma otro camino:


n 2 o n 2 o X

P=0.75 nX > 21; = 1 P=0.75 nX 21; = 1 P=0.75 (21; )1/2 =
1/ n
( )
X N (0.75, 1n ) X
= 1 P=0.75 (21; )1/2 (21; )1/2 = ...
1/ n

Con lo que solo nos queda estandarizar y resolver

( )
X 1 ,
X Z
, = n
= 0.75
... = 1 P=0.75 (3.84) 1/2
(3.84)1/2 =
1/ n
( )
1.96 1n 0.75 1.96 1n 0.75 n = 16
= 1 P=0.75 Z =
1/ n 1/ n
*
= 1 P {4.96 Z 1.04} = 1 (P {Z > 1.04} P {Z > 4.96}) 0.85
| {z } | {z }
0.15 0

(*) Aqu utilizo que la normal es simtrica para poder calcular esa probabilidad con
las tablas que tenemos.

141 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

Apndice C

Exmenes

142 de 160
Estadstica I Examen
Grado en Matematicas / Doble Grado Matematicas-Ing. Informatica 10 de enero de 2013

1. Sea X1, . . . , Xn una muestra aleatoria de una variable discreta X con funcion de probabilidad
( log )x
P (X = x) = f (x; ) = , x = 0, 1, 2, . . . , (0, 1). (1)
x!
on: E (X) = log = V (X).
Indicaci

(a) Calcular el estimador n de por el metodo de maxima verosimilitud, probar que es asintotica-
mente normal y obtener la distribucion asintotica.

(b) Definir la cantidad de informaci


on de Fisher, I(), y explicar muy brevemente su importancia
en la teora estadstica. Calcular el valor de I() para el modelo (1).
P
(c) Probar que E [(n )2 ] log /n. Deducir de aqu que n1/3 (n ) 0.

[3 p.]

2. Una marca de detergente concentrado vende su producto en paquetes cuyo contenido nominal
medio es 800 gramos. Se seleccionan al azar 20 paquetes y se obtiene para ellos un contenido medio
de 793 gr. con una cuasi-desviaci
on tpica de 15. Hay suficiente evidencia estadstica, al nivel 0.05,
para afirmar que la empresa fabricante vende su producto con un peso medio menor que el valor
nominal 800? Indicar si el p-valor del correspondiente contraste es mayor o menor que 0.01. Explicar
claramente las suposiciones que se necesiten para garantizar la validez del procedimiento que se
utilice. [2 p.]

3. Se considera el problema de contrastar H0 : 0 frente a H1 : > 0 a partir de una muestra


de tama
no 100 de una N (, ) (con conocida). Se utiliza para ello el test cuya region crtica es
> z n }, donde (0, 1) es el nivel de significacion elegido.
R = {(x1 , . . . , xn ) : x
Demostrar que la funci
on de potencia () de este test es una funcion monotona creciente en
[0, ). Calcular 0.05 (1) en el caso en que = 2. [1.5 p.]
4. Sea X una v.a. con distribuci
on geometrica de parametro . Esto significa que X es discreta
con P (X = x) = (1 )x , x = 0, 1, 2, . . .. Se desea estimar a partir de una muestra de tama
no
n de X, usando la metodologa bayesiana. Para ello se supone que la distribucion a priori de
es Beta de par
ametros > 0 y > 0, es decir que la funcion de densidad a priori es () =
(+) 1
()() (1 )1 I[0,1] () (la correspondiente media es /( + )). Calcular el estimador Bayes
de y estudiar su consistencia casi segura.
1
on: E (X) =
Indicaci . [2.5 p.]

5. En el directorio de trabajo del R tenemos un fichero con 1000 datos (en dos columnas de 500)
llamado datos.txt. Redactar un c
odigo que realice las siguientes o operaciones:

(a) Leer el fichero datos.txt.

(b) Definir un vector llamado x con los valores de la primera columna y otro llamado y con los de
la segunda.

(c) Dibujar en un mismo gr


afico los dos diagramas de caja de x e y.

(d) Obtener la ecuaci


on de la recta de mnimos cuadrados de y respecto a x (es decir, y debe ser
la variable respuesta).

[1 p.]
Estadstica I
Soluciones a los problemas del examen 10 de enero de 2013

1) (a) El estimador de maxima verosimilitud se obtiene maximizando en la funcion de verosimilitud


P
n ( log ) Xi
Ln (X1 , . . . , Xn ; ) = .
X1 ! . . . Xn !
Para maximizar en tomamos logaritmos y calculamos la derivada
n
n 1 X
log Ln (X1 , . . . , Xn ; ) = + Xi
log
i=1


La u
nica soluci
on de la ecuaci
on log Ln (X1 , . . . , Xn ; ) = 0 es

n = eX .

aximo porque la derivada segunda en n es negativa.


Este valor corresponde a un m

d
Aplicando el TCL sabemos que n(X E (X)) N (0, ()), siendo () = V (X)1/2 . Como
n = g(X)
con g(u) = eu y esta funci
on es derivable con derivada continua, podemos aplicar el
metodo delta para obtener
d
g()) N (0, |g 0 ()|()),
n(g(X)

denotando = E (X). En definitiva, hemos obtenido


d p
n(n ) N (0, log ),

(observemos que log > 0 porque (0, 1)).

(b)  
2
I() = E 2 log f (X; )

Tenemos
1 1
log f (X; ) = + X
log
2 1 X X
log f (X; ) = 2 2 2
2 log log2
 
2 1 E (X) E (X) 1
I() = E 2 log f (X; ) = 2 + 2 + = 2
log 2 log2 log
La cantidad I() es importante por varios motivos: bajo ciertas condiciones se verifica V (Tn )
1/(nI()) (cota de Frechet-Cramer-Rao) para estimadores insesgados Tn de . Tambien (bajo condi-
ciones de regularidad) el estimador de maxima verosimilitud n verifica
d p
n(n ) N (0, 1/ I()),

de manera que I()1 es la varianza de la distribucion asintotica. En efecto, observese que en este
caso I()1 coincide con la varianza de la distribucion lmite obtenida en el apartado anterior.

(c) Si denotamos g(u) = eu ,

(n )2 = (g(X)
g( log ))2 (X
( log ))2 . ()

Para obtener esta desigualdad hemos usado el Teorema del Valor Medio, junto con el hecho de que
|g 0 (u)| = |eu | 1 para u 0.
Tomando esperanzas,

E [(n )2 ] E [(X = V (X) = log .


( log ))2 ] = V (X)
n n
Por tanto, dado cualquier  > 0,

P {n1/3 |n | > } = P {n2/3 (n )2 > 2 } (usando la desigualdad de Markov)


n2/3 E [(n )2 ] (usando (*)) n2/3 ( log ) log
2
2
= 1/3 2 0,
 n n 
P
lo que demuestra n1/3 (n ) 0.

2) Supongamos que la v.a. X = contenido de un paquete elegido al azar tiene distribucion N (, ).


Queremos contrastar
H0 : 800 frente a H1 : < 800.
Tenemos una muestra de n = 20 observaciones independientes de la v.a. X para la cual x
= 793,
s = 15. La regi
on crtica del test usual de nivel para este problema es
s
800 < tn1;1 .
x
n

800 = 7, tn1;1 = t19,0.95 = t19;0.05 = 1.729, s/ n = 15/ 20 = 3.354102.
En este caso, x
Por tanto,
s
t19;0.05 = 1.729 3.354102 = 5.799242
n
Como 7 < 5.799241, se concluye que se ha encontrado suficiente evidencia estadstica, al nivel
0.05, para aceptar H1 .
Si consideramos el nivel = 0.01, se tiene t19;0.01 sn = 2.539 3.354102 = 8.516065.
Por tanto, al nivel 0.01 NO se ha encontrado evidencia estadstica suficiente a favor de H1 .
Se concluye que el p-valor debe de ser mayor que 0.01 ya que el p-valor es el nfimo de los valores
del nivel de significaci
on para los cuales se rechaza la hipotesis nula.

3) La funcion de potencia es la probabilidad de rechazar la hipotesis nula:


      n
X o
() = P (R) = P X > z = P > z = P Z > z 10
n / n n n
 
= 1 z 10

donde Z es una v.a. N (0, 1) y su funcion de distribucion. Aqu hemos usado que, como X
 
N (, ), tenemos que X N , . Se concluye que () es estrictamente creciente porque
10
lo es (ya que la densidad normal es estrictamente positiva en todo R).
Si = 0.05, = 1 y = 2, obtenemos
 
1
0.05 (1) = P Z > z0.05 10 = P{Z > 1.645 5} ' 1.
2

4) La densidad (|x1 , . . . , xn ) de la distribucion a posteriori de es proporcional a

f (x1 , . . . , xn |) (),

donde
n
Y n
Y n
Y Pn
f (x1 , . . . , xn |) = f (xi |) = P {X = xi } = (1 )xi = n (1 ) i=1 xi
i=1 i=1 i=1
es la funci
on de verosimilitud de la muestra. Como
Pn ( + ) 1
f (x1 , . . . , xn |) () = n (1 ) i=1 xi
(1 )1 I[0,1] ()
()()

y ( + )/()() es simplemente una constante de proporcionalidad (no depende de ), tenemos


que (|x1 , . . . , xn ) es proporcional a
Pn
n+1 (1 )( i=1 xi )+1
I[0,1] (),
P
ametros n + y ( ni=1 xi ) + . El estimador Bayes de es la
que corresponde a una beta de par
esperanza de esta distribuci
on a posteriori:
n+
Tn (x1 , . . . , xn ) = P .
n + + ni=1 xi +

Para probar la consistencia c.s. de Tn , reescribimos el estimador as



1+ n
Tn (x1 , . . . , xn ) = .
1+x
+ +
n

c.s.
olo si 1 = P {w : Tn (X1 (w), . . . , Xn (w)) }, es decir, si
Recordemos que Tn si y s
n n
la probabilidad del conjunto en el que se da la convergencia de Tn a es uno. Por la ley fuerte de
c.s. 1+
los grandes n
umeros sabemos que X E (X) = . Ademas el denominador de Tn siempre
n
ser
a mayor o igual que 1. Por tanto, para todo w salvo en un conjunto de probabilidad 0, se cumple
que
1 + n 1
Tn (X1 (w), . . . , Xn (w)) = = ,

1 + X(w) + + n 1 + 1+
n
c.s.
es decir, Tn .
n

5)

xx<-read.table(datos.txt)
x<-xx$V1
y<-xx$V2
boxplot(x,y)
lm(y ~ x)
Estadstica I Examen
Grado en Matematicas / Doble Grado Matematicas-Ing. Informatica. 14 de junio de 2013

1. La v.a. X = ingresos (en miles de euros) de un habitante elegido al azar en una cierta ciudad
sigue una distribuci
on de Pareto dada por la siguiente densidad:

f (x; ) = 33 x4 , 0 < < x < .

Sea X1 , . . . , Xn una muestra aleatoria de X. Un economista sugiere que Tn = mn(X1 , . . . , Xn ) es


un posible estimador de . Es Tn un estimador consistente de ? Es insesgado? En caso negativo,
calcula el sesgo. [2 p.]

2. Sea X una v.a. con distribucion Beta(, 1) cuya funcion de densidad es f (x; ) = x1I(0,1)(x),
para > 0.

(a) Calcula la cantidad de informaci


on de Fisher I(). Explica brevemente por que es importante
esta cantidad.

(b) Calcula el estimador de m


axima verosimilitud de (basado en muestras de tama
no n), de-
muestra que es asint
oticamente normal e identifica completamente su distribucion asintotica.

(c) Calcula el estimador de por el metodo de los momentos e identifica completamente su


distribuci
on asint
otica. Demuestra que la correspondiente varianza asintotica es mayor que la
obtenida en el apartado (b).

(d) Supongamos ahora que se desea contrastar H0 : = 1 frente a H1 : = 2 a partir de una


muestra de tama
no 2, X1 , X2 . Para ello se usa el test de region crtica

R = {(x1 , x2 ) : 4x1 x2 3}.

Calcula el nivel de significaci


on de este test y la probabilidad de error de tipo 2.

[4 p.]
3. En una encuesta realizada a una muestra aleatoria de 1500 personas, el 43 % de los encuestados
se mostraba de acuerdo con endurecer la ley antitabaco.

(a) Calcula el intervalo de confianza de nivel 0.95 para la proporcion p de personas en la poblacion
que est
an de acuerdo con endurecer la ley.

(b) Seg
un los resultados obtenidos, existe evidencia estadstica suficiente para afirmar que la
mayora de los ciudadanos se opone a endurecer la ley? Para responder a la pregunta, calcula
aproximadamente el p-valor del test e interpreta el resultado.

[3p.]

4. Supongamos que se tiene en el directorio de trabajo un fichero llamado datos que consiste
en una matriz de 200 filas y 10 columnas. Cada fila es una muestra aleatoria de tama
no 10 de la
distribuci
on N (2, 1). Redacta un c
odigo en R que calcule las medias y las medianas muestrales de
esas 200 muestras, las almacene en dos vectores llamados medias y medianas, respectivamente, y
aproxime los errores cuadr
aticos medios de ambos estimadores del valor del parametro = 2. [1 p.]

n de posible intere
Informacio s sobre distribuciones:

on normal, N (, ), R, > 0.
Distribuci

Funcion de densidad: f (x) = 1 exp 21 2 (x )2 , x R.
2

Momentos: E(X) = , V (X) = 2 .

Distribuci
on gamma, (a, p), a > 0, p > 0. Cuando p = 1 se denomina distribucion
exponencial de par
ametro a.
a p
Funcion de densidad: f (x) = (p) eax xp1 , para x > 0. Aqu (p) denota la llamada funcion
R x p1
gamma, (p) = 0 e x dx que verifica (p + 1) = p(p) para p > 0.
Momentos: E(X) = ap , V (X) = p
a2
.

Distribuci
on beta, Beta(a, b), a > 0, b > 0.
(a+b) a1
Funcion de densidad: f (x) = (a)(b) x (1 x)b1 , para x (0, 1).
a ab
Momentos: E(X) = a+b , V (X) = (a+b+1)(a+b)2
.
Estadstica I
Soluciones a los problemas del examen 14 de junio de 2013

1. Determinemos primero E(Tn ). Para ello seguimos los siguientes pasos:


Z Z
3
P{X > t} = f (x) dx = 33 x4 dx = si t >
t t t3
n
Y 3n
P{Tn > t} = P{mn(X1 , . . . , Xn ) > t} = P {Xi > t} =
i=1
t3n
3n
Funcion de distribucion de Tn : FTn (t) = P{Tn t} = 1 P{Tn > t} = 1
t3n
d 1
Densidad de Tn : fTn (t) = FTn (t) = 3n3n 3n+1 si t >
dt t
Z
3n
E(Tn ) = t fTn (t) dt =
3n 1
Como E(Tn ) 6= el estimador Tn esta sesgado y su sesgo es
1
Sesgo(Tn ) = E(Tn ) = .
3n 1
Observemos que Sesgo(Tn ) 0 cuando n , as que Tn es asintoticamente insesgado.
Probemos ahora que Tn es consistente en probabilidad: dado  > 0, por la desigualdad de
Markov tenemos que

E|Tn | 1
P{|Tn | > } = 0 cuando n .
  3n 1

2. a) La cantidad de informacion de Fisher, I(), aparece en


la cota inferior de Frechet-Cramer-Rao (V(Tn ) 1/(n I()) para la varianza de un
estimador insesgado, Tn , de ;
la varianza asintotica, 1/I(), de los estimadores de maxima verosimilitud (bajo
ciertas condiciones de regularidad).
Para la distribucion Beta(,1) tenemos que
 
2 1
I() = E 2 log f (X; ) = 2 ,

donde hemos utilizado que


1
log f (x; ) = log + ( 1) log x y log f (x; ) = + log x.

1
b) La funcion de verosimilitud es
n n
!1
Y Y
Ln (; x1 , . . . , xn ) = xi1 = n
xi .
i=1 i=1

Para calcular el estimador de maxima verosimilitud (e.m.v.) de


n
MV = Pn
i=1 log xi

basta calcular el punto de maximo del logaritmo de la verosimilitud:


n
X n
d n X
log Ln () = n log + ( 1) log xi log Ln () = + log xi = 0
i=1
d i=1
d2 n
2
log Ln () = 2 < 0
d
Para obtener la distribucion asintotica del e.m.v podemos aplicar el teorema sobre la
eficiencia asintotica de los e.m.v.:
!
d 1
n(MV ) N 0, p = N (0, ).
I(0 )
Aplicando el metodo delta obtenemos el mismo resultado. Primero observemos que
MV = g(Y ), siendo g(y) = 1/y e Y = log X. Por el TCL sabemos que
 
d 1

n(Y EY ) N (0, V (Y )) = N 0,
1/2
,

donde hemos utilizado que
Z 1
1 1
EY = (log x)x1 dx = y V(Y ) = E(Y 2 ) E2 (Y ) = .
0 2
Ahora aplicamos el metodo delta:
d
n(MV ) = n(g(Y ) g(EY )) N (0, |g 0 (EY )|V1/2 (Y )) = N (0, ).
c) Para obtener el estimador de por el metodo de los momentos igualamos los momentos
poblacional y muestral de orden 1 de X:
Z 1
MOM = X .
EX = xx1 dx = =X
0 +1 1X
Para determinar la distribucion asintotica del estimador aplicamos de nuevo el metodo
delta: MOM = g(X)
y = g(EX), siendo g(x) = x/(1 x). Por tanto,
 
d 1/2 ( + 1)
0 1/2
n(MOM ) = n(g(X) g(EX)) N (0, |g (EX)|V (X)) = N 0,
( + 2)1/2
Es facil comprobar que la varianza asintotica de MV es menor que la de MOM :
2 ( + 1)2
< 2 ( + 2) ( + 1)2 , lo cual se cumple > 0.
+2

2
d) Observemos que la region de rechazo del contraste es la que aparece sombreada en la
siguiente figura, es decir, R = {(x1 , x2 ) R2 : 3/4 x1 1, 3/(4x1 ) x2 1}

1.0
(3/4,1)
R
0.8 4x1x2 = 3
(1,3/4)
0.6
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0


El nivel de significacion o tama no del test es la maxima probabilidad de error de tipo
I, es decir, la maxima probabilidad de rechazar H0 siendo cierta. En este caso, como
la hipotesis nula es puntual, el nivel de significacion es simplemente la probabilidad
de rechazar H0 cuando = 1. Observemos que, si = 1, entonces la funcion de
densidad de X es f (x; 1) = 1 si 0 x 1 y la funcion de densidad de la muestra
X1 , X2 es f=1 (x1 , x2 ) = f (x1 ; 1)f (x2 ; 1) = 1 si 0 x1 , x2 1, que corresponde a una
distribucion uniforme en el cuadrado unidad. Por tanto,
 
3 3
P=1 (R) = P=1 X1 1, X2 1
4 4X1
Z 1 Z 1   
1 3
= dx2 dx1 = 1 + 3 log ' 0.0342
3/4 3/(4x1 ) 4 4
La probabilidad de error de tipo 2 es la probabilidad de aceptar H0 siendo falsa,
es decir, 1 P=2 (R). Para = 2, la funcion de densidad de la muestra X1 , X2 es
f=1 (x1 , x2 ) = f (x1 ; 2)f (x2 ; 2) = 4x1 x2 , si 0 x1 , x2 1. Luego
Z 1 Z 1   
1 7 3
P=2 (R) = 4x1 x2 dx2 dx1 = + 9 log ' 0.1139
3/4 3/(4x1 ) 8 2 4
y, en consecuencia, 1 P=2 (R) ' 0.8861.
3. Sea 
1 si un encuestado es partidario de endurecer la ley
X=
0 si no
que sigue una distribucion de Bernoulli(p) con 0 < p < 1. Se ha tomado una muestra
x1 , . . . , x1500 que ha proporcionado el dato x = 0.43.
a) " r #
0.43(1 0.43)
IC0.95 (p) = 0.43 1.96 = [0.043 0.025] = [0.405, 0.455]
1500

3
b) Planteamos el contraste

H0 : p 0.5
H1 : p < 0.5 (la mayora de los ciudadanos se opone a endurecer la ley),

cuya region de rechazo es


( r )
0.52
R= x 0.5 < z1 = {z < z1 } = {z > z },
n

siendo
x 0.5
z=p = 5.42
0.52 /n
el estadstico del contraste. El p-valor del contraste es la probabilidad de que una
N (0, 1) sea mayor que 5.42. Con la informacion de la tabla (P{Z > 3.99} = 0.0010)
llegamos a la conclusion de que el p-valor es menor que 0.0010. Utilizando R (pnorm(-5.42))
obtenemos que el p-valor es 2.979952e-08: es razonable rechazar la hipotesis nula.

4. medias = apply(datos,1,mean)
medianas = apply(datos,1,median)
ECMmedia = (mean(medias)-2)^2 + var(medias)
# Se ha usado que ECM(T)=Sesgo^2(T)+V(T)
ECMmediana = (mean(medianas)-2)^2 + var(medianas)
Otro codigo alternativo (sin usar la funcion apply sino un for, y utilizando directamente
la definicion de ECM: ECM (T ) = E[(T )2 ]), sera

medias<-rep(0,200)
medianas<-rep(0,200)
for (i in 1:200){medias[i]<-mean(datos[i,])}
for (i in 1:200){medianas[i]<-median(datos[i,])}
ECMmedia<-mean((medias-2)^2)
ECMmediana<-mean((medianas-2)^2)

4
ESTAD ISTICA I (2013-2014)
Grado en Matem
aticas / Doble grado Ing. Inform
atica/Matem
aticas
Examen final, 18 de enero de 2014

Nombre:

Grupo:

1. Se desea comparar la concentracion observada de tiol (mM) en el lisado sanguneo de dos grupos
de voluntarios, siendo el primer grupo normal (X) y padeciendo el segundo grupo de artritis
reumatoide (Y ). Para ello se analizan los datos con R de la siguiente manera

> X = c(1.84, 1.92, 1.94, 1.92, 1.85, 1.91, 2.07)


> Y = c(2.81, 4.06, 3.62, 3.27, 3.40, 3.76)
> t.test(X,Y,alternative="two.sided",mu=0,paired=FALSE,var.equal=FALSE)

Welch Two Sample t-test

data: X and Y
t = -8.759, df = 5.263, p-value = 0.0002473
alternative hypothesis: true difference in means is not equal to 0
sample estimates:
mean of x mean of y
1.921429 3.486667

a) (1 punto) Que contraste se esta haciendo? Especificar las hipotesis necesarias para garan-
tizar la validez del metodo empleado. Que conclusiones se obtienen acerca del contraste?
b) (1 punto) Calcular un intervalo de confianza al 95 % para la diferencia de concentraciones
medias de tiol entre los dos grupos. Que relacion hay entre este intervalo y el contraste de
(a)?

2. Sea
f (x; ) = x1 , 0 < x < 1, > 0,
la funcion de densidad de una v.a. X con distribucion beta de parametros y 1.

a) (1.5 puntos) Consideremos el contraste de hipotesis

H0 : = 1
H1 : = 2.

Dada una muestra X1 de tama no n = 1 de X, determina la region de rechazo del test mas
potente con nivel de significaci
on . Para = 0.05 calcula la funcion de potencia de ese test.
on: si X beta(, 1), entonces Y = log(X) sigue una distribucion exponencial de
Indicaci
ametro , es decir, la densidad de Y es g(y) = ey , y > 0.
par
b) (1.5 puntos) A nivel de significacion , cual sera la region de rechazo del test de razon
de verosimilitudes para el siguiente contraste?:

H0 : = 1
H1 : 6= 1

Empleando la tabla de la 2 , hay evidencia P


para rechazar H0 a nivel = 0.05 si, para una
no n = 50, hemos obtenido 50
muestra de tama i=1 log(xi ) = 19.342?
3. Sea > 0 un n umero conocido. Sea x1 , . . . , xn una muestra de una variable aleatoria X con
distribuci
on Weibull de funci
on de densidad

f (x; ) = x1 e x , x > 0, > 0.

a) (0.5 puntos) Calcular el estimador de por el metodo de los momentos.


b) (1 punto) Calcular el estimador de maxima verosimilitud (e.m.v.) de .
c) (1 punto) Determinar la cantidad de informacion de Fisher I().
d) (2 puntos) Estudiar la consistencia y la normalidad asintotica del e.m.v. determinado en
(b).
e) (0.5 puntos) Define el concepto de estimador eficiente. Estudia la eficiencia del e.m.v. de
determinado en (b).
 
m 1 m
Indicacion: Para cualquier entero positivo m, E(X ) = m/ 1 + , donde (t) =
Z
xt1 ex dx es la funci
on gamma, y (n) = (n 1)! si n es un entero positivo.
0

2
ESTAD ISTICA I (2013-2014)
Grado en Matem
aticas / Doble grado Ing. Informatica/Matem
aticas
Examen final, 18 de enero de 2014. SOLUCIONES

1. a) Se supone que X N (1 , 1 ) e Y N (2 , 2 ) independientes, con 1 6= 2 . El contraste es


H0 : 1 = 2 frente a H1 : 1 6= 2 . La region de rechazo de este contraste es
s
2
s1 s
2
R = | x y| > tf ;/2 + 2 = {|t| > tf ;/2 },
n1 n2

donde
|
x y|
t= q 2 = 8.759
s1 s22
n1 + n2
es el estadstico del contraste y f = 5 es el entero mas proximo a 5.263 (los grados de
libertad, df). Seg un la salida de R, el p-valor del contraste es 0.0002473. Por tanto, es
razonable rechazar la hip otesis nula. Concluimos que la concentracion esperada de tiol es
distinta en el grupo normal y en el grupo con artritis reumatoide.
b) Bajo las mismas hip otesis que en (1a), el intervalo pedido es
s
2
s1 s2
IC95 % (1 2 ) = x y t5,0.025 + 2 .
n1 n2
q
s21 s22
x y
Como x = 1.921429, y = 3.486667 y t = 8.759, tenemos que n1 + n2 = t = 0.1787.
Por tanto,
IC95 % (1 2 ) = (1.565238 2.571 0.1787) = (2.024676, 1.105800).
El intervalo no contiene al 0, luego rechazamos la hipotesis nula simple H0 : 1 = 2 al
nivel = 0.05, pues la region de rechazo R de (a) equivale a rechazar H0 cuando 0 /
IC1 (1 2 ).

2. a) Por el lema de Neyman-Pearson, el test mas potente es el que tiene region de rechazo
 
fn (x1 , . . . , xn ; = 2)
R= > k ,
fn (x1 , . . . , xn ; = 1)
Q
donde k se elige de tal manera que P=1 (R) = y fn (x1 , . . . , xn ; ) = ni=1 f (xi ; ) =
Q
n ( ni=1 xi )1 , si 0 x1 , . . . , xn 1, es la funcion de verosimilitud de la muestra. Como
nY
fn (x1 , . . . , xn ; = 2)
= 2n xi ,
fn (x1 , . . . , xn ; = 1)
i=1
Qn
tenemos que R = {2ni=1 xi > k }. Si n = 1, entonces R = {2X1 > k } = { log X1 < c },
donde c es una constante tal que
k
= P=1 (R) = 1 . (1)
2
En la u
ltima igualdad de (1) se ha utilizado que, si = 1, X1 sigue una distribucion uniforme
en [0,1]. Despejando en (1) obtenemos k = 2(1 ) (tambien se poda utilizar la indicacion
del enunciado para obtener c = log(1 )). Por tanto, si n = 1, R = {X1 > 1 }.
Si = 0.05, entonces R = {X1 > 0.95}. La funcion de potencia es la probabilidad de
rechazar la hipotesis nula: () = P (R) = P { log X1 < log 0.95} = 1 0.95 . Si = 1,
obviamente (1) = 0.05. Si = 2, (2) = 0.0975.
b) El estadstico del contraste de razon de verosimilitudes para el contraste propuesto es

n
!1
fn (X1 , . . . , Xn ; = 1) 1 Y
n = = xi ,

fn (X1 , . . . , Xn ; )
n i=1
P
siendo = n/ ni=1 log Xi el estimador de maxima verosimilitud (e.m.v.) de . La region de
rechazo de un test con nivel aproximado es R = {2 log n > 21; }. Es sencillo comprobar
P
que 2 log n = 2n(log + 1 1). Si = 0.05, n = 50 y 50
i=1 log(xi ) = 19.342, entonces


= 2.59, 2 log n = 33.66 y 2 = 3.84, luego rechazamos la hipotesis nula.
1;0.05

3. a) El estimador de los momentos


  
1 1
= 1 +
X
se obtiene igualando los momentos poblacionales y muestrales de orden 1:
 
1 1
EX = 1/ 1 + = X.

n
!1
Y Pn
x
on de verosimilitud: L(; x1 , . . . , xn ) = n n
b) Funci xi e i=1 i

i=1

n
!1 n
Y X
on de logverosimilitud: log L() = n log + log n
Funci xi xi
i=1 i=1
Para hallar el punto de m
aximo de la logverosimilitud:
n
n X
log L() = xi = 0,

i=1
Pn
de donde obtenemos que = e.m.v.() = n/ i=1 Xi .
c)
 2  2 
1
I() = E log(f (X; )) = E log(f (X; )) = 2
2
n 1
d) Observemos que = Pn
= , donde Y1 , . . . , Yn es una muestra de la v.a. Y = X .
i=1 Xi
Y
c.s. 1
Por la ley fuerte de los grandes n umeros, sabemos que Y E(Y ) = E(X ) = . Sea

c.s.
g(x) = 1/x. Por el teorema de la aplicacion continua, = g(Y ) g(E(Y )) = . Por lo
tanto, el e.m.v. de es consistente c.s.
Para demostrar la normalidad asintotica de utilizamos el metodo delta:
 
1 1 d p

n( ) = n = n(g(Y ) g(EY )) N (0, |g 0 (EY )| V(Y )) = N (0, ).
Y EY n

En la ultima igualdad hemos utilizado que V(Y ) = E(X 2 ) E2 (X ) = 1/2 .


e) Un estimador Tn de es eficiente si es insesgado (E(Tn ) = ) y su varianza alcanza la cota de
1 2
Frechet-Cramer-Rao: V(Tn ) = = . El e.m.v. de no es necesariamente insesgado
nI() n
(E(1/X)6=1/E(X)) y, por tanto, no podemos decir si es eficiente, pero s es asintoticamente
d p
eficiente porque n( ) N (0, 1/ I()).
n

2
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

ndice alfabtico

Asintticamente Diagrama
insesgado, 20 de dispersin, 8
normal, 25 Distribucin, 11
F de Fisher, 55
Box-plot, 4 2 , 48
Cantidad t de Student, 49
pivotal, 48 a posteriori, 44
Coeficiente a priori, 43
de asimetra, 4 Ecuacin
de correlacin lineal, 10 de verosimilitud, 26
de Pearson, 10 Error
Condicin de tipo I, 50
de Borel-Cantelli, 24 de tipo II, 50
Consistencia estndar, 18
casi segura, 23 tpico, 18
en probabilidad, 23 Espacio
fuerte, 23 paramtrico, 22
Convergencia Esperanza, 11
casi segura, 13 Estadstico, 18
dbil, 12 de Kolmogorov-Smirnov, 15
en distribucin, 12 de contraste, 53
en probabilidad, 13 de orden, 21
Cota del contraste de razn de verosimilitu-
de Frchet-Cramr-Rao, 35 des, 60
Covarianza muestral, 9 Estimador, 22
Cuantil, 4 Bayes, 44
muestral, 21 centrado, 19
poblacional, 21 de mxima verosimilitud, 26
Cuartil, 4 eficiente, 37
Cuasivarianza insesgado, 19, 23
muestral, 20 ncleo, 6
Datos emparejados, 130 por el mtodo de los momentos, 42
Desigualdad Familia
de Chebichev, 14 conjugada, 46
de Jensen, 31 paramtrica CVM, 59
de Markov, 14 Funcin
Desviacin cuantlica, 21
tpica, 4 de distribucin, 11

159 de 160
Guillermo Julin Moreno
Estadstica I - 13/14 C1 - UAM Eduardo Miravalls Sierra

de distribucin emprica, 15 Sucesin


de potencia, 50 consistente, 57
de verosimilitud, 26
indicatriz, 6 Tamao
de un test, 51
Histograma, 5 Teorema
central del lmite, 19
Informacin de Bayes, 44
de Fisher, 35 de cambio de espacio de integracin,
Intervalo 12
de confianza, 46 de Glivenko-Cantelli, 15
Invarianza del EMV, 30 de la aplicacin continua, 23
Lmite de Slutsky, 14
inferior, 5 MV1, 31
superior, 5 MV2, 33
Lema MV3, 37
de Fischer-Cochran, 49 Test
de Neyman-Pearson, 58 ptimo, 58, 60
Ley Bayesiano, 64
de los grandes nmeros, 15 de bondad de ajuste, 61
de cociente de verosimilitudes, 60
Mtodo insesgado, 57
delta, 25 UMP, 57
Media, 3
de una distribucin, 11 Varianza, 3
muestral, 18 combinada, 55
poblacional, 18 muestral, 20
Mediana, 3 residual, 9
Momento, 12 Ventana mvil, 6
Muestra, 11
homocedstica, 54

Nivel
de significacin, 51
Normalidad
asinttica, 25

p-valor del contraste, 52

Rango
intercuartlico, 4
Recta de regresin, 9
Regin
creble, 49
Regresin lineal
coeficiente de, 9
Residuo, 9

Skewness, 4
Soporte, 31

160 de 160