Capitulo 1 Distribucion Normal Multivariante

Estadística II - 2014/2015 2o cuatrimestre - UAM Víctor de Juan
Capítulo I
Distribución normal multivariante
1. Esperanza, varianza y covarianza de variables aleatorias
Dada una variable aleatoria definimos:

R∞
Esperanza: µ = E(X) = −∞ x · fP (x)dx
Propiedades:
1. E(aX) = aE(X)
2. E(X + Y ) = E(X) + E(Y )
3. E(X + c) = E(X) + c (La esperanza de una constante es la propia constante)
Varianza: V ar(X) = E((X − E(X))2 ) = E((X − µ)2 ) = E(X 2 ) − µ2

Propiedades:
1. V ar(X + b) = V ar(X)
2. V ar(aX) = a2 V ar(X)
3. V ar(X) ≥ 0
Covarianza (entre dos variables aleatorias Xi , Xj ): σi,j = Cov(Xi , Xj ) = E (Xi − E(Xi ))(Xj − E(Xj ))
E(Xi Xj ) − E(Xi )E(Xj )
Dos propiedades importantes de la covarianza son:
1. Cov(X,X)= Var(X)
2. Cov(X, Y ) = Cov(Y, X)
2. Esperanza, varianza y covarianza de vectores aleatorios
Un vector aleatorio es un vector de variables aleatorias.

Notación: como durante el curso vamos a trabajar con vectores aleatorios, vamos a
generalizar los símbolos que iremos usando:
X = (X1 , X2 , ..., Xp )0 será un vector de p variables aleatorias. Las variables alea-

torias serán X1 , X2 , ..., Xp . La comilla simple 0 indica que X es un vector columna.
1 de 117
µ será la esperanza del vector aleatorio X: E(X). Las esperanzas de cada variable
aleatoria serán µ1 , µ2 , ..., µp .
Si A es una matriz, A’ es su traspuesta
Por tanto, dado un vector de p variables aleatorias (vector aleatorio p-dimensional),

definimos:
Esperanza. Será un vector columna con las esperanzas de cada variable aleatoria.
E(X) = µ = (µ1 , µ2 , ..., µp )0
Donde cada µi = E(Xi ).

Ejemplo p=3:
     
 X1   E(X1 )   µ1 
     
E(X) = E  =  E(X )  =  µ  = µ
 
X2  2   2 
 

     
X3 E(X3 ) µ3
Propiedades:
1. E(X + c) = E(X) + c. Como en el caso de variables aleatorias.

2. E(AX) = AE(X). Donde A es una matriz de dimensión pxp siendo p la
dimensión de X.
Lo vemos para p=3:
    
 a1,1 a1,2 a1,3   X1   a1,1 X1 − a1,2 X2 − a1,3 X3 
    
E(AX) = E  =  a2,1 X1 − a2,2 X2 − a2,3 X3 =
   X   
a2,1 a2,2 a2,3   2  E 

    
a3,1 X1 − a3,2 X2 − a3,3 X3
  
a3,1 a3,2 a3,3 X3
    
 a1,1 E(X1 ) − a1,2 E(X2 ) − a1,3 E(X3 )   a1,1 a1,2 a1,3   E(X1 ) 
    
=
 a2,1 E(X1 ) − a2,2 E(X2 ) − a2,3 E(X3 )
= a
  2,1 a2,2 a2,3
  E(X )  =
 2 
    
a3,1 E(X1 ) − a3,2 E(X2 ) − a3,3 E(X3 ) a3,1 a3,2 a3,3 E(X3 )
= AE(X)
Varianza. La varianza va a ser una matriz, donde cada elemento va a ser la co-
varianza entre dos de las p variables aleatorias que conforman el vector. Será por
tanto una matriz simétrica (ya que σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i ). La
matriz resultante será la llamada matriz de covarianzas Σ.
V ar(X) = E (X − µ)(X − µ)0 = E(XX 0 ) − µµ0 = Σ

2
Demostración.
V ar(X) = E (X − µ)(X − µ)0 = E(XX 0 − µX 0 − Xµ0 + µµ0 ) =

E(XX 0 ) − E(µX 0 ) − E(Xµ0 ) + E(µµ0 ) = E(XX 0 ) − µE(X 0 ) − µ0 E(X) + µµ0 =

E(XX 0 ) − µµ0 − µ0 µ + µµ0 = E(XX 0 ) − µµ0 = Σ
Ejemplo p=3:
    
 X1 − µ1    σ1,1 σ1,2 σ1,3 
    
V ar(X) = E 

X2 − µ2  (X1 − µ1 , X2 − µ2 , X3 − µ3 )
= σ2,1 σ2,2 σ2,3 =
    
    
X3 − µ3 σ3,1 σ3,2 σ3,3
 
 V ar(X1 ) σ1,2 σ1,3 
 
=
 σ2,1 V ar(X2 ) σ2,3 =Σ

 
σ3,1 σ3,2 V ar(X3 )
Donde se cumple que σ1,2 = σ2,1 , σ1,3 = σ3,1 y σ3,2 = σ2,3 . Y por tanto Σ es
simétrica.
Mirar si tiene importancia lo de Σ semidefinida positiva y tal
3. Función característica
La función característica de un vector aleatorio X es:

0
φX (t) = E(eit X )
Siendo X y t p-dimensionales.
Se llama función característica porque es única para cada distribución de X. Es decir:
Proposición 3.1. Sean X e Y dos vectores aleatorios:

d
φX (t) = φY (t) ⇔ X = Y
Proposición 3.2. Mecanismo de Cramer-Wold: Dados dos vectores aleatorios X e Y: preguntar

que es a’X (dos vectores columna multiplicados?)
d D
a0 X = a0 Y ∀a ∈ Rp ⇔ X = Y
3
Demostración.
⇐) Trivial
⇒) Aplicamos la función característica y tenemos que:
φa0 X (t)φa0 Y (t) ∀t ∈ R
Por tanto, también es cierto para t=1:

0 0
φa0 X (1) = φa0 Y (1) ⇒ E(eia X ) = E(eia Y ) ⇒ φX (a) = φY (a)
Esta función caracteriza la distribución de X:
4. Matriz de covarianzas
Como ya dijimos anteriormente la matriz de covarianzas Σ define la varianza de un

vector aleatorio y es simétrica. Por tanto podemos expresar Σ de la siguiente forma:
Σ = CDC −1
Siendo D una matriz diagonal.

C −1 = C 0 ya que las columnas de C son vectores ortonormales. Por tanto:
Σ = CDC 0 y Σ−1 = CD−1 C 0
Ejemplo p=2:    
 0   λ1 0 
µ=  ,Σ= 
0 0 λ2
Tenemos:   
 λ1 0   X1  X2 X2
(X1 , X2 )   = cte ⇒ 1 + 2 = cte
λ1 λ2

0 λ2 X2
Luego:
(X−µ)0 Σ(X−µ) = cte ⇒ (X−µ)0 CD−1 C 0 (X−µ) = cte ⇒ (X̃−µ̃)0 CD−1 C 0 (X̃−µ̃) = cte
Correlación Definición 4.1 Correlación. La correlación entre dos vectores aleatorios X1 y X2 se define
como:
cov(X1 , X2 )
cor(X1 , X2 ) = p
V ar(X1 )V ar(X2 )
Es por tanto una matriz, en su diagonal principal esta formada por 1’s. Explicar algo más
del significado geométrico de la correlación
4
5. Estandarización multivariante
Definición 5.1 . Sea X una variable aleatoria. X es normal si tiene densidad dada por:
1 (x−µ)2
f (x) = √ e− 2σ2
σ 2π
X−µ
Además, si cogemos Y = σ entonces Y ≡ N (0, 1)
Definición 5.2 . Sea un vector aleatorio X, es normal p-dimensional con vector de medias µ y
matriz de covarianzas Σ (notación: X ≡ Np (µ, Σ)) si tiene densidad dada por:
1 0 −1 (x−µ)
f (x) = |Σ|−1/2 (2π)−p/2 e(− 2 (x−µ) Σ )
Proposición 5.1. Si X ≡ Np (µ, Σ) y definimos Y = Σ−1/2 (X − µ), entonces Y1 , ..., Yp son

i.i.d. N(0,1).
Demostración. Sabemos por definición que:

1
fX (x) = |Σ|−1/2 (2π)−p/2 exp − (x − µ)0 Σ−1 (x − µ)
2
Vamos a aplicar un cambio de variable en la fórmula de la densidad:

Despejando de Y = h(X) = Σ−1/2 (X −µ), obtenemos que Σ1/2 Y +µ = h−1 (Y ) =
X.
Y ahora cogemos el Jacobiano de h−1 (Y ) = X que será Σ1/2 (µ es una constante
e Y es la variable).
Esto de coger el jacobiano a qué se debe? A que luego la función de densidad se
integra?
Por tanto nos quedaría:

−1/2 −p/2 1
exp − (x − µ) Σ (x − µ) = f (h−1 (y)) · Jh(x) =
0 −1

f (x) = |Σ| (2π)
2

−1/2 −p/2 1 1/2 0 −1

|Σ| (2π) exp − (Σ y + µ − µ) Σ (Σ y + µ − µ) Σ1/2 =
1/2
2

−1/2 1 0 01/2 −1 1/2
= |Σ| (2π) −p/2
exp − y Σ Σ Σ y) |Σ|1/2 =
2
Por ser Σ simétrica tenemos que: Σ = Σ0

−1/2 1 0 1/2 −1 1/2
= |Σ| (2π)−p/2
exp − y Σ Σ Σ y) |Σ|1/2 =
2
p p 2 p
−p/2 1 Y 1 − (yi )2 Y 1 − (xi −µ) Y
= (2π) exp − (y 0 y) = √ e 2 = √ e 2σ 2 = fXi (x)
2 2π 2π
i=1 i=1 i=1
Multiplicamos un vector columna por un vector fila, sería al reves no?
5
Hemos usado un teorema que dice que Q n variables aleatorias X1 , ..., Xn son inde-
pendientes si y solo si el f (x1 , ..., xn ) = ni=1 f (xi ) siendo f la función de densidad.
Comprobar esto:
Observación: Si X ≡ Np (µ, Σ) y definimos Y = Σ−1/2 (X −µ), entonces Y ≡ Np (0p , Ip ).

Siendo 0p un vector de 0’s de dimensión p, e I la matriz identidad de rango p:

E(Y ) = E Σ−1/2 (X − µ) = Σ−1/2 E (X − µ) = Σ−1/2 (µ − µ) = 0

V ar(Y ) = V ar Σ−1/2 (X − µ) =
0
−1/2 −1/2 −1/2 −1/2 −1/2 −1/2 −1/2 −1/2
=E Σ X −Σ µ−Σ µ+Σ µ Σ X −Σ µ−Σ µ+Σ µ =
Usamos que Σ es simétrica:

0
−1/2 −1/2
=E Σ (X − µ) Σ (X − µ) = E Σ−1/2 (X − µ)(X − µ)0 Σ−1/2 = Σ−1/2 ΣΣ−1/2 = I
Estandarización paso por paso: Vamos a ver qué es lo que hacemos con la estanda-
rización paso por paso. Sea X el vector aleatorio:
1. Y = (X − µ). Aquí lo que hacemos es simplemente una traslación del vector X.
2. Y = C 0 (X − µ). Aquí giramos los datos. C’ es una matriz de giro ya que su

determinante es 1 (de hecho es ortonormal). Esta rotación elimina la correlación
¿Por qué?. Calculamos la varianza:
0
V ar C 0 (X − µ) = E C 0 X − C 0 µ − C 0 µ + C 0 µ C 0 X − C 0 µ − C 0 µ + C 0 µ

0
C 0 (X − µ) C 0 (X − µ) = E C 0 (X − µ)(X − µ)0 C = C 0 ΣC = C 0 CDCC 0 = D

E
3. Y = D−1/2 C 0 (X − µ). Con esto hacemos un cambio de escala para que las varian-
zas sean 1. Calculamos la varianza. Usamos que V ar(AX) = AV ar(X)A0 y que
D = D0 :
V ar D−1/2 C 0 (X − µ) = D−1/2 DD−1/2 = I
4. Y = CD−1/2 C 0 (X − µ). Deshacemos el giro de antes. Calculamos la varianza:

V ar CD−1/2 C 0 (X − µ) = CIC 0 = I
6
Consecuencias de la estandarización:
1. Si X ≡ Np (µ, Σ), entonces E(X) = µ y V ar(X) = Σ.

Esto es cierto ya que tal y como hemos visto antes X = Σ1/2Y + µ y entonces
(Usando que C 0 = C)E(X) = 0+µ y V ar(X) = V ar(Σ1/2Y +µ) = V ar(Σ1/2Y ) =
Σ1/2 V ar(Y )Σ01/2 = CD1/2 C 0 IC 0 D1/2 C = Σ
n o
2. Si X ≡ Np (µ, Σ), entonces φX (t) = exp it0 µ − 12 t0 Σt :
3. La distribución de (X − µ)0 Σ(X − µ) es χ2p :

Siendo X ≡ Np (µ, Σ) con X = Σ−1/2 Y + µ. Entonces (sabiendo que Σ es simétri-
ca):
X p
0 −1 0 1/2 −1 1/2 0
(X − µ) Σ (X − µ) = Y Σ Σ Σ Y = Y Y = Yi2
i=1
Otra vez líos con vector columna o fila Usando que Yi ≡ N (0, 1), entonces:
p
X
Yi2 = χ2p chi-cuadrado con p grados de libertad
i=1
6. Transformaciones afines de vectores normales
Proposición 6.1. Si X ≡ Np (µ, Σ), A es matriz qxp y b ∈ Rq , entonces AX + b ≡ Nq (Aµ +

b, AΣA0 )
Demostración.

0 it0 b
0
it AX it0 b 0 1 0 0
φ[ AX+b](t) = E exp it (AX + b) = e E e = e exp it Aµ − t AΣA t
2
sin terminar...
7
Una consecuencia de esta proposición es lo siguiente: Si X sigue una distribución
normal p-dimensional, y se expresa como X = (X1 |X2 ), con X1 ∈ Rq y X2 ∈ Rp−q , y
consideramos las particiones correspondientes de µ y Σ:
 
 Σ11 Σ12 
µ = (µ1 |µ2 ) , Σ =  
Σ21 Σ22
entonces X1 ≡ Nq (µ1 , Σ11 )
Ejemplo: Sea un vector de variables aleatorias Y = (Y1 , Y2 , Y3 , Y4 , Y5 ) tal que Y ≡ N5 (µ, Σ)

(Y es normal 5-dimensional) con vector de medias µ = (µ1 , µ2 , µ3 , µ4 , µ5 ) y sea X1 = (Y1 , Y2 , Y3 )
y X2 = (Y4 , Y5 ).
 
 µ Y1 
  
µ Y2 
 
 µX1
 
  
µ= =
 µ Y3 

µX2  

 µ Y4 

 
µ Y5
 
 Σ11 Σ12 Σ13 Σ14 Σ15 
 
Σ21 Σ22 Σ23 Σ24 Σ25 
  
 Σ11 Σ12 
 
 
ΣY = 
  , ΣX = 
Σ31 Σ32 Σ33 Σ34 Σ35  
  Σ 21 Σ 22

 Σ41 Σ42 Σ43 Σ44 Σ45 

 
Σ51 Σ52 Σ53 Σ54 Σ55
Entonces X1 ≡ N3 (µX1 , Σ11 ) para la matriz ΣX .
Proposición 6.2. Si X = (X1 , X2 ) es normal n-dimensional siendo n la suma de la dimension

de X1 + X2 , entonces :Dado X1 y X2 vectores aleatorios, son independientes si y solo si Σ12 =
Σ21 = 0
Observación:
Si dos variables aleatorias tienen distribución normal y además Cov(X, Y ) = 0,

esto no implica que X e Y sean independientes. Esto sería cierto si el vector (X,Y)
fuera normal bidimensional.
Si dos variables aleatorias X e Y tienen distribución normal y a, b ∈ R, la combi-

nación linear de aX + bY no tiene necesariamente distribución normal. Esto sería
cierto si el vector (X,Y) fuera normal bidimensional.
Aunque todas las marginales de un vector aleatorio p-dimensional X tengan dis-

tribución normal, esto no implica que X tenga distribución normal p-dimensional.
Esto sería cierto si todas ellas fueran independientes entre si.
8
7. Ejercicio 1
Definimos el siguiente vector aleatorio: X = (X1 , X2 , X3 )0 ≡ N3 (µ, Σ) con:

   
 0   7/2 1/2 −1 
   
 0  , Σ =  1/2 1/2 0
µ=   

   
0 −1 0 1/2
a) Calcula las distribuciones marginales Xi ≡ N (E(Xi ), V ar(Xi )):

X1 ≡ N (0, 7/2)
X2 ≡ N (0, 1/2)
X3 ≡ N (0, 1/2)
Para calcular estos valores solo hace falta mirar los datos que nos da el problema, el
vector de medias µ y la matriz de covarianzas Σ:
 
 V ar(X1 ) σ1,2 σ1,3 
 
Σ=
 σ2,1 V ar(X2 ) σ2,3 

 
σ3,1 σ3,2 V ar(X3 )
   
 E(X1 )   µ1 
   
µ=
 E(X2 )  =  µ2 
  
   
E(X3 ) µ3
b) Calcula la distribución del vector (X1 , X2 )0 :

Este vector sigue una distribución normal que puede obtener de las matriz Σ y el
vector de medias µ:
     
 X1   0   7/2 1/2 
  ≡ N2   ,  
X2 0 1/2 1/2
c) ¿Son X2 y X3 independientes?
Sí son independientes ya que la covarianza entre ambas variables es 0. La covarian-
za entre X2 y X3 es el elemento de la fila 3 y la columna 2 de la matriz de covarianzas
Σ, (que al ser Σ simétrica coincide con el elemento de la fila 2 y la columna 3).
d) ¿Es X3 independiente del vector (X1 , X2 )0 ? No, no lo es, tenemos que ver que
ciertos elementos de la matriz de covarianzas son 0:
 
 7/2 1/2 −1 
 
Σ=  1/2 1/2 0 

 
−1 0 1/2
9
Y vemos que hay un ’-1’ y un ’0’, si fueran los dos elementos 0, si serían indepen-
dientes, pero al haber un elemento distinto de 0, no lo son.
e) Calcula la distribución de la variable aleatoria (2X1 − X2 + 3X3 ). Utilizando la
proposición anterior:
Si X ≡ Np (µ, Σ), A es matriz qxp y b ∈ Rq , entonces AX + b ≡ Nq (Aµ + b, AΣA0 )
Procedemos de la siguiente manera: X ≡ N3 (µ, Σ), A = (2, −1, 3) tiene dimensión
1x3 y b=0. Por tanto:
 
 0 
 
µ = AX + b = (2, −1, 3) · 
 0 =0

 
0
  
 7/2 1/2 −1  2 
Σ = AΣA0 = (2, −1, 3) 
  
  −1  = 5
 1/2 1/2 0  
  
−1 0 1/2 3
Por tanto, (2X1 − X2 + 3X3 ) ≡ N (0, 5)
8. Distribuciones condicionadas
Proposición 8.1. Sea X = (X1 |X2 ) con X1 ∈ Rp y X2 ∈ Rp−q . Consideramos las particiones
correspondientes de µ y de Σ y suponemos que Σ−1
11 existe. Entonces:
X2 |X1 ≡ Np−q (µ2.1 , Σ2.1 )
donde:
µ2.1 = µ2 + Σ21 Σ−1
11 (X1 − µ1 )
Σ2.1 = Σ22 − Σ21 Σ−1

11 Σ12
µ2.1 = E(X2 |X1 ) es una función lineal (afín) de X1
Σ2.1 no depende de X1 (homocedasticidad)
Ejemplo: Sea   
  
 X   0  10 3
  ≡ N2 
  ,  

Y 0 3 1
A)Distribución Y |X: Y hace de X2 en la fórmula vista anteriormente (es el segundo ele-

mento del vector), y X de X1 .
1 3
µ2.1 = E(Y |X) = µ2 + Σ21 Σ−1
11 (X − µ1 ) = 0 + 3 · ·X = X
10 10
1 1
Σ2.1 = V (Y |X) = Σ22 − Σ21 Σ−1
11 Σ12 =1−3· ·3=
10 10
10
B)Distribución X|Y : Al hacer la distribución de X1 |X2 cambiamos el orden de los índices
en las fórmulas:
1
µ1.2 = E(X|Y ) = µ1 + Σ12 Σ−1
22 (Y − µ2 ) = 0 + 3 · · Y = 3Y
1
1
Σ1.2 = V (X|Y ) = Σ11 − Σ12 Σ−1
22 Σ21 = 10 − 3 · · 3 = 1
1
Ejemplo: Sea   
  
 X   1  3 1
  ≡ N2 
  ,  

Y 1 1 2
Sea Z1 = X + Y y Z2 = X − Y . Calcula la distribución condicionada de Z1 a Z2 = 1

Primero vamos a calcular el vector aleatorio (Z1 , Z2 ), por la proposición vista anteriormente
tenemos que: Z1 ≡ N (Aµ + b, AΣA0 ) con:
 
 1 1 
A= 
1 −1
Nos queda:     
 1 1  1   2 
Aµ =    =  
1 −1 1 0
Y por otro lado:

     
 1 1  3 1  1 1   7 1 
AΣA0 =    = 
1 −1 1 2 1 −1 1 3
Por tanto nos queda:

     
 Z1   2  7 1
  ≡ N2 
  ,  

Z2 0 1 3
Ahora vamos a calcular la distribución de Z1 |Z2 , otra vez tenemos los subíndices cambiados
con respecto a la fórmula general, por tanto:
1 Z2 =1 7
µ1.2 = E(Z1 |Z2 ) = 2 + Z2 ⇒
3 3
1 20
Σ1.2 = V (Z1 |Z2 ) = 7 −=
3 3
Por tanto:
7 20
Z1 |Z2 ≡ N2 ,
3 3
11
Capítulo II
Contrastes no paramétricos
Hipótesis no paramétrica: hipótesis que no se formula en términos de un número

finito de parámetros.
iid
1. Bondad de ajuste: A partir de una muestra X1 , ..., Xn ∼ F de observaciones (Pa-
rra: son muestras o variables aleatorias o es simple notación?Jorge: son muestras
iid
que provienen de v.a. Xi con distribución F) ( ∼ significa que son muestras aleato-
rias independientes idénticamente distribuidas que siguen una distribución F en
este caso), contrastar:
H0 : F = F0 donde F0 es una distribución prefijada.

H0 : F ∈ {Fθ : θ ∈ H} H es el espacio paramétrico.
iid iid
2. Homogeneidad: Dados X1 , ..., Xn ∼ F y Y1 , ..., Yn ∼ G de observaciones. Con-
trastar H0 : F = G.
(Por ejemplo para ver si el salario de los hombres F tiene la misma distribución
que el de las mujeres G).
iid
3. Hipótesis de independencia: Dada (X1 , Y1 ), ..., (Xn , Yn ) ∼ F de observaciones.
Contrastar H0 : X e Y son independientes.
(Por ejemplo para X salario e Y sexo, querríamos ver si el salario es independiente
del sexo).
Antes de explicar los contrastes en detalle, vamos a definir y tratar de entender bien
algunos conceptos. (quien ya lo entienda que pase de este apartado, que el profesor no
lo ha explicado):
Definición 0.1 .H0 = Hipótesis nula. Más que una definición, es una interpretación: La
hipótesis nula es lo que queremos rechazar cuando hacemos el contraste de hipótesis.
Explicación: Es decir, nosotros lo que hacemos es obtener una muestra empírica de unos
datos, y lo que vamos a hacer es mirar si podemos decir que NO siguen una distribución en
concreto, o por el contrario, no podemos decir nada. Por tanto, el objetivo del contraste es ver
si podemos rechazar que los datos siguen esa distribución definida por la hipótesis nula. Pero
cuidado, el que no la rechacemos no significa que los datos sigan la distribución, sino que no
tenemos suficiente evidencia estadística para afirmar que NO la siguen....
12 de 117
Definición 0.2 .α = nivel de significación. Es la probabilidad máxima que queremos tener
de equivocarnos si rechazamos la hipótesis nula. No depende de nada, lo asignamos nosotros en
cada problema que queramos resolver.
Explicación: Es decir, si hacemos un contraste de hipótesis con un nivel de significación
α = 0.05, quiere decir, que si finalmente rechazamos la hipótesis nula, asumimos que lo
estamos haciendo con un máximo de un 5 % de probabilidades de equivocarnos.
Definición 0.3 .p-valor. valor de α mínimo con el que se empieza a rechazar la hipótesis nula.
Depende de los datos de partida y de la hiṕotesis nula.
Explicación: Interpretación del p-valor: El p-valor es un número entre 0 y 1, y representa la
probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula. Dicho de otra for-
ma, el p-valor nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido
si suponemos que la hipótesis nula es cierta.
Razonémoslo con un ejemplo: Supongamos que el p-valor sale 0.40. Esto quiere decir que
si rechazamos la hipótesis nula, tenemos un 40 % de posibilidades de equivocarnos, por tanto,
lo mejor es no rechazarla. Esto cuadra con la teoría, ya que si el p-valor es 0.40 (bastante
alto), su valor estadístico asociado (T), es muy pequeño, y por tanto la región de rechazo
(R = {T > c}) es bastante pequeña.
Según la otra interpretación tenemos que el resultado que hemos obtenido tendría un 40 %
de posibilidades de obtenerse si consideramos que las variables aleatorias siguen la distribu-
ción que indica la hipótesis nula (en lugar de la que nos sale empíricamente). Esto también es
razonable, ya que un 40 % es una probabilidad bastante alta como para rechazarla, por tanto,
lo que hacemos es no rechazar la hipótesis nula.
Sin embargo, si nos sale un p-valor igual a 0.01, quiere decir que si rechazamos la hipó-
tesis nula tenemos un 1 % de posibilidades de equivocarnos, que es bastante poco, por tanto,
tenderemos a rechazarla.
Ahora vamos a ver la relación entre el p-valor y el nivel de significación:

Explicación: Supongamos que queremos hacer el contraste de hipótesis con α = 0.05
y con una hipótesis nula H0 cualquiera. Estudiamos los datos, y obtenemos un p-
valor de 0.40. Por tanto, esto significa que si rechazamos la hipótesis nula tendría-
mos un 40 % de posibilidades de equivocarnos. Como nuestro α = 0.05 significa que
solo estamos dispuestos a rechazar la hipótesis nula si tuviéramos un 5 % de pro-
babilidades de equivocarnos, pero hemos visto que tenemos un 40 %, por tanto, no
rechazamos.
Supongamos ahora que queremos hacer el contraste de hipótesis con α = 0.05
pero obtenemos un p-valor de 0.02. Por tanto, esto significa que si rechazamos la
hipótesis nula tendríamos un 2 % de equivocarnos. Como hemos decidido que esta-
mos dispuestos a rechazar la hipótesis nula con hasta un 5 % de probabilidades de
equivocarnos, rechazamos. Si por el contrario imponemos α = 0.01, no rechazaría-
mos ya que sólo estaríamos dispuestos a equivocarnos como máximo un 1 % de las
veces, y el p-valor solo nos asegura un 2 %.
T = valor Definición 0.4 T = valor Estadístico. El estadístico es un valor que depende, al igual que el
Estadístico p-valor, de los datos de partida y de H0 . P-valor y estadístico están totalmente relacionados, si
cambia uno, cambia el otro. Lo utilizamos para construir la región de rechazo.
13
1. Contraste χ2 de bondad de ajuste
Consideramos una distribución totalmente especificada bajo F0 . Y consideramos

iid
una muestra empírica X1 , ..., Xn ∼ F .
H0 : F = F0 es la hipótesis nula y queremos ver que F, que es la distribución obte-
nida con los datos verdaderos (las muestras Xi obtenidas empíricamente) es igual a F0
que es la distribución teórica.
Notación: PA (B) es la probabilidad de B condicionada a A.
Vamos a definir los pasos que tenemos que seguir para comprobar si H0 es cierta:
1. Se definen k clases A1 , ..., Ak .
2. Se cuentan cuántos datos caen en cada clase (frecuencias observadas). Cada clase
la llamaremos Oi = #{j : Xj ∈ Ai }.
3. Se calculan las frecuencias esperadas para cada clase si H0 fuese cierta. A este
dato lo llamaremos Ei o EH0 (Oi ):
EH0 (Oi ) = npi
Observación: Las Oi son variables aleatorias que se distribuyen como una bino-
mial B(n, pi = PH0 (Ai )). Siendo n el número de intentos y pi la probabilidad de
que una muestra pertenezca a la clase Ai bajo la hipótesis nula.
La notación puede resultar liosa, a grades rasgos:
Oi tendrá un valor que será la frecuencia observada de una clase i. Es decir,

el número de observaciones que caen en una la clase i.
EH0 (Oi ) será el valor esperado de Oi considerando la hipótesis nula como
cierta. La esperanza de una B(n, p) es igual a np.
4. Se comparan las frecuencias observadas y esperadas mediante el:
Estadístico Definición 1.1 estadístico de Pearson.

de Pearson
n
X (Oi − Ei )2
T =
Ei
i=1
Se divide entre Ei para darle más importancia a la diferencia si el valor es peque-

ño, Por ejemplo, si E=100 y O=101, no es lo mismo que si E=1 y O=2. Sin embargo,
si no dividiéramos por Ei nos daría el mismo resultado.
5. Se rechaza H0 en la región crítica R = {T > c} donde c es tal que α = PH0 (T > c).
Es decir, α (también llamado ’nivel de significación’) es la probabilidad de recha-
zar la hipótesis nula siendo esta cierta. O dicho de otra forma, la probabilidad de
entrar en la región de rechazo 0 T > c0 considerando que H0 es cierta.
Ahora vamos a ver qué podemos decir del estadístico de Pearson ’T’:
Oi = B(n, pi ) ' N (npi , npi (1 − pi ))
14
Imaginémonos por un momento que podríamos despreciar el término np2i de la
varianza de la normal. Nos quedaría:
' N (npi , npi (1 − pi )) ' N (npi , npi ) ' N (Ei , Ei )
Que por el Teorema Central del Límite (https://es.wikipedia.org/wiki/Teorema_

del_l%C3%ADmite_central) nos queda:
Oi − Ei
√ ' N (0, 1)
Ei
Y como deberíamos saber, una distribución χ2k no es más que una distribución de
probabilidad continua con un parámetro k que representa los grados de libertad de
la variable aleatoria X = Z12 + · · · + Zk2 , donde Zi son variables aleatorias normales
independientes de media cero y varianza uno. Por tanto:
(Oi − Ei )2
' χ21
Ei
Por tanto, como tenemos k clases, podríamos tener T ' χ2k . pero por otro lado
sabemos que O1 +O2 +. . .+Ok = n, esta restricción hace que no haya una independencia
entre todos los sumandos Oi , por tanto nos queda: T ' χ2k−1 .
Finalmente nos queda que la región de rechazo, dado un nivel de significación α, se
alcanza cuando el estadístico de Pearson T, obtenido a partir de los datos muestrales,
vale más que χ2k−1,α . χ2k−1,α es, dada la función de densidad de una χ2k−1 , el valor del
eje de abscisas que hace que se quede un α ∗ 100 % del área encerrada bajo la curva a la
derecha de ese valor:
Observación:
1. Tal y como lo hemos definido tenemos que ki=1 Oi = n y que ki=1 Ei = ki=1 npi =
P P P
n(p1 + p2 + ... + pk ) = n, por tanto tenemos:
k k
X (Oi − Ei )2 X O2 i
T = = −n
Ei Ei
i=1 i=1
2. Por deefinición de χ2k−1 , su esperanza es:
EH0 (T ) ' k − 1
3. Por definición de χ2k−1 , su varianza es:
VarH0 (T ) ' 2(k − 1)
Ejemplo: Tiramos un dado 100 veces y obtenemos:
Resultados 1 2 3 4 5 6
Frecuencia 10 20 20 10 15 25
Y consideramos H0 : pi = 1/6 ∀i = 1, ..., 6. Es decir que el dado no está trucado y cada
cara tiene la misma probabilidad (pi ) de salir.
15
Por otro lado consideramos H1 : ∃i tal que pi 6= 1/6. Es decir, que el dado está trucado y
hay caras que salen mas que otras.
Seguimos los pasos:
1. En este caso cada clase será la cara del dado que sale, habrá por tanto 6 clases: k=6.
2. Se cuentan cuantos datos caen en cada clase: O1 = 10, O2 = 20, O3 = 20, O4 = 10,
O5 = 15, O6 = 25
3. Se calculan las frecuencias esperadas si H0 fuese cierta. En este caso n = 10 + 20 + 20 +

10 + 15 + 25 = 100 y pi = 1/6 ∀i = 1, ..., 6. Nos queda: Ei = npi = 100 61 = 100/6.
4. Se obtiene el estadístico de Pearson:

n
X O2 6
T = i
−n= (102 + 202 + 202 + 102 + 152 + 252 ) − 100 = 11
Ei 100
i=1
5. Rechazamos H0 si T > c. En este caso, consideramos un nivel de significación α = 0.05.

Sabemos que α = PH0 (T > c) Como tenemos 6 clases, el estadístico de Pearson tendrá
una distribución χ25 . Buscamos en la tabla (mirar apéndice) y obtenemos que χ25 , 0.05 =
11.07. Este será nuestro valor de c.
Puesto que nuestra región de rechazo es R = (T > c), y tenemos que 11 > 11.07, no
podemos rechazar la hipótesis nula, y por tanto, no podemos concluir que el dado esta
trucado. El p-valor en este caso será mayor que 0.05.
Si consideramos un valor de significación α = 0.06 si hubiéramos rechazado la hipótesis
nula (aunque con un 6 % de opciones de equivocarnos) y hubiéramos concluido que el
dado esta trucado.
Lo vemos en el siguiente dibujo, que representa la gráfica de una χ25 :
16
La raya vertical se sitúa en x = 11.07, que es el valor que sale si se mira la tabla de la
distribución χ2 con 5 grados de libertad (ver apéndice) y nivel de significación, por tanto,
la zona sombreada es la región de rechazo de la hipótesis nula. Como ha salido T=11, no
entramos dentro de esa región de rechazo (por poco) y no podemos rechazar la hipótesis
nula.
Teorema 1.1. Bajo H0 :

k
X (Oi − Ei )2 d
→ χ2k−1 , si n → ∞
Ei
i=1
Demostración. Esta demostración es un poco liosa, si no la entendéis, a otra cosa

(great pareado).
Definimos los vectores aleatorios ξ1 , ..., ξn de la siguiente forma: ξi =
(j)
z}|{
(0, ..., 1 , ..., 0)0 ∈ Rk ⇔ xi ∈ Aj . Es decir cada ξi va a ser un vector de 0’s, sal-
vo porque van a tener un 1 en una posición j. Esta posición j les identificará con la
clase Aj . Tenemos que:
ξ1 + ... + ξn = (O1 , ..., Ok )0
Es decir, que su suma nos da un vector con las frecuencias de aparición de cada clase
(Recordemos que ’k’ es el número de clases). Por ejemplo, en el ejemplo del dado
tendríamos que ξ1 + ... + ξ6 = (10, 20, 20, 10, 15, 25) = (O1 , ..., O6 )
Notación: p ≡ (p1 , ..., pk )0 . np = (E1 , ..., Ek )0 , entonces:
 
X n 
(O1 − E1 , ..., Ok − Ek )0 = (ξi ) − np = n(ξ − p)
 
i=1
Definimos la matriz P, que tiene rango k, se define con las probabilidades pi en

la diagonal y 0 el resto de elementos:
 
 p1 0 · · · 0 
 
 0 p2 · · · 0 
P= .
 
 .. .. . . .. 
 . . .  
 
0 0 · · · pk
√ √
Y cogiendo la raíz del estadístico de Pearson y sabiendo que Ei = npi nos
queda: !
O1 − E1 Ok − Ek √
p , ..., p = P−1/2 n(ξ − P)
(E1 ) (Ek )
Por otro lado:

v1 vk
v = (v1 , ..., vk ) → v 0 ( , ..., )
λ1 λk
17
Así, tomamos ξ1 , ..., ξn independientes y distribuidas como un vector ξ tal que:
E(ξ) = p
V (ξ) = E(ξξ 0 ) − pp0 = P − pp0 ≡ Σ
E(ξξ 0 ) = P ya que tenemos:

(
0, r 6= l
ξr ξl =
ξr2 = ξr , r = l ,pues ξr es una Bernoulli
Por otra parte:

k
X (Oi − Ei )2 √ 2
T = = p−1/2 n(ξ − p)

Ei
i=1
Por el TCL:
√ d √ d
n(ξ − p) → Nk (0, Σ) =⇒ P−1/2 n(ξ − p) → Nk (0, P−1/2 ΣP−1/2 )
√ 2
d
⇒ P −1/2 n(ξ − p) → kY k2 con Y ≡ Nk (0, P−1/2 ΣP−1/2 )

Queda claro que P−1/2 ΣP−1/2 es simétrica, veamos que es idempotente:

1 1 √ √ 0
P− 2 (P − pp0 )P− 2 = I − p p
√ √ √
donde p = ( p1 , . . . , p2 )0 .
√ √ 0 √ √ √ √ √ √ √ √ √ √
(I − p p )(I − p p0 ) = I − 2 p p0 + p p0 p p0 = I − p p0
|P {z }
pi =1
De el ejercicio 9 de la hoja 1 sabemos que una normal multivariante de media 0

y cuya matriz de covarianzas es simétrica e idempotente, cumple que su norma al
cuadrado se distribuye como:
kY k2 ≡ χ2k−1
Los grados de libertad vienen de la traza de Σ, y de que traza(I) = k y
√ √
traza( p p0 ) = 1:
√ √ 0 √ √
traza(Σ) = traza(I − p p ) = traza(I) − traza( p p0 ) = k − 1
2. Contraste de bondad de ajuste χ2 para hipótesis nula com-

puesta
iid
Problema: X1 , ..., Xn ∼ F . Suponemos como hipótesis nula:
H0 : F ∈ {Fθ : θ ∈ H ⊂ Rr }
18
La diferencia es que ahora la hipótesis nula que consideramos es que los datos van
a seguir una distribución teórica F0 que no está totalmente especificada, ya que va a
depender de un parámetro. Por ello, decimos con palabras que:
La hipótesis nula es que los datos muestrales van a tener una función de distri-
bución F , que va a ser igual a Fθ , siendo θ el parámetro del que dependerá, el cual
pertenece a un espacio paramétrico H
Pasos:
1. Se definen k clases A1 , ..., Ak .
2. Se cuentan cuántos datos caen en cada clase (frecuencias observadas). Cada clase
la llamaremos Oi = #{j : Xj ∈ Ai }. Hasta aquí todo igual que antes.
3. Para estimar/calcular las frecuencias esperadas se sigue un método ligeramente

diferente:
Se estima θ por el método de máximo verosimilutd. Sea θ̂ el EMV.
explicar bien esto
4. Se calculan las frecuencias esperadas estimadas bajo H0 : Êi = np̂i con i = 1, ..., k
donde p̂i = pθ̂ (Ai ).
5. Calculamos el estadístico χ2 de Pearson:

k
X (Oi − Êi )2
T =
i=1 Êi
Ahora puedo elegir de todas las posibles distribuciones, aquella que más se pa-
rece. De modo que cabe esperar que T tienda a tomar valores menores que en el
caso simple.
Además, al estimar r (¿De dónde sale r? Es la dimensión del parámetro estima-
do??) parámetros se introducen r nuevas restricciones sobre el vector O1 , O2 , ..., Or .
Se puede probar bajo condiciones de regularidad:
k
X (Oi − Êi )2 d
→ χ2k−1−r bajo H0 si n → ∞
i=1 Êi
6. Se rechaza H0 en la región crítica: R = {T > χ2k−1−r;α }

Tal y como se ha hecho en el caso anterior.
Ejemplo: Los bombardeos de Londres. El problema trata de estudiar los bombardeos que
sufrío Londres entre 1944 y 1945. Se quería saber si los impactos sobre la ciudad de Londres
eran en lugares aleatorios o estaban dirigidos a lugares concretos.
La fórmula de Poisson se ajusta bastante a un modelo de distribución aleatoria de impactos.
Por tanto, tendríamos que estimar el parámetro λ de la distribución de Poisson, que tiene por
función de densidad:
e−λ λk
f (k, λ) =
k!
Donde:
19
k es el número de ocurrencias del evento o fenómeno (la función nos da la probabilidad de
que el evento suceda precisamente k veces).
λ es un parámetro positivo que representa el número de veces que se espera que ocurra
el fenómeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar
en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra
k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribución de
Poisson con λ = 10×4 = 40.
Dicho esto, vamos a seguir los pasos anteriormente detallados:
1. Se definen k clases A1 , ..., Ak . En nuestro caso, las clases van a ser el número de impac-
tos que ha habido en un cuadrado. Por tanto los cuadrados que pertenezcan a A1 serán
aquellos que han sufrido un único impacto.
2. Se cuentan cuántos datos caen en cada clase (frecuencias observadas). Cada clase la llama-
remos Oi = #{j : Xj ∈ Ai }. En nuestro caso tenemos: O0 = 229, O1 = 211, O2 = 93,
O3 = 35, O4 = 8 (O4 es 4 o más impactos).
3. Para estimar/calcular las frecuencias esperadas se estima θ por el método de máximo ve-
rosimilutd. Sea θ̂ el EMV. En este caso, nuestro θ sera λ y nuestro θ̂ será λ̂, que será el
parámetro de la distribución de Poisson:
0 · 229 + 1 · 211 + 2 · 93 + 3 · 35 + 4 · 7 + 5 · 1
λ̂ = = 0.9323
576
explicar por qué esto es el EMV, ya que en estadistica 1 hacíamos u lio increible pa sacarlo
4. Se calculan las frecuencias esperadas Êi = np̂i con i = 1, ..., k donde p̂i = pθ̂ (Ai ). En
nuestro caso:
λ̂k
Êk = np̂k = 576 · e−λ̂ k!
Sustituimos λ = 0.9323 y k = 0, ..., 5 y nos queda: Ê0 = 226.74, Ê1 = 211.34, Ê2 =
98.54, Ê3 = 30.62, Ê4 = 8.71.
5. Calculamos el estadístico χ2 de Pearson:
k
X (Oi − Êi )2
T = = 1.0176
i=1 Êi
Bajo H0 tenemos que T ≡ χ23 . El 3 sale de k=5 clases menos 1 parámetro estimado menos
1 como hacíamos antes.
6. Se rechaza H0 en la región crítica: R = {T > χ2k−1−r;α }
En nuestro caso, tomando α = 0.05, tenemos:
R = {T > χ23;α } → {1.0176 > 7.815} → No se puede rechazar H0
Podemos calcular el p-valor mirando:
P {χ23 > 1.0176} = 0.797
Efectivamente, si miramos la tabla de la χ23 , con α = 0.797, T valdría aproximadamente

1.
20
Ejemplo: Ejemplo con R de los bombardeos:
Tenemos el siguiente comando para contrastes de bondad de ajuste de χ2 :
chisq.test(datos,p=...)
datos: La muestra de la que disponemos.
p: Es el vector de probabilidades esperadas.
Por defecto, se contraste la hipótesis de que los datos siguen una distribución uniforme.
Se supone que bajo H0 la distribución está completamente especificada (k-1 grados de

libertad)
Tengo anotado que R sólo funciona con hipótesis simples, y no compuestas, donde tenemos en
cuenta eso?
Exponemos el código a ejecutar y explicamos a continuación lo que hace:
res = c(seq(0,4),7)
obs = c(229,211,93,35,7,1)
n = sum(obs)
lambda = sum(res*obs)/n
prob = dpois(res,lambda)
esp = n*prob
1. Guarda en res un vector con las clases. Es decir, el número de impactos que ha habido en
un cuadrado. Se obtiene:
res = 0 1 2 3 4 7
2. Guarda en obs un vector con el número de cuadrados de cada clase. Se obtiene:

obs = 229 211 93 35 7 1
3. Guarda en n el tamaño de la muestra, que es la suma de los elementos del vector obs. Se
obtiene n = 576
4. Guarda en lambda el parámetro de la distribución de Poisson. Se obtiene lambda = 0.9322917.

Y sale de esta fórmula:
0 · 229 + 1 · 211 + 2 · 93 + 3 · 35 + 4 · 7 + 5 · 1
λ̂ = = 0.9323
576
5. Guarda en prob un vector con las probabilidades de aparición de cada clase, como la
Poisson es una función de distribución discreta, que depende de dos parámetros, lo único
que hacemos es sustituir en esta fórmula con λ = lambda y los valores de k = res:
λ̂k
e−λ̂ k!
Se obtiene:
prob = 3.9365e-01 3.6699e-01 1.7107e-01 5.3163e-02 1.2391e-02 4.7812e-05
6. Guarda en esp un vector con las esperanzas de cada clase. Se obtiene:

esp = 226.74272 211.39035 98.53873 30.62227 7.13722 0.02754
21
Continuamos agrupando las clases 4 y 5 es una sola clase, es decir, obteniendo una sola clase
que serán los cuadrados con 4 o más impactos:
obs = c(obs[1:4], sum(obs[5:6]))

prob = c(prob[1:4], 1-sum(prob[1:4]))
esp = c(esp[1:4], n-sum(esp[1:4]))
1. Obtenemos: obs = 229 211 93 35 8
2. Obtenemos: prob = 0.393650 0.366997 0.171074 0.053163 0.015114
3. Obtenemos: esp = 226.7427 211.3903 98.5387 30.6222 8.7059
Ahora vamos a dibujar el gráfico de barras:
matriz = rbind(prob, obs/n)

rownames(matriz) = c(’Frecuencias’, ’Poisson’)
barplot(matriz, beside=TRUE, names.arg=c(0:4),
legend.text=TRUE, col=c(’lightgreen’,’orange’))
1. Guardamos en matriz una matriz de dos filas, la primera son las probabilidades teóricas
esperadas, la segunda las muestrales:
[,1] [,2] [,3] [,4] [,5]

prob 0.3936506 0.3669971 0.1710742 0.05316368 0.01511444
0.3975694 0.3663194 0.1614583 0.06076389 0.01388889
2. Asignamos a la primera fila el nombre de ’Frecuencias’ y a la segunda ’Poisson’.
3. Pintamos las barras con barplot, con leyenda, y como nombre de cada par de barras
ponemos 0,1,2,3 y 4, identificando las clases.
Por último calculamos los valores importantes en un contraste, que son el p-valor, que es el
mínimo valor de α a partir del cual podemos rechazar la hipótesis nula.
22
t = chisq.test(obs,p=prob)$statistic
pvalor = 1-pchisq(t,3)
Obtenemos t = 1.017589 y pvalor = 0.7969959. El pvalor es muy alto, por tanto

no podemos rechazar la hipótesis nula, es decir, no podemos rechazar que los datos proceden de
una distribución de Poisson. El nivel habitual de rechazo sería con α = 0.05 que implica que si
lo rechazamos tenemos un 5 % de posibilidades de equivocarnos. Si quisiéramos rechazar con un
α = 0.79, tendríamos una probabilidades del 79 % de equivocarnos.
3. Contraste de bondad de ajuste de Kolmogorov-Smirnov
iid
Sea X1 , ..., Xn ∼ F . Definimos la función de distribución empírica, correspondiente
a X1 , ..., Xn como:
1
Fn (x) = #{i : Xi ≤ x}
n
Es una función de distribución constante a trozos, y con saltos de magnitud n1 en

cada valor muestral de Xi . Aunque ponga Fn , solo hay una para la muestra entera (ya
que las variables aleatorias están idénticamente distribuidas), sólo se pone Fn porque
depende directamente del número de elementos de la muestra.
Consideramos como hipótesis nula H0 : F = F0 . Siendo F0 una distribución previa-
mente especificada
Así, Fn es un estimador de la verdadera distribución F. Que como toda distribución
se define como F (X) = P (X ≤ x).
Ejemplo: Consideramos una muestra con 3 elementos: X1 = 1, X2 = 4, X3 = 6. Ahora,

para que sea más fácil construir la función de distribución ordenamos la muestra y nos queda:
X(1) = 1, X(2) = 4, X(3) = 6 → Estos son los estadísticos de orden
Por tanto, la función de distribución queda:
23
Y es bastante razonable. Por ejemplo P (X = 1) = F (1+ ) − F (1− ) = 31 − 0 = 13 . Algo
similar ocurre con P (X = 4) = P (X = 6) = 31 . Lo cual es razonable si nos limitamos
únicamente a observar la muestra. Además, para el resto de valores de X, la probabilidad es 0:
P (X = 2) = F (2+ ) − F (2− ) = 13 − 13 = 0
Observación:
1. Esta observación sale de sustituir en las fórmulas con las

definiciones
que hemos
dado. Sabiendo que la esperanza de una binomial es E B(n, p) = np
h i 1
nFn (x) = #{i : Xi ≤ x} ≡ B(n, F (x)) ⇒ E Fn (X) = nF (x) = F (x)
n
2. Con el mismo razonamiento, pero sabiendo que si X ∼ B(n, p), entonces V ar(X) =
np(1 − p):
1 n→∞
V ar(Fn (X)) = 2 nF (x)(1 − F (x)) → 0
n
3. Como consecuencia:
P
Fn (X) → F (X)
Convergencia en probabilidad o en medida: Si ∀ε > 0, lı́mn→∞ P (|X − Xn | ≥

ε) = 0.
De hecho, se cumple que (lema de Glivenko-Cantelli):

c.s.
kFn − F k∞ = sup (Fn (X) − F (x) → 0
Si H0 : F = F0 fuese cierta, se espera que Dn = kFn − F0 k∞ sea pequeño (Dn es el

estadístico de Kolmogorov-Smirnov). La idea es rechazar en la región R = {Dn > C},
para un valor c tal que PH0 (Dn > c) = α, donde α es el nivel de significación.
Importante:la distribución bajo H0 de Dn es la misma para cualquier distribución
continua F0 . El valor de c en la región crítica es el mismo para cualquier distribución
continua F0 y esta tabulado. F0 es la distribución teórica a la que queremos ver si per-
tenecen los datos. Mientras que F = Fn que es la empírica.
Proposición 3.1. Si una v.a. X tiene distribución continua (Continua por la derecha en todo
caso) F0 , entonces la v.a. F0 (X) ∼ U (0, 1) (Uniforme en (0,1)).
Demostración. Queremos ver que P (F0 (X) ≤ u) = u ∀u ∈ [0, 1] (que es lo que

ocurriría si F0 siguiera una distribución uniforme entre 0 y 1).
Así, sea F0 continua, entonces existe un x tal que F0 (x) = u. Y tendríamos que:
P (F0 (X) ≤ u) = P (F0 (X) ≤ F0 (x))
Ahora sabiendo que la función de distribución es monótona creciente (m.c.), del

primer miembro nos quitamos F0 (X) ≤ F0 (X) y del segundo, el menor o igual, ya
que si X > x solo puede ser que F0 (X) = F0 (X):
{F0 (X) ≤ F0 (x)} = {F0 (X) ≤ F0 (x), X ≤ x} ∪ {F0 (X) ≤ F0 (x), X > x} =
= {X ≤ x} ∪ {F0 (X) |{z}

= F0 (x), X > x}
m.c.
24
Y, basándonos en que F0 (X) = P (X ≤ x) = u y en que la probabilidad es 0 en
un trozo donde la función de distribución es constante, nos qued:
P (F0 (X) ≤ F0 (x)) = P (X ≤ x) + P (F0 (X) = F0 (x), X ≥ x) = F0 (X) + 0 = u
Observación: Existe un recíproco de la proposición: Si U ∼ U (0, 1) ⇒ F −1 (U ) ∼ F .

Explicar mejor este recíproco
La Dn de la que estábamos hablando antes de meternos en la proposición se conoce
como:
Estadístico Definición 3.1 Estadístico Kolmogorov-Smirnov.

Kolmogorov- ( )
Smirnov i i−1
Dn = máx 0, máx − F0 (x(i) ) , máx F0 (x(i) ) − )
i=1,...,n n i=1,...,n n
Y a continuación vamos a demostrar por qué tiene la expresión que aparece en la

definición.
Demostración.
( )

Dn = máx sup Fn (x) − F0 (x) , sup F0 (x) − Fn (x)
x∈R x∈R
Si representamos los estadísticos de orden de la muestra en una recta, y llamamos

a X(0) = −∞ y X(n+1) = ∞:
Nos queda que si x está entre X(i) y X(i+1) , entonces Fn (x) = ni .

Desarrollando el primer término de Dn nos queda:
!

sup Fn (x) − F0 (x) = máx sup Fn (x) − F0 (x) =
x∈R i=0,...,n x∈(X(i) ,X(i+1) )
i n i o
= máx − F0 (X(i) ) = máx 0, máx − F0 (X(i) )
i=0,...,n n i=1,...,n n
i
Explicar por qué es n
Desarrollando el segundo término nos queda:
 

sup F0 (x) − Fn (x) = máx  sup F0 (x) − Fn (x)  =
x∈R j=0,...,n x∈(x(j) ,x(j+1) )
25

j i−1
= máx F0 (x(j+1) ) − = máx F0 (x(i) ) − =
j=0,...,n n |{z} i=1,...,n+1 n
i=j+1
( )
i−1
= 0, máx F0 (X(i) ) −
i=1,...,n n
i−1
Explicar por qué es n
Por tanto, finalmente nos queda:
n i i − 1
Dn = kFn − F0 k∞ = máx 0, máx − F0 (X(i) ) , máx F0 (X(i) ) −
i=1,...,n n i=1,...,n n
Por tanto concluimos que Dn depende de F0 a través de los valores de

iid
F0 (X(1) ), F0 (X(2) ), ..., F0 (X(n) ). Si tengo una muestra de X1 , ..., Xn ∼ F0 , entonces
iid
F0 (X1 ), ..., F0 (X1 ) ∼ U (0, 1). Ordenándolos los elementos: X(1) ≤ ... ≤ X(n) , en-
iid
tonces F0 (X(1) ) ≤ ... ≤ F0 (X(n) ) ∼ U (0, 1). Que son los estadísticos de orden de
una muestra de tamaño n, de variables aleatorias iid, que siempre van a seguir una
distribución de una U (0, 1) para toda F0 continua.
Notación i
Dn+ = máx − F0 (X(i) )
i=0,...,n n
i − 1
Dn− = máx F0 (X(i) ) −
i=0,...,n n
Ejemplo: Ejemplo con R:

Tenemos el siguiente comando para contrastes de bondad de ajuste de Kolmogorov-Smirnov:
ks.test(datos,distribucion,parametros)
datos: La muestra de la que disponemos.
distribucion: Distribución bajo H0 . Es la distribución que creemos teórica de los datos,

la que hemos llamado F . (Por ejemplo, pnorm).
parametros: Parámetros de la distribución F .
Vamos a probar a usar los datos ’Kevlar’. Corresponden al tiempo hasta el fallo (en horas) de 101
barras de un material utilizado en los transbordadores espaciales.
Obtenemos los datos de http: // www. uam. es/ personal_ pdi/ ciencias/ acuevas/
docencia/ estI/ Datos-kevlar. txt . Los metemos en un archivo de texto kevlar.txt.
Ejecutamos:
kev = scan(’kevlar.txt’)
boxplot(kev)
26
hist(kev)
plot(ecdf(kev), verticals=TRUE, do.points=FALSE)

curve(pexp(x), add=TRUE, col=’red’)
Y obtenemos estas tres figuras:
En esta última observamos perfectamente la función Fn constante a trozos con valores n1 .

Hemos contrastado la muestra con la hipótesis nula de que los datos siguen una distribución
exponencial de parámetro λ = 1. (esta es la recta roja que sale con pexp(x)).
Por último ejecutamos:
ks.test(kev,pexp)
Y obtenemos:
data: kev
D = 0.087038, p-value = 0.4286
alternative hypothesis: two-sided
Si ejecutamos ks.test(kev, pnorm)$statistic, obtenemos solo el valor del estadístico:

0.08703787
27
Ejemplo: Contrastar a nivel α = 0.01 si la muestra X1 = 16, X2 = 8, X3 = 10, X4 =
12, X5 = 6 procede de una distribución exponencial de media 11.5.
Sea X una v.a con distribución exponencial, tiene función de distribución:
F0 (X) = 1 − e−λx si x ≥ 0
Y sabemos que E(X) = λ1 . De esto, sacamos que en nuestro caso λ = 1

11.5
X(i) i/n F0 (X(i) ) Dn+ Dn−

6 0.2 0.41 -0.21 0.41
8 0.4 0.5 -0.1 0.3
10 0.6 0.58 0.02 0.18
12 0.8 0.65 0.15 0.05
16 1 0.75 0.25 -0.05
Así, nos queda que Dn = 0.41.
Y mirando en la tabla de la exponencial con nivel de significación α = 0.01, tenemos que c=
terminar ejercicio
4. Gráficos de probabilidad
iid iid
Sean X1 , ..., Xn ∼ F ⇒ F (X1 ), ..., F (Xn ) ∼ U (0, 1). Si ordenamos las F nos quedan
los estadísticos de orden de una U (0, 1): F (X(1) ), ..., F (X(n) ).
Por tanto, si tengo una muestra de tamaño 2, entonces la media sería que F del dato
más pequeño F (X(1) ) sea 13 y que el dato más grande F (X(2) ) sea 23 . Ya que hemos
estimado que F sigue una distribución uniforme en [0, 1].
De la misma forma, si hay n datos, la media sería que el dato mínimo se encuentre
1 n
en n+1 y el dato máximo en n+1 .
En definitiva, tenemos que la media del valor de F del dato i-ésimo es:
i
E(F (X(i) ) ≈
n+1
i
Es decir, tendríamos que F (X(i) ) ≈ n+1 y por tanto, debería ocurrir que X(i) ≈
−1 i
F ( n+1 ). Si esto ocurre, tendríamos una gráfica que representaría la recta y=x, en el
eje de ordenadas tendríamos F −1 ( n+1
i
) y en el eje de abscisas tendríamos X(i) . La idea
iid
es que si esto ocurre los datos vienen de una normal, es decir: X1 , ..., Xn ∼ F = N (µ, σ).
Además, sea Φ ∼ N (0, 1). Sea F (X) = Φ( x−µ
σ ) entonces:
i i
X(i) = F −1 = σΦ−1 +µ
n+1 n+1
Se representa la gráfica:
i
X(i) , Φ−1
n+1
28
Si la gráfica es una recta, no necesariamente de pendiente 1, quiere decir que los
datos son normales.
Aquí tenemos 12 ejemplos:
5. Contraste χ2 de homogeneidad
Sean un conjunto de muestras tomados de diferentes lugares o contextos M1 , ..., Mp .

Cada conjunto de muestras seguirá una distribución F1 , .., Fp .
29
iid
M1 ≡X11 ....X1∩1 ∼ F1
..
.
iid
Mp ≡Xp1 ....Xp∩p ∼ Fp
lo de la intersección en Xp∩p que es?? No es un símbolo de intersección sino la

letra n, refiriendose a que el tamaño muestral de cada muestra puede ser diferente:
X1n1 , X1n2 , ..., X1np
Consideraremos como hipótesis nula: H0 : F1 = ... = Fp . Es decir, queremos ver si
las muestras tomadas de diferentes lugares siguen la misma distribución.
Dividimos los datos de cada conjunto de muestras en clases A1 , ..., Ak , todos los
conjuntos M1 , ..., Mp tendrán los mismos tipos de clases. Y consideramos las frecuencias
observadas: Oij = no de datos de Mj en Ai .
Llamamos tabla de contingencia a la siguiente tabla:
M1 ... Mp
A1 O11 O1p
..
. Oij
Ak Ok1 Okp
Cada elemento Oij de la tabla es el número de muestras de una clase para cada
conjunto de muestras. Queremos estimar este valor mediante una binomial (por que?
Porque una binomial Bin(n,p) modela el número de éxitos en n experimentos indepen-
dientes donde la probabilidad de éxito es p. En este caso, Oij es el número de observa-
ciones de la muestra j que caen en la clase i, que es lo mismo que el numero de éxitos
entre nj observaciones (las que hay en la muestra j) que caen en la clase i ). Así:
Oij,H0 ≡ B(nj , pi ) con pi = PH0 (Ai )
Pero desconocemos este valor PH0 (Ai ), por lo que lo tenemos que estimar.
Llamamos Ei j = nj pi frecuencia esperada bajo H0 .
Realizamos la siguiente operación El por qué es aún un misterio:
X X (Oij − Ei j)2 d
→ χ2p(k−1)
Eij
j i | {z }
| {z } pχ2k−1
χ2k−1
Queremos estimar p1 , ..., pk : Pp

j=1 Oij
p̂i =
n
Con n = n1 + ... + np , como tenemos homogeneidad, es como si tuviéramos n1 +
n2 + ... + np datos en total.
Ahora podemos calcular la esperanza estimada:
P
j Oij
Êij = nj p̂i = nj ·
n
Notación:
30
P
j Oij = Oi·
P
j Oij = nj = O·j
Por tanto:
Oi· O·j
Êij =
n
Y ahora hacemos una tabla parecida a la anterior pero con las esperanzas estimadas:
M1 ... Mp
A1 Ê11 Ê1p
..
. Êij
Ak Êk1 Êkp
Ahora con los estimadores obtenidos:
X X (Oij − Êij )2 d
→ χ2(p−1)(k−1)
i j Êij
Como podemos observar, la χ2 no es de p(k − 1) como antes sino que es de p(k −

1) − (k − 1), los últimos k − 1 son el no de parámetros estimados. Ya que estimamos
p̂1 , ..., p̂k , pero con la condición p̂1 + ... + p̂k 1.
La región de rechazo quedaría:
R = {T > χ2(k−1)(p−1),α }
Observación: Se puede comprobar que:

p
k X
X Oij
T = −n
Eij
i=1 j=1
Y antes dónde habíamos definido T??
Ejemplo: Tenemos 3 muestras, una de España, otra de Italia y otra de Francia, todas de
tamaño n = 100.Las clases son ’no fumadores’ (NF), ’fumadores ocasionales’ (FO) y ’fumadores
habituales’ (FH).
Tenemos la siguiente tabla de contingencia:
M1 =España M2 =Italia M3 =Francia

A1 =NF O11 = 30 O12 = 15 O13 = 20 O1· = 65
A2 =FO O21 = 50 O22 = 40 O23 = 50 O2· = 140
A3 =FH O31 = 20 O32 = 45 O33 = 30 O3· = 95
O·1 = n1 = 100 O·2 = n2 = 100 O·3 = n3 = 100 300
Recordamos la fórmula de la esperanza estimada:
P
j Oij Oi· O·j
Êij = nj · =
n n
31
Vamos a calcular la esperanza estimada Ê12 es decir, la de Italia y no fumadores:
P3
j=1 O1j 30 + 15 + 20 _
Ê12 = n2 p̂1 = n2 · = 100 · = 21, 6
n 300
Así, la tabla de esperanzas quedaría:
España Italia Francia

_ _ _
NF Ê11 = 21, 6 Ê12 = 21, 6 Ê13 = 21, 6 65
_ _ _
FO Ê21 = 46, 6 Ê22 = 46, 6 Ê23 = 46, 6 140
_ _ _
FH Ê31 = 31, 6 Ê32 = 31, 6 3Ê33 = 31, 6 95
100 100 100 300
Ahora calculamos el estadístico T:
p
k X
X Oij
T = −n=
Eij
i=1 j=1
30 15 20 50 40 50 20 45 30
_ + _ + _ + _ + _ + _ + _ + _ + _ =9
21, 6 21, 6 21, 6 46, 6 46, 6 46, 6 31, 6 31, 6 31, 6
No sale lo esperado, revisar y terminar

La región de rechazo es:
R = {T > χ2(k−1)(p−1),α }
En nuestro caso, suponiendo un nivel de significación α = 0.05:
R = {T > χ2(3−1)(3−1),0.05 } ⇒ R = {T > χ24,0.05 } ⇒ R = {T > 9.488}
6. Contraste Kolmogorov-Smirnov de homogeneidad
Este contraste sólo es válido para dos muestras, y para distribuciones continuas. Al
igual que antes queremos ver que las dos muestras tienen la misma distribución.
iid iid
Así, tenemos X1 , ..., Xn ∼ F y Y1 , ..., Yn ∼ G, con F y G continuas. La hipótesis
nula será H0 : F = G, es decir, los datos de la primera muestra están distribuidos con
la misma función de distribución que los datos de la segunda muestra.
Para ello calculamos el estadístico K-S para dos muestras:

Dn,m = kFn − Gm k∞ = sup Fn (x) − Gm (x)
x∈R
Bajo H0 la distribución Dn,m no depende de F=G y está tabulada.

R = Dn,m > Cα
32
7. Contraste χ2 de independencia
iid
Sea (X1 , Y1 ), ..., (Xn , Yn ) ∼ F . Y sea la hipótesis nula H0 : X e Y son independientes.
terminar esto en otro momento que no lo veo muy claro
33
Capítulo III
Regresión
El objetivo de la regresión es predecir una/s variable/s en función de la/s otra/s.
1. Regresión lineal
Observamos dos variables, X e Y , el objetivo es analizar la relación existente entre

ambas, de forma que podamos predecir o aproximar el valor de la variable Y a partir
del valor de la variable X.
La variable Y se llama variable respuesta.
La variable X se llama variable regresora o explicativa.
Por ejemplo:
34 de 117
Queremos predecir el fracaso escolar en función de la renta. La variable respuesta
es el fracaso escolar, mientras que la variable regresora es la renta.
1.1. Regresión lineal simple
Frecuentemente existe una relación lineal entre las variables. En el caso del fracaso
escolar,queremos construir una recta Yi = β0 Xi + β1 i = 1, ..., n que minimice el error.
El problema es estimar los parámetros β0 , β1 . Una manera de hacer esto es:
1.1.1. Recta de mínimos cuadrados
Recta de mí- Definición 1.1 Recta de mínimos cuadrados. Estimando βi por β̂i obtenemos:
nimos cua-
drados Ŷi = β̂0 + β̂1 xi
La reca viene dada por los valores βˆ0 , βˆ1 para los que se minimiza el error cuadrático, es
decir:
Xn 2 X n h i2
Yi − Ŷi = Yi − (βˆ0 + βˆ1 xi )
i=1 i=1
Ejemplo:
35
Cómo calcular la pendiente de la recta de mínimos cuadrados.
Vamos a ver unas pocas maneras de calcular la recta de mínimos cuadrados.
El sistema habitual:
Pn
(x − x̄)(Yi − Ȳ ) Sxy
βˆ1 = Pn i
i=1
2
=
i=1 (xi − x̄) Sxx
Donde
n
X
Sxy = (xi − x̄)(Yi − Ȳ )
i=1
n
X
Sxx = (xi − x̄)2
i=1
β0 = Ȳ − β1 x̄
Entonces:
Sxy
recta ≡ y − ȳ = (x − x̄)
Sxx
Mínimos cuadrados como promedio de pendientes:
n n
! !
S (x − x̄) 2 (Y − Ȳ ) (Yi − Ȳ )
xy i i
X X
βˆ1 = = = ωi
Sxx Sxx xi − x̄ xi − x̄
i=1 i=1
Vemos que hemos ponderado la pendiente de cada recta que une cada punto con
la media. Este peso es mayor cuanto mayor es la distancia horizontal.
Mínimos cuadrados como promedio de respuestas:
Pn
− x̄)(Yi − Ȳ ) X
i=1 (xi
βˆ1 = = α i Yi
Sxx
Es interesante ver unas propiedades de estos αi
P
Proposición 1.1. αi = 0
P
αi xi = 1
αi = S1xx
P 2
Demostración. Por hacer
Residuo Definición 1.2 Residuo. En una recta de mínimos cuadrados: Sea yi = β1 xi − β0 y sea
ŷi = β̂1 xi − β̂0 , llamamos residuo a
ei = yi − ŷi
Los residuos cumplen:
n
X
ei = 0
i=1
Esto es intuitivo, ya que los errores se compensan y además es una buena propiedad.
36
Proposición 1.2. Sean {ei } una variable aleatoria que cumple 1 :
X
ei = 0
Entonces: X
ei xi = 0 =⇒ cov ( e, x) = 0
Demostración. X X
(ei − µ)xi = (ei − µ)(xi − x)
Por otro lado:
X X X X
ei xi = ei xi − x ei = ei (xi − x)
Ejemplo:
X X X X (1) X
(xi − x)(yi − y) = (xi − x)yi − y (xi − x) = (xi − xyi )
X
(1) → (xi − x) = 0
Esto tiene la siguiente explicación “intuitiva”: La recta de mínimos cuadrados con-

tiene toda la información lineal que X puede dar sobre Y (debido a que la covarianza
entre los residuos y X es 0).
1.1.2. Fallos de la recta de mínimos cuadrados
Vamos a ver un par de ejemplos ilustrativos:
Ejemplo: Sobre los datos atípicos Esta es una recta de mínimos cuadrados calculada para
una nube de puntos a la que se ha añadido un punto atípico. Se ve una cierta tendencia de que
la pendiente debería ser positiva, pero el dato atípico provoca un cambio brusco.
1
Se ha utilizado la e porque es útil en cuanto a los residuos de la recta de mínimos cuadrados
37
Ejemplo: Sobre la distancia horizontal ¿Y da igual lo atípico que sea un dato? La res-
puesta es que no. Si el dato es muy atípico en la variable respuesta (Y ), pero es muy típico en la
variable regresora, la recta no se devía tanto. Vamos a verlo y después explicamos la razón.
Esta es la recta, en la que hemos ignorado los 3 datos que parecen “atípicos”.
38
Ahora calculamos las rectas teniendo en cuenta sólo uno de los puntos.
Vemos que la recta azul no se desvía apenas de la original, mientras que la recta verde si
se desvía un montón. ¿Esto a qué se debe? A que importa más la distancia horizontal de la
media que la distancia vertical. Si vamos a la expresión de la recta de mínimos cuadrados como
−x)
promedio de las pendientes vemos que hay un término (xSi xx que hemos tomado como pesos para
ponderar y en este caso, la distancia horizontal (xi − x) está multiplicando en el numerador.
1.1.3. Introduciendo “aleatoreidad” para poder hacer IC
Sea {εi } siendo εi ∼ N (0, σ 2 ). Lo habitual es no saber cómo han sido generados
los datos y es probable que no vayamos a conocer con exactitud absoluta la recta de
mínimos cuadrados. Es por ello que suponemos el siguiente modelo para la variable
respuesta:
Yi = β1 xi + β0 + εi
Tenemos que ȳi ∼ N , ya que es una combinación lineal de variables normales inde-
pendientes (como vimos en el Tema 1).
Ejemplo: Sea σ = 1, β0 = 0yβ1 = 1.

Entonces el modelo es:
Yi = xi + εi
Fijamos n = 10 y generamos las respuestas para xi = i. Además, repetimos el experimento

6 veces y calculamos las rectas de mínimos cuadrados, obteniendo:
39
Vemos que obviamente las rectas no son las mismas. Esto se debe al εi introducido. ¿Cuáles
son los valores que toman β1 y β0 ? Habiendo repetido el experimento 1000 veces, obtenemos los
siguientes histogramas:
Vemos que no siempre es el mismo valor. Sabemos (por cómo hemos construido los datos)
que β0 = 0 y β1 = 1, pero nuestra manera de calcularos (debido a εi ) no siempre nos da el valor
concreto.
El ejemplo anterior nos muestra que en realidad, estamos estimando βi , aunque no
nos guste y ahora tenemos que planternos ¿cómo de buenos son nuestros estimadores?
Tal vez son una mierda, o tal vez son insesgados.
Para ello, vemos que al haber añadido un error εi ∼ N (0, σ 2 ), tenemos:
Yi = β0 + β1 x + εi =⇒ Yi ≡ N (β0 + β1 Xi , σ 2 )
1.1.4. Estimando β1
Proposición 1.3. Nuestro estimador “pendiente de la recta de mínimos cuadrados:” βˆ1 cumple
!
σ2
βˆ1 ≡ N β1 ,
Sxx
40
Demostración. Él en clase lo ha hecho al revés. Muchos cálculos para llegar a la con-
clusión, pero aquí molamos más. En algún momento revisará alguien los apuntes y
completará.

E βˆ1 = β1
σ2
V βˆ1 = ... =
Sxx
1.1.5. Estimando β0
Proposición 1.4. Nuestro estimador “término independiente de la recta de mínimos cuadra-

dos:” βˆ0 cumple
 !
1 x2
βˆ0 = N β0 , σ 2 + 
n Sxx
Demostración.

E βˆ0 = β0

V βˆ0 = V Y + V βˆ1 X − 2cov (Y , βˆ1 X

Calculamos: cov (Y , βˆ1 X utilizando cosas del tema 1
!
10 Y 1 0 2
cov (Y , βˆ1 X = cov ( n , αY = 1 σ
n n n
debido a que α = 0.
Ademas de ser incorrelados, son independientes. ¿Porqué? Porque conjuta-
mente son normales, es decir
 
Y 
  ≡ AY ≡ N2
βˆ1
Conclusiones:
Y es indepediente de βˆ1
!
σ 2
βˆ1 ≡ β1 ,
Sxx
 !
1 x 2
βˆ0 ≡ β0 , σ 2 + 
n Sxx
41
¿Son estas las variables βˆ1 y βˆ2 normales una normal conjunta? No, no son una
normal conjunta ya que no son independientes. Intuitivamente es fácil de ver. En una
recta, si aumentamos la pendiente (y estamos en el primer cuadrante) entonces el tér-
mino independiente disminuye. Esta dependencia tiene que aparecer. Vamos a estudiar
la covarianza entre los estimadores:
σ2
cov (β1 , β2 = cov (Y − βˆ1 x, βˆ0 = ... = −x

Sxx
1.1.6. IC y Contrastes para β1
Recordamos que !
σ2
β̂1 ≡ N β1 ,
Sxx
Podemos normalizar y buscar una catidad pivotal (como hacíamos en estadística I)
βˆ1 − β1
σ ≡ N (0, 1)
Sxx
Pero aquí nos encontramos con que necesitamos σ, la varianza de los errores. Esta
varianza a menudo no es conocida (porque no sabemos con exactitud cuál es la recta
verdadera) y tenemos que estimarla.
Para estimarla, parece razonable usar
Pn 2
i=1 ei
σ̂ = SR =
n−2
Explicación: Recordamos que para que estimar la varinza, utilizamos (por el lema de
fisher) n − 1 de denominador para que el estimador sea insesgado. Esto sale de que
en la demostración, hay una matriz de rango n − 1 ya que existe una restricción.
Siguiendo este razonamiento, en este caso tenemos 2 restricciones2 , por lo que si
lo demostráramos rigurosamente, aparecería una matriz de rango n − 2 y por eso es
el denomiador. De esta manera, conseguimos un estimador insesgado.
Varianza re- Además, SR se denomina varianza residual

sidual
Proposición 1.5. Una pequeña generalización del lema de Fisher:
2
(n − 2)SR
≡ χ2n−2
σ2
Además, es independiente de βˆ1

Demostración. Esta proposición es un caso particular de un teorema que veremos
más adelante.
Ahora que ya tenemos estimada la varianza, podemos calcular:
βˆ1 − β1 βˆ1 − β1
= √σ
√SR Sxx
Sxx
SR
σ
42
En el numerador tenemos una N (0, 1) y en denominador una χ2 dividida por sus
grados de libertad. Esto es por definición de T 3 es una T (T-Student) con n − 2 grados
de libertad.
Proposición 1.6. Ahora que conocemos la distribución, podemos calcular el intervalo de con-
fianza para la pendiente de la recta.
No entiendo nada de esto.

S R S R
IC1−α (β1 ) ≡ βˆ1 ± Tn−2, α2 √ ≡ Y ± Tn−1, α2 √
Sxx n
1.1.7. Contraste en R
> # Ajusta el modelo

> regresion = lm ( Fracaso ~ Renta )
> summary ( regresion )
> lm ( formula = Fracaso ~ Renta )

Residuals : Min 1Q Median 3 Q Max
-7.8717 -3.7421 0.5878 3.0368 11.5423
---
Coefficients : Estimate Std . Error t - value Pr ( >| t |)
( Intercept ) 38.4944 3.6445 10.562 7.37 e -10 * * *
Renta -1.3467 0.2659 -5.065 5.14 e -05 * * *
---
Signif . codes : [...]
Residual standard error : 4.757 on 21 degrees of freedom
Multiple R - Squared : 0.5499 ,
Adjusted R - squared : 0.528
Aquí, la fila de intercept es el término independiente y renta es la pendiente. Ade-

más, los p-valores son para el contraste β̂i = 0, dentro de la hipótesis βi ≥ 0. 4 .
En este caso, el p-valor para βˆ1 = 7.37e − 10, con lo que no podemos rechazar la
hipótesis.
1.1.8. Predicciones
Sea (x1 , y1 ), ..., (xn , yn ) → yi = β0 + β1 xi + εi .

Dado una nueva observación x0 , tenemos 2 problemas para predecir:

Inferencia sobre m0 ≡ E y0 |x0 = β0 + β1 x0
En este caso,
m̂0 = βˆ0 + βˆ1 x0
¿Cómo es este estimador?
E (m̂0 ) = β0 + β1 x0 = m0
3
T de Student
4
Si queremos contrastar si es positivo, nos vamos al caso límite que lo separa y contrastamos eso
43
" #
2 1 (x0 − x̄)2
V (m̂0 ) = ... = σ +
n Sxx
Intuitivamente, lo que significa el segundo sumando de la varianza es que

“cuanto más cerca esté x0 de la media, mejor será la estimación”.
Conclusión:
 " #
1 (x0 − x̄)2
m̂0 ∼ N m0 , σ 2 + 
n Sxx
Intervalo de confianza para m0 utilizando la fórmula de intervalos de con-

fianza:
 s 
1 (x − x)2
IC1−α (m0 ) ≡ m̂0 ± Tn−2, α2 SR + 
n Sxx
Predecir Y0 usamos de nuevo:

 !
1 (x − x)2
Yˆ0 = βˆ0 + βˆ1 x → Y0 − Y ≡ N 0, σ 2 1+ + 
n Sxx
Donde la varianza ha sido calculada:
!
1 (x − x)2
V Y0 − Yˆ0 = V (Y0 ) −V Yˆ0 + 2cov Y0 , Yˆ0 = σ 2 + σ 2 +
| {z } n Sxx
2
| {z }
σ
=0 (indep.)
Este es un problema más complicado, ya que tenemos que tener en cuenta el tér-
mino de error εi y es por esto que aparece el 1 en la varianza. Tenemos que tener
en cuenta la incertidumbre.
Estandarizando y cambiando σ por S, tenemos:
Y − Yˆ0
q 0 ≡ Tn−2
2
Sr 1 + n1 + (x−x)
Sxx
Ya que tenemos una normal estandarizada dividida por su .... que por definición,
es una T de student.
Intervalo de Ahora, vamos a construir el intervalo de predicción (cambia ligeramente la inter-
predicción pretación)
( )  " #
Y0 − Yˆ0
r
 1 
1−α = P −Tn−2; α2 < < Tn−2; α2 = P Y0 ∈ Yˆ0 ± Tn−2; α2 SR 1 + + ...
...  n 
Ahora vamos a hacer unos ejemplos numéricos.
44
Ejemplo: Seguimos con el ejemplo de la renta.
media desviación típica

% fracaso 20.73 6.927
renta 13.19 ·103 3.814
f) IC para β1 de nivel 95 %.
g) IC para % de fracaso medio si la renta es de 14.000 euros.
A PARTADO H )
−1.3467 ± T21;0.025 · (0.2659)
Donde el −1.3467 es el estimador m0 que obtenemos de la salida de R. Lo mismo el 0.2659,

que es el error típico.
A PARTADO I )
Y0 = 38.49 − (0.3467) · |{z}

14 = 19.64 %
x0
Siendo este el estimador, vamos a construir el intervalo de confianza. 5

s
1 (14 − 13.19)2
IC = 19.64 ± (2.06)(4.757) +
23 Sxx
Donde Sxx = 320.06 y podemos calcularlo despejando de cualquiera de las fórmulas:
2
SR
E.T.(β1 ) =
Sxx
Sxx
6. =
n−1
Observación: Todos estos cálculos y todas estas fórmulas se basan en muchas hipótesis
(como que la distribución del error sigue una distribución normal). Pero podría ser que
esto no ocurriera y estuviéramos suponiendo un modelo falso. Para ello, en estadística
Diagnóstico existe el Diagnóstico del modelo. Este diagnóstico, consiste en comprobar si las hipó-
del modelo tesis del modelo son aceptables para los datos disponibles. ¡Ojo! Aceptable... Puede
haber muchos modelos aceptables para un mismo conjunto de datos.
Este diagnóstico se suele basar en el análisis de los residuos del modelo.
Ejemplo: Vamos a ver a ojo unos cuantos ejemplos. Vamos a utilizar que core, y = 0 bajo el
modelo (como calculamos anteriormente)
5
Podría ser que nos pidieran el intervalo de predicción, pero en ese caso estarían pidiendo el intervalo
de ...... para predecir.
45
De estos 4 gráficos, el bueno es el primero, ya que los demás no complen alguno.
Ejemplo: Vamos a ver otro ejemplo, donde arriba están los datos y abajo los residuos. Mirando
sólo la fila de arriba podríamos saber si nuestro modelo para la regresión se cumple o sino.
46
Vemos que el primero y el último si tienen este modelo como aceptable, ya que en los residuos
no hay ningún patrón (y se cumple que la correlación es 0).
En el segundo, podríammos suponer que es bueno, pero al diagnosticar el modelo mirando
los residuos, vemos que no. El diagnóstico del model magnifica los errores.
En el cuarto, vemos más claro que es heterocedástico y que no se cumple el modelo supuesto.
En regresión múltiple veremos que no podemos ver los datos, ya que son demasia-
das variables, pero sí podemos estudiar los residuos como acabamos de hacer en los
ejemplos anteriores.
1.2. Regresión lineal múltiple
El ejemplo que vamos a estudiar en regresión múltiple es el consumo de gasolina en

EEUU intentando predecirlo a partir de unas cuantas variables. Las variables regresoras
son:
State Drivers FuelC Income Miles MPC Pop Tax

AL 3559897 2382507 23471 94440 12737.00 3451586 18.0
AK 472211 235400 30064 13628 7639.16 457728 8.0
AZ 3550367 2428430 25578 55245 9411.55 3907526 18.0
47
1.2.1. Notación
n es el número de observaciones, en este caso, el número de estados.
k es el número de atributos.
εi ∼ N (0, σ 2 )
n ≥ k + 2: esta hípótesis es muy necesaria.6
Regresión simple es un caso particular de múltiple, tomando k = 1.
1.2.2. Modelo
El modelo es:
Completar de las traspas
Podemos agruparlo en forma matricial:
Recordamos que en el tema 1 vimos unas cuantas formas cuadráticas útiles para nor-
males multivariantes con matriz de variazas σ 2 In y media arbitraria.
¿Cómo estimarías β a partir de Y y X?
Podemos hacer la proyección de Y sobre V
Con esto, parece razonable estimar µ mediante la proyección ortogonal de T sobre
V para obtener Y = Xβ. Equivalentemente: ||Y − Xβ||2 ≤ ||Y − Xβ||2 , ∀β ∈ Rk+1
completar cosas que faltan
Resumen Si
Y ≡ Nn (Xβ, σ 2 In )
entonces, la proyección sobre _______ es:
Ŷ = X β̂ = HY
donde H = X(X 0 X)−1 X −1 . Además,
β̂ = (X 0 X)−1 X 0 Y
Esto tiene como consecuencia que el vector de residuos es: e = Y − Ŷ = (I − H)Y

En cuanto a la interpretación geométrica, los residuos es la recta vertical que une la
proyección (Ŷ ) con el vector real (Y ).
6
En la estadística, habría que rehacer el modelo para cuando k > n. ¿Y cuándo k > n? ¿Cuándo
puede ocurrir esto? Cada vez más hay más información para cada individuo. En estudios genéticos por
ejemplo, que hay millones de genes pero no se pueden hacer el estudio con millones de personas... LA
MALDICIÓN DE LA DIMENSIONALIDAD que decimos en Introducción previa a los Fundamentos
Básicos del Aprendizaje Automático.
Una posible solución al problema es un algoritmo que filtre los atributos que son importantes.
48
1.2.3. Distribución de β̂

β ≡ Nk+1 β, σ 2 (X 0 X)−1
Y la regresión simple, es un caso particular de esta fórmula.
Consecuencias:
¿Cuál es la distribución marginal de βˆj a partir de la que hemos visto de la con-

junta? Como vimos en el tema 1, es también una normal, con el correspondiente
valor del vector β como media y el elemento j, j de la diagonal.

βj ≡ N βj , σ 2 qjj
Ahora, podemos estandarizar:
βˆj − βj
√ ≡ N (0, 1)
σ qjj
Y utilizando que SR es independiente de σ y la definición de t−student tenemos:
βˆj − βj
√ ≡ Tn−k−1
SR qjj
¿Cuál es el intervalo de confianza?

 

ˆ √ 
ICn−α (βj ) ≡ 
βj ± Tn−k−1 SR qjj 

| {z }
Error típico de βj
Y, como en regresión simple, estudiamos H0 : βj = 0:

( )
|βj |
R= √ > Tn−k−1; α2
SR qjj
En las traspas encontramos una salida de regresión múltiple de R. La columna esti-

mate es el vector β̂, el p-valor
49
Apéndice A
Ejercicios
A.1. Hoja 1
Ejercicio 1.1: Sea Y = (Y1 , Y2 , Y3 )0 ≡ N3 (µ, Σ), donde

 
1 0 0
0
 
µ = (0, 0, 0) Σ =  0 2 −1

 
0 −1 2
a) Calcula la distribución del vector X = (X1 , X2 ), donde X1 = Y1 + Y3 y X2 =

Y2 + Y3 .
b) ¿Existe alguna combinación lineal de las variables aleatorias Yi que sea independiente
de X1 ?
Hecho por Dejuan. Se aceptan correcciones.

A PARTADO A )
 
Y1 
     
X1  Y1 + Y3  1 0 1  
 = = Y2 
 
X2 Y2 + Y3 0 1 1  
Y3
Ya tenemos la matriz A que cumple X = AY. Utilizando las propiedades de espe-

ranza y varianza (??):
 
0
  
1 0 1   0
E (X) = E (AY) = AE (Y) =  0 =  

0 1 1   0
0
50 de 117
  
1 0 0  1 0 
   
1 0 1   3 1
V (X) = E (AY) = AΣA0 = 

0 2 −1 0 1 = 
  
0 1 1    1 2
0 −1 2 1 1
Conclusión:      
X1  0 3 1
  ≡ N1 
  ,  

X2 0 1 2
A PARTADO B )
Llamos Z = a1 Y1 + a2 Y2 + a3 Y3 .
Estas variables serán independientes si se distribuyen conjuntamente como una nor-
mal multidimensional y si cov (Z, X1 ) = 0.
Vamos a ver la covarianza. Utilizando la propiedad definida en ??, tenemos que
cov (a1 Y1 + a2 Y2 + a3 Y3 , X1 ) = cov (AY, BY)
Siendo A = (a1 , a2 , a3 ) y B = (1, 0, 1)

Entonces   
1 0 0  1
  
cov (AY, BY) = (a1 , a2 , a3 ) 
0 2 −1 0
 
  
0 −1 2 1
Operando obtenemos cov (AY, X1 ) = a1 − a2 + 2a3 .

Ahora sólo hace falta ver que se distribuyen conjuntamente como una normal bi-
variante. Esto lo tenemos asegurado, pues “El vector se distribuye normalmente porque lo
podemos escribir en la forma AY, para una matriz A.”1
Ejercicio 1.2:
Sea X = (X1 , X2 , X3 ) un vector aleatorio con distribución normal tridimensional con
vector de medias µ = (0, 0, 0) y matriz de covarianzas
 
 4 0 −1
 
Σ= 0 5 0

 
−1 0 2
a) Determina razonadamente cuáles de los siguientes pares de variables o vectores alea-

torios son independientes y cuáles no:
1
Cito textualmente de un correo envíado por José Ramón, profesor de la asignatura
51
(i): X1 y X2
(ii): (X1 , X3 ) y X2
(iii): X1 y X1 + 3X2 − 2X3
b) Determina una matriz B tal que la variable aleatoria (X2 , X3 )B(X2 , X3 )0 tenga
distribución χ22 .
A PARTADO A )
(i) X1 y X2 son independientes porque son marginales de una distribución multi-
variante conjunta y tienen covarianza 0 (elemento a12 de la matriz)
(ii) X1 y X2 son independientes porque son marginales de una distribución multiva-
riante conjunta y tienen de matriz de covarianzas el vector idénticamente nulo. Vamos
a verlo, aunque para ello construimos Z = (X1 , X3 , X2 ), cuya matriz de covarianzas es:
 
 4 −1 0
 
Σz = −1 5 0

 
0 0 2
   
cov (X1 , X2 ) 0
Entonces cov (X1 , X3 )0 , X2 =  = 
cov (X3 , X2 ) 0
(iii) X1 y X1 + 3X2 − 2X3 . Utilizamos: cov (X1 + 3X2 − 2X3 , X1 ) = cov (AX, BX) =
AΣB 0 = BΣA0
  
 4 0 −1 1
  
cov (X1 + 3X2 − 2X3 , X1 ) = (1, 3, −2) 
 0 5 0  0 = ... = 6
 
  
−1 0 2 0
Como la covarianza no es cero, entonces existe una relación lineal entre las variables
y por ello no son independientes.
A PARTADO B )
Una χ2k es la distribución que tiene la suma de variables normales estandarizadas al
cuadrado. Los k grados de libertad corresponden a la cantidad de variables normales
que sumamos.
Vemos que si tomamos B = I, obtenemos:
  
1 0 X2  2 2
(X2 , X3 )     = X2 + X3
0 1 X3
Ya tenemos la suma los cuadrados de normales. Ahora sólo falta que estén estanda-
rizadas, es decir que Xi ∼ N (0, 1).
Ya están centradas en 0, con lo que sólo falta dividir por la varianza, es decir:
52
  
1
5 0  X2  1 2 1 2 2 2
(X2 , X3 )     = X2 + X3 = Z2 + Z3
0 1
X3 5 2
2
donde 2
1 X
Z2 = X22 = √2 → Z2 ∼ N (0, 1)
5 5
2
1 X
Z3 = X22 = √2 → Z3 ∼ N (0, 1)
2 2
Ejercicio 1.3: Sea (X, Y ) un vector aleatorio con distribución normal bidimensional.
Tanto X como Y tienen distribución normal estándar. La covarianza entre X e Y es ρ,
donde |ρ| < 1.
a) Determina cuál es la distribución del vector (2X − 3Y, X + Y ).
b) Determina cuál es la distribución de la variable (X 2 − 2ρXY + Y 2 )/(1 − ρ2 ).

A PARTADO A )
Llamamos   
2 −3 X 
C=  
1 1 Y
Tenemos que calcular E (C) , V (C). Para ello, utilizamos las fórmulas de siempre
    
 X  0
0 0
E (C) = E 
A   = AE (X, Y ) = A(0, 0) =  

Y 0
   
2 −3 1 ρ  2 1
V (C) = V C(X, Y )0 = CΣC 0 = 

  
1 1 ρ 1 −3 1

La distribución del vector (X, Y ) ∼ N2 E (C) , V (C)
A PARTADO B )
Sea
Zn (X 2 − 2ρXY + Y 2 )
Z= =
Zd (1 − ρ2 )
Vemos que
   
a b  X  a=d=1


2 2
Zn = (X, Y )     = aX +cXY +bXY +dY =⇒
c d Y  c + b = −2ρ → c = b = −ρ

53
Ahora, dividimos todo por Zd . ¿Qué hemos obtenido?
 
1  1 −ρ
1 − ρ2 −ρ 1
 
Casualmente, esta matriz es la inversa de Σ

     
1 ρ 1  1 −ρ 1 0
2  =
ρ 1 1−ρ
  
−ρ 1 0 1
Con lo que
Z = (X, Y )Σ−1 (X, Y )0 = (X − 0, Y − 0)Σ−1 (X − 0, Y − 0)0 ∼ χ22
Ejercicio 1.4: Sean Y1 e Y2 dos variable aleatorias independientes con distribución

normal estándar.
a) Demuestra que el vector Y = (Y1 , Y2 ) tiene distribución normal bidimensional y
calcula la distribución del vector X = (2Y1 + Y2 , Y2 − 2Y1 ).
b) ¿Son las dos distribuciones marginales de X independientes? Determina una matriz
B tal que X 0 BX tenga distribución χ2 con 2 grados de libertad.

Revisado por Jorge. Se siguen aceptando correcciones
A PARTADO A )
Hecho por Jorge. Se aceptan correcciones.
Tomemos la función característica del vector aleatorio que tiene ambas v.a. Y =
(Y1 , Y2 ):
0
ϕY (t) = E(eit Y ) = E(eit1 Y1 +it2 Y2 ) =
Puesto que Y1 , Y2 son independientes:
t2
1 t2
2 t2 2
1 +t2
= E(eit1 Y1 ) · E(eit2 Y2 ) = ϕY1 (t1 ) · ϕY2 (t2 ) = e− 2 · e− 2 = e− 2
Que coincide con la función característica de una normal bidimensional Y ∼ N2 (0, I).
El vector de n normales independientes se distribuye normalmente. En este caso,
como Y1 , Y2 son normales independientes, (Y1 , Y2 ) ∼ N (µ, Σ), donde:
   
0 1 0
µ=  Σ= 
0 0 1
54
    
X1  2 1  Y1 
X = (2Y1 + Y2 , Y2 − 2Y1 ) →   =   
X2 1 −2 Y2
Entonces, vamos a calcular la distribución de X

 
0
E (X) = E (AY) = AE (Y ) =  
0
 
 5 −3
V (X) = V (AY) = AV (Y) A0 = AA0 = AA =  
−3 5
A PARTADO B )
Xi ∼ N (0, 5). Además, corr (X1 , X2 ) 6= 0.
Por tanto no son independientes debido a que la correlación entre ambas no es cero.
Sabemos que una χ22 es la suma de dos normales estandarizadas al cuadrado Σ−1/2 (X−
µ) = Y ∼ N2 (0, I):
µ=0
χ22 = Y12 + Y22 = Y 0 Y = (X − µ)0 Σ−1/2 Σ−1/2 (X − µ) = X 0 Σ−1 X
Por tanto la B que pide el enunciado no es más que:

 −1
 5 −3
 
−3 5
Ejercicio 1.5:
Sea (X, Y ) un vector aleatorio con función de densidad

1 1 2
f (x, y) = exp x − 2xy + 2y 2
2π 2
a) Calcula la distribución condicionada de X dado Y = y, y la de Y dado X = x.
Mirando la función de densidad y comparándola con la de la normal, podemos

escribir:
     −1     
X  0  1 −1   0 2 1 
  ≡ N2    ,    ≡ N2 
  ,  
−1 2
  
Y 0 0 1 1
Aplicando las fórmulas vistas en teoría ??, nos damos cuenta de que tenemos que
calcular X2 |X1 y X1 |X2 , con lo que cada caso tendrá una pequeña variación en la fór-
mula:
55
1
E(X|Y = y) = µy + Σ12 Σ−1
22 (X − µx ) = 0 + (y − 0) = y
1
1 x
E(Y |X = x) = µx + Σ21 Σ−1
11 (Y − µy ) = 0 + (x − 0) =
2 2
Ejercicio 1.6: Sea X = (X1 , X2 ) un vector aleatorio con distribución normal bidi-
mensional con vector de medias (1, 1) y matriz de covarianzas
 
3 1
Σ= 
1 2
Calcula la distribución de X1 + X2 condicionada por el valor de X1 − X2 .
    
Z1  1 1  X1 
 =  
Z2 1 −1 X2
Entonces, calculando como siempre obtenemos:
    
Z1  2 7 1
  ≡ N2 
  ,  

Z2 0 1 3

Sabemos que la distribución va a ser normal, por lo que necesitamos E Z1 |Z2 y
V Z1 |Z2
Utilizando las fórmulas tenemos:
1 7
E Z1 |Z2 = µ1 + Σ12 Σ−1

22 (Z2 − µ2 ) = 2 + 1 (Z2 − 0) = Z2
3 3
1 20
V Z1 |Z2 = Σ11 − Σ12 Σ−1

22 Σ21 = 7 − 1 1 =
3 3
Entonces,

7 20
(Z2 |Z1 ) = (X1 + X2 |X1 − X2 ) ∼ N2 (X1 − X2 ),
3 3
Ejercicio 1.7: Sea X = (X1, X2, X3)0 un vector aleatorio con distribución normal
tridimensional con vector de medias (0, 0, 0)0 y matriz de covarianzas
 
 1 2 −1
 
Σ=  2 6 0 

 
−1 0 4
56
Definamos las v.a. Y1 = X1 + X3 , Y2 = 2X1 − X2 e Y3 = 2X3 − X2 . Calcula la
distribución de Y3 dado que Y1 = 0 e Y2 = 1.
Lo primero es descubrir la matriz de la combinación lineal y calcular la distribución,

esto es:
        
Y1  1 0 1 X1  0  3 −2 4 
        
Y  = 2 −1 0 X  ≡ N3  0 , −2 2 −2
2
     2  
       

  
0 −1 2 4 −2 22

Y3 X3 0
Ahora vamos a calcular las condicionadas. Sabemos que Y3 |Y1 = 0, Y2 = 1 ∼

N1 (µ2.1 , Σ2.1 ).
Hacemos la división:
 
 3 −2 4 
 
 Σ11 Σ12   
Σ= =
 −2 2 −2 

Σ21 Σ22  
4 −2 22
   −1  
Y1 − µ1   3 −2 0 − 0
E(Y3 |Y1 = 0, Y2 = 1) = µ2 + Σ21 Σ−1
11   = 0 + (4, −2)    
Y2 − µ2 −2 2 1−0
 −1  
 3 −2 4
V (Y3 |Y1 = 0, Y2 = 1) = Σ2 2 − Σ21 Σ−1
11 Σ12 = 22 − (4, −2)    
−2 2 −2
Terminando las cuentas: E(Y3 |Y1 = 0, Y2 = 1) = 1 y V (Y3 |Y1 = 0, Y2 = 1) = 16.

Entonces, la distribución de (Y3 |Y1 = 0, Y2 = 1) = N1 (1, 16)
Ejercicio 1.8: Sea Y = (Y1 , ..., Yn ) un vector normal multivariante

tal que las
coordenadas Yi tienen distribución N (0, 1) y, además, cov Yi , Yj = ρ, si i 6= j.
a) Escribe el vector de medias y la matriz de covarianzas del vector X = (Y1 + Y2 , Y1 −
)0
Y2 . ¿Son Y1 + Y2 e Y1 − Y2 dos variables aleatorias independientes?
b) Si Σ es la matriz de covarianzas de X, ¿cuál es la distribución de la variable aleatoria
Z = X 0 Σ−1 X?
c) Si ρ = 1/2, calcula la varianza de la media muestral Y = (Y1 + · · · + Yn )/n (en
función del tamaño muestral n).
57
Revisado por Jorge. Se siguen aceptando correcciones
A PARTADO A )
Tenemos:
 
 Y1 
   
 Y1 + Y2   1 1 0 . . . 0   .. 
X= =  . 

Y1 − Y2 1 −1 0 . . . 0  
Yn
El vector de medias es µ = E (AY) = AE (Y) = (0, 0)0

La matriz de covarianzas:
 
2 + 2ρ 0 
V (AY) = AV (Y) A0 = . . . =  
0 2 − 2ρ
Como corr (X1 , X2 ) = 0 y ambas variables vienen de un vector normal, concluimos

que son independientes.
Otra manera mucho más corta es utilizar la ??.
En este caso, A = (1, 1, 0, ..., 0) y B = (1, −1, 0, ..., 0). Como AB 0 = 0 =⇒ AY =
(Y1 + Y2 ) y BY = (Y1 − Y2 ) son independientes.
¿Boom?
A PARTADO B )
Una χ22 ya que estamos sumando 2 variables normales estandarizadas (se estanda-
rizan al tener la forma cuadrática Σ−1 y tener vector de medias nulo).
A PARTADO C )

1 1
Tenemos la matriz de combinación lineal A = n , ..., n . Como sólo nos piden la
varianza:
1
V (AY) = AV (Y) A0 = 2 1n Σ10n =
n
  
1 1
1 2 ... ... 2  1
  
1 1 12 . . . 12 
1  1 1 n(n + 1) n+1
 
2
(1, 1, ..., 1) . .. ..   .  = ... = 2 =
n2 n 2 2n

 .. . . .
 .
  
1 1
2 ... 2 1 1
n+1
V Y = V (AY) =
2n
58
Ejercicio 1.9: Demuestra que si X es un vector aleatorio con distribución Nk (µ, Σ),
entonces existen λ1 , ..., λk ∈ R+ y v.a.i.i.d. Y1 , ..., Yk con distribución χ21 tales que ||X −
µ||2 se distribuye igual que λ1 Y1 + · · · + λk Yk .
En particular, deduce que si Σ es simétrica e idempotente y µ = 0, entonces ||X||2 tiene
distribución χ2r donde r es la traza de Σ
Sabemos que Σ = CDC 0 con C una matriz formada por autovectores ortonormales.
Puesto que X − µ ∼ N (0, Σ) PODEMOS continuar de la siguiente forma:
Z = C 0 (X − µ) ∼ Nk (0, D)
k
X
kX − µk2 = (X − µ)0 (X − µ) = Z 0 C 0
|{z}C Z = Z 0Z = Zi2
I i=1
Ya que Zi ∼ N (0, λi ) con λi el elemento i-ésimo de la matriz diagonal D, se tiene

que:
Z2
Yi = i ∼ χ21
λi
Y por tanto ki=1 Zi2 = ki=1 λi Yi

P P
En el caso particular de que Σ sea simétrica e idempotente, sus autovalores son

λi = 0, 1, de modo que se pasa a tener (con µ = 0):
k
X r
X
kXk2 = Zi2 = Yi ∼ χ2r
i=1 i=1
Donde r es el número de autovalores λi = 1 de D, dicho número coincide precisa-

mente con el rango de Σ.
A.2. Hoja 2
Ejercicio 2.1: Calcula la distribución exacta bajo la hipótesis nula del estadístico de
Kolmogorov-Smirnov para muestras de tamaño 1.
La hipótesis sería H0 : F = F0 continua, con X ∼ F

En este caso,
D = ||F1 − F0 ||ı́nf = (1) = máx{F0 (x), 1 − F0 (x)}
(1) hay 2 posibles caminos. Al dibujar lo que nos dicen (una muestra de tamaño 1)
podemos sacarlo por intuición. Sino, aplicamos la fórmula de los estadísticos.
Ahora calculamos:

PF0 (D ≤ x) = PF0 = máx{...} ≤ x = PF0 = PF0 {1 − x ≤ F0 (x) ≤ x}
59

No entiendo porqué PF0 máx{...} ≤ x = {1 − x ≤ F0 (x) ≤ x} y no es {x ≤
F0 (x) ≤ 1 − x}
Resolvemos la desigualdad, aplicando que F0 es una uniforme.

1
0 x≤


2 1
P {1 − x ≤ U ≤ x} = =⇒ D ∼ U ,1
 2x − 1 x ≥
 1 2
2
1
Ya que 1 − x > x ⇐⇒ x ≤ 2
Ejercicio 2.2: Se desea contrastar la hipótesis nula de que una única observación
X procede de una distribución N(0,1). Si se utiliza para ello el contraste de Kolmogorov-
Smirnov, determina para qué valores de X se rechaza la hipótesis nula a nivel α = 0,05.
Este ejercicio está muy relacionado con el primero. Es una aplicación al caso de la
normal.
Mirando en la tabla, encontramos que para α = 0.05, entonces dα = 0.975. Con esta
inormación podemos construir la región crítica:

R = máx{Φ(x), 1 − Φ(x))} > 0.975 = {Φ(x) > 0.975} ∪ {1 − Φ(x) > 0.975} =
{X > Φ−1 (0.975)} ∪ {X < Φ−1 (0.025)}
Consultando las tablas, vemos que Φ−1 (0.025) = 1.96 y por simetría, Φ−1 (0.975) =
−1.96
R = {|X| > 1.96}
Observación: Es interesante saber que, al ser simétrica la normal, la interpretación grá-

fica es muy fácil. Si dividimos la normal en 3 intervalos,
(−∞, −1.96), (−1.96, 1.96), (1.96, ∞)
, el área encerrada en las colas es el nivel de significación, en este caso:

Area (−∞, −1.96) ∪ (1.96, ∞) = 0.05
Ejercicio 2.3: Da una demostración directa para el caso k = 2 de que la distribución

del estadístico del contrast χ2 de bondad de ajuste converge a una distribución χ21 , es decir,
(O1 − E1)2 (O2 − E2)2 d

T = + −−−→ χ21
E1 E2 n→∞
d
[Indicación: Hay que demostrar que T = Xn2 , donde Xn −−−→ N (0, 1). Para reducir
n→∞
los dos sumandos a uno, utilizar la relación existente entre O1, E1 y O2, E2.]
60
Si tenemos n datos, vamos a construir la tabla de contingencia. Creo que considera-
mos una binomial porque, al sólo tener 2 clases, o eres de una o eres de la otra con una
probabilidad p.
A1 A2
Obs np n(1 − p)
Esp np0 n(1 − p0 )
2
X (Oi − Ei )2 n2 (p − p0 )2 n2 (p − p0 )
T = = + = ...
Ei n n(1 − p0 )
i=1
Simplificando, llegamos a:
 
 |p − p0 | 
T = q 
p0 (1−p0 )
n
Está contando un montón de cosas interesantes que me estoy perdiendo.

√ d
Entre ellas, tenemos que T −−−→ N (0.1) por el teorema central del límite ( es el
n→∞
d
caso particular para una binomial), con lo que T −−−→ χ2 . ¿Porqué 1 grado de libertad?
n→∞
Porque sólo estamos estimando 1 parámetro, el p.
Esto responde también al problema 11.
Ejercicio 2.4: El número de asesinatos cometidos en Nueva Jersey cada día de la

semana durante el año 2003 se muestra en la tabla siguiente:
Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo

Frecuencia 42 51 45 36 37 65 53
a) Contrasta a nivel α = 0,05, mediante un test χ2, la hipótesis nula de que la probabi-
lidad de que se cometa un asesinato es la misma todos los días de la semana.
b) ¿Podría utilizarse el test de Kolmogorov-Smirnov para contrastar la misma hipótesis?
Si tu respuesta es afirmativa, explica cómo. Si es negativa, explica la razón.
c) Contrasta la hipótesis nula de que la probabilidad de que se cometa un asesinato es la
misma desde el lunes hasta el viernes, y también es la misma los dos días del fin de semana
(pero no es necesariamente igual en fin de semana que de lunes a viernes).
A PARTADO A )
329 1
Tenemos n = 329, Ei = 7 = 47 y H0 : pi = 7
Calculamos el estadístico
7
!
X O2 i 422 512 452 532
T = − 329 = + + + ... + − 329 = 13.32
Ei 47 47 47 47
i=1
61
Por otro lado, χ26;0.05 = 12.59, con lo que rechazamos la hipótesis.
A PARTADO B )
No podría utilizarse al tratarse de algo discreto y KS sólo sirve para continuas.
A PARTADO C )
Tenemos la siguiente tabla:
Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo

Frecuencia p p p p p q q
Observación: Podríamos plantearnos contrastar que es uniforme de lunes a viernes

(H1 ) y otra uniforme distinta en fines de semana (H2 ). Entonces tendríamos H0 : H1 ∩
H2 , y construir la región R = R1 ∪ R2 . ¿Cuál es el problema de este camino?
El nivel de significación, ya que PH0 (R1 ∪R2 ) = PH0 (R1 )+PH0 (R2 )−PH0 (R1 ∩R2 ) =
2α − α2 ∼ 2α.
Podríamos tomar, chapucerillamente α = α2 para que al final, PH0 (R1 ∪ R2 ) = α.
Aquí surge otro problema, que es que estamos despreciando la probabilidad de la in-
tersección y tomándolo como independiente cuando no tiene porqué serlo. Es una apro-
ximación “buena” que a veces se utiliza, pero pudiendo hacerlo bien...
Vamos a hacerlo bien: Tenemos que 5p + 2q = 1 =⇒ q = 1−5p 2 . Pero para utilizar

2
el contraste de homogeneidad χ necesitamos tener p (y q). Como no disponemos de
ellos, vamos a estimarlos. ¿Cómo? Con el estimador de máxima verosimilitud que es el
molón. En el apéndice hay un pequeño recordatorio: sección B.1
En este caso, nuestra función de densidad es:

 p x ∈ [lunes,martes,miércoles,jueves,viernes]

f (x) =
 1−5p

2 x ∈ [sábado,domingo]
¿Cuál es la probabilidad de 7 asesinatos entre semana? Pues la intersección de los 7

sucesos, es decir p · p · ... · p = p7 . Razonando así, tenemos
65+53
42+51+...+37 1 − 5p
e.m.v.(p) = L(p; datos) = p
2

1−5p
Ahora, despejamos tomando l(p) = ln(L(p)) = 211 ln(p) + 118 ln 2 y maximi-
zamos:

 p = 0.128

0
l (p) = 0 =⇒ ...
 q = 0.179

Ahora que ya tenemos p y q, las frecuencias esperadas son:
62
Ei = n · (p, p, p, p, p, q, q) = (42.2, ..., 42.2, 58.91, 58.91)
Ya estamos en condiciones de construir el estadístico:
7
X O2 i
T = 2 − n = ... = 5.4628
i=1 E i
Y comparamos con la χ2 . ¿Cuántos grados de libertad? Si tenemos 7 clases, siempre

perdemos uno, con lo que serían 6. Sin embargo hemos estimado un parámetro, con lo
que son 5 grados de libertad. Entonces: c = χ25;0.05 = 11.07
Como T < c, no podemos rechazar la hipótesis.
Ejercicio 2.5: Para estudiar el número de ejemplares de cierta especie en peligro de

extinción que viven en un bosque, se divide el mapa del bosque en nueve zonas y se cuenta
el número de ejemplares de cada zona. Se observa que 60 ejemplares viven en el bosque
repartidos en las 9 zonas de la siguiente forma:
8 7 3
5 9 11
6 4 7
Mediante un contraste de hipótesis, analiza si estos datos aportan evidencia empírica de

que los animales tienen tendencia a ocupar unas zonas del bosque más que otras.
Tomamos α = 0.01
T = 7.47, χ28;0.001 = 20.09

Aceptamos la hipótesis H0 : la especie se reparte uniformemente.
Ejercicio 2.6: Se ha desarrollado un modelo teórico para las diferentes clases de una
variedad de moscas. Este modelo nos dice que la mosca puede ser de tipo L con probabilidad
p 2 , de tipo M con probabilidad q 2 y de tipo N con probabilidad 2pq (p + q = 1). Para
confirmar el modelo experimentalmente tomamos una muestra de 100 moscas, obteniendo
10, 50 y 40, respectivamente.
a) Hallar la estimación de máxima verosimilitud de p con los datos obtenidos.
b) ¿Se ajustan los datos al modelo teórico, al nivel de significación 0’05?

Revisado por Dejuan. Se siguen aceptando correcciones
A PARTADO A )
63
Primero calculamos la función de verosimilitud para p:
n
Y
Ln (p) = Ln (p) = f (xi ; p) = (p2 )10 · (q 2 )50 · (2pq)40
i=0
El EMV lo obtendremos maximizando log Ln (p):
log Ln (p) = 20 log p + 100 log q + 40 log 2pq
∂ 20 100 2 − 4p
log Ln (p) = − + 40 =0
∂p p 1−p 2p(1 − p)
3 7
Maximizamos con p̂ = 10 =⇒ q̂ = 10 .
A PARTADO B )
En este caso tomamos H0 ≡ P (X ∈ L) = p2 , P (X ∈ M ) = q 2 , P (X ∈ N ) = 2pq
Usando el estado el contraste de bondad de ajuste de la χ2 , el estadístico de Pearson
queda:
2
X3 Oi − Êi X3
Oi2
T = = −n=
i=1 Êi i=1 Êi
102 502 402

= + + − 100 ≈ 0.22
p2 · 100 (1 − p)2 · 100 2p(1 − p) · 100
Puesto que en este caso k = 3 y hemos estimado 1 parámetro (p), tenemos que T se
distribuye como una χ23−1−1 . En las tablas nos encontramos con que χ21;0.05 = 3.84 > T
y no rechazamos H0 , es decir los datos se ajustan al modelo teórico.
Ejercicio 2.7:
a) Aplica el test de Kolmogorov-Smirnov, al nivel 0.05, para contrastar si la muestra
(3.5, 4, 5, 5.2, 6) procede de la U (3, 8).
b) Aplica el test de Kolmogorov-Smirnov, al nivel 0.05, para contrastar la hipótesis de
que la muestra (0, 1.2, 3.6) procede de la distribución N (µ = 1; σ = 5).

A PARTADO A )
La función de distribución de una U (3, 8) es:

0 ,x < 3


x−3
F (x) = 5 ,3 ≤ x ≤ 8

1

,x > 8
64
x(i) i
n F0 (x(i) ) Dn+ Dn−
3.5 0.2 0.1 0.1 0.1
4 0.4 0.2 0.2 0
5 0.6 0.4 0.2 0
5.2 0.8 0.44 0.36 -0.16
6 1 0.6 0.4 -0.2
Tendremos por tanto que Dn = kFn − F0 k∞ = 0.4. Si nos vamos a la tabla del
contraste K-S vemos que c = 0.565 para α = 0.05.
Como Dn < c no rechazamos la hipótesis nula de que las muestras vienen de la
uniforme.
A PARTADO B )
x(i) i
n F0 (x(i) ) Dn+ Dn−
0 0.3 0.42 -0.12 0.42
1.2 0.6 0.52 0.08 0.22
3.6 1 0.7 0.3 0.1
Tendremos por tanto que Dn = kFn − F0 k∞ = 0.42. Si nos vamos a la tabla del
contraste K-S vemos que c = 0.708 para α = 0.05.
Como Dn < c no rechazamos la hipótesis nula de que las muestras vienen de la
N (1, 5).
65
Ejercicio 2.8: Se ha clasificado una muestra aleatoria de 500 hogares de acuerdo con
su situación en la ciudad (Sur o Norte) y su nivel de renta (en miles de euros) con los
siguientes resultados:
Renta Sur Norte

0 a 10 42 53
10 a 20 55 90
20 a 30 47 88
más de 30 36 89
a) A partir de los datos anteriores, contrasta a nivel α = 0,05 la hipótesis nula de que en
el sur los hogares se distribuyen uniformemente en los cuatro intervalos de renta considera-
dos.
b) A partir de los datos anteriores, ¿podemos afirmar a nivel α = 0,05 que la renta de
los hogares es independiente de su situación en la ciudad?
A PARTADO A )
1
Tenemos H0 : pi = 4 y usando el contraste de bondad de ajuste de la χ2 :
4
X O2 i 422 + 552 + 472 + 362
T = − nsur = 1 − 180 = 4.31
Ei 4 · 180
i=1
En las tablas encontramos que χ2k−1;α = χ23;0.05 = 7.815. Como T < χ23;0.05 , no
podemos rechazar la hipótesis nula de que en el sur los hogares se distribuyen unifor-
memente en los cuatro intervalos de renta considerados.
A PARTADO B )
Lo primero que haremos es estimar las probabilidades de que la v.a. caiga en cada
una de las 6 clases que tenemos (Ai serán los intervalos de renta y Bi si el hogar es del
norte o del sur):
42 + 53
p(x ∈ A1 ) = = 0.19
500
55 + 90
p(x ∈ A2 ) = = 0.29
500
47 + 88
p(x ∈ A3 ) = = 0.27
500
36 + 89
p(x ∈ A4 ) = = 0.25
500
42 + 55 + 47 + 36
p(x ∈ B1 ) = = 0.36
500
53 + 90 + 88 + 89
p(x ∈ B2 ) = = 0.64
500
Bajo la H0 consideramos Ai independiente de Bi , de modo que pi,j = pi · pj tal y
como se muestra en la siguiente tabla:
66
p1,1 = 0.0684 p1,2 = 0.1216
p2,1 = 0.1044 p2,2 = 0.1856
p3,1 = 0.0972 p3,2 = 0.1728
p4,1 = 0.09 p4,2 = 0.16
Sabiendo que Êij = n · pi,j :
Ê1,1 = 34.2 Ê1,2 = 60.8

Ê2,1 = 52.2 Ê2,2 = 92.8
Ê3,1 = 48.6 Ê3,2 = 86.4
Ê4,1 = 45 Ê4,2 = 80
2 X
4 2
X Oij
T = − n = 8.39
j=1 i=1 Êij
Si nos vamos a las tablas vemos que χ2(k−1)(p−1);α = χ23·1;0.05 = 7.815 < T y por tanto
rechazamos la hipótesis nula de que la renta de los hogares es independiente de su
situación en la ciudad.
2 X
4 2
X Oij
T = − n = 5.91 < 7.815
j=1 i=1 Êij
y por tanto aceptamos la hipótesis nula de que la renta de los hogares es independiente
de su situación en la ciudad.
Ejercicio 2.9: A finales del siglo XIX el físico norteamericano Newbold descubrió que
la proporción de datos que empiezan por una cifra d, p(d), en listas de datos correspondientes
a muchos fenómenos naturales y demográficos es aproximadamente: p(d) = log10 d + 1 d ! ,
d = 1,2,...,9. Por ejemplo, p(1) = log10 2 ≈ 0,301030 es la frecuencia relativa de datos que
empiezan por 1. A raíz de un artículo publicado en 1938 por Benford, la fórmula anterior se
conoce como ley de Benford. El fichero poblacion.RData incluye un fichero llamado pobla-
ciones con la población total de los municipios españoles, así como su población de hombres
y de mujeres. (a) Contrasta a nivel α = 0,05 la hipótesis nula de que la población total se
ajusta a la ley de Benford. (b) Repite el ejercicio pero considerando sólo los municipios de
más de 1000 habitantes. (c) Considera las poblaciones totales (de los municipios con 10 o
más habitantes) y contrasta a nivel α = 0,05 la hipótesis nula de que el primer dígito es
independiente del segundo. (Indicación: Puedes utilizar, si te sirven de ayuda, las funciones
del fichero benford.R).
67
Ejercicio 2.10: Se ha llevado a cabo una encuesta a 100 hombres y 100 mujeres sobre
su intención de voto. De las 100 mujeres, 34 quieren votar al partido A y 66 al partido B.
De los 100 hombres, 50 quieren votar al partido A y 50 al partido B.
a) Utiliza un contraste basado en la distribución χ2 para determinar si con estos datos
se puede afirmar a nivel α = 0, 05 que el sexo es independiente de la intención de voto.
b) Determina el intervalo de valores de α para los que la hipótesis de independencia se
puede rechazar con el contraste del apartado anterior.
Este ejercicio ha caido en un examen.

A PARTADO A )
Procediendo como en el ejercicio anterior obtendremos que bajo la hipótesis nula de
independencia:
pA,mujer = pA,hombre = 0.21
pB,mujer = pB,hombre = 0.29
Por tanto:
2 X
2 2
X Oij
T = − 200 = 5.25
j=1 i=1 Êij
Si nos vamos a las tablas vemos que χ2(k−1)(p−1);α = χ21;0.05 = 3.841 < T , y por tanto
rechazamos la hipótesis nula de que el sexo es independiente de la intención de voto.
En clase: hemos contrastado homogeneidad (las intenciones de voto se distribuyen

igual) en vez de independencia, pero viene a ser lo mismo.
A PARTADO B )
h i
El p-valor asociado a T = 5.25 es 1 − Fχ21 (5.25) = 0.02, por tanto para α ∈ [0.02, 1]
rechazamos la hipótesis de independencia del apartado anterior.
Para calcular el p-valor, utilizamos que una χ21 es una normal al cuadrado, es decir:
p = P (X > 5.25) = P (Z 2 > 5.25) = P (|Z| > 2.29) = 0.022
siendo Z ∼ N (0, 1)
Ejercicio 2.11: Sea X1,...,Xn una muestra de una distribución Bin(1, p). Se desea
contrastar H0 : p = p0. Para ello hay dos posibilidades:
a) Un contraste de proporciones basado en la región crítica R = {|p−p0 |} > z α2 pp0(1−
p0)/n
b) un contraste χ2 de bondad de ajuste con k = 2 clases. ¿Cuál es la relación entre ambos
contrastes?
68
Consultar el ejercicio 2.3.
Ejercicio 2.12: En un estudio de simulación se han generado 10000 muestras aleato-

rias de tamaño 10 de una distribución N (0, 1). Para cada una de ellas se ha calculado con
R el estadístico de Kolmogorov-Smirnov para contrastar la hipótesis nula de que los datos
proceden de una distribución normal estándar, y el correspondiente p-valor.
a) Determina un valor x tal que la proporción de estadísticos de Kolmogorov-Smirnov
mayores que x, entre los 10000 obtenidos, sea aproximadamente igual a 0.05. ¿Cuál es el
valor teórico al que se debe aproximar la proporción de p-valores menores que 0.1 entre los
10000 p-valores obtenidos?
b) ¿Cómo cambian los resultados del apartado anterior si en lugar de considerar la
distribución normal estándar se considera una distribución uniforme en el intervalo (0,1)?

A PARTADO A )
La x que nos piden es fD,α=0.05 (fD es la función de densidad del estadístico K-S).
Si acudimos a la tabla vemos que para n = 10 x = fD,0.05 = 0.41. Un poco más
explicado el razonamiento:
#{i : Di > x}
' 0.05
| 10000
{z }
P (D>x)
Precisamente el 10 % de los p-valores debería ser menor que 0.1, ya que hacer
un contraste nivel de significación α = 0.1 significa que en el 10 % de los casos
rechazamos la hipótesis nula, es decir, en le 10 % de los casos los p-valores son
< 0.1.
Esto se debe al concepto de nivel de significación, ya que si el nivel de significa-
ción es 0.01, entonces nos estamos equivocando en 1 de cada 100 contrastes que
hagamos, es decir:
#{i : p(i) < α}

'α
10000
A PARTADO B )
Al contrastar con una distribución U (0, 1) cabría esperar que las 1000 Di tomaran
valores más altos, pues la distancia entre Fn (que se monta a partir de datos que
vienen de una N (0, 1)) y F0 = FU (0,1) sería más grande que al tomar como F0 la
de una N (0, 1). Por tanto el valor x debería ser mayor.
Por otra parte la proporción de p-valores menores que 0.1 debería aumentar, ya
que el test debería devolver p-valores más pequeños (pues debería de rechazar la
hipótesis de que los datos vienen de una U (0, 1)).
Solución de clase: Al tener muchas muchas muestras, las frecuencias deberían ser las
probabilidades.
69
A.3. Hoja 3
Ejercicio 3.1: La Comunidad de Madrid evalúa anualmente a los alumnos de sexto de

primaria de todos los colegios sobre varias materias. Con las notas obtenidas por los colegios
en los años 2009 y 2010 (fuente: diario El País) se ha ajustado el modelo de regresión simple:
N ota2010 = β0 + β1 N ota2009 + ε,
en el que se supone que la variable de error ε verifica las hipótesis habituales. Los resultados
obtenidos con R fueron los siguientes:
Coefficients:
Estimate Std. Error t-value Pr(>|t|)

(Intercept) 1.40698 0.18832 7.471 1.51e-13
nota09 0.61060 0.02817 21.676 < 2e-16
Residual standard error: 1.016 on 1220 degrees of freedom
Multiple R-squared: 0.278,Adjusted R-squared: 0.2774
F-statistic: 469.8 on 1 and 1220 DF, p-value: < 2.2e-16
También se sabe que en 2009 la nota media de todos los colegios fue 6,60 y la cuasides-
viación típica fue 1,03 mientras que en 2010 la media y la cuasidesviación típica fueron 5,44
y 1,19, respectivamente.
a) ¿Se puede afirmar a nivel α = 0, 05 que existe relación lineal entre la nota de 2009 y
la de 2010? Calcula el coeficiente de correlación lineal entre las notas de ambos años.
b) Calcula un intervalo de confianza de nivel 95 % para el parámetro β1 del modelo.
c) Calcula, a partir de los datos anteriores, un intervalo de confianza de nivel 95 % para
la nota media en 2010 de los colegios que obtuvieron un 7 en 2009.

A PARTADO A )
Poniendo H0 : β1 = 0 (no hay relación lineal entre las notas de uno y otro año)
tendremos:
βˆ1
√ ≡ tn−2
SR / Sxx
La salida nos dice que este estadístico sale 21.676, y el p-valor asociado es < 2e −
16 < 0.05 = α. Por tanto rechazamos la hipótesis nula H0 , y podemos afirmar que existe
relación lineal entre la nota de 2009 y la de 2010.
Jorge: no lo tengo muy claro, pero creo que la segunda pregunta de este apartado
pide βˆ1 . Y según la salida de R eso es 0.61
70
A PARTADO B )
La definición del intervalo de confianza de nivel 95 % para β1 es:
salida R
SR
IC1−α (β1 ) = βˆ1 ∓ tn−2; α2 √
z}|{
= 0.61 ∓ t1220;0.025 · 0.02
Sxx
Si buscamos en las tablas de la t, no encontramos para más grados de libertad que

100. ¿Por qué? Porque una t con tantos grados de libertad es indistinguible a una nor-
mal, con lo que: t1220;0.025 = 1.96.
A PARTADO C )
En este caso nos piden estimar m0 = E(Y0 |X0 = 7), y sabemos que el intervalo de
confianza para este parámetro está definido como:
 s 
1 (x − x) 2
0
IC0.95 (m0 ) = m̂0 ∓ tn−2; α2 · SR + 
n Sxx
Yˆ0 = m̂0 = β̂0 + β̂1 x0 = 1.4 + 0.61 · 7 = 5.67

SR = 1.016, x = 6.60, Sxx = (n − 1) · Sx = 1221 · 1.032
r
1 (7 − 6.6)2
+ = 0.31
1220 1221 · 1.03
Sx sabemos que es 1.032 porque Sx es la cuasivarianza y en el enunciado nos dan la

cuasi-desviación típica.
El resultado final es:
IC = [5.67 ∓ (1.96)(1.016)(0.031)]
| {z }
0.06
Ejercicio 3.2: Dada una muestra de 10 observaciones, se ha ajustado un modelo de

regresión simple por mínimos cuadrados, resultando:
Yi = 1 + 3xi , R2 = 0.9, SR
2
=2
Calcula un intervalo de confianza para la pendiente de la recta con un nivel de confianza

0.95. ¿Podemos rechazar, con un nivel de significación de 0.05, la hipótesis nula de que la
variable x no influye linealmente en la variable Y?
Solución de clase:
Con los datos del ejercicio tendremos:
2 SCE
SR =2= =⇒ SCE = 2 · 8 = 16
n−2
y también:
SCR SCE 16
R2 = 0.9 = =1− =1− =⇒ SCT = 160
SCT SCT SCT
71
√
Para obtener el error típico de β̂1 necesitamos obtener Sxx :
n
X n
X
SCR = (Ŷi − Y )2 = (Y + β̂1 (xi − x) − Y )2 = β̂12 · Sxx
i=1 i=1
SCR SCT − SCE 144
=⇒ Sxx = = = = 16
β̂12 9 9
√
De modo que ya podemos calcular ET (β̂1 ) = √SSR = 42 ≈ 0.35, y por tanto nuestro
xx
intervalo de confianza para β1 será:
h i
IC0.95 (β1 ) = β̂1 ∓ t8,0.025 · ET (β̂1 ) = [3 ∓ 0.8152]
¿Podemos rechazar, con un nivel de significación de 0.05, la hipótesis nula de que

la variable x no influye linealmente en la variable Y?
Para este contraste tendremos H0 : β1 = 0, y si nos construimos una tabla nos resul-
tará más fácil llegar al estadístico F que necesitamos para hallar la región de rechazo:
Fuente SC gl CM F
Explicada 144 1 144 72
No explicada 16 8 2
Total 160 9

Sabemos que R = F > F1,8;0.05 , y puesto que 72 = F > F1,8;0.05 rechazamos H0 .
A la vista del modelo de regresión lineal presentado en el enunciado tendremos
β̂0 = 1 y β̂1 = 3. Sabemos que un intervalo de confianza 0.95 para β1 es:

ˆ SR
IC1−α (β1 ) = β1 ∓ tn−2; α2 √
Sxx
2
P
i (xi −x)
Jorge: me imagino que con R se refiere a Sxx = n , porque si no, no se me
ocurre cómo calcularla sin saber x ni cada xi .
Tenemos que t8;0.025 = 3.83, por lo que el intervalo de confianza queda:
" √ #
2
IC0.95 (β1 ) = 3 ∓ 3.83 ·
0.94
Veamos ahora si podemos decir que la variable x no influye linealmente en la varia-

ble Y (H0 : β1 = 0):
β̂1 −β
√ 1 ≡ tn−2 sigue una t-student con n-2 grados de
Sabemos que SR / Sxx
libertad, y bajo
H0 tendremos que S /β̂√1S ≡ tn−2 . Si queremos rechazar H0 con nivel de significação
R xx
α = 0.05 la región de rechazo será:
( ) ( )
β̂1 3
R= √ > tn−2; α2 = √ > t8;0.025 = {1.5 > 3.83}
SR / Sxx 2/0.94
72
Por tanto no caemos en la región de rechazo que nos permitiría afirmar que x inluye
linealmente en la variable Y.
Lo primero es saber qué es R2 . En el ejercicio anterior, vemos que hay un “Adjusted
R-squared”. Gracias a nuestro conocimiento del inglés, R-squared es R2 , lo que nos
conduce a pensar que ese R2 es el “adjusted r-squared”. La definicion dice
(yi − ŷ)2
P P 2
2 ei SR (n − 2)
R =1− P 2
=1− P 2
=1−
(yi − y) (yi − y) Sxx
Entonces, despejamos Sxx de la ecuación:

√
SR (n − 2) 2·8 16
0.9 = 1 − =1− → 0.1 = → Sxx = 160
Sxx Sxx Sxx
Ahora ya podemos construir el intervalo de confianza:
" √ #
S R 2
IC1−α (β1 ) = βˆ1 ∓ tn−2; α2 = 3 ∓ 3.83 · = [3 ∓ 0.034]
Sxx 160
Veamos ahora si podemos decir que la variable x no influye linealmente en la va-

riable Y (H0 : β1 = 0): Deberíamos poder rechazar (y por bastante), ya que si nuestra
estimación es βˆ1 = 3 y en realidad es 0... vaya mierda de estimación hemos hecho. Ade-
más, que R2 = 0.9 valor cercano a 1 (valor máximo que puede tomar) también nos dice
que el modelo construido es muy bueno.
β̂1 −β
√ 1 ≡ tn−2 sigue una t-student con n-2
Sabemos que SR / Sxx
grados de libertad, y bajo
H0 tendremos que S /β̂√1S ≡ tn−2 . Si queremos rechazar H0 con nivel de significación
R xx
α = 0.05 la región de rechazo será:
( ) ( )
β̂1 3
R= √ > tn−2; α2 = √ > t8;0.025 = {339.41 > 3.83} =⇒
SR / Sxx 2/160
Ejercicio 3.3:
3. Supongamos que la muestra (x1 , Y1 ), . . . , (xn , Yn ) procede de un modelo de regre-
sión lineal simple en el que se verifican las hipótesis habituales. Consideramos el siguiente
estimador de la pendiente del modelo (se supone x1 6= x):
Y1 − Y
β̃1 =
x1 − x
a) ¿Es β̃1 un estimador insesgado?

b) Calcula la varianza de β̃1 .
c) Supongamos que la varianza de los errores del modelo, σ 2 , es un parámetro conocido.
Escribe la fórmula de un intervalo de confianza de nivel 1 − α para β1 cuyo centro sea el
estimador β̃1 .
73
Corregido en clase, aunque el apartado b se ha hecho de otra manera
A PARTADO A )
Para este cálculo utilizamos:
E (Yi ) = β0 + β1 xi + E (εi ) = β0 + β1 xi
Ya que εi ≡ N (0, σ 2 )
Además, como las x son constantes: E (x1 − x) = x1 − x.
Vamos a calcular el sesgo:
1 1
E β̃1 = (E (Y1 ) − E Y ) = (β0 + β1 x1 − E Y )
x1 − x x1 − x

Vamos a ver el valor de E Y :
1X n n
1X
E Y = E (Yi ) = (β0 + β1 xi ) = β0 + β1 x
n n
i=0 i=0

Por tanto al sustituir en la primera ecuación de este apartado obtenemos que E β̃1 =
β1 , y por tanto el estimador es insesgado.
A PARTADO B )
!
Y1 − Y 1
V β̃1 = V = V (Y1 ) + V Y − 2cov Y1 , Y
x1 − x (x1 − x)2
Ya sabemos que en el modelo de regresión lineal V (Yi ) = σ 2 , ∀i, luego lo siguiente

que haremos es calcular los otros dos términos del corchete por separado:
σ2
P
Yi Yi independientes 1 X
V Y =V = V (Y i ) =
n n2 n
Ahora miramos la covarianza:

 
 1 
 
1  σ2

→
− 1 →
− 2 1 

cov Y1 , Y = cov (1, 0, 0, . . . , 0) Y , (1, 1, 1, . . . , 1) Y = (1, . . . , 0)·σ I·  ..  =
n n .  n
 
 
1
Y sustituyendo en la primera ecuación del apartado obtenemos que:
σ2

1
V β̃1 = 1−
(x1 − x)2 n
A PARTADO C )
74
Puesto que podemos expresar β̃1 como:

1 1 →
−
β̃1 = (1, . . . , 0) − (1, . . . , 1) · Y
x1 − x n
Donde:  
 Y1 
 
→
−  Y2 
Y =
 
.. 

 . 

 
Yn
es un vector de normales Yi independientes. Así que podemos decir que β̃1 es una
combinación lineal de normales, y por tanto seguirá una distribución normal:
 
σ2

 1 
β̃1 ≡ N β1 , 1−
 
(x1 − x)2 n 


| {z }
v
−β1
β̃1√
Por tanto v
≡ N (0, 1), y podemos definir el intervalo de confianza:
h √ i
IC1−α (β1 ) = β˜1 ∓ Z α2 · v
Si te preguntas porqué es Z y no T , revisa la construcción del intervalo de confianza

para β1 (en ??)
Ejercicio 3.4: Se considera el siguiente modelo de regresión simple a través del origen:
Yi = β1 xi + εi , εi ≡ N (0, σ 2 ) independientes, i = 1, ..., n.
a) Calcula el estimador de mínimos cuadrados de β1 y deduce su distribución.

b) Sean ei , i = 1,P
..., n los residuos
Pndel modelo. Comprueba si se cumplen o no las
n
siguientes propiedades: i=1 ei = 0 y i=1 ei xi = 0.
c) Si la varianza de los errores σ 2 es conocida, deduce la fórmula de un intervalo de
confianza de nivel 1 − α para el parámetro β1 .
A PARTADO A )
Entonces, Φ(β) = (yi −βxi )2 . Derivando e igualando a 0 se llega a (yi −β̂1 xi )xi =
P P
0, y obtenemos el estimador despejando β̂1 .
Otra manera de hacerlo es utilizando lo que hemos visto en regresión múltiple para
modelos lineales, definiendo la matriz de diseño X como β̂1 = (X 0 X)−1 X 0 Y
En ambos casos se llega a: P
ˆ xi yi
β1 = P 2
xi
75
Vamos a calcular su esperanza y su varianza para la distribución:

E β̂ = β
P 2 2
x σ σ2
V β̂ = P i 2 = P 2
x2i xi
A PARTADO B )
Como no hay término independiente, los residuos no suman 0. Esto tiene varios
razonamientos intuitivos.
Si en la matriz de diseño no hay una columna que sea todo 1’s, (porque no haya
término independiente) entonces el vector de residuos no es ortogonal a V .
P
Sin embargo
P en este caso se cumple que ei xi = 0 pues al minimizar Φ se ha
obtenido que (yi − β̂1 xi ) xi = 0
| {z }
ei
A PARTADO C )
 
σ
IC1−α (β̂1 ) = β̂1 ∓ Z α2 qP
 

x2i
Si en el enunciado no nos dijeran que conocemos σ, tendríamos que cambiar σ por

SR que es un dato que sí tenemos. Entonces, construiríamos:
 
SR
IC1−α (β̂1 ) = β̂1 ∓ tn−2; α2 · qP
 

x2i
Ejercicio 3.5: En el modelo del problema anterior supongamos que xi > 0 y que
V (εi ) = σ 2 x2i , es decir, no se cumple la hipótesis de homocedasticidad. Calcula en este caso
la esperanza y la varianza del estimador de mínimos cuadrados β̂1 .PConsideremos ahora
el estimador alternativo β̃ que se obtiene al minimizar la expresión ni=1 wi (yi − β1 xi )2
, donde wi = 1/x2i . Calcula una fórmula explícita para β̃ y, a partir de ella, deduce su
esperanza y su varianza. Compara los estimadores β̂1 y β̃ . ¿Cuál es mejor? (A β̃1 se le
llama estimador de mínimos cuadrados ponderados).
a) ¿insesgado?
A PARTADO A )
Es razonable que sea insesgado, ya que en media sí puede tener sentido. El pro-
blema será la varianza... vamos a calcular la distribución del estimador de mínimos
cuadrados:
Como hemos calculado en el ejercicio anterior:
E (β1 ) = β1
76
P ! P 4
xi yi 2 x
V (β1 ) = V P 2 = ... = σ P i2
xi x2i
Vamos a pensar... ¿De qué puntos nos podemos fiar más? ¿De los pequeños o de
los grandes? Al ser heterocedástico, donde menor varianza hay es en los xi cercanos al
origen, con lo que deberíamos fiarnos más de ellos. Esta “confianza” la implementamos
Mínimos con una ponderación, obteniendo el Mínimos cuadrados ponderados
cuadrados
ponderados Los cálculos se dejan para el lector, aunque el resultado será:
Ambos son insesgados.

En términos de varianza, es mejor el ponderado.
¿Cuál es el problema de ponderar? Que no sabemos con exactitud que εi ∼ N (0, σ 2 x2i ).
¿Y si fuera εi ∼ N (0, σ 2 x4i )? Entonces no podríamos aplicar los pesos calculados
y es muy problemático en ese sentido.
“Cálculos para el lector”

Tenemos:
n
X 1 2
Φ(β1 ) =
x 2 (yi − βi xi )
i=1 i
n
∂Φ X yi
= −2 ( − β1 ) = 0
∂β1 xi
i=1
De modo que el β̂1 que minimiza Φ(β1 ) será:

1 X yi
β̃1 =
n xi
Veamos que el estimador β̃1 es insesgado:

1X 1 1 X β 1 xi
E(β̃1 ) = E(yi ) = = β1
n xi n xi
Ahora calculamos su varianza:

1 X 1 σ2
V β̃1 = V (yi ) =
|{z} n2 x2i n
yi indeps.
Ejercicio 3.6: Supongamos que cierta variable respuesta Y depende linealmente de

dos variables regresoras x1 y x2 , de manera que se verifica el modelo:
Yi = β0 + β1 xi1 + β2 xi2 + εi , i = 1, ..., n,
donde los errores εi verifican las hipótesis habituales. Se ajusta por mínimos cuadrados
el modelo Yi = β0 + β1 xi1 , sin tener en cuenta la segunda variable regresora. Demuestra
que el estimador β1 es, en general, sesgado y determina bajo qué condiciones se anula el
sesgo.
77
Sabemos que: P
Sx1 y (xi1 − x1 )yi
β̂1 = = P
Sx1 x1 (xi1 − x1 )2
Por tanto el valor esperado del estimador será:
1 X
E(β̂1 ) = (xi1 − x1 ) · (β0 + β1 xi1 + β2 xi2 ) =
Sx1 x1
1 h X X i
= β0 · 0 + β1 (xi1 − x1 )2 + β2 (xi1 − x1 )(xi2 − x2 )
Sx1 x1
cov (x1 , x2 )
= β1 + β2
Sx1 x1
De modo que el estimador será insesgado cuando x1 y x2 sean independientes, ya

que así se tendrá que cov (x1 , x2 ) = 0.
Ejercicio 3.7: En el Ayuntamiento de Madrid se estudió hace unos años la conve-

niencia de instalar mamparas de protección acústica en una zona de la M-30. Un técnico
del Ayuntamiento piensa que si el ruido afecta mucho a los habitantes de la zona esto debe
reflejarse en los precios de las viviendas. Su idea es que el precio de una casa en esa zona
(y) depende del número de metros cuadrados (x1 ), del número de habitaciones (x2 ) y de la
contaminación acústica, medida en decibelios, (x3 ). Para una muestra de 20 casas vendidas
en los últimos tres meses, se estima el siguiente modelo:
ŷi = 5970 + 22, 35xi1 + 2701, 1xi2 − 67, 6730xi3

(2,55) (1820) (15,4)
R2 = 0, 9843
donde las desviaciones típicas (estimadas) de los estimadores de los coeficientes aparecen
entre paréntesis.
a) Calcula el efecto que tendría sobre el precio un descenso de 10 decibelios, si el resto de
variables en el modelo permanecieran constantes.
b) Contrasta con α = 0, 05 la hipótesis nula de que el número de habitaciones no influye
en el precio.
c) A nivel α = 0, 05, ¿puede afirmarse que la vivienda se encarece cuando disminuye la
contaminación acústica?
d) Contrasta con α = 0, 05 la hipótesis nula de que las tres variables no influyen con-
juntamente en el precio.
e) Estima el precio medio de las casas (no incluidas en la muestra) que tienen 100 metros
cuadrados, dos habitaciones y una contaminación acústica de 40 decibelios.
A PARTADO A )
Fijando las variables y haciendo xi3 → xi3 − 10 se ve que ŷi se incrementaría en
676.73.
A PARTADO B )
78
H0 : β2 = 0 y sabemos que β̂2 ∼ N (β2 , σ 2 q22 ). Por tanto nos servimos del contraste:
β̂i
∼ tn−k−1=16
desv-estim(β̂i )
2701.1
t= = 1.4841, t16;0.025 = 2.12
1820
Como t < t16;0.025 aceptamos H0 (el número de habitaciones no influye en el precio).
A PARTADO C )
Para este contraste nos basamos en el visto en teoría ?? (aunque ahora la hipótesis
alternativa es lo contrario) y establecemos como hipótesis alternativa lo que queremos
afirmar H1 : β3 < 0, y como hipótesis nula H0 : β3 ≥ 0. De este modo lo que queremos
ver es que nuestro estadístico cae en la región de rechazo, es decir, queremos que, siendo
negativo, sea más pequeño que −t16;0.05 = −1.74:
β̂3 −67.673
t= = = −4.39
desv-estim(β̂3 ) 15.4
Como t < −t16;0.06 rechazamos H0 , y por tanto aceptamos que los precios suben
cuando se disminuyen los decibelios (H1 ).
A PARTADO D )
H0 : β1 = β2 = β3 = 0, es decir, vamos a llevar a cabo el contraste conocido como
“contraste de la regresión”:
SCR/R R2 n−k−1
F = SCE/(n−k−1) = 1−R2
· k = 334.369 > F3,16;0.005 = 3.23
Por tanto rechazamos H0 .
A PARTADO E )
Nos piden m̂0 = β̂X0 = (5970, 21.3, 2701.1, −67.67) · (1, 100, 2, 40)0 = 10900.28, tal y
como se explica en ??.
Ejercicio 3.8: Se desea ajustar el modelo Yi = β0 + β1 xi1 + β2 xi2 + εi , donde los

errores εi verifican las hipótesis habituales en el modelo de regresión múltiple. Los datos
disponibles de las variables regresoras y la variable respuesta se encuentran en la matriz de
diseño X y vector Y siguientes:
   
 1 1 −2   2 
   
 1 −1 2   2 
X= ,Y =  ,
   
 1 2 1   4.5 
   
   
1 −2 −1 −4.5
a) Calcula los estimadores de mínimos cuadrados de β0 , β1 yβ2 .

2 = 0.25, contrasta la hipótesis nula H :
b) Sabiendo que la varianza residual es SR 0
β1 = 0.
79
A PARTADO A )
   
 β̂1   1 
0 −1 0
   
 β̂2  = (X X) X · Y =  1.8
β̂ =    

   
β̂3 0.9
A PARTADO B )
Para este contraste nos apoyamos en que β̂1 ∼ N (β1 , σ 2 q11 ), donde q11 es la entrada
de la matriz (X 0 X)−1 asociada a β̂1 . Esto es así porque sabemos que β̂ ∼ N (β, σ 2 (X 0 X)−1 ).
En este tipo de contraste estimamos σ 2 con SR 2 y obtenemos que bajo H : β = 0:
0 1

β̂1

√ ∼ tn−k−1=1
SR q11
Echando cuentas se obtiene que:

 
 1/4 0 0 
0 −1
 
(X X) =
 0 1/10 0 ,

 
0 0 1/10
Y por tanto q11 = 1/10, lo cual permite hacer el contraste:

β̂1

t= √ = 11.38
SR q11
Que en un nivel de significación α habitual implicaría un rechazo de H0 (es decir t >

t1; α2 ).
Ejercicio 3.9: Se considera el siguiente modelo de regresión lineal múltiple:
Yi = β0 + β1 xi1 + β2 xi2 + β3 xi3 + εi , εi ≡ N (0, σ 2 ) (A.3.1)
Se dispone de n = 20 observaciones con las que se ajustan todos los posibles submodelos
del modelo A.3.1, obteniéndose para cada uno de ellos las siguientes sumas de cuadrados de
los errores (todos los submodelos incluyen un término independiente).
Variables incluidas en el modelo SCE Variables incluidas en el modelo SCE
Sólo término independiente 42644.00 x1 y x2 7713.13
x1 8352.28 x1 y x3 762.55
x2 36253.69 x2 y x3 32700.17
x3 36606.19 x1 , x2 y x3 761.41
(Ejemplo en negrita: Para el modelo ajustado Ŷi = β̂0 + β̂2 xi2 + β̂3 xi3 , la suma de
cuadrados de los errores es 32700.17).
80
a) Calcula la tabla de análisis de la varianza para el modelo A.3.1 y contrasta a nivel α
= 0,05 la hipótesis nula H0 : β1 = β2 = β3 = 0.
b) En el modelo A.3.1, contrasta a nivel α = 0.05 las dos hipótesis nulas siguientes:
H0 : β2 = 0
H0 : β1 = β3 = 0
c) Calcula el coeficiente de correlación entre la variable respuesta y la primera variable

regresora sabiendo que es positivo.
OJO : en clase dijo que este era uno de los problemas difíciles de un control
A PARTADO A )
Bajo H0 : β1 = β2 = β3 = 0 tendremos que Yi = β0 + εi y que β̂0 = Y , y por tanto:
X X
SCE0 = (Yi − Ŷi )2 |{z}
= (Yi − Y )2 = SCT
H0
En este caso tenemos que llevar a cabo el cálculo del estadístico del contraste de la
SCR/k
regresión (véase ??) F = SCE/(n−k−1) . Como sabemos que SCT = SCE + SCR =⇒
SCR = SCE0 − SCE = 42644.00 − 761.41 = 41882.59 podemos obtener la tabla con la
que conseguimos el estadístico:
Fuente SC gl CM F
Explicada SCR = 41882.59 k=3 13960.86 293.37
No explicada SCE = 761.41 n − k − 1 = 16 2
47.59 = SR
Total 42644 19
Sabemos que la región de rechazo será: R = {F > F3,16;0.05 = 3.24}, y por tanto
rechazamos H0 .
A PARTADO B )
H0 : β2 = 0. En este caso contrastamos el incremento de variabilidad relativa entre

el modelo en el que solo tenemos en cuenta x1 , x3 , frente al modelo completo en
el que tenemos en cuenta x1 , x2 , x3 :
SCE0 −SCE
p=1 SCE0 − SCE 762.55 − 761.41
F = SCE
= 2 = ≈ 0.024
n−k−1
SR 47.59
En este caso la región de rechazo es R = {F > F1,16;0.05 = 4.49}, y por tanto no

rechazamos la hipótesis nula H0 .
H0 = β1 = β3 = 0, aplicando el mismo criterio que en caso anterior obtenemos:
SCE0 −SCE 36253.69−761.41

2 2
F = 2 = = 372.9
SR 47.59
81
Puesto que F2,16;0.05 = 3.63, rechazamos esta hipótesis nula.
A PARTADO C )
Correlación entre Y y x1 :
SCE 8352.28
r 2 = R2 = 1 − =1− = 0.8041
SCT 42644
√
De modo que √ tendremos r = ± 0.8041, y con la ayuda del enunciado podemos
decir que r = + 0.8041 = 0.8967
Ejercicio 3.10: A partir de una muestra de n = 20 observaciones se ha ajustado el

modelo de regresión lineal simple Yi = 0 + 1xi + εi con los siguientes resultados:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.29016 1.66161 0.175 AAA
x 1.01450 0.03246 31.252 <2e-16
Residual standard error: 0.1717 on 18 degrees of freedom
Multiple R-squared: 0.9819, Adjusted R-squared: 0.9809
F-statistic: BBB on 1 and 18 DF, p-value: < 2.2e-16
> vcov(reg)
(Intercept) x
(Intercept) 2.761 -0.054
x -0.054 0.001
a) Determina si el p-valor AAA es mayor o menor que 0.1. Escribe la hipótesis nula a
la que corresponde este p-valor y determina si esta hipótesis se rechaza o no a nivel α = 0.1.
b) Contrasta la hipótesis nula H0 : β0 + β1 = 2 a nivel α = 0.05.
c) Calcula el valor BBB que se ha omitido en los resultados anteriores.
A PARTADO A )
Si queremos ver qué t18 se corresponde con el nivel de significación α = 0.1 busca-
mos en las tablas t18,0.05 = 1.734, que vemos que es claramente mayor que el t = 0.175
obtenido en la salida de R. Por tanto P {|t| > 0.175} > 0.1, lo que quiere decir que el
p-valor AAA es mayor que 0.1.
La hipótesis nula asociada al p-valor AAA es H0 : β0 = 0 y puesto que su p-valor es
menor que t18,α/2=0.1/2=0.05 , no rechazamos H0 .
A PARTADO B )
β0 + β1 = a0 β = (1, 1) · β. Multiplicando por a tenemos que:
a0 β̂ − a0 β
a0 β̂ ∼ N a0 β, σ 2 a0 (X 0 X)−1 a =⇒ p ∼ N (0, 1)
σ 2 a0 (X 0 X)−1 a
82
y puesto que en este apartado H0 : a0 β = 2, tras aproximar σ 2 por SR
2 queda que:

0
a β̂ − 2

t= p ∼ tn−k−1=18
SR a0 (X 0 X)−1 a
La salida vcov(reg) que figura en la salida de R es la estimación de la matriz de

covarianzas de β̂ (la matriz de la que hablamos es σ 2 (X 0 X)−1 ), que no es más que
2 (X 0 X)−1 . Por tanto:
SR
2 0
SR a (X 0 X)−1 a = a0 SR
2
(X 0 X)−1 a = 2.65

0
a β̂ − 2

|−0.6955|
t= p = √ = 0.4287 < t18;0.025
0 0
SR a (X X) a −1 2.65
De modo que no rechazamos H0 : β0 + β1 = 2.
A PARTADO C )
La última línea corresponde con el contraste de la regresión, es decir, H0 : β1 = 0. El
estadístico para este contraste se obtiene como:
SCE0 − SCE/k SCR

BBB = F = =
SCE/(n − k − 1) SCE/18
R2 n−k−1
Pero acabamos antes recordando la identidad F = 1−R2 k (obviamente equivalente
a lo anterior) para obtener que:
0.9819
BBB = F = · 18 = 976.47
1 − 0.9819
Ejercicio 3.11: Se desea estudiar la esperanza de vida Y en una serie de países como
función de la tasa de natalidad nat, la tasa de mortalidad infantil mortinf y el logaritmo del
producto nacional bruto lpnb. Para ajustar el modelo
Yi = β0 + β1 · nati + β2 · mortinfi + β3 · lpnbi + εi
donde los errores εi son v.a.i.i.d. N (0, σ 2 ). Se ha utilizado R con los siguientes resulta-
dos:
83
a) ¿De cuántos países consta la muestra utilizada?
b) ¿Cuál es la suma de cuadrados de la regresión (SCR) que se utiliza para medir la
variabilidad explicada por las tres variables regresoras?
c) ¿Cuánto vale la cuasivarianza muestral de la variable respuesta (Yi −Y )2 /(n−1)?
P
d) Contrasta a nivel α = 0,05 la hipótesis nula H0 : β1 = β2 = β3 = 0

e) Determina cuál es la hipótesis nula y la alternativa correspondiente a cada uno de los
tres estadísticos F que aparecen en la tabla de análisis de la varianza anterior.

A PARTADO A )
Sabemos n − k − 1 = 87 y k = 3, con lo que n = 91
A PARTADO B )
SCE=676.5 y R2 = 0.93. Utilizando R2 = 1 − SCE
SCT despejamos SCT = 9705.88 y con
este, obtenemos SCR = 9029.38
A PARTADO C )
SCT
= 99.224
n−1
A PARTADO D )

R = 385.9 > F3,18
84
Podemos observar que el p-valor del contraste de la regresión (en que nos piden) es
cercano a 0, con lo que rechazamos H0 .
A PARTADO E )
El primero corresponde al contraste de la regresión, el segundo corresponde al cpn-
traste β2 , β3 = y el tercero corresponde a β3 = 0.
Ejercicio 3.12: Considera el modelo de regresión múltiple Y = Xβ + ε, donde ε

verifica las hipótesis habituales.
a) Define el vector de valores ajustados Ŷ = (Yˆ1 , ..., Yˆn )
b) En general, ¿son las variables Ŷ1 , ..., Ŷn independientes? ¿Son idénticamente distri-
buidas?

c) Calcula el valor de ni=1 V Ŷi si el modelo incluye un término independiente y 3
P
variables regresoras.
A PARTADO A )
E(Ŷ ) = X β̂ = HY
Ŷ ≡ N (Xβ, σ 2 H)
2
que esa es la varianza porque Y ≡ Nn (Xβ, σ In ) y aplicamos Ŷ = AY →
Sabemos
V Ŷ = AΣA0
A PARTADO B )
No son independientes en general porque H no es siempre diagonal. Tampoco son
idénticamente distribuidas porque no tienen la misma varianza ni la misma media:

V Ŷi = σ 2 hii
Donde hii es el potencial de la i-ésima observación.
A PARTADO C )
Lo que nos piden es la traza de H. Como H es idempotente, tenemos σ 2 traza(H) =
σ 2 Rg(H) = σ 2 (k + 1) = 4σ 2
Sabemos que Rg(H) = k + 1 por hipótesis (tenemos k variables más el término
independiente). En este caso k = 3.
Ejercicio 3.13:
Con el fin de evaluar el trabajo de los directores de los 30 departamentos de una gran
empresa, se llevó a cabo una encuesta a los empleados a su cargo en la que se les pidió que
valoraran varias afirmaciones con una nota de 1 (máximo acuerdo) a 5 (máximo desacuer-
do). Algunas de las variables eran: Y , el trabajo del director es en general satisfactorio; x 1
85
, el director gestiona correctamente las quejas de los empleados; x 2 , el director trata equi-
tativamente a los empleados; x 3 , la asignación del trabajo es tal que los empleados pueden
aprender cosas nuevas con frecuencia. El vector (Y i , x i1 , x i2 , x i3 ) contiene la suma de
puntos de las respuestas en el departamento i, donde i = 1, . . . , 30. Con estos datos se ajustó
con R el modelo:
a) Calcula un intervalo de confianza de nivel 0.95 para el parámetro β3 . Contrasta la

hipótesis H0 : β3 ≤ 0.
b) Determina el valor de AAA, BBB y CCC en la última línea de la salida anterior. ¿A
qué hipótesis nula corresponde el p-valor que aparece en esta última línea?
A PARTADO A )

IC(β3 ) = 0.238 ∓ 0.1394 · t28;0.025 = [0.238 ∓ 0.2855]
Y la región de rechazo correspondiente es:

β3
R= > tn−2;α = {1.707 > 1.701}
e.t.(β3 )
Entonces rechazamos la hipótesis H0 .
Observación: Es curioso que rechazamos la hipótesis de que β3 pueda ser negativo,

pero uno de los extremos del intervalo de confianza es negativo.
A PARTADO B )
Corresponde al contraste de la regresión que es β1 = β2 = β3 = 0
R2 26
Tenemos BBB=3, CCC=26 con lo que AAA = 1−R2
· 3 = 21.74
Ejercicio 3.14: Tres vehículos se encuentran situados en los puntos 0 < β1 < β2 < β3
de una carretera recta. Para estimar la posición de los vehículos se toman las siguientes
medidas (todas ellas sujetas a errores aleatorios de medición independientes con distribución
normal de media 0 y varianza σ 2 ):
Desde el punto 0 medimos las distancias a los tres vehículos dando Y1 , Y2 eY3
86
Nos trasladamos al primer vehículo y medimos las distancias a los otros dos, dando
dos nuevas medidas Y4 , Y5 .
Nos trasladamos al segundo vehículo y medimos la distancia al tercero, dando una

medida adicional Y6 .
A PARTADO A )
Expresa el problema de estimación como un modelo de regresión múltiple indicando
claramente cuál es la matriz de diseño.
A PARTADO B )
Calcula la distribución del estimador de mínimos cuadrados del vector de posiciones
(β1 , β2 , β3 ).
A PARTADO C )
Se desea calcular un intervalo de confianza de nivel 95 % para la posición del primer
vehículo β1 a partir de 6 medidas (obtenidas de acuerdo con el método descrito anteriormen-
2 = 2. ¿Cuál es el margen de error del
te) para las que la varianza residual resultó ser SR
intervalo?
a)
Y1 = β1 + ε1
Y2 = β2 + ε2
Y3 = β3 + ε3
Y4 = β2 − β1 + ε4
Y5 = β2 − β1 + ε5
Y6 = β3 − β2 + ε6
Vamos a construir la matriz de diseño. Será de la forma:

 
β1 
 
Y = X β2  + ε

 
β3
De esta manera:  
1 0 0
 
0 1 0
 
 
0 0 1
X=
 

−1 1 0
 
 
−1 0 1
 
 
0 −1 1
87
Se ha dejado caer en clase un posible ejercicio de examen: ¿Cuál es la matriz de
diseño óptima para estimar los βi ?
b) Con esta matriz de diseño, podemos calcular:
 
  
 
 1 1 1 
 2 4 4 
2 1
  
β̂ = N3  1 1 
β, σ  4 2 2 
  
 1 1 1 
 4 4 2 
 | {z }
(X 0 X)−1
c)
h √ i
IC0.95 (β1 ) ≡ βˆ1 ∓ t6−3;0.025 SR q11
" r #
√ 1
IC0.95 (β1 ) ≡ βˆ1 ∓ t6−3;0.025 2
2
Con lo que el margen de error es t6−3;0.025
Ejercicio 3.15: Sean Y1 , Y2 e Y3 tres variables aleatorias independientes con distribu-

ción normal y varianza 2. Supongamos que µ es la media de Y1 , λ es la media de Y2 y λ + µ
es la media de Y3 , donde, λ, µ ∈ R.
a) Demuestra que el vector Y = (Y1 , Y2 , Y3 )0 verifica el modelo de regresión múltiple
Y = Xβ + ε. Para ello, determina la matriz de diseño X, el vector de parámetros y la
distribución de las variables de error ε.
b) Calcula los estimadores de máxima verosimilitud (equivalentemente, de mínimos cua-
drados) de λ, µ.
c) Calcula la distribución del vector (λ̂, µ̂)0 , formado por los estimadores calculados en
el apartado anterior.
A PARTADO A )
   
0 1  ε1 
 
  µ  
1 0   + ε2 
Y =   
  λ  
1 1 ε3
A PARTADO B )
Tenemos una fórmula para calcularlo.
 
λ̂ 0 −1 0
  = (X X) X Y
µ̂
88
En caso de no sabernos la fórmula, podemos recurrir al método largo y tradicional:
ϕ(λ, µ) = (Y1 − µ)2 + (Y2 − λ)2 + (Y3 − (λ + µ))2

Y resolvemos el sistema:

∂ϕ
=0 

∂λ
∂ϕ
∂µ =0 

De esta manera deberíamos llegar a la misma solución.

   
2Y2 +Y3 −Y1
λ̂ 3
 =
 

2Y1 +Y3 −Y2
µ̂ 3
Podríamos comprobar si son insesgado o no.
A PARTADO C )
Sabemos que la distribución del estimador es:
    
 λ̂ 

2 0 −1
 λ  σ 2  2 −1 
β̂ =   ≡ N β, σ (X X) =N , 
 3

−1 2

µ̂ µ
Ejercicio 3.16:
La siguiente tabla contiene información sobre los resultados de un examen en cuatro
grupos de una misma asignatura:
Alumnos Media Cuasi-varianza

Grupo 1 104 4.99 4.19
Grupo 2 102 4.63 5.75
Grupo 3 69 4.53 5.15
Grupo 4 80 4.79 5.35
Se supone que se satisfacen las hipótesis del modelo unifactorial. Escribe la tabla de
análisis de la varianza y contrasta la hipótesis de que las notas medias son iguales en los
cuatro grupos, con un nivel de significación α = 0, 05.
Y1· = 4.99; S1 = 4.19
Vamos a construir la tabla ANOVA. Para ello:
89
P
Yi·
Y·· 6=
4
Ya que el número de alumnos es distinto en cada grupo. La media total sería:
P
ni Yi·
Y·· = P
ni
P4
Ahora podemos calcular SCR = i=1 ni (Yi· − Y·· )2 = ... = 10.93
XX
SCE = (Yij − Yi· )2
i j
Fuente SC gl CM F
10.93 3.64
SCR 10.93 4−1 3 = 3.64 5.09 = 0.72
1785.17
SCE 1785.17 n − k = 351 351 = 5.09
Ahora buscamos F3,351;0.05 = 2.60 > 0.72, por lo que no hemos encontrado diferen-
cias significativas de que el grupo influya en la nota. Aceptamos H0 .
Ejercicio 3.17: Una fabricante de botas para el agua está estudiando tres posibles
colores para su nuevo modelo de bota super resistente. Las opciones que se proponen son
verde, amarillo y azul. Para analizar si el color tiene algún efecto sobre el número de ven-
tas, se eligen 16 tiendas de tamaño similar. Se envían las botas de color verde a 6 tiendas
elegidas al azar, las amarillos a 5 tiendas y las azules a las 5 restantes. Después de varios
días se comprueba el número de botas vendidas en cada tienda, obteniéndose los siguientes
resultados:
Verdes Amarillas Azules

43 52 61
52 37 29
59 38 38
76 64 53
61 74 79
81
Es igual que el anterior. Se deja para otro.
90
A.4. Hoja 4
Ejercicio 4.1:
a) Estima a partir de estos datos, la función lineal discriminante de Fisher.
b) Clasifica la observación xx = (2, 7)0 utilizando la regla obtenida en el apartado
anterior.
A PARTADO A )
Vamos a estimar las medias de cada población:
µˆ0 = x0 = (3, 6)0
µˆ1 = x1 = (5, 8)0
Y la estimación de la matriz de varianzas, para lo que necesitamos:

   
 1 1.5  1 0.5
S0 =   S1 =  
1.5 3 0.5 1
 
(n0 − 1)S0 + (n1 − 1)S1 S1 + S2 1 1
Σ̂ = = =
n0 + n1 − 2 2

1 2
Por último, la dirección proyección de la regla de fisher es

    
 2 −1 2 2
ω = Σˆ−1 (x1 − x0 ) =    =  
−1 1 2 0
Entonces, utilizando la fórmula de clasificación de la regla de fisher, obtenemos:

 
4
2x1 > (2, 0)   → x1 > 4
7
A PARTADO B )
Como x1 = 2¬ > 4, el punto x = (2, 7)0 lo clasificamos como P0 .
Observación: La frontera es una linea vertical. Las segundas coordenadas no importan

nada, es curioso.
91
Ejercicio 4.2: Considera los datos sobre enfermedades coronarias en Sudáfrica (in-
fartos.RData). Calcula la función lineal discriminante de Fisher para clasificar entre sano
(clase = 0) o enfermo (clase = 1) a un individuo en función de las 8 variables regresoras
contenidas el fichero. Compara los coeficientes de las variables con los correspondientes a la
regla de clasificación basada en regresión logística. ¿Son muy diferentes?
1 # X <− m at r i z de l o s datos con $p = 8$ columnas y $n$ f i l a s .

2 # c l a s e s <− v e c t o r de $0$ o $1$ s i e l i n d i v i d u o ( columna ) ha s u f r i d o i n f a r t o
( 1 ) o no ( 0 ) .
3 i n f a r t o s <− lda ( X , c l a s e s , p r i o r =c ( 0 . 5 , 0 . 5 ) )
Ejercicio 4.3: Para 100 lirios, 50 de ellos correspondientes a la especie Versicolor (Y

= 1) y otros 50 correspondientes a la especie Virginica (Y = 0) se ha medido la longitud
(Long) y la anchura (Anch) del pétalo en milímetros. Con los datos resultantes se ha ajustado
un modelo de regresión logística con el objetivo de clasificar en alguna de las dos especies
un lirio cuya especie se desconoce a partir de las medidas de su pétalo. A continuación se
muestra un resumen de los resultados (algunos valores han sido suprimidos o sustituidos
por letras):
1
2 glm ( f o r m u l a = y ~ Long + Anch , f a m i l y = b i n o m i a l )
3
4 Deviance Residuals :
5
6 Min 1Q Median 3Q Max
7 −1.8965923 −0.0227388 0.0001139 0.0474898 1.7375172
8
9 Coefficients :
10
11 Estimate Std . Error z−v a l u e Pr ( >| z |)
12 ( Intercept ) 45.272 13.610 3.327 0.00088
13 Long −5.755 2.306 ∗∗∗∗∗ BBBB
14 Anch −10.447 3.755 −2.782 0.00540
15
16
17 N u l l d e v i a n c e : 1 3 8 . 6 2 9 on 99 d e g r e e s o f f r e e d o m
18 R e s i d u a l d e v i a n c e : AAAA on 97 d e g r e e s o f f r e e d o m
19
20 AIC : 2 6 . 5 6 4
a) Escribe la fórmula de lo que en la salida de R se llama “Deviance residuals” y calcula

la suma de estos residuos al cuadrado.
b) Calcula la desviación residual AAAA y contrasta, usando el método de razón de
verosimilitudes, la hipótesis de que ningunad elas 2 medidas influte en la variable respuesta:
H0 : β1 = β2 = 0
c) Calcula el p-valor BBBB y contrasta a nivel α = 0,05 la hipótesis nula de que la
longitud del pétalo no es significativa para explicar la respuesta.
d) Para un lirio se sabe que la longitud del pétalo es de 4.9 mm y la anchura es 1.5 mm.
¿En cuál de las dos especies se debe clasificar?
A PARTADO A )
92
Clacular la suma de los resudios y la desviación residual es lo mismo. Es el valor
objetivo que sale al maximizar.
X
l(β̂) = Di2
Si recordamos la información de Akaike (??), tenemos:
n
X
AIC = −2l(β̂) + 2(k + 1) = −2A + 6 → A = −2l(β̂) = 26.564 − 6 = 20.564 = Di2
i=1
A PARTADO B )
138.629 − 20.564 = 118.065
Y comparamos este valor con χ22;0.05 = 5.99, con lo que rechazamos la hipótesis y
concluimos que las medidas de la planta influyen en la clase.
A PARTADO C )
Vamos a utilizar el test de Wald (??) para contrastar H0 : β1 = 0
−5.755
Tenemos z = 2.306 = −2.4957.
B = P (|z| > 2.4957) ' 0.0128
A PARTADO D )
Clasificar en Y = 1, entonces:
1 1
−x 0β > → β̂x > 0
1+e 2
Es decir, la regla de clasificación logística en este caso es:
45.272 − 5.755 · Long −10.447 · Anch

| {z } > 0
| {z }
4.9 1.5
Observación: ¿Y cuál es la probabilidad estimada de clasificar como Y = 1? No es lo

mismo obtener en la regla anterior 0.001 o 0.9, que ambos son positivos. Para ello:
1 1
= = 0.19
1 + e−x0 β 1 + e1.4020
Esto es un poco raro.
Ejercicio 4.4:
93
La dificultad de este problema radica en cómo introducir en R los datos para aplicar
el comando glm.
Para ello, tenemos que meter n datos, por cada n insectos expuestos a un nivel de
dosis.
Nuestro vector X entonces es:
 
X = 1.69, ..., 1.69, 1.7242, ..., 1.7242, ...

 
| {z } | {z }
59 60
Y nuestro vector de clases sería:

 
Y = 1, ..., 1, 0, ..., 0, ...

 
| {z } | {z }
6 53
En R sería:
1 y = c ( rep ( 1 , 6 ) , rep ( 0 , 5 3 ) , rep ( 1 , 1 3 ) , rep (0 ,60 −13) , . . . )
Y ahora con los datos ya podemos calcular

1 reg <− glm ( y ~ d os is , f a m i l y = ’ binomial ’ )
Y ahora ya podemos utilizar:
1
P̂ (Y = 1|X = 1.8) = = 0.72
1 + exp −β̂0 − β̂1 (1.8)
Ejercicio 4.5: Para tratar la meningitis bacteriana es vital aplicar con urgencia un
tratamiento con antibióticos. Por ello, es importante distinguir lo más rápidamente posible
este tipo de meningitis de la meningitis vírica. Con el fin de resolver este problema se ajustó
con R un modelo de regresión logística a las siguientes variables medidas en 164 pacientes
del Duke University Medical Center:
Nombre variable Descripción

age Edad en años
bloodgl Concentración de glucosa en la sangre
gl Concentración de glucosa en el líquido cefalorraquídeo
pr Concentración de proteína en el líquido cefalorraquídeo
whites Leucocitos por mm 3 de líquido cefalorraquídeo
polys Porcentaje de leucocitos que son leucocitos polimorfonucleares
abm Tipo de meningitis: bacteriana (abm=1) o vírica (abm=0)
El resultado del ajuste se muestra a continuación (algunos valores se han sustituido por
letras):
94
a) Calcula el valor de A en la salida anterior sabiendo que hay 68 pacientes con menin-
gitis bacteriana en la muestra.
b) Calcula el valor de B en la salida anterior. A nivel α = 0.1, ¿puede afirmarse que al
aumentar la cantidad de leucocitos en el líquido cefalorraquídeo disminuye la probabilidad
de que la meningitis sea de tipo vírico?
c) En un análisis realizado a un paciente de 15 años se han determinado los siguientes
bloodgl 119
gl 72
valores para el resto de variables: pr 53
whites 262
polys 41
¿En cuál de los dos tipos de meningitis debe clasificarse este paciente?
68
Tenemos k = 6 y una proporción de 164 individuos con meningitis bacteriana.
A PARTADO A )
Null deviance ≡ A ≡ D02 ≡ −2 log(B̂ (0) ) bajo H0 : β1 = ... = βk = 0
iid
Bajo H0 , Y1 , .., Yn ∼ B(1, p).
68
El E.M.V. de p es p̂ = 164 , entonces:
n n
Y
Yi 1−Yi
X 68
L(p) = p (1−p) → L(p̂) = Yi log(p̂) + (1 − Yi ) log(1 − p̂) = 68 log +(164−68) log 1 −
164 1
i=1 i=1
A PARTADO B )
B es el estadístico de Wald para la variable “white”
¿Cuál es nuestra H0 ? Tenemos que si aumenta “white”, entonces P (Y = 0|x) dismi-
nuya. Esto no es la hipótesis nula, sino la hipótesis alternativa. Para construir la hipó-
tesis nula, si “white” aumenta, etonces H0 : P (Y = 1|x) disminuya ⇐⇒ β5 ≤ 02
β̂5 0.00079971
Entonces B = z = = 0.0005108 ' 1.56
e.t.(β̂5 )
Para el contraste con α = 0.1 y H0 : β5 ≤ 0.
R = {}
A PARTADO C )
6
X
βˆ0 + β̂i xi = ... = −4.3136 < 0
i=1
Al ser negativo, lo clasificamos como vírico.
2
Es importante darnos cuenta de que 0 es vírico y 1 bacteriano, al revés que la pregunta
95
Ejercicio 4.6:
Supongamos que la distribución de X condicionada a Y = 1 es normal con vector de
medias µ 1 y matriz de covarianzas Σ, mientras que la distribución de X condicionada
a Y = 0 es normal con vector de medias µ 0 y la misma matriz de covarianzas Σ (caso
homocedástico). Demuestra que el error de la regla Bayes (error Bayes) del correspondiente
problema de clasificación es:
donde ∆2 = (µ0 −µ1 )Σ−1 (µ0 −µ1 ) es el cuadrado de la distancia de Mahalanobis entre
los dos vectores de medias y Φ es la función de distribución de una v.a. normal estándar. (Se
supone que las probabilidades a priori de ambas poblaciones son iguales, π 0 = π 1 = 1/2)
En este caso, la regla de bayes es la regla de Fisher.

Definimos g ∗ : Rk 7−→ {0, 1} definida como:

 1 ω0 x − µ0 +µ1
>0

2
g∗ = donde ω = Σ−1 (µ1 − µ0 )
 0 ω0 x − µ0 +µ1

2 ≤0
Para calcular el error, L∗ = P (g ∗ (x) 6= Y ) = P (g ∗ (x) = 1, Y = 0) + P (g ∗ (x) = 0Y =

1).
Vamos a calcular sólo uno de ellos:
P (g ∗ (x) = 1, Y = 0) = P (g ∗ (x) = 1|Y = 0) P (Y = 0)

| {z }
1
2
Por otro lado,
!
∗ 0 µ0 + µ 1
P (g (x) = 1|Y = 0) = P ω x− > 0|Y = 0
2

µ0 + µ1
0
¿Y cuál es la distribución de ω x − |Y =0 ? Es una normal (no se muy bien
2
porqué)
Ahora, calculamos la media

0 µ0 + µ 1 1 1
ω x− = (µ1 − µ0 )0 Σ−1 (µ0 − µ1 ) = ... = − ∆
2 2 2
y la varianza:
V ω 0 x|Y = 0 = ω 0 Σω = ... = ∆2

Entonces,

0 µ0 + µ1 1 2
ω x− |Y =0 ≡ N − ∆, ∆
2 2
96
Por último , siendo z ∼ N (0, 1)
 
∆2
0− − 2 
!
µ0 + µ1 1 ∆
P ω0 x − > 0|Y = 0 = P z > = P z > = 1−Φ

2 1 2 2

1
¿Tiene esto sentido? L∗ es una función decreciente de ∆ = (µ1 − µ0 )0 Σ−1 (µ1 − µ0 ) 2 .
Esto quiere decir que si µ0 = µ1 (y como teníamos Σ1 = Σ2 = Σ), necesariamente
L∗ = 12 . 3 . Por otro lado, cuando ∆ → ∞, tenemos un error que tiende a 0, consecuencia
con sentido también.
3
Si las distribuciones son exactamente iguales, no tenemos manera de distinguirlas
97
Apéndice B
Recordando
Esta sección ha sido obtenida de [Julián Moreno, 2013]
B.1. Estimador de máxima verosimilitud
En lo que sigue vamos a suponer que {Xn } es una muestra formada por v.a.i.i.d.
cuya distribución tiene una función de densidad o de masa f (.; θ0 ) perteneciente a una
familia de funciones {f (.; θ) θ ∈ Θ}. θ0 nos indica el valor real, y θ es un parámetro
genérico.
Intuitivamente, lo que pensamos con este método es que la función de masa mide
lo verosímil que es que salga un cierto parámetro.
Función de Definición B.1.1 Función de verosimilitud. También llamada likelihood function. Dada una
verosimili- muestra fija {xn }, se define como
tud
n
Y
Ln (θ; x1 , . . . , xn ) = Ln (θ) = f (xi ; θ)
i=1
Estimador Definición B.1.2 Estimador de máxima verosimilitud. También llamado EMV o MLE (ma-
de máxima ximum likelihood estimator) es el argumento que maximiza la función de verosimilitud:
verosimili-
tud
θ̂n = θ̂n (x, . . . , xn ) = arg max Ln (θ; x1 , . . . , xn )
θ∈Θ
cuando ese máximo está bien definido.

Para evitar usar derivadas en un producto potencialmente muy largo, podemos ma-
ximizar el logaritmo de la verosimilitud, que es creciente y está bien definido porque la
densidad es siempre mayor que cero, y los casos en los que sea cero no los estudiamos
porque no ocurren (ocurren con probabilidad 0).
98 de 117
Apéndice C
Distribuciones, tablas
99 de 117
Tabla de la distribución Chi-cuadrado
g=grados de libertad p=área a la derecha

El valor x de la tabla cumple que para X es chi-cuadrado con g grados de libertad P(X>x)=p
p
g 0.001 0.025 0.05 0.1 0.25 0.5 0.75 0.9 0.95 0.975 0.999
1 10.827 5.024 3.841 2.706 1.323 0.455 0.102 0.016 0.004 0.001 0
2 13.815 7.378 5.991 4.605 2.773 1.386 0.575 0.211 0.103 0.051 0.002
3 16.266 9.348 7.815 6.251 4.108 2.366 1.213 0.584 0.352 0.216 0.024
4 18.466 11.143 9.488 7.779 5.385 3.357 1.923 1.064 0.711 0.484 0.091
5 20.515 12.832 11.07 9.236 6.626 4.351 2.675 1.61 1.145 0.831 0.21
6 22.457 14.449 12.592 10.645 7.841 5.348 3.455 2.204 1.635 1.237 0.381
7 24.321 16.013 14.067 12.017 9.037 6.346 4.255 2.833 2.167 1.69 0.599
8 26.124 17.535 15.507 13.362 10.219 7.344 5.071 3.49 2.733 2.18 0.857
9 27.877 19.023 16.919 14.684 11.389 8.343 5.899 4.168 3.325 2.7 1.152
10 29.588 20.483 18.307 15.987 12.549 9.342 6.737 4.865 3.94 3.247 1.479
11 31.264 21.92 19.675 17.275 13.701 10.341 7.584 5.578 4.575 3.816 1.834
12 32.909 23.337 21.026 18.549 14.845 11.34 8.438 6.304 5.226 4.404 2.214
13 34.527 24.736 22.362 19.812 15.984 12.34 9.299 7.041 5.892 5.009 2.617
14 36.124 26.119 23.685 21.064 17.117 13.339 10.165 7.79 6.571 5.629 3.041
15 37.698 27.488 24.996 22.307 18.245 14.339 11.037 8.547 7.261 6.262 3.483
16 39.252 28.845 26.296 23.542 19.369 15.338 11.912 9.312 7.962 6.908 3.942
17 40.791 30.191 27.587 24.769 20.489 16.338 12.792 10.085 8.672 7.564 4.416
18 42.312 31.526 28.869 25.989 21.605 17.338 13.675 10.865 9.39 8.231 4.905
19 43.819 32.852 30.144 27.204 22.718 18.338 14.562 11.651 10.117 8.907 5.407
20 45.314 34.17 31.41 28.412 23.828 19.337 15.452 12.443 10.851 9.591 5.921
21 46.796 35.479 32.671 29.615 24.935 20.337 16.344 13.24 11.591 10.283 6.447
22 48.268 36.781 33.924 30.813 26.039 21.337 17.24 14.041 12.338 10.982 6.983
23 49.728 38.076 35.172 32.007 27.141 22.337 18.137 14.848 13.091 11.689 7.529
24 51.179 39.364 36.415 33.196 28.241 23.337 19.037 15.659 13.848 12.401 8.085
25 52.619 40.646 37.652 34.382 29.339 24.337 19.939 16.473 14.611 13.12 8.649
26 54.051 41.923 38.885 35.563 30.435 25.336 20.843 17.292 15.379 13.844 9.222
27 55.475 43.195 40.113 36.741 31.528 26.336 21.749 18.114 16.151 14.573 9.803
28 56.892 44.461 41.337 37.916 32.62 27.336 22.657 18.939 16.928 15.308 10.391
29 58.301 45.722 42.557 39.087 33.711 28.336 23.567 19.768 17.708 16.047 10.986
30 59.702 46.979 43.773 40.256 34.8 29.336 24.478 20.599 18.493 16.791 11.588
35 66.619 53.203 49.802 46.059 40.223 34.336 29.054 24.797 22.465 20.569 14.688
40 73.403 59.342 55.758 51.805 45.616 39.335 33.66 29.051 26.509 24.433 17.917
45 80.078 65.41 61.656 57.505 50.985 44.335 38.291 33.35 30.612 28.366 21.251
50 86.66 71.42 67.505 63.167 56.334 49.335 42.942 37.689 34.764 32.357 24.674
55 93.167 77.38 73.311 68.796 61.665 54.335 47.61 42.06 38.958 36.398 28.173
60 99.608 83.298 79.082 74.397 66.981 59.335 52.294 46.459 43.188 40.482 31.738
65 105.988 89.177 84.821 79.973 72.285 64.335 56.99 50.883 47.45 44.603 35.362
70 112.317 95.023 90.531 85.527 77.577 69.334 61.698 55.329 51.739 48.758 39.036
75 118.599 100.839 96.217 91.061 82.858 74.334 66.417 59.795 56.054 52.942 42.757
80 124.839 106.629 101.879 96.578 88.13 79.334 71.145 64.278 60.391 57.153 46.52
85 131.043 112.393 107.522 102.079 93.394 84.334 75.881 68.777 64.749 61.389 50.32
90 137.208 118.136 113.145 107.565 98.65 89.334 80.625 73.291 69.126 65.647 54.156
95 143.343 123.858 118.752 113.038 103.899 94.334 85.376 77.818 73.52 69.925 58.022
100 149.449 129.561 124.342 118.498 109.141 99.334 90.133 82.358 77.929 74.222 61.918
Apéndice D
Prácticas
Se incluyen las soluciones de las prácticas:
101 de 117
Práctica 1 Estadística II
Alberto Parramón Castillo
Introducimos en una variable los datos de la tabla Iris. Sólo las 50 primeras filas, menos la quinta columna:
longitud del sépalo - anchura del sépalo - longitud del pétalo - anchura del pétalo
datos <- iris[1:50,-5]

head(datos)
## Sepal.Length Sepal.Width Petal.Length Petal.Width

## 1 5.1 3.5 1.4 0.2
## 2 4.9 3.0 1.4 0.2
## 3 4.7 3.2 1.3 0.2
## 4 4.6 3.1 1.5 0.2
## 5 5.0 3.6 1.4 0.2
## 6 5.4 3.9 1.7 0.4
Ejercicio 1
Calcula el vector de medias muestral y las matrices de covarianzas y de correlaciones (cor) muestrales. ¿Entre
qué par de variables es más alta la correlación? ¿Qué variable tiene la mayor varianza?
A) Vector de medias:
mediasIris <- colMeans(datos)

mediasIris

## 5.006 3.428 1.462 0.246
B) Matriz de covarianzas:
covIris <- cov(datos)

covIris

## Sepal.Length 0.12424898 0.099216327 0.016355102 0.010330612
## Sepal.Width 0.09921633 0.143689796 0.011697959 0.009297959
## Petal.Length 0.01635510 0.011697959 0.030159184 0.006069388
## Petal.Width 0.01033061 0.009297959 0.006069388 0.011106122
C) Matriz de correlaciones:
corIris <- cor(datos)

corIris
1
## Sepal.Length 1.0000000 0.7425467 0.2671758 0.2780984
## Sepal.Width 0.7425467 1.0000000 0.1777000 0.2327520
## Petal.Length 0.2671758 0.1777000 1.0000000 0.3316300
## Petal.Width 0.2780984 0.2327520 0.3316300 1.0000000
D) ¿Entre qué par de variables es más alta la correlación?
Entre longitud de sepalos y anchura de sepalos: 0.7425467
E) ¿Qué variable tiene la mayor varianza?
La anchura de sepalos
Ejercicio 2
Calcula las distancias de Mahalanobis entre cada uno de los lirios y el vector de medias. Representa los datos,
usando el color rojo para el 25 % de los lirios más lejanos al vector de medias.
A) Utilizamos la función de Mahalanobis con parámetros: los datos, el vector de medias, y la matriz de
covarianzas:
distancias <- mahalanobis(datos, mediasIris, covIris)
B) Utilizamos la función summary, que nos devuelve un vector cuyo quinto elemento es el tercer cuartil
de los datos que le hayas pasado por argumento, en este caso las distancias.
cuartil3 <- summary(distancias)[5]
Creamos el vector de colores y pintamos con plot:
colores <- vector('character', length=50)

for(i in 1:50){
if(distancias[i]>cuartil3){
colores[i] <- 'red'
}else{
colores[i] <- 'black'
}
}
pairs(datos, col=colores)
2
2.5 3.0 3.5 4.0 0.1 0.3 0.5
5.5
Sepal.Length
4.5
3.5
Sepal.Width
2.5
1.8
Petal.Length
1.4
1.0
0.5
Petal.Width
0.3
0.1
4.5 5.0 5.5 1.0 1.2 1.4 1.6 1.8
Ejercicio 3
Representa un histograma de las distancias y compáralo con la función de densidad de una variable χ2 con 4
grados de libertad.
hist(distancias, col = "green", breaks = 8, freq=FALSE)

curve( dchisq(x, df=4), col='red', add=TRUE)
3
Histogram of distancias
0.15
0.10
Density
0.05
0.00
0 2 4 6 8 10 12 14
distancias
Ejercicio 4
Genera 100 observaciones con distribución normal bidimensional con vector de medias el origen y matriz de
covarianzas:
10 3
Σ=
3 1
Representa la nube de puntos generados, su vector de medias y su matriz de covarianzas.
A) Obtenemos las 100 observaciones a partir de los datos del enunciado, siendo mu el vector de medias,
sigma la matriz de covarianzas y n el número de observaciones:
set.seed(9111) #Esto establece una semilla para que siempre salgan los mismos datos aleatorios
library(MASS) #paquete necesario
n <-100
mu <- c(0,0)
sigma <-matrix(c(10,3,3,1),2)
datos2 <- mvrnorm(n,mu,sigma)
Representamos la nube de puntos:
plot(datos2)
4
2
1
datos2[,2]
0
−1
−2
−5 0 5
datos2[,1]
B) Calculamos y representamos su vector de medias obtenido con los datos generados
medias = colMeans(datos2)
medias
## [1] 0.5300716 0.1524980
C) Calculamos y representamos la matriz de covarianza obtenida con los datos generados
covarianza = cov(datos2)
covarianza
## [,1] [,2]
## [1,] 8.669332 2.3585971
## [2,] 2.358597 0.7536912
Ejercicio 5
Para la misma distribución del apartado anterior, calcula el valor esperado teórico de la segunda coordenada
respecto de la primera. Si no lo conocieras y solo dispusieras de los datos generados. ¿Cómo lo estimarías?
Calcula el valor resultante para el estimador que has propuesto.
Si suponemos que queremos calcular el valor esperado de X2 |X1 . Utilizaremos las siguientes fórmulas
generales.
µ2.1 = µ2 + Σ21 Σ−1
11 (X1 − µ1 )
Σ2.1 = Σ22 − Σ21 Σ−1

11 Σ12
A) Valor esperado teórico para X2 |X1 , tenemos el vector de medias y la matriz de covarianzas siguiente:
5

0 10 3
µ= ,Σ=
0 3 1
Obtenemos:
3
µ2.1 = 0 + (X1 )
10
3 1
Σ2.1 =1− 3=
10 10
B) Valor esperado estimado a partir de las observaciones para X2 |X1 , tenemos el vector de medias y la
matriz de covarianzas siguiente:

0.53 8.66 2.35
µ= ,Σ=
0.15 2.35 0.75
Obtenemos:
2.35
µ2.1 = 0.15 + (X1 − 0.53) = 0.006 + 0.27X1
8.66
2.35
Σ2.1 = 0.75 − 2.35 = 0.11
8.66
6
Práctica 2 Estadística II
Alberto Parramón Castillo
En primer lugar cargamos los datos en la variable goles0809
load('goles0809.RData')
Contrastes basados en la distribución χ2
Ejercicio 1
Contrasta si la diferencia de goles entre los dos equipos que juegan cada partido sigue una distribución
uniforme.
Así tenemos como hipótesis nula: H0 : X ∼ U nif orme.
Guardamos los goles en casa y los goles fuera de casa en variables diferentes. Los restamos y sacamos su
valor absoluto (ya que lo que nos importa es la diferencia y no el el signo), después clasificamos esos goles en
una tabla:
golesCasa <- goles0809$casa

golesFuera <- goles0809$fuera
difGoles <- golesCasa - golesFuera
difGoles <- abs(difGoles)
difGoles <- table(difGoles)
difGoles
## difGoles
## 0 1 2 3 4 5 6
## 83 160 78 38 13 5 3
Agrupamos las dos ultimas columnas en una sola:
difGoles <- c(difGoles[1:5], sum(difGoles[6:7]))

names(difGoles)[6] <- '>4'
difGoles
## 0 1 2 3 4 >4
## 83 160 78 38 13 8
Por defecto la función chisq.test te calcula la diferencia de goles suponiendo una distribución uniforme :
chisq.test(difGoles)
##
## Chi-squared test for given probabilities
##
## data: difGoles
## X-squared = 255.53, df = 5, p-value < 2.2e-16
Sale un p-valor muy cercano a 0, por tanto para casi cualquier nivel de significación α se rechaza la hipótesis
nula. Rechazamos la idea de que la diferencia de goles siga una distribución uniforme.
1
Ejercicio 2
Contrasta si la diferencia de goles entre los dos equipos que juegan cada partido sigue una distribución de
Poisson.
Así tenemos como hipótesis nula: H0 : X ∼ P oisson(lambda).
Al igual que antes sacamos la tabla de los goles:
difGoles <- golesCasa - golesFuera

difGoles <- abs(difGoles)
difGoles <- table(difGoles)
Ahora calculamos el EMV de λ:
clases = seq(0,6)
n = sum(difGoles)
lambda = sum(clases*difGoles)/n
lambda
## [1] 1.381579
Calculamos las probabilidades estimadas de cada clase, así como las esperanzas estimadas de cada clase:
prob = dpois(clases, lambda)

esp = n*prob
esp
## [1] 95.449022 131.870360 91.094656 41.951486 14.489823 4.003767

## [7] 0.921920
Agrupamos las clases 6 y 7 ya que valen menos de 5.
difGoles <- c(difGoles[1:5], sum(difGoles[6:7]))

prob <- c(prob[1:5], 1-sum(prob[1:5]))
esp <- c(esp[1:5], n-sum(esp[1:5]))
Obtenemos el estadístico y el p-valor, pero el p-valor que obtiene R en las hipótesis nulas compuestas no es
correcto. Por ello lo calculamos con la tabla de la χ2 con k − 1 − r grados de libertad. Como k=6 (que son
las clases) y r=1 (que es la dimensión del EMV), nos queda 4:
t=chisq.test(difGoles, p=prob)$statistic
pvalor = 1-pchisq(t,4)
pvalor
## X-squared
## 0.02044257
El p-valor es 0.02, por tanto, a veces rechazaríamos la hipótesis nula, es decir, rechazaríamos que los datos
siguen una distribución de Poisson, y otras veces no. Dependerá del nivel de significación que queramos
asumir, para niveles de significacion α > 0.02 rechazaríamos la hipótesis nula.
2
Por ejemplo, si tenemos un nivel de significación α = 0.01, no rechazaríamos la hipótesis nula, ya que α = 0.01
quiere decir que queremos rechazar la hipótesis nula con una probabilidad máxima de equivocarnos del 1%,
sin embargo, el análisis que hemos obtenido, nos da un p − valor = 0.02, eso quiere decir, que al menos
tenemos que afrontar una probabilidad de equivocarnos al rechazar la hipótesis nula de un 2%.
Con nivel de significación α = 0.05 si rechazaríamos la hipótesis nula, ya que asumimos una probabilidad
máxima de equivocarnos del 5% y el p-valor nos dice que tenemos solo un 2% de probabilidades de equivocarnos.
Contraste de Kolmogorov-Smirnov
ksnoest <- function(datos){

y <- ks.test(datos,pnorm)$statistic
return(y)
}
ksest <- function(datos){

mu <- mean(datos)
stdev <- sd(datos)
y <- ks.test(datos, pnorm, mean=mu, sd=stdev)$statistic
return(y)
}
B <- 1000
n <- 20
datos <- matrix(rnorm(n*B), n)
test <- apply(datos, 2, ksest) #El 2 es para hacerlo por columnas
tnoest <- apply(datos, 2, ksnoest)
boxplot(test, tnoest, names=c("Estimado", "Sin estimar"))

0.4
0.3
0.2
0.1
Estimado Sin estimar
3
Ejercicio 1
Claramente las distribuciones de test y de tnoest son diferentes, por lo que no podemos usar las mismas
tablas para hacer el contraste en las dos situaciones. ¿En cuál de los dos casos se obtienen en media valores
menores? ¿Podrías dar una razón intuitiva?
Lo que representamos en las cajas es el valor del estadístico. De media se obtienen valores más pequeños en
el estimado.
Sabemos que un valor del estadístico pequeño implica un p-valor grande, y un p-valor grande implica que la
probabilidad de equivocarnos si decidimos rechazar la hipótesis nula es grande. Por otro lado, sabemos que el
p-valor (y por tanto el valor del estadístico) dependen de los datos de partida y de la hipótesis nula. En este
caso, los datos de partida son los mismos en ambos casos (ambos proceden de generaciones aleatorias de
muestras de una N (0, 1)) por tanto la diferencia entre la primera caja y la segunda esta relacionada con la
hipótesis nula (H0 ):
En la segunda caja (Sin estimar), simplemente comparamos los datos aleatorios que generamos con una
distribución N (0, 1), por tanto, los datos pueden haber salido un poco diferentes a esa N (0, 1), ya que son
aleatorios; pero como provienen precisamente de una N (0, 1) es de esperar que se parezcan bastante a esta y
que el valor del estadístico sea bastante grande, y que el p-valor sea por tanto bastante pequeño.
Mientras que en la primera caja (Estimado) estimamos la media y la desviación típica de los datos, y después
suponemos como H0 que los datos siguen una distribución normal de media y desviación típica las estimadas
a partir de los datos. Por tanto, es natural que los datos se parezcan mucho más a esa distribución dada por
H0 que los de la segunda caja, y por tanto, es bastante intuitivo pensar que el p-valor va a salir bastante
grande, y por tanto el valor del estadístico bastante pequeño.
En ambos casos, seguramente no rechazaríamos la hipótesis nula para valores de α habituales (0.01 o 0.05).
Ejercicio 2
Imagina que estimamos los parámetros y usamos las tablas de la distribución del estadístico de Kolmogorov-
Smirnov para hacer el contraste a nivel α. El verdadero nivel de significación, ¿es mayor o menor que
α?
En la caja de los estimados tenemos los valores de los estadísticos más pequeños que en la caja de los
contrastes sin estimar. Por tanto, los p-valores son más altos en los contrastes estimados que en los que están
sin estimar. Por tanto, para un α en los estimados, el α que salga en los que están sin estimar será más
pequeño.
Esto es intuitivo si volvemos a interpretar α como la probabilidad máxima que queremos asumir de equivocarnos
al rechazar la hipótesis nula. Como hemos visto antes, la hipótesis nula es menos rechazable en de los contrastes
con los datos estimados que en los que están sin estimar. Por tanto, escojo un valor α en los estimados, que
representará una probabilidad máxima de equivocarme al rechazar H0 de un x%. Este α escogido llevará
asociado un nivel cítico (valor en la tabla) en el contraste de los datos estimados, y ese mismo nivel crítico en
el contraste de los parámetros sin estimar llevará asociado un valor α más pequeño que el anterior. Esto es
razonable ya que en el contraste sin estimar la probabilidad de equivocarnos al rechazar H0 es algo menor.
Ejercicio 3
Para resolver el problema se ha estudiado la distribución en el caso de muestras normales con parámetros
estimados. Es lo que se conoce como contraste de normalidad de Kolmogorov-Smirnov-Lilliefors (KSL) (véase,
por ejemplo, Peña (2001), pag. 471 y Tabla 9). Según la tabla del estadístico KSL, el nivel crítico para
α = 0.05 y n = 20 es 0.190. Esto significa que el porcentaje de valores test} mayores que 0.19 en nuestra
simulación debe ser aproximadamente del 5%. Compruébalo haciendo sum(test > 0.19)/B}. Haz una pequeña
4
simulación similar a la anterior para aproximar el nivel de significación del contraste KSL cuando se utiliza
un valor crítico 0.12 para muestras de tamaño 40.
Si asumimos un α = 0.05 es que asumimos una probabilidad máxima de equivocarnos al rechazar H0 del 5%.
Vamos a contrastar datos que provienen de una distribución normal, con la hipótesis nula de que siguen una
distribución normal de parámetros µ y sd estimados empirícamente. Por tanto, si rechazamos H0 claramente
nos estamos equivocando, y la prbabilidad de equivocarnos al rechazar H0 viene determinada por α. Por
tanto, si α = 0.05, lleva asociado un nivel crítico de 0.19, quiere decir que sólo nos vamos a encontrar con
datos que provoquen un valor estadístico T>0.19 (es decir, entrando en la región de rechazo) en un 5% de los
casos que estudiemos.
Lo comprobamos:
B <- 1000
n <- 20
test <- apply(datos, 2, ksest)
sum(test>0.19)/B
## [1] 0.056
Ahora vamos a calcular α sabiendo que el nivel crítico es 0.12 y las muestras son de tamaño n=40:
B <- 1000
n <- 40
test <- apply(datos, 2, ksest)
alpha = sum(test>0.12)/B
#Mostramos el valor de alpha:
alpha
## [1] 0.135
Ejercicio 4
Genera B = 10000 muestras de tamaño n = 30 de una distribución exponencial de media 1 y utilízalas

para determinar en este caso la potencia aproximada del test de Kolmogorov-Smirnov con α = 0.05 para
H0 ≡ N (1, 1). El comando rexp() puede utilizarse para generar los datos exponenciales).
Obtenemos de la tabla de Kolmogorov-Smirnov el valor para α = 0.05: Dα=0.05 = 0.24.
Comprobamos que 0.24 es el nivel crítico para α = 0.05, para ello, generamos muestras de una N(1,1) y
comprobamos que la probabilidad de rechazar H : 0 siendo esta verdadera es de un 5%:
ksej4_1 <- function(datos){

y <- ks.test(datos, pnorm, mean=1, sd=1)$statistic
return(y)
}
B <- 10000
n <- 30
datos <- matrix(rnorm(n*B, mean=1, sd=1), n)
test <- apply(datos, 2, ksej4_1)
sum(test>0.24)/B
5
## [1] 0.0483
Vemos que nos sale aproximadamente un 5%. Ahora vamos con los que nos pide el enunciado. La potencia
del contraste es ver cuántas veces se rechaza la hipótesis nula:
ksej4_2 <- function(datos){

y <- ks.test(datos, pnorm, mean=1, sd=1)$statistic
return(y)
}
B <- 10000
n <- 30
datos <- matrix(rexp(n*B), n)
test <- apply(datos, 2, ksej4_2)
sum(test>0.24)/B
## [1] 0.2886
Por tanto tenemos una potencia del contraste de aproximadamente un 29%
Hoja 2 de ejercicios
Ejercicio 9
A finales del siglo XIX el físico norteamericano Newbold descubrió que la proporción de datos que empiezan
por una cifra d, p(d), en listas de datos correspondientes a muchos fenómenos naturales y demográficos es
aproximadamente:
d+1
p(d) = log10 , (d = 1, 2, ..., 9)
d
Por ejemplo, p(1) = log10 2 ≈ 0, 301030 es la frecuencia relativa de datos que empiezan por 1. A raíz de
un artículo publicado en 1938 por Benford, la fórmula anterior se conoce como ley de Benford. El fichero
poblacion.RData incluye un fichero llamado poblaciones con la población total de los municipios españoles, así
como su población de hombres y de mujeres. (Indicación: Puedes utilizar, si te sirven de ayuda, las funciones
del fichero benford.R).
Aquí tenemos las funciones del fichero benford.R
#----------------------------------------------------
#
# Una funcion para contar las frecuencias:
# Dado un vector x, esta funcion calcula la frecuencia de valores
# que empiezan por 1, 2, ..., 9
#
#-----------------------------------------------------
benford = function(x){
n = length(x)
proporcion = numeric(9)
for (i in 1:9){
proporcion[i] = sum(substr(x,1,1)==as.character(i))
}
6
return(proporcion)
}
#---------------------------------------------------------------
# Una funcion para contar las frecuencias de los dos primeros digitos
# Dado un vector x, esta funcion calcula la tabla de frecuencias de los valores
# de los pares (i,j) donde i = 1, 2, ..., 9 y j = 0, 1, ..., 9
# (solo considera valores mayores o iguales que 10)
#
#------------------------------------------------------------------
benford2 = function(x){
x = x[x>=10]
n = length(x)
proporcion = matrix(0,9,10)
digitos = substr(x,1,2)
for (i in 1:9){
for (j in 1:10){
proporcion[i,j] = sum(digitos==paste(i,j-1,sep=''))/n
}
}
colnames(proporcion) = paste(0:9)
rownames(proporcion) = paste(1:9)
return(proporcion)
}
En primer lugar cargamos el fichero benford.R
load('poblacion.RData')
A) Contrasta a nivel α = 0,05 la hipótesis nula de que la población total se ajusta a la ley de Benford.
Definimos una función que nos devuelve las probabilidades de cada clase (dígito) según H0 , es decir, suponiendo
que los dígitos siguen la distribución dada por Benford:
probBenford = function(){
proporcion = numeric(9)
for (i in 1:9){
proporcion[i] = log10((i+1)/i)
}
return(proporcion)
}
Utilizamos el contraste de bondad de ajuste basados en la distribución χ2 .
pobTotalFrecuencias <- benford(poblaciones$pobtotal)

prob = probBenford()
chisq.test(pobTotalFrecuencias, p=prob)
##
7
##
## data: pobTotalFrecuencias
## X-squared = 13.5, df = 8, p-value = 0.09575
Como el p-valor es 0.095, que es mayor que 0.05, no podemos rechazar la hipótesis nula H0 a nivel de
significacion α = 0.05.
B) Repite el ejercicio pero considerando sólo los municipios de más de 1000 habitantes.
pob1000 = poblaciones$pobtotal[poblaciones$pobtotal > 1000]

pob1000Frecuencias <- benford(pob1000)
prob = probBenford()
chisq.test(pob1000Frecuencias, p=prob)
##
##
## data: pob1000Frecuencias
## X-squared = 298.91, df = 8, p-value < 2.2e-16
Como el p-valor es 2.2e-16, que es menor que 0.05, podemos rechazar la hipótesis nula H0 a nivel de
C) Considera las poblaciones totales (de los municipios con 10 o más habitantes) y contrasta a nivel α =
0,05 la hipótesis nula de que el primer dígito es independiente del segundo.
n = length(poblaciones$pobtotal[poblaciones$pobtotal >= 10])

frecuencias = n*benford2(poblaciones$pobtotal)
chisq.test(frecuencias)
##
## Pearson's Chi-squared test
##
## data: frecuencias
## X-squared = 120.52, df = 72, p-value = 0.0002974
Como el p-valor es 0.0002974, que es menor que 0.05, podemos rechazar la hipótesis nula H0 a nivel de
8
Bibliografía
Guillermo Julián Moreno. Apuntes Estadística I. http://github.com/Vicdejuan/

Apuntes, 2013. Apuntes UAM.
116 de 117
Índice alfabético
Correlación, 4
Diagnóstico del modelo, 45
estadístico de Pearson, 14
Estadístico Kolmogorov-Smirnov, 25
Estimador
de máxima verosimilitud, 98
Función
de verosimilitud, 98
intervalo de predicción, 44
Mínimos cuadrados ponderados, 77
Recta de mínimos cuadrados, 35

Residuo, 36
T = valor Estadístico, 13
varianza residual, 42
117

Capitulo 1 Distribucion Normal Multivariante

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 1 Distribucion Normal Multivariante

Cargado por

Copyright:

Formatos disponibles

Estadística II - 2014/2015 2o cuatrimestre - UAM Víctor de Juan

Distribución normal multivariante

1. Esperanza, varianza y covarianza de variables aleatorias

Dada una variable aleatoria definimos:

Varianza: V ar(X) = E((X − E(X))2 ) = E((X − µ)2 ) = E(X 2 ) − µ2

2. Esperanza, varianza y covarianza de vectores aleatorios

Un vector aleatorio es un vector de variables aleatorias.

X = (X1 , X2 , ..., Xp )0 será un vector de p variables aleatorias. Las variables alea-

Si A es una matriz, A’ es su traspuesta

Por tanto, dado un vector de p variables aleatorias (vector aleatorio p-dimensional),

E(X) = µ = (µ1 , µ2 , ..., µp )0

Donde cada µi = E(Xi ).

1. E(X + c) = E(X) + c. Como en el caso de variables aleatorias.

V ar(X) = E (X − µ)(X − µ)0 = E(XX 0 ) − µµ0 = Σ

V ar(X) = E (X − µ)(X − µ)0 = E(XX 0 − µX 0 − Xµ0 + µµ0 ) =

E(XX 0 ) − E(µX 0 ) − E(Xµ0 ) + E(µµ0 ) = E(XX 0 ) − µE(X 0 ) − µ0 E(X) + µµ0 =

Mirar si tiene importancia lo de Σ semidefinida positiva y tal

La función característica de un vector aleatorio X es:

Proposición 3.1. Sean X e Y dos vectores aleatorios:

Proposición 3.2. Mecanismo de Cramer-Wold: Dados dos vectores aleatorios X e Y: preguntar

⇒) Aplicamos la función característica y tenemos que:

φa0 X (t)φa0 Y (t) ∀t ∈ R

Por tanto, también es cierto para t=1:

Esta función caracteriza la distribución de X:

Como ya dijimos anteriormente la matriz de covarianzas Σ define la varianza de un

Siendo D una matriz diagonal.

Σ = CDC 0 y Σ−1 = CD−1 C 0

Proposición 5.1. Si X ≡ Np (µ, Σ) y definimos Y = Σ−1/2 (X − µ), entonces Y1 , ..., Yp son

Vamos a aplicar un cambio de variable en la fórmula de la densidad:

Por ser Σ simétrica tenemos que: Σ = Σ0

Multiplicamos un vector columna por un vector fila, sería al reves no?

Observación: Si X ≡ Np (µ, Σ) y definimos Y = Σ−1/2 (X −µ), entonces Y ≡ Np (0p , Ip ).

Usamos que Σ es simétrica:

1. Y = (X − µ). Aquí lo que hacemos es simplemente una traslación del vector X.

2. Y = C 0 (X − µ). Aquí giramos los datos. C’ es una matriz de giro ya que su

4. Y = CD−1/2 C 0 (X − µ). Deshacemos el giro de antes. Calculamos la varianza:

1. Si X ≡ Np (µ, Σ), entonces E(X) = µ y V ar(X) = Σ.

3. La distribución de (X − µ)0 Σ(X − µ) es χ2p :

6. Transformaciones afines de vectores normales

Proposición 6.1. Si X ≡ Np (µ, Σ), A es matriz qxp y b ∈ Rq , entonces AX + b ≡ Nq (Aµ +

entonces X1 ≡ Nq (µ1 , Σ11 )

Ejemplo: Sea un vector de variables aleatorias Y = (Y1 , Y2 , Y3 , Y4 , Y5 ) tal que Y ≡ N5 (µ, Σ)

Entonces X1 ≡ N3 (µX1 , Σ11 ) para la matriz ΣX .

Proposición 6.2. Si X = (X1 , X2 ) es normal n-dimensional siendo n la suma de la dimension

Si dos variables aleatorias tienen distribución normal y además Cov(X, Y ) = 0,

Si dos variables aleatorias X e Y tienen distribución normal y a, b ∈ R, la combi-

Aunque todas las marginales de un vector aleatorio p-dimensional X tengan dis-

Definimos el siguiente vector aleatorio: X = (X1 , X2 , X3 )0 ≡ N3 (µ, Σ) con:

a) Calcula las distribuciones marginales Xi ≡ N (E(Xi ), V ar(Xi )):

b) Calcula la distribución del vector (X1 , X2 )0 :

Por tanto, (2X1 − X2 + 3X3 ) ≡ N (0, 5)

X2 |X1 ≡ Np−q (µ2.1 , Σ2.1 )

Σ2.1 = Σ22 − Σ21 Σ−1

µ2.1 = E(X2 |X1 ) es una función lineal (afín) de X1

Σ2.1 no depende de X1 (homocedasticidad)

A)Distribución Y |X: Y hace de X2 en la fórmula vista anteriormente (es el segundo ele-

Sea Z1 = X + Y y Z2 = X − Y . Calcula la distribución condicionada de Z1 a Z2 = 1

Y por otro lado:

Por tanto nos queda:

Hipótesis no paramétrica: hipótesis que no se formula en términos de un número

H0 : F = F0 donde F0 es una distribución prefijada.

Ahora vamos a ver la relación entre el p-valor y el nivel de significación:

Consideramos una distribución totalmente especificada bajo F0 . Y consideramos