Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FUNCIONAL
Guido del Pino.M,
Departamento de Estadı́stica
Pontificia Universidad Catolica of Chile
Abstract
Estos apuntes preliminares constituyen la primera parte de un
texto para el curso EYP2425: Análisis de Varianza y Diseño de Exper-
imentos de la Licenciatura en Estadı́stica de la Pontificia Universidad
Católica de Chile. Después de una discusión general sobre la nat-
uraleza de las funciones de regresión se discute la especificación de
dichos modelos en términos funcionales, describiéndose someramente
algunos métodos de estimación de estas funciones. Se parte enun-
ciando un enfoque no paramétrico para la estimación de funciones de
regresión, introduciendo los modelos paramétricos, lineales o no, como
una forma de disminuir la dimensionalidad del problemaa. Finalmente
se entrega la especificación funcional de los modelos lineales.
Se muestra a continuación como deducir la formulación geométrica
del modelo, una vez que se dispone de las observaciones. Se deduce el
estimador de mı́nimos cuadrados en términos de proyecciones ortogo-
nales, y de aquı́ las fórmulas matriciales.
1
• Asociación en el tiempo, por ejemplo los precios del cobre en 10 dı́as
consecutivos.
Hoy en dı́a, la asociación entre m variables aleatorias continuas se expresa
matemáticamente a través de la densidad conjunta f (x) = f (x1 , . . . , xm ).
Esta función está completamente determinada por la familia de conjuntos
de nivel {x : f (x) = c} para todo c > 0, que son curvas en el caso de dos
variables aleatorias X e Y. Un logro sorprendente de Galton es que a partir de
datos empı́ricos conjeturó que las curvas de nivel eran las elipses concéntricas
{(x, y) : Q(x, y) = c}, donde Q es cierta forma cuadrática definida positiva.
El centro de la elipse es la solución de Q(x, y) = 0, mientras que los ejes están
dados por los vectores propios de la matriz que define la forma cuadrática.
Todo esto se puede extender a k variables, en cuyo caso las elipses pasan a ser
elipsoides. Una densidad multivariada, con conjuntos de nivel de esta forma
se denomina distribución elı́ptica, siendo la más conocida la de la distibución
normal multivariada, cuya densidad es
1 1
f (x) = m exp(− Q(x − µ)), (1.1)
(2π det(V )) 2 2
donde Q(z) = z t V −1 z. Se puede demostrar que el vector µ es la me-
dia del vector aleatorio y que V es su matriz de covarianza. Aunque hay
infinitas distribuciones elı́pticas, la normal multivariada es la única tal que
V diagonal es equivalente a la independencia de las variables aleatorias. En
otras palabras, este es un caso muy especial en que correlación 0 implica
independencia. La normal bivariada es el caso particular m = 2 y ella está
determinada por el vector de parámetros θ = (µx , µy , σx , σy , ρ), donde ρ de-
nota la correlación. Estandarizando las variables, es decir restando la media
y dividiendo por la desviación estándar, se obtiene el vector de parámetros
θ = (0, 0, 1, 1, ρ), de modo que la distribución conjunta de las variables es-
tandarizadas está determinada por 0 < ρ < 1. Se puede demostrar que para
cualquier valor de ρ, X e Y tienen distribución N(0, 1). Aplicando (1.1) con
m = 2 se obtiene la densidad conjunta:
1 1
f (x, y) = p exp( Q(x, y)), (1.2)
2π (1 − ρ2 ) 2
con
x2 + y 2 − 2ρxy
Q(x, y) = .
1 − 2ρ2
El parámetro −1 < ρ < 1 determina la orientación de la elipse.
2
1.2 Predicción y estimación
La asociación entre m variables aleatorias es un concepto que las trata de
manera simétrica, por ejemplo, estudiar la asociación entre X e Y lequivale
a estudiar la asociación entre Y y X. Esta simetrı́a se rompe cuando se desea
predecir el valor de una de ellas, Y , denominada variable respuesta en función
de los valores x = (x1 , . . . xk ) de un vector aleatorio de dimensión k = m − 1.
Es importante distinguir dos casos:
(b) x no es aleatorio, sino que está fijo por diseño, por ejemplo cuando él
está bajo control de un experimentador.
3
de los datos. Obtener la mejor predicción de Y cuando se conoce x se reduce
a encontrar la estimación puntual de h(x), la que se puede interpretar como
el valor de la función de regresión estimada ĥ evaluada en x, sobre la base de
n observaciones y1 , . . . , yn . Por otra parte, más allá de la predicción puntual
hay que preocuparse de la variabilidad, cuya descripción completa está dada,
justamente, Qx , distribución que es desconocida, a menos que se impongan
fuertes restricciones. Una descripción parcial es la varianza v(x) = σ 2 (x),
pero nuevamente la función v es desconocida y aún más difı́cil de estimar que
h. En todo caso, esta estimación es mucho más factible que la de la familia
de todas las distribuciones condicionales, a menos que se suponga que ellas
corresponden a una familia paramétrica particular. Cuando X es una vari-
able aleatoria y la distribución de (X, Y ) normalizada es normal bivariada,
h(x) = E(Y |X = x) = ρx, que es una función lineal. Estimar h equivale a
estimar ρ. Además v(x) = 1 − ρ2 .
• v(x) está dada por una fórmula en que aparece muy pocas constantes
desconocidas, por ejemplo, v(x) = α + βx. El caso más sencillo es
β = 0, es decir, la función v es constante, condición que se denomina
homocedasticidad.
4
2 El enfoque funcional
2.1 Enfoque no paramétrico
Denotemos por xi el valor asociado con yi y por X0 = {x1 , . . . , xn } al con-
junto de valores asociados con los yi . Claramente Yi es un estimador ins-
esgado de h(xi ) y cuando hay r observaciones y1 , . . . , yr asociadas con un
valor x ∈ X0 , el estimador natural es el promedio de estas observaciones. Se
puede demostrar que este promedio es el estimador lineal insesgado de var-
ianza uniformemente mı́nima, importante concepto que será retomado más
adelante. En lo que resta de esta sección consideraremos esencialmente solo
el caso univariado, aunque las extensiones al caso de multiples predictores
es inmediata. Más precisamente, X será un intervalo en IR , que contiene
infinitos puntos, mientras que X0 contiene a lo más n puntos. Aunque la es-
timación de h parece un problema insoluble, existe un sinnúmero de métodos
estadı́sticos para llevar esto a cabo. La idea principal es borrowing strength,
es decir , estimar h(x) pidiendo información prestada a lo que se observa en
otros puntos que sı́ estén disponibles.
Suavidad:
En el análisis esploratorio de datos se utiliza el diagrama de dispersión para
analizar la asociación entre las observaciones. A partir de este diagrama se
busca detectar una tendencia, lo que equivale a adivinar la forma de la función
de regresión. Esto se representa geométricamente por la superposición de
una curva a la nube de puntos (xi , yi ), i = 1, . . . , n. En la práctica esta curva
no pasa por todos los puntos, lo que es claramente imposible cuando hay
dos observaciones distintas para un mismo valor de x. Si esta situación no
ocurre, hay infinitas funciones ĥ, cuyo gráfico pase por todos los puntos,
pero esto no tiene, en general, utilidad alguna. Por ejemplo, la tendencia
aparente corresponde a una función de regresión estrictamente creciente y
serı́a muy excepcional que una curva que pasa por todos los puntos satisfaga
esta propiedad. Por otra parte, razones del contexto sugieron normalmente
que la verdadera función de regresión es relativamente suave, e.g., infinita-
mente diferenciable, mientras que tal ĥ es tı́picamente muy irregular.
5
de los puntos) y la suavidad de la curva. Un método en que la búsqueda
de este compromiso resulta evidente es el de mı́nimos cuadrados penalizados,
para el cual ĥ minimiza
S(h) + λG(h),
Pn
donde S(h) = i=1 (yi − h(xi ))2 , G(h) mide la no suavidad de la función h y
λ es un número positivo. Cuanto mayor sea λ la curva será más suave, pero
el ajuste será peor (la suma de cuadrados será mayor). Un ejemplo particular
R b ′′
es G(h) = a (h (x))2 dx. Hay muchos otros métodos que están disponibles en
diversos paquetes estadı́sticos y que también buscan el compromiso señalado.
6
En el caso paramétrico no es necesario introducir un término de penel-
ización para lograr la suavidad, pues ella está asegurada por la fórmula
analı́tica de h(x, ·). Basta entonces minimizar la suma de cuadrados, es decir,
encontrar θ̂, que minimice
n
X
S (h(x, θ)) = (yi − h(xi , θ))2 . (2.1)
i=1
3 Modelos lineales
3.1 Formulación funcional
En este curso nos concentraremos en el importante caso del modelo lineal:
k
X
h(x, θ) = θj hj (x), (3.1)
j=1
7
Una formulación alternativa, pero equivalente, es
k
X
Yi = βj hj (xi ) + ǫi , i = 1, . . . , I, (3.2)
j=1
cuya densidad es
1 1 2
fY (y) = n exp − 2 ky − µk
(2πσ 2 ) 2 2σ
8
4 Enfoque geométrico y la formulación ma-
tricial
4.1 Proyecciones ortogonales y el estimador de mı́nimos
cuadrados
Sea Y un vector aleatorio en IRn , µ = E(Y ). Si M es un subespacio vectorial
de E = IR n , con dim M = r, la formulación geométrica del modelo lineal es
µ ∈ M, (4.1)
Para obtener una formulación matricial, se busca una matriz “de diseño”
X de n × k, tal que sus columnas X j , j = 1, . . . , k generen M. Se dice que
M coincide con el espacio columna de la matriz X, al que se le denota por
col (X). Esto quiere decir que para todo t ∈ M existen coeficientes βj , no
necesariamente únicos, tales que
k
X
t= βj X j (4.2)
j=1
9
Por definición, el rango r(X) de la matriz X es dim col (X), y una condición
equivalente es r(X) = k (se dice que X es de rango completo. Volviendo a
la geometrı́a, el cuadrado de la distancia euclideana entre dos puntos u y t
en IR n es
SC (u, t) = kt − uk2 (4.4)
Definiendo
S(β) = SC (y, Xβ), (4.5)
el método de mı́nimos cuadrados consiste en minimizar S(β).
10
µ determina β y µ̂ determina los coeficientes estimados βˆj . Utilizando (4.6)
con t = y y z = PM y,
(X t X)β = X t y. (4.9)
β̂ = (X t X)−1 X t Y . (4.10)
P 2 = P. (4.11)
(X t W X)β = X t W y (4.12)
11
Q es, efectivamente , idempotente, pero no simétrica. Para hacer demostra-
ciones, el siguiente resultado es útil:
12
5 Descomposiciones ortogonales
5.1 Sumas directas
La suma directa de subespacios generaliza el concepto de base:
Definición 5.1 Sea (E1 , . . . Er ) una colección ordenada de subespacios y
E = E1 + · · ·+ Er . Esta colecciónPes una suma directa de subespacios si tiene
una descomposición única z = rj=1 z j , con z j ∈ Ej . Un caso importante
ocurre cuando los subespacios tienen dimensión 1 y Ej = span(ej ). Se aprecia
que (e1 , . . . , er ) es una base de E. Se dice que E = E1 + · · · + Er es una
suma directa. Se puede demostrar que una condición necesaria y suficiente
para que la descomposición sea una suma directa es
13
Notación: Para un subespacio M y un vector u arbitrario usamos la notación
SC (u, M) = kPM uk2 y SCE (u, M) = SC (u, M ⊥ ). Con esta notación
TTTTTTTTTTTTTTTTTTTTTTTTTTTTT
En el caso s = 2, E1 = M, E2 = M ⊥ , se obtiene
r
X
2
kPM Y k = Zi2 . (5.8)
i=1
y
n
X
2
kPM ⊥ Y k = Zi2 . (5.9)
i=r+1
14
6 Subespacios anidados y descomposiciones
ortogonales
Sea N0 ⊂ N1 ⊂ Mr ⊂ Mr + 1 = IR n una sucesión de subespacios anidados,
con dim Mj = sj , j = 0, . . . , r + 1, con sr+1 = n. La idea es que si m > j, el
modelo Mod m: µ ∈ Mm , es más complejo que el modelo Mod j: µ ∈ Mj .
Preguntas estadı́sticas naturales son
La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). Si Mm es el modelo más complejo que por ahora queremos
considerar, el vector de residuos asociado con Mm es ortogonal a Mm y, por
ende, a Mj ; el vector de residuos asociado con Mj , no es, en general, ortogonal
a Mm . La idea es, entonces, analizar:
SCEj − SCE m
R= (6.10)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
R= (6.11)
SCE j
15
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (6.13)
(< u, y >)2
SCE k − SCE k+1 = ,
kuk2
de donde
ˆ )2 = (< u, y >)2 SCE k − SCE k+1
(βk+1 = (6.16)
kuk4 kuk2
FFFFFFFFFFFFFFFFFFFFFFFFFF
16
La clave está en medir la calidad del modelo a través de las SCE . Denotando
a SCE (y, Mk ) por SCE k , la idea es comparar SCE m con SCE j . Si todas
las observaciones yi se multiplican por una constante d, la SCE se multiplica
por d2 . Esto sugiere calcular incrementos o decrementos porcentuales. La
diferencia absoluta es DIF = SCEj − SCE m ( no SCEm − SCE j , que
es negativo). El vector de residuos asociado con Mm es ortogonal a Mm y,
por ende, a Mj ; notar que el vector de residuos asociado con Mj , no es, en
general, ortogonal a Mm . La idea es, entonces, analizar el incremento relativo
de la SCE al pasar de m a j :
SCE j − SCE m
w= (7.1)
SCE m
La disminución porcentual de la SCE cuando se complejiza el modelo es
SCEj − SCE m
t= (7.2)
SCE j
w
Interesa que w y t sean grandes. Como t = 1−w es estrictamente creciente
ambos criterios son equivalentes.
Volvamos ahora a la sucesión de subespacios. Un resultado de álgebra
lineal muy relevante para nuestros propósitos es
Teorema Para 0 ≤ j ≤ r, existe un subespacios Ej tal que
M
Ej+1 ⊥ Mj y Mj+1 = Mj Ej+1 (7.3)
17
de donde
2
ˆ )2 = (< u, y >) = SCE k − SCE k+1
(βk+1 (7.6)
kuk4 kuk2
V = σ 2 I, (8.3)
También
E(kPN Y k2 = E(PN Y )t PN Y = E(Y t PN Y )
Usamdo la identidad tr(ABC) = tr(BCA) = tr(CAB) tenemos
18
Una demostración alternativa es aplicar la base canónica. Para simplificar la
notación, podemos considerar T = Y − µ, que tiene media 0. En la primera
parte de la discusión es conveniente suponer directamente que E(Y ) = 0.
P 2 = P, (8.7)
Una matriz P que satisface (8.7) se dice idempotente. Si bien la matriz que
representa una proyección ortogonal es idempotente, la afirmación recı́proca
no es válida. La idea intuitiva es que la proyección puede ser “oblicua”
(piense en un lápiz y un foco de luz). La propiedad clave es
ω̂ = ct (X t X)−1 X t Y . (8.9)
19
el cual es insesgado, es decir, E(s2 ) = σ 2 . Veremos más abajo como gener-
alizar esto a los modelos lineales. Por analogı́a con este caso, parece razonable
examinar estimadores de σ 2 con la estructura: (Y − µ)t A(Y − µ̂. En todo el
curso supondremos que las observaciones son independientes, de modo que
Cov (Y ) = V es diagonal, con elementos σi2 = Var (Yi ). No parece razonable
estimar n varianzas con n observaciones. El caso más sencillo y, a su vez, el
más utilizado, es
V = Cov (Y ) = σ 2 I, (8.10)
donde I denota la matriz identidad en dimensión n. En otras palabras, las
observaciones no están correlacionadas y ellas tienen una varianza común σ 2 .
Bajo (8.10),la varianza del estimador de mı́nimos cuadrados (EMC) es
Cov (β̂) = σ 2 (X t X)−1 (8.11)
y cuando ω = ct β,
Var (ω̂) = d2 σ 2 , donde d2 = ct (X t X)−1 c. (8.12)
Es importante destacar que la constante d puede ser precalculada, es decir,
no depende de las observaciones. En problemas concretos puede ser preferi-
ble obtener d2 directamente. Notar también que a la desviación estandard
estimada se la suele llamar error estándar (en inglés statndard error (s.e,),
para enfatizar que no corresponde a la desviación estándar σ 2 de las ob-
servaciones. En la práctica, σ 2 es desconocida, y ds es, en realidad, una
estimación del error estándar. Lo que los paquetes computacionales entre-
gan no es s.e.(ω̂) = dσ, sino una estimación, aue es simplemente ds.
El vector e = y − ŷ se denomina vector de residuos (no confundir con el
vector de errores ǫ). Se tiene que e satisface
e = y − PM y = (I − PM )y. (8.13)
y es la proyección de y sobre el espacio ortogonal N = M ⊥ .
9 Descomposiciones ortogonales
9.1 Sumas directas
En la teorı́a de modelos lineales, la descomposición de un subespacio E en r
subespacios E1 , . . . Er , ortogonales entre sı́, es de enorme importancia. Con-
sideramos en primer lugar un el concepto más general de suma directa de
20
subespacios. la cual generaliza el concepto de base.
Definición: Sea (E1 , . . . Er ) una colección ordenada
Pr de subespacios, tal que
z ∈ E tiene una descomposición única z = j=1 z j , con z j ∈ Ej . Se dice
que E = E1 + · · · + Er es una suma directa.
Una condición necesaria y suficiente para que la descomposición sea una suma
directa es
Ej ∩ Es = {0} para todo j 6= s. . (9.1)
Si Ej = span(ej ) (e1 , . . . , em ) es una base de E.
Cuando los vectores z j son ortogonales entre sı́, la suma directa se de-
nomina descomposición ortogonal de E y (9.1) es equivalente a
. Utilizaremos la notación es
r
X r
M
E= Er = Ej .
j=1 j=1
21
SCE(Y , M)
s2 = (9.7)
n−ν
es un estimador insesgado de σ 2 .
Nota. La validez de (9.31) solo depende de V = σ 2 I, pero no de la dis-
tribución de los ǫi , por ejemplo, de un supuesto de normalidad. n − ν es el
número de grados de libertad del error.
r
X
Pj = P, donde los proyectores satisfacen Pj Ps = 0 para todo j 6= s
j=1
(9.8)
2 2
Si Sj = kPj yk y S = kP yk , el Teorema de Pitagoras implica que
r
X
S= Sj (9.9)
j=1
22
(a) ŷ : El vector de valores predichos ŷ.
9.3 Normalidad
Recordar que si Y tiene media µ y matriz de covarianza V, se tiene
AX ∼ Nn (Aµ, AV At ) (9.12)
Notación:
23
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).
24
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.17)
i=r+1
AX ∼ Nn (Aµ, AV At ) (9.19)
Notación:
25
(b) Denominaremos a Nn (0, I) distribución normal esférica standard. Es
equivalente a Y1 , . . . , Yn i.i.d. N(0, 1).
26
y
n
X
2
kPM ⊥ Y k = Zi2 . (9.24)
i=r+1
Ejercicio:
• Se sabe que si Y ∼ Gama(α, λ), E(Y ) = αλ , y Var (Y ) = α
λ2
.
• Aplique esto con α = k
2
y y λ = 12 .
• Aplique las propiedades generales de sumas de v.a. independientes para
obtener el resultado anterior (usar E(X14 = 3).
Definición:
Sean Z ∼ N(0, 1), Sk independiente de Z con distribución χ2 (k) y Rk = Skk .
Entonces la distribución t de Student con k grados de libertad, denotada por
t(k) es la distribución de la variable aleatoria Tk = √ZRk .
27
Usando la media y varianza de la distribución Gama (α, λ) con λ = 12 se
obtiene µ = 2α y σ 2 = 4α. Notar que para ν = k se recupera el caso anterior.
La distribución t(ν) se obtiene como t(k), con k reemplazado por ν y
S ∼ χ2 (k) por S ∼ χ2 (k).
Definición. Sean S1 y S2 variables aleatorias independientes tales que
Si ∼ χ2 (νi ), i = 1, 2. Sean Ri = Sνii , i = 1, 2. Entonces, la distribución de
R1
R2
se denomina F, con ν1 grados de libertad en el numerador y ν2 grados
de libertad en el denominador. Se la denota por F (ν1 , nu2 ). Aunque los val-
ores esperados del numerador y del denominador son ambos iguales a 1, el
valor esperado de la distribución siempre excede 1 (usar la la desigualdad de
Jensen.
ω̂ + / − z1− 1 dσ (9.26)
2
• El valor-P es
28
9.8 Pivote para ω = ct β con σ 2 conocido
Desde el punto de vista aplicado queremos hacer tests y tests de hipótesis
cuando σ 2 es desconocido. La mecánica es reemplazar σ por s y N(0, 1) por
t(ν). Necesitamos encontrar los valores adecuados para s y ν.
Teorema: Sea SCE la suma de cuadrados del error k(Y − µ̂)k2 . Usando la
simetrı́a esférica y un cambio de base se obtiene la representación
n−k
X
SCE = Zi2 , donde las variables tienen media 0 y varianza σ 2 , k = r(X) = dim(M),
i=1
(9.29)
y las variables no están correlacionadas. De esta manera, E(SCE) = (n−k)σ 2 .
Si X es de rango completo k coincide con el número de componentes del
vector β. Evidentemente
SCE
s2 = (9.30)
n−k
es un estimador insesgado de σ 2 . Bajo el supuesto de normalidad, el estimador
máximo verosı́mil (MLE), es
SCE
u2 = , (9.31)
n
de tal forma que el MLE tiene siempre un sesgo negativo. En la teorı́a de
modelos lineales se usa s2 universalmente.
E(dt Y ) = at µ y b = PM ⊥ d.
29
Teorema de Gauss Markov En el modelo lineal µ ∈ M, el estimador
lineal insesgado de varianza mı́nima es
dt Ŷ = dt PM Y .
E(dt Y ) = dt µ = at µ + bµ = at µ. (10.1)
30