Está en la página 1de 6

MODELOS ESTADÍSTICOS LINEALES

Guido del Pino.M,


Departamento de Estadı́stica
Pontificia Universidad Catolica of Chile
Mayo 2017

1 Asociación, predicción y estimación


1.1 Asociación
El estudio de la asociación entre dos variables tiene una larga historia:
• Galton, en el siglo XIX estudió la relación entre las estaturas de padres
e hijos.
• Las mediciones de los ı́ndices de contaminación en 10 estaciones distin-
tas están asociadas.
• Suele haber asociación en el tiempo, por ejemplo los precios del cobre
en 10 dı́as consecutivos.
Una medición de la fortaleza de la asociación es la correlación, pero ella es
solo apropiada para relaciones de tipo lineal.

En teorı́a de probabilidad la asociación está completamente descrita por


la distribución conjunta de m variables aleatorias. Cuando ellas son con-
tinuas esto se expresa matemáticamente a través de la densidad conjunta
f (x) = f (x1 , . . . , xm ). Esta función está completamente determinada por la
familia de conjuntos de nivel {x : f (x) = c} para todo c > 0. Para m = 2
estos conjuntos son curvas y para una densidad normal bivariada son elipses
concéntricas. Un logro sorprendente de Galton es que a partir de datos
empı́ricos conjeturó que las curvas de nivel tenı́an efectivamente esta forma.
En el caso de k variables se obtienen elipsoides y las distribuciones que tienen
esta propiedad se llaman distribuciones elı́pticas. En ellas f (x) = g(xt Ax)
para cierta matriz A definida positiva y cierta función g. En el caso de la
normal multivariada g(t) = e−t .

1
1.2 Predicción y estimación
La asociación entre m variables aleatorias las trata de manera simétrica, por
ejemplo, estudiar la asociación entre X e Y lequivale a estudiar la asociación
entre Y y X. Esta simetrı́a se rompe cuando se desea predecir el valor de una
de ellas, Y , denominada variable respuesta en función de los valores de otras
variables.
Es importante distinguir dos casos:

(a) x es el valor observado de un vector aleatorio X.

(b) x no es aleatorio, sino que está fijo por diseño, por ejemplo cuando él
está bajo control de un experimentador.

Especificar la distribución conjunta equivale a especificar la familia de dis-


tribuciones condicionales de Y dado X = x y la distribución marginal de X.
En el caso (a) se puede argumentar que esta última es irrelevante, de modo
que basta especificar las distribuciones condicionales. En el caso (b) no tiene
sentido hablar de una distribución condicional, sino que se trata simplemente
de una distribución univariada Qx de Y, indexada por el valor x. En términos
operativos no hay diferencia alguna entre ambas interpretaciones y usaremos
(b) por ser la más simple conceptualmente.

Si se desea predecir el valor de una variable aleatoria Z utilizando una


constante c, uno de los criterios más usuales es minimizar el error cuadrático
medio E(Z − c)2 . Es fácil verificar que el valor óptimo de c es c = E(Z).
En el caso de una variable respuesta Y con distribución Qx , lo natural es
utilizar la media µx de Qx para predecir el valor de Y. En la formulación
(a) µ(x) coincide con la esperanza condicional E(Y |X = x). La función h
definida por h(x) = µx se denomina función de regresión. Para un valor x
dado es usual que h(x) se determine mediante algún algoritmo numérico.

En general es casi inviable determinar h y suele importar su compor-


tamiento cualitativo. En la práctica se busca una aproximación analı́tica
para la función h. Como h(x) se usa también para predecir Y, la fórmula se
denomina regla de predicción. En la práctica h es desconocida y debe ser
estimada a partir de los datos. Por otra parte, más allá de la predicción
puntual hay que preocuparse de la variabilidad, cuya descripción completa
está dada, justamente por la distribución Qx , la cual es desconocida. Una

2
descripción parcial es la varianza v(x) = σ 2 (x), pero nuevamente la función
v es desconocida y es aún más difı́cil de estimar que h.

Nota 1: Aunque nos concentraremos en la media, el uso de la mediana


se puede justificar en términos de la minimización del error absoluto medio
E(|Z − c|). La preferencia por la media es principalmente la conveniencia
matemática. En otras situaciones

Nota 2: En el modelo lineal normal Qx = N (h(x), v(x)), v suele estimarse


haciendo supuestos adicionales. Casos particulares son:
• v(x) está dada por una fórmula en que aparece muy pocas constantes
desconocidas (parámetros), por ejemplo, v(x) = α + βx. Para β = 0 la
varianza es constante, lo que se denomina homocedasticidad.

• σ 2 = V (µ) para cierta función µ denominada función de varianza.


Ella es cuadrática para ciertas distribuciones de la familia exponencial:
normal, Poisson, Binomial, Gama y normal inversa.

2 El enfoque funcional
2.1 Enfoque no paramétrico
Denotemos por xi el valor asociado con yi y por X0 = {x1 , . . . , xn } al conjunto
de valores asociados con los yi . Por definición de la función de regresión, Yi
es un estimador insesgado de h(xi ). Cuando hay r observaciones y1 , . . . , yr
asociadas con un valor x ∈ X0 , el estimador natural es el promedio de ellas.
En esta sección consideraremos el caso univariado, siendo inmediatas las
extensiones al caso de multiples predictores. Supondremos que X será un
intervalo en IR (que contiene infinitos puntos), mientras que X0 contiene a
lo más n puntos, a los que suele llamar puntos experimentales si están bajo
nuestro control. Existe un sinnúmero de métodos estadı́sticos para estimar h
usand muy pocos supuestos. La idea principal es ”pedir prestada” (borrowing
strength) información para puntos cercanos al x de interés.
Suavidad:
En el análisis esploratorio de datos (AED) se suele buscar una tendencia,
la cual es una aproximación de la función de regresión. Esto se representa
geométricamente por la superposición de una curva a la nube de puntos

3
(xi , yi ), i = 1, . . . , n. Notar que hay infinitas funciones ĥ, cuyo gráfico pasa
por todos los puntos, pero ellas carecen de interés, particularmente para n
grande. Si hay dos o más observaciones yi para un mismo valor x, tal ĥ no
existe. La forma de la tendencia suele ser de interés, por ejemplo saber si es o
no creciente. Cuando se sabe que la función es creciente existen métodos de
regresión isotónica. Por otra parte, el contexto suele sugerir que la tendencia
es una función suave. Hay una multiplicidad de métodos no paramétricos
para estimar funciones suaves. La idea general es lograr un compromiso
adecuado entre ajuste (la curva pasa cerca de los puntos) y su suavidad. Una
familia muy importante de métodos es el de estimaciones por núcleo, el cual
es utilixado por la función loess del software computacional R.

2.2 Enfoque paramétrico


El conjunto H de todas las funciones definidas en un intervalo es un espacio
vectorial, cuya dimensión es infinita, lo que genera complicaciones teóricas y
prácticas. Una idea natural es reemplazar H por un cierto subconjunto X0 .
En un modelo paramétrico este conjunto está en correspondencia uno a uno
con cierto subconjunto Θ(el espacio paramétrico), contenido en un espacio
euclidiano de dimensión k.
Nota técnica: Para hacer fácil encontrar la dimensión efectiva del modelo
paramétrico se supondrá que se cumple una de las siguientes condiciones, las
cuales son equivalentes:

(a) Θ tiene interior no vacı́o.

(b) Los parámetros θi puedan variar libremente en ciertos intervalos, usual-


mente pequeños.

(c) Los parámetros son funcionalmente independientes.

Ejemplo: Considere el modelo X1 , X2 , . . . , Xn i.i.d. con distribución N (µ, σ),


con −∞ < θ < ∞, µ = θ y σ 2 = θ2 ).
En este ejemplo el espacio paramétrico Θ es una parábola contenida en
el plano euclidiano, de modo que la dimensión es intuitivamente igual a 1.
En este caso el problema se resuelve fácilmente eliminando el parámetro
redundante θ2 .

4
Notación: En estricto rigor el parámetro debe definir por completo a la
función. Por esta razón, si θ = (θ1 , . . . , θk ) ∈ Θ, los números θi debieran lla-
marse componentes paramétricas. Sin embargo, por un abuso de notación
estas componentes se denominan parámetros y θ se denomina vector de
parámetros. La función h correspondiente a θ podrı́a escribirse como hθ ,
lo que es engorroso. Lo usual es denotar h por h(·, θ) o h(x, θ).
Definamos la función S(·, θ) con dominio Θ por
n
X
S (h(x, θ)) = (yi − h(xi , θ))2 . (2.1)
i=1

El método de mı́nimos cuadrados consiste en buscar el valor θ̂, que min-


imice S(θ) y definir la función estimada por ĥ(·, θ̂). En la práctica no es
posible resolver el probleme de minimización analı́ticamente, por lo cual hay
que recurrir a algoritmos numéricos. Lamentablemente, ellos pueden fallar,
especialmente si hay muchos mı́nimos locales.

2.3 Formulación funcional


Se dice que un modelo funcional es lineal si
k
X
h(x, β) = βj hj (x), (2.2)
j=1

A los parámetros βj se los denomina coeficientes y pueden tomar cualquier


valor real. Las funciones hj son conocidas y se usan para especificar el mod-
elo. La gran ventaja de los modelos lineales es que la función S(β) es un
polinomio de segundo grado. En consecuencia, β̂ puede obtenerse igualando
las derivadas parciales a 0, lo que genera un sistema de ecuaciones lineales,
resoluble explı́citamente.

El método de mı́nimos cuadrados es un criterio numérico, fue creado por


Gauss en el contexto de ciertos problemas astronómicos. Posteriormente,
Laplace demostro que se lo podı́a justificar en términos que siglos depués
era el estimador de máxima verosimilitud, si los errores eran i.i.d. con dis-
tribución N (0, σ 2 ). Como h es una función de regresión,E(Yi ) = h(xi )y una

5
formulación equivalente, es
k
X
Yi = βj hj (xi ) + i , i = 1, . . . , I, (2.3)
j=1

donde los i se denominan errores, los cuales se supondrán i.i.d. Notar que
estos errores no son observables y contienen coeficientes desconocidos. Sin
embargo, si βj se reemplaza por βˆj se obtienen los residuos
k
X
ei = yi − βˆj hj (xi ). (2.4)
j=1

Los residuos están determinados por los datos a través de y y β̂ y

También podría gustarte