Moti Vaci On Delos Mode Los Line A Les

MODELOS ESTADÍSTICOS LINEALES
Guido del Pino.M,

Departamento de Estadı́stica
Pontificia Universidad Catolica of Chile
Mayo 2017
1 Asociación, predicción y estimación

1.1 Asociación
El estudio de la asociación entre dos variables tiene una larga historia:
• Galton, en el siglo XIX estudió la relación entre las estaturas de padres
e hijos.
• Las mediciones de los ı́ndices de contaminación en 10 estaciones distin-
tas están asociadas.
• Suele haber asociación en el tiempo, por ejemplo los precios del cobre
en 10 dı́as consecutivos.
Una medición de la fortaleza de la asociación es la correlación, pero ella es
solo apropiada para relaciones de tipo lineal.
En teorı́a de probabilidad la asociación está completamente descrita por

la distribución conjunta de m variables aleatorias. Cuando ellas son con-
tinuas esto se expresa matemáticamente a través de la densidad conjunta
f (x) = f (x1 , . . . , xm ). Esta función está completamente determinada por la
familia de conjuntos de nivel {x : f (x) = c} para todo c > 0. Para m = 2
estos conjuntos son curvas y para una densidad normal bivariada son elipses
concéntricas. Un logro sorprendente de Galton es que a partir de datos
empı́ricos conjeturó que las curvas de nivel tenı́an efectivamente esta forma.
En el caso de k variables se obtienen elipsoides y las distribuciones que tienen
esta propiedad se llaman distribuciones elı́pticas. En ellas f (x) = g(xt Ax)
para cierta matriz A definida positiva y cierta función g. En el caso de la
normal multivariada g(t) = e−t .
1
1.2 Predicción y estimación
La asociación entre m variables aleatorias las trata de manera simétrica, por
ejemplo, estudiar la asociación entre X e Y lequivale a estudiar la asociación
entre Y y X. Esta simetrı́a se rompe cuando se desea predecir el valor de una
de ellas, Y , denominada variable respuesta en función de los valores de otras
variables.
Es importante distinguir dos casos:
(a) x es el valor observado de un vector aleatorio X.
(b) x no es aleatorio, sino que está fijo por diseño, por ejemplo cuando él
está bajo control de un experimentador.
Especificar la distribución conjunta equivale a especificar la familia de dis-

tribuciones condicionales de Y dado X = x y la distribución marginal de X.
En el caso (a) se puede argumentar que esta última es irrelevante, de modo
que basta especificar las distribuciones condicionales. En el caso (b) no tiene
sentido hablar de una distribución condicional, sino que se trata simplemente
de una distribución univariada Qx de Y, indexada por el valor x. En términos
operativos no hay diferencia alguna entre ambas interpretaciones y usaremos
(b) por ser la más simple conceptualmente.
Si se desea predecir el valor de una variable aleatoria Z utilizando una

constante c, uno de los criterios más usuales es minimizar el error cuadrático
medio E(Z − c)2 . Es fácil verificar que el valor óptimo de c es c = E(Z).
En el caso de una variable respuesta Y con distribución Qx , lo natural es
utilizar la media µx de Qx para predecir el valor de Y. En la formulación
(a) µ(x) coincide con la esperanza condicional E(Y |X = x). La función h
definida por h(x) = µx se denomina función de regresión. Para un valor x
dado es usual que h(x) se determine mediante algún algoritmo numérico.
En general es casi inviable determinar h y suele importar su compor-

tamiento cualitativo. En la práctica se busca una aproximación analı́tica
para la función h. Como h(x) se usa también para predecir Y, la fórmula se
denomina regla de predicción. En la práctica h es desconocida y debe ser
estimada a partir de los datos. Por otra parte, más allá de la predicción
puntual hay que preocuparse de la variabilidad, cuya descripción completa
está dada, justamente por la distribución Qx , la cual es desconocida. Una
2
descripción parcial es la varianza v(x) = σ 2 (x), pero nuevamente la función
v es desconocida y es aún más difı́cil de estimar que h.
Nota 1: Aunque nos concentraremos en la media, el uso de la mediana

se puede justificar en términos de la minimización del error absoluto medio
E(|Z − c|). La preferencia por la media es principalmente la conveniencia
matemática. En otras situaciones
Nota 2: En el modelo lineal normal Qx = N (h(x), v(x)), v suele estimarse

haciendo supuestos adicionales. Casos particulares son:
• v(x) está dada por una fórmula en que aparece muy pocas constantes
desconocidas (parámetros), por ejemplo, v(x) = α + βx. Para β = 0 la
varianza es constante, lo que se denomina homocedasticidad.
• σ 2 = V (µ) para cierta función µ denominada función de varianza.

Ella es cuadrática para ciertas distribuciones de la familia exponencial:
normal, Poisson, Binomial, Gama y normal inversa.
2 El enfoque funcional
2.1 Enfoque no paramétrico
Denotemos por xi el valor asociado con yi y por X0 = {x1 , . . . , xn } al conjunto
de valores asociados con los yi . Por definición de la función de regresión, Yi
es un estimador insesgado de h(xi ). Cuando hay r observaciones y1 , . . . , yr
asociadas con un valor x ∈ X0 , el estimador natural es el promedio de ellas.
En esta sección consideraremos el caso univariado, siendo inmediatas las
extensiones al caso de multiples predictores. Supondremos que X será un
intervalo en IR (que contiene infinitos puntos), mientras que X0 contiene a
lo más n puntos, a los que suele llamar puntos experimentales si están bajo
nuestro control. Existe un sinnúmero de métodos estadı́sticos para estimar h
usand muy pocos supuestos. La idea principal es ”pedir prestada” (borrowing
strength) información para puntos cercanos al x de interés.
Suavidad:
En el análisis esploratorio de datos (AED) se suele buscar una tendencia,
la cual es una aproximación de la función de regresión. Esto se representa
geométricamente por la superposición de una curva a la nube de puntos
3
(xi , yi ), i = 1, . . . , n. Notar que hay infinitas funciones ĥ, cuyo gráfico pasa
por todos los puntos, pero ellas carecen de interés, particularmente para n
grande. Si hay dos o más observaciones yi para un mismo valor x, tal ĥ no
existe. La forma de la tendencia suele ser de interés, por ejemplo saber si es o
no creciente. Cuando se sabe que la función es creciente existen métodos de
regresión isotónica. Por otra parte, el contexto suele sugerir que la tendencia
es una función suave. Hay una multiplicidad de métodos no paramétricos
para estimar funciones suaves. La idea general es lograr un compromiso
adecuado entre ajuste (la curva pasa cerca de los puntos) y su suavidad. Una
familia muy importante de métodos es el de estimaciones por núcleo, el cual
es utilixado por la función loess del software computacional R.
2.2 Enfoque paramétrico

El conjunto H de todas las funciones definidas en un intervalo es un espacio
vectorial, cuya dimensión es infinita, lo que genera complicaciones teóricas y
prácticas. Una idea natural es reemplazar H por un cierto subconjunto X0 .
En un modelo paramétrico este conjunto está en correspondencia uno a uno
con cierto subconjunto Θ(el espacio paramétrico), contenido en un espacio
euclidiano de dimensión k.
Nota técnica: Para hacer fácil encontrar la dimensión efectiva del modelo
paramétrico se supondrá que se cumple una de las siguientes condiciones, las
cuales son equivalentes:
(a) Θ tiene interior no vacı́o.
(b) Los parámetros θi puedan variar libremente en ciertos intervalos, usual-

mente pequeños.
(c) Los parámetros son funcionalmente independientes.
Ejemplo: Considere el modelo X1 , X2 , . . . , Xn i.i.d. con distribución N (µ, σ),

con −∞ < θ < ∞, µ = θ y σ 2 = θ2 ).
En este ejemplo el espacio paramétrico Θ es una parábola contenida en
el plano euclidiano, de modo que la dimensión es intuitivamente igual a 1.
En este caso el problema se resuelve fácilmente eliminando el parámetro
redundante θ2 .
4
Notación: En estricto rigor el parámetro debe definir por completo a la
función. Por esta razón, si θ = (θ1 , . . . , θk ) ∈ Θ, los números θi debieran lla-
marse componentes paramétricas. Sin embargo, por un abuso de notación
estas componentes se denominan parámetros y θ se denomina vector de
parámetros. La función h correspondiente a θ podrı́a escribirse como hθ ,
lo que es engorroso. Lo usual es denotar h por h(·, θ) o h(x, θ).
Definamos la función S(·, θ) con dominio Θ por
n
X
S (h(x, θ)) = (yi − h(xi , θ))2 . (2.1)
i=1
El método de mı́nimos cuadrados consiste en buscar el valor θ̂, que min-

imice S(θ) y definir la función estimada por ĥ(·, θ̂). En la práctica no es
posible resolver el probleme de minimización analı́ticamente, por lo cual hay
que recurrir a algoritmos numéricos. Lamentablemente, ellos pueden fallar,
especialmente si hay muchos mı́nimos locales.
2.3 Formulación funcional

Se dice que un modelo funcional es lineal si
k
X
h(x, β) = βj hj (x), (2.2)
j=1
A los parámetros βj se los denomina coeficientes y pueden tomar cualquier

valor real. Las funciones hj son conocidas y se usan para especificar el mod-
elo. La gran ventaja de los modelos lineales es que la función S(β) es un
polinomio de segundo grado. En consecuencia, β̂ puede obtenerse igualando
las derivadas parciales a 0, lo que genera un sistema de ecuaciones lineales,
resoluble explı́citamente.
El método de mı́nimos cuadrados es un criterio numérico, fue creado por

Gauss en el contexto de ciertos problemas astronómicos. Posteriormente,
Laplace demostro que se lo podı́a justificar en términos que siglos depués
era el estimador de máxima verosimilitud, si los errores eran i.i.d. con dis-
tribución N (0, σ 2 ). Como h es una función de regresión,E(Yi ) = h(xi )y una
5
formulación equivalente, es
k
X
Yi = βj hj (xi ) + i , i = 1, . . . , I, (2.3)
j=1
donde los i se denominan errores, los cuales se supondrán i.i.d. Notar que
estos errores no son observables y contienen coeficientes desconocidos. Sin
embargo, si βj se reemplaza por βˆj se obtienen los residuos
k
X
ei = yi − βˆj hj (xi ). (2.4)
j=1
Los residuos están determinados por los datos a través de y y β̂ y

Moti Vaci On Delos Mode Los Line A Les

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Moti Vaci On Delos Mode Los Line A Les

Cargado por

Copyright:

Formatos disponibles

MODELOS ESTADÍSTICOS LINEALES

Guido del Pino.M,

1 Asociación, predicción y estimación

En teorı́a de probabilidad la asociación está completamente descrita por

(a) x es el valor observado de un vector aleatorio X.

Especificar la distribución conjunta equivale a especificar la familia de dis-

Si se desea predecir el valor de una variable aleatoria Z utilizando una

En general es casi inviable determinar h y suele importar su compor-

Nota 1: Aunque nos concentraremos en la media, el uso de la mediana

Nota 2: En el modelo lineal normal Qx = N (h(x), v(x)), v suele estimarse

• σ 2 = V (µ) para cierta función µ denominada función de varianza.

2.2 Enfoque paramétrico

(a) Θ tiene interior no vacı́o.

(b) Los parámetros θi puedan variar libremente en ciertos intervalos, usual-

(c) Los parámetros son funcionalmente independientes.

Ejemplo: Considere el modelo X1 , X2 , . . . , Xn i.i.d. con distribución N (µ, σ),

El método de mı́nimos cuadrados consiste en buscar el valor θ̂, que min-

2.3 Formulación funcional

A los parámetros βj se los denomina coeficientes y pueden tomar cualquier

El método de mı́nimos cuadrados es un criterio numérico, fue creado por

Los residuos están determinados por los datos a través de y y β̂ y

También podría gustarte