Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2007
Manuel R. Pia Monarrez / Manuel A. Rodrguez Medina / Jess J. Aguirre Sols
REGRESIN RIDGE Y LA DISTRIBUCIN CENTRAL T
Ciencia Ergo Sum, julio-octubre, ao/vol. 14, nmero 002
Universidad Autnoma del Estado de Mxico
Toluca, Mxico
pp. 191-196
http://redalyc.uaemex.mx
C I E N C I A S E XACTAS Y APLICADAS
Resumen. Dado que la Regresin Ridge Ridge Regression and Central t Student
*Divisin de Ciencias de la Ingenieria y
Tecnologa, Instituto Tecnolgico Superior de (RR), es una estimacin sesgada que parte de Distribution
Nuevo Casas Grandes, Chihuahua, Mxico. Abtract. Since Ridge Regression (RR), is a
la solucin de la regresin de Mnimos
Correo electrnico: mpina@itsncq.edu.mx
Correo electrnico: jesaguir@yahoo.com Cuadrados (MC), es vital establecer las biased estimation, that begins with the
**Divisin de Ciencias de la Ingeniera y condiciones para las que la distribucin Ordinary Least Square (OLS) solution, it is
Tecnologa, Instituto Tecnolgico de Ciudad
central t de Student que se utiliza en la vital to establish the conditions for which
Jurez, Mxico.
Correo electrnico: mrodriguez@itcj.edu.mx prueba de hiptesis en MC, sea tambin the central Students t distribution that we
aplicable a la regresin RR. La prueba de este use in the hypothesis test in OLS, is
importante resultado se presenta en este applicable to the RR too. The proof of this
artculo. important result is given in this article.
Palabras clave: regresin ridge, mnimos Key words: ridge regression, ordinary least
cuadrados, distribucin t, prueba de hiptesis. square, students t distribution, hypothesis test.
A ee rrgg oo su
C I EN C I A s um
m ,, VV ooll.. 114- 2, julio-
4- 2, julio-oc
oc tub re2 0
tubre 2 07
0 0 7. U n i v e r si d a d A u t n o m a d e l Es t a d o d e M x i c o , To l u c a , M x i c o . Pp . 191- 196. 191
C I E N C I A S E XACTAS Y APLICADAS
tonces, el valor absoluto esperado del estadstico de prueba El mtodo de RR permite detectar la multicolinealidad dentro
de RR, se espera que sea mayor que el de MC, mejorando as de un modelo de regresin del tipo Y = Xt + . Fue propues-
el poder de deteccin de la prueba. El cuadrado medio del to por Hoerl y Kennard (1970a y b); es usado para trabajar
error de RR, sigue una distribucin chi-cuadrada no central con modelos que presentan sesgo. La idea del mtodo es
t
(ver Cheng-Ming Kuan, 2000: 62-63) con parmetro de ses- simple y consiste en que dado que la matriz (X X) es alta-
go dado por (Pia et al., 2005): mente condicionada o cercana a singular es posible agregar
p 2
constantes positivas a los elementos de la diagonal para ase-
Sesgo 2 k2 i
, gurar que la matriz resultante no sea altamente condiciona-
1 ( i k )2
da. El vector de coeficientes de RR est dado por:
por lo que es necesario mostrar que debido a que RR es un
t t
mltiplo de MC, la aplicacin del estadstico central t, es vli- R= (X X + K X Y (3)
da para la prueba de hiptesis de la regresin RR. En este
sentido, Obenchain en 1977 deriv una prueba exacta t el cual se puede reescribir como Z , donde es el
R=
R bt) / var
para la regresin RR dada por t(R) = ( bi t t
R estimador ordinario de MC dado por = (X X X Yy
donde var( R bi) es una estimacin insesgada de la varianza t
Z = [I + K (X X es la matriz que transforma a en
del numerador y
R, es decir, R es la solucin al problema de optimizacin:
1
bi g it G t I ( X t X ) 1 eit ei ( X t X ) 1 eit ei , t
Min: ( R ) X X ( R )
es el estimador insesgado de varianza mnima de R bajo
la hiptesis nula H 0: i = 0, donde g es la j-sima fila de G Sujeto a: R R r2
que representa los cosenos directores que orientan los ejes
principales en relacin con los ejes del regresor dado, es Prueba: a travs de los multiplicadores de Lagrange esta
una matriz de (p x p) con elementos diagonales dados por funcin es representada por:
= i / ( i + k) (error estndar R) y ei es el j-simo ele-
t
mento de la matriz identidad, el uso de esta prueba ha Min: ( R ) X X ( R ) + K ( R R r2
derivando la funcin con respecto a R e igualndola a cero daderos, los cuales son desconocidos, por lo que el valor de
tenemos que: K deber estimarse a partir del estimador propuesto por
Lawless y Wang (1976), que est dado por:
t
df/d R = 2X X( R ) + 2K R
Ps 2
t t K (6)
X X R X X +K R =0 (X t X )
t
t t
R(X X+K X X =0 Una vez conocido el valor de K, la regresin RR puede
ser tratada como una regresin de MC, con tan slo incre-
t t mentar la matriz de informacin X con una matriz diago-
dado que est dada por = (X X)1X Y, entonces:
nal cuyos elementos diagonales sean la raz cuadrada del
t t valor de K dado por (6) y el vector de respuestas con un
R(X X+K X Y=0
vector de ceros si se est trabajando con variables escala-
t 1 t das, o con un vector constante equivalente a la media de Y
R = (X X + K X Y
si las variables no estn escaladas. Para un procedimiento
X tY detallado de la aplicacin de RR ver Pia (2006).
R =
I K (X t X ) 1
(X t X )
2. Distribucin t
t 1]1 t 1 t
R = [I + K (X X (X X X Y
Sea W una variable aleatoria con distribucin N(0,1), y sea
V una variable aleatoria que sigue una distribucin chi-cua-
R = Z , (4) 2
drada (r) con r grados de libertad, donde W y V son
independientes, por lo que la distribucin conjunta de W y
lo cual completa la prueba.
V, representada por (w,v), es el producto de las funciones
En la estimacin RR, al parmetro K se le conoce como
densidad de probabilidad normal y chi-cuadrada, respecti-
parmetro de sesgo ya que cuando K = 0, Z = I, por lo
vamente dada por:
que R=
y cuando K 0, R
Adems como es
insesgado entonces la estimacin ridge es una estimacin w2 r v
1 2
1 1
sesgada y aunque posee esta caracterstica, la varianza (w, v) = e r
v2 e 2
2 1 2
de la estimacin de R a es menor que la varianza de r 2
2
la estimacin de a , por lo que los coeficientes de R,
son ms estables que los de (ver Pia et al., 2005a).
w< 0<v< 0 en otro caso.
Para ver por qu analizamos la funcin del cuadrado
Este producto define otra variable aleatoria t, representada
medio del error de R, dado por:
por:
j 2j
CME 2 k 2j W
R= ( j k j )2 ( j k j )2 (5) T (7)
V/r
La funcin dada en (5), debido al parmetro de sesgo, Al aplicar la tcnica de cambio de variable (Hogg y Graig,
sigue una distribucin chi-cuadrada no central (Chung-Ming, 1965), obtenemos la funcin densidad de probabilidad g(t)
2000: 62-63) que implica directamente que la prueba de de T. As, la ecuacin t = w/ v/r y u = v, definen la trans-
significancia de sus coeficientes estimados deber de hacer- formacin uno a uno, la cual mapea al conjunto A = {(w, v);
se a travs de la distribucin no central t. Dado que RR es w < , 0 < v < , en B = {(t, u); t< ,0<u
un mltiplo de MC, en la seccin 3 se derivan las condicio-
< Adems, desde que w = t u r y v = u, el valor
nes para utilizar la prueba central t al probar la significancia
de los coeficientes ajustados. absoluto del jacobiano de la transformacin es |J| = u r .
El valor de la constante de proporcionalidad K depende Por lo que la funcin densidad de probabilidad conjunta de
de la varianza poblacional y del vector de coeficientes ver- las variables aleatorias T y U = V, est dada por:
t u
donde ( X t X ) ii1 , es el i-savo elemento diagonal de la matriz
g (t , u ) ,u J
r de precisin (Xt X)1, s2 es la estimacin de la varianza dada
t
por s2 = Y [I X (Xt X)1X ]Y / (n-p) y [s2 ( X t X ) ii1 ]1/2 es
1 u t2 u
u r / 2 1 exp 1 la estimacin insesgada del numerador bajo el supuesto de
2 ( r / 2) 2 r / 2 2 r r
que los errores estn N(0, 2I). Adems, como el valor
esperado de E( i) = 0, bajo la hiptesis H 0: i = 0, el esta-
t< ,0<u< 0 en otro caso dstico t, tiene una distribucin central con (n-p) grados de
As, la funcin densidad de probabilidad marginal de T libertad. De igual forma el estadstico t para H 0: i = 0
es: utilizando el estimador RR, puede ser establecido directa-
mente de (10) como sigue.
g1 (t ) g (t , u)du Teorema 3.1. El estadstico de prueba t para la Regresin
Ridge, es el estadstico de prueba t de Mnimos Cuadrados.
1 u t2
u (r 1) / 2 1
exp 1 du Demostracin: permita a i* denotar el j-simo ele-
0 2 r ( r / 2) 2 r / 2 2 r
mento de R y sea bi el estimador lineal insesgado de
Para esta integral, si hacemos z = u[1+(t2/r)]/2, entonces: varianza mnima de i* con valor esperado E(bi) = 0
cuando H 0: i = 0 es verdadera, por lo que el estadstico
( r 1) / 2 1
1 2z z 2 de prueba para RR, est dado por:
g1 (t ) exp dz
0 2 r ( r / 2) 2 r / 2 1 t 2 / r 1 t2 / r
1
ti *i bi / s 2Wi 2 2 (11)
[(r 1) / 2] 1
g1 (t ) , <t< . (8)
r (r / 2) (1 t 2 / r )( r 1) / 2
donde Wi 2 Z i2 ( X t X ) ii1 es una constante conocida y s2W i es
2
t [(r 1) / 2]
g1 (t ) dw , <t< . (9) lo cual completa la demostracin.
r (r / 2)(1 w2 / r ) ( r 1) / 2
4. Una aplicacin
3. Prueba de hiptesis de la regresin ridge El experimento fue originalmente realizado por Box
(1954), con el objetivo de maximizar la salida de una reac-
Para simplificar los argumentos, recordemos que la hiptesis ge- cin qumica sujeta a dos estados y cinco factores, cuyas
neral para determinar la significancia del j-simo componente de variables codificadas son:
regresin en MC, est dada por H 0: i = 0 generalmente contra
H 1: i 0, en donde la prueba de su significancia se realiza a
(T1 122.5)
travs del estadstico de prueba t dado por: X1 Temperatura en el estado 1,
7 .5
2(log t1 log 5)
1 1 X2 1 tiempo de reaccin en el estado 1,
ti i 0 / s 2 ( X t X ) ii1 2
i / s 2 ( X t X ) ii1 2 , (10) log 2
Porcin de la matriz de precisin (Xt X)1que contiene los (Cjj) De igual forma, es posible construir un estadstico de prue-
utilizados en la ecuacin (2) para este ajuste de RR es: ba t j para cada uno de los coeficientes j estimados ya
sea por MC o por RR.
1.753 0.452 0.362 0.443 0.573
0.452 1.982 0.646 0.623 0.678
Conclusiones
Bibliografa
Box, G. E. P. y N. R. Draper (1987). Empirical Model- Hogg, R. V. y A. T. Craig (1965). Introduction to Technometrics. 19(4).
Building and Response-surfaces. John Wiley & Sons, Mathematical Statistics. Macmillan Company. Pia, M. R.; M. A. Rodrguez y J. J.Daz
Nueva York. Catalog Card Number:65-10243. New York. _________ (2005a). Superioridad de la
Bisgaard, S. y B. Ankenman (1998). Standard Errors Halawa, A. M. y M. Y. El Bassiouni (2000). Test f regresin general ridge sobre mnimos
for the Eigenvalues in Second Order Response Regression Coefficients Under Ridge Re- cuadrados, CULCYT. Ao 2. Nm. 6, enero-
Surface Models, Technometrics. Vol. 36. gression Models, Statistics Computer Simula- febrero, Universidad Autnoma de Ciudad
Chung-Ming, K. (2000). Introduction to Econometric tion. Vol. 65. Jurez. Chihuahua, Mxico.
Theory. Institute of Economics. Taipei, Tai- Lawless, J. F. y P. Wang (1976). A Simulation _________ (2005b). Determinacin de la
wan. Study of Ridge and Other Regression Esti- constante k en la regresin ridge, CULCYT.
Hoerl, A. E. y R. W. Kennard mators, Communication in Statistics Theory Ao 2. Nm. 11, enero-febrero, Universidad
_________ (1970a). Ridge Regression: Biased and Method. A5(4). Autnoma de Ciudad Jurez. Chihuahua,
Estimation for Non-orthogonal Problems, Mongomery, D. C.; E. A. Peck y G. G. Vining Mxico.
Technometrics. Vol. 12. Nm.1. (2002). Introduccin al Anlisis de Regresin Linneal. Pia, M. R. (2006). Metodologa para la caracterizacin
_________ (1970b). Ridge Regression: Appli- 3a ed. Editorial Continental, Mxico. y exploracin desuperficies derespuestas. Tesis doc-
cations to Non-orthogonal Problems, Obenchain R. L. (1977). Classical FTest and toral, Instituto Tecnolgico de Ciudad Jurez
Technometrics. Vol. 12. Nm 1. Confidence Regions for Ridge Regression, Chih. Mxico.