Documentos de Académico
Documentos de Profesional
Documentos de Cultura
APLICACIONES
Carlos N. Bouza-Herrera
1
Facultad de Matemática y Computación
Universidad de La Habana
___-
2
MODELOS DE REGRESIÓN Y SUS APLICAICONES
1. Ideas y Conceptos
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay
entre ambas variables es definido por el coeficiente de correlación lineal simple
xy
x y
S xy ( zi z ) 2
r , S zz t
z x, y
S xx S yy n
Propiedades que debemos apuntar son:
Note que hay que tener en consideración que un valor de cero no indica necesariamente
que no exista correlación, ya que las variables pueden presentar una relación no lineal.
3
El hacer un gráfico donde se reflejen las dos variables da una idea de cómo se correlacionan
ellas. Este gráfico se conoce como diagrama de dispersión. Un ejemplo es el gráfico
siguiente:
4
Relación lineal inversa y fuerte: r-1 Observaciones “casi “independientes: r0
5
1 1+𝑟
𝑧 = 𝑙𝑛 ( )
2 1−𝑟
Y se tiene que
1 1 1
N ln ,
2 1 n 3
Entonces, para establecer si hay independencia entre X y Y, hacemos una prueba basada en
la normal y se acepta H1 si, al fijar el percentil de orden p de la normal estándar
|r|>Zp(n-3)-1.
Note que si aceptamos que =0 esto implica la independencia de las variables solo si la
distribución es normal. En otro caso solo se puede afirmar que están incorrelacionadas.
El análisis de regresión es una técnica usada para modelar la relación entre variables. Se
desea establecer como una o varias variables dependientes se comportan respecto a una o
más variables independientes. Mediante esta técnica podemos obtener información sobre
como una variable de interés Y, variable dependiente, varia cuando una de las
independientes lo hace.
Es común considerar que la relación entre Y y X es descrita por una función. En diversos
problemas de la física se aceptan tales modelos. Por ejemplo la extensión de un muelle es
descrita en función de la fuerza F y esta es proporcional a una constante A. Es decir que cada
vez que se aplique una fuerza Fi debe observarse
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖
Sin embargo al hacer la medición de Ext no se obtienen el resultado que el modelo predice.
Entonces al valorar la medición se considera que en verdad se observa
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 + 𝜀𝑖
6
una función llamada función de regresión. En ocasiones el interés del investigador es
también analizar la variación de Y respecto a esta función lo que plantea un problema que
es descrito por una distribución de probabilidad.
Los métodos van a depender de como los datos fueron obtenidos. No es lo mismo lo que
ocurre en un proceso industrial, donde se pueden controlar una serie de efectos, que en un
estudio biológico, donde hay variaciones no controladas modeladas por errores, como son
los efectos ambientales.
Otro enfoque es el uso de métodos que no reaccionan fuertemente ante las violaciones. Este
es el enfoque robusto de la regresión.
Dada la amplia aplicación de la regresión los especialistas de distintas disciplinas han dado
nombre diferentes a los términos. Similarmente ocurre con los softwares que implementan
el ajuste de la ecuación de regresión. Mencionaremos algunos de ellos
7
Al buscar una ecuación de regresión el experto usa su conocimiento para fijarla. En pocas
ocasiones esta es conocida. De hecho el modelar conlleva a que el experto proponga
ecuaciones, las determine y las compare, para determinar cuáles son adecuadas y,
ocasionalmente, cual es la mejor.
Ejemplo: La inversión hecha en poner a punto fábricas de helados en miles de pesos en una
provincia y el valor de estas al precio del mercado se evalúa tras 10 años. Hay una serie de
factores no controlados que se modelan por un error aleatorio . Se espera que este error al
ser promediado se obtenga un equilibrio (E ()=0). Un modelo para describir este problema
financiero estará dado por fijar
Y = B0 + B1 X + ε
Tabla. Valor inversión y actual de fábricas de helados en una provincia en miles de pesos
El diagrama de dispersión es
126
y
20
160 280
x
8
Puede valorarse que la relación es caracterizada por una línea recta. Nunca podremos hallar
una que pase por todos los puntos pero podemos considerar adecuada la brindada en la
figura siguiente
y Fitted values
126
20
160 280
x
Figura. Ajuste lineal de Valor inversión y actual de fábricas de helados en una provincia en
miles de pesos
Es común que hay algunos forma enmarca que caractericen los datos. Tal es el caso de los
datos en la figura próxima de un estudio de todas las fábricas tras 10 años de uso.
Figura. Modelos alternativos para Valor inversión y actual de fábricas de helados en miles
de pesos en la población total.
3. Usos de la regresión
9
No siempre es sencillo hacer el gráfico y por tanto debemos buscar métodos matemáticos
que determinen el lugar geométrico que caracteriza una función aceptable. El análisis de
Regresión es muy usado para hacer predicciones. Actualmente sus conceptos aparecen dentro
de campos modernos como las redes neuronales el aprendizaje, como en los problemas de
“machine learning”. Cuando el objetivo es determinar la ecuación de regresión, o el hacer
predicciones, se desea obtener un valor aceptable de Y al observar valores de las variables
independientes, o de una proporción específica, de todas las observaciones futuras de Y, para
una cierta combinación de valores de las variables controladas. Estas predicciones pueden
hacerse para una combinación cualquiera de las variables independientes que se encuentre
en el rango de las observadas para hacer el ajuste.
Cuando el coeficiente de regresión lineal entre dos variables sea “cercano” a +1 o a –1,
tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos.
Esta recta permitirá establecer el lugar geométrico que describe la relación y puede ser
utilizada para predecir o estimar los valores que tomaría de Y al fijar X.
⃗ ) = 𝑌 = 𝐵𝑜 + 𝐵1 𝑋
𝑓(𝑋, 𝐵
10
Al considerar el problema de la estimación que determinar una esperanza condicional se tiene
que el modelo es justificado al considerar que
𝐸(𝑌|𝑋) = 𝐵𝑜 + 𝐵1 𝑋
Se supone que:
Esto equivale a decir que si observamos una muestra aleatoria de n pares (X, Y)i, i=1,…,n,
{(Yi, Xi ) , i=1,...,n }, y que
𝑌𝑖 = 𝐵𝑜 + 𝐵1 𝑋𝑖 + 𝜀𝑖
Donde
E(i )=0, V(i )=2 para todo i=1,..,n
Cov (i ,j)=0 , para todo ij
Lo que se desea es hallar la ecuación de una recta que se ajuste óptimamente a los datos.
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los
coeficientes de la recta de regresión y la varianza de los errores.
El método de los mínimos cuadrados es el que usualmente se utiliza para hacer este ajuste y
elegir la recta de regresión. La recta obtenida es aquella que minimiza las distancias
verticales de las observaciones a la recta.
Este método, llamado de los MC ordinarios (MCO), nos plantea el problema de optimización
𝑛 𝑛
𝜕{∑𝑛𝑖=1(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 }
=0
𝜕𝐵0
11
𝜕{∑𝑛𝑖=1(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 }
=0
𝜕𝐵1
Su solución es
X i1 X i Y i1Yi
n
n
n
i 1 i n
i
n
n 1 S
Bˆ1 2
XY
S X2
n
X
i1 X i in1
n i
n 1
Xi
n n
Y
Bˆ 0 Bˆ1 i1 Y Bˆ1 X
i 1 i
n n
Estos estimadores son conocidos como “mínimo cuadráticos”
Para valorar si el ajuste es adecuado se calcula la fracción de la varianza total explicada por
la ecuación. Esta es
Note que:
Los datos pueden ser generados por varios modelos alternativos. El modelo más popular es
el llamado modelo en el que se asume que:
ii) Para cada valor xi de X existe una variable aleatoria. Y|X =xi cuya media está
dada por el modelo.
12
iii) Todas las variables Y|X=xi son normales, independientes y con igual varianza.
E(Y|X)=B0 +B1X=|X
Al considerar que tenemos una muestra de n pares {(Xi ,Yi), i=1,...,n} y dada la aleatoriedad
de cada Y, generada por la de , la teoría estadística permite:
13
n n
X
X i 1 Y i 1 Yi
n i
i 1 i n
i
n
n 1 S XY
Bˆ1 2
S X2
n
X
i 1 X i i n1
n i
n 1
n n
Y Xi
Bˆ 0 i 1 i
Bˆ1 i 1
Y Bˆ1 X
n n
𝑌̂ = B̂0 + B̂1 X
Esta es la llamada ecuación de regresión lineal simple la que es utilizada para hacer
predicciones de Y
𝜀̂ = 𝑟 = 𝑌 − 𝑌̂
y su varianza 2 mediante
2
n
Y i1Yi
n
i 1 i n
𝑆𝑒2 =
∑𝑛 ̂ 𝑖2
𝑖=1 𝜀
=
𝑆𝑦2 −𝐵̂1 𝑆𝑥2
, S 2
Y
𝑛−2 𝑛−2 n 1
1
V (Y | X 0 ) 2
X 0
n
i 1
X
i / n
2
n
n
i 1
n
X i i 1 X i / n
2
14
1
V ( Bˆ 0 ) 2
X / n
n
i 1 i
2
n
n
i 1
X X / n
i i 1
n
i
2
ˆ 2 1
V ( B1 )
2
i1 X i i1 X i / n
n n
vii) Demostrar que, como la distribución muestral de los errores es una N(0, 2) y
que la distribución de Y es una N(B0 +B1X, 2) .
viii) Derivar que los estimadores máximos verosímiles, dado que la función de
verosimilitud es
𝑛 −1/2
2)
𝜎2 (𝑌𝑖 − 𝐵0 + 𝐵1 𝑋𝑖 )2
𝑀𝑎𝑥(𝐵0 ,𝐵1) 𝐿(𝐵0 , 𝐵1 , 𝜎 = ∏( ) 𝑒𝑥𝑝 { }
2𝜋 𝜎2
𝑖=1
Esto determina las mismas expresiones que las obtenidas al utilizar el criterio Mínimo
cuadrático y deducir que poseen una distribución normal.
Este último resultado permite hacer tanto la estimación por intervalos como el hacer pruebas
de hipótesis usando los estimadores presentados. Para ello se utiliza la distribución T(n-2) y
se trabaja con el estadístico normalizado usando la estimación del error típico.
S S
IC ( Bˆ1 ) Bˆ1 t (n 2,1 / 2) e , Bˆ1 t (n 2,1 / 2) e
nS x nSx
1 X2 1 X 2
IC ( Bˆ 0 ) Bˆ 0 t (n 2,1 / 2) S e 1 2 , Bˆ 0 t (n 2,1 / 2) S e 1 2
n S x n S x
𝐼𝐶(𝐸(𝑌|𝑋)) =
15
1 (𝑋𝑖 − 𝑋̅)2
= (𝑌̂ − t (n 2,1 / 2) Se √ (1 + ) , 𝑌̂
𝑛 𝑆𝑥2
1 (𝑋𝑖 − 𝑋̅)2
+ t (n 2,1 / 2) Se √ (1 + ))
𝑛 𝑆𝑥2
Note que IC(E(YX)) es de amplitud mínima si X i X .
𝑌 ∗ = B̂0 + B
̂1 X ∗
Entonces se puede hacer una estimación por intervalos de confianza para una predicción
utilizando
𝐼𝐶(𝐸(𝑌 ∗ |𝑋 ∗ )) =
2
1 (𝑋 ∗ − 𝑋̅)
= (𝑌 − t (n 2,1 / 2) Se
∗ √ (1 + ) , 𝑌∗
𝑛 𝑆𝑥2
2
1 (𝑋 ∗ − 𝑋̅)
+ t (n 2,1 / 2) Se √ (1 + ))
𝑛 𝑆𝑥2
Note que al hacer la prueba de hipótesis B1=0 se está haciendo el contraste del coeficiente de
𝑆
correlación =0 pues el 𝐵̂1 = 𝑟 𝑆𝑥 .
𝑌
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y. por tanto se
distribuyen como una Ji-cuadrado. Se puede establecer entonces el siguiente resultado:
𝑆𝑒2 2
𝑠𝑒 𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑦𝑒 ( n 2)
𝜎2
16
Variable X: Kg. De detergente usado (variable no aleatoria)
Variable Y: incremento en la contaminación
X Y
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
Coeficientes(a)
Intervalo de
Coef. no Coeficientes confianza
Modelo estand. estand. t Sig. para B al 95%
Error Límite Límite Error
B típ. Beta inferior superior B típ.
1 (Constante) - - -
2,122 -5,895 ,004
12,511 18,403 6,619
kgDet ,147 ,020 ,967 7,546 ,002 ,093 ,202
a Variable dependiente: nivelcont
Entonces
𝑌̂ = −12,511 + 0,147𝑋
17
La estimación del B1 es distinta de 0, esto indica que hay correlación entre X y Y. Sin
embargo la normalidad es dudable y si son aceptables las inferencias.
2,00 15,50
4,50 29,00
5,00 32,50
7,00 36,50
2,00 18,50
3,50 22,00
6,00 30,00
11,00 45,50
,50 10,50
8,50 42,00
R Error típ. de
Model R cuadrado la
o R cuadrado corregida estimación
1 ,976(a) ,953 ,947 2,64030
a Variables predictoras: (Constante), horas
b Variable dependiente: prod.total
Coeficientes(a)
18
Coeficiente
s Intervalo de
Model Coeficientes no estandariza confianza para B al
o estandarizados dos t Sig. 95%
Límite Límite
B Error típ. Beta inferior superior
1 (Constante
10,846 1,597 6,791 ,000 7,163 14,530
)
horas 3,471 ,272 ,976 12,745 ,000 2,843 4,099
a Variable dependiente: prod.total
De ahí que
𝑌̂ = 10,846 + 3,471𝑋
19
Histograma
2
Frecuencia
Media =0
Desviación típica =0,943
0 N =10
-2 -1 0 1 2
Regresión Residuo tipificado
∑𝑛 𝜀̂ 2
𝑆𝑒 = √ 𝑖=1 𝑖 = 4,72
𝑛−2
𝐵̂1 − 3 3,471 − 3
𝑡𝐵1 = √(n − 2)SX2 /n = √8 × 376/10 = 1,73
𝑆𝑒 4,72
20
Como t(8 0,95)=2,896 acepto esta hipótesis. Podemos entonces usar El IC para B1 es
10 10
IC ( Bˆ1 ) 3,471 2,306 4,72 , 3,471 2,306 4,72 2,84 4,10
8 376 8 376
Por tanto la normalidad también es dudable y las inferencias no pueden ser aceptadas como
concluyentes.
R Error típ. de
Model R cuadrado la
o R cuadrado corregida estimación
1 ,914(a) ,835 ,816 1,96838
a Variables predictoras: (Constante), MPP
b Variable dependiente: porRECH
Coeficientes(a)
Coeficientes Intervalo de
Model Coeficientes estandarizado confianza para B
o no s t Sig. al 95%
21
estandarizado
s
Límite Límite
Error inferio superio
B típ. Beta r r
1 (Constante 14,75 10,88 ,00
1,355 11,686 17,815
) 0 8 0
MPP ,00
-1,347 ,200 -,914 -6,737 -1,799 -,895
0
a Variable dependiente: porRECH
Entonces
𝑌̂ = 14,75 − 1,347𝑋
IC ( Bˆ1 ) 11,686 17,815 IC ( Bˆ ) 1,799
0 0,895
Histograma
2
Frecuencia
Media =-8,12E-16
Desviación típica =0,949
0 N =11
-2 -1 0 1 2
Regresión Residuo tipificado
Cuando las hipótesis fijadas anteriormente no son aceptables no podemos utilizar los
métodos asociados a la normalidad. Al ajustar la recta de regresión a las observaciones
tennos una medida que no depende de estas hipótesis. La valoración del ajuste es
realizado utilizando el coeficiente de determinación. Este es definido de varias formas:
22
Como SCr < SCT, se verifica que 0 < R2 < 1. Este coeficiente mide la proporción de
variabilidad total de la variable dependiente Y explicada por el modelo de regresión.
http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html
http://www.unalmed.edu.co/~estadist/regression/regresion.htm
http://kitchen.stat.vt.edu/~sundar/java/applets/
http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html
http://www.stat.wvu.edu/SRS/Modules/
5. Regresión Múltiple
5.1 El modelo
Si hay más de una variable relacionada con la variable dependiente Y. Así, si estudiamos
los efectos del escurrimiento de las aguas hacia una laguna y el área fertilizad (en
logaritmo) podemos querer modelar la salinización en términos del logaritmo de esta. Sean
Y = ß0 + ß1X1 +
Y = ß0 + ß2X2 +
23
Figura: Plano para el caso Y=LOGSP, X1=LAT, X2=LOGAREA
Las formulaciones van a ser muy variadas. El investigador debe escoger . Son posibles
diversas representaciones para un mismo conjunto de variables explicativas.
24
La idea de los Mínimos Cuadráticos es que la ecuación de regresión lineal se obtiene como
una proyección ortogonal. Tomemos F como el espacio L2 de las variables aleatorias
cuyos cuadrados poseen una integral finita (el caso más general es considerar la medida de
Lebesgue) y G como el subespacio lineal de F generado por YF donde (𝑋1 , … , 𝑋𝑝 ) ∈ 𝐹 𝑝 .
Entonces η es una proyección ortogonal de Y sobre G.
Tenemos que 𝐸(𝑌|𝑋) = pero 𝑌 ↦ 𝐸(𝑌|𝑋) es una proyección, por lo que η proyecta Y
sobre G. Construyendo el producto escalar en F: si las variables aleatorios , y 〈𝑋, 𝑌〉2 ≔
2
𝐸(𝑋, 𝑌). Este es un producto escalar pues si ‖𝑋‖2 = 0. entonces si X = 0, si usamos la medida
2
de Lebesgue esto debe cumplirse solo “ casi dondequiera”, siendo ‖𝑋‖2 : = 〈𝑋, 𝑋〉2 la norma
correspondiente a este. Todo esto permite deducir que es ortogonal para cualquier Xj y esto
lleva a que sea válido en todo el subespacio G. Así se implica que η es una proyección de Y
sobre G que es, ortogonal respecto al producto escalar predefinido. Podemos entonces fijar
que
(𝑋, 𝐵⃗ ) = 𝑚𝑖𝑛𝑓∈𝐺 ‖𝑌 − 𝑓‖22
Tomando una muestra de tamaño n>p, tenemos n observaciones de Xj, junto con el vector
Y=Ynx1 de n observaciones de Y. La estimación corresponde a la de los coeficientes de esa
proyección ortogonal. Sea el producto escalar para cada par de muestras de tamaño n,
𝑈 ⃗ ∈ 𝐹 𝑛 de variables aleatorias U y V. definamos 〈𝑈
⃗ ,𝑉 ⃗ ,𝑉
⃗ 〉2 ≔ 𝑈
⃗𝑉⃗ . El producto ‖∙‖ ≔ √〈∙,∙〉
n
está definido en F y no en F.
Un primer objetivo en el estudio del modelo lineal es el de estimar los parámetros del mismo.
De la expresión matemática del modelo de regresión lineal general se deduce que para i =
1,2,...,n se verifica la siguiente igualdad
𝑘
𝑌 = ∑ 𝐵𝑗 𝑋𝑗 + 𝜀
𝑗=0
donde es el error aleatorio o perturbación de la observación i-ésima.
Para este modelo los estimadores mínimos cuadráticos se obtienen al resolver el problema de
optimización
2
𝑛 𝑘
25
Estas ecuaciones determinan las p=k+1 ecuaciones normales
𝑛 𝑛 𝑛
Xnxk es llamada matriz de diseño. La fila i-ésima de la matriz se corresponde con los
datos de las k variables independientes en la observación i-ésima, i = 1,2,..., n
determinando el vector Xi+. La columna j-ésima de la matriz X+j se corresponde con
los datos de las variables regresora k-ésima Xj, j = 1,2,...,k. La información acerca de
la variable j -ésima en la muestra está contenida en este vector.
B es el vector p=k+1 dimensional, (matriz p× 1) de la ecuación de regresión.
es el vector n-dimensional (matriz n × 1) de las perturbaciones aleatorias.
26
Determinar el lugar geométrico que caracteriza la función de regresión es el problema de
minimización de la suma de los residuos al cuadrado. O sea resolver el problema mínimo
cuadrático. Este es
2
𝐵⃗̂ = 𝑏⃗ = 𝐴𝑟𝑔𝑀𝑖𝑛𝐵⃗ ‖𝑋𝑛×𝑝 𝐵 ⃗ −𝑌
⃗‖
Por tanto
〈𝑋𝑛×𝑝 ⃗⃗⃗ 𝑇
, 𝑏〉 = 𝑋𝑛×𝑝 (𝑋𝑛×𝑝 𝑏⃗ − 𝑌
⃗)=0
𝑇
𝑋𝑛×𝑝 𝑋𝑛×𝑝 = ∑ 𝑋𝑖1 ∑ 𝑋𝑖𝑡2 ∑ 𝑋𝑖1 𝑋𝑖2 ⋯ ∑ 𝑋𝑖1 𝑋𝑖𝑘
𝑖=1 𝑖=1 𝑖=1 𝑖=1
⋮ ⋮ ⋯ ⋮
𝑛 𝑛 𝑛 𝑛
2
∑ 𝑋𝑖𝑘 ∑ 𝑋𝑖𝑘 𝑋𝑖1 ∑ 𝑋𝑖𝑘 𝑋𝑖2 ⋯ ∑ 𝑋𝑖𝑘
( 𝑖=1 𝑖=1 𝑖=1 𝑖=1 )𝑘×𝑘
𝑛
∑ 𝑌𝑖
𝑖=1
𝑛
𝑇 ⃗
𝑋𝑛×𝑝 𝑌= ∑ 𝑋𝑖1 𝑌𝑖
𝑖=1
⋮
𝑛
∑ 𝑋𝑖𝑘 𝑌𝑖
( 𝑖=1 )(𝑘+1)×1
⃗ 𝑇𝑌
= 𝑚𝑖𝑛 (𝑌 ⃗ −𝑌 ⃗̂ − 𝐵
⃗ 𝑇 𝑋𝑛×𝑝 𝐵 ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑌+𝐵 𝑇 ⃗̂ )
𝑋𝑛×𝑝 𝐵
27
Para obtener la minimización hallamos las derivadas parciales
⃗ 𝑇𝑌
𝜕 (𝑌 ⃗ − 2𝐵⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑌+𝐵 𝑇 ⃗̂ )
𝑋𝑛×𝑝 𝐵
= ⃗0
⃗̂
𝜕𝐵
Y
𝑇 ⃗
−𝑋𝑛×𝑝 𝑇
𝑌 + 𝑋𝑛×𝑝 𝑋𝑛×𝑝 𝐵⃗̂ = ⃗0
Por lo que temeos que la expresión matricial del estimador mínimo cuadrático es
⃗̂ = (𝑋𝑛×𝑝
−1 𝑇
𝐵 𝑇
𝑋𝑛×𝑝 ) 𝑋𝑛×𝑝 𝑌⃗
O sea que cada error tiene por distribución 𝜀𝑖 ~𝑁(0, 𝜎 2 ) por lo que
1 𝜀𝑖2
𝑓(𝜀𝑖 ) = 𝑒𝑥𝑝 (− 2 )
√2𝜋 2𝜎
Dada la independencia
𝜀 ~𝑁(0 ⃗ , 𝜎 2 𝐼)
El logaritmo de la función de verosimilitud es
𝑇
𝑛 𝑛
𝐿∗ = 𝐿𝑛(𝐿) = − ln(2𝜋) − ln 𝜎 2 −
1
⃗ −𝑋 𝐵
(𝑌 ⃗̂ ) (𝑌⃗ −𝑋
𝑛×𝑝
⃗̂ )
𝑛×𝑝 𝐵
2 2 2𝜎2
28
Modelo de Regresión Múltiple
Yi = 0 + 1X1i + 2X2i + i
Y
Y (Observed Y)
observación
Response 0 i
Plano de Plane
respuesta X2
X1 (X1i,X2i)
E(Y) = 0 + 1X1i + 2X2i
Figura. El plano del modelo
X1 (X1i,X2i)
^
Yi = ^0 + ^1X1i + ^2X2i
Figura. El plano del ajuste del modelo
29
Un caso particular es el caso polinomial. Un ejemplo es el polinomio de tercer grado
Y = AX 3 + BX 2 + CX + D +
Podemos buscar una superficie a partir de un polinomio de un cierto grado de las variables.
Siguiendo el ejemplo con dos variables podemos buscar el ajuste para el modelo de
segundo grado
30
En ocasiones es conveniente trabajar con el modelo centrado por la media de la varible de
respuesta. En este caso se tendrá
𝑝
𝑌𝑖 − 𝑌̅ = ∑ 𝐵𝑗 (𝑋𝑖𝑗 − 𝑋̅𝑗 ) + 𝜀𝑖
𝑗=1
Ejemplo Estamos interesados en evaluar el por ciento de piezas defectuosas producidos por
una maquinaría. Deseamos evaluar el efecto del espesor de las planchas acero s (mm) y la
dureza del metal C. Tenemos los datos siguientes:
%PD S C
1 1 2
4 8 8
1 3 1
3 5 7
2 6 4
4 10 6
El software que implemente la estimación B nos dará una salida como la siguiente
•
• Parameter Estimates
Parameter Standard T for H0:
• Variable DF Estimate Error Param=0 Prob>|T|
• INTERCEP 1 0.0640 0.2599 0.246 0.8214
• S 1 0.2049 0.0588 3.656 0.0399
• C 1 0.2805 0.0686 4.089 0.0264
•
Entonces
𝑌̂ = 0,064 + 0,2049𝑆 + 0,2805𝐶
En el estudio del modelo de regresión lineal generalmente se asume que se verifican las
siguientes hipótesis:
Las primeras 4 condiciones pueden ser fijadas en términos de los errores como sigue
1´. 𝐸(𝑖 ) = 0, 𝑖 = 1, . . , 𝑛.
31
2´. 𝑉(𝐸(𝑖 )) = 𝜎 2 , 𝑖 = 1, . . , 𝑛
En el estudio del modelo de regresión lineal múltiple con k variables regresoras, a partir de
una muestra de n observaciones, se considera el subespacio vectorial de n generado por
los vectores (columnas de la matriz de diseño).
32
Figura La proyección 𝐻𝑌
⃗
Dado que
⃗̂ = 𝑋𝑛×𝑘 𝑏⃗ = 𝑋𝑛×𝑘 (𝑋𝑛×𝑘
𝑌 𝑇 𝑇 ⃗
𝑋𝑛×𝑘 )−1 (𝑋𝑛×𝑘 ⃗
𝑌) = 𝐻𝑌
1. El estimador por mínimos cuadrados b viene dado por las coordenadas del vector de
⃗̂ en el subespacio respecto a la base {1
predicciones 𝑌 ⃗ , 𝑋+1 , … , 𝑋+𝑘 } .
2. Los residuos verifican las siguientes p=k+1 restricciones 𝜀 1 ⃗ y 𝜀 𝑋+𝑗 , 𝑗 = 1, … , 𝑘 .
Es decir
Note que esto fija que los residuos tienen n –(k-1)=n-p grados de libertad
33
El estimador del vector B por el método de mínimos cuadrados es b. Bajo la hipótesis de
normalidad, la función de verosimilitud lleva a una expresión igual a la minimizada por el
método de los mínimos cuadráticos.
5.4. Inferencias
Note que:
∑𝑛 ̂ 2
𝑖=1(𝑌𝑖 −𝑌𝑖 )
⃗ 𝑇𝑌
𝑌 ⃗𝑌
⃗ −𝑏 ⃗
𝑆𝑟2 = = =
𝑛−(𝑘+1) 𝑛−𝑘−1
34
prueba de que la suma de cuadrado de los residuos tiene una distribución Chi-cuadrado
con n-k-1 grados de libertad.
y el coeficiente de correlación parcial entre las variables X1 y X2. Para ello, se procede de la
siguiente forma,
𝑋1 = 𝐴0 + 𝐴3 𝑋3 + 𝐴4 𝑋4 + 𝜀1.34
𝑋2 = 𝐵0 + 𝐵3 𝑋3 + 𝐵4 𝑋4 + 𝜀2.34
35
3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación
lineal simple entre las variables 𝜀1.34 𝑦 𝜀2.34 ,
bi 𝑏i
t̂ i = =
√V(𝑏i ) Sr √q ii
donde
C=
es el conjunto de índices de todas las variables regresoras excepto el índice i.
36
Note que, manteniendo las hipótesis de independencia, homocedasticidad, normalidad y
linealidad, se calculan expresiones para el error estándar de cada coeficiente estimado. Esto
per mite desarrollar expresiones para los intervalos de confianza y el contraste de hipótesis
de modo análogo al caso de la regresión simple.
El uso de la Máxima Verosimilitud plantea un problema de optimización que puede ser muy
complejo excepto cuando los errores se distribuyen N(0,2 ). En este caso se obtienen los
mismos resultados. Son muchos los libros en los que se pueden encontrar el desarrollo
teóricos de dichas expresiones utilizando tanto el método de los mínimos cuadráticos como
el asociado al criterio de Máxima Verosimilitud.
Ejemplo Dada una muestra hipotética de 20 motores han recogido los siguientes datos: gasto
de combustible (en mg/100 ml), edad del motor (en años), consumo aceite (en
mgr/semestrales) y nivel de uso (cuantificado como 0: poco, 1: normal y 2: intenso), realizar
el ajuste a un modelo lineal entre el gasto en combustible y las demás variables.
R Error típ. de
Model R cuadrado la
o R cuadrado corregida estimación
1 ,701(a) ,492 ,390 58,41817
a Variables predictoras: (Constante), uso, aceite, edad
b Variable dependiente: gcomb
Este modelo puede ser evaluado como aceptable dado que el valor de R2 0,5 puede
considerarse moderado. En general son buenos modelos con valores cercanos a 1.
Coeficientes(a)
Coeficientes Intervalo de
Model Coeficientes no estandarizad confianza para
o estandarizados os t Sig. B al 95%
Límite Límite
Error inferio superio Error
B típ. Beta r r B típ.
1 (Constant -
108,02 62,17 240,53
e) 1,738 ,103 24,49
3 1 8
2
edad 2,319 1,061 ,464 2,186 ,045 ,058 4,581
aceite 2,250 ,726 ,597 3,099 ,007 ,703 3,798
37
uso -
20,26
-9,677 -,098 -,478 ,640 52,86 33,513
3
7
a Variable dependiente: gcomb
El modelo es entonces
En este modelo B3 puede ser considerado no importante. El hecho de que dude que B00 da
una idea de que el modelo debe ser mejorado.
Histograma
4
Frecuencia
Media =2,75E-16
Desviación típica =0,913
0 N =19
-2 -1 0 1 2
Regresión Residuo tipificado
38
𝑏𝑖 − 𝐵 𝑖
~𝑇(𝑛 − 𝑘 − 1)
𝑆𝑟 √𝑞𝑖𝑖
Si tuviéramos el modelo
𝑌 = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2 + 𝜀
En general nos enfrentamos con q2 restricciones. Una solución simple es aplicar la prueba
T-Student 2 veces pero en tal caso la probabilidad de rechazar la hipótesis nula es mayor
que . Una solución es acudir a una prueba del tipo Bonferroni. Otra es aplicar una prueba
T-Student para los dos parámetros al mismo tiempo. Dada la normalidad podremos usar el
estadístico F dado por
𝑡12 + 𝑡22 − 2𝜌̂𝑡 ,𝑡 𝑡1 𝑡2
1 2
𝐹=
2
2 (1 − 𝜌̂𝑡 ,𝑡 )
1 2
Este será grande si 𝑡12 𝑜 𝑡22 lo son.
H 0 : 1 k 0
H 1 : al menos un j no es cero
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está
linealmente relacionada con la respuesta. Ahora, el test F de la regresión múltiple docima la
hipótesis de que todos los coeficientes de regresión (con excepción del intercepto) son cero,
39
hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan más las
hipótesis individuales para cada parámetro asociado a cada variable explicatoria.
De esta igualdad se construye la tabla análisis de varianza. De esta tabla se deduce el contraste
acerca de la influencia “conjunta” del modelo de regresión en la variable respuesta.
Denotamos
𝑛
40
𝑆𝐶𝑅
𝑆𝑟2 =
𝑛−𝑘
Note que podemos particionar la matriz de diseño como X = {X1 , … . , Xq } donde esta
corresponde a la representación
T
⃗ = (B
B ⃗ 1, … , B
⃗q )
,
Xh tiene las filas correspondientes a ⃗Bh , h = 1, … , q . Entonces
q
⃗ ) = XB
E(Y ⃗ = ∑ Xh B
⃗h
h=1
Bajo la hipótesis de ortogonalidad de las Xh
𝑞
𝑏⃗ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗
𝑌 = ∑ 𝑏ℎ𝑇 𝑋ℎ𝑇 𝑌
ℎ=1
Es claro que
SCR(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk )
Esta es el incremento en la suma de cuadrados al incluir como última variable Xj. La
significación de aporte es realizada al computar la prueba F-parcial
SCReg(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk )
F(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk ) = ~𝐹(1, 𝑛 − 𝑘)
CMr
Análisis De la regresión
La ecuación Producción
=1566,1+7,6vitaminas+8,6pienso
Predictor Coef. Error standard T P-
valor
Constante 1566,1 61,6 25,4 0,000
Vitaminas 7,6 0,6 12,3 0,000
41
Pienso 8,6 2,4 3,52 0,004
S=16,4 R-cuad=0,927 R-cuad
ajust=0,916
Análisis de La varianza
Fuente G.l. Sc Mc F
Regresión
Residuos 2 44157 22079 82,5
Vitaminas 13 3479 268
Total 15 47636
Análisis de varianza
Fuente
Regresión g.l. SC MC F p-
valor
Residuos 1 40840,8 40840,8 82,5 0,000
Vitaminas 14 6795,5 268 485,4
Total 15 47636,3
42
𝑆𝐶𝑅𝑒𝑔(𝐵𝑗 |𝐵0 , 𝐵1 ) 3316,2
𝐹(𝐵2|𝐵0 , 𝐵1) = = ≅ 12,37~𝐹(1,13)
𝐶𝑀𝑟 268
Las variables explicativas que hemos considerado hasta este momento se midieron sobre
una escala cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para
incluir asimismo, variables explicativas cualitativas. Estas van a establecer categorías
disjuntas. Por ejemplo, podríamos preguntarnos si el nivel de estrés puede ser explicado
además por la dependencia del sexo. Como las variables explicativas en un análisis de
regresión deben tomar valores numéricos les asignamos 1 a los hombres y 0 a las mujeres.
Estos números no representan mediciones reales; sencillamente identifican las categorías
de la variable aleatoria nominal. Estos valores no tienen significado cuantitativo, una
variable explicativa de esta clase se denomina variable indicadora o variable muda (en
inglés dummy variable).
Podemos modelar esto al considera que la variable, X1 determina una ecuación para cada
categoría. Una para la situación 1 (localización A), y otra para la situación 2 (localización
B).
43
En general podemos definir variables cualitativas al tener c clases al determinaran c-1
variables indicadoras.
44
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.95993655
R Square 0.92147818
Adjusted R Square 0.91224031
Standard Error 2.78630562
Observations 20
ANOVA
df SS MS F Significance F
Regression 2 1548.820517 774.4103 99.75016 4.04966E-10
Residual 17 131.979483 7.763499
Total 19 1680.8
En las ciencias no experimentales como son los de índole económica, sociológica y a veces
las biológicas las variables independientes tienden a estar correlacionadas entre ellas.
45
No debe existir multicolinealidad entre las variables explicativas o independientes. La
multicolinealidad originalmente implicaba la existencia de una relación lineal "perfecta o
exacta" entre algunas o la totalidad de las variables independientes de un modelo de
regresión. En la actualidad el término multicolinealidad se utiliza en un sentido más amplio
para incluir el caso de multicolinealidad perfecta, así como también aquella situación en
donde las variables X están intercorrelacionadas, pero no en forma perfecta. Por ello se usa
el termino de cuasi-colinealidad, en la que algunos coeficientes de correlación simple o
múltiple son altos, su módulo cercano a 1. En tales casos |𝑋𝑛×𝑝 𝑇
𝑋𝑛×𝑝 | ≅ 0 . Esto crea
problemas con la precisión en la estimación de los coeficientes, debido a problemas de índole
numérica.
Otros estadísticos son el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos
como
46
Una regla aceptada es que hay problemas de colinealidad si
Notas:
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de
escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media)
o, incluso, eliminar alguna de las variables colineales.
En este mismo sentido hay que tener en cuenta que las variables producto introducidas para
estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por
lo tanto, que un modelo contenga muchos términos de interacción.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe
colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero
(toma valores muy próximos para todas las observaciones) existe casi-colinealidad.
47
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable,
por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene una varianza 100
veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el
problema de la colinealidad.
También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con
varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el
contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 495.258 3 165.086 78.984 .000a
Residual 43.893 21 2.090
Total 539.150 24
a. Variables predic toras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
48
Coeficientesa
Coeficientes
Coeficientes no estandariz ad
estandariz ados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.202 3.462 .925 .365
Alquitrán .963 .242 1.151 3.974 .001
Nicotina -2.632 3.901 -.197 -.675 .507
Peso -.130 3.885 -.002 -.034 .974
a. Variable dependiente: CO
CO
Alquitrán
Nicotina
Peso
49
Corre lacionesa
Las correlaciones son diferentes de cero es aceptable. Parece alquitrán y nicotina son
colineales.
Bajo ciertas hipótesis podemos establecer si los modelos de la regresión son significativos.
Las pruebas de significación, que se realizan bajo hipótesis de normalidad, utilizan las
pruebas T-Student y F-Fisher para establecer la significación de los parámetros. Los
resultados de estas pruebas son engañosos cuando alguna de las hipótesis que les soportan es
violada. Así, si el tamaño de la muestra es pequeño, no es válido apoyarse en el Teorema
Central del Límite.
50
Belsley D. A. (1991): Conditioning Diagnostics: Collinearity and Weak Data in Regression.
John Wiley &Sons.
Berk, R. A. (2004): Regression Analysis: A Constructive Critique, Sage Publications
Bouza C.N. & Sistachs V. (2010): Estadística. Teoría básica y ejercicios. Ed. F. Varela, la
Habana.
Catena, A., Ramos, M.M. y Trujillo, H. (2003). Análisis Multivariado. Madrid: Biblioteca
Nueva.
Crawley, MJ (2005): Statistics: An Introduction Using R. Wiley. Chichester.
Draper, N.R. and Smith, H. (1998): Applied Regression Analysis Wiley Series in Probability
and Statistics, Chichester.
Etxebarría-Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
Fan, J. and Gijbels, I. (1996) Local Polynomial Modelling and Its Applications.
Chapman and Hall, London.
Fox, J. (2000b). Nonparametric Simple Regression: Smoothing Scatterplots. Thousand Oaks,
CA.
Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Sage,
Thousand Oaks,
CA, second edition.
Fox, J. and Weisberg, S. (2011). An R Companion to Applied Regression. Sage, Thousand
Oaks, CA, second edition.
Freedman, D. a: (2005): Statistical Models: Theory and Practice, Cambridge University Press
Green, P. and Silverman, B. (1994) Nonparametric Regression and Generalized Linear
Models. Chapman and Hall, London.
Hamilton, L.C. (2012): Statistics with Stata: Version 12. Cengage Learning, N. York.
Hardle W., Muller M., Sperlich S., Werwatz A. (, 2004):Nonparametric and Semiparametric
Models. Springer, BerlinKleinbaum, D.G. y L.L. Kupper, K.E. Muller (1988): Applied
Regression Analysis and Other Multivariables Methods.PWS-KENT Publishing Company.
Leech, N. L., G. A. Morgan & K. C. Barrett (2004): SPSS for Intermediate Statistics: Use
and Interpretation [With CDROM]. Lawrence Erlbaum Associates, London.
Levene, Howard (1960). "Robust tests for equality of variances". In Ingram Olkin, Harold
Hotelling, et alia.. 278–292.Stanford University Press
Li, N: (2004): An Introduction to Nonparametric Regression.
www.ms.uky.edu/~mai/biostat277. Ulitma consulta 2015
Li W., M. D. Gordon and J. Zhu (December 2006). «Regularized Least Absolute Deviations
Regression and an Efficient Algorithm for Parameter Tuning». Proceedings of the Sixth
International Conference on Data Mining. 90–700. doi:10.1109/ICDM.2006.134
Kleinbaum D.G. and Kupper L.L. (1997): Applied Regression Analysis and other
Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.
Montgomery, D. C., Peck, E. A. and Vining, G. G. (2001). Introduction to Linear Regression
Analysis. 3rd Edition, New York, New York: John Wiley & Sons.
Radchenko S.G. (2005) Robust methods for statistical models estimation: Monograph. —
Кiev: РР «Sanspariel».
Ramos Álvarez M.M: (2015): Psicología Experimental, . UNIVERSIDAD DE JAÉN,
consultado junio 2015.
Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold.
Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
123
Snedecor, George W. and Cochran, William G. (1989): Statistical Methods, Eighth Edition,
Iowa State University Press.
124