Doc. Apoyo 3. Modelos de Regresión y Sus Aplicaciones..

MODELOS DE REGRESIÓN Y SUS
APLICACIONES
Carlos N. Bouza-Herrera
Reporte Técnico 2018-62.02

DOI:
1
Facultad de Matemática y Computación
Universidad de La Habana
___-
Serie de Reportes Técnicos

MODELOS CUANTITATIVOS PARA
APLICACIONES EN ESTUDIOS DE SALUD
HUMANA Y EL MEDIO-AMBIENTE
Comité Editorial
Editor: Carlos Bouza
Agustin Santiago, Universidad Autónoma de Guerrero,

Alberto Fernández, Universidad de La Habana
Gemayqzel Bouza, Universidad de La Habana
José Betancourt, Universidad de Camagüey
Jose F. García, Universidad Juárez Autónoma de Tabasco
Lourdes Sandoval, Benemérita Universidad Autónoma de Puebla
Marcos Negreiros, Universidade Ceará
María Amparo León, Universidad de Pinar del Río
María del M. Rueda, Universidad de Granada
Purificación Galindo, Universidad de Salamanca
Sergio Hernández, Universidad Veracruzana
Sira Allende, Universidad de La Habana
Valentín Martinez, Universidade da Coruña,
Vivian Sistachs, Universidad de La Habana
Yanet Rodriguez, Universidad Central de Las Villas
2
MODELOS DE REGRESIÓN Y SUS APLICAICONES
1. Ideas y Conceptos
Es común el interés de estudiar la existencia de relaciones entre variables. Por ejemplo,

podemos preguntarnos si hay alguna relación entre las el consumo de electricidad, las horas
de trabajo, la eficiencia de las calderas y el tiempo de vida de los engranajes de las
máquinas del taller. La primera aproximación seria representa pares de variables en un
plano. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación entre las variables.
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay
entre ambas variables es definido por el coeficiente de correlación lineal simple
 xy

 x y
Este es estimado por
S xy  ( zi  z ) 2
r , S zz  t
z  x, y
S xx S yy n
Propiedades que debemos apuntar son:
1. Su valor siempre está entre -1 y 1.
2. Si la relación es directa, la banda en que están las observaciones crece al

movernos de izquierda a derecha, r>0.
3. Si la relación es inversa, la banda en que están las observaciones disminuye al

movernos de izquierda a derecha, r<0.
4. Si la relación es directa y muy fuerte, la banda en que están las observaciones

crece al movernos de izquierda a derecha y esta es casi un segmento de recta, r es
aproximadamente 1.
5. Si la relación es inversa y muy fuerte, la banda en que están las observaciones

disminuye al movernos de izquierda a derecha y esta es casi un segmento de recta, r es
aproximadamente -1.
6. Si la relación es muy débil r es aproximadamente cero.
Note que hay que tener en consideración que un valor de cero no indica necesariamente
que no exista correlación, ya que las variables pueden presentar una relación no lineal.
3
El hacer un gráfico donde se reflejen las dos variables da una idea de cómo se correlacionan
ellas. Este gráfico se conoce como diagrama de dispersión. Un ejemplo es el gráfico
siguiente:
Figura Un Diagrama de Dispersión
Veamos algunos ejemplos en los que se puede determinar la fuerza de la correlación.
Dependencia funcional lineal perfecta: r = 1. Relación lineal directa y fuerte: r1
4
Relación lineal inversa y fuerte: r-1 Observaciones “casi “independientes: r0
Existe una relación cuadrática: r0.
Figura Diagramas de Dispersión que tipifican relaciones
Se deseará, generalmente, realizar un contraste de hipótesis, basado en la distribución de X

y Y para decidir sobre la significación del coeficiente de correlación. Los contrastes se
realizan en base al conocimiento de la distribución muestral del estadístico usado. En este
caso la distribución usada es la normal. Lo más común es desear establecer la significación
estadística de si r es estadísticamente diferente de cero. Es decir plantear
H0: =0 vs H1: 0
La distribución de r es complicada aun si las variables se distribuyan normal teniéndose que

la distribución de este no es normal. Para hacer las pruebas se debe hacer la transformación
5
1 1+𝑟
𝑧 = 𝑙𝑛 ( )
2 1−𝑟
Y se tiene que
 1 1    1 
N  ln  , 

 2 1    n  3 
Entonces, para establecer si hay independencia entre X y Y, hacemos una prueba basada en
la normal y se acepta H1 si, al fijar el percentil de orden p de la normal estándar
|r|>Zp(n-3)-1.
Note que si aceptamos que =0 esto implica la independencia de las variables solo si la
distribución es normal. En otro caso solo se puede afirmar que están incorrelacionadas.
2. La Regresión Como Modelo
El análisis de regresión es una técnica usada para modelar la relación entre variables. Se
desea establecer como una o varias variables dependientes se comportan respecto a una o
más variables independientes. Mediante esta técnica podemos obtener información sobre
como una variable de interés Y, variable dependiente, varia cuando una de las
independientes lo hace.
Es común considerar que la relación entre Y y X es descrita por una función. En diversos
problemas de la física se aceptan tales modelos. Por ejemplo la extensión de un muelle es
descrita en función de la fuerza F y esta es proporcional a una constante A. Es decir que cada
vez que se aplique una fuerza Fi debe observarse
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖
Sin embargo al hacer la medición de Ext no se obtienen el resultado que el modelo predice.
Entonces al valorar la medición se considera que en verdad se observa
𝐸𝑥𝑡(𝑖) = 𝛾𝐹𝑖 + 𝜀𝑖
Estamos introduciendo en el estudio de la medición un error experimental para cada

observación. Comúnmente se acepta que los errores son independientes y que su suma es
cero. Eso puede ser soportado por un adecuado diseño del proceso de obtención de los datos.
Desde el punto de vista formal el análisis de regresión se dedica a estimar la esperanza

condicional de Y para dadas las independientes. Esto es como varia el promedio de Y a fijar
valores de las independientes. Hay entonces un objetivo fijado que es la determinación de
6
una función llamada función de regresión. En ocasiones el interés del investigador es
también analizar la variación de Y respecto a esta función lo que plantea un problema que
es descrito por una distribución de probabilidad.
Dada la variopinta de problemas que aborda el análisis de regresión se han determinado

varios tipos de modelos, y con ello diversas técnicas y teorías. Así se distinguen la
regresión lineal; la regresión no-lineal; la regresión para datos categóricos. Estos son
llamados métodos paramétricos. En estos modelos la función de regresión es definida a
partir de la existencia de un número finito de parámetros que deben ser estimados a partir
de los datos. Este es el más comúnmente de los enfoques usados.
En el enfoque paramétrico se considera que se tiene:
 Un vector de parámetros desconocidos B de dimensión k1.

 Un vector de variables independientes, X de dimensión k1.
 La variable dependiente Y. Esta puede ser un vector en cuyo caso se plantea un
problema particular que es la Regresión Multivariada.
 La función de regresión es una ecuación que liga Y con X y B.
En algunos problemas se trabaja con problemas de dimensión infinita y se utiliza el llamado

enfoque no No-paramétrico. En este la función de regresión pertenece a un cierto conjunto
de funciones, que no tiene por qué especificarse en términos de parámetros.
Los métodos van a depender de como los datos fueron obtenidos. No es lo mismo lo que
ocurre en un proceso industrial, donde se pueden controlar una serie de efectos, que en un
estudio biológico, donde hay variaciones no controladas modeladas por errores, como son
los efectos ambientales.
Otro enfoque es el uso de métodos que no reaccionan fuertemente ante las violaciones. Este
es el enfoque robusto de la regresión.
Si no conocemos como se generaron los datos deberemos hacer asunciones sobre el

generador de los mismos. En ocasiones nuestras hipótesis se pueden contrastar en otras no.
Si las violaciones de estas asunciones son poco importantes las condiciones de optimalidad,
que se derivan en los modelos, se mantienen aproximadamente inalterables. Esta es la base
de los conceptos de robustez estadística.
Dada la amplia aplicación de la regresión los especialistas de distintas disciplinas han dado
nombre diferentes a los términos. Similarmente ocurre con los softwares que implementan
el ajuste de la ecuación de regresión. Mencionaremos algunos de ellos
X= variable controlada, predictora independiente, explicativa.
Y= variable respuesta, predicción, dependiente, regresando.
Y=f(X)+= función de regresión, de suavizado, ecuación de regresión
7
Al buscar una ecuación de regresión el experto usa su conocimiento para fijarla. En pocas
ocasiones esta es conocida. De hecho el modelar conlleva a que el experto proponga
ecuaciones, las determine y las compare, para determinar cuáles son adecuadas y,
ocasionalmente, cual es la mejor.
Ejemplo: La inversión hecha en poner a punto fábricas de helados en miles de pesos en una
provincia y el valor de estas al precio del mercado se evalúa tras 10 años. Hay una serie de
factores no controlados que se modelan por un error aleatorio . Se espera que este error al
ser promediado se obtenga un equilibrio (E ()=0). Un modelo para describir este problema
financiero estará dado por fijar
Y = B0 + B1 X + ε
Se hacen mediciones y se obtienen los dados en la tabla siguiente:
Inversión Valor actual

160 126
180 103
200 82
220 75
240 82
260 40
280 20
Tabla. Valor inversión y actual de fábricas de helados en una provincia en miles de pesos
El diagrama de dispersión es
126
y
20
160 280
x
Figura. Diagrama de Dispersión. Valor inversión y actual de fábricas de helados en una

provincia en miles de pesos
8
Puede valorarse que la relación es caracterizada por una línea recta. Nunca podremos hallar
una que pase por todos los puntos pero podemos considerar adecuada la brindada en la
figura siguiente
y Fitted values
126
20
160 280
x
Figura. Ajuste lineal de Valor inversión y actual de fábricas de helados en una provincia en
miles de pesos
Es común que hay algunos forma enmarca que caractericen los datos. Tal es el caso de los
datos en la figura próxima de un estudio de todas las fábricas tras 10 años de uso.
Figura. Modelos alternativos para Valor inversión y actual de fábricas de helados en miles
de pesos en la población total.
3. Usos de la regresión
9
No siempre es sencillo hacer el gráfico y por tanto debemos buscar métodos matemáticos
que determinen el lugar geométrico que caracteriza una función aceptable. El análisis de
Regresión es muy usado para hacer predicciones. Actualmente sus conceptos aparecen dentro
de campos modernos como las redes neuronales el aprendizaje, como en los problemas de
“machine learning”. Cuando el objetivo es determinar la ecuación de regresión, o el hacer
predicciones, se desea obtener un valor aceptable de Y al observar valores de las variables
independientes, o de una proporción específica, de todas las observaciones futuras de Y, para
una cierta combinación de valores de las variables controladas. Estas predicciones pueden
hacerse para una combinación cualquiera de las variables independientes que se encuentre
en el rango de las observadas para hacer el ajuste.
Otro uso de la regresión es el de calibrar es decir relacionar como un sistema de medición se

relaciona con otro.
Es de particular importancia su uso para optimizar. En tales problemas, la ecuación

determinada es usada para buscar combinaciones de los valores de la variable independientes
que minimicen, o maximicen, el valor de Y.
Este problema plantea toda una disciplina denominada Superficies de Respuesta
El análisis de regresión es también muy usado para comprender como variables

independientes se relacionan con la variable dependiente. Esto permite evaluar que formas
son aceptables para describir estas relaciones. Por ello estos modelos aparecen como una
herramienta para inferir sobre relaciones de causa-efecto. En estos casos se desea determinar
una función de regresión. Los valores de ella, obtenidos por valores de las variables
independientes dentro del rango de observación, permiten hacer interpolaciones.
4. La Regresión Lineal Simple
Cuando el coeficiente de regresión lineal entre dos variables sea “cercano” a +1 o a –1,
tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos.
Esta recta permitirá establecer el lugar geométrico que describe la relación y puede ser
utilizada para predecir o estimar los valores que tomaría de Y al fijar X.
Consideremos que solo tenemos dos variables X y Y . La relación entre ellas es

hipotéticamente descrita por la ecuación de una línea recta. Entonces el modelo
⃗ ) = 𝑌 = 𝐵𝑜 + 𝐵1 𝑋
𝑓(𝑋, 𝐵
es considerado por el especialista como aceptable.
B0 es la ordenada (valor de Y) cuando X=0
B1 es la pendiente (cambio de Y al aumentar X en una unidad)
10
Al considerar el problema de la estimación que determinar una esperanza condicional se tiene
que el modelo es justificado al considerar que
𝐸(𝑌|𝑋) = 𝐵𝑜 + 𝐵1 𝑋
Lo que sugiere el uso del modelo probabilístico

𝑌𝑑𝑎𝑑𝑜 𝑋 = 𝐵𝑜 + 𝐵1 𝑋 + 𝜀
Y es denominada variable dependiente y X independiente.
Se supone que:
• Los valores de X son fijos y son medidos sin error.

• La variable Y es aleatoria
• Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones
Y)
• Las variancias de las subpoblaciones Y son todas iguales.
• Todas las medias de las subpoblaciones de Y están sobre la recta.
• Los valores de Y están normalmente distribuidos y son estadísticamente
independientes
Esto equivale a decir que si observamos una muestra aleatoria de n pares (X, Y)i, i=1,…,n,
{(Yi, Xi ) , i=1,...,n }, y que
𝑌𝑖 = 𝐵𝑜 + 𝐵1 𝑋𝑖 + 𝜀𝑖
Donde
E(i )=0, V(i )=2 para todo i=1,..,n
Cov (i ,j)=0 , para todo ij
Lo que se desea es hallar la ecuación de una recta que se ajuste óptimamente a los datos.
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los
coeficientes de la recta de regresión y la varianza de los errores.
El método de los mínimos cuadrados es el que usualmente se utiliza para hacer este ajuste y
elegir la recta de regresión. La recta obtenida es aquella que minimiza las distancias
verticales de las observaciones a la recta.
Este método, llamado de los MC ordinarios (MCO), nos plantea el problema de optimización
𝑛 𝑛
(𝑏0 , 𝑏1 ) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0 ,𝐵1 ) {∑(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 = ∑ 𝜀𝑖 2 }

𝑖=1 𝑖=1
O sea que se tienen que resolver el sistema de ecuaciones
𝜕{∑𝑛𝑖=1(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 }
=0
𝜕𝐵0
11
𝜕{∑𝑛𝑖=1(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 }
=0
𝜕𝐵1
Su solución es
 X  i1 X i  Y  i1Yi 
 n
 n


n
i 1  i n 
i
n 
  
n 1 S
Bˆ1  2
 XY
S X2
  
n
X
i1  X i  in1 
n i
 
n 1
  Xi
n n
Y
Bˆ 0   Bˆ1 i1  Y  Bˆ1 X
i 1 i
n n
Estos estimadores son conocidos como “mínimo cuadráticos”
Como no se ha hecho ninguna hipótesis sobre la distribución de las variables aleatorias,

esta solución es óptima para cualquier distribución.
Para valorar si el ajuste es adecuado se calcula la fracción de la varianza total explicada por
la ecuación. Esta es
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (𝑌̂) 𝑉(𝐵̂0 + 𝐵̂1 𝑋)

𝑅2 = =
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌) 𝑆𝑌2
R2 es conocido como coeficiente de determinación, y se encuentra en el intervalo (0,1).

Valores altos de R2 señalan que la ecuación ajustada es una buena representación de la
relación existente entre Y y X.
Note que:
I. En este modelo R2 es igual al coeficiente de correlación entre las variables.

II. 1− R2 indica el porcentaje de la variación que es explicada por el modelo de
regresión ajustado.
III. En muchas ocasiones se expresa este coeficiente como un por ciento. O sea se reporta
100R2.
Los datos pueden ser generados por varios modelos alternativos. El modelo más popular es
el llamado modelo en el que se asume que:
i) X no es una variable aleatoria.
ii) Para cada valor xi de X existe una variable aleatoria. Y|X =xi cuya media está
dada por el modelo.
12
iii) Todas las variables Y|X=xi son normales, independientes y con igual varianza.
Esto es ejemplificado en el siguiente gráfico.
Gráfico de una Recta de regresión bajo el Modelo
Note que la distribución es la misma excepto respecto a la esperanza
Asumimos que para cada valor de X, Y no está determinada, sino que
E(Y|X)=B0 +B1X=|X
Ejemplo. Medimos el nivel de contaminación de un lago y el uso de detergentes en una

barriada que desagua en este. El ajuste de un modelo de regresión simple nos dice que:
 Nivel de contaminación al no usar detergentes (X=0).

 B1 incremento de la contaminación al aumentar 1 %Kg del detergente.
 Si B1= 0 entonces el uso de detergentes no afecta el nivel de contaminación. (las
variables son independientes).
 B1 indica que están correlacionadas y su magnitud mide la fuerza y sentido de
esta asociación mutua
Al considerar que tenemos una muestra de n pares {(Xi ,Yi), i=1,...,n} y dada la aleatoriedad
de cada Y, generada por la de  , la teoría estadística permite:
i) Estimar los coeficientes (parámetros) Bj, j=0,1, del modelo usando
13
    
n n
X
 X  i 1  Y  i 1 Yi 

n i
i 1  i n 
i
n 
  
n 1 S XY
Bˆ1  2

S X2
  
n
X
i 1  X i  i n1 
n i
 
n 1
 
n n
Y Xi
Bˆ 0  i 1 i
 Bˆ1 i 1
 Y  Bˆ1 X
n n
ii) Ajustar un modelo de predicción
𝑌̂ = B̂0 + B̂1 X
Esta es la llamada ecuación de regresión lineal simple la que es utilizada para hacer
predicciones de Y
iii) Estimar los errores (residuos)
𝜀̂ = 𝑟 = 𝑌 − 𝑌̂
y su varianza 2 mediante
2
  
n
 Y  i1Yi 

n
i 1  i n 
𝑆𝑒2 =
∑𝑛 ̂ 𝑖2
𝑖=1 𝜀
=
𝑆𝑦2 −𝐵̂1 𝑆𝑥2
, S 2  
Y
𝑛−2 𝑛−2 n 1
iv) Deducir que 𝑌̂ es un estimador insesgado de Y.
La varianza de las variables Y|xi es:

 1
V (Y | X 0 )   2  
X 0  
n
i 1
X 
i / n
2
 

n 

n
i 1
n

X i  i 1 X i / n 
2 


A su raíz cuadrada se le llama error estándar de la estimación.
v) Derivar que 𝐵̂0 es un estimador insesgado de B0 y su varianza es:
14

1
V ( Bˆ 0 )   2  
 X / n 
n
i 1 i
2
n
 
n
i 1
X   X / n 
i i 1
n
i
2
vi) Derivar que 𝐵̂1 es un estimador insesgado de B1 y su varianza es:
 
ˆ 2 1 
V ( B1 )   
  2 
 i1 X i  i1 X i / n 
n n
 
vii) Demostrar que, como la distribución muestral de los errores  es una N(0, 2) y
que la distribución de Y es una N(B0 +B1X, 2) .
viii) Derivar que los estimadores máximos verosímiles, dado que la función de
verosimilitud es
𝑛 −1/2
2)
𝜎2 (𝑌𝑖 − 𝐵0 + 𝐵1 𝑋𝑖 )2
𝑀𝑎𝑥(𝐵0 ,𝐵1) 𝐿(𝐵0 , 𝐵1 , 𝜎 = ∏( ) 𝑒𝑥𝑝 { }
2𝜋 𝜎2
𝑖=1
Esto determina las mismas expresiones que las obtenidas al utilizar el criterio Mínimo
cuadrático y deducir que poseen una distribución normal.
Este último resultado permite hacer tanto la estimación por intervalos como el hacer pruebas
de hipótesis usando los estimadores presentados. Para ello se utiliza la distribución T(n-2) y
se trabaja con el estadístico normalizado usando la estimación del error típico.
Los intervalos de confianza son:
 S S 
IC ( Bˆ1 )   Bˆ1  t (n  2,1   / 2) e , Bˆ1  t (n  2,1   / 2) e 
 nS x nSx 
 1 X2  1 X 2 
IC ( Bˆ 0 )   Bˆ 0  t (n  2,1   / 2) S e 1  2  , Bˆ 0  t (n  2,1   / 2) S e 1  2  
 n  S x  n  S x  
 
𝐼𝐶(𝐸(𝑌|𝑋)) =
15
1 (𝑋𝑖 − 𝑋̅)2
= (𝑌̂ − t (n  2,1   / 2) Se √ (1 + ) , 𝑌̂
𝑛 𝑆𝑥2
1 (𝑋𝑖 − 𝑋̅)2
+ t (n  2,1   / 2) Se √ (1 + ))
𝑛 𝑆𝑥2

Note que IC(E(YX)) es de amplitud mínima si X i  X .
Para hacer una predicción el investigador fija un valor X*(Min{X1,…,XN}, Max{X1,…,XN})

y la respuesta será
𝑌 ∗ = B̂0 + B
̂1 X ∗
Entonces se puede hacer una estimación por intervalos de confianza para una predicción
utilizando
𝐼𝐶(𝐸(𝑌 ∗ |𝑋 ∗ )) =
2
1 (𝑋 ∗ − 𝑋̅)
= (𝑌 − t (n  2,1   / 2) Se
∗ √ (1 + ) , 𝑌∗
𝑛 𝑆𝑥2
2
1 (𝑋 ∗ − 𝑋̅)
+ t (n  2,1   / 2) Se √ (1 + ))
𝑛 𝑆𝑥2
De estos resultados se derivan las pruebas de hipótesis necesarias.
Note que al hacer la prueba de hipótesis B1=0 se está haciendo el contraste del coeficiente de
𝑆
correlación =0 pues el 𝐵̂1 = 𝑟 𝑆𝑥 .
𝑌
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y. por tanto se
distribuyen como una Ji-cuadrado. Se puede establecer entonces el siguiente resultado:
𝑆𝑒2 2
𝑠𝑒 𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑦𝑒  ( n  2)
𝜎2
Ejemplo. Se quiere estudiar la asociación entre los niveles de contaminación de un río y la

producción de leche en una vaquería que desagua en este. En una muestra de días se utilizan
distintos niveles de detergentes usados en la limpieza de la vaquería midiéndose el
incremento de la polución.
16
Variable X: Kg. De detergente usado (variable no aleatoria)
Variable Y: incremento en la contaminación
X Y
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
La "salida" de un paquete estadístico es:
Coeficientes(a)
Intervalo de
Coef. no Coeficientes confianza
Modelo estand. estand. t Sig. para B al 95%
Error Límite Límite Error
B típ. Beta inferior superior B típ.
1 (Constante) - - -
2,122 -5,895 ,004
12,511 18,403 6,619
kgDet ,147 ,020 ,967 7,546 ,002 ,093 ,202
a Variable dependiente: nivelcont
Entonces
𝑌̂ = −12,511 + 0,147𝑋
Resumen del modelo(b)

R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
Cambio en R Cambio en
cuadrado F gl1 gl2
1 ,967(a) ,934 ,918 ,35575
a Variables predictoras: (Constante), kgDet
b Variable dependiente: nivelcont
Esta ecuación es muy buena pues R2>0,90.
Sin embargo esta lleva a contradicción pues si no se añade detergente el nivel de

contaminación aparece como negativo. Hay alguna deficiencia en el experimento. Una
solución es establecer restricciones en el problema de optimización. En este caso sería B00.
Este es un problema complicado pues uno de optimización con restricciones.
17
La estimación del B1 es distinta de 0, esto indica que hay correlación entre X y Y. Sin
embargo la normalidad es dudable y si son aceptables las inferencias.
En Microsoft Excel, se tiene la función LINEST que permite hacer el ajuste de la

regresión lineal. Esta brinda la opción de calcular Intervalos de Confianza.
Ejemplo. Se mide el número de horas en que estuvo funcionando una maquinaria y la

producción total sin defectos. Los datos obtenidos fueron
2,00 15,50
4,50 29,00
5,00 32,50
7,00 36,50
2,00 18,50
3,50 22,00
6,00 30,00
11,00 45,50
,50 10,50
8,50 42,00
Usando SPSS se obtuvo como salida
R Error típ. de
Model R cuadrado la
o R cuadrado corregida estimación
1 ,976(a) ,953 ,947 2,64030
a Variables predictoras: (Constante), horas
b Variable dependiente: prod.total
Por lo que el modelo representa un muy buen ajuste.
Coeficientes(a)
18
Coeficiente
s Intervalo de
Model Coeficientes no estandariza confianza para B al
o estandarizados dos t Sig. 95%
Límite Límite
B Error típ. Beta inferior superior
1 (Constante
10,846 1,597 6,791 ,000 7,163 14,530
)
horas 3,471 ,272 ,976 12,745 ,000 2,843 4,099
a Variable dependiente: prod.total
De ahí que
𝑌̂ = 10,846 + 3,471𝑋
Además se acepta que todos los coeficientes son distintos de cero.
19
Histograma
Variable dependiente: prod.total
2
Frecuencia
Media =0
Desviación típica =0,943
0 N =10
-2 -1 0 1 2
Regresión Residuo tipificado
Por otra parte
∑𝑛 𝜀̂ 2
𝑆𝑒 = √ 𝑖=1 𝑖 = 4,72
𝑛−2
Si queremos usar un valor redondeado y fijamos B1=3 . Hacemos la prueba de hipótesis

usando el hecho de que el estadístico de prueba es
𝐵̂1 − 3 3,471 − 3
𝑡𝐵1 = √(n − 2)SX2 /n = √8 × 376/10 = 1,73
𝑆𝑒 4,72
20
Como t(8 0,95)=2,896 acepto esta hipótesis. Podemos entonces usar El IC para B1 es
 10 10 
IC ( Bˆ1 )   3,471  2,306  4,72 , 3,471  2,306  4,72   2,84 4,10 
 8  376 8  376 
Por tanto la normalidad también es dudable y las inferencias no pueden ser aceptadas como
concluyentes.
Otro ejemplo es el que presentamos a continuación
Ejemplo. Se evalúa en varias fábricas el número de mantenimientos preventivos planificados

y el por ciento de artículos producidos con defectos. Los resultados fueron
% de artículos defectuosos Numero de MPP

1,00 9,00
1,00 11,00
2,00 9,00
3,00 6,00
5,00 6,00
6,00 8,00
7,00 7,00
10,00 4,00
12,00 4,00
12,00 2,00
13,00 1,00
Usando SPSS se obtiene
R Error típ. de
Model R cuadrado la
1 ,914(a) ,835 ,816 1,96838
a Variables predictoras: (Constante), MPP
b Variable dependiente: porRECH
El modelo no es muy bueno, pero puede ser aceptado pues R2>0,8.
Coeficientes(a)
Coeficientes Intervalo de
Model Coeficientes estandarizado confianza para B
o no s t Sig. al 95%
21
estandarizado
s
Límite Límite
Error inferio superio
B típ. Beta r r
1 (Constante 14,75 10,88 ,00
1,355 11,686 17,815
) 0 8 0
MPP ,00
-1,347 ,200 -,914 -6,737 -1,799 -,895
0
a Variable dependiente: porRECH
Entonces
𝑌̂ = 14,75 − 1,347𝑋
IC ( Bˆ1 )  11,686 17,815 IC ( Bˆ )   1,799
0  0,895 
Como el histograma se ajusta a la correspondiente normal las inferencias son válidas.
Histograma
Variable dependiente: porRECH
2
Frecuencia
Media =-8,12E-16
0 N =11
-2 -1 0 1 2
Cuando las hipótesis fijadas anteriormente no son aceptables no podemos utilizar los
métodos asociados a la normalidad. Al ajustar la recta de regresión a las observaciones
tennos una medida que no depende de estas hipótesis. La valoración del ajuste es
realizado utilizando el coeficiente de determinación. Este es definido de varias formas:
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 ̂ ) 𝑆𝐶𝑟 𝑉(𝐵̂0 + 𝐵̂1 𝑋) ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌𝑖 )2

(𝑌
𝑅2 = = = = 𝑛 =
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌) 𝑆𝐶𝑇 𝑆𝑌2 ∑𝑖=1(𝑌𝑖 − 𝑌̅)2
22
Como SCr < SCT, se verifica que 0 < R2 < 1. Este coeficiente mide la proporción de
variabilidad total de la variable dependiente Y explicada por el modelo de regresión.
Note que el coeficiente de correlación lineal muestral (o coeficiente de correlación de

Pearson) ya definido se relaciona con R2 mediante:
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅) (𝑋𝑖 − 𝑋̅) 𝑆𝑋𝑌
𝑟= = = 𝑠𝑖𝑔𝑛𝑜(𝑏1 )𝑅
𝑆𝑋 𝑆𝑌
√∑𝑖=1(𝑌𝑖 − 𝑌̅) ∑𝑖=1(𝑋𝑖 − 𝑋̅)
𝑛 2 𝑛 2
Para el ajuste de la regresión lineal pueden hallarse "applets" en los enlaces:
http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html
http://www.unalmed.edu.co/~estadist/regression/regresion.htm
http://kitchen.stat.vt.edu/~sundar/java/applets/
http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html
http://www.stat.wvu.edu/SRS/Modules/
5. Regresión Múltiple
5.1 El modelo
Si hay más de una variable relacionada con la variable dependiente Y. Así, si estudiamos
los efectos del escurrimiento de las aguas hacia una laguna y el área fertilizad (en
logaritmo) podemos querer modelar la salinización en términos del logaritmo de esta. Sean
Y= Logssp=Logaritmo salinización porcentual
X1=LAT=Lavado adiabático temporal
X2=Logarea=Logaritmo del área fertilizada.
Podemos ajustar los modelos de regresión simple:
Y = ß0 + ß1X1 +
Y = ß0 + ß2X2 +
Las variables independientes pueden estar ocultando algunos efectos. En realidad la

ganancia en salinización es función de las dos variables y analizar los modelos por separado
puede ser no lo mejor. Podemos ajustar una regresión y ver si este es un buen ajuste y
después hacerlo con la otra variable. Es recomendable analizar el efecto combinado de
ambas. Por ejemplo podemos tener un gráfico como el de la figura siguiente
23
Figura: Plano para el caso Y=LOGSP, X1=LAT, X2=LOGAREA
Modelemos el caso en que tenemos un vector de variables independientes

𝑋 = (𝑋1 , … , 𝑋𝑝 )𝑇 ∈ 𝑝
Ahora hay p+1 parámetros (𝐵1 , … , 𝐵𝑝 , 𝜎 2 ) = (𝐵
⃗ , 𝜎 2)
Usaremos indistintamente 𝐴 = 𝐴 podemos denotar la función de regresión como
η(X;B) = XT B.
Se define como error ahora a
(B)=Y-XTB
Se supone que existe un valor del espacio paramétrico B* , (= espacio paramétrico),
tal que E[(B*)Xª=(X1ª ,…,Xp ª)]=0 lo que significa que (X1ª ,…,Xp ª) permite hacer la mejor
predicción. O sea que la mejor predicción de Y será
η(Xª;ª ) = XªT*
Las formulaciones van a ser muy variadas. El investigador debe escoger . Son posibles
diversas representaciones para un mismo conjunto de variables explicativas.
Si el número de variables explicativas es p>2 la representación gráfica no es factible. El

modelo de regresión se generaliza del problema de hallar la mejor recta a determinar el
mejor hiperplano que ajusta a los datos en el espacio correspondiente.
24
La idea de los Mínimos Cuadráticos es que la ecuación de regresión lineal se obtiene como
una proyección ortogonal. Tomemos F como el espacio L2 de las variables aleatorias
cuyos cuadrados poseen una integral finita (el caso más general es considerar la medida de
Lebesgue) y G como el subespacio lineal de F generado por YF donde (𝑋1 , … , 𝑋𝑝 ) ∈ 𝐹 𝑝 .
Entonces η es una proyección ortogonal de Y sobre G.
Tenemos que 𝐸(𝑌|𝑋) =  pero 𝑌 ↦ 𝐸(𝑌|𝑋) es una proyección, por lo que η proyecta Y
sobre G. Construyendo el producto escalar en F: si las variables aleatorios , y 〈𝑋, 𝑌〉2 ≔
2
𝐸(𝑋, 𝑌). Este es un producto escalar pues si ‖𝑋‖2 = 0. entonces si X = 0, si usamos la medida
2
de Lebesgue esto debe cumplirse solo “ casi dondequiera”, siendo ‖𝑋‖2 : = 〈𝑋, 𝑋〉2 la norma
correspondiente a este. Todo esto permite deducir que  es ortogonal para cualquier Xj y esto
lleva a que sea válido en todo el subespacio G. Así se implica que η es una proyección de Y
sobre G que es, ortogonal respecto al producto escalar predefinido. Podemos entonces fijar
que
(𝑋, 𝐵⃗ ) = 𝑚𝑖𝑛𝑓∈𝐺 ‖𝑌 − 𝑓‖22
Tomando una muestra de tamaño n>p, tenemos n observaciones de Xj, junto con el vector
Y=Ynx1 de n observaciones de Y. La estimación corresponde a la de los coeficientes de esa
proyección ortogonal. Sea el producto escalar para cada par de muestras de tamaño n,
𝑈 ⃗ ∈ 𝐹 𝑛 de variables aleatorias U y V. definamos 〈𝑈
⃗ ,𝑉 ⃗ ,𝑉
⃗ 〉2 ≔ 𝑈
⃗𝑉⃗ . El producto ‖∙‖ ≔ √〈∙,∙〉
n
está definido en F y no en F.
La linealidad de B como función de Y, es expresada por su estructura y es la razón para

llamar el modelo de regresión lineal. Otros modelos serán no lineales y recurrirán del uso
de métodos non lineales para hacer la estimación.
Un primer objetivo en el estudio del modelo lineal es el de estimar los parámetros del mismo.
De la expresión matemática del modelo de regresión lineal general se deduce que para i =
1,2,...,n se verifica la siguiente igualdad
𝑘
𝑌 = ∑ 𝐵𝑗 𝑋𝑗 + 𝜀
𝑗=0
donde  es el error aleatorio o perturbación de la observación i-ésima.
Para este modelo los estimadores mínimos cuadráticos se obtienen al resolver el problema de
optimización
2
𝑛 𝑘
(𝑏0 , … , 𝑏𝑘 ) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0 ,…,𝐵𝑘) {𝑄 = ∑ (𝑌𝑖 − ∑ 𝐵𝑗 𝑋𝑗 ) }

𝑖=1 𝑗=0
Para ello se aplica la diferenciación parcial de Q respecto a cada parámetro obteniendo el

sistema
𝜕𝑄
= 0, 𝑗 = 0,1, … , 𝑘
𝜕𝐵𝑗
25
Estas ecuaciones determinan las p=k+1 ecuaciones normales
𝑛 𝑛 𝑛
∑ 𝑌𝑖 = 𝑛𝑏0 + 𝑏1 ∑ 𝑋𝑖1 + ⋯ + 𝑏𝑘 ∑ 𝑋𝑖𝑘

𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛 𝑛
2
∑ 𝑋𝑖1 𝑌𝑖 = 𝑏0 ∑ 𝑋𝑖1 + 𝑏1 ∑ 𝑋𝑖1 + 𝑏2 ∑ 𝑋𝑖1 𝑋𝑖2 + … + 𝑏𝑘 ∑ 𝑋𝑖1 𝑋𝑖𝑘
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
2
∑ 𝑋𝑖2 𝑌𝑖 = 𝑏0 ∑ 𝑋𝑖2 + 𝑏1 ∑ 𝑋𝑖1 𝑋𝑖2 + 𝑏2 ∑ 𝑋𝑖2 + … + 𝑏𝑘 ∑ 𝑋𝑖𝑘 𝑋𝑖2
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮
2
∑ 𝑋𝑖𝑘 𝑌𝑖 = 𝑏0 ∑ 𝑋𝑖𝑘 + 𝑏1 ∑ 𝑋𝑖1 𝑋𝑖𝑘 + ⋯ + 𝑏2 ∑ 𝑋𝑖2 𝑋𝑖𝑘 + … + 𝑏𝑘 ∑ 𝑋𝑖𝑘
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Su solución provee el estimador mínimo cuadrático (𝑏0 , … , 𝑏𝑘 ).
Es conveniente describir el modelo de regresión lineal general en forma matricial cuando

tenemos n observaciones. Fijando p=k+1 y Xj1=1 para todo i=-1,..,n, el modelo de regresión
lineal p-variado se puede escribir como:
𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑘 𝐵0 1

𝑌 1 𝑋21 𝑋22 ⋯ 𝑋2𝑘 𝐵 2
( 2) = ( ) ( 1) + ( ⋮ )
⋮ ⋮ ⋮ ⋮ ⋮⋮ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑘 𝐵𝑘 𝑛
Denotaremos los vectores y matrices envueltos en este modelo como

𝑌1 1 𝑋11 𝑋12 ⋯ 𝑋1𝑘 1
𝑌 
( 2) = 𝑌 ⃗ ( 1 𝑋21 𝑋22 ⋯ 𝑋2𝑘 ) = 𝑋𝑛×𝑘 , ( 2 ) = 𝜀
⋮ ⋮ ⋮ ⋮ ⋮⋮ ⋮ ⋮
𝑌𝑛 1 𝑋𝑛1 𝑋𝑛2 ⋯ 𝑋𝑛𝑘 𝑛
 Y es el vector n-dimensional (matriz n × 1) de la variable respuesta o dependiente

generado por el fenómeno.
 Xnxk es llamada matriz de diseño. La fila i-ésima de la matriz se corresponde con los
datos de las k variables independientes en la observación i-ésima, i = 1,2,..., n
determinando el vector Xi+. La columna j-ésima de la matriz X+j se corresponde con
los datos de las variables regresora k-ésima Xj, j = 1,2,...,k. La información acerca de
la variable j -ésima en la muestra está contenida en este vector.
 B es el vector p=k+1 dimensional, (matriz p× 1) de la ecuación de regresión.
 es el vector n-dimensional (matriz n × 1) de las perturbaciones aleatorias.
Que la matriz 𝑋𝑛×𝑝 (𝑋𝑛×𝑝

𝑇 ⃗ 𝑇
𝑌)𝑋𝑛×𝑝 sea simétrica e idempotente es incesantemente
requerida tanto para la computación como para probar los teoremas.
26
Determinar el lugar geométrico que caracteriza la función de regresión es el problema de
minimización de la suma de los residuos al cuadrado. O sea resolver el problema mínimo
cuadrático. Este es
2
𝐵⃗̂ = 𝑏⃗ = 𝐴𝑟𝑔𝑀𝑖𝑛𝐵⃗ ‖𝑋𝑛×𝑝 𝐵 ⃗ −𝑌
⃗‖
Por tanto
〈𝑋𝑛×𝑝 ⃗⃗⃗ 𝑇
, 𝑏〉 = 𝑋𝑛×𝑝 (𝑋𝑛×𝑝 𝑏⃗ − 𝑌
⃗)=0
Lo que nos lleva al sistema de ecuaciones normales

𝑇
𝑋𝑛×𝑝 𝑋𝑛×𝑝 𝑏⃗ = 𝑋𝑛×𝑝
𝑇 ⃗
𝑌
Si 𝑋𝑛×𝑝 es de rango completo ( 𝑋𝑛×𝑝

𝑇
𝑋𝑛×𝑝 es inversible) y podremos computar el estimador
explícitamente al calcular:
−1
𝑏⃗ = (𝑋𝑛×𝑝
𝑇 𝑇 ⃗
𝑋𝑛×𝑝 ) (𝑋𝑛×𝑝 𝑌)
Note que
𝑛 𝑛 𝑛
𝑛 ∑ 𝑋𝑖1 ∑ 𝑋𝑖2 ⋯ ∑ 𝑋𝑖𝑘

𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
𝑇
𝑋𝑛×𝑝 𝑋𝑛×𝑝 = ∑ 𝑋𝑖1 ∑ 𝑋𝑖𝑡2 ∑ 𝑋𝑖1 𝑋𝑖2 ⋯ ∑ 𝑋𝑖1 𝑋𝑖𝑘
𝑖=1 𝑖=1 𝑖=1 𝑖=1
⋮ ⋮ ⋯ ⋮
𝑛 𝑛 𝑛 𝑛
2
∑ 𝑋𝑖𝑘 ∑ 𝑋𝑖𝑘 𝑋𝑖1 ∑ 𝑋𝑖𝑘 𝑋𝑖2 ⋯ ∑ 𝑋𝑖𝑘
( 𝑖=1 𝑖=1 𝑖=1 𝑖=1 )𝑘×𝑘
𝑛
∑ 𝑌𝑖
𝑖=1
𝑛
𝑇 ⃗
𝑋𝑛×𝑝 𝑌= ∑ 𝑋𝑖1 𝑌𝑖
𝑖=1
⋮
𝑛
∑ 𝑋𝑖𝑘 𝑌𝑖
( 𝑖=1 )(𝑘+1)×1
Pueden obtenerse los estimadores utilizando álgebra matricial. Planteando:

𝑇
⃗ −𝑋 𝐵
𝑚𝑖𝑛(𝜀 𝑇 𝜀 ) = 𝑚𝑖𝑛 [(𝑌 ⃗̂ ) (𝑌
𝑛×𝑝
⃗ −𝑋 𝐵 ⃗̂ )] 𝑛×𝑝
⃗ 𝑇𝑌
= 𝑚𝑖𝑛 (𝑌 ⃗ −𝑌 ⃗̂ − 𝐵
⃗ 𝑇 𝑋𝑛×𝑝 𝐵 ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑌+𝐵 𝑇 ⃗̂ )
𝑋𝑛×𝑝 𝐵
Los productos matriciales 𝑌 ⃗̂ y 𝐵

⃗ 𝑇 𝑋𝑛×𝑝 𝐵 ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗
𝑌 son iguales a un escalar y, dado que el
orden de cada una de ellas es (1x1), tenemos dos expresiones equivalentes del mismo escalar.
Así que
𝑚𝑖𝑛(𝜀 𝑇 𝜀 ) = 𝑚𝑖𝑛 (𝑌 ⃗ 𝑇𝑌
⃗ − 2𝐵 ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗
𝑌+𝐵 ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗̂ )
𝑋𝑛×𝑝 𝐵
27
Para obtener la minimización hallamos las derivadas parciales
⃗ 𝑇𝑌
𝜕 (𝑌 ⃗ − 2𝐵⃗̂ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗̂ 𝑇 𝑋𝑛×𝑝
𝑌+𝐵 𝑇 ⃗̂ )
𝑋𝑛×𝑝 𝐵
= ⃗0
⃗̂
𝜕𝐵
Y
𝑇 ⃗
−𝑋𝑛×𝑝 𝑇
𝑌 + 𝑋𝑛×𝑝 𝑋𝑛×𝑝 𝐵⃗̂ = ⃗0
Por lo que temeos que la expresión matricial del estimador mínimo cuadrático es
⃗̂ = (𝑋𝑛×𝑝
−1 𝑇
𝐵 𝑇
𝑋𝑛×𝑝 ) 𝑋𝑛×𝑝 𝑌⃗
5.2.Estimador Máximo Verosímil
Si la distribución es normal podemos utilizar el método máximo verosímil. En nuestro caso,

se asume que los errores tienen una distribución normal estándar. Entonces
O sea que cada error tiene por distribución 𝜀𝑖 ~𝑁(0, 𝜎 2 ) por lo que
1 𝜀𝑖2
𝑓(𝜀𝑖 ) = 𝑒𝑥𝑝 (− 2 )
√2𝜋 2𝜎
Dada la independencia
𝜀 ~𝑁(0 ⃗ , 𝜎 2 𝐼)
El logaritmo de la función de verosimilitud es
𝑇
𝑛 𝑛
𝐿∗ = 𝐿𝑛(𝐿) = − ln(2𝜋) − ln 𝜎 2 −
1
⃗ −𝑋 𝐵
(𝑌 ⃗̂ ) (𝑌⃗ −𝑋
𝑛×𝑝
⃗̂ )
𝑛×𝑝 𝐵
2 2 2𝜎2
Como se ve maximizar L* respecto al vector de parámetros implica minimizar el último de

los sumandos en la expresión anterior. Este el mismo problema de optimación que s platea
obtener el estimador de Mínimos Cuadrados Ordinarios revisado anteriormente. Así que el
estimador Máximo Verosímil coincide con el estimador de Mínimos Cuadrados Ordinarios.
Dada la normalidad asintótica de los estimadores máximo verosímiles se deduce la normilla

⃗̂ . Las inferencias s e harán utilizando este hecho.
de 𝐵
La respuesta estimada por el modelo para la i-ésima observación es:

Yî  b0  b1 X i1  b2 X i 2    b p X ip
El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha. Así que el

residuo para la observación i , i-ésimo residuo, es
ei  Yi  Yî , ei  Yi  b0  b1 X i1  b2 X i 2    b p X ip  .
Ejemplo. Un modelo bivariado es presentado en la figura siguiente
28
Modelo de Regresión Múltiple
Un modelo con dos variables
Yi =  0 +  1X1i +  2X2i +  i
Y
Y (Observed Y)
observación
Response 0 i
Plano de Plane
respuesta X2
X1 (X1i,X2i)
E(Y) =  0 +  1X1i +  2X2i
Figura. El plano del modelo
Al tomar la muestra se genera el plano muestral:
El modelo bivariado muestral
Yi = ^0 + ^1X1i + ^2X2i + î

Y (Observed Y)
observado
Response ^0
Plane i
^
X2
X1 (X1i,X2i)
^
Yi = ^0 + ^1X1i + ^2X2i
Figura. El plano del ajuste del modelo
Note que 𝐼 𝑛 − 𝑋𝑛×𝑘 (𝑋𝑛×𝑘

𝑇 ⃗ 𝑇
𝑌)𝑋𝑛×𝑘 es simétrica e idempotente de rango n − p-1. Este es
un ejemplo del uso de los resultado referidos al teorema espectral de dimensión finita del
álgebra lineal que establece que “ cualquier matriz real simétrica M puede ser
diagonalizada mediante una matriz ortogonal G”, (GTMG es diagonal). Si M es además
idempotente, entonces las entradas en la diagonal de GTMG son números idempotentes.
29
Un caso particular es el caso polinomial. Un ejemplo es el polinomio de tercer grado
Y = AX 3 + BX 2 + CX + D + 
Este puede ser expresado como:
y = ß0 + ß1X1+ ß2X2 + ß3X3 + 
Donde X1 = X1, X2 = X2, X3 = X3 . O sea que la regresión polinomial no es sino un caso

particular de la regresión múltiple.
Podemos buscar una superficie a partir de un polinomio de un cierto grado de las variables.
Siguiendo el ejemplo con dos variables podemos buscar el ajuste para el modelo de
segundo grado
Y = ß0 + ß1X1+ ß2X12 + ß3X2 + ß4X22 + ß4X1X2 + 
Su gráfico será del tipo representado en la figura siguiente.
Figura.: Superficie para el ajuste de Y = ß0 + ß1X1+ ß2X12 + ß3X2 + ß4X22 + ß4X1X2 +
Y=LOGSP, X1=LAT, X2=LOGAREA
30
En ocasiones es conveniente trabajar con el modelo centrado por la media de la varible de
respuesta. En este caso se tendrá
𝑝
𝑌𝑖 − 𝑌̅ = ∑ 𝐵𝑗 (𝑋𝑖𝑗 − 𝑋̅𝑗 ) + 𝜀𝑖
𝑗=1
Ejemplo Estamos interesados en evaluar el por ciento de piezas defectuosas producidos por
una maquinaría. Deseamos evaluar el efecto del espesor de las planchas acero s (mm) y la
dureza del metal C. Tenemos los datos siguientes:
%PD S C
1 1 2
4 8 8
1 3 1
3 5 7
2 6 4
4 10 6
El software que implemente la estimación B nos dará una salida como la siguiente
•
• Parameter Estimates
Parameter Standard T for H0:
• Variable DF Estimate Error Param=0 Prob>|T|
• INTERCEP 1 0.0640 0.2599 0.246 0.8214
• S 1 0.2049 0.0588 3.656 0.0399
• C 1 0.2805 0.0686 4.089 0.0264
•
Entonces
𝑌̂ = 0,064 + 0,2049𝑆 + 0,2805𝐶
En el estudio del modelo de regresión lineal generalmente se asume que se verifican las
siguientes hipótesis:
1. La función de regresión es lineal, 𝐸(𝑌𝑖 |𝑋𝑖1, 𝑋𝑖2 , … , 𝑋𝑖𝑘 ) = ∑𝑝𝑗=1 𝐵𝑗 𝑋𝑖𝑗 , 𝑖 = 1, . . , 𝑛.

2. La varianza es constante (homocedasticidad), 𝑉(𝑌𝑖 |𝑋𝑖1 , 𝑋𝑖2 , … , 𝑋𝑖𝑘 ) = 𝜎 2 , 𝑖 =
1, . . , 𝑛
3. La distribución de cada Yi es normal, 𝑌𝑖 ~𝑁(∑𝑝𝑗=1 𝐵𝑗 𝑋𝑖𝑗 , 𝜎 2 )
4. Las observaciones Yi son independientes
5. n > k + 1=p. En caso contrario no se dispone de información suficiente para estimar
los parámetros del modelo.
6. Las variables regresoras X1,X2,...,Xk son linealmente independientes.
Las primeras 4 condiciones pueden ser fijadas en términos de los errores como sigue
1´. 𝐸(𝑖 ) = 0, 𝑖 = 1, . . , 𝑛.
31
2´. 𝑉(𝐸(𝑖 )) = 𝜎 2 , 𝑖 = 1, . . , 𝑛
3´. 𝜀𝑖 ~𝑁(∑𝑝𝑗=1 𝐵𝑗 𝑋𝑖𝑗 , 𝜎 2 )
4´. Los errores i son independientes
En el caso de normalidad la condición 5 establece la independencia en cuyo caso Cov(Yi,

Yi*)=0 para todo ii* o sea
2 ∗
𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑖 ∗ ) = { 𝜎 𝑠𝑖 𝑖 = 𝑖
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
El siguiente teorema justifica la utilización de los estimadores mínimos cuadráticos, ya que,

en este contexto, indica que estos estimadores son los “mejores” (los más eficaces) dentro de
la clase de los estimadores lineales insesgados.
Teorema (Gauss-Markov). En la estimación del modelo de regresión lineal si entre las

perturbaciones (errores) no son correlacionados, son de igual varianza e independientes de
las variables explicativas. Entonces los estimadores mínimo-cuadráticos son “óptimos” o de
mínima varianza dentro de la clase de los estimadores centrados que son funciones lineales
de las observaciones, Yi. 
5.3. Un estudio geométrico
En el estudio del modelo de regresión lineal múltiple con k variables regresoras, a partir de
una muestra de n observaciones, se considera el subespacio vectorial de n generado por
los vectores (columnas de la matriz de diseño).
El problema de ajustar un modelo de regresión lineal múltiple se puede interpretar

geométricamente como el problema de encontrar en este subespacio vectorial  el vector
(vector de predicciones) lo más próximo al vector de la variable respuesta. Esto es, encontrar
el vector que minimice el módulo del vector de residuos la resolución de este problema viene
dada por el vector proyección ortogonal del vector en el subespacio considerado.
Tomemos ahora la representación

⃗̂ = 𝐻𝑌
𝑌 ⃗
La proyección de Y en el subespacio se ilustra en la figura siguiente
32
Figura La proyección 𝐻𝑌
⃗
H se denomina la matriz de proyección (hat matrix) en el subespacio .
Dado que
⃗̂ = 𝑋𝑛×𝑘 𝑏⃗ = 𝑋𝑛×𝑘 (𝑋𝑛×𝑘
𝑌 𝑇 𝑇 ⃗
𝑋𝑛×𝑘 )−1 (𝑋𝑛×𝑘 ⃗
𝑌) = 𝐻𝑌
Por tanto la matriz de proyección sobre el subespacio  es

𝑇 𝑇
𝐻 = 𝑋𝑛×𝑘 (𝑋𝑛×𝑘 𝑋𝑛×𝑘 )−1 𝑋𝑛×𝑘
Trabajando con resultados del Algebra Lineal se deriva que:
1. El estimador por mínimos cuadrados b viene dado por las coordenadas del vector de
⃗̂ en el subespacio  respecto a la base {1
predicciones 𝑌 ⃗ , 𝑋+1 , … , 𝑋+𝑘 } .
2. Los residuos verifican las siguientes p=k+1 restricciones 𝜀 1 ⃗ y 𝜀 𝑋+𝑗 , 𝑗 = 1, … , 𝑘 .
Es decir
∑𝑛𝑖=1 𝜀𝑖 = 0, ∑𝑛𝑖=1 𝜀𝑖 𝑋𝑖𝑗 = 0, 𝑗 = 1, … , 𝑘
Note que esto fija que los residuos tienen n –(k-1)=n-p grados de libertad
33
El estimador del vector B por el método de mínimos cuadrados es b. Bajo la hipótesis de
normalidad, la función de verosimilitud lleva a una expresión igual a la minimizada por el
método de los mínimos cuadráticos.
5.4. Inferencias
Si se cumple la normalidad de los errores el estimador b verifica las siguientes propiedades:
1. El estimador b es insesgado (E(b)=B)

2. La matriz de varianzas-covarianzas del estimador b es
𝜎11 𝜎12 ⋯ 𝜎1𝑘

𝑄 = 𝜎21 𝜎22 ⋯ 𝜎2 , 𝜎𝑡ℎ = 𝐸(𝑏𝑡 − 𝐵𝑡 )(𝑏ℎ − 𝐵ℎ )
⋮ ⋮ ⋯ ⋮
( 𝜎𝑘1 𝜎𝑘2 ⋯ 𝜎𝑘𝑘 )
siendo qii el elemento i-ésimo de la matriz (𝑋𝑛×𝑘

𝑇
𝑋𝑛×𝑘 )−1 .
3. El estimador b tiene distribución normal multivariada de orden k + 1,

(𝑏⃗~𝑁𝑘+1 (𝐵
⃗ , 𝜎 2 (𝑋𝑛×𝑘
𝑇
𝑋𝑛×𝑘 )−1)).
4. El estimador bi del parámetro Bi tiene la distribución normal 𝑏𝑖 ~𝑁 (𝐵𝑖 , 𝜎 2 𝑞𝑖𝑖 ), 𝑖 =
0,1, … , 𝑘.
Note que:
i. Los estimadores bt y bh no están incorrelacionados pues en general th

0. por tanto, no son independientes.
ii. Podemos expresar ii =2qii =V(bi) donde qii es el correspondiente
elemento de (𝑋𝑛×𝑘𝑇
𝑋𝑛×𝑘 )−1
En el modelo el parámetro Bj indica la influencia de la j-ésima variable regresora en la

variable respuesta Y. representa el incremento que se produce en la variable respuesta por
un crecimiento unitario en la variable regresora. Aceptar que el valor de Bj =0 lleva a
aceptar que la correspondiente Xj no está relacionada linealmente con la variable Y.
Una hipótesis básica del modelo es que 𝑉(𝐸(𝑖 )) = 𝜎 2 , 𝑖 = 1, . . , 𝑛. Este parámetro

tambien debe ser estimado. El estimador es la llamada varianza residual. Esta es la suma
de residuos al cuadrado dividida por sus grados de libertad. Es decir que
∑𝑛 ̂ 2
𝑖=1(𝑌𝑖 −𝑌𝑖 )
⃗ 𝑇𝑌
𝑌 ⃗𝑌
⃗ −𝑏 ⃗
𝑆𝑟2 = = =
𝑛−(𝑘+1) 𝑛−𝑘−1
Este es insesgado. Como solo dos reales lo son (0 y 1) 𝐼 𝑛 − 𝑋𝑛×𝑘 (𝑋𝑛×𝑘

𝑇 ⃗ 𝑇
𝑌)𝑋𝑛×𝑘 después
de diagonalizada tiene n −k-1 “ceros” y p “unos” en su diagonal. En esto se basa la
34
prueba de que la suma de cuadrado de los residuos tiene una distribución Chi-cuadrado
con n-k-1 grados de libertad.
La significación estadística de Bi se obtiene simplemente calculando el cociente entre el

coeficiente estimado y su error típico
𝑏𝑖 / 𝑆𝑟 √𝑞𝑖𝑖
Comparándole con el cuantil correspondiente de una distribución T de Student se establece

si Bi=0 o no.
Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes

de hipótesis para los coeficientes de regresión involucran expresiones matriciales y
distribuciones multivariantes que complican notablemente las operaciones, por lo que en la
práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes
paquetes estadísticos.
Definición. El coeficiente de correlación parcial entre Xi y Xj es una medida de la relación

lineal entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos
debidos al resto de las variables del conjunto
Al coeficiente de correlación parcial entre X1 y X2 se le denotará por r12·3...k· 
Para ilustrar tomemos
y el coeficiente de correlación parcial entre las variables X1 y X2. Para ello, se procede de la
siguiente forma,
1. Se calcula la regresión lineal de X1 respecto de X3 y X4
𝑋1 = 𝐴0 + 𝐴3 𝑋3 + 𝐴4 𝑋4 + 𝜀1.34
𝜀1.34 = Residuo del ajuste lineal realizado.
2. Se calcula la regresión lineal de X2 respecto de X3 y X4
𝑋2 = 𝐵0 + 𝐵3 𝑋3 + 𝐵4 𝑋4 + 𝜀2.34
𝜀2.34 = Residuo del ajuste lineal realizado.
35
3. El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de correlación
lineal simple entre las variables 𝜀1.34 𝑦 𝜀2.34 ,
Note que el coeficiente de correlación lineal se define siempre para un conjunto de

variables y solo si este se especifica se puede interpretar.
Ahora si trabajamos con el conjunto de variables
podremos relacionar los coeficientes de correlación lineal simple y el coeficiente de

correlación parcial mediante
el coeficiente de correlación parcial entre la variable independiente Y con una variable

regresora Xi , controlando el resto de variables regresoras. Para ello se utiliza el estadístico
del contraste individual de la t-Student respecto a la variable Xi y que se definió
anteriormente como
bi 𝑏i
t̂ i = =
√V(𝑏i ) Sr √q ii
obteniéndose la siguiente relación
donde
C=
es el conjunto de índices de todas las variables regresoras excepto el índice i.
Estas fórmulas ponen de manifiesto la complejidad numérica para determinar los

estimadores. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse
(tal es el caso de las singulares). En dos situaciones no se puede hacer los cálculos si:
1. El número de observaciones, es menor o igual que el número de variables

independientes.
2. Una variable independiente es combinación lineal de otra(s) o es constante
(colinealidad).
36
Note que, manteniendo las hipótesis de independencia, homocedasticidad, normalidad y
linealidad, se calculan expresiones para el error estándar de cada coeficiente estimado. Esto
per mite desarrollar expresiones para los intervalos de confianza y el contraste de hipótesis
de modo análogo al caso de la regresión simple.
El uso de la Máxima Verosimilitud plantea un problema de optimización que puede ser muy
complejo excepto cuando los errores se distribuyen N(0,2 ). En este caso se obtienen los
mismos resultados. Son muchos los libros en los que se pueden encontrar el desarrollo
teóricos de dichas expresiones utilizando tanto el método de los mínimos cuadráticos como
el asociado al criterio de Máxima Verosimilitud.
Por ello es necesario utilizar algún software para hacerlos
Ejemplo Dada una muestra hipotética de 20 motores han recogido los siguientes datos: gasto
de combustible (en mg/100 ml), edad del motor (en años), consumo aceite (en
mgr/semestrales) y nivel de uso (cuantificado como 0: poco, 1: normal y 2: intenso), realizar
el ajuste a un modelo lineal entre el gasto en combustible y las demás variables.
Los resultados de la salida del SPSS son
R Error típ. de
Model R cuadrado la
1 ,701(a) ,492 ,390 58,41817
a Variables predictoras: (Constante), uso, aceite, edad
b Variable dependiente: gcomb
Este modelo puede ser evaluado como aceptable dado que el valor de R2 0,5 puede
considerarse moderado. En general son buenos modelos con valores cercanos a 1.
Coeficientes(a)
Coeficientes Intervalo de
Model Coeficientes no estandarizad confianza para
o estandarizados os t Sig. B al 95%
Límite Límite
Error inferio superio Error
B típ. Beta r r B típ.
1 (Constant -
108,02 62,17 240,53
e) 1,738 ,103 24,49
3 1 8
2
edad 2,319 1,061 ,464 2,186 ,045 ,058 4,581
aceite 2,250 ,726 ,597 3,099 ,007 ,703 3,798
37
uso -
20,26
-9,677 -,098 -,478 ,640 52,86 33,513
3
7
a Variable dependiente: gcomb
El modelo es entonces
𝑌̂ = 108,023 + 2,319𝐸 + 2,25𝐴 − 9,677𝑈 .
En este modelo B3 puede ser considerado no importante. El hecho de que dude que B00 da
una idea de que el modelo debe ser mejorado.
El gráfico de Y nos da una idea de que la distribución es normal
Histograma
Variable dependiente: gcomb
4
Frecuencia
Media =2,75E-16
0 N =19
-2 -1 0 1 2
38

De la distribución de bi se ha deducido su normalidad por lo que sigue una N(0,1) entonces
𝑏𝑖 − 𝐵 𝑖
~𝑇(𝑛 − 𝑘 − 1)
𝑆𝑟 √𝑞𝑖𝑖
Cuando la normalidad no es aceptable se utiliza el coeficiente de determinación para

valorar la conveniencia de aceptar o no la ecuación ajustada. Este no depende de la
distribución. Por ello en los ejemplos podemos aceptar o no el ajuste usando R2.
6. VALIDEZ DEL MODELO
6.1. Análisis de varianza
Si tuviéramos el modelo
𝑌 = 𝐵0 + 𝐵1 𝑋1 + 𝐵2 𝑋2 + 𝜀
Es de interés establecer si es válido que H0: β1 = 0 and β2 = 0 comparándole con H1: β1 ≠ 0

o β2 ≠ 0 (o ambos).
En general nos enfrentamos con q2 restricciones. Una solución simple es aplicar la prueba
T-Student 2 veces pero en tal caso la probabilidad de rechazar la hipótesis nula es mayor
que . Una solución es acudir a una prueba del tipo Bonferroni. Otra es aplicar una prueba
T-Student para los dos parámetros al mismo tiempo. Dada la normalidad podremos usar el
estadístico F dado por
𝑡12 + 𝑡22 − 2𝜌̂𝑡 ,𝑡 𝑡1 𝑡2
1 2
𝐹=
2
2 (1 − 𝜌̂𝑡 ,𝑡 )
1 2
Este será grande si 𝑡12 𝑜 𝑡22 lo son.
Para la regresión con k variables regresoras tenemos
H 0 : 1     k  0
H 1 : al menos un  j no es cero
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está
linealmente relacionada con la respuesta. Ahora, el test F de la regresión múltiple docima la
hipótesis de que todos los coeficientes de regresión (con excepción del intercepto) son cero,
39
hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan más las
hipótesis individuales para cada parámetro asociado a cada variable explicatoria.
Para hallar la descomposición usemos la igualdad

𝑛
𝑇 𝑇
⃗ 𝑇𝑌
𝑌 ⃗ = ∑ 𝑌𝑖2 = (𝑌 ⃗̂ ) (𝑌
⃗ ∓𝑌 ⃗̂ ) = (𝑌
⃗ ∓𝑌 ⃗̂ + 𝜀̂ ) (𝑌
⃗̂ + 𝜀̂ ) = 𝑌
⃗̂ 𝑇 𝑌
⃗̂ + 𝜀̂ 𝑇 𝜀̂
𝑖=1
Al centrar esta expresión tenemos que

𝑛 𝑛 𝑛
⃗̂ 𝑇 𝑌
⃗̂ − 𝑛𝑌̅ 2 + 𝜀̂𝑇 𝜀̂ 2
∑(𝑌𝑖 − 𝑌 ̅ )2 ⃗ 𝑌 − 𝑛𝑌 = 𝑌
=𝑌 𝑇⃗ ̅2 ̂𝑖 − 𝑌̅) + ∑ 𝜀̂𝑖2
= ∑(𝑌
𝑖=1 𝑖=1 𝑖=1
De esta igualdad se construye la tabla análisis de varianza. De esta tabla se deduce el contraste
acerca de la influencia “conjunta” del modelo de regresión en la variable respuesta.
Denotamos
𝑛
𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2 = 𝑌

⃗ 𝑇𝑌
⃗ − 𝑛𝑌̅ 2
𝑖=1
𝑛
̂𝑖 − 𝑌̅)2 = 𝑏⃗ 𝑇 𝑋𝑛×𝑝
𝑆𝐶𝑅𝑒𝑔 = ∑(𝑌 𝑇 ⃗
𝑌 − 𝑛𝑌̅ 2
𝑖=1
𝑛
⃗̂ 𝑇 𝑌
𝑆𝐶𝑅 = ∑ 𝜀̂𝑖2 = 𝑌 ⃗̂ − 𝑏⃗ 𝑇 𝑋 𝑇 𝑌⃗
𝑛×𝑝
𝑖=1
Tabla de análisis de varianza para la regresión
Fuente de Grados de SC= CM=

variación libertad Suma de Cuadrados Medios F
Cuadrados
Modelo k-1 𝑆𝐶𝑅𝑒𝑔 𝑀𝐶𝑅𝑒𝑔

𝑆𝐶𝑅𝑒𝑔 𝑀𝐶𝑅𝑒𝑔
=
𝑘−1 𝑀𝐶𝑅
𝑆𝐶𝑅 𝑆𝐶𝑅
Residuo n-k 𝑀𝐶𝑅 =
𝑛−𝑘
SCT
Total n 1
El estimador de la varianza  2 de nuestro modelo está dado por la media cuadrática

residual
40
𝑆𝐶𝑅
𝑆𝑟2 =
𝑛−𝑘
El contraste individual de los coeficientes de la regresión se puede contrastar usando la T-

Student. La influencia individual de una variable se deduce de la distribución del estimador
pero también puede hacerse por medio de una tabla análisis de varianza, al analizar el
incremento que se produce en la suma de cuadrados explicada por el modelo, al introducir
esta variable. Para ello se ajusta el modelo de regresión completo, con las k variables
regresoras y se calcula la suma de cuadrados explicada por el modelo y se ajusta el modelo
de regresión donde se excluye la variable Xi.
Note que podemos particionar la matriz de diseño como X = {X1 , … . , Xq } donde esta
corresponde a la representación
T
⃗ = (B
B ⃗ 1, … , B
⃗q )
,
Xh tiene las filas correspondientes a ⃗Bh , h = 1, … , q . Entonces
q
⃗ ) = XB
E(Y ⃗ = ∑ Xh B
⃗h
h=1
Bajo la hipótesis de ortogonalidad de las Xh
𝑞
𝑏⃗ 𝑇 𝑋𝑛×𝑝
𝑇 ⃗ ⃗
𝑌 = ∑ 𝑏ℎ𝑇 𝑋ℎ𝑇 𝑌
ℎ=1
Es claro que
SCR(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk )
Esta es el incremento en la suma de cuadrados al incluir como última variable Xj. La
significación de aporte es realizada al computar la prueba F-parcial
SCReg(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk )
F(Bj |B0 , B1 , … , Bj−1 , Bj+1 , … , Bk ) = ~𝐹(1, 𝑛 − 𝑘)
CMr
Este contraste proporciona exactamente el mismo resultado que el contraste individual de la

t, ambos dan origen al mismo p- valor. Este método puede utilizarse para hace pruebas de
hipótesis para un subconjunto de variables
Ejemplo. Se hace el ajuste del modelo de regresión 𝑌 = 𝐵0 + ∑2𝑗=1 𝐵𝑗 𝑋𝑗 + 𝜀 y se obtiene a

partir de los datos la salida
Análisis De la regresión
La ecuación Producción
=1566,1+7,6vitaminas+8,6pienso
Predictor Coef. Error standard T P-
valor
Constante 1566,1 61,6 25,4 0,000
Vitaminas 7,6 0,6 12,3 0,000
41
Pienso 8,6 2,4 3,52 0,004
S=16,4 R-cuad=0,927 R-cuad
ajust=0,916
Análisis de La varianza
Fuente G.l. Sc Mc F
Regresión
Residuos 2 44157 22079 82,5
Vitaminas 13 3479 268
Total 15 47636
Fuente G.L. SC-

SECUENCIAL
Vitaminas 1 40841
Pienso 1 3316
Veamos el aporte de la variable X2
𝑆𝐶𝑅(𝐵2 |𝐵0 , 𝐵1) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵1 , 𝐵2 |𝐵0 ) = 𝑆𝐶𝑅 − 𝑆𝐶𝑅(𝐵0 , 𝐵1 )
Ajustando Y = B0 + B1 X1 + ε tenemos
Análisis de la regresión
La ecuación Producción
=1652,4+7,6vitaminas
predictor Coef. Error T p-
standard valor
Constante 1652,4 63,6 26,0 0,000
Vitaminas 7,6 0,6 12,7 0,000
S=16,4 R-Cuad=0,903 R-cuad
ajust=0,887
Análisis de varianza
Fuente
Regresión g.l. SC MC F p-
valor
Residuos 1 40840,8 40840,8 82,5 0,000
Vitaminas 14 6795,5 268 485,4
Total 15 47636,3
Fuente g.l. SC-

secuencial
Vitaminas 1 40841
Pienso 1 3316
Como
𝑆𝐶𝑅(𝐵2|𝐵0 , 𝐵1 ) = 44157,0 − 40840,8 = 3316,2
42
𝑆𝐶𝑅𝑒𝑔(𝐵𝑗 |𝐵0 , 𝐵1 ) 3316,2
𝐹(𝐵2|𝐵0 , 𝐵1) = = ≅ 12,37~𝐹(1,13)
𝐶𝑀𝑟 268
Así que al ser 𝐹(0,99; 1,13) = 8,86 su aporte es significativamente grande.
En un modelo de regresión múltiple al hacer los contrastes sobre la influencia individual de

cada una de las variables regresoras y el contraste sobre la influencia conjunta del modelo de
regresión ajustado, pueden darse las siguientes situaciones:
Caso 1. Todas las variables regresoras influyen significativamente en la respuesta.

Caso 2. Solo influyen algunas variables regresoras.
Caso 3. Las variables regresoras son muy dependientes entre sí. Entonces, conjuntamente
influyen, pero los coeficientes individuales tienen varianzas muy altas en relación con el
valor de las estimaciones que son no significativas.
Caso 4. Las variables son muy dependientes pero con una fuerte correlación negativa. Es
poco frecuente.
Caso 6. Ninguna de las variables regresoras influye en la variable respuesta o la influencia
no la detecta la muestra tomada.
6.2. Introducción de variables indicadoras en la regresión
Las variables explicativas que hemos considerado hasta este momento se midieron sobre
una escala cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para
incluir asimismo, variables explicativas cualitativas. Estas van a establecer categorías
disjuntas. Por ejemplo, podríamos preguntarnos si el nivel de estrés puede ser explicado
además por la dependencia del sexo. Como las variables explicativas en un análisis de
regresión deben tomar valores numéricos les asignamos 1 a los hombres y 0 a las mujeres.
Estos números no representan mediciones reales; sencillamente identifican las categorías
de la variable aleatoria nominal. Estos valores no tienen significado cuantitativo, una
variable explicativa de esta clase se denomina variable indicadora o variable muda (en
inglés dummy variable).
Podemos modelar esto al considera que la variable, X1 determina una ecuación para cada
categoría. Una para la situación 1 (localización A), y otra para la situación 2 (localización
B).
Ejemplo. Sea una ecuación de regresión con dos categorías y el modelo

Y   0 X 2   2 (1  X 2 )  1 X 1 X 2   3 ( X 1 )(1  X 2 )  
donde
1 𝑠𝑖 𝑒𝑠 ℎ𝑜𝑚𝑏𝑟𝑒
𝑋1 = 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑡𝑟𝑒𝑠, 𝑋2 = {
0 𝑠𝑖 𝑒𝑠 𝑚𝑢𝑗𝑒𝑟
Un gráfico será como el dado en la figura siguiente
43

En general podemos definir variables cualitativas al tener c clases al determinaran c-1
variables indicadoras.
Ejemplo. Se analiza el efecto de los trastornos del dormir en el estrés de trabajadores en

una acería. Se toma en consideración el sexo. Los datos obtenidos son:
stress dormir tr. sexo
17 151 1
26 92 1
21 175 1
30 31 1
22 104 1
0 277 1
12 210 1
19 120 1
4 290 1
16 238 0
28 164 0
15 272 0
11 295 0
38 68 0
31 85 0
21 224 0
20 166 0
13 305 0
30 124 0
14 246 0
La salida del software es
44
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.95993655
R Square 0.92147818
Adjusted R Square 0.91224031
Standard Error 2.78630562
Observations 20
ANOVA
df SS MS F Significance F
Regression 2 1548.820517 774.4103 99.75016 4.04966E-10
Residual 17 131.979483 7.763499
Total 19 1680.8
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 33.8698658 1.562588138 21.67549 8E-14 30.57308841 37.16664321
dormir trastornos -0.10608882 0.007799653 -13.6017 1.45E-10 -0.122544675 -0.089632969
sexo 8.76797549 1.286421264 6.815789 3.01E-06 6.053860079 11.4820909
La regresión ajustada a la respuesta del sexo es:

Y  33.87  .1061 X 1  8.77 X 2
Por tanto para los hombres tenemos:
Yˆ  (33.87  8.77)  .1061 X 1
Por su parte para las mujeres es
Yˆ  33.87  .1061 X 1 . 
6.3. El problema de la colinealidad
Entre los supuestos a verificar está la presencia de colinealidad. La colinealidad ocurre

cuando dos o más variables independientes se relacionan entre sí, dando la misma
información sobre la variación observada en Y. Esta se en la inestabilidad de los coeficientes
estimados y sus errores estándares o excesivamente grandes. Este es uno de los problemas
más complejos en el análisis de regresión. Si en un modelo de Regresión Lineal Múltiple
alguna variable independiente es combinación lineal de otras, el modelo no tiene solución,
pues en tal caso, la matriz 𝑋𝑛×𝑝
𝑇
𝑋𝑛×𝑝 es singular por ser su determinante es cero. Este
fenómeno se conoce con el nombre se le denomina colinealidad. Si hay colinealidad
tenderemos que para alguna variable Xj existe otra Xt, tj, tales que Xj=B1+B2Xt, B1 y B2
constantes.
Definición. Se dice que existe colinealidad en un modelo de regresión múltiple si alguno de

los coeficientes de correlación simple o múltiple entre algunas de las variables
independientes es 1.
En las ciencias no experimentales como son los de índole económica, sociológica y a veces
las biológicas las variables independientes tienden a estar correlacionadas entre ellas.
45
No debe existir multicolinealidad entre las variables explicativas o independientes. La
multicolinealidad originalmente implicaba la existencia de una relación lineal "perfecta o
exacta" entre algunas o la totalidad de las variables independientes de un modelo de
regresión. En la actualidad el término multicolinealidad se utiliza en un sentido más amplio
para incluir el caso de multicolinealidad perfecta, así como también aquella situación en
donde las variables X están intercorrelacionadas, pero no en forma perfecta. Por ello se usa
el termino de cuasi-colinealidad, en la que algunos coeficientes de correlación simple o
múltiple son altos, su módulo cercano a 1. En tales casos |𝑋𝑛×𝑝 𝑇
𝑋𝑛×𝑝 | ≅ 0 . Esto crea
problemas con la precisión en la estimación de los coeficientes, debido a problemas de índole
numérica.
Note que como la matriz de varianzas de los estimadores es proporcional 𝑋𝑛×𝑝

𝑇
𝑋𝑛×𝑝 si hay
colinealidad los errores estándar de los coeficientes son muy grandes
Los efectos de la colinealidad son:
 A medida que aumenta la colinealidad, las varianzas de los coeficientes de regresión

aumentan y cuando es perfecta son infinitas.
 Debido a que los errores de los coeficientes de regresión no son eficientes, los
intervalos de confianza para los parámetros, tienden a ser más amplios y la
información muestral puede ser compatible con un conjunto diverso de hipótesis,
por consiguiente, la posibilidad de aceptar una hipótesis falsa aumenta.
 En casos de alta colinealidad se tiende a aceptar con mayor facilidad la hipótesis
nula de respecto a que un coeficiente de regresión sea cero.
 En casos de alta colinealidad es posible encontrar, que uno o más coeficientes de
regresión sean individualmente no significativos en términos estadísticos con base
en la prueba t. No obstante, puede sr que el R2 sea alto.
Son indicadores de multicolinealidad:
 Hay correlaciones significativas entre pares de variables independientes en el modelo.

 Pruebas t no significativas para los parámetros  individuales cuando la prueba F
global del modelo es significativa.
 Hay signos opuestos (a lo esperado) en los parámetros estimados.
La existencia de colinealidad es fácilmente detectada pues todos los algoritmos la detectan y

reportan que no pueden hace la estimación. Esta es medida por varios estadísticos. Lo más
popular está asociado a los coeficientes de determinación de cada variable independiente.
Esto es calcular
Otros estadísticos son el factor de inflación de la varianza (FIV) y la tolerancia (T), definidos
como
46
Una regla aceptada es que hay problemas de colinealidad si
𝐹𝐼𝑉𝑗 > 10𝑅𝑗2 > 0,90
Esto es que Tj< 0,1.
Otro estadístico que permite detectar la significación de la colinealidad es:
(𝑛 − 𝑘)𝑅𝑋21 ,…,,𝑋𝑖−1 ,𝑋𝑖+1 ,…,𝑋𝑘

𝐹𝑖 = ~𝐹(𝑘 − 1, 𝑛 − 𝑘)
(𝑘 − 1)(1 − 𝑅𝑋21 ,…,,𝑋𝑖−1 ,𝑋𝑖+1 ,…,𝑋𝑘 )
𝑅𝑋21 ,…,,𝑋𝑖−1 ,𝑋𝑖+1 ,…,𝑋𝑘 es el coeficiente de determinación en la regresión de la variable Xi en las

restantes variables independientes. Si Fi<F (1-, k-1, n-k), la variable Xi no es colineal con
las restantes X; si es mayor, lo es colineal y debe eliminarse del modelo. Sin embargo al
eliminar una variable del modelo podemos cometer el sesgo o error de especificación.
Notas:
 Puede existir colinealidad con FIV bajos,

 Puede haber colinealidad que no impliquen a todas las variables independientes y
que, por tanto, no son bien detectadas por FIV.
 Para detectar colinealidad lo más adecuado es utilizar el llamado análisis de
componentes principales de las variables independientes.
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser: cambios de
escala en las variables, incluyendo el centrado de las mismas (restar a cada variable su media)
o, incluso, eliminar alguna de las variables colineales.
En este mismo sentido hay que tener en cuenta que las variables producto introducidas para
estudiar la interacción pueden dan lugar a problemas de colinealidad y no se recomienda, por
lo tanto, que un modelo contenga muchos términos de interacción.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza cero) existe
colinealidad exacta con el término independiente, y si una variable tiene varianza casi cero
(toma valores muy próximos para todas las observaciones) existe casi-colinealidad.
47
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para la variable,
por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene una varianza 100
veces menor que si se midiera en años. En este caso un cambio de escala puede evitar el
problema de la colinealidad.
También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de variables con
varianzas excesivamente grandes, en cuyo caso el cambio de escala aconsejable sería el
contrario, por ejemplo, podría dar lugar a problemas de precisión medir la edad en días.
Ejemplo. Se estudia el contenido de alquitrán, nicotina y monóxido de carbono en una marca

de cigarrillos que se va a poner a la venta. Sea
Monóxido de carbono=Y
Alquitrán= X1,
Contenido de Nicotina= X2,
Peso del Cigarrillo= X3
El modelo considerado fue
Y   0  1 X 1   2 X 2   3 X 3  
Se hicieron 25 mediciones y las salidas de SPSS son:
Resumen del modelob
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 .958a .919 .907 1.4457
a. Variables predic toras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 495.258 3 165.086 78.984 .000a
Residual 43.893 21 2.090
Total 539.150 24
a. Variables predic toras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
Por tanto el modelo puede considerarse adecuado
48
Coeficientesa
Coeficientes
Coeficientes no estandariz ad
estandariz ados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.202 3.462 .925 .365
Alquitrán .963 .242 1.151 3.974 .001
Nicotina -2.632 3.901 -.197 -.675 .507
Peso -.130 3.885 -.002 -.034 .974
a. Variable dependiente: CO
Parece que el alquitrán no es importante.
CO
Alquitrán
Nicotina
Peso
Figura: Gráficos da las variables independientes vs Y
49
Corre lacionesa
CO Alquitrán Nicotina Peso

CO Correlación de Pearson 1 .957** .926** .464*
Sig. (bilateral) . .000 .000 .019
Alquitrán Correlación de Pearson .957** 1 .977** .491*
Sig. (bilateral) .000 . .000 .013
Nicotina Correlación de Pearson .926** .977** 1 .500*
Sig. (bilateral) .000 .000 . .011
Peso Correlación de Pearson .464* .491* .500* 1
Sig. (bilateral) .019 .013 .011 .
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).
a. N por lista = 25
Las correlaciones son diferentes de cero es aceptable. Parece alquitrán y nicotina son
colineales.
La multicolinealidad, incluye únicamente las relaciones lineales entre las variables

independientes y no considera las no lineales
7. LA BONDAD DEL AJUSTE
Cuando determinamos una ecuación de regresión debemos establecer cuan bueno es el

ajuste. La primera medida analizada es R2 . Esta no depende de ninguna hipótesis.
Bajo ciertas hipótesis podemos establecer si los modelos de la regresión son significativos.
Las pruebas de significación, que se realizan bajo hipótesis de normalidad, utilizan las
pruebas T-Student y F-Fisher para establecer la significación de los parámetros. Los
resultados de estas pruebas son engañosos cuando alguna de las hipótesis que les soportan es
violada. Así, si el tamaño de la muestra es pequeño, no es válido apoyarse en el Teorema
Central del Límite.
La significación estadística de cada variable regresora se obtiene al dividir el coeficiente

estimado por su error típico. Este se compara con el cuantil correspondiente de una
distribución T( n-k-1) grados de libertad. La bondad de ajuste del modelo se puede valorar
el peso de la varianza residual calculando el coeficiente de determinación R2 .
Cuando se satisfacen las hipótesis de normalidad independencia y homocedasticidad puede

utilizarse una prueba F la partición de la suma de cuadrados total.
Partiendo de que 𝑌𝑖 − 𝑌̅ = 𝑌𝑖 ∓ 𝑌̂𝑖 − 𝑌̅ se obtiene que

𝑛 𝑛 𝑛
2
∑ (𝑌𝑖 − 𝑌̅ )2 +∑ (𝑌𝑖 − 𝑌̂𝑖 ) + 2 ∑ (𝑌𝑖 − 𝑌̂𝑖 )(𝑌̂𝑖 − 𝑌̅)
𝑖=1 𝑖=1 𝑖=1
50
Belsley D. A. (1991): Conditioning Diagnostics: Collinearity and Weak Data in Regression.
John Wiley &Sons.
Berk, R. A. (2004): Regression Analysis: A Constructive Critique, Sage Publications
Bouza C.N. & Sistachs V. (2010): Estadística. Teoría básica y ejercicios. Ed. F. Varela, la
Habana.
Catena, A., Ramos, M.M. y Trujillo, H. (2003). Análisis Multivariado. Madrid: Biblioteca
Nueva.
Crawley, MJ (2005): Statistics: An Introduction Using R. Wiley. Chichester.
Draper, N.R. and Smith, H. (1998): Applied Regression Analysis Wiley Series in Probability
and Statistics, Chichester.
Etxebarría-Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999.
Fan, J. and Gijbels, I. (1996) Local Polynomial Modelling and Its Applications.
Chapman and Hall, London.
Fox, J. (2000b). Nonparametric Simple Regression: Smoothing Scatterplots. Thousand Oaks,
CA.
Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Sage,
Thousand Oaks,
CA, second edition.
Fox, J. and Weisberg, S. (2011). An R Companion to Applied Regression. Sage, Thousand
Oaks, CA, second edition.
Freedman, D. a: (2005): Statistical Models: Theory and Practice, Cambridge University Press
Green, P. and Silverman, B. (1994) Nonparametric Regression and Generalized Linear
Models. Chapman and Hall, London.
Hamilton, L.C. (2012): Statistics with Stata: Version 12. Cengage Learning, N. York.
Hardle W., Muller M., Sperlich S., Werwatz A. (, 2004):Nonparametric and Semiparametric
Models. Springer, BerlinKleinbaum, D.G. y L.L. Kupper, K.E. Muller (1988): Applied
Regression Analysis and Other Multivariables Methods.PWS-KENT Publishing Company.
Leech, N. L., G. A. Morgan & K. C. Barrett (2004): SPSS for Intermediate Statistics: Use
and Interpretation [With CDROM]. Lawrence Erlbaum Associates, London.
Levene, Howard (1960). "Robust tests for equality of variances". In Ingram Olkin, Harold
Hotelling, et alia.. 278–292.Stanford University Press
Li, N: (2004): An Introduction to Nonparametric Regression.
www.ms.uky.edu/~mai/biostat277. Ulitma consulta 2015
Li W., M. D. Gordon and J. Zhu (December 2006). «Regularized Least Absolute Deviations
Regression and an Efficient Algorithm for Parameter Tuning». Proceedings of the Sixth
International Conference on Data Mining. 90–700. doi:10.1109/ICDM.2006.134
Kleinbaum D.G. and Kupper L.L. (1997): Applied Regression Analysis and other
Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997.
Montgomery, D. C., Peck, E. A. and Vining, G. G. (2001). Introduction to Linear Regression
Analysis. 3rd Edition, New York, New York: John Wiley & Sons.
Radchenko S.G. (2005) Robust methods for statistical models estimation: Monograph. —
Кiev: РР «Sanspariel».
Ramos Álvarez M.M: (2015): Psicología Experimental, . UNIVERSIDAD DE JAÉN,
consultado junio 2015.
Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold.
Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977.
123
Snedecor, George W. and Cochran, William G. (1989): Statistical Methods, Eighth Edition,
Iowa State University Press.
124
View publication stats

Doc. Apoyo 3. Modelos de Regresión y Sus Aplicaciones..

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Doc. Apoyo 3. Modelos de Regresión y Sus Aplicaciones..

Cargado por

Copyright:

Formatos disponibles

MODELOS DE REGRESIÓN Y SUS

Reporte Técnico 2018-62.02

Serie de Reportes Técnicos

Agustin Santiago, Universidad Autónoma de Guerrero,

Es común el interés de estudiar la existencia de relaciones entre variables. Por ejemplo,

Este es estimado por

1. Su valor siempre está entre -1 y 1.

2. Si la relación es directa, la banda en que están las observaciones crece al

3. Si la relación es inversa, la banda en que están las observaciones disminuye al

4. Si la relación es directa y muy fuerte, la banda en que están las observaciones

5. Si la relación es inversa y muy fuerte, la banda en que están las observaciones

6. Si la relación es muy débil r es aproximadamente cero.

Figura Un Diagrama de Dispersión

Veamos algunos ejemplos en los que se puede determinar la fuerza de la correlación.

Dependencia funcional lineal perfecta: r = 1. Relación lineal directa y fuerte: r1

Existe una relación cuadrática: r0.

Figura Diagramas de Dispersión que tipifican relaciones

Se deseará, generalmente, realizar un contraste de hipótesis, basado en la distribución de X

H0: =0 vs H1: 0

La distribución de r es complicada aun si las variables se distribuyan normal teniéndose que

2. La Regresión Como Modelo

Estamos introduciendo en el estudio de la medición un error experimental para cada

Desde el punto de vista formal el análisis de regresión se dedica a estimar la esperanza

Dada la variopinta de problemas que aborda el análisis de regresión se han determinado

En el enfoque paramétrico se considera que se tiene:

 Un vector de parámetros desconocidos B de dimensión k1.

En algunos problemas se trabaja con problemas de dimensión infinita y se utiliza el llamado

Si no conocemos como se generaron los datos deberemos hacer asunciones sobre el

X= variable controlada, predictora independiente, explicativa.

Y= variable respuesta, predicción, dependiente, regresando.

Y=f(X)+= función de regresión, de suavizado, ecuación de regresión

Se hacen mediciones y se obtienen los dados en la tabla siguiente:

Inversión Valor actual

Figura. Diagrama de Dispersión. Valor inversión y actual de fábricas de helados en una

Otro uso de la regresión es el de calibrar es decir relacionar como un sistema de medición se

Es de particular importancia su uso para optimizar. En tales problemas, la ecuación

Este problema plantea toda una disciplina denominada Superficies de Respuesta

El análisis de regresión es también muy usado para comprender como variables

4. La Regresión Lineal Simple

Consideremos que solo tenemos dos variables X y Y . La relación entre ellas es

es considerado por el especialista como aceptable.

B0 es la ordenada (valor de Y) cuando X=0

B1 es la pendiente (cambio de Y al aumentar X en una unidad)

Lo que sugiere el uso del modelo probabilístico

• Los valores de X son fijos y son medidos sin error.

(𝑏0 , 𝑏1 ) = 𝐴𝑟𝑔𝑀𝑖𝑛(𝐵0 ,𝐵1 ) {∑(𝑌𝑖 − 𝐵𝑜 + 𝐵1 𝑋𝑖 )2 = ∑ 𝜀𝑖 2 }

O sea que se tienen que resolver el sistema de ecuaciones

Como no se ha hecho ninguna hipótesis sobre la distribución de las variables aleatorias,

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 (𝑌̂) 𝑉(𝐵̂0 + 𝐵̂1 𝑋)

R2 es conocido como coeficiente de determinación, y se encuentra en el intervalo (0,1).

I. En este modelo R2 es igual al coeficiente de correlación entre las variables.

i) X no es una variable aleatoria.

Esto es ejemplificado en el siguiente gráfico.

Gráfico de una Recta de regresión bajo el Modelo

Note que la distribución es la misma excepto respecto a la esperanza

Asumimos que para cada valor de X, Y no está determinada, sino que

Ejemplo. Medimos el nivel de contaminación de un lago y el uso de detergentes en una

 Nivel de contaminación al no usar detergentes (X=0).

i) Estimar los coeficientes (parámetros) Bj, j=0,1, del modelo usando

ii) Ajustar un modelo de predicción

iii) Estimar los errores (residuos)

iv) Deducir que 𝑌̂ es un estimador insesgado de Y.