0% encontró este documento útil (0 votos)
31 vistas11 páginas

Regresión Lineal Simple: Fundamentos y Aplicaciones

El documento trata sobre la regresión lineal simple. Explica que este modelo asume una relación lineal entre una variable respuesta y una variable explicativa. Describe cómo se estiman los parámetros del modelo mediante mínimos cuadrados y cómo se evalúa la bondad del ajuste. También cubre pruebas de hipótesis como intervalos de confianza y análisis de varianza (ANOVA) para la regresión lineal simple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
31 vistas11 páginas

Regresión Lineal Simple: Fundamentos y Aplicaciones

El documento trata sobre la regresión lineal simple. Explica que este modelo asume una relación lineal entre una variable respuesta y una variable explicativa. Describe cómo se estiman los parámetros del modelo mediante mínimos cuadrados y cómo se evalúa la bondad del ajuste. También cubre pruebas de hipótesis como intervalos de confianza y análisis de varianza (ANOVA) para la regresión lineal simple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

TEMA 3.

REGRESIÓN LINEAL SIMPLE

Tema 3. Regresión lineal simple


Diseño Estadı́stico Experimental y Control de Calidad. Aplicaciones
en Biociencias e Ingenierı́a

Máster Universitario en Estadı́stica Aplicada – Curso 2023/2024

1
TEMA 3. REGRESIÓN LINEAL SIMPLE

1.1. Regresión lineal simple


1.1.1. Introducción
Los modelos de regresión surgen ante la necesidad de explorar la relación entre dos
o más variables. En general, se suele identificar una o más variables de interés, que se
denominan variables respuesta, cuyos valores son observados y se representan en térmi-
nos de una función de una o más variables explicativas o independientes. La función que
modeliza la relación entre la variable respuesta y las variables independientes o explica-
tivas puede ser lineal o no lineal. Dado que usualmente las funciones continuas pueden
ser aproximadas mediante funciones polinómicas, en este capı́tulo nos centraremos en
el ajuste de modelos polinomiales. Es decir, para una variable respuesta Y se define la
relación
Y = f (X1 , . . . , Xk ),
donde, en este capı́tulo, f se supone una función polinómica, que relaciona los valores
de la variables explicativas X1 , . . . , Xk con los valores de la variable respuesta Y. General-
mente, los modelos de regresión son adecuados para el análisis de datos que provienen
de experimentos que no fueron diseñados, o bien, en el caso de experimentos previamen-
te diseñados, para establecer un modelo que relacione la variable respuesta o variables
respuestas con los factores aleatorios previamente designados como importantes en el
análisis de la varianza.

1.1.2. Regresión lineal simple


Se parte de una variable de regresión o explicativa X continua y controlable por el
experimentador. En el diseño del experimento se determinan los valores de X que indu-
cirán los correspondientes valores observados de la variable respuesta Y. Se supone una
relación lineal entre al variable respuesta Y y la variable explicativa X. La observación de
Y a cada nivel de X se modeliza mediate una variable aleatoria. Se tiene entonces que le
valor esperado de Y para cada valor de X viene dado por

E [Y /X] = a0 + a1 X,

siendo a0 y a1 constantes desconocidas. Por tanto el modelo que define la observación de


la variable respuesta Y viene dado por

Y = a0 + a1 X + ε,

representando ε la componente de error aleatoria. Especı́ficamente, se supone que ε es una


variable aleatoria con media cero y varianza σ 2 y que el conjunto de componentes aleato-
rias de error {ε} no están correlacionadas. Partiendo de n pares de datos (y1 , x1 ), . . . , (yn , xn ),
la estimación por mı́nimos cuadrados de los parámetros a0 y a1 del modelo se obtiene mi-
nimizando la función
n n
L= ∑ εi2 = ∑ (yi − a0 − a1xi)2.
j=1 j=1

2
TEMA 3. REGRESIÓN LINEAL SIMPLE

Para minimizar dicha función se considera la siguiente expresión del modelo de regre-
sión lineal:
Y = a′0 + a1 (X − X) + ε,
siendo a′0 = a0 + a1 X, y X = 1n ∑ni=1 xi , que facilita la minimización de L y el cálculo de los
estimadores â0 y â1 de los parámetros a0 y a1 , cuyas expresiones, tras derivar L e igualar
a cero, son
SXY
a1 =
SXX
a0 = Y − â1 X, (1.1)

siendo
n
∑ xiyi − nXY
i=1
SXY =
n−1
n
2
∑ xi2 − nX
i=1
SXX = SX2 = (1.2)
n−1
Los estimadores anteriormente calculados tienen las siguientes propiedades:

E[â1 ] = a1 ; E[â0 ] = a0
" 2
#
σ2 1 X
Var(â1 ) = ; Var(â0 ) = σ 2 + (1.3)
SXX n SXX

Para la estimación de la varianza σ 2 de la componente aleatoria de error, se utilizará


la siguiente expresión de la suma de cuadrados de los residuos, SSE :

SSE = SYY − â1 SXY ,

de donde se obtiene, mediante el cálculo de la esperanza, que

E[SSE ] = (n − 2)σ 2 .

Por tanto, se considera como estimación de σ 2 la suma de cuadrados medios de los resi-
duos definida como:
SSE
σ̂ 2 = = MSE ,
n−2
cuyo valor medio coincide con σ 2 .

1.1.3. Inferencia en el modelo de regresión lineal simple


Contrastes de hipótesis asociados al modelo de regresión lineal simple
En la estimación por intervalos de confianza de los parámetros que definen la recta de
regresión se utilizan los estadı́sticos t-Student derivados d elos coeficientes de l arecta de

3
TEMA 3. REGRESIÓN LINEAL SIMPLE

regresión y se obtienen los siguientes intervalos


h p i
â1 ± tα/2,n−2 MSE /SXX
 v !
u 2
â0 ± tα/2,n−2 tMSE 1 + X
u
. (1.4)
n SXX

1.1.4. Fiabilidad del ajuste


Para comprobar la adecuación del ajuste por mı́nimos cuadrados se puede recurrir
a diferentes medidas, como el error cuadrático medio (RMSE, por sus siglas en inglés,
root mean squared error) o el coeficiente de determinación R2 , al análisis de la varianza
(ANOVA) o se puede realizar un análisis gráfico de los residuos, representando en papel
normal una gráfica de los residuos frente a los valores ajustados y una gráfica de los
residuos frente a cada variable de la regresión. También es útil la representación de dichos
residuos frente a variables que no fueron incluidas en la regresión y que potencialmente
pueden explicar parte de la variabilidad presentada por la respuesta.

ANOVA
Este constraste de hipótesis es conceptualmente muy importante. Implica entrar en
profundidad en lo que supone en sı́ la construcción de un modelo de Regresión. También,
como siempre en Estadı́stica, implica analizar los datos desde una serie de perspectivas
siempre presentes, y por lo tanto recurrentes: Tamaño de muestra, dispersión de los valo-
res. Obsérvese que en este caso acabamos descomponiendo la dispersión de los valores de
la variable dependiente en dos fuentes de variabilidad y que es, precisamente, el cociente
de esas dos fuentes el que nos dará la pauta de si debemos o no seguir manteniendo la
Hipótesis nula, a la luz de los datos que tenemos.

Observemos muy bien lo que hay en el numerador y lo que hay en el denominador


del conciente F. Veamos que cuando este cociente sea pequeño deberemos mantener la
Hipótesis nula y, en cambio, cuando sea grande deberemos rechazarla. En el numerador
está presente lo que explica la pendiente de la variabilidad de los datos y en el denomina-
dor está presente la dispersión no explicada, está lo que no somos capaces de explicar: el
residuo.

La descomposición de la variabilidad del modelo se expresa como

SST = SSE + SSReg


∑(yi − y)2 = ∑(yi − yb)2 + ∑(byi − y)2
donde

SST: Suma de cuadrados total

SSE: Suma de cuadrados de los errores o residual

4
TEMA 3. REGRESIÓN LINEAL SIMPLE

SSReg: Suma de cuadrados de la regresión

El ANOVA de regresión se puede aplicar cuando se cumplen los siguientes supuestos

Los errores residuales son aleatorios y normalmente se distribuyen

La desviación estándar del error residual no depende de X

Existe una relación lineal entre X e Y

Las muestras se seleccionan aleatoriamente

las hipótesis que contrasta son:

H0 : X e Y NO están correlacionadas
H1 : X e Y SÍ están correlacionadas

y la tabla ANOVA de regresión sigue la siguiente estructura

Fuentes de variación S.S. (square sum) g.l. S.M. (Square mean) F0


SSReg SMReg
Regresión SSReg 1 SMReg =
1 SME
SSE
Error SSE n−2 SME =
n−2
SST
Total SCT n−1 SMT =
n−1

Regla de decisión

Si F0 > Fα;1,n−2 ⇒ Rechazar H0 . Esto significa que tenemos evidencia suficiente para
decir que la diferencia media entre los grupos que estamos comparando es significativa-
mente diferente. Esto nos dice que la varianza residual en el modelo ANOVA no es alta en
relación con la variación que el modelo realmente puede explicar y, por tanto, el modelo
ajustado es fiable.

Coeficiente de determinación
El coeficiente de determinación se define mediante la ecuación:
n

SSR
∑ (ŷi −Y )2
i=1
R2 = = n .
SYY 2
∑ (yi −Y )
i=1

Dicho coeficiente toma valores en el intervalo (0, 1) y se interpreta como la proporción de


variabilidad de los datos explicada por el modelo de regresión. Por este motivo, se suele
utilizar R2 como un indicador de la adecuación del modelo de regresión, aunque se debe
interpretar con cierto cuidado, pues, por ejemplo, R2 siempre aumenta de valor cuando

5
TEMA 3. REGRESIÓN LINEAL SIMPLE

se añade una nueva variable explicativa, lo que no supone que el modelo ası́ obtenido
sea superior al previo (con una variable menos). También hay que hacer notar que se
puede conseguir que R tome el valor uno simplemente agregando un número suficiente
de términos al modelo (tal es el caso del ajuste proporcionado por un polinomio de grado
n − 1 a una nube de n puntos).

Otra caracterı́stica es que en el caso lineal, como es el caso que estamos estudiando,
su calculo coincide con el cuadrado del coeficiente de correlación lineal de Pearson. Es
decir, se puede calcular como
2
SXY
R2 = r2 =
SX2 SY2
.

1.2. Regresión lineal múltiple


1.2.1. Introducción
En el análisis estadı́stico y modelización de diversos procesos observables, represen-
tados mediante una variable respuesta, intervienen en su descripción más de una variable
explicativa. Se adoptará la suposición de que el modelo que representa la variable respues-
ta en términos de las variables explicativas es lineal. Se estudiarán entonces los elementos
que intervienen en la formulación de modelos de regresión lineal múltiple.
Se plantea, pues, el ajuste del modelo

y = β0 + β1 X1 + β2 X2 + . . . βk Xk + ε.

Para la aproximación de Y a partir del hiperplano definido por la combinación lineal ante-
rior, en el espacio k− dimensional generado por las variables explicativas o variables de la
regresión X1 , . . . , Xk , se procederá a resolver el problema de estimación de los coeficientes
de regresión β1 , . . . , βk .

1.2.2. Estimación puntual por mı́nimos cuadrados


Para la estimación mediante el método de mı́nimos-cuadrados del vector (β1 , . . . , βk )
se parte de n observaciones, suponiendo que n > k, ası́, mediante xi j se notará la j−ési-
ma observación o nivel de la variable Xi . La estimación puntual mı́nimo-cuadrática, se
desarrollará, como en el modelo de regresión lineal simple, bajo la suposición de que las
componentes aleatorias o componentes de error no estén correlacionadas, se hallen cen-
tradas y posean varianza σ 2 . Considerando, para j = 1, . . . , n, el modelo de observación
k
y j = β0 + ∑ βi xi j + ε j ,
i=1

se definirán las siguientes sumas de cuadrados

6
TEMA 3. REGRESIÓN LINEAL SIMPLE

Suma de cuadrados corregida de la i-ésima variable de regresión


n n
Sii = ∑ (xi j − x̄i)2 = ∑ xi2j − nx̄i2, i = 1, . . . , k.
j=1 j=1

Suma corregida de los productos cruzados entre las variables Xr y Xs


n
Srs = ∑ (xr j − x̄r )(xs j − x̄s).
j=1

Suma corregida de los productos cruzados entre Xi e Y


n
Siy = ∑ y j (xi j − x̄i), i = 1, . . . , k.
j=1

En la derivación de los estimadores mı́nimo-cuadráticos de los coeficientes de regre-


sión, se utilizará la transformación del modelo lineal de regresión múltiple dada por

β0′ = β0 + β1 x̄1 + β2 x̄2 + . . . βk x̄k ,


k
y j = β0′ + ∑ βi(xi j − x̄i) + ε j , j = 1, . . . , n.
i=1
Los estimadores de los parámetros se obtienen entonces minimizando la función cuadráti-
ca de pérdida dada por
" #2
n k
L= ∑ yi − β0′ − ∑ βi (xi j − x̄i ) .
j=1 i=1

Equivalentemente, las ecuaciones normales que definen los estimadores mı́nimo-cuadráti-


cos de los coeficientes de regresión se obtienen derivando parcialmente respecto a cada
uno de los parámetros la función de pérdida L e igualando a cero:
n
nβb0′ = ∑ yj
j=1

k
∑ βbl Sil = Siy, i = 1, . . . , k.
l=1
La expresión matricial de las ecuaciones anteriores permite una resolución más directa
y sencilla de las mismas, es decir, se parte de la ecuación matricial

yn×1 = Xn×k β k×1 + ε n×1 ,

siendo    
y1 1 (x11 − x̄1 ) . . . (xk1 − x̄k )
y =  ...  X =  ... .. .. ..
   
. . . 
yn 1 (x1n − x̄1 ) . . . (xkn − x̄k )

7
TEMA 3. REGRESIÓN LINEAL SIMPLE

β0′
 
 
ε1
 β1 
β = ε =  ... 
   
.. 
 . 
εn
βk
La función matricial de pérdida viene dada entonces mediante la expresión:

L = yy′ − 2β ′ X′ y + β ′ X′ Xβ .

Derivando respecto al vector de parámetros β e igualando a cero se obtiene entonces

XX′ βb = X′ y.

Equivalentemente,
βb = (XX′ )−1 X′ y.
A partir de la ecuación anterior se calcula la media y varianza del estimador mı́nimo-
cuadrático del vector de parámetros que vienen dadas por

E[βb ] = β
Cov(βb ) = σ 2 (XX′ )−1 .

1.2.3. Contrastes de hipótesis en el modelo de regresión lineal múlti-


ple
Para el planteamiento de contrastes de hipótesis sobre los parámetros del modelo de re-
gresión múltiple se supondrá adicionalmente que la variable respuesta se distribuye según
una normal. Más concretamente, las componentes aleatorias de error serán variables inde-
pendientes e idénticamente distribuidas, según una normal con media cero y varianza σ 2 .
Por tanto, las variables y j , para j = 1, . . . , n, se distribuirán según una normal con media

k
β0 + ∑ βi xi j
i=1

y varianza σ 2 .
Una de las hipótesis que usualmente se suelen contrastar en este contexto se refieren
a la significación del modelo de regresión. Es decir, se suele contrastar

H0 : β1 = β2 = · · · = βk = 0
H1 : βi ̸= 0, para algún i.

Rechazar la hipótesis nula significa que al menos una variable explicativa es necesaria o
contribuye significativamente al ajuste. Similarmente, al caso de la regresión lineal simple,
para deducir el estadı́stico F del test, se partirá de la descomposición de la suma total de
cuadrados Syy en términos de la suma de cuadrados de la regresión SSR y la suma de
cuadrados del error SSE
Syy = SSR + SSE .

8
TEMA 3. REGRESIÓN LINEAL SIMPLE

Bajo la hipótesis nula,


SSR /σ 2 ∼ χ 2 (k),
es decir, la suma de suma de cuadrados de la regresión escalada mediante el inverso de
la varianza poblacional se distribuye según una chi-cuadrado con k grados de libertad.
También se tiene que
SSE /σ 2 ∼ χn−k−1
2

y se tiene que SSE y SSR son independientes. Por tanto, se considera el estadı́stico

SSR /k MSR
F0 = = ,
SSE /(n − k − 1) MSE

que bajo la hipótesis nula se distribuye según una F de Snedecor, rechazándose la hipótesis
nula si
F0 > Fα,k,n−k−1
siendo Fα,k,n−k−1 el percentil 1 − α de la F de Snedecor con k y n − k − 1 grados de
libertad.
El cálculo de F0 se realizará a partir de las siguientes identidades
k
SSE = Syy − ∑ βbi Siy
i=1
k
SSR = ∑ βbiSiy. (1.5)
i=1

Otro aspecto interesante es contrastar si individualmente cada variable explicativa con-


tribuye significativamente al ajuste del modelo de regresión. Dentro de éste ámbito se
puede abordar también el problema de inclusión de nuevas variables explicativas que, en
caso de ser necesarias, aumentarán la suma de cuadrados de la regresión y disminuirán las
suma de cuadrados del error.
Para contrastar

H0 : βi = 0
H1 : βi ̸= 0

se considera el estadı́stico
βbi
t0 = √ ,
MSE Cii
siendo Cii el elemento i de la diagonal de la matriz (X′ X)−1 . El estadı́stico anterior se
distribuye según una t−Student bajo la hipótesis nula, considerando que los estimadores
de las componentes del vector de parámetros βbi , i = 1, . . . , k, son independientes. Cuando
la condición de independencia no se da, se pueden realizar conclusiones erróneas sobre la
significación de los parámetros del modelo de regresión.
Para contrastar la significación de un conjunto de variables explicativas, se puede con-
siderar el siguiente planteamiento: Se divide el vector de parámetros β en dos subvectores

9
TEMA 3. REGRESIÓN LINEAL SIMPLE

β = (β 1 , β 2 )T , siendo β 1 un vector r × 1 y β 2 un vector (p − r) × 1. Se desea contrastar


entonces

H0 : β 1 = 0
H1 : β 1 ̸= 0

El modelo de regresión completo se puede expresar matricialmente como

y = X1 β 1 + X2 β 2 + ε,

denotando por X1 las columnas de X asociadas a β 1 y X2 las columnas de X asociadas a


β 2.
Bajo la hipótesis nula, si se considera el modelo reducido

y = X2 β 2 + ε,

se tiene que βb 2 = (X′2 X2 )−1 X2 y y, por tanto,



SSR (β 2 ) = βb 2 X′2 y,

con p − r grados de libertad. Es decir, la suma de cuadrados de la regresión debida a β 1


(o contribución de este conjunto de variables explicativas a la regresión), dado que ya se
ha ajustado β 2 (es decir, dada la contribución de las variables explicativas asociadas a β 2 )
se define como
SSR (β 1 /β 2 ) = SSR (β ) − SSR (β 2 ).
Bajo la hipótesis de que SSR (β 1 /β 2 ) es independiente de MSE , considerando la hipótesis
nula se tiene que el estadı́stico
SSR (β 1 /β 2 )/r
F0 = ,
MSE
se distribuye según una F−Snedecor con r y n − p grados de libertad. Se rechaza la
hipótesis nula, es decir, se concluye que alguno de los parámetros de β 1 es no nulo cuando
F0 > Fα,r,n−p .

1.3. Modelo lineal general


Los resultados anteriores son válidos para cualquier modelo lineal en los parámetros
β1 , . . . , βk , a ajustar. Por ejemplo, se puede considerar el efecto polinomial de un factor
cuantitativo
y = β0 + β1 x + β2 x2 + · · · + βk xk .
También se puede considerar que las variables explicativas se definen en términos de un
polinomio de segundo grado bivariante, es decir,

y = β0 + β1 x1 + β2 x2 + β11 x12 + β2 x22 + β12 x1 x2 + ε.

En ocasiones es interesante considerar un modelo trigonométrico

y = β0 + β1 sin x + β2 cos x + ε.

10
TEMA 3. REGRESIÓN LINEAL SIMPLE

En este contexto, también es factible el ajuste de modelos polinimiales ortogonales, es


decir, de modelos definidos a partir de una combinación lineal de polinomios ortogonales
aplicados a diferentes niveles de un factor que influye en la variable respuesta

y j = β0 + β1 P1 (x j ) + · · · + βk Pk (x j ) + ε j , j = 1, . . . , n,

siendo Pl un polinomio de grado l, satisfaciendo


n n
∑ Pl (x j ) = 0, ∑ Pl (x j )Pm(x j ) = 0, l ̸= m.
j=1 j=1

Bajo estas condiciones los resultados estadı́sticos anteriores se pueden derivar de forma
similar en este contexto.

11

También podría gustarte