Está en la página 1de 42

Análisis de

Regresión
Lineal Simple
En situaciones en las que se observan dos o mas
variables cuantitativas sobre cada unidad
experimental y el interés se centra en la forma
en que se relacionan éstas variables surgen
Interrogantes:
1. Existe relación entre las variables?
2. Si se conoce el comportamiento de una de
ellas, es posible predecir el comportamiento
de la otra?
Objetivos:

• Identificar el modelo que relaciona la


esperanza de una variable llamada
dependiente o respuesta con una o varias
variables llamadas independientes,
predictoras o regresoras.
• Estimar los parámetros modelo.
• Estimar el nivel medio de la respuesta para
valores determinados de las regresoras.
• Predecir un valor de la variable dependiente
y para algún valor elegido de la regresora x.
Modelos no lineales
X
Y  e
X
Y 
Modelos lineales

Y    X  
Y     X  X   2
Modelo de Regresión Lineal
Simple

• Es un modelo con una sola regresora, X, que


tiene una relación con la respuesta Y a través de
una línea recta
Yij     X i   ij
siendo:
•  la ordenada al origen y  la pendiente,
constantes desconocidas.
•  un componente aleatorio de error.
Supuestos del modelo
•La regresora x está controlada por el investigador y
puede medirse con error despreciable

•La respuesta Y es una variable aleatoria; existe una


distribución de y para cada valor posible de x. La
media de esa distribución es:

E  y \ xi    y \ xi     xi

y la varianza es s2.

•Los errores aleatorios son independientes y siguen


una distribución normal con media igual a 0 y
varianza s2.
Y
E(y|xi)

 + 1xi
E(y|x2)

 + 1x2 E(y|x1)

 + 1x1

x1 x2 xi X
1020
𝑦𝑖𝑗 = 𝛼 + 𝛽𝑥𝑖 +ij

890

760

630

500
2 3 4 5 6 7
pH
•Para estudiar la validez del modelo
es necesario confirmar estas
hipótesis mediante el estudio de
los residuos
•r = valores observados - valores
predichos por el modelo
• normalidad, tendencias, etc.
Consideremos el ejemplo siguiente:
Temperatura
0 15 30 45 60 75
(°C)
Gramos 8-6-8 12-10-14 25-21-24 31-33-28 44-39-42 48-51-44

• Se obtuvieron los siguientes resultados al analizar las


cantidades de un una sal que se disuelven en 100 g de
agua a diferentes temperaturas.
• El propósito es estimar la cantidad promedio de esa sal
que se disuelve a una temperatura determinada.
Un diagrama de dispersión permitirá visualizar si el
modelo lineal es adecuado para establecer la relación
entre las variables
El diagrama muestra que el modelo para
representar los datos puede ser el lineal

Diagrama de Dispersión

60

50
Cantidad Compuesto

40

30

20

10

0
0 15 30 45 60 75
Temperatura
• En primer lugar debemos encontrar los
parámetros de la recta  y .

• Estos valores pueden estimarse a través de los


estadísticos a y b. Para ello usaremos la
muestra de n observaciones bivariadas (x1; y1),
…(xn; yn).

• Para estimar la recta vamos a usar el método


de mínimos cuadrados, que consiste en elegir
los parámetros (a,b) que minimicen la suma de
los cuadrados de las diferencias entre los
puntos observados y la recta.
El diagrama muestra que el modelo para
representar los datos puede ser el lineal
Diagrama de Dispersión

60
𝑦 = 𝑎 + 𝑏 𝑥𝑖
50
Cantidad Compuesto

𝑒𝑖
40

30

20

10

0
0 15 30 45 60 75
Temperatura
Estimación de los parámetros de
la recta

 x  x  y  y  S
• Pendiente: b  ̂  i i
 XY

 x  x 
2
i
S XX

• Ordenada al origen: a  ˆ  y  ˆ x
Análisis con Infostat

•Activando
Menú→Estadisticas→Regresion Lineal, se
habilita la ventana que permite declarar
las variables: Y (peso) se debe colocar
como dependiente y X (temperatura)
como regresora.
•Se obtienen en la salida los coeficientes
de regresión y estadísticos asociados.
Con Infostat
La ecuación buscada es:
yˆ  5.83  0.57 x

• La diferencia entre un valor observado yi y el


valor ajustado o predicho ŷi correspondiente
se llama residuo.
ei   yi  yˆ i 

• Los residuos permiten investigar la adecuación


del modelo y detectar diferencias respecto a las
hipótesis básicas.
60

50
Cantidad Compuesto

ei
40

30

20

10

0
0 15 30 45 60 75
Temperatura
•El parámetro s2 (varianza del error  en el
modelo de regresión), refleja la variación
aleatoria alrededor de la verdadera recta
de regresión.

•Los residuos ei se utilizan para el cálculo


de el valor estimado de s2.
• Así:
n

  yi  yi 
ˆ 2

sˆ 2  i 1

 e 2

 Cuadrado medio residual


n2 n2

•La raíz cuadrada de se conoce como


sˆ 2

error estándar de la regresión y


tiene las mismas unidades que la
variable de respuesta Y .
Pruebas de hipótesis en la regresión
lineal simple

•Parte de la evaluación de adecuación del


modelo consiste en realizar pruebas
estadísticas sobre los parámetros del
modelo de regresión y establecer
intervalos de confianza.
• Un caso especial muy importante es la hipótesis
• H0 :  = 0
• H1 :  ≠ 0

• Para resolver es necesario conocer la distribución de muestreo


de a y de b, las cuales son:
𝑎~𝑁 𝛼; 𝜎𝑎 𝑏~𝑁 𝛽; 𝜎𝛽
Siendo:
α = 𝐸 𝑎 = 𝜇𝑎 y 𝛽 = 𝐸 𝑏 = 𝜇𝑏

𝑥2 𝜎𝑒
𝜎𝑎 = 𝜎𝑒 𝑛𝑆𝑥𝑥 y 𝜎𝑏 =
𝑆𝑥𝑥
•El estadístico de prueba es:

ˆ  0 b  0
t 
sˆ b sb
•Siendo sˆ b el error estándar estimado de la pendiente.
•La hipótesis nula se rechaza sit  t ó para un valor
n  2 
p adecuado. 2
Pruebas de Hipótesis sobre la
pendiente

• Estas hipótesis están relacionadas con la


significancia de la regresión.

• El no rechazar la H0 implica que no hay relación


lineal entre x e y.
Cómo se puede interpretar éste
resultado?
Yi     X i   i
x es de poca importancia • La verdadera relación
para explicar la variación entre x e y no es lineal
de y, entonces, el mejor
estimador de y para
cualquier x es yˆ  y

y y

-4 -3 -2 -1 0 1 2 3 4
x -4 -3 -2 -1 0 1 2 3 4
x
Si se rechaza H0
Yi     X i   i
• x tiene importancia para • Existe un efecto lineal
explicar la variabilidad de de x, pero pueden
y y el modelo es adecuado obtenerse mejores
resultados con la adición
de términos polinomiales
de mayor grado en x

Y
y

x
x
• También es posible determinar un intervalo de
confianza de 100(1-)% para la pendiente,
según la expresión siguiente:

b  t 2  n2 sˆ b    b  t 2  n2 sˆ b

Esta información se obtiene del cuadro de


resultados de Infostat.
Volviendo al ejemplo,

sˆ b
Pruebas de Hipótesis sobre la ordenada al
origen.
•Si se desea probar si la ordenada al origen es igual a cero ( o a algún
otro valor):
•H0 :  = 0
•H1 : ≠ 0
•El estadístico de prueba es:
a0
t
sˆ a
•Siendo el denominador el error estándar estimado de ordenada al
origen.

•La hipótesis nula se rechaza si t  t ó para un valor p


adecuado. n  2 
2
• Un intervalo de confianza de 100(1-)% para la
ordenada al origen, se puede obtener con la
expresión siguiente:

a  t 2  n2 sˆ a    a  t 2  n2 sˆ a


Cuadro de resultados de Infostat

𝜎ŝ𝑎 
El método del Análisis de la Varianza

• El análisis de varianza (ANOVA), aplicado a


la Regresión, es un procedimiento mediante el
cual la variación total de la variable
dependiente se subdivide en componentes
significativos, que luego se observan y se
tratan en forma sistemática.

• Suponga que tenemos n puntos o datos


experimentales en la forma usual (xi, yi) y
que se estima la recta de regresion
La identidad fundamental del análisis de
la varianza en regresión se puede
escribir así:
SSTotal= SSRegresión+SSResidual

El método permite probar si la


variabilidad explicada por el modelo
lineal es mayor que la explicada sólo por
el azar, mediante una prueba F.
El estadístico F se calcula mediante la
razón entre el cuadrado medio de la
regresión y el cuadrado medio del error

CuadradoMedioRe gresión
F
CuadradoMedioError

Cómo calcular los cuadrados medios..?


• Una forma alternativa para expresar la identidad
SSTotal = SSRegresión + SSResidual
es:

• La variabilidad total de los datos está explicada


por dos componentes:
• La primera explica la variabilidad debido a la
relación que existe entre las variables.
• La segunda, explica la variabilidad de las
observaciones alrededor de la recta de ajuste
• Las Sumas de cuadrado anteriores se pueden
calcular así:
• Los valores se ordenan en una Tabla para
resolver la prueba
• El cuadro de ANOVA de Infostat presenta el
valor del estadístico F:

3805,89
F  575.06
6.62
para probar la H0 que la variabilidad explicada
por el modelo lineal no es mayor que la
explicada por el error.

• Ésta hipótesis se rechaza ya que el valor p es


<0.0001
Conclusiones
•Las pruebas realizadas nos indican
que la pendiente es distinta de cero
y que el modelo es adecuado.

También podría gustarte