Analisis de Regresion I (Analisis)

Análisis de
Regresión
Lineal Simple
En situaciones en las que se observan dos o mas
variables cuantitativas sobre cada unidad
experimental y el interés se centra en la forma
en que se relacionan éstas variables surgen
Interrogantes:
1. Existe relación entre las variables?
2. Si se conoce el comportamiento de una de
ellas, es posible predecir el comportamiento
de la otra?
Objetivos:
• Identificar el modelo que relaciona la

esperanza de una variable llamada
dependiente o respuesta con una o varias
variables llamadas independientes,
predictoras o regresoras.
• Estimar los parámetros modelo.
• Estimar el nivel medio de la respuesta para
valores determinados de las regresoras.
• Predecir un valor de la variable dependiente
y para algún valor elegido de la regresora x.
Modelos no lineales
X
Y  e
X
Y 
Modelos lineales
Y    X  
Y     X  X   2
Modelo de Regresión Lineal
Simple
• Es un modelo con una sola regresora, X, que

tiene una relación con la respuesta Y a través de
una línea recta
Yij     X i   ij
siendo:
•  la ordenada al origen y  la pendiente,
constantes desconocidas.
•  un componente aleatorio de error.
Supuestos del modelo
•La regresora x está controlada por el investigador y
puede medirse con error despreciable
•La respuesta Y es una variable aleatoria; existe una

distribución de y para cada valor posible de x. La
media de esa distribución es:
E  y \ xi    y \ xi     xi
y la varianza es s2.
•Los errores aleatorios son independientes y siguen

una distribución normal con media igual a 0 y
varianza s2.
Y
E(y|xi)
 + 1xi
E(y|x2)
 + 1x2 E(y|x1)
 + 1x1
x1 x2 xi X
1020
𝑦𝑖𝑗 = 𝛼 + 𝛽𝑥𝑖 +ij
890
760
630
500
2 3 4 5 6 7
pH
•Para estudiar la validez del modelo
es necesario confirmar estas
hipótesis mediante el estudio de
los residuos
•r = valores observados - valores
predichos por el modelo
• normalidad, tendencias, etc.
Consideremos el ejemplo siguiente:
Temperatura
0 15 30 45 60 75
(°C)
Gramos 8-6-8 12-10-14 25-21-24 31-33-28 44-39-42 48-51-44
• Se obtuvieron los siguientes resultados al analizar las

cantidades de un una sal que se disuelven en 100 g de
agua a diferentes temperaturas.
• El propósito es estimar la cantidad promedio de esa sal
que se disuelve a una temperatura determinada.
Un diagrama de dispersión permitirá visualizar si el
modelo lineal es adecuado para establecer la relación
entre las variables
El diagrama muestra que el modelo para
representar los datos puede ser el lineal
Diagrama de Dispersión
60
50
Cantidad Compuesto
40
30
20
10
0
0 15 30 45 60 75
Temperatura
• En primer lugar debemos encontrar los
parámetros de la recta  y .
• Estos valores pueden estimarse a través de los

estadísticos a y b. Para ello usaremos la
muestra de n observaciones bivariadas (x1; y1),
…(xn; yn).
• Para estimar la recta vamos a usar el método

de mínimos cuadrados, que consiste en elegir
los parámetros (a,b) que minimicen la suma de
los cuadrados de las diferencias entre los
puntos observados y la recta.
El diagrama muestra que el modelo para
representar los datos puede ser el lineal
Diagrama de Dispersión
60
𝑦 = 𝑎 + 𝑏 𝑥𝑖
50
Cantidad Compuesto
𝑒𝑖
40
30
20
10
0
0 15 30 45 60 75
Temperatura
Estimación de los parámetros de
la recta
 x  x  y  y  S
• Pendiente: b  ̂  i i
 XY
 x  x 
2
i
S XX
• Ordenada al origen: a  ˆ  y  ˆ x
Análisis con Infostat
•Activando
Menú→Estadisticas→Regresion Lineal, se
habilita la ventana que permite declarar
las variables: Y (peso) se debe colocar
como dependiente y X (temperatura)
como regresora.
•Se obtienen en la salida los coeficientes
de regresión y estadísticos asociados.
Con Infostat
La ecuación buscada es:
yˆ  5.83  0.57 x
• La diferencia entre un valor observado yi y el

valor ajustado o predicho ŷi correspondiente
se llama residuo.
ei   yi  yˆ i 
• Los residuos permiten investigar la adecuación

del modelo y detectar diferencias respecto a las
hipótesis básicas.
60
50
Cantidad Compuesto
ei
40
30
20
10
0
0 15 30 45 60 75
Temperatura
•El parámetro s2 (varianza del error  en el
modelo de regresión), refleja la variación
aleatoria alrededor de la verdadera recta
de regresión.
•Los residuos ei se utilizan para el cálculo

de el valor estimado de s2.
• Así:
n
  yi  yi 
ˆ 2
sˆ 2  i 1

 e 2
 Cuadrado medio residual

n2 n2
•La raíz cuadrada de se conoce como

sˆ 2
error estándar de la regresión y

tiene las mismas unidades que la
variable de respuesta Y .
Pruebas de hipótesis en la regresión
lineal simple
•Parte de la evaluación de adecuación del

modelo consiste en realizar pruebas
estadísticas sobre los parámetros del
modelo de regresión y establecer
intervalos de confianza.
• Un caso especial muy importante es la hipótesis
• H0 :  = 0
• H1 :  ≠ 0
• Para resolver es necesario conocer la distribución de muestreo

de a y de b, las cuales son:
𝑎~𝑁 𝛼; 𝜎𝑎 𝑏~𝑁 𝛽; 𝜎𝛽
Siendo:
α = 𝐸 𝑎 = 𝜇𝑎 y 𝛽 = 𝐸 𝑏 = 𝜇𝑏
𝑥2 𝜎𝑒
𝜎𝑎 = 𝜎𝑒 𝑛𝑆𝑥𝑥 y 𝜎𝑏 =
𝑆𝑥𝑥
•El estadístico de prueba es:
ˆ  0 b  0
t 
sˆ b sb
•Siendo sˆ b el error estándar estimado de la pendiente.
•La hipótesis nula se rechaza sit  t ó para un valor
n  2 
p adecuado. 2
Pruebas de Hipótesis sobre la
pendiente
• Estas hipótesis están relacionadas con la

significancia de la regresión.
• El no rechazar la H0 implica que no hay relación

lineal entre x e y.
Cómo se puede interpretar éste
resultado?
Yi     X i   i
x es de poca importancia • La verdadera relación
para explicar la variación entre x e y no es lineal
de y, entonces, el mejor
estimador de y para
cualquier x es yˆ  y
y y
-4 -3 -2 -1 0 1 2 3 4
x -4 -3 -2 -1 0 1 2 3 4
x
Si se rechaza H0
Yi     X i   i
• x tiene importancia para • Existe un efecto lineal
explicar la variabilidad de de x, pero pueden
y y el modelo es adecuado obtenerse mejores
resultados con la adición
de términos polinomiales
de mayor grado en x
Y
y
x
x
• También es posible determinar un intervalo de
confianza de 100(1-)% para la pendiente,
según la expresión siguiente:
b  t 2  n2 sˆ b    b  t 2  n2 sˆ b
Esta información se obtiene del cuadro de

resultados de Infostat.
Volviendo al ejemplo,
sˆ b
Pruebas de Hipótesis sobre la ordenada al
origen.
•Si se desea probar si la ordenada al origen es igual a cero ( o a algún
otro valor):
•H0 :  = 0
•H1 : ≠ 0
•El estadístico de prueba es:
a0
t
sˆ a
•Siendo el denominador el error estándar estimado de ordenada al
origen.
•La hipótesis nula se rechaza si t  t ó para un valor p

adecuado. n  2 
2
• Un intervalo de confianza de 100(1-)% para la
ordenada al origen, se puede obtener con la
expresión siguiente:
a  t 2  n2 sˆ a    a  t 2  n2 sˆ a

Cuadro de resultados de Infostat
𝜎ŝ𝑎 
El método del Análisis de la Varianza
• El análisis de varianza (ANOVA), aplicado a

la Regresión, es un procedimiento mediante el
cual la variación total de la variable
dependiente se subdivide en componentes
significativos, que luego se observan y se
tratan en forma sistemática.
• Suponga que tenemos n puntos o datos

experimentales en la forma usual (xi, yi) y
que se estima la recta de regresion
La identidad fundamental del análisis de
la varianza en regresión se puede
escribir así:
SSTotal= SSRegresión+SSResidual
El método permite probar si la

variabilidad explicada por el modelo
lineal es mayor que la explicada sólo por
el azar, mediante una prueba F.
El estadístico F se calcula mediante la
razón entre el cuadrado medio de la
regresión y el cuadrado medio del error
CuadradoMedioRe gresión
F
CuadradoMedioError
Cómo calcular los cuadrados medios..?

• Una forma alternativa para expresar la identidad
SSTotal = SSRegresión + SSResidual
es:
• La variabilidad total de los datos está explicada

por dos componentes:
• La primera explica la variabilidad debido a la
relación que existe entre las variables.
• La segunda, explica la variabilidad de las
observaciones alrededor de la recta de ajuste
• Las Sumas de cuadrado anteriores se pueden
calcular así:
• Los valores se ordenan en una Tabla para
resolver la prueba
• El cuadro de ANOVA de Infostat presenta el
valor del estadístico F:
3805,89
F  575.06
6.62
para probar la H0 que la variabilidad explicada
por el modelo lineal no es mayor que la
explicada por el error.
• Ésta hipótesis se rechaza ya que el valor p es

<0.0001
Conclusiones
•Las pruebas realizadas nos indican
que la pendiente es distinta de cero
y que el modelo es adecuado.

Analisis de Regresion I (Analisis)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Regresion I (Analisis)

Cargado por

Copyright:

Formatos disponibles

Análisis de

• Identificar el modelo que relaciona la

• Es un modelo con una sola regresora, X, que

•La respuesta Y es una variable aleatoria; existe una

•Los errores aleatorios son independientes y siguen

• Se obtuvieron los siguientes resultados al analizar las

• Estos valores pueden estimarse a través de los

• Para estimar la recta vamos a usar el método

• La diferencia entre un valor observado yi y el

• Los residuos permiten investigar la adecuación

•Los residuos ei se utilizan para el cálculo

 Cuadrado medio residual

•La raíz cuadrada de se conoce como

error estándar de la regresión y

•Parte de la evaluación de adecuación del

• Para resolver es necesario conocer la distribución de muestreo

• Estas hipótesis están relacionadas con la

• El no rechazar la H0 implica que no hay relación

b  t 2  n2 sˆ b    b  t 2  n2 sˆ b

Esta información se obtiene del cuadro de

•La hipótesis nula se rechaza si t  t ó para un valor p

a  t 2  n2 sˆ a    a  t 2  n2 sˆ a

• El análisis de varianza (ANOVA), aplicado a

• Suponga que tenemos n puntos o datos

El método permite probar si la

Cómo calcular los cuadrados medios..?

• La variabilidad total de los datos está explicada

• Ésta hipótesis se rechaza ya que el valor p es

También podría gustarte