Regresion Simple

Estudio de dos variables cuantitativas
(datos bivariados)
Regresión Lineal Simple y

Correlación
- Ing. María Laura Vignera - 1

En los casos en que intervienen dos variables cuantitativas, se puede hacer un
análisis gráfico a través de un Diagrama de dispersión
73
Peso según estatura
Inspeccionamos el
68
gráfico
Peso (kg)
63
1. ¿Existe relación?
58 2. ¿En qué sentido?
53 3. ¿Con qué intensidad?
48
150 155 160 165 170 175 180 185
Estatura (cm)
En este gráfico observamos

una relación lineal
La variable x se grafica en el eje horizontal y la y en creciente o directa. Eso
el vertical. Al establecer las escalas es conveniente quiere decir que a medida
que nos quede un rectángulo para observar
fácilmente los datos. Si es necesario se pueden que aumenta la variable x, y
cortar los ejes, es decir que no nacerá en 0. también aumenta.
2
Pueden darse dos situaciones:
1. La variable de entrada x se mide o controla para predecir la variable de salida y.
Entonces y es la variable respuesta o variable dependiente y x la variable
predictora o independiente. Ej: se desea medir el crecimiento bacteriano en un
alimento a medida que pasan los días.
2. Cualquiera de la dos variables pueden considerarse como de entrada y la otra

como de salida, dependiendo de cuál sea el objetivo. Ej: es el caso del peso y la
estatura.
La variable dependiente no se controla en el experimento, ya que depende de

los valores que tome x, por tanto es una variable aleatoria. La variable x,
generalmente se controla, por lo que no es una variable aleatoria.
3
Correlación lineal
Objetivo: analizar el grado de asociación lineal entre dos variables aleatorias
cuantitativas.
• Algunas posibles relaciones:

Coeficiente de correlación lineal de Pearson, r
• Mide la intensidad de la relación lineal entre dos variables cuantitativas.
• Toma valores entre -1 y +1.
Para su cálculo veamos algunos cálculos previos:
• Cálculos de las Sumas de Cuadrados:

SC x   ( xi  x) 2   x  n  ( x)
2
i
2
Mide la variabilidad en el sentido de las x
SC y   ( y i  y ) 2   y  n  ( y)
2
i
2
Mide la variabilidad en el sentido de las y
S xy   ( xi  x)  ( y i  y )   x y  n  ( x)  ( y )
i i Mide la variabilidad conjunta de x e y
• Coeficiente de correlación lineal de Pearson
S xy
r
SC x  SC y
5
¿Existe correlación lineal?
r 0 r1 r  1
Correlación lineal débil Correlación lineal fuerte Correlación lineal fuerte
y directa e inversa
Veamos un Ejemplo: las cantidades de un compuesto y, que se disuelven en 100 g de

agua a diferentes temperaturas, x , se registraron así:
Compuesto disuelto según temperaturas Observamos que

60
x °C y gramos a medida que
Compuesto disuelto (gramos)
50
0 8 aumenta la
40
15 12 temperatura, la
30
30 25 20
cantidad de
45 31 10
compuesto
60 44 0
disuelto también
0 20 40 60 80 aumenta. Parece
75 48 Temperatura °C
haber una
relación lineal.
6
Hacemos cálculos
x y x2 y2 xy
0 8 0 64 0
15 12 225 144 180
SC x   xi2  n  ( x) 2  12375  6  (37.5) 2  3937.5
30 25 900 625 750
45 31 2025 961 1395 SC y   y i2  n  ( y ) 2  6034  6  (28) 2  1330
60 44 3600 1936 2640 S xy   xi yi  n  ( x)  ( y )  8565  6  37.5  28  2265
75 48 5625 2304 3600
Sumatorias 225 168 12375 6034 8565
Promedios 37,5 28
2265
S xy r
r 3937.5  1330 Existe una asociación fuerte y
SC x  SC y directa entre la cantidad de
compuesto disuelto y la
r  0.99
temperatura.
Cov
r
DEx1 DEx2
7
Regresión lineal
Objetivo: encontrar la ecuación de una recta que mejor describe la relación
entre las dos variables. Esta ecuación permitirá hacer predicciones sobre la
variable respuesta.
Dado que la función que parece relacionar ambas

variables es lineal, vamos a hallar la ecuación de la recta.
• El modelo de regresión lineal simple
yi   0  1 x1  ei
• La recta del mejor ajuste para nuestros datos se encuentra aplicando el Método
de los Mínimos Cuadrados (MMC), y será:
yˆ  b0  b1 x donde ŷ es el valor estimado o pronosticado

de y que corresponde a un valor particular de x.
8
¿Qué es ei ?
• ei es el error aleatorio del modelo y representa todas las variables que el
investigador no puede controlar.
• se llama residuo
• ei  yi  yˆ i , es el valor observado en nuestra muestra menos el valor que
podremos pronosticar con nuestra recta.
• su promedio es cero y tiene distribución normal.
El criterio de Mínimos Cuadrados requiere encontrar la recta de modo que la

sumatoria  ( y  yˆ ) 2sea lo más pequeña posible.
i
e 2
i  mínimo
En nuestro ejemplo, ¿qué otras variables x , además de la temperatura, podría estar

influyendo sobre la cantidad de compuesto disuelto? Ej: la concentración, la pureza,
etc. Estas son variables que el investigador no controla y van a formar parte del error.
9
Calculamos los coeficientes de la recta yˆ  b0  b1 x y
los interpretamos
S xy Coeficientes de regresión que surgen de las ecuaciones
b1  normales y hacen que la recta pase lo más cerca posible de
SC x todos los puntos observados.
b0  y  b1  x
• b1: coeficiente de la pendiente. Es una variación
de y por cada aumento unitario de x.
 Indica que por cada °C que aumenta la
temperatura, la cantidad disuelta del compuesto se
incrementa en 0.575 gramos.
• b0: coeficiente de la ordenada al origen. Valor de y

2265 cuando x = 0
b1   0.575
3937.5  Indica que cuando la temperatura es de 0°C, la
b0  28  0.575  37.5 cantidad de compuesto disuelto es 6.437 gramos.
(Cuando el cero no es un valor posible en el dominio
 6.437 de x, este coeficiente no tiene un sentido
interpretativo lógico, sin embargo seguirá siendo parte
de la ecuación).
10
La recta del mejor ajuste
yˆ  6.437  0.575  x
60,00 x y ŷ i
50,00 0 8 6,4
Compuesto disuelto (gr)
40,00 15 12 15,1
30,00 yˆ  6.437  0.575  x
30 25 23,7
20,00
45 31 32,3
60 44 40,9
10,00
75 48 49,6
0,00
0 15 30 45 60 75
Temperatura (°C) ŷ i , y pronosticado, surgen de
reemplazar cada valor de x en
la ecuación.
Coeficientes
En la salida de Excel también podemos leer
Intercepción 6,429
los coeficientes de la recta.
x 0,575
11
¿Qué representan los residuos gráficamente?
x y ŷ i residuo ei (ei)2
0 8 6,43 1,57 2,47 Observemos que la suma
15 12 15,06 -3,06 9,35 de los residuos vale cero,
30 25 23,69 1,31 1,73 por lo tanto su promedio
45 31 32,31 -1,31 1,73 también será cero.
60 44 40,94 3,06 9,35
75 48 49,57 -1,57 2,47
0,0 27,09
Es la distancia entre el valor

observado de y y el valor
pronosticado por la recta.
ei  Recordemos que la suma de los

residuos cuadrados tiene que ser
un valor lo más pequeño posible,
en nuestro caso vale 27,1.
12
Realizamos predicciones
 Podrán hacerse predicciones de la variable dependiente únicamente dentro del

dominio de valores de x desde los que se calculó la ecuación. En un dominio diferente
no sabemos qué forma tendrá la relación.
Ejemplo:
¿Cuánto compuesto se disolverá a una temperatura de 25°C?
¿Puedo responder a esta pregunta? Sí, si las condiciones del ensayo se mantienen constantes.
yˆ ( 25)  6.437  0.575  x
yˆ ( 25)  6.437  0.575  25 A 25°C se disolverán

20,81 gramos del
yˆ ( 25)  20.81 compuesto.
¿Cuánto compuesto se disolverá a una temperatura de 100°C?

No podría responder a esta pregunta.
13
¿Cómo calculamos los residuos?
Es la diferencia o distancia entre el valor observado de y y el valor pronosticado
por la recta para un mismo valor de x.
e3  yi  yˆ i
Ejemplo:
Si queremos hallar el tercer residuo, observamos que yi = 25 cuando x= 30
e3  y i  yˆ i Indica que la tercer

e3  25  23,69 observación se
encuentra 1,31 gramos
e3  1,31 gramos
por encima del valor
esperado.
ya que,
yˆ ( x 30)  23,69 gramos

14
Bondad de ajuste del modelo
Un criterio que se utiliza para indicar lo adecuado de un modelo de regresión ajustado
es el coeficiente de determinación.
Coeficiente de determinación, R2
2  Indica qué proporción de la variación total de la variable

S respuesta y, se explica con la variable predictora x .
R 2 xy
SC x  SC y  Sus posibles valores son (0 ; 100). Se lo puede expresar

en porcentaje.
(2265) 2 • El 98% de la variabilidad en la cantidad de

R 
2
 0.98
3937.5  1330 compuesto disuelto está explicado por la
temperatura.
• Quiere decir que el modelo propuesto “una
recta” es adecuado para relacionar a estas
variables en este conjunto de datos.
¿A qué se debe que el modelo no llegue a

explicar el 100% de la variación de y? 15
Otro Ejemplo: Sea y: cantidad de bacterias que sobreviven según x: tiempo de
pasteurización.
 ¿Sería una relación creciente o directa?

 ¿Qué signo tendría la pendiente?
 ¿Qué signo tendría el coeficiente de correlación?
 ¿Y el de determinación?
 ¿Cómo se interpretaría la pendiente?
En una planilla de Excel proponga

posibles valores para este ejemplo y
grafique.
Aclaración: el ejemplo desarrollado se llevó a cabo con pocos pares de valores. Sin
embargo, en la práctica la cantidad de valores debe ser mayor.
16
Error estándar de la estimación
e 2
i
Un estimador insesgado para la
varianza. Mide el grado de dispersión
ˆ 2  S e2  1
n2 de los puntos alrededor de la recta.
entonces,
(y i  yˆ i ) 2
ˆ 2  S e2  1
n2
Los errores aleatorios son independientes y normalmente distribuidos con media

cero y varianza constante σ2
17
Partición de la suma de cuadrados
Dividiremos la variabilidad total en diferentes fuentes de variación
 Suma de Cuadrados total

SCT  SCR  SCE
con,
SCT   ( y i  y ) 2 Suma de cuadrados de

y regresión. Es la variabilidad de y
que puede ser explicada por el
SCR   ( yˆ i  y ) 2
modelo.
SCE   ( yi  yˆ i ) 2 Suma de cuadrados de error

Es aquella variabilidad de y que
el modelo no puede explicar.
18
Gráfico de Partición de la varianza
Desviación total, desviación explicada y desviación no explicada para un valor
observado de Y
19
Bondad de ajuste del modelo
Un criterio que se utiliza para indicar lo adecuado de un modelo de regresión
ajustado es el coeficiente de determinación. Indica qué proporción de la variación
total de la variable respuesta y, se explica mediante el modelo postulado, es decir se
explica con la variable x .
R2 
SCR

 ( yˆ i  y) 2 Es el cociente entre la suma de cuadrados
explicada por la regresión respecto a la suma
SCT (y i  y) 2
de cuadrados total (explicada + no explicada)
SC explicada

SC total
Es una medida de bondad de ajuste del modelo. Es decir que indica cuán bien el
modelo propuesto se ajusta a nuestros datos. Podrá tomar valores entre 0 y 1, o
entre 0 y 100% si se expresa en porcentaje.
También R 2  r 2
20
Validación del modelo: Si bien hasta aquí se observó que el modelo propuesto se
ajusta correctamente a los datos, lo hicimos a partir de una muestra. Ahora deberemos
inferir hacia la población.
• Prueba de hipótesis para la pendiente

H 0 : 1  0 vs H 1 : 1  0
No existe relación lineal entre la cantidad de Existe relación lineal entre la cantidad de
compuesto disuelto y la temperatura. compuesto disuelto y la temperatura.
O, la temperatura no resulta significativa sobre la O, la temperatura resulta significativa sobre la
cantidad de compuesto disuelto. cantidad de compuesto disuelto.
• El estadístico de prueba sigue

una distribución t-Student.
• t crítico con t(n-2); α/2 gl
b1  1
-tcr 0 tcr b1  1 t H0 
-2,77 2,77 t H0   1
S b1 Se
SC x
También podremos observar si el IC(1-α)% para la pendiente contiene o no al cero. 21

Salida de excel
Coeficientes Error típico Estadístico t valor - p Inferior 95% Superior 95%

Intercepción 6,43 1,88 3,41 0,02694 1,20 11,66
x °C 0,58 0,04 13,87 0,00016 0,46 0,69
Se observa para la pendiente, un valor to = 13,87 y un valor– p menor que alfa, lo cual
indica que H0 debe ser rechazada. Puede concluirse que la temperatura resulta
significativa sobre la cantidad de producto disuelto. X es significativa en el modelo.
El IC para la pendiente no contiene al 0, que es lo que se planteó en H0, sino que está
desplazado hacia valores positivos, indicando que se rechaza el planteo de H0 y que la
pendiente es positiva.
22
Otra manera de evaluar la significancia de la pendiente y
validar del modelo
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Cuadrados medios F valor - p
Regresión 1 1302,914286 1302,914286 192,4135021 0,000156596
Residuos 4 27,08571429 6,771428571
Total 5 1330
Se descompone la variabilidad de los datos, en aquella que puede ser explicada por
el modelo propuesto y en aquella que el modelo no puede explicar (error o
residuos).
Variabilid ad explicada CMRegresión

FH 0  FH 0 
Variabilid ad no explicada CMError
El estadístico de prueba sigue una distribución de probabilidad F Fisher / Snedecor.
23
Estadístico de Prueba
CMRegresión
FH 0 
CMError
Los cuadrados
medios se calculan Valor crítico
como la suma de SC
CM 
cuadrados dividida gl Fcrítico  F( nN ; nD : )
los grados de
libertad.
Fcrítico  F(1; 4: )
Los gl de numerador, en una regresión simple,

son siempre 1, ya que son la cantidad de
variables independientes incluidas. Los gl del
denominador son n-2 24

Regresion Simple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Simple

Cargado por

Copyright:

Formatos disponibles

Estudio de dos variables cuantitativas

Regresión Lineal Simple y

- Ing. María Laura Vignera - 1

En este gráfico observamos

2. Cualquiera de la dos variables pueden considerarse como de entrada y la otra

La variable dependiente no se controla en el experimento, ya que depende de

• Algunas posibles relaciones:

Para su cálculo veamos algunos cálculos previos:

• Cálculos de las Sumas de Cuadrados:

• Coeficiente de correlación lineal de Pearson

Veamos un Ejemplo: las cantidades de un compuesto y, que se disuelven en 100 g de

Compuesto disuelto según temperaturas Observamos que

Dado que la función que parece relacionar ambas

yˆ  b0  b1 x donde ŷ es el valor estimado o pronosticado

El criterio de Mínimos Cuadrados requiere encontrar la recta de modo que la

En nuestro ejemplo, ¿qué otras variables x , además de la temperatura, podría estar

• b0: coeficiente de la ordenada al origen. Valor de y

Es la distancia entre el valor

ei  Recordemos que la suma de los

 Podrán hacerse predicciones de la variable dependiente únicamente dentro del

yˆ ( 25)  6.437  0.575  x

yˆ ( 25)  6.437  0.575  25 A 25°C se disolverán

¿Cuánto compuesto se disolverá a una temperatura de 100°C?

Si queremos hallar el tercer residuo, observamos que yi = 25 cuando x= 30

e3  y i  yˆ i Indica que la tercer

yˆ ( x 30)  23,69 gramos

2  Indica qué proporción de la variación total de la variable

SC x  SC y  Sus posibles valores son (0 ; 100). Se lo puede expresar

(2265) 2 • El 98% de la variabilidad en la cantidad de

¿A qué se debe que el modelo no llegue a

 ¿Sería una relación creciente o directa?

En una planilla de Excel proponga

n2 de los puntos alrededor de la recta.

Los errores aleatorios son independientes y normalmente distribuidos con media

 Suma de Cuadrados total

SCT   ( y i  y ) 2 Suma de cuadrados de

SCE   ( yi  yˆ i ) 2 Suma de cuadrados de error

• Prueba de hipótesis para la pendiente

• El estadístico de prueba sigue

• t crítico con t(n-2); α/2 gl

También podremos observar si el IC(1-α)% para la pendiente contiene o no al cero. 21

Coeficientes Error típico Estadístico t valor - p Inferior 95% Superior 95%

Variabilid ad explicada CMRegresión

El estadístico de prueba sigue una distribución de probabilidad F Fisher / Snedecor.

Los gl de numerador, en una regresión simple,

También podría gustarte