Está en la página 1de 24

Estudio de dos variables cuantitativas

(datos bivariados)

Regresión Lineal Simple y


Correlación

- Ing. María Laura Vignera - 1


En los casos en que intervienen dos variables cuantitativas, se puede hacer un
análisis gráfico a través de un Diagrama de dispersión

73
Peso según estatura
Inspeccionamos el
68
gráfico
Peso (kg)

63
1. ¿Existe relación?
58 2. ¿En qué sentido?
53 3. ¿Con qué intensidad?
48
150 155 160 165 170 175 180 185
Estatura (cm)

En este gráfico observamos


una relación lineal
La variable x se grafica en el eje horizontal y la y en creciente o directa. Eso
el vertical. Al establecer las escalas es conveniente quiere decir que a medida
que nos quede un rectángulo para observar
fácilmente los datos. Si es necesario se pueden que aumenta la variable x, y
cortar los ejes, es decir que no nacerá en 0. también aumenta.

2
Pueden darse dos situaciones:
1. La variable de entrada x se mide o controla para predecir la variable de salida y.
Entonces y es la variable respuesta o variable dependiente y x la variable
predictora o independiente. Ej: se desea medir el crecimiento bacteriano en un
alimento a medida que pasan los días.

2. Cualquiera de la dos variables pueden considerarse como de entrada y la otra


como de salida, dependiendo de cuál sea el objetivo. Ej: es el caso del peso y la
estatura.

La variable dependiente no se controla en el experimento, ya que depende de


los valores que tome x, por tanto es una variable aleatoria. La variable x,
generalmente se controla, por lo que no es una variable aleatoria.

3
Correlación lineal
Objetivo: analizar el grado de asociación lineal entre dos variables aleatorias
cuantitativas.

• Algunas posibles relaciones:


Coeficiente de correlación lineal de Pearson, r
• Mide la intensidad de la relación lineal entre dos variables cuantitativas.
• Toma valores entre -1 y +1.

Para su cálculo veamos algunos cálculos previos:

• Cálculos de las Sumas de Cuadrados:


SC x   ( xi  x) 2   x  n  ( x)
2
i
2
Mide la variabilidad en el sentido de las x
SC y   ( y i  y ) 2   y  n  ( y)
2
i
2
Mide la variabilidad en el sentido de las y
S xy   ( xi  x)  ( y i  y )   x y  n  ( x)  ( y )
i i Mide la variabilidad conjunta de x e y

• Coeficiente de correlación lineal de Pearson

S xy
r
SC x  SC y
5
¿Existe correlación lineal?

r 0 r1 r  1
Correlación lineal débil Correlación lineal fuerte Correlación lineal fuerte
y directa e inversa

Veamos un Ejemplo: las cantidades de un compuesto y, que se disuelven en 100 g de


agua a diferentes temperaturas, x , se registraron así:

Compuesto disuelto según temperaturas Observamos que


60
x °C y gramos a medida que
Compuesto disuelto (gramos)

50
0 8 aumenta la
40
15 12 temperatura, la
30
30 25 20
cantidad de
45 31 10
compuesto
60 44 0
disuelto también
0 20 40 60 80 aumenta. Parece
75 48 Temperatura °C
haber una
relación lineal.
6
Hacemos cálculos

x y x2 y2 xy
0 8 0 64 0
15 12 225 144 180
SC x   xi2  n  ( x) 2  12375  6  (37.5) 2  3937.5
30 25 900 625 750
45 31 2025 961 1395 SC y   y i2  n  ( y ) 2  6034  6  (28) 2  1330
60 44 3600 1936 2640 S xy   xi yi  n  ( x)  ( y )  8565  6  37.5  28  2265
75 48 5625 2304 3600
Sumatorias 225 168 12375 6034 8565
Promedios 37,5 28

2265
S xy r
r 3937.5  1330 Existe una asociación fuerte y
SC x  SC y directa entre la cantidad de
compuesto disuelto y la
r  0.99
temperatura.

Cov
r
DEx1 DEx2
7
Regresión lineal
Objetivo: encontrar la ecuación de una recta que mejor describe la relación
entre las dos variables. Esta ecuación permitirá hacer predicciones sobre la
variable respuesta.

Dado que la función que parece relacionar ambas


variables es lineal, vamos a hallar la ecuación de la recta.
• El modelo de regresión lineal simple

yi   0  1 x1  ei

• La recta del mejor ajuste para nuestros datos se encuentra aplicando el Método
de los Mínimos Cuadrados (MMC), y será:

yˆ  b0  b1 x donde ŷ es el valor estimado o pronosticado


de y que corresponde a un valor particular de x.

8
¿Qué es ei ?
• ei es el error aleatorio del modelo y representa todas las variables que el
investigador no puede controlar.
• se llama residuo
• ei  yi  yˆ i , es el valor observado en nuestra muestra menos el valor que
podremos pronosticar con nuestra recta.
• su promedio es cero y tiene distribución normal.

El criterio de Mínimos Cuadrados requiere encontrar la recta de modo que la


sumatoria  ( y  yˆ ) 2sea lo más pequeña posible.
i

e 2
i  mínimo

En nuestro ejemplo, ¿qué otras variables x , además de la temperatura, podría estar


influyendo sobre la cantidad de compuesto disuelto? Ej: la concentración, la pureza,
etc. Estas son variables que el investigador no controla y van a formar parte del error.

9
Calculamos los coeficientes de la recta yˆ  b0  b1 x y
los interpretamos
S xy Coeficientes de regresión que surgen de las ecuaciones
b1  normales y hacen que la recta pase lo más cerca posible de
SC x todos los puntos observados.
b0  y  b1  x
• b1: coeficiente de la pendiente. Es una variación
de y por cada aumento unitario de x.
 Indica que por cada °C que aumenta la
temperatura, la cantidad disuelta del compuesto se
incrementa en 0.575 gramos.

• b0: coeficiente de la ordenada al origen. Valor de y


2265 cuando x = 0
b1   0.575
3937.5  Indica que cuando la temperatura es de 0°C, la
b0  28  0.575  37.5 cantidad de compuesto disuelto es 6.437 gramos.
(Cuando el cero no es un valor posible en el dominio
 6.437 de x, este coeficiente no tiene un sentido
interpretativo lógico, sin embargo seguirá siendo parte
de la ecuación).
10
La recta del mejor ajuste

yˆ  6.437  0.575  x
60,00 x y ŷ i
50,00 0 8 6,4
Compuesto disuelto (gr)

40,00 15 12 15,1
30,00 yˆ  6.437  0.575  x
30 25 23,7
20,00
45 31 32,3
60 44 40,9
10,00
75 48 49,6
0,00
0 15 30 45 60 75
Temperatura (°C) ŷ i , y pronosticado, surgen de
reemplazar cada valor de x en
la ecuación.

Coeficientes
En la salida de Excel también podemos leer
Intercepción 6,429
los coeficientes de la recta.
x 0,575
11
¿Qué representan los residuos gráficamente?

x y ŷ i residuo ei (ei)2
0 8 6,43 1,57 2,47 Observemos que la suma
15 12 15,06 -3,06 9,35 de los residuos vale cero,
30 25 23,69 1,31 1,73 por lo tanto su promedio
45 31 32,31 -1,31 1,73 también será cero.
60 44 40,94 3,06 9,35
75 48 49,57 -1,57 2,47
0,0 27,09

Es la distancia entre el valor


observado de y y el valor
pronosticado por la recta.

ei  Recordemos que la suma de los


residuos cuadrados tiene que ser
un valor lo más pequeño posible,
en nuestro caso vale 27,1.

12
Realizamos predicciones

 Podrán hacerse predicciones de la variable dependiente únicamente dentro del


dominio de valores de x desde los que se calculó la ecuación. En un dominio diferente
no sabemos qué forma tendrá la relación.

Ejemplo:
¿Cuánto compuesto se disolverá a una temperatura de 25°C?

¿Puedo responder a esta pregunta? Sí, si las condiciones del ensayo se mantienen constantes.

yˆ ( 25)  6.437  0.575  x

yˆ ( 25)  6.437  0.575  25 A 25°C se disolverán


20,81 gramos del
yˆ ( 25)  20.81 compuesto.

¿Cuánto compuesto se disolverá a una temperatura de 100°C?


No podría responder a esta pregunta.

13
¿Cómo calculamos los residuos?
Es la diferencia o distancia entre el valor observado de y y el valor pronosticado
por la recta para un mismo valor de x.

e3  yi  yˆ i

Ejemplo:

Si queremos hallar el tercer residuo, observamos que yi = 25 cuando x= 30

e3  y i  yˆ i Indica que la tercer


e3  25  23,69 observación se
encuentra 1,31 gramos
e3  1,31 gramos
por encima del valor
esperado.
ya que,

yˆ ( x 30)  23,69 gramos


14
Bondad de ajuste del modelo
Un criterio que se utiliza para indicar lo adecuado de un modelo de regresión ajustado
es el coeficiente de determinación.

Coeficiente de determinación, R2

2  Indica qué proporción de la variación total de la variable


S respuesta y, se explica con la variable predictora x .
R 2 xy

SC x  SC y  Sus posibles valores son (0 ; 100). Se lo puede expresar


en porcentaje.

(2265) 2 • El 98% de la variabilidad en la cantidad de


R 
2
 0.98
3937.5  1330 compuesto disuelto está explicado por la
temperatura.
• Quiere decir que el modelo propuesto “una
recta” es adecuado para relacionar a estas
variables en este conjunto de datos.

¿A qué se debe que el modelo no llegue a


explicar el 100% de la variación de y? 15
Otro Ejemplo: Sea y: cantidad de bacterias que sobreviven según x: tiempo de
pasteurización.

 ¿Sería una relación creciente o directa?


 ¿Qué signo tendría la pendiente?
 ¿Qué signo tendría el coeficiente de correlación?
 ¿Y el de determinación?
 ¿Cómo se interpretaría la pendiente?

En una planilla de Excel proponga


posibles valores para este ejemplo y
grafique.

Aclaración: el ejemplo desarrollado se llevó a cabo con pocos pares de valores. Sin
embargo, en la práctica la cantidad de valores debe ser mayor.

16
Error estándar de la estimación

e 2
i
Un estimador insesgado para la
varianza. Mide el grado de dispersión
ˆ 2  S e2  1

n2 de los puntos alrededor de la recta.

entonces,

(y i  yˆ i ) 2
ˆ 2  S e2  1

n2

Los errores aleatorios son independientes y normalmente distribuidos con media


cero y varianza constante σ2

17
Partición de la suma de cuadrados
Dividiremos la variabilidad total en diferentes fuentes de variación

 Suma de Cuadrados total


SCT  SCR  SCE

con,

SCT   ( y i  y ) 2 Suma de cuadrados de


y regresión. Es la variabilidad de y
que puede ser explicada por el
SCR   ( yˆ i  y ) 2
modelo.

SCE   ( yi  yˆ i ) 2 Suma de cuadrados de error


Es aquella variabilidad de y que
el modelo no puede explicar.

18
Gráfico de Partición de la varianza
Desviación total, desviación explicada y desviación no explicada para un valor
observado de Y

19
Bondad de ajuste del modelo
Un criterio que se utiliza para indicar lo adecuado de un modelo de regresión
ajustado es el coeficiente de determinación. Indica qué proporción de la variación
total de la variable respuesta y, se explica mediante el modelo postulado, es decir se
explica con la variable x .

R2 
SCR

 ( yˆ i  y) 2 Es el cociente entre la suma de cuadrados
explicada por la regresión respecto a la suma
SCT (y i  y) 2
de cuadrados total (explicada + no explicada)
SC explicada

SC total

Es una medida de bondad de ajuste del modelo. Es decir que indica cuán bien el
modelo propuesto se ajusta a nuestros datos. Podrá tomar valores entre 0 y 1, o
entre 0 y 100% si se expresa en porcentaje.

También R 2  r 2
20
Validación del modelo: Si bien hasta aquí se observó que el modelo propuesto se
ajusta correctamente a los datos, lo hicimos a partir de una muestra. Ahora deberemos
inferir hacia la población.

• Prueba de hipótesis para la pendiente


H 0 : 1  0 vs H 1 : 1  0
No existe relación lineal entre la cantidad de Existe relación lineal entre la cantidad de
compuesto disuelto y la temperatura. compuesto disuelto y la temperatura.
O, la temperatura no resulta significativa sobre la O, la temperatura resulta significativa sobre la
cantidad de compuesto disuelto. cantidad de compuesto disuelto.

• El estadístico de prueba sigue


una distribución t-Student.

• t crítico con t(n-2); α/2 gl

b1  1
-tcr 0 tcr b1  1 t H0 
-2,77 2,77 t H0   1
S b1 Se
SC x

También podremos observar si el IC(1-α)% para la pendiente contiene o no al cero. 21


Salida de excel

Coeficientes Error típico Estadístico t valor - p Inferior 95% Superior 95%


Intercepción 6,43 1,88 3,41 0,02694 1,20 11,66
x °C 0,58 0,04 13,87 0,00016 0,46 0,69

Se observa para la pendiente, un valor to = 13,87 y un valor– p menor que alfa, lo cual
indica que H0 debe ser rechazada. Puede concluirse que la temperatura resulta
significativa sobre la cantidad de producto disuelto. X es significativa en el modelo.

El IC para la pendiente no contiene al 0, que es lo que se planteó en H0, sino que está
desplazado hacia valores positivos, indicando que se rechaza el planteo de H0 y que la
pendiente es positiva.

22
Otra manera de evaluar la significancia de la pendiente y
validar del modelo
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Cuadrados medios F valor - p
Regresión 1 1302,914286 1302,914286 192,4135021 0,000156596
Residuos 4 27,08571429 6,771428571
Total 5 1330

Se descompone la variabilidad de los datos, en aquella que puede ser explicada por
el modelo propuesto y en aquella que el modelo no puede explicar (error o
residuos).

Variabilid ad explicada CMRegresión


FH 0  FH 0 
Variabilid ad no explicada CMError

El estadístico de prueba sigue una distribución de probabilidad F Fisher / Snedecor.

23
Estadístico de Prueba

CMRegresión
FH 0 
CMError

Los cuadrados
medios se calculan Valor crítico
como la suma de SC
CM 
cuadrados dividida gl Fcrítico  F( nN ; nD : )
los grados de
libertad.
Fcrítico  F(1; 4: )

Los gl de numerador, en una regresión simple,


son siempre 1, ya que son la cantidad de
variables independientes incluidas. Los gl del
denominador son n-2 24

También podría gustarte