Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Simple
Regresion Simple
(datos bivariados)
73
Peso según estatura
Inspeccionamos el
68
gráfico
Peso (kg)
63
1. ¿Existe relación?
58 2. ¿En qué sentido?
53 3. ¿Con qué intensidad?
48
150 155 160 165 170 175 180 185
Estatura (cm)
2
Pueden darse dos situaciones:
1. La variable de entrada x se mide o controla para predecir la variable de salida y.
Entonces y es la variable respuesta o variable dependiente y x la variable
predictora o independiente. Ej: se desea medir el crecimiento bacteriano en un
alimento a medida que pasan los días.
3
Correlación lineal
Objetivo: analizar el grado de asociación lineal entre dos variables aleatorias
cuantitativas.
S xy
r
SC x SC y
5
¿Existe correlación lineal?
r 0 r1 r 1
Correlación lineal débil Correlación lineal fuerte Correlación lineal fuerte
y directa e inversa
50
0 8 aumenta la
40
15 12 temperatura, la
30
30 25 20
cantidad de
45 31 10
compuesto
60 44 0
disuelto también
0 20 40 60 80 aumenta. Parece
75 48 Temperatura °C
haber una
relación lineal.
6
Hacemos cálculos
x y x2 y2 xy
0 8 0 64 0
15 12 225 144 180
SC x xi2 n ( x) 2 12375 6 (37.5) 2 3937.5
30 25 900 625 750
45 31 2025 961 1395 SC y y i2 n ( y ) 2 6034 6 (28) 2 1330
60 44 3600 1936 2640 S xy xi yi n ( x) ( y ) 8565 6 37.5 28 2265
75 48 5625 2304 3600
Sumatorias 225 168 12375 6034 8565
Promedios 37,5 28
2265
S xy r
r 3937.5 1330 Existe una asociación fuerte y
SC x SC y directa entre la cantidad de
compuesto disuelto y la
r 0.99
temperatura.
Cov
r
DEx1 DEx2
7
Regresión lineal
Objetivo: encontrar la ecuación de una recta que mejor describe la relación
entre las dos variables. Esta ecuación permitirá hacer predicciones sobre la
variable respuesta.
yi 0 1 x1 ei
• La recta del mejor ajuste para nuestros datos se encuentra aplicando el Método
de los Mínimos Cuadrados (MMC), y será:
8
¿Qué es ei ?
• ei es el error aleatorio del modelo y representa todas las variables que el
investigador no puede controlar.
• se llama residuo
• ei yi yˆ i , es el valor observado en nuestra muestra menos el valor que
podremos pronosticar con nuestra recta.
• su promedio es cero y tiene distribución normal.
e 2
i mínimo
9
Calculamos los coeficientes de la recta yˆ b0 b1 x y
los interpretamos
S xy Coeficientes de regresión que surgen de las ecuaciones
b1 normales y hacen que la recta pase lo más cerca posible de
SC x todos los puntos observados.
b0 y b1 x
• b1: coeficiente de la pendiente. Es una variación
de y por cada aumento unitario de x.
Indica que por cada °C que aumenta la
temperatura, la cantidad disuelta del compuesto se
incrementa en 0.575 gramos.
yˆ 6.437 0.575 x
60,00 x y ŷ i
50,00 0 8 6,4
Compuesto disuelto (gr)
40,00 15 12 15,1
30,00 yˆ 6.437 0.575 x
30 25 23,7
20,00
45 31 32,3
60 44 40,9
10,00
75 48 49,6
0,00
0 15 30 45 60 75
Temperatura (°C) ŷ i , y pronosticado, surgen de
reemplazar cada valor de x en
la ecuación.
Coeficientes
En la salida de Excel también podemos leer
Intercepción 6,429
los coeficientes de la recta.
x 0,575
11
¿Qué representan los residuos gráficamente?
x y ŷ i residuo ei (ei)2
0 8 6,43 1,57 2,47 Observemos que la suma
15 12 15,06 -3,06 9,35 de los residuos vale cero,
30 25 23,69 1,31 1,73 por lo tanto su promedio
45 31 32,31 -1,31 1,73 también será cero.
60 44 40,94 3,06 9,35
75 48 49,57 -1,57 2,47
0,0 27,09
12
Realizamos predicciones
Ejemplo:
¿Cuánto compuesto se disolverá a una temperatura de 25°C?
¿Puedo responder a esta pregunta? Sí, si las condiciones del ensayo se mantienen constantes.
13
¿Cómo calculamos los residuos?
Es la diferencia o distancia entre el valor observado de y y el valor pronosticado
por la recta para un mismo valor de x.
e3 yi yˆ i
Ejemplo:
Coeficiente de determinación, R2
Aclaración: el ejemplo desarrollado se llevó a cabo con pocos pares de valores. Sin
embargo, en la práctica la cantidad de valores debe ser mayor.
16
Error estándar de la estimación
e 2
i
Un estimador insesgado para la
varianza. Mide el grado de dispersión
ˆ 2 S e2 1
entonces,
(y i yˆ i ) 2
ˆ 2 S e2 1
n2
17
Partición de la suma de cuadrados
Dividiremos la variabilidad total en diferentes fuentes de variación
con,
18
Gráfico de Partición de la varianza
Desviación total, desviación explicada y desviación no explicada para un valor
observado de Y
19
Bondad de ajuste del modelo
Un criterio que se utiliza para indicar lo adecuado de un modelo de regresión
ajustado es el coeficiente de determinación. Indica qué proporción de la variación
total de la variable respuesta y, se explica mediante el modelo postulado, es decir se
explica con la variable x .
R2
SCR
( yˆ i y) 2 Es el cociente entre la suma de cuadrados
explicada por la regresión respecto a la suma
SCT (y i y) 2
de cuadrados total (explicada + no explicada)
SC explicada
SC total
Es una medida de bondad de ajuste del modelo. Es decir que indica cuán bien el
modelo propuesto se ajusta a nuestros datos. Podrá tomar valores entre 0 y 1, o
entre 0 y 100% si se expresa en porcentaje.
También R 2 r 2
20
Validación del modelo: Si bien hasta aquí se observó que el modelo propuesto se
ajusta correctamente a los datos, lo hicimos a partir de una muestra. Ahora deberemos
inferir hacia la población.
b1 1
-tcr 0 tcr b1 1 t H0
-2,77 2,77 t H0 1
S b1 Se
SC x
Se observa para la pendiente, un valor to = 13,87 y un valor– p menor que alfa, lo cual
indica que H0 debe ser rechazada. Puede concluirse que la temperatura resulta
significativa sobre la cantidad de producto disuelto. X es significativa en el modelo.
El IC para la pendiente no contiene al 0, que es lo que se planteó en H0, sino que está
desplazado hacia valores positivos, indicando que se rechaza el planteo de H0 y que la
pendiente es positiva.
22
Otra manera de evaluar la significancia de la pendiente y
validar del modelo
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Cuadrados medios F valor - p
Regresión 1 1302,914286 1302,914286 192,4135021 0,000156596
Residuos 4 27,08571429 6,771428571
Total 5 1330
Se descompone la variabilidad de los datos, en aquella que puede ser explicada por
el modelo propuesto y en aquella que el modelo no puede explicar (error o
residuos).
23
Estadístico de Prueba
CMRegresión
FH 0
CMError
Los cuadrados
medios se calculan Valor crítico
como la suma de SC
CM
cuadrados dividida gl Fcrítico F( nN ; nD : )
los grados de
libertad.
Fcrítico F(1; 4: )