Está en la página 1de 4

REGRESIÓN LINEAL

Relacion Entre Variables


● En estadistica, para verificar si existe relacion entre 2 variables X e Y Cuantitativas
○ Se usa el Coeficiente de Correlacion de Pearson denotado como: rx,y o r
● La relacion que se quiere estudiar entre ambas variables es lineal
○ Esta variacion conjunta no indica necesariamente que exista casualidad entre
ambas
Propiedades de r
● Es adimensional
● Toma valores en [-1,1]
● Cuanto mas cerca este r de +1 o -1 mejor sera el grado de relacion lineal
○ Siempre que no existan observaciones anomalas
● -1 -> Relacion inversa perfecta
● 0 -> Variables incorrelacionadas
● +1 -> Relacion directa casi perfecta
Diagrama de Dispersión
● El primer paso es la representación grafica de las variables (y,x) en un diagrama de
dispersion y reconocer si hay correlación entre ellas
○ Fuerte:
■ Indica que la nube de punto de los datos, se puede visualizar cerca
de una recta hipotetica

○ Debil
■ Cuando la nube de punto de los datos, se encuentra distante de una
recta hipotetica
● Correlación Directa
○ Se presenta cuando el aumento de una variable implica el aumento en la otra
○ 0-1
● Correlación Inversa
○ Se presenta cuando el aumento de una variable implica la disminución en la
otra
○ -1 - 0
● Sin Correlación
○ Se presenta cuando no hay ningun tipo de relacion, a nivel lineal, entre las
variables
Regresión Lineal Simple
● Cuando se piensa que una variable depende de la otra, se debe cuantificar la
relacion entre ellas
● Al hacer esto, podemos estimar el valor de una variable, si conocemos el valor de la
otra
● Cuando se estudian 2 variables
○ Regresion Lineal Simple
Ecuacion de Regresion
● Y = Bo+B2X1
Variables en Regresion
● Variables en Regresion Lineal Simple
○ Variable Independiente
■ Explicativa o de entrada X
○ Variable Dependiente
■ De respuesta o de Salida Y
● Asumiremos que si hay una relacion de causalidad de la variable X hacia la variable
Y. Ademas, se sabe que esa relacion es de tipo lineal
Linea de Regresión
● La linea que mejor traza los datos se le conoce como linea de regresión
● La distancia vertical entre los valores observados y los trazados en la recta es
conocida como residual. Llamamos a cada uno de los residuales ei
○ ei = yi - y^i
■ yi -> El observado en la muestra
■ y^i -> El estimado por la ecuacion lineal
Modelo En Regresion Lineal Simple
● En el modelo de regresión lineal simple, dado 2 variables
○ Y (Dependiente)
○ X (Independiente, explicativa o predictora)
○ Buscamos encontrar una funcoin de X muy simple (lineal) que nos permita
aproximar Y mediante
■ Y = B0 + B1X + E
● E son los errores que no se observan
■ Para interpretar el B0
● Se reemplaza X con 0
■ Para interpretar el B1
● Se reemplaza X con 1
Coeficiente de Determinación R2
● Es la proporción de la variabilidad explicada por el modelo
● Este valor R2 esta entre 0 y 1, si el valor es cercano a 1, una gran parte de la
variabilidad de Y es explicada por el modelo
● Si R2 esta cercano a 0 la variabilidad explicada por el modelo e poca
● El incoveniente de este coeficiente es que siempre aumenta cuando introducimos
nuevas variables, aun que estas no sirvan para explicar la respuesta
● Buen modelo si el R2 es mayor al 0,7 y se aproxima al 1 porque la variable Y esta
explicada en gran parte por la variable X

Regresión lineal Multiple


● Tiene muchas variables X
● Se utiliza cuando
○ Un solo regresor, una sola variable independiente, una sola X -> No basta
para explicar suficientemente la variabilidad de Y
○ La variable dependiente Y depende linealmente de un conjunto de variables
independientes X: X1, X2, X3… Xp. Y permite establecer la relación entre
ellas
● Ecuacion
○ Y = B0 + B1X1 + … + BkXk + e
■ Y = variable explicada, dependiente o respuesta
■ X1, X2, … Xk -> Son las variables explicativas, independientes o de
prediccion
■ B0,B1,B2,...Bk son parametros desconocidos a estimar
■ e es el error que se comete en la prediccion de los parametros (B) y
recoge todo lo que las variables independientes (X) no son capaces
de explicar
● Se lee el R2 adj
● Se lee el p valor -> Si es menor a 0,05 si es significativo

● PAD
○ Colesterol - B1
○ Edad - B2
○ IMC - B3
○ Y = B0 + B1X1 + B2X2 + B3X3 + e
○ Y = 17,34 + 0,170X1 + 0,118X2 + 0,709X3 + e
○ b0=x=0 Y= 17,34 NO TIENE INTERPRETACIÓN
○ B1 - X1 = 1
○ Y = 0,170 mmHg por cada 1g colesterol
○ B2 - X2 = 1
○ Y = 0,118 mmHg por cada año de edad
○ B3 - X3 = 1
○ Y = 0,709 mmHg por cada 1 IMC
○ R2 adj = 0,4875
■ Mal modelo
○ Segun el p valor
■ La edad no tiene que ver con el aumento de la PAD
■ El colesterol y el IMC si tienen que ver con el aumento de la PAD

También podría gustarte