Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1) Correlación
2) Regresión lineal simple (dos variables)
3) Regresión lineal múltiple (tres o mas variables)
Correlación.
¿Qué es?
Siendo: ei la diferencia para cada elemento entre la observación real y el dato
estimado , y n el número de elementos observados.
Dispersión y correlación.
Pares ordenados que forman una línea recta.
Regresión lineal.
La regresión lineal simple consiste en generar un modelo de regresión
(ecuación de una recta) que permita explicar la relación lineal que existe
entre dos variables. A la variable dependiente o respuesta se le identifica
como YY y a la variable predictora o independiente como XX.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵY=β0+β1X1+ϵ
y^=β^0+β^1xy^=β^0+β^1x
β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxRβ^1=∑i=1n(xi−x¯)
(yi−y¯)∑i=1n(xi−x¯)2=SySxR
β^0=y¯¯¯−β^1x¯¯¯β^0=y¯−β^1x¯
predicho de y ajuste
Condiciones para la regresión lineal
Predicción de valores
Una vez generado un modelo que se pueda considerar válido, es posible predecir
el valor de la variable dependiente YY para nuevos valores de la variable
predictora XX. Es importante tener en cuenta que las predicciones deben, a priori,
limitarse al rango de valores dentro del que se encuentran las observaciones con
las que se ha generado el modelo. Esto es importante puesto que solo en esta
región se tiene certeza de que se cumplen las condiciones para que el modelo sea
válido. Para calcular las predicciones se emplea la ecuación generada por
regresión.
Dado que el modelo generado se ha obtenido a partir de una muestra y por lo
tanto las estimaciones de los coeficientes de regresión tienen un error asociado,
también lo tienen los valores de las predicciones. Existen dos formas de medir la
incertidumbre asociada con una predicción:
Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+eiYi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei
No colinialidad o multicolinialidad:
Parsimonia:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar
con mayor precisión la variabilidad observada en la variable respuesta
empleando el menor número de predictores, por lo tanto, con menos asunciones.
Cada predictor numérico tiene que estar linealmente relacionado con la variable
respuesta YY mientras los demás predictores se mantienen constantes, de lo
contrario no se puede introducir en el modelo. La forma más recomendable de
comprobarlo es representando los residuos del modelo frente a cada uno de los
predictores. Si la relación es lineal, los residuos se distribuyen de forma aleatoria
entorno a cero. Estos análisis son solo aproximados, ya que no hay forma de
saber si realmente la relación es lineal cuando el resto de predictores se
mantienen constantes.
Distribución normal de los residuos:
Los residuos se deben distribuir de forma normal con media cero. Para
comprobarlo se recurre a histogramas, a los cuantiles normales o a test de
hipótesis.
No autocorrelación (Independencia):
Tamaño de la muestra:
No se trata de una condición de por sí pero, si no se dispone de suficientes
observaciones, predictores que no son realmente influyentes podrían parecerlo.
En el libro Hanbook of biological statistics recomiendan que el número de
observaciones sea como mínimo entre 10 y 20 veces el número de predictores
del modelo.