simple y múltiple” Clase de: 7:00 – 8:45 Fecha 21 de agosto del 2018 Regresión lineal simple En principio no sabemos si las variables en cuestión están relacionadas o no, o si en caso de haber dependencia es significativa o no. De haber entre ellas una dependencia lineal significativa, podríamos expresar la Compresión (Y ) a partir de la Presión (X) mediante una recta, y a partir de ella predecir la compresión que se daría para un determinado nivel de presión. Una forma de determinar si puede existir o no dependencia entre variables, y en caso de haberla deducir de qué tipo puede ser, es gráficamente representando los pares de valores observados. A dicho gráfico se le llama nube de puntos o diagrama de dispersión. Ejemplos de casos que podrían darse:
En a) hay ausencia de relación (independencia).
En b) existe asociación lineal positiva (varían en general en el mismo sentido). En c) existe asociación lineal negativa (varían en sentido contrario). En d) existe fuerte asociación, pero no lineal. Variable dependiente (y): Es la variable que representa el proceso que intenta predecir o entender (robo residencial, ejecución hipotecaria, precipitaciones). En la ecuación de regresión, aparece en el lado izquierdo del signo igual. Mientras pueda utilizar la regresión para prever la variable dependiente, siempre comience con un grupo de valores y conocidos y utilícelos para crear (o para calibrar) el modelo de regresión. Los valores y conocidos a veces se denominan valores observados. Variables independientes/explicativas (X): son las variables utilizadas para modelar o predecir los valores de la variable dependiente. En la ecuación de regresión, aparecen en el lado derecho del signo igual y a veces se denominan variables explicativas. La variable dependiente es una función de las variables explicativas. Si le interesa prever las compras anuales de una tienda propuesta, puede incluir en su modelo variables explicativas que representen la cantidad de clientes potenciales, la distancia a la competencia, la visibilidad de la tienda y los patrones de gastos locales, por ejemplo. Coeficientes de regresión (β): Coeficientes que calcula la herramienta de regresión. Son valores, uno para cada variable explicativa, que representan la fortaleza y el tipo de relación que tiene la variable explicativa con la variable dependiente. Supongamos que modela la frecuencia de incendios como una función de la radiación solar, la vegetación, las precipitaciones y el aspecto. Puede esperar una relación positiva entre la frecuencia de incendios y la radiación solar (en otras palabras, cuanto más sol haya, más frecuentes serán los incidentes de incendio). Cuando la relación es positiva, el signo del coeficiente asociado también es positivo. Puede esperar una relación negativa entre la frecuencia de incendios y las precipitaciones (en otras palabras, los lugares con más lluvias tienen menos incendios). Los coeficientes de las relaciones negativas tienen signos negativos. Cuando la relación es una relación sólida, el coeficiente es relativamente grande (relativo a las unidades de la variable explicativa con la que se asocia). Las relaciones débiles se asocian con coeficientes cercanos a cero; β0 es la intercepción de regresión. Representa el valor esperado para la variable dependiente si todas las variables independientes (explicativas) son cero. Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad, llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que haya razones teóricas fuertes para mantenerlos. R 2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido un error; quizás utilizó una forma de y para prever y). El más probable es que verá valores R cuadrado como 0,49, por ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del rendimiento del modelo. Residuales: Son la parte sin explicar de la variable dependiente, representada en la ecuación de regresión como el término de error aleatorio ε. Ver una ilustración. Los valores conocidos de la variable dependiente se utilizan para crear y calibrar el modelo de regresión. Al utilizar valores conocidos para la variable dependiente (y) y valores conocidos para todas las variables explicativas (las X), la herramienta de regresión construye una ecuación que preverá esos valores y conocidos y posibles. Sin embargo, los valores previstos raramente coinciden exactamente con los valores observados. La diferencia entre los valores y observados y los valores y previstos se llama residual. La magnitud de los residuales de una ecuación de regresión es una medida del ajuste del modelo. Los grandes residuales indican un ajuste del modelo pobre. Regresión lineal múltiple La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una variable dependiente y más de una variables independientes. En este tipo de modelos es importante testar la heterocedasticidad, la multicolinealidad y la especificación. En este curso trataremos de introducirnos en el mundo de la modelización, con creación de dummies, configurando un individuo de referencia, factores de ponderación, variables de interacción, interrelación, etc. Es particularmente importante entender lo que se está haciendo en cada momento porque estos principios sirven para prácticamente todos los modelos
a) Linealidad: los valores de la variable dependiente están generados por el siguiente
modelo lineal: Y = X * B +U b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: 2 V (ui) = σ c) Independencia: las perturbaciones aleatorias son independientes entre sí: E u u i j ( i ⋅ j) = 0,∀ ≠ d) Normalidad: la distribución de la perturbación aleatoria tiene distribución normal: (0, ) 2 U≈Nσ e) Las variables explicativas Xk se obtienen sin errores de medida. http://desktop.arcgis.com/es/arcmap/10.3/tools/spatial- statistics-toolbox/regression-analysis-basics.htm http://www4.ujaen.es/~dmontoro/Metodos/Tema%209.pdf http://wpd.ugr.es/~bioestad/guia-de-r/practica-3/ http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriale s/PDF/Regresion_lineal_multiple_3.pdf