Está en la página 1de 8
UNIDAD III: CORRELACION Y REGRESION LINEAL SIMPLE El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.” • Regresión a la media Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable). Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: • Altura del hijo = 85cm + 0,5 altura del padre (aprox.) Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra. COVARIANZA Y CORRELACION LINEAL La covarianza es una medida de la variabilidad conjunta de X y de Y. Es una medida de asociación entre los valores de X y de Y y de sus respectivas dispersiones. ∑  X n COV ( X , Y ) = i =1 i − −   − X   Yi − Y    n La covarianza entre dos variables, COV(X,Y), nos indica si la posible relación entre dos variables es directa o inversa. • • • Directa: COV(X,Y) >0 Inversa: COV(X,Y) <0 No correlacionada: COV(X,Y) =0 El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables. ESTADISTICAS II: CPA ________________________________________________________________________________________________ Si la covarianza de X y de Y se divide por el producto de las desviaciones estándar de X y de Y, el resultado es una cantidad sin dimensión llamado Coeficiente de Correlación y se denota por r ( X ,Y ) : r ( X ,Y ) = Cov( X , Y ) S X SY • El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). • tiene el mismo signo que COV(X,Y) por tanto de su signo obtenemos el que la posible relación sea directa o inversa. • r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...) PROPIEDADES DEL COEFICIENTE DE CORRELACION • • • • • Es adimensional Sólo toma valores en [-1,1] Las variables son no correlacionadas r=0 Relación lineal perfecta entre dos variables r = +1 o r = -1 Excluimos los casos de puntos alineados horizontal o verticalmente. Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. Siempre que no existan observaciones anómalas. CORRELACIONES POSITIVAS 330 130 280 110 230 90 180 70 130 50 80 r=0,1 r=0,4 30 110 30 140 150 160 170 180 190 200 100 140 150 160 170 180 190 200 90 90 80 70 70 60 50 50 40 r=0,6 30 r=0,8 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 ________________________________________________________________________________________________ 2 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ 110 110 90 90 70 70 50 50 r=0,9 30 140 150 160 170 180 190 r=1 30 200 140 150 160 170 180 190 200 CORRELACIONES NEGATIVAS 80 80 60 60 40 40 20 20 r=-0,5 0 140 150 r=-0,7 0 160 170 180 190 200 140 80 80 60 60 40 40 160 170 180 170 180 190 200 20 20 0 150 0 r=-0,999 r=-0,95 140 150 160 170 180 190 140 200 150 160 190 200 EJEMPLO La siguiente información muestra el puntaje obtenido (de un total de 10) en dos pruebas de matemáticas. 1ª prueba 2ª prueba 6 8 5 7 8 7 8 10 7 5 6 8 10 10 4 6 9 8 7 6 a) Graficar b) Calcule e interprete el coeficiente de correlación. ________________________________________________________________________________________________ 3 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ REGRESION LINEAL SIMPLE El análisis de regresión sirve para predecir una medida en función de otra medida (o varias). Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre otra variable Y. o Y = Variable dependiente, predicha, explicada o X = Variable independiente, predictora, explicativa o ¿Es posible descubrir una relación? • • Y = f ( x ) + error f es una función de un tipo determinado el error es aleatorio, pequeño, y no depende de X La regresión lineal simple determina una línea recta o ecuación matemática lineal que describe la relación entre dos variables. En la etapa inicial del análisis de datos es importante graficarlos para darnos una idea de la relación que tienen. Al realizar un diagrama de dispersión se observa un conjunto de puntos que están más o menos sobre una recta. 16 14 12 10 8 6 4 2 0 0 5 10 15 Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante: Ŷ = a + bX a (ordenada en el origen, constante) b (pendiente de la recta) Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad ________________________________________________________________________________________________ 4 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ e = Y − Yˆ se le denomina residuo o error residual. En el ejemplo de Pearson y las alturas, él encontró: Yˆ = a + bX • • a =85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm) b = 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.) Interpretación de la ecuación de regresión ∧ Y = a + bX ∧ A un valor X = 0 corresponde Y = a , “ a ” es la predicción de Y cuando la variable independiente toma el valor 0. “b” es la pendiente de la recta, nos indica el número de unidades que cambia Y por cada unidad de cambio de X. EJEMPLO El ingreso anual disponible (X) y los gastos de consumo (Y) de 12 familias, seleccionadas aleatoriamente, en cierta ciudad, han sido en miles de euros los siguientes: Gastos de 7 consumo Ingreso anual 8 disponible 12 18 30 20 24 8 11 8 6 10 18 15 20 35 28 25 8 13 7 6 12 15 ________________________________________________________________________________________________ 5 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ a) b) c) d) Ajuste una recta de regresión en la que el consumo sea función de los ingresos. Interprete los coeficientes del modelo. ¿Cuál es el consumo esperado para una familia con un ingreso de 15 mil euros? Encuentre e interprete el coeficiente de correlación. HIPÓTESIS DEL MODELO DE REGRESIÓN LINEAL SIMPLE 1.- Linealidad: La relación existente entre X e Y es lineal, f (x) = a + bx 2.- Homogeneidad: El valor promedio del error es cero, E ei  = 0 3.- Homocedasticidad: La varianza de los errores es constante, Var ( ei ) = σ2 4.- Independencia: Las observaciones son independientes, E  ei e j  = 0 5.- Normalidad: Los errores siguen una distribución normal, ei ∼ N ( 0 ,σ 2 ) BONDAD DE AJUSTE • La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2 • R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1] • Cuando un ajuste es bueno, R2 será cercano a uno. • Cuando un ajuste es malo R2 será cercano a cero. • A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión. • R2 puede ser pesado de calcular en modelos de regresión general, pero en el modelo lineal simple, la expresión es de lo más sencilla: R2= r2 ________________________________________________________________________________________________ 6 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ GUIA DE EJERCICIOS Nº3: REGRESION LINEAL SIMPLE Y CORRELACION LINEAL 1.- Se realizó un estudio para determinar los efectos de no dormir en la capacidad de las personas para resolver problemas sencillos. La cantidad variaba de 8, 12, 16, 20 ó 24 horas sin dormir. Diez personas participaron en el estudio, dos para cada nivel de horas sin dormir. Se dieron a cada persona, después de un periodo específico sin dormir, un conjunto de problemas sencillos de sumar y se registró el número de errores. Se obtuvieron los siguientes resultados: Nº horas sin dormir 8 Nº de errores 8 8 6 12 7 12 10 16 8 16 13 20 15 20 14 24 16 24 14 a) Graficar b) Calcule e interprete el coeficiente de correlación. 2.- En un grupo de investigación se estableció una escala del grado de violencia en programas de TV, para lo cual se calificó 10 programas y recopilaron datos sobre el porcentaje de tele espectadores de cada uno de ellos. Programa Grado de Violencia Porcentaje de telespectadores 1 10 15 2 20 16 3 30 20 4 40 24 5 40 25 6 50 30 7 55 30 8 65 35 9 70 35 10 70 35 a) Encuentre la recta de regresión lineal referente al porcentaje de teleespectadores potencial, en términos del coeficiente de violencia. b) Interprete la pendiente de la recta. c) Si un programa es calificado con grado de violencia de 45 ¿Qué porcentaje de teleespectadores esperaría? d) Calcule e interprete el coeficiente de determinación. e) Calcule e interprete el coeficiente de correlación. 3.- Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de áreas de ventas respecto de los ingresos mensuales. Tienda A Ingreso 45 Mensual Metros 55 Cuadrados B C D E F G H I J K L M N O 115 120 95 75 170 110 140 130 75 80 105 200 95 60 200 180 110 90 260 140 215 200 85 90 180 300 130 80 a) Encontrar la recta de regresión lineal simple b) ¿Cuál es el valor estimado del ingreso mensual si la tienda tiene 100 metros cuadrado? c) Calcule e interprete el coeficiente de correlación. ________________________________________________________________________________________________ 7 . ESTADISTICAS II: CPA ________________________________________________________________________________________________ 4.- La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad. Para ello ha recogido datos del volumen de ventas y del gasto en publicidad referidos a los años noventa y expresados en millones de pesos. Año 90 Ventas 50 Gastos 10 91 100 15 92 150 18 93 200 20 94 200 25 95 300 35 96 400 50 97 500 60 98 650 65 99 700 70 a) Especifique y estime el modelo lineal que explique las ventas de la empresa en función de la inversión publicitaria. Interpretar los parámetros estimados. b) En el año 2003 la empresa a invertir 120 millones en publicidad. Calcular el volumen de ventas esperado. d) Calcule e interprete el coeficiente de correlación. e) Calcule e interprete el coeficiente de determinación 5.- Para analizar la concentración de una solución (Y) a lo largo del tiempo (X), un químico preparo 15 soluciones idénticas. Las 15 soluciones fueron divididas aleatoriamente en 5 grupos de 3 cada uno, y los 5 grupos fueron comprobados después de 1,3,5,7,9 horas, respectivamente, obteniéndose las siguientes concentraciones. X 9 Y 0.0 7 9 0.0 9 9 0.0 8 7 0.1 6 7 0.1 7 7 0.2 1 5 0.4 9 5 0.5 8 5 0.5 3 3 1.2 2 3 1.1 5 3 1.0 7 1 2.8 4 1 2.5 7 1 3.1 0 Ajuste una función de regresión lineal a los datos. Interprete los resultados. 6.- El representante de una conocida marca de equipos de servidores de redes computacionales, desea proyectar sus ventas mensuales para el próximo año. Una relación importante que se ha observado es entre el número de presupuestos que le solicitan y el número de unidades vendidas cada mes. El comportamiento de estas variables ha sido el siguiente: Mes Nº P U. V a) b) c) d) e) f) Ene 14 23 Feb 6 10 Mar 16 22 Abr 18 25 May 24 32 Jun 22 31 Jul 37 39 Ago 32 42 Sep 30 41 Oct 33 47 Nov 37 54 Dic 34 47 Identifique variables Calcule la covarianza e interprete su signo. Obtenga la ecuación de la recta de regresión. Interprete los parámetros de la recta de regresión. Calcule e interprete R2 Estime las unidades vendidas en un mes si le solicitan 50 presupuestos. ________________________________________________________________________________________________ 8 .