Está en la página 1de 5

INTRODUCCIN A LA ESTADSTICA

Departamento de Mtodos Cuantitativos e Informticos

Prctica n 3 REGRESIN Y CORRELACIN


1. Objetivos: a) Distinguir si las variables de una distribucin bidimensional tienen una relacin de carcter aleatorio o funcional. b) Estimar e interpretar el coeficiente de determinacin a partir de una nube de puntos. c) Determinar la funcin que mejor explica una nube de puntos usando el ajuste mnimo cuadrtico. d) Realizar predicciones de una variable conocido un valor de la otra. 2. Presentacin de los Datos: el archivo datos-regresion.xls Los datos con los que se trabajar en esta prctica hacen referencia a: a) Hoja 1 : Inversin en I+D y beneficios en una muestra de 16 empresas. b) Hoja 2 : Renta mensual disponible y gasto en espectculos. c) Hoja 3 : Relacin entre la renta anual del sector familias y el volumen de ahorro. 2. Introduccin a Regresin y Correlacin: La regresin tiene por objeto poner de manifiesto, a partir de la informacin de que se disponga, la estructura de dependencia que mejor explique el comportamiento de la variable Y ( variable dependiente o explicada) a travs de todo el conjunto de variables X1, X2,...,Xn (variables independientes o explicativas) con las que se supone que est relacionada. La correlacin se encarga del estudio del grado de dependencia mutua entre las variables. El problema, pues, que se plantea ahora, es la medicin de la intensidad con que dos variables pueden estar relacionadas. Para ello vamos a utilizar el coeficiente de determinacin R2. Segn su valor puede ocurrir: a) Si R = 1. Todos los valores tericos coinciden con los observados, es decir, los puntos de la nube estn todos en la funcin y, por tanto, la dependencia es funcional. Se dice que hay correlacin perfecta positiva. b) Si R = -1. Tambin habr dependencia funcional siendo en este caso la correlacin perfecta negativa. c) Si R=0. No se consigue ninguna explicacin de la variable Y relacionndola con la X, luego no estn asociadas. La correlacin es nula. d) Para 1 < R < 0, la correlacin ser negativa, siendo ms intensa cuanto ms prxima est R a 1. e) Para 0< R < 1, la correlacin ser positiva, siendo ms intensa cuanto ms prxima est R a 1. Esquemticamente podemos expresar la regresin y correlacin de la siguiente forma:

INTRODUCCIN A LA ESTADSTICA
Departamento de Mtodos Cuantitativos e Informticos

Prctica n 3 REGRESIN Y CORRELACIN


DISTRIBUCIONES BIDMENSIONALES

COVARIANZA

CALCULO PARMETROS

NUBE PUNTOS

REGRESIN ( ajuste mnimo curadrtico)

CORRELACIN

LINEAL

PARABLICA

HIPERBLICA

EXPONENCIAL

COEF. DETERMINACIN

VARIANZA RESIDUAL

COEF. REGRESIN

3. Variables estadsticas bidimensionales : Son las que obtenemos al estudiar cualquier fenmeno respecto a dos caractersticas ; por ejemplo, estatura y peso de los alumnos de una clase. 3.1. Nube de puntos: Es la grfica que obtenemos al representar una distribucin bidimensional. Cada punto tiene por coordenadas el par de valores que toman las variables. 3.2. Procedimiento para representar una nube de puntos y la curva de regresin que mejor se ajusta a los datos mediante EXCEL: Seleccionamos el rango de datos y hacemos clic en el botn Asistente para grficos. Paso 1: Tipo de grfico XY(dispersin).Subtipo : compara pares de valores. Paso 2 : Datos de origen: hacemos clic en siguiente ( los datos ya los hemos seleccionado) Paso 3 : Opciones de grfico: rellenamos los Ttulos y desactivamos la ficha leyenda. Paso 4: Ubicacin del grfico: elegimos en la misma hoja EJEMPLO: Horas Piezas y = 0,8673x + 16,926 Produccin de piezas 2 40 50 R = 0,5357 41 52 56 42 51 55 54 39 52 53 40 53 52 38 49 51 42 55 50 43 54 49 48 38 50 37 38 39 40 41 42 43 44 39 50 n horas 40 52 41 54 Paso 5: Clic sobre el grfico + Men Grfico + Agregar lnea de tendencia. Paso 6 : Seleccionar tipo ( lineal, logartmica, polinomial, potencial o exponencial) Paso 7 : En opciones seleccionar presentar ecuacin en el grfico + presentar R2.
n piezas

INTRODUCCIN A LA ESTADSTICA
Departamento de Mtodos Cuantitativos e Informticos

Prctica n 3 REGRESIN Y CORRELACIN


4. Parmetros marginales a) Medias marginales: son las medias de cada una de las variables X e Y. En EXCEL se utiliza la funcin = PROMEDIO ( rango) b) Centro de gravedad: es el punto cuyas coordenadas son las medias marginales. c) Desviaciones tpicas marginales: son las desviaciones de cada una de las variables X e Y. En EXCEL se utiliza la funcin = VARP( rango) 5. Covarianza: se calcula mediante la frmula:

S XY =

(x
i j

x y j y n ij N =

)(

x y
i i j

n ij XY

En EXCEL se utiliza la funcin = COVAR ( rango). La covarianza segn sea positiva o negativa nos indica: a) Covarianza positiva: las variables se relacionan de forma directa, es decir,al aumentar los valores de la variable X, aumentan los de la variable Y. La nube de punto se orienta a la derecha y hacia arriba. b) Covarianza negativa: : las variables se relacionan de forma inversa, es decir, al aumentar los valores de la variable X, disminuyen los de la variable Y. La nube de punto se orienta a la derecha y hacia abajo. 6. Correlacin: es la relacin que existe entre las dos variables que intervienen en una variable bidimensional. 6.1.Tipos de correlacin: a) Correlacin funcional: cuando todos los puntos estn situados sobre la funcin (R2 =1). b) Correlacin directa: al aumentar una variable tambin aumenta la otra (R >0). c) Correlacin inversa: al aumentar una variable disminuye la otra ( R < 0 ). d) Correlacin nula: no existe relacin entre las variables ( R = 0). 6.2. Coeficiente de determinacin = R2: Nos indica el grado de aproximacin de los puntos de la nube a la funcin ajustada por el mtodo de los mnimos cuadrados. 6.3. Propiedades del coeficiente de determinacin = R2: R toma valores comprendidos entre 1 y 1 considerndose que existe una buena correlacin entre las variables cuando | R | > 0.75. Adems: a) Si R = -1 o R = 1, la relacin es perfecta. Existe dependencia funcional. b) Si R est prximo a 1 1 la correlacin es fuerte. c) Si R est prximo a cero la correlacin es dbil. d) Si R > 0 la correlacin es positiva o directa. e) Si R < 0 la correlacin es negativa o inversa. 7. Ajuste por mnimos cuadrados a una recta.
3

INTRODUCCIN A LA ESTADSTICA
Departamento de Mtodos Cuantitativos e Informticos

Prctica n 3 REGRESIN Y CORRELACIN


7.1. Recta de regresin: es la recta que mejor se ajusta a la nube de puntos, y pasa siempre por el centro de gravedad. Hay dos rectas de regresin: Recta de Y sobre X = Y|X : y = a + bx
a =Y b= S XY S2X S XY S
2 X

siendo

Recta de X sobre Y = X|Y : x = c +d y


c=X d= S XY S 2Y S XY S
2 Y

siendo

7.2. Propiedades de la recta de regresin: a) Las rectas de regresin pasan siempre por el centro de gravedad = X , Y b) El coeficiente de determinacin R = r = coeficiente de correlacin lineal c) SIGNO ( b ) = SIGNO ( d ) = SIGNO ( r ) = SIGNO ( SXY ) d) r = b d , en EXCEL se calcula con la funcin = COEF.DE.CORREL(rango) 1 e) | b = PENDIENTE ( Y|X) | | PENDIENTE ( X |Y) = | d 8. Otros ajustes: 1 a) Ajuste hiperblico : y = a + b x b) Ajuste potencial : y = a xb c) Ajuste exponencial : y = a ebx d) Ajuste parablico: y = a + bx + c x2

9. Procedimiento para representar la curva de regresin que mejor se ajusta a los datos usando EXCEL: Paso 1: Representamos la nube de puntos Paso 2: Clic sobre un punto + Botn derecho ratn + Agregar lnea de tendencia. Paso 3 : Seleccionar tipo ( lineal, logartmica, polinomial, potencial o exponencial) Paso 4 : En opciones seleccionar presentar ecuacin en el grfico + presentar R2. 10. Prediccin de resultados Despus de trazar la curva de regresin, podemos predecir lo que ocurre a un valor de la variable X que no se encuentra en la nube de puntos. Para ello, bastar con averiguar el valor de la variable Y utilizando la frmula de la curva de regresin.

INTRODUCCIN A LA ESTADSTICA
Departamento de Mtodos Cuantitativos e Informticos

Prctica n 3 REGRESIN Y CORRELACIN


11. Caso prctico 11.1. Inversin en I+D y beneficios obtenidos: A partir de las observaciones recogidas en la Hoja1 del archivo datos-regresion.xls , correspondientes a la inversin en I+D y los beneficios obtenidos en una muestra de 16 empresas, ambos en miles de euros. Se pide: a) El centro de gravedad b) La covarianza c) Representar la nube de puntos d) Halla y representa la curva de regresin que mejor se ajusta a los datos e) Interpreta los resultados obtenidos en la covarianza y el coeficiente de determinacin f) Qu beneficio cabe esperar para una empresa que ha invertido 18000 en I+D? g) Cunto tendr que invertir una empresa en I+D para obtener un beneficio de 160.000? 11.2. Renta mensual disponible y gasto en espectculos: Se est realizando un estudio sobre la relacin existente entre la renta mensual disponible(X), y el gasto en espectculos (Y), ambos en euros. Se dispone de la informacin recogida en la Hoja2 del archivo datos-regresion.xls. a) Obtener la curva de regresin ( lineal, hiperblica, potencial, exponencial o parablica) que mejor explica el gasto en espectculos en funcin de la renta mensual. b) Interpreta el coeficiente de determinacin obtenido en cada caso. c) Hacer una prediccin del gasto en espectculos para una familia con unos ingresos mensuales de 4230. 11.3. Relacin entre la renta anual del sector familias (X) y el volumen de ahorro (Y), en miles de euros: Abre datos correspondientes a la Hoja3 del archivo datos-regresion.xls. a) Ajustar un modelo lineal que explique el comportamiento del ahorro en funcin de la renta. b) Ajustar un modelo parablico. c) Qu ajuste es mejor?

También podría gustarte