Indice Introduccion. ................................................................................................................. 3 Analisis de Regresion. .................................................................................................. 4 Regresion Lineal Simple .............................................................................................. 5 Suposiciones de la regresin lineal .............................................................................. 5 Sumas de cuadrados y productos de X e Y. ................................................................ 6 Estimacin de parmetros ........................................................................................... 6 Fuentes de variacin en la regresin lineal .................................................................. 8 Anlisis de Variancia para la regresin lineal simple ................................................... 9 Intervalos de Confianza ............................................................................................. 11 Prueba de Hipotesis ................................................................................................... 12 Analisis de Correlacion .............................................................................................. 14 Coeficiente de correlacion Lineal Simple ( r).............................................................. 14 Coeficiente de Determinacion (R) ............................................................................. 15 Bibliografia. ................................................................................................................. 17
3
Introduccion. El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas), y el anlisis de correlacin, el grado de asociacin de las mismas. Es decir; no slo se busca una funcin matemtica que exprese de que manera se realcionan, sino tambin con que presicin se puede predecir el valor de una de ellas si se conoce los valores de las variables asociadas.
4
Analisis de Regresion. Una relacion funcional matemticamente hablando, est dada por: Y = f(x1,...,xn; 1,...,m) Donde: Y : Variable respuesta (o dependiente) xi : La i-sima variable independiente (i=1,..,n) j : El j-simo parmetro en la funcin (j=1,..,m) f : La funcin Para elegir una relacin funcional particular como la representativa de la poblacin bajo investigacin, usualmente se procede: 1) Una consideracin analtica del fenmeno que nos ocupa, y 2) Un examen de diagramas de dispersin. Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa nuestro concepto de la relacin exacta que existe entre las variables) se presenta el problema de elegir una expresin particular de esta familia de funciones; es decir, se ha postulado una cierta funcin como trmino del verdadero estado en la poblacin y ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas).
5
Como los valores de los parmetros no se pueden determinar sin errores por que los valores observados de la variable dependiente no concuerdan con los valores esperados, entonces la ecuacin general replanteada, estadsticamente, sera: Y = f(x1,...xn;1,...,m) + Donde respresenta el error cometido en el intento de observar la caracterstica en estudio, en la cual muchos factores contribuyen al valor que asume . Regresion Lineal Simple Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin: Y = o + 1X + Donde: o : El valor de la ordenada donde la lnea de regresin se intersecta al eje Y. 1 : El coeficiente de regresin poblacional (pendiente de la lnea recta) : El error. Suposiciones de la regresin lineal 1. Los valores de la variable independiente X son "fijos". 2. La variable X se mide sin error (se desprecia el error de medicin en X) 3. Existe una subpoblacion de valores Y normalmente distribuido para cada valor de X. 4. Las variancias de las subpoblaciones de Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta. 6
6. Los valores de Y estn nomalmente distribuidos y son estadsticamente independientes. Los supuestos del 3 al 6 equivalen a decir que los errores son aleatorios, que se distribuyen normalmente con media cero y variancia . Terminologia: Promedios
Sumas de cuadrados y productos de X e Y.
SCY tambien corresponde a la suma de cuadrados total =SC total Estimacin de parmetros La funcin de regresin lineal simple es expresado como: Y = o + 1X + La estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de los datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra, que represente a o y 1, respectivamente. 7
Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de bo y b1, as:
b0 : es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0; b1 : es el valor que representa (estimador) a 1. Sus desviaciones estandares respectivas son:
Luego, la ecuacin de regresin es: y =bo +b1X El coeficiente de regresin (b1) .- pendiente de la recta de regresin, representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. 8
Si b1=0, se dice que no existe relacin lineal entre las dos variables.
Fuentes de variacin en la regresin lineal Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de cuadrados; as, grficamente se tiene:
9
Se observa que la desviacin total para un Yi en particular es igual a la suma de las desviaciones explicada e inexplicada, simbolicamente. Luego:
SC total =SC regresion + SC residual Suma de Cuadrados del Total (SCT), mide la dispersin (variacin total) en los valores observados de Y. Este trmino se utiliza para el clculo de la variancia de la muestra. Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresin, SCR) mide la variabilidad total en los valores observados de Y en consideracin a la relacin lineal entre X e Y. Suma de Cuadrados residual (inexplicada, Suma de Cuadrados del Error, SCE) mide la dispersin de los valores Y observados respecto a la recta de regresin Y (es la cantidad que se minimiza cuando se obtiene la recta de regresin). Anlisis de Variancia para la regresin lineal simple Cuando cada particin se asocia a una porcin correspondiente del total de grados de libertad, la tcnica es conocida cono analisis de variancia (ANVA), que generalmente se presenta en un cuadro de la siguiente forma: 10
La prueba estadstica F evalua las hiptesis: Hp: 1 =0. No existe una regresin lineal entre X e Y. Ha: 1 0. Existe regresion lineal de Y en funcin de X. Para el ejemplo del grafico (ao base 1990 = 0)
Modelo de regresion estimado: Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X X = El periodo. R = (49223 / 105526) *100% = 46% Intercepto = 467,42 Tasa = 24,42 11
Significa que el crecimiento anual es de 24 mil metros cubicos.
Intervalos de Confianza Intervalos de confianza para 1 (tasa) En muchos casos es de inters conocer entre que valores se encuentra el coeficiente de regresin de la poblacin 1 para un cierto grado de confianza fijada, este procedimiento permite hallar los valores llamados lmites de confianza, as: b1 - t0 Sb1 1 b1 + to Sb1 Donde: t0 es el valor "t" tabular al nivel de significacin y n-2 grados de libertad ( t0 = t,n-2). t 0.05, 8 =2,30; SC X =82.5; Sb1 =9,23 Limite Inferior = 24,42 2,30 (9,23) = 3.12 Limite Superior = 24,42 + 2,30 (9,23) = 45,72 Con estos resultados se puede afirmar al 95% de confianza que la tasa de crecimiento en madera aserrada es positiva y por lo menos se tendra un crecimiento de 3 mil metros cubicos por ao. En funcin del modelo se puede hacer estimaciones para los siguientes aos:
12
Estas proyecciones son puntuales, en base al modelo; para ao 2000, X=10, resulta una produccin de 711 mil m3 de madera aserrada. Para obtener limites de confianza para estos valores predecidos, se debe determinar sus desviaciones estandar correspondiente; utilice la siguiente formula:
Limites : Valor Predicho (t0.05,n-2 ) (S_predicho) Para el 2002, los limites de confianza son: Limite Inferior = 760,55 2,30 (111,98) = 502 Limite Superior = 760,55 + 2,30 (111,98) = 1018 Esta informacin significa que para el ao 2002, se estima una produccion de madera aserrada entre 502 a 1018 miles de m3. Prueba de Hipotesis Se plantea los siguientes casos: a) Cuando 1 =0; es decir, si la variable Y no esta relacionada linealmente con la variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y va una prueba F comparar el valor de F calculado (Fc) con el valor F tabular (Fo), donde Fc=CMR/CME y Fo=F(1,n-2)gl. Si Fc>Fo, se rechaza la hipteis planteada, esto supone un valor 1 distinto de cero y se concluye que Y se puede expresar en terminos de X linealmente. 13
b) Cuando 1 tiene un valor especfico distinto de cero 10; es decir, Hp: 1=10. En este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El valor t calculado es hallado mediante la expresin: tc =(b1-10)/Sb1 Si tc > t se rechaza la hiptesis planteada, donde t es el valor de la tabla al nivel y n-2 gl. Para el ejemplo planteado, se rechaza la hipotesis planteada, esto significa que existe una relacin lineal significativa del tiempo y la produccin de madera aserrada total.
14
Analisis de Correlacion El anlisis de correlacin emplea mtodos para medir la significacin del grado o intensidad de asociacin entre dos o ms variables. El concepto de correlacin est estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de regresin sea razonable los puntos muestrales deben estar ceidos a la ecuacin de regresin; adems el coeficiente de correlacin debe ser: - Grande cuando el grado de asociacin es alto (cerca de +1 o -1, y pequeo cuando es bajo, cerca de cero). - Independiente de las unidades en que se miden las variables. Coeficiente de correlacion Lineal Simple ( r). Es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y. Su valor vara entre -1 y +1; esto es: -1 r 1. Si r = -1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le corresponde valores bajos a la otra variable, y viceversa. Si r=+1, tambin la asociacin es perfecta pero directa. Si r=0, no existe asociacin entre las dos variables. Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y cuando se aproxima a cero la asociacin disminuye o desaparece. El coeficiente de correlacin est dada por: 15
Para los datos de la produccin de madera aserrada total entre los aos 1990 a 1999, existe una asociacin de 0.68.
Coeficiente de Determinacion (R) Mide el porcentaje de variacin en la variable respuesta, explicada por la variable independiente. De la descomposicin de la suma de cuadrados total, se obtuvo: SCT =SCR +SCE SCR = Suma de cuadrados de la regresin. SCE = Suma de cuadrados residual (error). dividiendo ambos miembros por la SCT, se tiene: 1 =SCR/SCT +SCE/SCT De este resultado, se define el coeficiente de determinacion como: R =1 - SCE/SCT =SCR/SCT R =SC regresion / SC total 16
Como SCR SCT, se deduce que 0 R 1. Interpretacin de R: Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje de la variacin total explicada por la regresin. R es un valor positivo, expresado en porcentaje es menor de 100. Tambien, se puede obtener el R ajustado que es la relacion entre cuadrados medios, asi: R ajustado =1 CME / CM Total; Este valor podria ser negativo en algunos casos. Lo que se espera que ambos R, resulten similares, para dar una confianza al coeficiente de determinacin. Para el ejemplo, resulta: R ajustado =1 70378 / (105526 / 9 ) =0,39 y R =1 56302,7 / 105525,86 =0,46
17
Bibliografia. [1] F. d. Menduburu. [Online]. Available: http://tarwi.lamolina.edu.pe/~fmendiburu/index- filer/academic/metodos1/Regresion.pdf.