Documentos de Académico
Documentos de Profesional
Documentos de Cultura
II SEMESTRE
2012
INTRODUCCIN
En anlisis de regresin lineal o ajuste lineal es una tcnica de estadstica utilizada para estudiar la relacin entre variables. Se adapta a una amplia variedad de situaciones. En la investigacin social, el anlisis de regresin se utiliza para predecir un amplio rango de fenmenos, desde medidas econmicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigacin de mercados puede utilizarse para determinar en cul diferentes medios de comunicacin puede resultar ms eficaz invertir; o para predecir el nmero de ventas de un determinado producto. En fsica se utiliza para caracterizar la relacin entre variables o para calibrar medidas, etc. Tanto en el caso de dos variables (regresin simple) como en el de ms de dos variables (regresin mltiple), el anlisis de regresin lineal puede utilizar para explorar y cuantificar la relacin entre una variable llamada dependiente o criterio (Y) y una o ms variables llamadas independientes o predictoras (X1, X2,, Xk), as como para desarrollar una ecuacin lineal con fines predictivos. Adems el anlisis de regresin lleva asociados una serie de procedimientos de diagnstico que informan sobre la estabilidad e idoneidad del anlisis y que proporcionan pistas sobre cmo perfeccionarlo.
NDICE
INTRODUCCIN MTODOS DE REGRESIN 1. 2. 3. 4. PAG
MTODOS DE REGRESIN
REGRESIN LINEAL
Ejemplo de una regresin lineal con una variable dependiente y una variable independiente. En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:
: Variable dependiente, explicada o regresando. : Variables explicativas, independientes o regresores. : Parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. Donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada
variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal. El Modelo De Regresin Lineal El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros desconocidos:
donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta:
El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en
Los valores
Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad Para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada torno a su valor esperado es siempre la misma. 3. Incorrelacin. en
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificacin en el modelo ni errores de medida en las variables explicativas 7. Normalidad de las perturbaciones Supuestos Del Modelo De Regresin Lineal Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos: 1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s.
3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores.
Tipos de modelos de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma Donde modo que Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: es el error asociado a la medicin del valor y y siguen los supuestos de con ).
Derivando respecto a
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:
es el error asociado a la medicin del valor (media cero, varianza constante e igual a un y
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.
REGRESIN POLINOMIAL: Algunas veces cuando la relacin entre las variables dependientes e independientes es no lineal, es til incluir trminos polinomiales para ayudar a explicar la variacin de nuestra variable dependiente. Las regresiones polinomiales se pueden ajustar la variable independiente con varios trminos
Ejemplo x Y xy x2 y2 x2y x3 x4
1.2
3.4 4.08
1.44
11.56
4.896
1.728
2.0736
1.5
7.5
2.25
25
11.25
3.375
5.0625
16
4.1 12.3
16.81
36.9
27
81
3.7
18.5
13.69
25
68.45
50.653
187.4161
28
16
49
112
64
256
4.5
6.5 29.25
20.25
42.25
131.625
91.125
410.0625
20.9 36 106.63 67.63 182.62 376.121 246.881 958.6147 Usando una Matriz para calcular valores de los coeficientes
REGRESIN EXPONENCIAL En determinados experimentos, en su mayora biolgicos, la dependencia entre las variables X e Y es de forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una funcin del tipo:
Mediante una transformacin lineal, tomando logaritmos neperianos, se convierte el problema en una cuestin de regresin lineal. Es decir, tomando logaritmos neperianos: Ejemplo x y In y x2 x Iny In y2
1,0986
1,0986
1,2069
1,2
3,4 1,2237
1,44
1,4684
1,4974
1,5
1,6094
2,25
2,4141
2,5901
0,6931
1,3862
0,4803
4,1 1,4109
4,2327
1,9906
3,7
1,6094
13,69
5,9547
2,5901
1,9459
16
7,7836
3,7865
4,5
6,5 1,8718
20,25
8,4231
3,5056
x promedio =
= 2,6125
y promedio =
= 1,43285
b=
= 0,216047
Regresin exponencial mediante el principio de los mnimos cuadrados Fue Francis Galton (1822-1911) quien utiliz por primera vez el trmino regresin para indicar que, aunque influida por la estatura de sus padres, la estatura de los hijos "regresaba" a la media general. La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con el objeto de estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la regresin es un mtodo que se emplea para predecir el valor de una variable en funcin de valores dados a la otra variable. En todos los casos de regresin existe una dependencia funcional entre las variables. En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de regresin de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresin de la altura de los rboles sobre su dimetro, lo cual significa que midiendo el dimetro (variable independiente) y reemplazando su valor en una relacin definida segn la clase de rbol se obtiene la altura, y aun sin necesidad de clculos aprecian la altura utilizando grficas de la funcin de dependencia, altura = funcin del dimetro. Cuando la curva de regresin de y sobre x es exponencial, es decir para cualquier x considerada, la media de la distribucin est dada por la siguiente ecuacin predictora:
Ejemplo ilustrativo: Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por cierto fabricante que an pueden usarse despus de recorrer cierto nmero de millas: Miles de Millas recorridas (X) Porcentaje til (Y) 1) Elaborar el diagrama de dispersin. 2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados. 3) Calcular la ecuacin predictora. 4) Graficar la ecuacin predictora. 5) Estimar qu porcentaje de las llantas radiales del fabricante durarn 50000 millas. Solucin: 1) Elaborando el diagrama de dispersin empleando Excel se obtiene la siguiente figura: 1 99 2 95 5 85 15 55 25 30 30 24 35 20 40 15
5) La estimacin del porcentaje de llantas radiales que durarn 50000 millas se obtiene reemplazando en la ecuacin predictora el valor de X = 50
Entonces el porcentaje sera de 9,106% La regresin examina la relacin entre dos variables, pero restringiendo una de ellas con el objeto de estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la regresin es un mtodo que se emplea para predecir el valor de una variable en funcin de valores dados a la otra variable. En todos los casos de regresin existe una dependencia funcional entre las variables. En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de regresin de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresin de la altura de los rboles sobre su dimetro, lo cual significa que midiendo el dimetro (variable independiente) y reemplazando su valor en una relacin definida segn la clase de rbol se obtiene la altura, y aun sin necesidad de clculos aprecian la altura utilizando grficas de la funcin de dependencia, altura = funcin del dimetro. La regresin potencial tiene por ecuacin predictora:
Para el primer caso los valores siguen una ley potencial. Si la ecuacin predictora est dada por: tomando logaritmos en ambos miembros, queda:
Para el segundo caso, si la ecuacin predictora est dada por expresin se puede escribir o sea:
Ejemplos ilustrativo N 1 Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable independiente) e Y es la presin de una masa dada de gas (variable resultante). X 1 2 3 4 5 6 7
Y 7
30
90
170
290
450
650
1.1) Elaborar el diagrama de dispersin. 1.2) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados. 1.3) Calcular la ecuacin predictora. 1.4) Graficar la ecuacin predictora. 1.5) Estimar la presin de la masa de gas de volumen 9. Solucin: 1.1) El diagrama de dispersin elaborado en Excel se presenta en la siguiente figura:
1.2) Para ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados se llena la siguiente tabla: X 1 2 3 4 5 6 7 S X=28 Y 7 30 90 170 290 450 650 log X 0,0000 0,3010 0,4771 0,6021 0,6990 0,7782 0,8451 S logX=3,7024 log Y 0,8451 1,4771 1,9542 2,2304 2,4624 2,6532 2,8129 S logY=14,4354 log X log Y 0,0000 0,4447 0,9324 1,3429 1,7211 2,0646 2,3772 S log X log Y =8,8829 (log X)2 0,0000 0,0906 0,2276 0,3625 0,4886 0,6055 0,7142 S(log X)2= 2,4890
Al resolver el sistema se obtiene: log a = 0,819; = 2,351 Reemplazando valores en la ecuacin predictora expresada en logaritmos se tiene:
1.3) Para calcular la ecuacin predictora, primero se calcula el valor de a de la siguiente manera:
1.5) Para estimar la presin de la masa de gas de volumen 9 se reemplaza el valor X = 9 en la ecuacin predictora
Ejemplo ilustrativo N 2 Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable independiente e Y la variable resultante. X 1 Y 1,4 2 1 3 0,9 4 0,7 5 0,6 6 0,55 7 0,5
2.1) Elaborar el diagrama de dispersin. 2.2) Calcular las constantes y aplicando el mtodo de mnimos cuadrados.
2.5) Estimar el valor de Y para X = 9 Solucin: 2.1) El diagrama de dispersin elaborado en Excel se muestra en la siguiente figura:
aplicando el mtodo de mnimos cuadrados se llena la siguiente tabla: 1/Y X(1/Y) 0,7143 2,0000 3,3333 5,7143 X2 1 4 9 16
5 6 7 S X = 28
25 36 49 S X2 = 140
Al resolver el sistema se obtiene: a = 0,5271; = 0,2160 2.3) Para calcular la ecuacin predictora se remplaza los valores encontrados de a y , y se obtiene:
REGRESIN MLTIPLE: Dispone de una ecuacin con dos variables independientes adicionales:
Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:
Para poder resolver se puede utilizar programas informticos como AD+, SPSS y Minitab y Excel. El error estndar de la regresin mltiple Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:
Y: Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n: Nmero de datos m: Nmero de variables independientes El coeficiente de determinacin mltiple Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y simultneamente.
APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Mltiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro. Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PHP 13 13 13 15 16 15 12 13 13 13 11 14 15 15 15 Algoritmos 15 14 16 20 18 16 13 16 15 14 12 16 17 19 13 Base de Datos Programacin 15 13 13 14 18 17 15 14 14 13 12 11 16 14 15 13 12 14 16 17 15 11 15 13 10 10 14 15 16 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin.
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:
El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:
CONCLUSIONES
Terminado este trabajo hemos conocido y desarrollado mtodos que estudian la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Estos mtodos se emplean para conocer las relaciones y significacin de una serie de datos. Lo analizado y desarrollado anteriormente es de suma importancia para muchos procesos. Pero en nuestro campo, la industria, es indispensable, ya que es aqu donde se presentan variables de respuesta e independientes las cuales interactan para originar las caractersticas de un proceso en particular, y por ende, analizar, presidir valores de la variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables. Una vez finalizado, nosotros como estudiantes, somos capaces y estamos en la disponibilidad de reconocer cualquier mtodo explicado anteriormente y obviamente, no presentar ningn tipo de inconveniente al momento de ponerlos en prctica.
RECOMENDACIONES
Para utilizar cada uno de los mtodos mencionados anteriormente, recomendamos lo siguiente: Estudiar minuciosamente cada uno de los mtodos; antes de realizar cualquier problema.
Tener los conceptos de variable, razn, dependencia, independencia lo ms claro posible, adems de todos los trminos matemticos y estadsticos que estn relacionados al tema. Consultar ejemplos, problemas, relacionados a este tipo, en caso de presentar alguna duda. Tener cuidado al momento del anlisis y escritura de los datos, ya que tienden a confundir.