PÃ¡gs. 1-8 RegresiÃ N

Introduccion La modelacién se refiere al desarrollo de expresiones mateméticas qe describen en algtin sentido el comportamiento de una variable de interés. Se considera que esta variable, llamada variable dependiente o respuesta, puede ser aproximada a partir de una relacién funcional, en la cual aparecen todas aquellas variables que proven informacién sobre el comportam nto de la misma; estas variables se incorporan al modelo como variables: predictoras 0 explicativas y serdn llamadas variables independientes. La relacin funcional puede ser expresada come: Y= f (Xi, Xa,Xp)s que de manera ideal, proporcions los valores de la respuesta Y. A partir de este planteamiento surgen dos problemas: a) La forma analitica de f puede ser desconocida 0 conocida pero muy complieada. b) El mimero p_ de variables que intervienen en cl estudio puede ser tan grande que sca imposible manipular adecuadamente a f Las alternativas que se tienen son: a) Aproximar a f mediante f ' ( posiblemente un polinomio ). ) Ignorar todas aquellas variables cuya infinencia sea considerada despreciable, re- duciendo ast el mimero de variables consideradas. La alternativa b tiene como consecuer que las variables ignoradas causen fluctua- ciones en la respuesta, Estas fhictuaciones se consideran aleatorias, aun manteniendo fijos los valores de las variables consideradas. Asi pues, a partir de a y b es posible establecer la siguiente relacién: Yas '(%, Xo, Xp)+ © TNotas de la profesora Margarita Elvira Chavez Canodonde ¢ est determinada por los factores cuya influencia es considerada despreciable. Ademis de las X’s, los modelos involucran constantes desconocidas llamadas parémet- ros, que controlan el comportamiento del modelo. Estos pardmetros seran denotados por letras griegas y estimados a partir de los datos. La complejidad matemética del modelo y el grado hasta el cual sea un modelo realist, dependera de cuanto se sepa acerea del proceso que esti siendo estudiado, En estudios preliminares de un proceso 0 en los casos donde la prediccin es el objetivo primario, los modelos casi siempre caerdn en la clase de modelos que son lineales en los parimetros . Esto es, los pardmetros entran al modelo como coeficientes simples de las variables independientes. Tales modelos serén referidos como modelos lineales. Por otro lado, los modelos mas reales son frecuentemente no lineales en los pardmetros ; la mayoria de los modelos de crecimiento, por ejemplo, son modelos no lineales. Esta clase de modelos cae en dos categorfas: a) Modelos que pueden ser linealizados mediante una transformacién apropiada sobre la variable dependiente, es decir, modelos intrénsecamente lineales. b) Modelos que no pueden ser transformados. La mayor parte del material que veremos, est dedicado a los modelos lineales y aquellos modelos no lineales que son intrfnsecamente lineales.El modelo de regresi6n lineal simple El modelo més simple involucra solamente una variable independiente y establece que la verdadera media de la variable dependiente cambia en razén constante cuando cl valor de la variable independiente crece o decrece. De esta forma, la relacién funcional entre la verdadera media de Y, E(Y ) y X es la ecuacién de la linea recta E(Y)= Bot AX donde p es la intercepeién de esta recta con el eje ¥ , el valor de E (Y) cuando X = 0; es la pendiente de ella, la raz6n de cambio en I (¥ ) por unidad de eambio en X. En las situaciones practicas o reales, la informacién con que se cuenta consta de 1n parejas de observaciones muestrales sobre X, Y, que pueden ser graficadas como se muestra en la figura 1. La diferencia esencial que se observa a partir de esta figura es que en la préctica, la Imea 85 + ,X es desconocida. Las observaciones sobre la variable dependiente, Y; , se supone que son observaciones aleatorias de poblaciones de variables aleatorias con la media dada por E (¥). La desviacién de una observacién Y; de su media poblacional E (Y;) (la Ifea desconocida), se toma en cuenta sumando un error aleatorio para dar el modelo estadistico ¥ Bo + BiXi te 5Figura 1 Las X, son las n observaciones sobre la. variable independiente y se supone que son medidas sin error, esto es, se supone que los valores observados de X’forman un conjunto de constantes conocidas. Las Y; y las X, son observaciones apareadas, medidas sobre cada. unidad observacional. Esencialmente, se tienen dos tipos de hip6tesis que se hacen sobre el modelo, la hipétesis estructural y la hipdtesis distribucional. La hipétesis estructural cons en suponer que el modelo es lineal en los parémetros, esto es, los pardmetros entran al modelo como cocficientes simples sobre las variables independientes 0 funciones de ellas. La_hipétesis distribucional se refiere a las suposiciones que se hacen en relacién a los errores aleatorios que aparecen en el modelo como ¢; ; como anteriormente se vio de manera implicita, se supone que la media de los ¢; es igual a cero, E(c;) = 0, ya qe de manera natural se espera que en promedio no haya errores; se supone también que la varianza de los errores es constante, comin y desconocida Var (¢,) = 0? ; esto significa que se espera que las observaciones no se distribuyan de manera irregular alrededor 4de la linea media y de esta forma facilitar el desarrollo de la teorfa. Obsérvese que o? = cte. refleja que los factores no controlados influyen de la misma manera sobre cada respuesta ¥; . Como ¢, es el tinico elemento aleatorio en el modelo, estas suposiciones implican que las Y; son variables aleatorias, por lo tanto también tienen varianza comin y son mutuamente independientes. Con el fin de construir intervalos de confianza y hacer pruebas de significancia, se introduce la hipstesis de que los errores aleatorios tienen distribucién normal, lo cual implica que las ¥; también tienen distribucién normal. Las suposiciones acerca de los errores aleatorios son denotadas por: e~ N (0,02), independientes, i = 1,2, ...n (notacion de Wilks). Estimacién por minimos cuadrados E] modelo lineal simple Y= By + BX +e 54 =1,2,..0 tiene dos pardmetros, 5 y 8, , que serén estimados a partir de los datos. Con la hipstesis de varianza constante sobre los errores, aparece otro pardmetro que no esté incluido en el modelo, 0”, pero que es necesario estimar también; el tratamiento para este parametro se hard mds adelant Si no hubiera error aleatorio en Y; , podrfan utilizarse cualesquiera dos parejas de observaciones para obtener explfcitamente los valores de los pardmetros. Sin embargo, la variacion aleatoria de ¥ causa que cada pareja de datos dé diferentes r sultados (todos los estimadores serfan idénticos s6lo si los datos observados caycran exactamente sobre la linea recta). Se necesita un método que combine toda la informacion para dar una solucién éptima de acuerdo a algtin criterio. El procedimiento 0 método de ménimos cuadrados tiene el siguiente criterio, conocido como el principio de mtnimos cuadrados : La solucién debe dar la suma de cuadrados de las desviaciones verticales de las ¥; observadas de los valores estimados més pequefia posible. Estas desviaciones son conocidas como los residuales, e,, es decirBy + B.X, 3#=1,2,...n el valor estimado de Y para cada X;, i= 1,2,...,n. Esta ecuacién es conocida como la recta estimada o ajustada. E] principio de los minimos cuadrados elige Ay y 3; que minimizan la suma de cuadrados de los residuales denotada como SCE ymK-vyP a Los estimadores para , y 3, se obtienen utilizando las técnicas del célculo diferencial para encontrar los valores que minimizan la SCE, EMF? = EH - ~ AXP Derivando esta expresién con respecto a 3, y a 8, ¢ igualando a cero, se tienen las ecuaciones nd,~ (Ex) A => Estas ecuaciones son conocidas como ecuaciones normales, Resolviéndolas simulténea- mente para 3p y 3; se obticnen los estimadores de 3p ¥ 81. Ex Multiplicando la primera eenacién por =X y restando al resultado la. segunda ecuacién se tiene: L487 iBjemplo 1.- Considérense los datos obtenidos de un estudio dirigido por el Dr. A. S. Heagle en North Carolina State University. Dicho estudio analiza los efectos de la contaminacién por ozono en granos de soya (tabla 1). Cuatro distintos niveles de ozono y la produecién, media de soya correspondiente fueron medidos. La dosis de ozono es la concentracién promedio durante la época de crecimiento en partes por millén (ppm); la produecién se reporta en gramos por planta. bla 1 i] orono (ppm) X | proauecion (gm /plt) ¥ 1 02 242 2 07 237 3 al 231 4 15 201 Si suponemos que la producci6n de soya est relacionada linealmente con la cantidad de ozono, podemos aplicar el modelo antes desarrollado. De la tabla obtenemos ex 35 yy = on = 0875 P= 2775 SX? = 0399 y y? = 208495 SM = 70.99por lo cual los estimadores por mfnimos cuadrados son 2%) (E%) dx (S* “35 (911 76.99 — 35001) 0399 — = ~293.531 0875) De esta manera, cl modelo ajustado es: Y = 253.434 — 293.531 La interpretacin de 3, = —293.531 es que se espera que la produceién media dis minuya, puesto que la pendiente es negativa; esto es, la produccién media disminuiré en aproximadamente 294 gramos por planta con cada unidad (ppm) de ozono que se agregue. Obs érvese que el rango de ozono va de .02 a .15, por lo cual no es razonable esperar que Ia misma tasa de decaimiento en Ia produccién ocurra en, digamos, 1 ppm La interseecién 8) = 253.434 es el valor de X en el cual la linea ajustada eruza cl cje ¥. En este caso, como el valor mas bajo del nivel de ozone considerar como s .02 se puede una extrapolacién interpretar a y como el valor estimado de la produecién cuando no existe contaminaci6n por ozono. Propiedades de los estimadores por mfnimos cuadrados Los estimadores por minimos cuadrados, 8, y 8,, tienen varias propiedades estadis- ticas importantes. Veremos primero la propiedad de insesgamiento. 8

PÃ¡gs. 1-8 RegresiÃ N

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PÃ¡gs. 1-8 RegresiÃ N

Cargado por

Copyright:

Formatos disponibles

También podría gustarte