Está en la página 1de 5

Departamento de Matemtica Aplicada y Estadstica Universidad Politcnica de Cartagena Prof.

Mathieu Kessler

Ajuste por mnimos cuadrados

SPSS nos permite realizar ajustes por mnimos cuadrados para modelos lineales en los parmetros, es decir para el caso en que la relacin entre la variable dependiente (tambin llamada variable respuesta) que nos interesa Y, y las variables explicativas (tamben llamados regresores) X1 , X2 ,..., Xk es Existen k parmetros constantes 1 , 2 ,..., k tales que Y= 1 X1 + 2 X2 +...+ k Xk + donde es una perturbacin aleatoria Hemos realizado observaciones del fenmemo: i.e conocemos para varias combinaciones de valores de las variables independientes cul ha sido el valor de la variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de las que disponemos. El ajuste consiste en encontrar valores aproximados de los coeficientes 1 , 2 ,..., k .

AJUSTE DE UNA RECTA.


El primer caso particular de importancia corresponde al famoso ajuste de una recta. En este caso slo consideramos una variable independiente X y buscamos una relacin del tipo Y=aX+b+, que est contemplado en nuestro modelo si consideramos Y= 1 X1 + 2 X2 + con X1 =1 y X2 =X, en estas condiciones, 1 es la ordenada al origen mientras que 2 es la`pendiente de la recta. Nivel del mar en Venecia. Queremos estudiar la evolucin del mximo anual del nivel del mar ( en cm) en Venecia. Los datos de los que disponemos corresponden a los aos 1931-1981, y estn contenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extreme value theory based on the r largest annual events'', Journal of Hydrology, 86 (1986). Empezamos por importar los datos, (la primera lnea del fichero contiene los nombres de las variables) y realizamos una nube de puntos del nivel en funcin del ao. (Grficos-> Dispersin.) Los datos parecen presentar una tendencia lineal,

aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una recta para modelizar la evolucin del nivel mximo anual del mar en Venecia en funcin del tiempo. Para obtener la ecuacin de la recta ajustada, y as como el valor de los residuos, utilizamos en el menu Analizar, Regresion, la instruccin Lineal. Al activarla obtenemos la siguiente ventana:

Figura 1

La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variables explicativas que son 1 y A. La inclusin del trmino constante X1 =1 es la opcin por defecto. En en el caso en que queremos forzar el modelo por el origen, podemos desactivar la casilla se hace al activar la casilla Incluir constante en la ecuacin que aparece en el cuadro de dialogo que se abre pinchando en Opciones. La inclusin del trmino X2 se consigue pasando la variable Ao al cuadro Independientes. Al pinchar en Aceptar, aparece la ventana de resultados:

Regresin
Variables introducidas/eliminadasb Variables introducidas AOa Variables eliminadas .

Modelo 1

Mtodo Introducir

a. Todas las variables solicitadas introducidas b. Variable dependiente: NIVEL Resumen del modelo R cuadrado corregida .156 Error tp. de la estimacin 18.6198

Modelo 1

R .416a

R cuadrado .173

a. Variables predictoras: (Constante), AO

Ia

Ib

b ANOVA

Modelo 1

Suma de cuadrados gl Regresin 3552.057 1 Residual 16988.100 49 Total 20540.157 50 a. Variables predictoras: (Constante), AO b. Variable dependiente: NIVEL
Coeficientesa

Media cuadrtica 3552.057 346.696

F 10.245

Sig. .002a

Coeficientes no estandarizados Modelo 1 (Constante) AO B -989.382 .567 Error tp. 346.477 .177

Coeficient es estandari zados Beta .416 t -2.856 3.201 Sig. .006 .002

a. Variable dependiente: NIVEL

II

III

IV

Los recuadros se interpretan de la siguiente manera. Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinacin mltiple que nos indica la proporcin de la variabilidad en los datos explicada por el modelo de regresin. Recuadro Ib: Proporciona el valor de la desviacin tpica residual. Recuadro II En la columna Coefficientes no estandarizados podemos leer los valores obtenidos de los coeficientes, en la lnea Constante, tenemos el coeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la lnea Ao, el coeficiente de X2=Ao. En este caso la ecuacin proporcionada es Nivel mximo= -989.4+0.6Ao. Recuadro III: Proporciona los errores tpicos de los estimadores de los coeficientes, los podramos utilizar para construir intervalos de confianza. Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son significativamente distintos de 0: en la columna t, obtenemos los valores de los estadsticos de prueba asociados a cada coeficiente, mientras que en la columna Sig, podemos encontrar los p-valores de las pruebas H : i=0 contra H : i0, para cada 0 1 uno de los coeficientes.

Cabe destacar que en el cuadro de dialogo que aparece con la instruccin Analizar> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidades interesantes: Al activar Guardar, podemos guardar los residuos y los valores predictivos, tambin llamados valores ajustados, picando las casillas correspondientes. Una vez

que hayamos hecho el ajuste, los residuos aparecern como variables en nuestro editor de datos. En Estadsticos, podemos pedir por ejemplo intervalos de confianza para los coeficientes En Grficos podemos pedir entre otras muchas cosas, un histograma de los residuos.

Despus de guardar los residuos y los valores ajustados, realizar una grfica en la que aparezcan tanto los valores observados del nivel como los valores predichos, en funcin del ao. Ejercicios Ajuste de una recta que pase por el origen Considere el problema siguiente: En 1929 Edwin Hubble estudi la relacin entre la distancia y la velocidad radial de nebulosas extragalcticas con la esperanza de que alguna informacin sobre esta relacin pudiera proporcionar ideas acerca de cmo se form el universo y cul puede ser su evolucin futura. Sus descubrimientos revolucionaron la astronoma y son la fuente de muchas investigaciones actuales. En esta prctica vamos a trabajar con los datos que utiliz Hubble para 24 nebulosas. (Fuente: Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity among Extra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. ) Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 aos luz) y la velocidad se mide en km/sec. Los datos se encuentran en el fichero hubble.txt con dos columnas, la primera contiene la distancia mientras que la segunda contiene la velocidad de recesin. El fichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobre la distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad de recesin debe ser nula. Reflexionar en particular sobre los datos negativos. La pendiente de la recta forzada por el origen se llama la constante de Hubble. Transformacin de un modelo exponencial Considere el problema siguiente: La hidrlisis de un cierto ster tiene lugar en medio cido segn un proceso cintico de primer orden. Partiendo de una concentracin inicial desconocida del ster, se han medido las concentraciones del mismo a diferentes tiempos obtenindose los resultados siguientes. T (mn) 3 4 10 15 20 30 40 50 60 75 90 C 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4 103 (M) a) Realice una nube de puntos de las dos variables. Le parece adecuado un modelo lineal para escribir este conjunto de datos? b) Defina una nueva variable Y que sea Y=ln (concentracin) y realizar la nube de puntos Y en funcin de t. c) Realizar un ajuste por mnimos cuadrados de Y sobre t con un modelo del tipo: y=ax+b. Cul es el modelo terico que propone para C en funcin del tiempo?
d) Nos dan la informacin adicional de que se sabe con exactitud que la concentracin inicial para T=0 era igual a 30.10-3 M. Cmo podemos incluir esta informacin en nuestro modelo?

Inclinacin de la Torre de Pisa.


G. Beri y B. Palla, 1988, "Considerazioni sulle ou recenti osservazioni ottiche alla Torre Pendente di Pisa", Estratto dal Bolletino della Societ Italiana di Topografia e Fotogrammetria, 2 pgs. 121-135, citado en Moore, 1998, Estadstica Aplicada Bsica, Antoni Bosch editor, pg 615. La torre inclinada de Pisa se inclina ms a medida que pasa el tiempo. He aqu las mediciones de la inclincacin de la torre entre los aos 1975 y 1987. La inclinacin se da como la distancia entre el punto donde estara la torre en posicin vertical y el punto en el que realmente se encuentra. Las distancias se dan en dcimas de milmetros por encima de 2.9m. Ao 75 Inclinacin 642 76 644 77 656 78 667 79 673 80 688 81 696 82 698 83 713 84 717 85 725 86 742 87 757

Emisin de CO2 por los pases europeos.


En la direccin http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisin de CO2 por fuentes fsiles para los distintos paises europeos entre los aos 1985 y 1997. Importar los datos del fichero CO2.txt, cuya primera lnea contiene los nombres de las variables. Los cdigos de los sectores de emisin son los siguientes: 0 Total inland emissions 4 Agriculture 1 Energy 5 Not available 2 Industry 6 Other 3 Transport

Tempeturas medias mensuales en San-Javier.


En la direccin http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datos meteorolgicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podris encontrar los datos de las temperaturas mensuales medias para la estacin meteorolgica de Murcia San Javier entre los aos 1981 y 1990.

Resistencia del cemento


Se quiere estudiar la resistencia de unas piezas de cemento en funcin de su edad en das. Edad (das) Resistencia (kg/cm^2) 1 13.0 13.3 11.8 2 21.9 24.5 24.7 3 29.8 28.0 24.1 24.2 26.2 7 32.4 30.4 34.5 33.1 35.7 28 41.8 42.6 40.3 35.7 37.3 Realizar la nube de puntos de la resistencia en funcinde la edad. Parece presentar una tendencia lineal? Si la respuesta es no, qu tipo de funcin podra ajustarse a la nube de puntos? Realizar la transformacin adecuada, la nube de puntos de los datos transformados y el ajuste.

Produccin de petroleo
Se quiere estudiar la evolucin de la produccin mundial de petroleo de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt Realizar la nube de puntos de la produccin en funcin del ao. Parece presentar una tendencia lineal? Si la respuesta es no, qu tipo de funcin podra ajustarse a la nube de puntos? Realizar la transformacin adecuada, la nube de puntos de los datos transformados y el ajuste.

También podría gustarte