P. 1
MINIMOS CUADRADOS Y REGRESIÓN

MINIMOS CUADRADOS Y REGRESIÓN

|Views: 11.672|Likes:
Publicado porfecyman
Ejemplo de regresión usando mínimos cuadrados y determinando el error medio cuadrático
Ejemplo de regresión usando mínimos cuadrados y determinando el error medio cuadrático

More info:

Published by: fecyman on May 03, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/06/2015

pdf

text

original

UNIVERSIDAD NACIONAL DE LOJA

ÁREA DE ENERGÍA LAS INDUSTRIAS Y LOS RECURSOS NATURALES NO RENOVABLES

INGENIERIA EN SISTEMAS
Unidad: Análisis Numérico

ESTUDIANTES:
Francisco Esteban Carrillo Juana Catalina Malacatus.

LOJA -ECUADOR 2010

0

UNIVERSIDAD NACIONAL DE LOJA

REGRESIÓN SIMPLE

PREAMBULO Cuando se asocia un error sustancial a los datos, la interpolación polinomial es inapropiada y puede llevar a resultados no satisfactorios cuando se usa para predecir valores intermedios. Los datos experimentales a menudo son de ese tipo. Una estrategia mas apropiada en estos casos es la de obtener una función aproximada que ajuste “adecuadamente” el comportamiento o la tendencia general de los datos, sin coincidir necesariamente con cada punto en particular. Una línea recta puede usarse en la caracterización de la tendencia de los datos sin pasar sobre ningún punto en particular. Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados y luego trazar la “mejor” línea a través de los puntos. Aunque este enfoque recurre al sentido común y es válido para cálculos a “simple vista” es deficiente ya que es arbitrario. Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación seria apropiada), cada analista trazará rectas diferentes. La manera de quitar esta subjetividad es considerar un criterio que cuantifique la suficiencia del ajuste. Una forma de hacerlo es obtener una curva que minimice la diferencia entre los datos y la curva y el método para llevar a cabo este objetivo es al que se le llama regresión con mínimos cuadrados.

REGRESIÓN SIMPLE La Regresión y la Correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable. Se puede decir que y depende de x , en donde y y x son dos variables cualquiera en un modelo de Regresión Simple. “ y es una función de x ” y = f(x) Como y depende de x , y Es la variable dependiente, y x Es la variable independiente.

1

UNIVERSIDAD NACIONAL DE LOJA

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así: y = f(x) “Y está regresando por X” La variable dependiente es la variable que REGRESANDO ó VARIABLE DE RESPUESTA. se desea explicar, predecir. También se le llama

La variable Independiente x se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y. En el estudio de la relación funcional entre dos variables poblacionales, una variable x, llamada independiente, explicativa o de predicción y una variable y, llamada dependiente o variable respuesta, presenta la siguiente notación: y=a+ bx +e Donde: a : es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y. b: Es el coeficiente de regresión poblacional (pendiente de la línea recta) e : Es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL 1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales. 5. Todas las medias de las subpoblaciones de Y están sobre la recta. 6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

2

UNIVERSIDAD NACIONAL DE LOJA

PROBLEMAS AL AJUSTAR UN MODELO DE REGRESION LINEAL SIMPLE. Al ajustar un modelo de regresión lineal simple se pueden presentar diferentes problemas bien porque no existe una relación lineal entre las variables o porque no se verifican las hipótesis estructurales que se asumen en el ajuste del modelo. Estos problemas son los siguientes: Falta de Linealidad, porque la relación entre las dos variables no es lineal o porque variables explicativas relevantes no han sido incluidas en el modelo. Existencia de valores atípicos e influyentes, existen datos atípicos que se separan de la nube de datos muestrales e influyen en la estimación del modelo. Falta de Normalidad, los residuos del modelo no se ajustan a una distribución normal. Heterocedasticidad, La heterocedasticidad es la existencia de una varianza no constante en las perturbaciones aleatorias de un modelo econométrico. Dependencia (autocorrelación), existe dependencia entre las observaciones. Un primer paso para el estudio de estos problemas es la realización de un estudio descriptivo, analítico y gráfico, de la muestra. En particular el gráfico de puntos de la muestra bidimensional permite detectar algunos problemas como se deja de manifiesto en las siguientes figuras (1 al 6). Figura 1. La nube de puntos muestrales bidimensionales parece ajustarse bien a una recta.

Figura 2. El ajuste lineal no parece adecuado para esta muestra.

3

UNIVERSIDAD NACIONAL DE LOJA

Figura 3. No existe relación lineal entre las dos variables.

Figura 4. Claros indicios de heterocedasticidad.

Figura 5. Existen puntos atípicos que probablemente influyan en la estimación de la recta ajustada.

4

UNIVERSIDAD NACIONAL DE LOJA

Figura 6. Existe una variable regresora binaria que se debe de incluir en el modelo de regresión.

5

UNIVERSIDAD NACIONAL DE LOJA

MÍNIMOS CUADRADOS
“Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la función que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.”

Figura 7. El resultado del ajuste de un conjunto de datos a una función cuadrática

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger. Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados). La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía.

6

UNIVERSIDAD NACIONAL DE LOJA

HISTORIA

Figura 8. Carl Friedrich Gauss.

El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres. Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil). La mayoría de evaluaciones fueron inútiles; el único cálculo suficientemente preciso para permitir a Zach, astrónomo alemán, reencontrar a Ceres al final del año fue el de un Carl Friedrich Gauss de 24 años (los fundamentos de su enfoque ya los había planteado en 1795, cuando aún tenía 18 años). Pero su método de mínimos cuadrados no se publicó hasta 1809, apareciendo en el segundo volumen de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sctionibus conicis solem ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente en 1805. En 1829 Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento: simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de Gauss-Márkov

APLICACIONES DEL MÉTODO DE MÍNIMOS CUADRADOS: Actualmente se han desarrollado innumerables aplicaciones basadas en la minimización de una norma cuadrática en diversos campos que tienen relación con procesamiento de datos estadísticos o experimentales. Las principales aplicaciones se agrupan en: Aproximación de funciones Estimación de parámetros

7

UNIVERSIDAD NACIONAL DE LOJA

Rectas de regresión por mínimos cuadrados. Una de las fuentes habituales de problemas de mínimos cuadrados son los problemas de ajustes de curvas. ¿Cómo se encuentra la mejor aproximación que pase cerca (no por encima de cada uno) de los puntos? El error cuadrático medio es la elección tradicional porque es mucho más fácil de minimizar computacionalmente que otros errores (por ejemplo, error máximo y error medio). El enfoque de mínimos cuadrados le da mucho más peso a un punto que está fuera de la tendencia de los datos, pero no permite que el punto domine completamente a la aproximación. Con base en la teoría estadística, con este método, conocido con el nombre de regresión con mínimos cuadrados, se encuentra algún tipo de función que con mayor probabilidad se aproxima a los valores verdaderos. En la ciencia y la ingeniería los experimentos producen un conjunto de datos (x1; y1); :::; (xn; yn), con las abscisas {xk} diferentes, y el problema que se plantea es determinar una función y = f(x) que relacione los datos, lo mejor posible en algún sentido. Evidentemente, el resultado dependerá del tipo de función que se elija, por ejemplo, en la regresión f(x) = ax + b es una recta, y para ajustar los parámetros libres se pueden minimizar uno de los siguientes tres valores: El error máximo: El error medio:

El error medio cuadrático:

En el método de mínimos cuadrados el error que se minimiza es el error medio cuadrático. Por tanto, la recta de regresión ajusta los parámetros a y b para minimizar el valor

que son la solución del sistema lineal conocido como ecuaciones normales de Gauss 𝑛
𝑛 𝑦𝑘

= 𝑁𝑎 + 𝑏 𝑛
𝑘=1 𝑛 𝑘=1 𝑥𝑘 𝑛 𝑥𝑘

𝑦𝑘 = 𝑎 𝑘
=1 𝑘=1 𝑥𝑘

+ 𝑏 𝑘
=1

(𝑥𝑘)2

8

UNIVERSIDAD NACIONAL DE LOJA

¿Cómo se obtiene las ecuaciones anteriores? :
Sea 𝑦

= 𝑎 + 𝑏𝑥 𝑥 = 𝑥1, 𝑥2, … 𝑥𝑛 ∴ 𝑦1 = 𝑎 + 𝑏𝑥1 𝑦2 = 𝑎 + 𝑏𝑥2 ⋮ 𝑦𝑘 = 𝑎 + 𝑏𝑥𝑛

Donde

Tal que la recta de mínimos cuadrados es:

S= 𝑎 + 𝑏𝑥1 − 𝑦1
Entonces: 𝜕𝑆

2

+ ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛

2

es mínimo 𝜕𝑎

𝜕𝑆

= 2 𝑎 + 𝑏𝑥1 − 𝑦1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛

=0 𝜕𝑏

= 2 𝑎 + 𝑏𝑥1 − 𝑦1 𝑥1 + ⋯ + 𝑎 + 𝑏𝑥𝑛 − 𝑦𝑛 𝑥𝑛 = 0

En donde las ecuaciones normales son: 𝑛
𝑛 𝑁𝑎

+ 𝑏 𝑘
=1 𝑛 𝑥𝑘

− 𝑘
=1 𝑛 𝑦𝑘

= 0 𝑛 𝑎 𝑘

=1 𝑥𝑘

+ 𝑏 𝑘
=1 𝑥𝑘

2 − 𝑘
=1 𝑥𝑘

𝑦𝑘 = 0
Despejando: 𝑛
𝑛 𝑦𝑘

= 𝑁𝑎 + 𝑏 𝑘
=1 𝑛 𝑛 𝑘=1 𝑥𝑘 𝑛 𝑥𝑘

𝑦𝑘 = 𝑎 𝑘
=1 𝑘=1 𝑥𝑘

+ 𝑏 𝑘
=1

(𝑥𝑘)2

9

UNIVERSIDAD NACIONAL DE LOJA

EJEMPLO
Sean los siguientes datos: x 1.2 0.8 1.0 1.3 0.7 0.8 1.0 0.6 0.9 1.1 9.4 y 101 92 110 120 90 82 93 75 91 105 959

Obtener la recta de mínimos cuadrados.

SOLUCION
x 1 2 3 4 5 6 7 8 9 10 1,2 0,8 1,0 1,3 0,7 0,8 1,0 0,6 0,9 1,1 9,4 y 101 92 110 120 90 82 93 75 91 105 959 (xk) 1,44 0,64 1 1,69 0,49 0,64 1 0,36 0,81 1,21 88,36 xk yk 121,2 73,6 110,0 156,0 63,0 65,6 93,0 45,0 81,9 115,5 924,8 y= 46.49+52.57x 109,574 88,546 99,06 114,831 83,289 88,546 99,06 78,032 93,803 104,317

10

UNIVERSIDAD NACIONAL DE LOJA

Justificación Teórica: 𝑛 𝑛 𝑦𝑘

= 𝑁𝑎 + 𝑏 𝑛
𝑘=1 𝑛 𝑘=1 𝑥𝑘 𝑛 𝑥𝑘

𝑦𝑘 = 𝑎 𝑘
=1 𝑘=1 𝑥𝑘

+ 𝑏 𝑘
=1

(𝑥𝑘)2

Sustituyendo:

959 = 10𝑎 + 9.4𝑏 924.8 = 9.4𝑎 + 9.28𝑏

Resolviendo el sistema de ecuaciones se tiene

a= 46.49 b= 52.57 𝑦

= 𝑎 + 𝑏𝑥
y= 46.49+52.57x

11

UNIVERSIDAD NACIONAL DE LOJA

Grafica

12

UNIVERSIDAD NACIONAL DE LOJA

ERROR MEDIO CUADRÁTICO

x 1 2 3 4 5 6 7 8 9 10 1,2 0,8 1 1,3 0,7 0,8 1 0,6 0,9 1,1 9,4

y 101 92 110 120 90 82 93 75 91 105 959

(xk) 1,44 0,64 1 1,69 0,49 0,64 1 0,36 0,81 1,21 88,36

xk yk 121,2 73,6 110 156 63 65,6 93 45 81,9 115,5 924,8

y= 46.49+52.57x 109,574 88,546 99,06 114,831 83,289 88,546 99,06 78,032 93,803 104,317

f(xk)-yk 8,574 -3,454 -10,94 -5,169 -6,711 6,546 6,06 3,032 2,803 -0,683

(f(xk)-yk )2 73,513476 11,930116 119,6836 26,718561 45,037521 42,850116 36,7236 9,193024 7,856809 0,466489 373,973312 𝟐 𝐄

𝐟 =

373,973312 10 𝐄

𝐟 = 𝟔. 𝟏𝟏𝟓𝟑𝟑𝟓𝟕𝟑𝟗

13

UNIVERSIDAD NACIONAL DE LOJA

BIBLIOGRAFIA Matus, R.; Hernández, Martha; García, E.. Estadística. México: Instituto Politécnico Nacional, 2010. p 113. http://site.ebrary.com/lib/unlsp/Doc?id=10365616&ppg=113 Copyright © 2010. Instituto Politécnico Nacional. All rights reserved.

LINKS http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados http://www.scribd.com/doc/25451422/Minimos-Cuadrados-1 http://www.google.com.ec/url?sa=t&source=web&oi=revisions_result&ct=result&cd=1&ved=0CAYQh gIwAA&url=http%3A%2F%2Fwww.ehu.es%2F~mepvaarf%2Fquimicos%2Fajuste.pdf&ei=3BjZS9fPA5H4 9AT-zOBY&usg=AFQjCNE_0uGySWN-rvgQWF2vVi2lZVzQOA&sig2=xhX15joIPrHkZx8405G6ag

14

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->