Está en la página 1de 9

Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos

------------------------------------------------------------------------------------------------------------------------------

El Método de los Mínimos


Cuadrados

Steven J. Miller

Resumen
El Método de mínimos cuadrados es un procedimiento para determinar la
mejor línea de ajuste a los datos; La prueba utiliza cálculo simple y álgebra lineal.
El problema básico es encontrar la línea recta que mejor se ajuste a, y = ax + b
dado que, n ∊ {1, ... , N}, los pares ordenados (xn , yn ) son observados. El método
se generaliza fácilmente para encontrar el mejor ajuste de la forma.
y = a1 f1 (x) + · · · + cK fK (x); (0.1)

No es necesario que las funciones fK estén linealmente en x; todo lo que se


necesita es que sea una combinación lineal de estas funciones.

Contenido

1 Descripción del problema 1

2 Revisión de Probabilidad y Estadística 2

3 El Método de los Mínimos Cuadrados 4

1. Descripción del problema.


A menudo, en el mundo real uno espera encontrar relaciones lineales entre
variables. Por ejemplo, la fuerza de un resorte depende linealmente del
desplazamiento del resorte: y = kx (aquí y es la fuerza, x es el desplazamiento
del resorte desde el reposo y k es la constante del resorte). Para probar la
relación propuesta, los investigadores van al laboratorio y miden cuál es la
fuerza para varios desplazamientos. Así se ensamblan datos de la forma (xn ,
yn ) para n ∊ {1, . . . , N }; aqui yn es la fuerza observada en Newtons cuando
el resorte se desplaza xn metros

1
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------

100 .

80 .
.
60 . .
.
40 ..
..
20 . .
. .

5 10 15 20
Figura 1: 100 observaciones “simuladas” de desplazamiento y fuerza. (k = 5).

Desafortunadamente, es extremadamente improbable que observemos una


relación lineal perfecta.
Hay dos razones para esto. El primero es el error experimental; la segunda es
que la relación subyacente puede no ser exactamente lineal, sino más bien
aproximadamente lineal. Consulte la Figura 1 para ver un conjunto de datos
simulados de desplazamientos y fuerzas para un resorte con constante de
resorte igual a 5.
El Método de Mínimos Cuadrados es un procedimiento que requiere solo un
cálculo y álgebra lineal para determinar cuál es la línea de "mejor ajuste" para
los datos. Por supuesto, necesitamos cuantificar lo que entendemos por "mejor
ajuste", lo que requerirá una breve revisión de algunas probabilidades y
estadísticas.
Un análisis cuidadoso de la prueba mostrará que el método es capaz de
grandes generalizaciones. En lugar de encontrar la mejor línea de ajuste,
podríamos encontrar el mejor ajuste dado por cualquier combinación lineal
finita de funciones específicas. Así se le dan funciones al problema general f1 ,
. . . , fK , encontrar valores de coeficientes a1 , . . . , aK tal que la combinación
lineal

y = a1 f1 (x) + · · · + aK fK (x) (1.1)

2
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------
Es la mejor aproximación a los datos.

2. Revisión de Probabilidad y Estadística


Ofrecemos una introducción rápida a los elementos básicos de probabilidad y
estadísticas que necesitamos para el Método de mínimos cuadrados; para más
detalles vea [BD, CaBe, Du, Fe, Kel, LF, MoMc].
Dada una secuencia de datos x1 , . . . , xN , Definimos la media (o el valor
esperado) a ser
(x1 + · · · + xN ) / N . Denotamos esto escribiendo una línea arriba de x: así.

1
= ∑𝑁
𝑛=1 𝑥𝑛 (2.2)
𝑁

La media es el valor medio de los datos.

Considere las siguientes dos secuencias de datos: {10, 20, 30, 40, 50} y {30, 30,
30, 30, 30}. Ambos conjuntos tienen la misma media; sin embargo, el primer
conjunto de datos tiene mayor variación sobre la media. Esto lleva al concepto
de varianza, que es una herramienta útil para cuantificar cuánto fluctúa un
conjunto de datos sobre su media. La varianza de {x1 , . . . , xN }, denotado por
σ2x , es:

𝑁
1
𝜎2x = ∑(𝑥𝑖 − 𝑥)2 (2.3)
𝑁
𝑛=1

La desviación estándar σx es la raíz cuadrada de la varianza:

𝑁
1
𝜎𝑥 = √ ∑(𝑥𝑖 − 𝑥)2 (2.4)
𝑁
𝑛=1

Tenga en cuenta que si las x tienen unidades de metros, entonces la varianza


σ2 tiene unidades de metros2 , y la desviación estándar σx y la media x tienen
unidades de metros. Por lo tanto, es la desviación estándar la que da una buena
medida de las desviaciones de los x alrededor de su media.
Hay, por supuesto, medidas alternativas que uno puede usar. Por ejemplo, uno
podría considerar.

3
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------
𝑁
1
∑(𝑥𝑖 − 𝑥)2 (2.5)
𝑁
𝑛=1

Desafortunadamente, esta es una cantidad firmada, y grandes desviaciones


positivas pueden cancelarse con grandes negativos. De hecho, ¡la definición
de la media implica inmediatamente que lo anterior es cero! Esto, entonces,
sería una medida terrible de la variabilidad en los datos, ya que es cero
independientemente de cuáles sean los valores de los datos.
Podemos rectificar este problema utilizando valores absolutos. Esto nos lleva
a considerar

𝑁
1
∑ |𝑥𝑛 − 𝑥|2 (2.6)
𝑁
𝑛=1

Si bien esto tiene la ventaja de evitar la cancelación de errores (además de


tener las mismas unidades que las de x), la función de valor absoluto no es
analíticamente una buena función. No es diferenciable. Esta es la razón
principal por la que consideramos la desviación estándar (la raíz cuadrada de
la varianza); esto nos permitirá utilizar las herramientas del cálculo.

Ahora podemos cuantificar lo que entendemos por "mejor ajuste". Si creemos


que 𝑦 = 𝑥 + 𝑏, entonces 𝑦 − (𝑎𝑥 + 𝑏) debería ser cero. Así dadas las
observaciones.
{(𝑥1 , 𝑦1 ), … , (𝑥𝑁 , 𝑦𝑁 )}, (2.7)
Nosotros miramos a.
{𝑦1 − (𝑎𝑥1 + 𝑏), … , 𝑦𝑁 − (𝑎𝑥𝑁 + 𝑏)} (2.8)
La media debe ser pequeña (si es un buen ajuste), y la variación de cuán bueno
es el ajuste que tenemos.
Tenga en cuenta que la variación de este conjunto de datos es.
𝑁
1 2
𝜎𝑦2 − (𝑎𝑥 + 𝑏) = ∑(𝑦𝑛 − (𝑎𝑥𝑛 − 𝑏)) (2.9)
𝑁
𝑛=1

Los errores grandes reciben un valor mayor que los errores más pequeños
(debido a la cuadratura). Por lo tanto, nuestro procedimiento favorece a muchos
medios, favorece muchos errores medianos sobre unos pocos errores grandes.
Si usamos valores absolutos, mida el error (vea la ecuación (2.6)) luego todos
los errores. Ponderados por igual, sin embargo, la función de valor absoluto no

4
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------

es diferenciable y, por lo tanto, las herramientas de cálculo se vuelven


inaccesibles.

3. El método de los mínimos cuadrados.


Dado los datos {(𝑥1 , 𝑦1 ), … , (𝑥𝑁 , 𝑦𝑁 )}, podemos definir el error asociado a decir
𝑦 = 𝑥 + 𝑏 por:
𝑁
2
𝐸(𝑎, 𝑏) = ∑(𝑦𝑛 − (𝑎𝑥𝑛 − 𝑏)) (3.10)
𝑛=1

Esto es solo N veces la varianza del conjunto de datos {𝑦1 − (𝑎𝑥1 + 𝑏), … , 𝑦𝑁 −
(𝑎𝑥𝑁 + 𝑏)} ,Si no hay diferencia si estudiamos o no la varianza de N veces la
varianza como nuestro error, y notemos que El error es una función de dos
variables.
El objetivo es encontrar valores de 𝑎 y 𝑏 que minimicen el error. En el cálculo
multivariable aprendemos que esto nos obliga a encontrar los valores de (𝑎, 𝑏)
de tal manera que.
𝜕𝐸 𝜕𝐸
= 0, = 0. (3.11)
𝜕𝑎 𝜕𝑏

No tenemos que preocuparnos por los puntos del límite |𝑎| 𝑦 |𝑏| y crecer, el
ajuste claramente empeorará cada vez más. Por lo tanto, no necesitamos
verificar el límite.
Diferenciando 𝐸(𝑎, 𝑏) rendimientos.
𝑁
𝜕𝐸
= ∑ 2(𝑦𝑛 − (𝑎𝑥𝑛 + 𝑏). (−𝑥𝑛 )
𝜕𝑎
𝑛=1
𝑁
𝜕𝐸
= ∑ 2(𝑦𝑛 − (𝑎𝑥𝑛 + 𝑏). 1, (3.12)
𝜕𝑏
𝑛=1

𝜕𝐸 𝜕𝐸
Ajuste = = 0 (y dividiendo por 2) rendimientos
𝜕𝑎 𝜕𝑏
𝑁

∑(𝑦𝑛 − (𝑎𝑥𝑛 + 𝑏)). 𝑥𝑛 = 0


𝑛=1
𝑁

∑(𝑦𝑛 − (𝑎𝑥𝑛 + 𝑏)) = 0. (3.13)


𝑛=1

Podemos reescribir estas ecuaciones como


5
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------
𝑁 𝑁 𝑁

(∑ 𝑥𝑛2 ) 𝑎 + (∑ 𝑥𝑛 ) 𝑏 = ∑ 𝑥𝑛 𝑦𝑛
𝑛=1 𝑛=1 𝑛=1
𝑁 𝑁 𝑁

(∑ 𝑥𝑛 ) 𝑎 + (∑ 1) 𝑏 = ∑ 𝑦𝑛 (3.14)
𝑛=1 𝑛=1 𝑛=1

Hemos obtenido que los valores de a y b que minimizan el error (definido en


(3.10) ) satisfacen la siguiente ecuación matricial:
𝑁 𝑁 𝑁
∑ 𝑥𝑛2 ∑ 𝑥𝑛 ∑ 𝑥𝑛 𝑦𝑛
𝑛=1 𝑛=1 𝑛 𝑛=1
( ) (3.15)
𝑁 𝑁 𝑏 𝑁
∑ 𝑥𝑛 ∑ 1 ∑ 𝑦𝑛
( 𝑛=1 𝑛=1 ) ( 𝑛=1 )

Mostraremos que la matriz es invertible, lo que implica.


𝑁 𝑁 −1 𝑁
∑ 𝑥𝑛2 ∑ 𝑥𝑛 ∑ 𝑥𝑛 𝑦𝑛
𝑎 𝑛=1 𝑛=1 𝑛
( )= (3.16)
𝑏 𝑁 𝑁 𝑁
∑ 𝑥𝑛 ∑ 1 ∑ 𝑦𝑛
( 𝑛=1 𝑛=1 ) ( 𝑛=1 )
Denota la matriz por 𝑀. el determinante de 𝑀 es
𝑁 𝑁 𝑁 𝑁

𝑑𝑒𝑡𝑀 = ∑ 𝑥𝑛2 . ∑ 1 − ∑ 𝑥𝑛 . ∑ 𝑥𝑛 . (3.17)


𝑛=1 𝑛=1 𝑛=1 𝑛=1

Como
𝑁
1
𝑋 = ∑ 𝑥𝑛 , (3.18)
𝑁
𝑛=1

Encontramos eso:
𝑁

𝑑𝑒𝑡𝑀 = 𝑁 ∑ 𝑥𝑛2 (𝑁𝑥)2


𝑛=1
𝑁
1
= 𝑁 ( ∑ 𝑥𝑛2 − 𝑥 2 )
2
𝑁
𝑛=1

6
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------
𝑁
1
= 𝑁 . ∑(𝑥𝑛 − 𝑥)2
2
(3.19)
𝑁
𝑛=1

Donde la última igualdad se sigue del álgebra simple. Así, mientras todos los xn
no sean iguales, det M será distinto de cero y M invertible.

Por lo tanto, encontramos que, siempre que las x no sean todas iguales, los
mejores valores de ajuste de a y b se obtiene resolviendo un sistema lineal de
ecuaciones; La solución se da en (3.16).

Observación 3.1. Los datos representados en la Figura 1 se obtuvieron dejando


xn = 5 + .2n y luego dejando yn = 5xn más un error extraído aleatoriamente de
una distribución normal con media cero y desviación estándar 4 (n ∈ {1, ..., 100}).
Usando estos valores, encontramos una línea de mejor ajuste de

y=4.99x+.48; (3.20)

Entonces a = 4.99 y b = .48. Como la relación esperada es y = 5x, esperábamos


un mejor valor de ajuste de a de 5 y b de 0.
Si bien nuestro valor para a está muy cerca del valor real, nuestro valor de b está
significativamente fuera de lugar. Elegimos deliberadamente datos de esta
naturaleza para indicar los peligros en el uso del Método de Mínimos Cuadrados.
Solo porque sabemos que 4,99 es el mejor valor para la pendiente y .48 es el
mejor valor para la intersección de y no significa que estas son buenas
estimaciones de los valores verdaderos. La teoría debe complementarse con
técnicas que proporcionen estimaciones de error. Por eso queremos saber algo
como, dados estos datos, hay un 99% de probabilidad de que el verdadero valor
de a esté en (4.96, 5.02) y el valor verdadero de b está en (−.22, 1.18); Esto es
mucho más útil que simplemente saber los mejores valores de ajuste.
Si por el contrario usamos

𝐸𝑎𝑏𝑠 (𝑎, 𝑏) = ∑𝑁
𝑛=1 |𝑦𝑛 − (𝑎𝑥𝑛 + 𝑏)| (3.21)

Luego las técnicas numéricas dan como resultado que el mejor valor de ajuste
de a es 5.03 y el mejor valor de ajuste de b es menor que 10−10 en valor absoluto.
La diferencia entre estos valores y los del método de mínimos cuadrados se
encuentra en el mejor valor de ajuste de b (el menos importante de los dos
parámetros), Y se debe a las diferentes formas de ponderar los errores.

7
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------

Ejercicio 3.2. Generalice el método de los mínimos cuadrados para encontrar el


mejor ajuste cuadrático para y = ax2+bx + c (o más generalmente el polinomio
de mejor grado m de ajuste a y = amxm + am−1xm−1 + · · · + a0).
Si bien para cualquier problema del mundo real, el cálculo directo determina si la
matriz resultante es invertible o no, es bueno poder probar que el determinante
siempre es distinto de cero para la línea de mejor ajuste (si todas las x no son
iguales).

Ejercicio 3.3. Si las x no son todas iguales, ¿el determinante debe ser distinto
de cero para el mejor ajuste? ¿Cuadrático o el mejor ajuste cúbico?

Al observar nuestra prueba del Método de mínimos cuadrados, observamos que


no era esencial que tenemos y = ax+b; podríamos haber tenido y = af(x)+bg(x),
y los argumentos tendrían proceso de manera similar. La diferencia sería que
ahora obtendríamos

∑𝑁 𝑓(𝑥𝑛 )2 ∑𝑁
𝑛=1 𝑓(𝑥𝑛 )𝑔(𝑥𝑛 ) 𝑎 ∑𝑁
𝑛=1 𝑓(𝑥𝑛 )𝑦𝑛
( 𝑁 𝑛=1 ) ( ) = ( ) (3.22)
∑𝑛=1 𝑓(𝑥𝑛 )𝑔(𝑥𝑛 ) 𝑁
∑𝑛=1 𝑔(𝑥𝑛 ) 2 𝑏 𝑁
∑𝑛=1 𝑔(𝑥𝑛 )𝑦𝑛

Ejercicio 3.4. Considere la generalización del Método de mínimos cuadrados


dado en (3.22). ¿En qué condiciones es invertible la matriz?

Ejercicio 3.5. El método de prueba generaliza más allá del caso cuando se
espera que y es una combinación lineal de k funciones fijas. Las funciones no
necesitan ser lineales; todo lo que se requiere es que tenemos una combinación
lineal, digamos a1f1(x)+ · · · +aKfK(x). Uno entonces determina la a1, . . ., aK que
minimizan la varianza (la suma de cuadrados de los errores) por cálculo y
álgebra lineal. Encuentre la ecuación matricial que deben cumplir los mejores
coeficientes de ajuste (a1, ..., aK).

Ejercicio 3.6. Considere la mejor línea de ajuste del Método de mínimos


cuadrados, por lo que los mejores valores de ajuste Están dados por (3.16). Es
1
el punto (x, y), donde 𝑥 = 𝑛 ∑𝑁 𝑁
𝑛=1 𝑥𝑛 xn y 𝑦 = ∑𝑛=1 𝑥𝑛 , en el mejor línea de ajuste?
En otras palabras, ¿la línea de mejor ajuste pasa por el punto "promedio"?

8
Universidad Nacional Santiago Antúnez de Mayolo Métodos Numéricos
------------------------------------------------------------------------------------------------------------------------------

Referencias
[BD] P. Bickel and K. Doksum, Mathematical Statistics: Basic Ideas and
Selected Topics, Holden-Day, San Francisco, 1977.
[CaBe] G. Casella and R. Berger, Statistical Inference, 2nd edition,
Duxbury Advanced Series, Pacific Grove, CA, 2002.
[Du] R. Durrett, Probability: Theory and Examples, 2nd edition, Duxbury
Press, 1996.
[Fe] W. Feller, An Introduction to Probability Theory and Its Applications,
2nd edition, Vol. II, John Wiley & Sons, New York, 1971.
[Kel] D. Kelley, Introduction to Probability, Macmillan Publishing
Company, London, 1994.
[LF] R. Larson and B. Farber, Elementary Statistics: Picturing the World,
Prentice-Hall, Englewood Cliffs, NJ, 2003.
[MoMc] D. Moore and G. McCabe, Introduction to the Practice of Statistics,
W. H. Freeman and Co., London, 2003.

También podría gustarte