Está en la página 1de 26

Método de Mı́nimos Cuadrados

Universidad de San Carlos de Guatemala


Facultad de Ciencias Quı́micas y Farmacia
Matemática V
Rony José Letona QQ 200960024
José Roy Morales QQ 200717695
ÍNDICE ÍNDICE

Índice
1. Distancias 1
1.1. R (Recta Real) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. R2 (Plano Cartesiano) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. R3 (Espacio Tridimensional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Vectores (Repaso) 5
2.1. Multiplicación por una Constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Vector Unitario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. Producto Punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Proyecciones 7
3.1. Proyección sobre una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Proyección sobre un Plano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3. Matriz de Proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4. Método de Mı́nimos Cuadrados 11


4.1. Caso de una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2. Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3. Resolución Diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Resolución Algebráica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5. Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5. Casos Especiales 22
5.1. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6. Bibliografı́a 24
6.1. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.2. Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.3. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

0
1 DISTANCIAS

1. Distancias
Para comenzar la deducción del método de mı́nimos cuadrados, es conveniente que se haga
un breve repaso sobre la forma en la que se miden distancias. Eso por esto que esta sección
está dedicada a ello.

1.1. R (Recta Real)

Figura 1: Recta real.

Para facilitar la comprensión, se comienza con la Recta Real (ver Figura 1). En ella la medición
de distancias es relativamente sencilla y casi intuitiva: se calcula la diferencia de distancias hacia
el origen. Nótese que en el caso de los números negativos, la distancia hay que tomarla en valor
absoluto. Es por esto que la fórmula general más común para la medición de distancias en R es la
siguiente:

Sean A y B ∈ R. La distancia d entre A y B es entonces

d(A, B) = |B − A| (1)

Esta forma de medir distancias en muy práctica, pero no es la única. Existen varias formas de
medir distancias, pero la que concierne al estudio del método de mı́nimos cuadrados es la que se
ve a continuación.

Figura 2: Distancia entre puntos.

Considerando que el álgebra al calcular con valores absolutos es relativamente complicada, la


forma utilizada para medir distancias en el método de mı́nimos cuadrados es distinta. Esta en
lugar de utilizar valores absolutos, eleva la expresión dentro del valor absoluto en la ecuación (1)
al cuadrado. De alli su nombre: Método de Mı́nimos Cuadrados. Entonces, la fórmula general es la
siguiente:

Sean A y B ∈ R. La distancia d entre A y B es entonces

d(A, B) = (B − A)2 (2)

1
1.2 R2 (Plano Cartesiano) 1 DISTANCIAS

1.2. R2 (Plano Cartesiano)

Figura 3: Plano cartesiano.

En el caso del plano cartesiano, ya no se tiene una sino dos rectas reales unidas mediante un
Producto Cartesiano 1. La ubicación de cada punto está dada por pares ordenados. En este caso la
forma que se utiliza para medir distancias es la que ya se conoce.
   
2 xa xb
Sean A y B puntos en R tal que A = y B = . La distancia d entre los dos
ya yb
está dada por
q q
d(A, B) = (∆x)2 + (∆y)2 = (xb − xa )2 + (yb − ya )2 (3)

Como se puede notar, esto tiene mucha similitud con el teorema de Pitágoras. Esto es porque
la distancia entre un punto y el otro en R2 es, de hecho, la hipotenusa de un triángulo rectángulo
(ver Figura 4). En este caso los dos catetos son la distancia entre la las coordenadas en x y la
distancia entre la las coordenadas en y.

Figura 4: Distancia entre puntos (Pitgoras).

En el caso del método de mı́nimos cuadrados, esto no se utilizará de forma obvia, pero se
recomienda tener en mente la forma de la medición.

1
También llamado Producto Cruz. Este surgió en las formulaciones de Descartes sobre geometrı́a analı́tica. El
plano cartesiano es un ejemplo: (R × R).

2
1.3 R3 (Espacio Tridimensional) 1 DISTANCIAS

1.3. R3 (Espacio Tridimensional)

Figura 5: Espacio tridimensional.

Para complementar el repaso sobre las mediciones de distancia, se analizará un último caso. R3
se construye mediante el triple producto cartesiano de R, es decir (R × R × R). Son 3 rectas reales
que nos llevan a que la ubicación de cada punto en el espacio esté dada por una triada ordenada.
La forma para medir distancias en este caso es la siguiente:
   
xa xb
3
Sean A y B puntos en R tal que A = ya y B = yb . La distancia d entre los dos
  
za zb
está dada por
q q
2 2 2
d(A, B) = (∆x) + (∆y) + (∆z) = (xb − xa )2 + (yb − ya )2 + (zb − za )2 (4)

A esta distancia se le llama distancia Euclidiana. Nótese que esta es semejante al teorema de
Pitágoras, sin embargo, no es lo mismo. Algo que si se debe de tomar en cuenta es que la distancia
en R2 conserva la misma forma que en R3 .

Figura 6: Distancia entre puntos (Distancia Euclidiana).

Esto se puede generalizar para todos los Rn si se conserva la forma observada en R2 y en R3 .

3
1.4 Transformación 1 DISTANCIAS

1.4. Transformación

Figura 7: Gráficas de f (x) = x2 y g(x) = |x| en R2 .

Si se piensa por un momento que de la forma de medir distancias vista al principio (Ecuación
1) y la siguiente (Ecuación 2) no se obtiene el mismo resultado, se está en lo cierto. Se puede argu-
mentar que a la primera forma se le fue aplicada una transformación (elevación al cuadrado) que
en cualquier momento puede ser revertida (raı́z cuadrada). La forma de la distancia transformada
no varı́a mucho de la forma de la distancia vista al principio (ver Figura 7). Es por esto que esta
trasnformación es válida. También se hace mucho énfasis en que la trasformación se hace con el
fin de facilitar los cálculos que se llevarán a cabo posteriormente.

4
2 VECTORES (REPASO)

2. Vectores (Repaso)
En esta sección se intentará definir las operaciones que se pueden realizar entre vectores en
R2 . Por supuesto, todas estas se pueden extender a los vectores en Rn . Solo se hará un repaso
de la multiplicación por un escalar, suma, vector unitario y producto punto, ya que estas son las
pertinentes para la comprensión de este documento.

2.1. Multiplicación por una Constante


La multiplicación de un vector por una constante se realiza multiplicando esta por cada com-
ponente del vector. Sea a un vector en el plano y c una constante real.
   
ax c · ax
c·a =c· = (5)
ay c · ay

Geométricamente, la constante solo cambia la norma del vector. Aunque si esta es negativa, la
dirección del vector se vuelve totalmente la opuesta a su dirección original.

2.2. Suma
La suma de vectores se lleva a cabo sumando componente por componente de cada vector.
Nótese que la suma de vectores da como resultado otro vector. Sean a y b vectores en R2 , entonces
a + b se calcula de la forma siguiente.
       
ax bx ax + bx c
a+b= + = = x =c (6)
ay by ay + by cy

La interpretación geométrica de esto es el método llamado de punta con cola. Este consiste en
colocar un la cola de un vector en la punta del otro logrando ası́ que entre los dos apunten a un
punto que será el resultado. En la Figura 8 se ve que al sumar el vector A con el vector AB el
resultado es el vector B.

Figura 8: Suma de los vectores A y AB dando como resultado el vector B.

5
2.3 Vector Unitario 2 VECTORES (REPASO)

2.3. Vector Unitario


El vector unitario no es más que un vector cuya norma es igual a 1. Para ello se toma un vector
y se lo divide por su norma. Tómese el ejemplo siguiente. Sea a un vector en R2 . El vector unitario
de a, el cual se representa por â, se calcula de la forma siguiente.
a
â = (7)
|a|

La representación geométrica de esto es un vector con la misma dirección que a, pero de longitud
igual a 1.

2.4. Producto Punto


El producto punto o producto escalar es una operación entre dos vectores que da como resultado
un escalar. Este se lleva a cabo multiplicando componente por componente de los vectores y
posteriormente sumando todos los resultados. Sean pues a y b vectores en R2 .
   
a b
a · b = x · x = ax · bx + ay · by (8)
ay by
Esta operación tiene relación con la ortogonalidad de los vectores. Si dos vectores v1 y v2 son
ortogonales, entonces el producto escalar entre los dos es igual a 0.

Esta operación se puede escribir como la multiplicación de un vector por la transpuesta del
otro si estos se toman como matrices de m × 1. Una matriz ai,j tiene como transpuesta a la matriz
aj,i . Para el caso de dos vectores a y b en R2 , el producto2 se verı́a de la siguiente forma.
 
T
  bx
a · b = a b = ax ay = ax · bx + ay · by (9)
by

Como se puede observar, el resultado es el mismo, por lo que ambas formas de escribir esta
operación son equivalentes.

2
La multiplicación de matrices se realiza de la forma: Sumatoria de todos los productos de los elementos de cada
fila por los elementos de cada columna.

6
3 PROYECCIONES

3. Proyecciones
En Álgebra Lineal, una proyección no es más que la representación de un elemento de un
espacio vectorial a un subespacio del mismo. Con esto se quiere decir que un vector a de un
conjunto W es representado por otro vector α de un conjunto V más pequeño, cuando el conjunto
V está contenido en el conjunto W.

Figura 9: Proyección de un vector de un espacio a un subespacio.

Los casos más comunes que se utilizan para ejemplificar esto, es el de un vector sobre una recta
y el de un vector sobre un plano. La generalización de ambos casos termina siendo una matriz
que realiza la proyección de un especio a otro. La matriz es particular para cada proyección, sin
embargo, el concepto es el mismo en todos los casos. A esta matriz se le llama matriz de proyección.

3.1. Proyección sobre una Recta


Para ilustrar este tema, se utiliza siempre la proyección de un vector en R2 sobre una recta
también en R2 . En este caso se realizará la deducción completa, sin embargo no se tratará a ningún
ejemplo en particular.

Figura 10: Proyección de un vector b sobre una recta g.

Sea entonces b un vector en R2 y g: X = 0 + t · a, donde a es el vector sobre el que se proyec-


tará b. Nótese que entre a y b se comprende un ángulo θ. La proyección de b sobre a se denota
como el vector p. La notación para una proyección de este tipo es la siguiente: proya b y se lee
como la proyección de b sobre a.

Considérese entonces que la norma del vector p es igual a la norma de b por el coseno de θ.

|p| = |b| · cos (θ) (10)

7
3.1 Proyección sobre una Recta 3 PROYECCIONES

Y además, que el coseno de θ se define de la siguiente forma.


a·b
cos (θ) = (11)
|a| · |b|

Ahora, si se sustituye la ecuación (10) con la ecuación (11), se obtiene la norma del vector p
expresada en términos solo de a y b.
a·b a·b
|p| = |b| · = (12)
|a| · |b| |a|

Ahora, para obtener el vector p, se debe de dar dirección a su norma. Nótese que a y p son
colineales, por lo que el vector unitario para ambos casos es el mismo. Entonces, tomando las
ecuaciones (7) y (12), se calcula la proyección de b sobre a: el vector p.
a·b a a·b
proya b = p = |p| · â = · = ·a (13)
|a| |a| |a| · |a|

Ya se tiene entonces la proyección p de b sobre a. Si a b se le resta p, se obtendrá un vector


ortogonal a cualquier vector elemento de la recta g. Entonces puede decir que (b − proyab) · v = 0
para todo v ∈ g.

8
3.2 Proyección sobre un Plano 3 PROYECCIONES

3.2. Proyección sobre un Plano


En la sección anterior se hizo la deducción de la proyección de un vector en R2 a una recta, la
cual se puede considerar como un espacio unidimensional R. En el caso de una proyección sobre
un plano, se tomará un vector de R3 y se proyectará sobre un plano, el cual se puede considerar
como un espacio bidimensional R2 .

Figura 11: Proyección de un vector v sobre un plano S.

Para este caso, no se conoce un vector sobre el que se pueda proyectar el vector v. Es por esto
que en este caso la proyección se realizará utilizando varias poryecciones y luego suma de vectores.

Primero, se debe partir de la base ortogonal del plano. En este caso basta decir que se necesitan
dos vectores v1 , v2 ∈ S tal que v1 · v2 = 0. El vector v se proyecta entonces sobre cada uno de
ellos y luego el resultado de esto se suma para obtener la proyección de v sobre S proyS v.
v1 · v v2 · v
proyS v = proyv1 v + proyv2 v = · v1 + · v2 (14)
|v1 | · |v1 | |v2 | · |v2 |

Figura 12: Proyección de un vector v sobre vectores ortogonales para llegar a la proyección sobre el plano.

Al igual que en el caso de una recta, el vector proyección pudo ser calculado. En el caso de
un plano, también se cumple que si a v se le resta proySv, el vector resultante será ortogonal a
cualquier vector que sea elemento del plano S, ⇒ (v − proySv) · vi = 0 ∀ vi ∈ S.

9
3.3 Matriz de Proyección 3 PROYECCIONES

3.3. Matriz de Proyección


Como se puede observar en las dos secciones anteriores, las proyecciones no son más que trans-
formaciones. Por lo tanto, estas pueden ser representadas también por una matriz: la matriz de
proyección. En este caso se tiene una matriz A a la que se le puede multiplicar cualquier vector v
para obtener su proyección sobre un espacio W .

proyW v = Av (15)

En un caso general, se dice que el espacio W al que se está proyectando es el espacio generado
por las columnas de la matriz, puesto que el vector proyección solo puede pertenecer a ese espacio.
Para ejemplificar esto, considérese una matriz de m × n y un vector v ∈ Rn . La proyección estarı́a
dada entonces por:
   
a1,1 a1,2 a1,3 . . . a1,m v1
 a2,1 a2,2 a2,3 . . . a2,m   v2 
   
proyW v =  a3,1 a3,2 a3,3 . . . a3,m  ·  v3  (16)
   
 .. .. .. . . ..   .. 
 . . . . .   . 
an,1 an,2 an,3 . . . an,m vn

Al expandir esto se obtiene:


       
a1,1 a1,2 a1,3 a1,n
 a2,1   a2,2   a2,3   a2,n 
       
proyW v = v1  a3,1  + v1  a3,2  + v3  a3,3  + . . . + vn  a3,n (17)
       
 .. .. .. ..

      
 .   .   .   . 
am,1 am,2 am,3 am,n

Aqui se puede ver que si v es cualquier vector en Rn , entonces al espacio que se está proyec-
tando es el generado por la combinación lineal de las columnas de A. A este subespacio se le llama
espacio columna de A.

La matriz de proyección es especı́fica para cada proyección y para el caso del Método de
Mı́nimos Cuadrados se hará la deducción posteriormente. Sin embargo, en un caso general, la
matriz de proyección puede ser construida de la siguiente forma:

proyW v = UUT v (18)

Donde U es la matriz cuyas columnas son las bases ortonormales3 del espacio W .

3
Bases Ortonormales: Vectores ortogonales de norma igual a 1 que generan a un espacio vectorial.

10
4 MÉTODO DE MÍNIMOS CUADRADOS

4. Método de Mı́nimos Cuadrados

Figura 13: Regresión lineal y cuadrática.

El método de mı́nimos cuadrados es un método de extrapolación para encontrar la curva que


mejor se ajuste a una colección de puntos. Se le conoce también bajo el nombre de Regresión. Con
el tiempo se le han dado otros nombres como Lineal o Cuadrática dependiendo de la curva que
se desea aproximar. Para este caso en particular, se comenzará con la regresión lineal. Luego se
generalizará para cualquier curva que se desee.

4.1. Caso de una Recta


Se comenzará asumiendo que se tiene una cantidad n de puntos en el plano. Cada punto
tendrá una coordenada xi y una coordenada yi . Se quiere aproximar la tendencia de estos mediante
una recta de la forma:

g(x) = a + bx (19)

Se intentará hacer que todos los puntos pasen por la recta, por lo que se tendrá n ecuaciones de
una recta expersadas de la siguiente forma:

a + bx1 = ŷ1
a + bx2 = ŷ2
a + bx3 = ŷ3 (20)
..
.
a + bxn = ŷn

Donde ŷi es una aproximación de la coordenada en y de cada punto. Esto se puede reescribir de
forma matricial de la siguiente manera:
   
a bx1 ŷ1
 a bx2   ŷ2 
   
 a bx3   ŷ3 
= (21)
 .. ..   .. 
 
 . .   . 
a bxn ŷn

11
4.1 Caso de una Recta 4 MÉTODO DE MÍNIMOS CUADRADOS

Que, reescribiendolo, es lo mismo que:


   
1 x1 ŷ1
 1 x2     ŷ2 
 1 x3  a
   
=  ŷ3  ⇒ Ax = v (22)
 
 .. ..  b  .. 
 
 . .   . 
1 xn ŷn

La matriz que contiene a los xi se la ha identificado como A, al vector de incógnitas (a y b) como


x y al vector que contiene a las ŷi como v. Pero para todo xi habrá un ŷi diferente de yi ya que
la recta no pasará realmente por todos los puntos. Entonces se cuenta con cierto error para cada
punto (ver Figura 14).

Figura 14: Distancias de las que se compone el error.

El error se medirá en forma de distancias entre yi y ŷi . Nótese que en este caso se utilizará la
forma vista con anterioridad. El error para cada xi estará dado por:

e2i = (yi − ŷi )2 = (yi − (a + bxi ))2 (23)


Y entonces, el error total ε2 en todo el método se puede expresar de la siguiente forma:
n
X n n
 2 X 2
X
2
ε = ei = [yi − ŷi] = [yi − (a + bxi )]2 (24)
i=1 i=1 i=1

La razón por la cual el error total ε y el error ei se escriben elevados al cuadrado se verá a
continuación. Ahora, si se reescribe el error de forma vectorial, se obtiene un vector e de la forma
siguiente:
   
e1 y1 − (a + bx1 )
 e2   y2 − (a + bx2 ) 
   
e = |v − Ax| =  e3  =  y3 − (a + bx3 )  (25)
   
 ..   .. 
 .   . 
en yn − (a + bxn )

12
4.1 Caso de una Recta 4 MÉTODO DE MÍNIMOS CUADRADOS

Si se calcula la norma del vector de error en la ecuación (25), se obtiene lo siguiente:


 
e1

 e2  v
u n
  q uX
 e3  2 2 2
|e| =  2
 = e1 + e2 + e3 + . . . + en = t [e2i ] = ε (26)
 .. 
 .  i=1

en

Nótese que la norma |e| es igual a ε. Es por esto que ambos se escriben elevados al cuadrado.

Ahora, las ecuaciones (24) y (26) son prácticamente lo mismo. Solo la ecuación (22) será la
excepción, ya que de esta (igual que de las anteriores 2), se puede encontrar la solución al problema.
Por esto, la resolución de estas se llevará a cabo de dos formas: Diferecial y Algebráica. Ambas
serán presentadas en las secciones 4.3 y 4.4 con el fin de llegar a la solución (sección 4.5).

13
4.2 Generalización 4 MÉTODO DE MÍNIMOS CUADRADOS

4.2. Generalización
En esta sección se intentará generalizar el concepto que se vio en la sección anterior. Para ello
se considerará que la curva que describe la tendencia de la colección de puntos es un polinomio P
de grado m. Entonces la ecuación será la siguiente:

P (x) = β1 + β2 x + β3 x2 + . . . + βm+1 xm = ŷ (27)

Entonces las n ecuaciones para los puntos dados se verán de la siguiente forma:

β1 + β2 x1 + β3 x21 + . . . + βm+1 xm
1 = ŷ1
β1 + β2 x2 + β3 x22 + . . . + βm+1 xm
2 = ŷ2
.. (28)
.
β1 + β2 xn + β3 x2n + . . . + βm+1 xm
n = ŷn

Lo cual, de forma matricial, se puede representar ası́:


 
  β1  
1 x1 x21 . . . xm 1  β2  ŷ1
 1 x2 x2 . . . xm     ŷ2 
2 2 
 .. .. .. . . ..   β3 = ..  ⇒ Ax = v (29)
   
 . . . . .   ..   . 
2
 .
1 xn xn . . . xm

n ŷn
βm+1

Nótese que la ecuación (22) y ecuación (29) terminan de la misma forma. Por lo que el procedi-
miento a partir de estas será el mismo.

Ahora, se procederá a ver el error generalizado a polinomios. Para ello la ecuación principal
será de la forma:
2
e2 = (yi − ŷi )2 = yi − β1 + β2 xi + β3 x2i + . . . + βm+1 xm
i (30)

Entonces el error, al igual que en la sección anterior, se puede expresar en forma vectorial ası́:
   
e1 ŷ1 − (β1 + β2 x1 + β3 x21 + . . . + βm+1 xm
1 )
 e2   ŷ2 − (β1 + β2 x2 + β3 x2 + . . . + βm+1 xm ) 
2 2
e =  ..  =  .. (31)
   

 .   . 
en ŷn − (β1 + β2 xn + β3 x2n + . . . + βm+1 xmn)

Considerando la ecuación (26), entonces el error total ε2 se puede expresar de la siguiente forma:

n n n
2 2
X 2
X 2
X 2
yi − β1 + β2 xi + β3 x2i + . . . + βm+1 xm

ε = |e| = [ei ] = [yi − ŷi ] = i (32)
i=1 i=1 i=1

Las ecuaciones (29) y (32) son equivalentes a las ecuaciones (22) y (24) de la sección anterior,
por lo que la resolución de el sistema ya generalizado para cualquier polinomio, se puede llevar a

14
4.2 Generalización 4 MÉTODO DE MÍNIMOS CUADRADOS

cabo de la misma manera que con una recta. Es por ello que la resolución que se verá a continuación
será para una recta. Cualquier aspecto que cambie entre este caso y el generalizado se indicará en
las siguientes secciones también.

15
4.3 Resolución Diferencial 4 MÉTODO DE MÍNIMOS CUADRADOS

4.3. Resolución Diferencial


El problema de mı́nimos cuadrados intenta encontrar una curva que sea la que mejor se ajuste
a una colección de puntos. Siendo este el caso, se intenta minimizar4 el error entre la curva y todos
los puntos.

En esta sección se intentará buscar este mı́nimo por medio del cálculo diferencial. Para ello se
optimizará la función de error ε2 , lo cual implica derivarla con respecto a cada una de las variables
a y b o en el caso de un polinomio mayor, con respecto a todos los βj donde j − 1 = m, el grado
del polinimo.

Se procede entonces a derivar la función de error ε2 (Ecuación (24)):


n
! n 
∂ (ε2 )

∂ X 2
X ∂ 2
= [yi − (a + bxi )] = (yi − (a + bxi )) (33)
∂a ∂a i=1 i=1
∂a
n
! n 
∂ (ε2 )

∂ X 2
X ∂ 2
= [yi − (a + bxi )] = (yi − (a + bxi )) (34)
∂b ∂b i=1 i=1
∂b

Nótese que de la sumatoria se obtendrı́a solo coeficientes de a o b sin potencia o elevados al


cuadrado5 . El cambio entre la sumatoria y la derivada parcial (Ecuaciones (33) y (34)) es posible
de realizar gracias a las propiedades de la derivada6 .

Se continúa entonces con las derivadas y se igualan estas a 0 con el fin de encontrar el máximo
o mı́nimo.
n
∂ (ε2 ) X
= −2 [yi − (a + bxi )] = 0 (35)
∂a i=1
n
∂ (ε2 ) X
= −2 [yi − (a + bxi )] xi = 0 (36)
∂b i=1

Se distribuye la sumatoria y se reordenan los términos de tal forma en que la ecuación parezca
la de una recta.
n
X n
X
na + b [xi ] = [yi ] (37)
i=1 i=1
n
X n
X n
 2 X
a [xi ] + b xi = [xi yi ] (38)
i=1 i=1 i=1

4
De aqui viene la otra parte del nombre del método: Mı́nimos Cuadrados.
5
Se puede pensar en parábolas de las que se busca el máximo o mı́nimo.
6
En este caso recurdese la propiedad que dicta que la derivada de una suma es la suma de las derivadas.

16
4.3 Resolución Diferencial 4 MÉTODO DE MÍNIMOS CUADRADOS

Esto se puede reescribir de forma matricial nuevamente:

b P ni=1 [xi ]
 P   Pn 
Pna i=1 [yi ]
= (39)
a ni=1 [xi ] b ni=1 [x2i ] n
P
i=1 [xi yi ]

Que finalmente se convierte en:


 Pn     Pn 
n [x
Pni=1 2i ] a [y i ]
Pn = Pni=1 ⇒ Bx = z (40)
i=1 [xi ] i=1 [xi ] b i=1 [xi yi ]

En este punto, ya se ha llegado a una forma en la que el error ha sido minimizado y ambas
ecuaciones solo necesitan ser resueltas. Sin embargo el último paso, la solución a partir de la
ecuación (40), se dejará para la sección 4.5.

17
4.4 Resolución Algebráica 4 MÉTODO DE MÍNIMOS CUADRADOS

4.4. Resolución Algebráica


Para la solución de forma algebráica se parte de la ecuación (25). Esta expresa el error de cada
punto con respecto al polinomio solución. Supóngase entonces que w̄ es el vector solución de la
distancia mı́nima que se busca y w es cualquier vector en R2 si se considera el caso de una recta.
El error de la recta solución es menor al de cualquier otra recta.

|v − Aw̄| ≤ |v − Aw| (41)


Se considerará entonces a Aw̄ como una proyección de v sobre el espacio columna de A, según
lo visto en la sección 3.3. Nótese que tanto v como Aw̄ pertenecen al mismo espacio vectorial.

proycol(A) v = Aw̄ (42)


El error de la recta solución se puede reescribir entonces como:

ε = v − proycol(A) v (43)
Según lo que se mostró en las secciones 3.1 y 3.2, se sabe que el error ε es un vector ortogonal
a cualquier vector elemento del espacio columna de A. Siendo esto ası́, se puede aprovechar la
ortogonalidad para encontrar al vector solución w̄. Sea r = Aw donde w es cualquier vector en
R2 .

r · v − proycol(A) v = 0
⇓ (44)
Aw · (v − Aw̄) = 0
El producto anterior se puede reescribir según se vio en la sección 2.4 como:

(Aw)T (v − Aw̄) = 0 (45)


wT AT (v − Aw̄) = 0 (46)
w · AT (v − Aw̄) = 0 (47)

Para pasar de (45) a (46) se utilizó propiedades de la transpuesta. Nótese que en la ecuación
(47), AT (v − Aw̄) es otrtogonal a todo vector w. El único vector ortogonal a todo vector en R2
es el vector 0. Se procede entonces a resolver el sistema AT (v − Aw̄) = 0.

AT (v − Aw̄) = 0 (48)
AT v − AT Aw̄ = 0 (49)
AT Ax = AT v (50)

Esto es lo mismo que:


 T    T  
1 x1 1 x1 1 x1 y1
 1 x2   1 x2    1 x2   y2 
 
 a
    
 1 x3   1
 x3 =
 1 x3   y3 
 
(51)
.. ..   .. ..  b .. ..   .. 
  
 
 . .   . .   . .   . 
1 xn 1 xn 1 xn yn

18
4.4 Resolución Algebráica 4 MÉTODO DE MÍNIMOS CUADRADOS

Al calcular la transpuesta, se obtiene lo siguiente:


   
1 x1 y1
  1
 x2     y2 
1 1 1 ... 1  1 a 1 1 1 ... 1
 
x3  =
 y3 
(52)
x1 x2 x3 . . . xn  .. ..  b x1 x2 x3 . . . xn ..
   
 
 . .   . 
1 xn yn

El resultado de la multiplicación de matrices del lado izquierdo da como resultado una matriz de
2 × 2, mientras que la del lado derecho da como resultado una matriz de 2 × 1. Se procede entonces
a hacer la multiplicación de las matrices y el resultado es el siguiente:
 Pn     Pn 
Pn n Pni=1 [x2i ] a
= P n
i=1 [yi ]
⇒ Bx = z (53)
i=1 [xi ] i=1 [xi ] b i=1 [xi yi ]

Nótese que la ecuación (53) es exactamente igual a la ecuación (40). El procedimiento algebráico
es más cómodo, sin embargo, cuando se trabaja con polinomios de grado > 1.

19
4.5 Solución 4 MÉTODO DE MÍNIMOS CUADRADOS

4.5. Solución
Ahora, para concluir con la deducción, se tomará las ecuaciones (40) y (53) y se resolverá estas.
Para ello se utiliza a la matriz inversa. De esta forma
  se removerá la matriz de sumatorias del lado
a
izquierdo, dejando ası́ al vector de coeficientes despejado.
b
Primero se calculará la matriz inversa de (40). Existen 2 métodos para hacer esto: Por deter-
minantes y por el método de Gauss-Jordan. La operatoria utilizada en el sengundo método es más
larga en comparación al método por determinantes, por lo que se procederá a calcular la inversa
por deternimantes.

El determinante de la matriz, se calcula entonces:

Pn n n
!2
n i=1 [xi ]
X  2 X
det |B| = det n
n
=n xi − [xi ] (54)
[x2i ]
P P
[xi ]i=1 i=1

i=1 i=1

Ya con el determinante, la matriz inversa se puede expresar de la siguiente forma:

 Pn −1  Pn 2
Pn 
[x ] 1 [x ] − [x ]
B −1
= Pn n i=1
Pn i
2 = i=1
Pn i i=1 i
(55)
i=1 [xi ] i=1 [xi ] det |B| − i=1 [xi ] n

Ahora, aplicando la inversa a ambos lados de la ecuación se obtiene:

B −1 Bx = B −1 z
⇓ (56)
x = B −1 z
 
[x2i ]
Pn Pn
  i=1 i=1 [xi ]
−  Pn 
a n i=1 [xi ]−( n
Pn 2
P
i=1 [xi ])
2
n n
P
x [ ] (
2 −
Pn
i=1 [xi ]
2
)  i=1 [y i ]
= (57)
 Pn i=1 i Pn
b i=1 [xi ]
i=1 [xi yi ]
− n

2 2
[ ] ( ) [ ] ( ni=1 [xi ])
Pn 2 −
Pn Pn 2 −
P
n x
i=1 i i=1 [xi ] n x
i=1 i

Y de esto, al terminar de multiplicar se obtiene dos ecuaciones independientes:

[xi ]2
Pn Pn Pn Pn
i=1 [yi ] − i=1 [xi ] [xi yi ]
a= Pni=1 2 Pn 2
i=1
(58)
n i=1 [xi ] − ( i=1 [xi ])

Pn
[xi yi] − ni=1 [xi ] ni=1 [yi ]
P P
n i=1
b= 2 (59)
n ni=1 [x2i ] − ( ni=1 [xi ])
P P

20
4.5 Solución 4 MÉTODO DE MÍNIMOS CUADRADOS

Ahora, si se considera que la media de una serie de datos w1 , w2 , . . . , wi se calcula de la siguiente


forma:
Pn
[wi ]
w̄ = i=1 (60)
n
Entonces las ecuaciones (58) y (59), después de un poco de manipulación algebráica, se pueden
reescribir de la siguiente forma:

ȳ ni=1 [xi ]2 − x̄ ni=1 [xi yi]


P P
a= Pn 2 2
(61)
i=1 [xi ] − nx̄

Pn
[xi yi ] − nx̄ȳ
b = Pi=1
n 2 2
(62)
i=1 [xi ] − nx̄

Y con estas dos últimas ecuaciones se concluye la deducción del método de mı́nimos cuadrados.
Los escalares a y b se introducen en la ecuación (19) y con ello se logra la recta que mejor aproxima
la tendencia de la colección de puntos que se tenı́a al principio.

Para el caso generalizado la solución se deduce de la misma forma, solo que la ecuación con que
se comienza (es decir, la ecuación matricial obtenida de las secciones 4.3 y 4.4) serı́a más grande.
De hecho, si la curva que se desea aproximar es un polinomio de grado m, entonces la matriz serı́a
de (m + 1) × (m + 1).

21
5 CASOS ESPECIALES

5. Casos Especiales
Tomando en cuenta que no todas las curvas que se deseen aproximar son polinomios, se dedica
una sección al caso de las curvas exponencial y logarı́tmica. Después de esto se espera haber dejado
claro que a cualquier colección de puntos se le puede aproximadar cualquier curva si se aplica la
transformación correcta.

5.1. Exponencial

Figura 15: Regresión exponencial.

Para el caso de una colección de puntos que se comportan de forma exponencial, la mejor
aproximación serı́a una curva de la forma:

f (x) = y = cedx (63)

En este caso, la deducción hecha previamente aplicarı́a si esta ecuación se pudiera transformar
en algún tipo de polinomio. Si a esta ecuación se le aplica logarı́tmo natural, nótese que se puede
llevar a un polinomio de grado 1.

ln(y) = ln cedx

(64)
dx

= ln(c) + ln e (65)
= ln(c) + dx (66)

Ahora, si todos los puntos ln(y) se utilizan como un Y , y ln(c) se toma como una constante C,
entonces la ecuación (66) se transforma a un polinomio grado 1 de la forma:

Y = C + dx (67)

Esta ya se puede resolver con la misma deducción planteada previamente. Una vez calculados
c = eC y d ya se pueden introducir estos a la ecuación (63) y con esto obtener la curva deseada.

22
5.2 Logarı́tmica 5 CASOS ESPECIALES

5.2. Logarı́tmica

Figura 16: Regresión logarı́tmica.

Para el caso de un comportamiento logarı́tmico, la ecuación general que se ajustarı́a serı́a de


la forma:

f (x) = y = b logk (cx) (68)


Este caso es un poco diferente al anterior. En este caso no se aplicará ninguna transformación,
sino que se reordenará algunos términos de la forma siguiente:

y = b logk (c) + b logk (x) (69)

Nótese pues, que la ecuación allı́ ya tiene la forma de un polinomio de grado 1. Para que esto se
vuelva más claro, considérese (b logk (c)) como una sola constante C y a logk (x) como X. Entonces
la ecuación se verı́a ası́:

y = C + bX (70)

Se resuelve entonces el problema como si este fuera una recta y por último se sustituyen las
constantes c y b en la ecuación (68). Nótese que para obtener c se debe de realizar la siguiente
operación:
C
c=kb (71)

23
6 BIBLIOGRAFÍA

6. Bibliografı́a
6.1. Literatura
Anderson et. al. 1999. Estadı́stica para Administración y Economı́a. 7 ed. Thomson

Grossman S. 1984. Elementary Linear Algebra. 2 ed. Wadsworth

Poole D. 2004. Álgebra Lineal: Una Introducción Moderna. Thomson

6.2. Internet
Weisstein E. 2009. Least Squares Fitting. Wolfram MathWorld.
http://mathworld.wolfram.com/LeastSquaresFitting.html

Weisstein E. 2009. Least Squares Fitting - Exponential. Wolfram MathWorld.


http://mathworld.wolfram.com/LeastSquaresFittingExponential.html

Weisstein E. 2009. Least Squares Fitting - Logarithmic. Wolfram MathWorld.


http://mathworld.wolfram.com/LeastSquaresFittingLogarithmic.html

Wiley Publishing Inc. 2009. Linear Algebra: Projection onto a Subspace. CliffsNotes.
http://www.cliffsnotes.com/WileyCDA/CliffsReviewTopic/Projection-onto-a-Subspace.topicArticleId-20807,articleId-20792.html

6.3. Herramientas
GIMP: GNU Image Manipulation Program. Version 2.6.3. 2008.
http://www.gimp.org/

OpenOffice.org: The Free and Open Productivity Suite. Version 3.0.1. 2008.
http://www.openoffice.org/

SAGE: Open Source Mathematics Software. Version 3.1.4. 2008.


http://www.sagemath.org/

TexMaker: Free LATEX Editor. Version 1.7. 2008.


http://www.xm1math.net/texmaker/

24

También podría gustarte