Minimos Cuadrados1 PDF

Método de Mı́nimos Cuadrados
Universidad de San Carlos de Guatemala

Facultad de Ciencias Quı́micas y Farmacia
Matemática V
Rony José Letona QQ 200960024
José Roy Morales QQ 200717695
ÍNDICE ÍNDICE
Índice
1. Distancias 1
1.1. R (Recta Real) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. R2 (Plano Cartesiano) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. R3 (Espacio Tridimensional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Vectores (Repaso) 5
2.1. Multiplicación por una Constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Vector Unitario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. Producto Punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3. Proyecciones 7
3.1. Proyección sobre una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Proyección sobre un Plano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3. Matriz de Proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4. Método de Mı́nimos Cuadrados 11

4.1. Caso de una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2. Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3. Resolución Diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Resolución Algebráica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.5. Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5. Casos Especiales 22
5.1. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6. Bibliografı́a 24
6.1. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.2. Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.3. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0
1 DISTANCIAS
1. Distancias
Para comenzar la deducción del método de mı́nimos cuadrados, es conveniente que se haga
un breve repaso sobre la forma en la que se miden distancias. Eso por esto que esta sección
está dedicada a ello.
1.1. R (Recta Real)
Figura 1: Recta real.
Para facilitar la comprensión, se comienza con la Recta Real (ver Figura 1). En ella la medición
de distancias es relativamente sencilla y casi intuitiva: se calcula la diferencia de distancias hacia
el origen. Nótese que en el caso de los números negativos, la distancia hay que tomarla en valor
absoluto. Es por esto que la fórmula general más común para la medición de distancias en R es la
siguiente:
Sean A y B ∈ R. La distancia d entre A y B es entonces
d(A, B) = |B − A| (1)
Esta forma de medir distancias en muy práctica, pero no es la única. Existen varias formas de
medir distancias, pero la que concierne al estudio del método de mı́nimos cuadrados es la que se
ve a continuación.
Figura 2: Distancia entre puntos.
Considerando que el álgebra al calcular con valores absolutos es relativamente complicada, la

forma utilizada para medir distancias en el método de mı́nimos cuadrados es distinta. Esta en
lugar de utilizar valores absolutos, eleva la expresión dentro del valor absoluto en la ecuación (1)
al cuadrado. De alli su nombre: Método de Mı́nimos Cuadrados. Entonces, la fórmula general es la
siguiente:
Sean A y B ∈ R. La distancia d entre A y B es entonces
d(A, B) = (B − A)2 (2)
1
1.2 R2 (Plano Cartesiano) 1 DISTANCIAS
1.2. R2 (Plano Cartesiano)
Figura 3: Plano cartesiano.
En el caso del plano cartesiano, ya no se tiene una sino dos rectas reales unidas mediante un
Producto Cartesiano 1. La ubicación de cada punto está dada por pares ordenados. En este caso la
forma que se utiliza para medir distancias es la que ya se conoce.

2 xa xb
Sean A y B puntos en R tal que A = y B = . La distancia d entre los dos
ya yb
está dada por
q q
d(A, B) = (∆x)2 + (∆y)2 = (xb − xa )2 + (yb − ya )2 (3)
Como se puede notar, esto tiene mucha similitud con el teorema de Pitágoras. Esto es porque
la distancia entre un punto y el otro en R2 es, de hecho, la hipotenusa de un triángulo rectángulo
(ver Figura 4). En este caso los dos catetos son la distancia entre la las coordenadas en x y la
distancia entre la las coordenadas en y.
Figura 4: Distancia entre puntos (Pitgoras).
En el caso del método de mı́nimos cuadrados, esto no se utilizará de forma obvia, pero se
recomienda tener en mente la forma de la medición.
1
También llamado Producto Cruz. Este surgió en las formulaciones de Descartes sobre geometrı́a analı́tica. El
plano cartesiano es un ejemplo: (R × R).
2
1.3 R3 (Espacio Tridimensional) 1 DISTANCIAS
1.3. R3 (Espacio Tridimensional)
Figura 5: Espacio tridimensional.
Para complementar el repaso sobre las mediciones de distancia, se analizará un último caso. R3
se construye mediante el triple producto cartesiano de R, es decir (R × R × R). Son 3 rectas reales
que nos llevan a que la ubicación de cada punto en el espacio esté dada por una triada ordenada.
La forma para medir distancias en este caso es la siguiente:
   
xa xb
3
Sean A y B puntos en R tal que A = ya y B = yb . La distancia d entre los dos
  
za zb
está dada por
q q
2 2 2
d(A, B) = (∆x) + (∆y) + (∆z) = (xb − xa )2 + (yb − ya )2 + (zb − za )2 (4)
A esta distancia se le llama distancia Euclidiana. Nótese que esta es semejante al teorema de
Pitágoras, sin embargo, no es lo mismo. Algo que si se debe de tomar en cuenta es que la distancia
en R2 conserva la misma forma que en R3 .
Figura 6: Distancia entre puntos (Distancia Euclidiana).
Esto se puede generalizar para todos los Rn si se conserva la forma observada en R2 y en R3 .
3
1.4 Transformación 1 DISTANCIAS
1.4. Transformación
Figura 7: Gráficas de f (x) = x2 y g(x) = |x| en R2 .
Si se piensa por un momento que de la forma de medir distancias vista al principio (Ecuación
1) y la siguiente (Ecuación 2) no se obtiene el mismo resultado, se está en lo cierto. Se puede argu-
mentar que a la primera forma se le fue aplicada una transformación (elevación al cuadrado) que
en cualquier momento puede ser revertida (raı́z cuadrada). La forma de la distancia transformada
no varı́a mucho de la forma de la distancia vista al principio (ver Figura 7). Es por esto que esta
trasnformación es válida. También se hace mucho énfasis en que la trasformación se hace con el
fin de facilitar los cálculos que se llevarán a cabo posteriormente.
4
2 VECTORES (REPASO)
2. Vectores (Repaso)
En esta sección se intentará definir las operaciones que se pueden realizar entre vectores en
R2 . Por supuesto, todas estas se pueden extender a los vectores en Rn . Solo se hará un repaso
de la multiplicación por un escalar, suma, vector unitario y producto punto, ya que estas son las
pertinentes para la comprensión de este documento.
2.1. Multiplicación por una Constante

La multiplicación de un vector por una constante se realiza multiplicando esta por cada com-
ponente del vector. Sea a un vector en el plano y c una constante real.

ax c · ax
c·a =c· = (5)
ay c · ay
Geométricamente, la constante solo cambia la norma del vector. Aunque si esta es negativa, la
dirección del vector se vuelve totalmente la opuesta a su dirección original.
2.2. Suma
La suma de vectores se lleva a cabo sumando componente por componente de cada vector.
Nótese que la suma de vectores da como resultado otro vector. Sean a y b vectores en R2 , entonces
a + b se calcula de la forma siguiente.

ax bx ax + bx c
a+b= + = = x =c (6)
ay by ay + by cy
La interpretación geométrica de esto es el método llamado de punta con cola. Este consiste en
colocar un la cola de un vector en la punta del otro logrando ası́ que entre los dos apunten a un
punto que será el resultado. En la Figura 8 se ve que al sumar el vector A con el vector AB el
resultado es el vector B.
Figura 8: Suma de los vectores A y AB dando como resultado el vector B.
5
2.3 Vector Unitario 2 VECTORES (REPASO)
2.3. Vector Unitario

El vector unitario no es más que un vector cuya norma es igual a 1. Para ello se toma un vector
y se lo divide por su norma. Tómese el ejemplo siguiente. Sea a un vector en R2 . El vector unitario
de a, el cual se representa por â, se calcula de la forma siguiente.
a
â = (7)
|a|
La representación geométrica de esto es un vector con la misma dirección que a, pero de longitud
igual a 1.
2.4. Producto Punto

El producto punto o producto escalar es una operación entre dos vectores que da como resultado
un escalar. Este se lleva a cabo multiplicando componente por componente de los vectores y
posteriormente sumando todos los resultados. Sean pues a y b vectores en R2 .

a b
a · b = x · x = ax · bx + ay · by (8)
ay by
Esta operación tiene relación con la ortogonalidad de los vectores. Si dos vectores v1 y v2 son
ortogonales, entonces el producto escalar entre los dos es igual a 0.
Esta operación se puede escribir como la multiplicación de un vector por la transpuesta del
otro si estos se toman como matrices de m × 1. Una matriz ai,j tiene como transpuesta a la matriz
aj,i . Para el caso de dos vectores a y b en R2 , el producto2 se verı́a de la siguiente forma.

T
bx
a · b = a b = ax ay = ax · bx + ay · by (9)
by
Como se puede observar, el resultado es el mismo, por lo que ambas formas de escribir esta
operación son equivalentes.
2
La multiplicación de matrices se realiza de la forma: Sumatoria de todos los productos de los elementos de cada
fila por los elementos de cada columna.
6
3 PROYECCIONES
3. Proyecciones
En Álgebra Lineal, una proyección no es más que la representación de un elemento de un
espacio vectorial a un subespacio del mismo. Con esto se quiere decir que un vector a de un
conjunto W es representado por otro vector α de un conjunto V más pequeño, cuando el conjunto
V está contenido en el conjunto W.
Figura 9: Proyección de un vector de un espacio a un subespacio.
Los casos más comunes que se utilizan para ejemplificar esto, es el de un vector sobre una recta
y el de un vector sobre un plano. La generalización de ambos casos termina siendo una matriz
que realiza la proyección de un especio a otro. La matriz es particular para cada proyección, sin
embargo, el concepto es el mismo en todos los casos. A esta matriz se le llama matriz de proyección.
3.1. Proyección sobre una Recta

Para ilustrar este tema, se utiliza siempre la proyección de un vector en R2 sobre una recta
también en R2 . En este caso se realizará la deducción completa, sin embargo no se tratará a ningún
ejemplo en particular.
Figura 10: Proyección de un vector b sobre una recta g.
Sea entonces b un vector en R2 y g: X = 0 + t · a, donde a es el vector sobre el que se proyec-

tará b. Nótese que entre a y b se comprende un ángulo θ. La proyección de b sobre a se denota
como el vector p. La notación para una proyección de este tipo es la siguiente: proya b y se lee
como la proyección de b sobre a.
Considérese entonces que la norma del vector p es igual a la norma de b por el coseno de θ.
|p| = |b| · cos (θ) (10)
7
3.1 Proyección sobre una Recta 3 PROYECCIONES
Y además, que el coseno de θ se define de la siguiente forma.

a·b
cos (θ) = (11)
|a| · |b|
Ahora, si se sustituye la ecuación (10) con la ecuación (11), se obtiene la norma del vector p
expresada en términos solo de a y b.
a·b a·b
|p| = |b| · = (12)
|a| · |b| |a|
Ahora, para obtener el vector p, se debe de dar dirección a su norma. Nótese que a y p son
colineales, por lo que el vector unitario para ambos casos es el mismo. Entonces, tomando las
ecuaciones (7) y (12), se calcula la proyección de b sobre a: el vector p.
a·b a a·b
proya b = p = |p| · â = · = ·a (13)
|a| |a| |a| · |a|
Ya se tiene entonces la proyección p de b sobre a. Si a b se le resta p, se obtendrá un vector

ortogonal a cualquier vector elemento de la recta g. Entonces puede decir que (b − proyab) · v = 0
para todo v ∈ g.
8
3.2 Proyección sobre un Plano 3 PROYECCIONES
3.2. Proyección sobre un Plano

En la sección anterior se hizo la deducción de la proyección de un vector en R2 a una recta, la
cual se puede considerar como un espacio unidimensional R. En el caso de una proyección sobre
un plano, se tomará un vector de R3 y se proyectará sobre un plano, el cual se puede considerar
como un espacio bidimensional R2 .
Figura 11: Proyección de un vector v sobre un plano S.
Para este caso, no se conoce un vector sobre el que se pueda proyectar el vector v. Es por esto
que en este caso la proyección se realizará utilizando varias poryecciones y luego suma de vectores.
Primero, se debe partir de la base ortogonal del plano. En este caso basta decir que se necesitan
dos vectores v1 , v2 ∈ S tal que v1 · v2 = 0. El vector v se proyecta entonces sobre cada uno de
ellos y luego el resultado de esto se suma para obtener la proyección de v sobre S proyS v.
v1 · v v2 · v
proyS v = proyv1 v + proyv2 v = · v1 + · v2 (14)
|v1 | · |v1 | |v2 | · |v2 |
Figura 12: Proyección de un vector v sobre vectores ortogonales para llegar a la proyección sobre el plano.
Al igual que en el caso de una recta, el vector proyección pudo ser calculado. En el caso de
un plano, también se cumple que si a v se le resta proySv, el vector resultante será ortogonal a
cualquier vector que sea elemento del plano S, ⇒ (v − proySv) · vi = 0 ∀ vi ∈ S.
9
3.3 Matriz de Proyección 3 PROYECCIONES
3.3. Matriz de Proyección

Como se puede observar en las dos secciones anteriores, las proyecciones no son más que trans-
formaciones. Por lo tanto, estas pueden ser representadas también por una matriz: la matriz de
proyección. En este caso se tiene una matriz A a la que se le puede multiplicar cualquier vector v
para obtener su proyección sobre un espacio W .
proyW v = Av (15)
En un caso general, se dice que el espacio W al que se está proyectando es el espacio generado
por las columnas de la matriz, puesto que el vector proyección solo puede pertenecer a ese espacio.
Para ejemplificar esto, considérese una matriz de m × n y un vector v ∈ Rn . La proyección estarı́a
dada entonces por:
   
a1,1 a1,2 a1,3 . . . a1,m v1
 a2,1 a2,2 a2,3 . . . a2,m   v2 
   
proyW v =  a3,1 a3,2 a3,3 . . . a3,m  ·  v3  (16)
   
 .. .. .. . . ..   .. 
 . . . . .   . 
an,1 an,2 an,3 . . . an,m vn
Al expandir esto se obtiene:

       
a1,1 a1,2 a1,3 a1,n
 a2,1   a2,2   a2,3   a2,n 
       
proyW v = v1  a3,1  + v1  a3,2  + v3  a3,3  + . . . + vn  a3,n (17)
       
 .. .. .. ..

      
 .   .   .   . 
am,1 am,2 am,3 am,n
Aqui se puede ver que si v es cualquier vector en Rn , entonces al espacio que se está proyec-
tando es el generado por la combinación lineal de las columnas de A. A este subespacio se le llama
espacio columna de A.
La matriz de proyección es especı́fica para cada proyección y para el caso del Método de
Mı́nimos Cuadrados se hará la deducción posteriormente. Sin embargo, en un caso general, la
matriz de proyección puede ser construida de la siguiente forma:
proyW v = UUT v (18)
Donde U es la matriz cuyas columnas son las bases ortonormales3 del espacio W .
3
Bases Ortonormales: Vectores ortogonales de norma igual a 1 que generan a un espacio vectorial.
10
4 MÉTODO DE MÍNIMOS CUADRADOS
4. Método de Mı́nimos Cuadrados
Figura 13: Regresión lineal y cuadrática.
El método de mı́nimos cuadrados es un método de extrapolación para encontrar la curva que

mejor se ajuste a una colección de puntos. Se le conoce también bajo el nombre de Regresión. Con
el tiempo se le han dado otros nombres como Lineal o Cuadrática dependiendo de la curva que
se desea aproximar. Para este caso en particular, se comenzará con la regresión lineal. Luego se
generalizará para cualquier curva que se desee.
4.1. Caso de una Recta

Se comenzará asumiendo que se tiene una cantidad n de puntos en el plano. Cada punto
tendrá una coordenada xi y una coordenada yi . Se quiere aproximar la tendencia de estos mediante
una recta de la forma:
g(x) = a + bx (19)
Se intentará hacer que todos los puntos pasen por la recta, por lo que se tendrá n ecuaciones de
una recta expersadas de la siguiente forma:
a + bx1 = ŷ1
a + bx2 = ŷ2
a + bx3 = ŷ3 (20)
..
.
a + bxn = ŷn
Donde ŷi es una aproximación de la coordenada en y de cada punto. Esto se puede reescribir de
forma matricial de la siguiente manera:
   
a bx1 ŷ1
 a bx2   ŷ2 
   
 a bx3   ŷ3 
= (21)
 .. ..   .. 
 
 . .   . 
a bxn ŷn
11
4.1 Caso de una Recta 4 MÉTODO DE MÍNIMOS CUADRADOS
Que, reescribiendolo, es lo mismo que:

   
1 x1 ŷ1
 1 x2   ŷ2 
 1 x3  a
   
=  ŷ3  ⇒ Ax = v (22)
 
 .. ..  b  .. 
 
 . .   . 
1 xn ŷn
La matriz que contiene a los xi se la ha identificado como A, al vector de incógnitas (a y b) como

x y al vector que contiene a las ŷi como v. Pero para todo xi habrá un ŷi diferente de yi ya que
la recta no pasará realmente por todos los puntos. Entonces se cuenta con cierto error para cada
punto (ver Figura 14).
Figura 14: Distancias de las que se compone el error.
El error se medirá en forma de distancias entre yi y ŷi . Nótese que en este caso se utilizará la
forma vista con anterioridad. El error para cada xi estará dado por:
e2i = (yi − ŷi )2 = (yi − (a + bxi ))2 (23)

Y entonces, el error total ε2 en todo el método se puede expresar de la siguiente forma:
n
X n n
2 X 2
X
2
ε = ei = [yi − ŷi] = [yi − (a + bxi )]2 (24)
i=1 i=1 i=1
La razón por la cual el error total ε y el error ei se escriben elevados al cuadrado se verá a
continuación. Ahora, si se reescribe el error de forma vectorial, se obtiene un vector e de la forma
siguiente:
   
e1 y1 − (a + bx1 )
 e2   y2 − (a + bx2 ) 
   
e = |v − Ax| =  e3  =  y3 − (a + bx3 )  (25)
   
 ..   .. 
 .   . 
en yn − (a + bxn )
12
4.1 Caso de una Recta 4 MÉTODO DE MÍNIMOS CUADRADOS
Si se calcula la norma del vector de error en la ecuación (25), se obtiene lo siguiente:

 
e1

 e2  v
u n
  q uX
 e3  2 2 2
|e| =  2
 = e1 + e2 + e3 + . . . + en = t [e2i ] = ε (26)
 .. 
 .  i=1

en
Nótese que la norma |e| es igual a ε. Es por esto que ambos se escriben elevados al cuadrado.
Ahora, las ecuaciones (24) y (26) son prácticamente lo mismo. Solo la ecuación (22) será la
excepción, ya que de esta (igual que de las anteriores 2), se puede encontrar la solución al problema.
Por esto, la resolución de estas se llevará a cabo de dos formas: Diferecial y Algebráica. Ambas
serán presentadas en las secciones 4.3 y 4.4 con el fin de llegar a la solución (sección 4.5).
13
4.2 Generalización 4 MÉTODO DE MÍNIMOS CUADRADOS
4.2. Generalización
En esta sección se intentará generalizar el concepto que se vio en la sección anterior. Para ello
se considerará que la curva que describe la tendencia de la colección de puntos es un polinomio P
de grado m. Entonces la ecuación será la siguiente:
P (x) = β1 + β2 x + β3 x2 + . . . + βm+1 xm = ŷ (27)
Entonces las n ecuaciones para los puntos dados se verán de la siguiente forma:
β1 + β2 x1 + β3 x21 + . . . + βm+1 xm
1 = ŷ1
β1 + β2 x2 + β3 x22 + . . . + βm+1 xm
2 = ŷ2
.. (28)
.
β1 + β2 xn + β3 x2n + . . . + βm+1 xm
n = ŷn
Lo cual, de forma matricial, se puede representar ası́:

 
  β1  
1 x1 x21 . . . xm 1  β2  ŷ1
 1 x2 x2 . . . xm     ŷ2 
2 2 
 .. .. .. . . ..   β3 = ..  ⇒ Ax = v (29)
   
 . . . . .   ..   . 
2
 .
1 xn xn . . . xm

n ŷn
βm+1
Nótese que la ecuación (22) y ecuación (29) terminan de la misma forma. Por lo que el procedi-
miento a partir de estas será el mismo.
Ahora, se procederá a ver el error generalizado a polinomios. Para ello la ecuación principal
será de la forma:
2
e2 = (yi − ŷi )2 = yi − β1 + β2 xi + β3 x2i + . . . + βm+1 xm
i (30)
Entonces el error, al igual que en la sección anterior, se puede expresar en forma vectorial ası́:
   
e1 ŷ1 − (β1 + β2 x1 + β3 x21 + . . . + βm+1 xm
1 )
 e2   ŷ2 − (β1 + β2 x2 + β3 x2 + . . . + βm+1 xm ) 
2 2
e =  ..  =  .. (31)
   

 .   . 
en ŷn − (β1 + β2 xn + β3 x2n + . . . + βm+1 xmn)
Considerando la ecuación (26), entonces el error total ε2 se puede expresar de la siguiente forma:
n n n
2 2
X 2
X 2
X 2
yi − β1 + β2 xi + β3 x2i + . . . + βm+1 xm

ε = |e| = [ei ] = [yi − ŷi ] = i (32)
i=1 i=1 i=1
Las ecuaciones (29) y (32) son equivalentes a las ecuaciones (22) y (24) de la sección anterior,
por lo que la resolución de el sistema ya generalizado para cualquier polinomio, se puede llevar a
14
4.2 Generalización 4 MÉTODO DE MÍNIMOS CUADRADOS
cabo de la misma manera que con una recta. Es por ello que la resolución que se verá a continuación
será para una recta. Cualquier aspecto que cambie entre este caso y el generalizado se indicará en
las siguientes secciones también.
15
4.3 Resolución Diferencial 4 MÉTODO DE MÍNIMOS CUADRADOS
4.3. Resolución Diferencial

El problema de mı́nimos cuadrados intenta encontrar una curva que sea la que mejor se ajuste
a una colección de puntos. Siendo este el caso, se intenta minimizar4 el error entre la curva y todos
los puntos.
En esta sección se intentará buscar este mı́nimo por medio del cálculo diferencial. Para ello se
optimizará la función de error ε2 , lo cual implica derivarla con respecto a cada una de las variables
a y b o en el caso de un polinomio mayor, con respecto a todos los βj donde j − 1 = m, el grado
del polinimo.
Se procede entonces a derivar la función de error ε2 (Ecuación (24)):

n
! n
∂ (ε2 )

∂ X 2
X ∂ 2
= [yi − (a + bxi )] = (yi − (a + bxi )) (33)
∂a ∂a i=1 i=1
∂a
n
! n
∂ (ε2 )

∂ X 2
X ∂ 2
= [yi − (a + bxi )] = (yi − (a + bxi )) (34)
∂b ∂b i=1 i=1
∂b
Nótese que de la sumatoria se obtendrı́a solo coeficientes de a o b sin potencia o elevados al

cuadrado5 . El cambio entre la sumatoria y la derivada parcial (Ecuaciones (33) y (34)) es posible
de realizar gracias a las propiedades de la derivada6 .
Se continúa entonces con las derivadas y se igualan estas a 0 con el fin de encontrar el máximo
o mı́nimo.
n
∂ (ε2 ) X
= −2 [yi − (a + bxi )] = 0 (35)
∂a i=1
n
∂ (ε2 ) X
= −2 [yi − (a + bxi )] xi = 0 (36)
∂b i=1
Se distribuye la sumatoria y se reordenan los términos de tal forma en que la ecuación parezca
la de una recta.
n
X n
X
na + b [xi ] = [yi ] (37)
i=1 i=1
n
X n
X n
2 X
a [xi ] + b xi = [xi yi ] (38)
i=1 i=1 i=1
4
De aqui viene la otra parte del nombre del método: Mı́nimos Cuadrados.
5
Se puede pensar en parábolas de las que se busca el máximo o mı́nimo.
6
En este caso recurdese la propiedad que dicta que la derivada de una suma es la suma de las derivadas.
16
4.3 Resolución Diferencial 4 MÉTODO DE MÍNIMOS CUADRADOS
Esto se puede reescribir de forma matricial nuevamente:
b P ni=1 [xi ]
P Pn
Pna i=1 [yi ]
= (39)
a ni=1 [xi ] b ni=1 [x2i ] n
P
i=1 [xi yi ]
Que finalmente se convierte en:

Pn Pn
n [x
Pni=1 2i ] a [y i ]
Pn = Pni=1 ⇒ Bx = z (40)
i=1 [xi ] i=1 [xi ] b i=1 [xi yi ]
En este punto, ya se ha llegado a una forma en la que el error ha sido minimizado y ambas
ecuaciones solo necesitan ser resueltas. Sin embargo el último paso, la solución a partir de la
ecuación (40), se dejará para la sección 4.5.
17
4.4 Resolución Algebráica 4 MÉTODO DE MÍNIMOS CUADRADOS
4.4. Resolución Algebráica

Para la solución de forma algebráica se parte de la ecuación (25). Esta expresa el error de cada
punto con respecto al polinomio solución. Supóngase entonces que w̄ es el vector solución de la
distancia mı́nima que se busca y w es cualquier vector en R2 si se considera el caso de una recta.
El error de la recta solución es menor al de cualquier otra recta.
|v − Aw̄| ≤ |v − Aw| (41)

Se considerará entonces a Aw̄ como una proyección de v sobre el espacio columna de A, según
lo visto en la sección 3.3. Nótese que tanto v como Aw̄ pertenecen al mismo espacio vectorial.
proycol(A) v = Aw̄ (42)

El error de la recta solución se puede reescribir entonces como:
ε = v − proycol(A) v (43)
Según lo que se mostró en las secciones 3.1 y 3.2, se sabe que el error ε es un vector ortogonal
a cualquier vector elemento del espacio columna de A. Siendo esto ası́, se puede aprovechar la
ortogonalidad para encontrar al vector solución w̄. Sea r = Aw donde w es cualquier vector en
R2 .

r · v − proycol(A) v = 0
⇓ (44)
Aw · (v − Aw̄) = 0
El producto anterior se puede reescribir según se vio en la sección 2.4 como:
(Aw)T (v − Aw̄) = 0 (45)

wT AT (v − Aw̄) = 0 (46)
w · AT (v − Aw̄) = 0 (47)
Para pasar de (45) a (46) se utilizó propiedades de la transpuesta. Nótese que en la ecuación
(47), AT (v − Aw̄) es otrtogonal a todo vector w. El único vector ortogonal a todo vector en R2
es el vector 0. Se procede entonces a resolver el sistema AT (v − Aw̄) = 0.
AT (v − Aw̄) = 0 (48)
AT v − AT Aw̄ = 0 (49)
AT Ax = AT v (50)
Esto es lo mismo que:

 T    T  
1 x1 1 x1 1 x1 y1
 1 x2   1 x2   1 x2   y2 
 
 a
    
 1 x3   1
 x3 =
 1 x3   y3 
 
(51)
.. ..   .. ..  b .. ..   .. 
  
 
 . .   . .   . .   . 
1 xn 1 xn 1 xn yn
18
4.4 Resolución Algebráica 4 MÉTODO DE MÍNIMOS CUADRADOS
Al calcular la transpuesta, se obtiene lo siguiente:

   
1 x1 y1
 1
 x2   y2 
1 1 1 ... 1  1 a 1 1 1 ... 1
 
x3  =
 y3 
(52)
x1 x2 x3 . . . xn  .. ..  b x1 x2 x3 . . . xn ..
   
 
 . .   . 
1 xn yn
El resultado de la multiplicación de matrices del lado izquierdo da como resultado una matriz de
2 × 2, mientras que la del lado derecho da como resultado una matriz de 2 × 1. Se procede entonces
a hacer la multiplicación de las matrices y el resultado es el siguiente:
Pn Pn
Pn n Pni=1 [x2i ] a
= P n
i=1 [yi ]
⇒ Bx = z (53)
i=1 [xi ] i=1 [xi ] b i=1 [xi yi ]
Nótese que la ecuación (53) es exactamente igual a la ecuación (40). El procedimiento algebráico
es más cómodo, sin embargo, cuando se trabaja con polinomios de grado > 1.
19
4.5 Solución 4 MÉTODO DE MÍNIMOS CUADRADOS
4.5. Solución
Ahora, para concluir con la deducción, se tomará las ecuaciones (40) y (53) y se resolverá estas.
Para ello se utiliza a la matriz inversa. De esta forma
se removerá la matriz de sumatorias del lado
a
izquierdo, dejando ası́ al vector de coeficientes despejado.
b
Primero se calculará la matriz inversa de (40). Existen 2 métodos para hacer esto: Por deter-
minantes y por el método de Gauss-Jordan. La operatoria utilizada en el sengundo método es más
larga en comparación al método por determinantes, por lo que se procederá a calcular la inversa
por deternimantes.
El determinante de la matriz, se calcula entonces:
Pn n n
!2
n i=1 [xi ]
X 2 X
det |B| = det n
n
=n xi − [xi ] (54)
[x2i ]
P P
[xi ]i=1 i=1

i=1 i=1
Ya con el determinante, la matriz inversa se puede expresar de la siguiente forma:
Pn −1 Pn 2
Pn
[x ] 1 [x ] − [x ]
B −1
= Pn n i=1
Pn i
2 = i=1
Pn i i=1 i
(55)
i=1 [xi ] i=1 [xi ] det |B| − i=1 [xi ] n
Ahora, aplicando la inversa a ambos lados de la ecuación se obtiene:
B −1 Bx = B −1 z
⇓ (56)
x = B −1 z
 
[x2i ]
Pn Pn
i=1 i=1 [xi ]
− Pn
a n i=1 [xi ]−( n
Pn 2
P
i=1 [xi ])
2
n n
P
x [ ] (
2 −
Pn
i=1 [xi ]
2
)  i=1 [y i ]
= (57)
 Pn i=1 i Pn
b i=1 [xi ]
i=1 [xi yi ]
− n

2 2
[ ] ( ) [ ] ( ni=1 [xi ])
Pn 2 −
Pn Pn 2 −
P
n x
i=1 i i=1 [xi ] n x
i=1 i
Y de esto, al terminar de multiplicar se obtiene dos ecuaciones independientes:
[xi ]2
Pn Pn Pn Pn
i=1 [yi ] − i=1 [xi ] [xi yi ]
a= Pni=1 2 Pn 2
i=1
(58)
n i=1 [xi ] − ( i=1 [xi ])
Pn
[xi yi] − ni=1 [xi ] ni=1 [yi ]
P P
n i=1
b= 2 (59)
n ni=1 [x2i ] − ( ni=1 [xi ])
P P
20
4.5 Solución 4 MÉTODO DE MÍNIMOS CUADRADOS
Ahora, si se considera que la media de una serie de datos w1 , w2 , . . . , wi se calcula de la siguiente

forma:
Pn
[wi ]
w̄ = i=1 (60)
n
Entonces las ecuaciones (58) y (59), después de un poco de manipulación algebráica, se pueden
reescribir de la siguiente forma:
ȳ ni=1 [xi ]2 − x̄ ni=1 [xi yi]

P P
a= Pn 2 2
(61)
i=1 [xi ] − nx̄
Pn
[xi yi ] − nx̄ȳ
b = Pi=1
n 2 2
(62)
i=1 [xi ] − nx̄
Y con estas dos últimas ecuaciones se concluye la deducción del método de mı́nimos cuadrados.
Los escalares a y b se introducen en la ecuación (19) y con ello se logra la recta que mejor aproxima
la tendencia de la colección de puntos que se tenı́a al principio.
Para el caso generalizado la solución se deduce de la misma forma, solo que la ecuación con que
se comienza (es decir, la ecuación matricial obtenida de las secciones 4.3 y 4.4) serı́a más grande.
De hecho, si la curva que se desea aproximar es un polinomio de grado m, entonces la matriz serı́a
de (m + 1) × (m + 1).
21
5 CASOS ESPECIALES
5. Casos Especiales
Tomando en cuenta que no todas las curvas que se deseen aproximar son polinomios, se dedica
una sección al caso de las curvas exponencial y logarı́tmica. Después de esto se espera haber dejado
claro que a cualquier colección de puntos se le puede aproximadar cualquier curva si se aplica la
transformación correcta.
5.1. Exponencial
Figura 15: Regresión exponencial.
Para el caso de una colección de puntos que se comportan de forma exponencial, la mejor
aproximación serı́a una curva de la forma:
f (x) = y = cedx (63)
En este caso, la deducción hecha previamente aplicarı́a si esta ecuación se pudiera transformar
en algún tipo de polinomio. Si a esta ecuación se le aplica logarı́tmo natural, nótese que se puede
llevar a un polinomio de grado 1.
ln(y) = ln cedx

(64)
dx

= ln(c) + ln e (65)
= ln(c) + dx (66)
Ahora, si todos los puntos ln(y) se utilizan como un Y , y ln(c) se toma como una constante C,
entonces la ecuación (66) se transforma a un polinomio grado 1 de la forma:
Y = C + dx (67)
Esta ya se puede resolver con la misma deducción planteada previamente. Una vez calculados
c = eC y d ya se pueden introducir estos a la ecuación (63) y con esto obtener la curva deseada.
22
5.2 Logarı́tmica 5 CASOS ESPECIALES
5.2. Logarı́tmica
Figura 16: Regresión logarı́tmica.
Para el caso de un comportamiento logarı́tmico, la ecuación general que se ajustarı́a serı́a de

la forma:
f (x) = y = b logk (cx) (68)

Este caso es un poco diferente al anterior. En este caso no se aplicará ninguna transformación,
sino que se reordenará algunos términos de la forma siguiente:
y = b logk (c) + b logk (x) (69)
Nótese pues, que la ecuación allı́ ya tiene la forma de un polinomio de grado 1. Para que esto se
vuelva más claro, considérese (b logk (c)) como una sola constante C y a logk (x) como X. Entonces
la ecuación se verı́a ası́:
y = C + bX (70)
Se resuelve entonces el problema como si este fuera una recta y por último se sustituyen las
constantes c y b en la ecuación (68). Nótese que para obtener c se debe de realizar la siguiente
operación:
C
c=kb (71)
23
6 BIBLIOGRAFÍA
6. Bibliografı́a
6.1. Literatura
Anderson et. al. 1999. Estadı́stica para Administración y Economı́a. 7 ed. Thomson
Grossman S. 1984. Elementary Linear Algebra. 2 ed. Wadsworth
Poole D. 2004. Álgebra Lineal: Una Introducción Moderna. Thomson
6.2. Internet
Weisstein E. 2009. Least Squares Fitting. Wolfram MathWorld.
http://mathworld.wolfram.com/LeastSquaresFitting.html
Weisstein E. 2009. Least Squares Fitting - Exponential. Wolfram MathWorld.

http://mathworld.wolfram.com/LeastSquaresFittingExponential.html
Weisstein E. 2009. Least Squares Fitting - Logarithmic. Wolfram MathWorld.

http://mathworld.wolfram.com/LeastSquaresFittingLogarithmic.html
Wiley Publishing Inc. 2009. Linear Algebra: Projection onto a Subspace. CliffsNotes.
http://www.cliffsnotes.com/WileyCDA/CliffsReviewTopic/Projection-onto-a-Subspace.topicArticleId-20807,articleId-20792.html
6.3. Herramientas
GIMP: GNU Image Manipulation Program. Version 2.6.3. 2008.
http://www.gimp.org/
OpenOffice.org: The Free and Open Productivity Suite. Version 3.0.1. 2008.
http://www.openoffice.org/
SAGE: Open Source Mathematics Software. Version 3.1.4. 2008.

http://www.sagemath.org/
TexMaker: Free LATEX Editor. Version 1.7. 2008.

http://www.xm1math.net/texmaker/
24

Minimos Cuadrados1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minimos Cuadrados1 PDF

Cargado por

Copyright:

Formatos disponibles

Método de Mı́nimos Cuadrados

Universidad de San Carlos de Guatemala

4. Método de Mı́nimos Cuadrados 11

1.1. R (Recta Real)

Figura 1: Recta real.

Sean A y B ∈ R. La distancia d entre A y B es entonces

Figura 2: Distancia entre puntos.

Considerando que el álgebra al calcular con valores absolutos es relativamente complicada, la

Sean A y B ∈ R. La distancia d entre A y B es entonces

d(A, B) = (B − A)2 (2)

1.2. R2 (Plano Cartesiano)

Figura 3: Plano cartesiano.

Figura 4: Distancia entre puntos (Pitgoras).

1.3. R3 (Espacio Tridimensional)

Figura 5: Espacio tridimensional.

Figura 6: Distancia entre puntos (Distancia Euclidiana).

Esto se puede generalizar para todos los Rn si se conserva la forma observada en R2 y en R3 .

Figura 7: Gráficas de f (x) = x2 y g(x) = |x| en R2 .

2.1. Multiplicación por una Constante

Figura 8: Suma de los vectores A y AB dando como resultado el vector B.

2.3. Vector Unitario

2.4. Producto Punto

Figura 9: Proyección de un vector de un espacio a un subespacio.

3.1. Proyección sobre una Recta

Figura 10: Proyección de un vector b sobre una recta g.

Sea entonces b un vector en R2 y g: X = 0 + t · a, donde a es el vector sobre el que se proyec-

|p| = |b| · cos (θ) (10)

Y además, que el coseno de θ se define de la siguiente forma.

Ya se tiene entonces la proyección p de b sobre a. Si a b se le resta p, se obtendrá un vector

3.2. Proyección sobre un Plano

Figura 11: Proyección de un vector v sobre un plano S.

3.3. Matriz de Proyección

Al expandir esto se obtiene:

proyW v = UUT v (18)

4. Método de Mı́nimos Cuadrados

Figura 13: Regresión lineal y cuadrática.

El método de mı́nimos cuadrados es un método de extrapolación para encontrar la curva que

4.1. Caso de una Recta

Que, reescribiendolo, es lo mismo que:

La matriz que contiene a los xi se la ha identificado como A, al vector de incógnitas (a y b) como

Figura 14: Distancias de las que se compone el error.

e2i = (yi − ŷi )2 = (yi − (a + bxi ))2 (23)

Si se calcula la norma del vector de error en la ecuación (25), se obtiene lo siguiente:

P (x) = β1 + β2 x + β3 x2 + . . . + βm+1 xm = ŷ (27)

Lo cual, de forma matricial, se puede representar ası́:

4.3. Resolución Diferencial

Se procede entonces a derivar la función de error ε2 (Ecuación (24)):

Nótese que de la sumatoria se obtendrı́a solo coeficientes de a o b sin potencia o elevados al

Esto se puede reescribir de forma matricial nuevamente:

Que finalmente se convierte en:

4.4. Resolución Algebráica

|v − Aw̄| ≤ |v − Aw| (41)

proycol(A) v = Aw̄ (42)

(Aw)T (v − Aw̄) = 0 (45)

Esto es lo mismo que:

Al calcular la transpuesta, se obtiene lo siguiente:

El determinante de la matriz, se calcula entonces:

Ya con el determinante, la matriz inversa se puede expresar de la siguiente forma:

Ahora, aplicando la inversa a ambos lados de la ecuación se obtiene:

Y de esto, al terminar de multiplicar se obtiene dos ecuaciones independientes:

Ahora, si se considera que la media de una serie de datos w1 , w2 , . . . , wi se calcula de la siguiente

ȳ ni=1 [xi ]2 − x̄ ni=1 [xi yi]

Figura 15: Regresión exponencial.