08 M Nimos Cuadrados PDF

Lección 8:
Métodos de mínimos
cuadrados
Modelamiento matemático
Un modelo matemático permite describir las relaciones entre variables que han
sido medidas en un conjunto de datos. La construcción de modelos es un proceso
creativo que depende de la experiencia del modelador, sus preferencias e
intuiciones, así como del objetivo para el cual se construye el modelo.
Se distingue:
• modelos construidos en base a una clase de funciones (polinomios, splines…)
cuyos coeficientes están ajustados a los datos
• modelos construidos en base a leyes físicas que rigen el comportamiento de los
datos
• modelos mecanísticos, cuya estructura proviene de mecanismos o leyes físicas,
pero cuyos parámetros son ajustados de manera de reproducir los datos
medidos.
Modelamiento matemático
Se puede clasificar los modelos matemáticos entre
• modelos determinísticos: el mismo input genera siempre el mismo output
• modelos probabilísticos: el output intenta reflejar la naturaleza aleatoria del

proceso. Por ejemplo, se puede convertir un modelo determinístico en un
modelo probabilístico al agregar un error aleatorio al output.
Asimismo, los modelos (incluso determinísticos) recurren generalmente a la

estadística, dado que se basan en datos medidos y muy raramente reproducen
exactamente estos datos debido a errores de medición.
Mínimos cuadrados
Planteamiento general
Supongamos que se dispone de N datos {yi, i = 1… N} de una variable “y”.

Dado que existen errores de medición, ya sea por el aparato de medición o por la
“aleatoriedad” del proceso medido, estos datos se consideran como variables
aleatorias de desviaciones estándares {σi, i = 1… N}. Dichas desviaciones
miden la precisión de los datos y pueden estimarse si se dispone de réplicas en
las mediciones.
Se desea ajustar estos datos de modo de estimar los valores { ŷi , i = 1… N} que
se tendrían si no hubiese ningún error de medición.
Mínimos cuadrados
Supongamos también que se tiene L restricciones (ecuaciones del modelo

predictivo que se quiere construir):
∀j ∈{1,...L}, f j ( yˆ1 ,... yˆ N ; a1 ,...aM ) = 0
con M parámetros {ak, k = 1… M} a determinar junto con los { ŷi , i = 1… N}.

Contrariamente a ŷi , estos M parámetros no están asociados a mediciones.
Mínimos cuadrados
Una manera de ajustar los datos es minimizar la suma de los errores cuadráticos:
N
yi − yˆ i
χ =∑ε
2 2
i con ε i =
i =1 σi
bajo las L restricciones anteriores. Esta técnica ha recibido el nombre de

“mínimos cuadrados ponderados”.
En adelante, consideraremos esencialmente la técnica de “mínimos cuadrados

ordinarios”, la cual considera que las desviaciones estándares {σi, i = 1… N} son
iguales (hipótesis de homoscedasticidad).
Mínimos cuadrados
Grados de libertad
Cada uno de los N términos en la suma de errores cuadráticos que define χ2

aporta un grado de libertad, mientras que cada parámetro libre (ya sea ŷi o ak)
resta un grado de libertad. Note que cada ecuación de restricción agrega un
grado de libertad, puesto que elimina a un parámetro libre.
El número total de grados de libertad es:
GL = N − (M + N ) + L = L−M
datos parámetros restricciones

Mínimos cuadrados
Residuos de la regresión
Cuando está en su valor mínimo y suponiendo que los residuos de la regresión

{εi, i = 1… N} son independientes y tienen una distribución normal, χ2 es una
variable del chi cuadrado con L – M grados de libertad.
Se puede utilizar este resultado para medir la calidad del ajuste, dado que las
tablas de la distribución del chi cuadrado indican la probabilidad de superar un
determinado valor para χ2.
Mínimos cuadrados
Si la probabilidad de superar el valor obtenido de χ2 es muy pequeña (valor de

χ2 inusualmente alto), esto significa que el ajuste no es satisfactorio:
modelo “malo” que puede ser rechazado
los valores de desviación estándar {σi, i = 1… N} están subestimados
los residuos de la regresión {εi, i = 1… N} no son independientes o no tienen

una distribución normal. En este caso, ya no se puede definir intervalos de
confianza sobre los parámetros del ajuste o hacer pruebas de hipótesis,
aunque el ajuste de mínimos cuadrados sigue proporcionando un modelo para
determinar el valor esperado de la variable y.
Mínimos cuadrados
Ejemplo: se busca ajustar un modelo con L = N restricciones:
∀i ∈{1,...N }, yˆ i = a
bajo el supuesto que las desviaciones estándares {σi, i = 1… N} son iguales a σ.
Se busca minimizar
2
N
 y −a
χ2 = ∑  i 
i =1  σ 
El mínimo se obtiene al anular la derivada parcial de χ2 con respecto al parámetro

a:
∂χ 2 N
y −a
= −2∑ i 2 = 0
∂a i =1 σ
Mínimos cuadrados
La solución es
1 N
aˆ = ∑ yi = y
N i =1
Es decir, el mejor ajuste de los datos {yi, i = 1… N} por una constante corresponde
a la media aritmética de estos datos (en caso de haber considerado desviaciones σi
variables, se hubiese encontrado una media ponderada de los datos). La calidad del
ajuste se puede evaluar al calcular la suma de residuos cuadráticos
2
N
 y − y
χ2 = ∑  i 
i =1  σ 
y comparar su valor con el valor crítico para una variable del chi cuadrado con
N – 1 grados de libertad.
Mínimos cuadrados
Validación del modelo

Los residuos son estimaciones de los errores del modelo. Con ellos podemos
verificar los supuestos del modelo. Si estos no se cumplen, nos ayudarán a
explorar el por qué de un mal ajuste:
̶ ¿La distribución de los residuos es normal?
̶ ¿La varianza de los residuos es constante, o se requieren transformaciones de
las variables para lograrlo?
̶ ¿Hay dependencia de los residuos?
Mínimos cuadrados
Validación del modelo: normalidad de los residuos

Para verificar que los errores de medición {εi, i = 1… N} (residuos de la
regresión) tienen una distribución normal, se puede aplicar un gráfico de
probabilidad normal con estos residuos
yi − yˆ i
εi =
σi
Alternativamente, se puede utilizar herramientas como histogramas o gráficos

cuantiles contra cuantiles, así como prueba de hipótesis (chi cuadrado o
Kolmogorov-Smirnov).
Mínimos cuadrados
Validación del modelo: homoscedasticidad

Asimismo, se puede validar la hipótesis de homoscedasticidad al visualizar los
valores de los residuos de regresión yi − yˆ i en función de los valores estimados
ŷi : se espera que la dispersión de los residuos experimentales sea
aproximadamente constante.
Mínimos cuadrados
Validación del modelo: independencia de los residuos

Cuando la variable predictora es el tiempo, los residuos pueden estar
correlacionados secuencialmente. Para verificar que esto no sucede, se puede
graficar los residuos en función del tiempo, o se puede aplicar pruebas de
hipótesis tales como el test de Durbin-Watson.
Ajuste de un modelo lineal
de una variable
Ejemplo introductorio
Se busca ajustar una recta que pasa por el origen, i.e.
∀i ∈{1,...N }, yˆ i = b xi
donde:
• se dispone de mediciones {yi, i = 1… N} con desviación σ
• cada medición yi está asociada a un valor xi (supuesto sin error de medición)
En este ejemplo, existen tantas restricciones como datos (L = N) y un solo

parámetro (M = 1), por lo que el número de grados de libertad es N – 1.
La minimización de la suma de residuos cuadráticos conduce a:
∑x i yi
bˆ = i =1
N
∑i
x 2
i =1
La pendiente encontrada cambiaría al considerar que las mediciones tienen

desviaciones estándares {σi, i = 1… N} diferentes.
de una variable
Consideremos ahora la expresión general de un modelo lineal de una variable:
∀i ∈{1,...N }, yˆ i = a + b xi
donde:
• Se dispone de mediciones {yi, i = 1… N} con desviación σ desconocida.
• Cada medición yi está asociada a un valor xi (supuesto sin error de medición)
Aquí, existen el mismo número de restricciones que de datos (L = N) y dos

parámetros (M = 2), por lo que el número de grados de libertad es N – 2.
de una variable
Estimación de los parámetros de regresión
Se busca minimizar la suma de errores cuadráticos
N
S E = ∑ ( yi − a − b xi ) 2
i =1
Como las restricciones han sido incorporadas en esta expresión, el mínimo se

obtiene al minimizar con respecto a las incógnitas a y b. Basta con anular las
derivadas parciales de SE con respecto a ambos parámetros:
 ∂S E N
 ∂a = −2∑ yi − a − b xi = 0
 i =1
 N
 ∂S E = −2 x ( y − a − b x ) = 0
 ∂b ∑
i =1
i i i
de una variable
La solución es:
 N
 ∑ ( yi − y ) ( xi − x )
covarianza entre x e y
bˆ = i =1 N =
 varianza de x
 ∑
i =1
( xi − x ) 2

aˆ = y − bx
 1 N
 x = N ∑ xi (media de x)
con  i =1

y = 1
N
 ∑
N i =1
yi (media de y)
de una variable
Estimación de la desviación estándar σ
Suponiendo que los residuos de la regresión son independientes y tienen una

2 2
distribución normal, χ = S E / σ tiene una distribución del chi cuadrado con
esperanza igual a su número de grados de libertad (N – 2).
Por consiguiente, se puede estimar el valor desconocido de σ al plantear
SE
σˆ =
N −2
de una variable
Incertidumbre en los parámetros de regresión
Los parámetros â y b̂ dependen de los valores medidos {yi, i = 1… N} en la

muestra y, por lo tanto, pueden verse como variables aleatorias que fluctúan
en torno a los valores a y b que se obtendrían al conocer la población entera. Se
tiene:
E{aˆ} = a
E{bˆ} = b
En otras palabras, â y b̂ constituyen estimadores insesgados de los parámetros

“reales” a y b, obtenidos a partir de una muestra {(xi,yi), i = 1… N} que cuenta
con un número limitado de datos.
de una variable
Suponiendo que los yi son independientes y utilizando la fórmula de propagación

de errores y las expresiones de â y b̂ en función de los yi, se obtiene:
2
σ2 (x2 ) σ 1
var{aˆ} = var{bˆ} =
N ( x 2 ) − ( x )2 N ( x2 ) − ( x )2
2
σ x x
cov{aˆ , bˆ} = − corr{aˆ , bˆ} = −
N ( x2 ) − ( x )2 (x2 )
de una variable
Estos resultados permiten determinar intervalos de confianza para los

parámetros a y b o para testear hipótesis sobre sus valores (por ejemplo,
determinar si la pendiente b es significativamente diferente de 0). Para ello, se
supondrá que â y b̂ tienen distribuciones normales, de medias a y b y de
varianzas dadas por las fórmulas anteriores.
Como el valor de σ es desconocido y se estima por σ̂ , se utiliza la distribución

de Student de N – 2 grados de libertad en lugar de la distribución normal. En
particular, se tendrá:
aˆ − a ( x2 ) − ( x )2 bˆ − b
TN − 2 = N TN′ − 2 = N [( x 2 ) − ( x ) 2 ]
σˆ (x2 ) σˆ
de una variable
Significancia de la regresión
Se plantea el siguiente test:
Hipótesis nula H0: b = 0
Hipótesis alternativa H1: b ≠ 0
Se examinará si el valor absoluto de TN′ − 2 no supera el valor crítico de una

distribución de Student de N – 2 grados de libertad (test bilateral).
de una variable
Un test equivalente para ver la significancia de la regresión consiste en calcular

el coeficiente de correlación empírico entre x e y:
∑ (x
i =1
i − x ) ( yi − y )
R=
 N 2 
N

 ∑ ( xi − x )   ∑ ( yi − y ) 2 
 i =1   i =1 
N −2
Bajo la hipótesis nula, se define una variable de Student como TN′′− 2 = R
1 − R2
Se rechazará la hipótesis nula (b = 0) si | TN′′−2 | supera el valor crítico de una

distribución de Student de N – 2 grados de libertad (test bilateral).
de una variable
Ejercicio: se tiene los siguientes datos
x: 2.4 4.0 0.7 3.5

y: 1.4 3.1 1.8 2.2
Suponiendo que todas las mediciones tienen la misma desviación estándar,

determinar las regresiones de y sobre x y de x sobre y. Comentar.
de una variable
Ilustración: comparación entre leyes de cobre reales (medidas) y estimadas
de varias variables
de varias variables
Consideremos ahora un modelo lineal de M variables:
M
∀i ∈{1,...N }, yˆ i = a1 xi1 + ...+ aM xiM = ∑ a j xij
j =1
donde:
• el índice i se refiere al número del dato (entre 1 y N)
• el índice j se refiere al número de la variable (entre 1 y M)
Si se toma xi1 = 1 para todo i, entonces se obtiene la regresión multi-lineal usual.

La linealidad se refiere a los parámetros aj y no se hace supuesto sobre los valores
xij (podrían ser funciones no lineales de una misma variable, por ejemplo xij = xij)
En este ejemplo, existen tantas restricciones como datos (L = N) y M

parámetros, por lo que el número de grados de libertad es N – M.
de varias variables
Se supone que las desviaciones estándares de los yi son iguales:
∀i ∈ {1,...N }, σi = σ con σ desconocido
En este caso, se busca minimizar
N M
S E = ∑ ( yi − ∑ a j xij ) 2
i =1 j =1
de varias variables
Estimación de los parámetros de regresión
Se encuentra el mínimo de SE al plantear
∂S E
∀j ∈ {1,...M }, =0
∂a j
O sea:
N M
∀j ∈ {1,...M }, ∑ 2( yi − ∑ ak xik ) xij = 0
i =1 k =1
de varias variables
Para expresar la solución, es conveniente utilizar notaciones vectoriales y
matriciales. Sea
• X una matriz de tamaño N × M cuyo término genérico es xij
• A un vector de tamaño M × 1 cuyo término genérico es aj
• Y un vector de tamaño N × 1 cuyo término genérico es yi
El sistema de ecuaciones anteriores se escribe:
Xt X A = Xt Y
llamado sistema de ecuaciones normales del problema de mínimos cuadrados.

de varias variables
La solución está dada por
ˆ = ( X t X ) −1 Xt Y
A
Existen varios métodos de resolución:

• pivote de Gauss
• inversión matricial de Xt X
• descomposición de Choleski (LU) de la matriz Xt X
La matriz Xt X puede no ser invertible (o ser casi singular) si existe colinealidad

entre las variables x1,… xM, es decir, si existe una relación lineal no trivial entre
estas variables.
de varias variables
Estimación de la desviación estándar σ
Suponiendo que los residuos de la regresión son independientes y tienen una

2 2
distribución normal, χ = S E / σ tiene una distribución del chi cuadrado con
esperanza igual a su número de grados de libertad (N – M). Por lo tanto, se
puede estimar el valor desconocido de σ por:
SE
σ̂ =
N −M
de varias variables
Incertidumbre en los parámetros de regresión
La matriz de varianza – covarianza de los parámetros { â j , j = 1… M} es:
C = σ 2 ( Xt X ) −1
Siendo σ desconocido, en la práctica se estima por la matriz
ˆ = σˆ 2 ( Xt X ) −1
C
Se puede utilizar este resultado para establecer intervalos o regiones de

confianza para los parámetros “reales”, o para testear hipótesis sobre sus
valores (en particular, para testear si es factible considerar aj = 0).
Significancia de un modelo
lineal de varias variables
Se busca evaluar la significancia de un modelo lineal de varias variables
M
∀i ∈{1,...N }, yi = ∑ a j xij + ε i
j =1
bajo el supuesto que los residuos εi son normales, independientes, de esperanza 0

y misma varianza. Las hipótesis son:
Hipótesis nula H0: a1 = a2 = … = aM = 0

Hipótesis alternativa H1: al menos un ai es distinto de cero
La idea es realizar un análisis de varianza, dividiendo la suma total de

residuos cuadráticos (S) en una suma debida al modelo (regresión) (SR) y una
suma debida al residuo o error (SE).
Más precisamente, se define:
N N N
S = ∑ ( yi − y ) 2
S R = ∑ ( yˆ i − y ) 2
S E = ∑ ( yi − yˆ i ) 2
i =1 i =1 i =1
tal que S = SR + SE.
El procedimiento consiste en definir una variable que sigue (bajo la hipótesis

nula) una distribución de Fisher con M – 1 y N – M grados de libertad:
S R /( M − 1)
F=
S E /( N − M )
Se rechazará la hipótesis nula si el valor observado de F es mayor que el valor

crítico para el riesgo α asumido.
Se define el coeficiente de determinación múltiple como
SR S
R2 = =1− E
S S
Este coeficiente, comprendido entre 0 y 1, mide cuánto se explica la variable y

al utilizar el modelo de regresión con las variables x. Cuando se aumenta el
número M de variables x, el coeficiente de determinación múltiple aumenta y
se acerca a 1. Por ende, sólo permite comparar modelos del mismo nivel, es
decir, con el mismo número de variables explicativas.
Se introduce también el coeficiente de determinación múltiple ajustado:
S E /( N − M )
R′2 = 1 −
S /( N − 1)
que introduce un castigo por el número de parámetros a estimar (nivel de la

regresión). Este coeficiente ajustado no siempre aumenta al incluir variables
explicativas; de hecho, si variables innecesarias están consideradas, es muy
probable que baje.
Otro parámetro de interes es el coeficiente de determinación parcial, que mide
cuánto es la contribución de una variable (xj) cuando las otras variables están en el
modelo:
2 S E ( x1 ,..., x j −1 , x j , x j +1...xM )
R Y j •1, 2 ,..., j −1, j +1,..., M = 1−
S E ( x1 ,..., x j −1 , x j +1...xM )
donde SE es la suma de errores cuadráticos, asociada a un modelo lineal de un

conjunto dado de variables x.
Test de un modelo lineal
sujeto a condiciones
Supongamos que se ha ajustado un modelo inicial, con M variables explicativas:
yˆ = a1 x1 + a2 x2 + ...+ aM xM
Se considera k condiciones lineales sobre los parámetros, por ejemplo:
• a1 = 0 (una condición)
• a1 = 0 y a2 = 1 (dos condiciones)
• a1 + a2 = 0 (una condición)
El modelo inicial puede re-escribirse en un modelo transformado, el cual toma en
cuenta las condiciones lineales:
• yˆ = a2 x2 + ...+ aM xM
• yˆ = x2 + a3 x3 + ...+ aM xM
• yˆ = a1 ( x1 − x2 ) + ...+ aM xM
El número de parámetros libres (M) disminuye del número k de condiciones

lineales.
Con el modelo inicial, los parámetros cumplen las condiciones lineales sólo de
manera aproximada. Se quiere testear si el modelo transformado es aceptable:
Hipótesis nula H0: el modelo transformado es aceptable
Hipótesis alternativa H1: el modelo inicial es aceptable
Se supone que los residuos de la regresión son independientes y tienen una

distribución normal.
Sea N el número de observaciones disponibles y M el número de variables
explicativas. Se demuestra que, bajo la hipótesis nula H0, la cantidad
S E ( H 0 ) − S E ( H1 )
F= k
S E ( H1 )
N −M
sigue una distribución de Fisher con k y N – M grados de libertad. Se rechazará la

hipótesis H0 si la cantidad encontrada es demasiado grande para el nivel de
confianza deseado.
Casos particulares
• Test de nulidad de los parámetros de la regresión: a1 = a2 = … = aM = 0.
• Test de nulidad de la pendiente de una regresión lineal de una sola variable.
• Test para determinar si usar un modelo completo (expandido) o un modelo

simplificado (reducido).
• Test para comparar dos o más modelos de regresión (ver ejercicios)

Ajuste de un modelo polinomial
de una variable
Ajuste de un modelo
polinomial de una variable
Consideremos un modelo polinomial de la siguiente forma:

M
∀i ∈{1,...N }, yˆ i = a0 + a1 xi + ...+ aM x = ∑ a j xij
i
M
j =0
donde:
• el índice i se refiere al número del dato (entre 1 y N)
• el índice j se refiere al grado del monomio (entre 0 y M)
En este ejemplo, el número de grados de libertad es N – M – 1. Los parámetros

a0, a1,…aM son determinados al resolver el sistema de ecuaciones normales (se
trata de un caso particular de la regresión multilineal).
Ajuste de un modelo
polinomial de una variable
La elección del grado M puede hacerse en base a la nube de correlación entre x e y,
considerando también el número de datos disponibles (un grado muy alto puede
llevar a una curva de regresión que fluctúa demasiado entre los puntos
experimentales, por lo que el modelo está sobre-ajustado).
Significancia de un
ajuste polinomial
Supongamos que se ha ajustado un modelo polinomial de grado M. Se quiere
determinar si un modelo de grado inferior hubiese sido suficiente. Se procede
de forma iterativa:
• Se testea la hipótesis de que el término de mayor grado no es necesario: aM = 0

• Si se rechaza esta hipótesis, entonces el modelo de grado M es necesario. De lo
contrario, se continúa el testeo, buscando si un modelo aún más simple sería
suficiente. El paso siguiente es testear la hipótesis aM = aM-1 = 0.
• Si es preciso, continuar hasta testear aM = aM-1 = … = a1 = 0. Si se acepta esta
última hipótesis, esto significa que la variable x no sirve para modelar la
variable y.
Los resultados de estos tests pueden presentarse en una tabla de análisis de

varianza.
Significancia de un
ajuste polinomial
Tabla de análisis de varianza (para p = 0… M, Sp denota la suma de errores
cuadráticos al ajustar una regresión polinomial de grado p, y se plantea SE = SM):
Fuente de Grados de Suma de Media de Razón

variación libertad cuadrados cuadrados
aM 1 SM-1 – SE MSM-1 MSM-1 / MSE
aM, aM-1 2 SM-2 – SE MSM-2 MSM-2 / MSE
… … … … …
aM,… a2 M–1 S1 – SE MS1 MS1 / MSE
aM,… a2, a1 M S0 – SE MS0 MS0 / MSE
Error N–M–1 SE MSE
Total N–1 S0
Ajuste de un modelo no lineal
de varias variables
de varias variables
Abordamos ahora el problema donde los parámetros { ŷi , i = 1… N} son
funciones no lineales de los {aj, j = 1… M}
∀i ∈{1,...N }, yˆ i = f (a1 ,...aM ; xi1...xiM ) = f ( A; X i )
Para minimizar la suma de cuadrados
N
S E = ∑ ( yi − f ( A; X i )) 2
i =1
se requiere anular las derivadas parciales
∂S E N
∂f ( A; Xi )
∀j ∈ {1,...M }, = −∑ ( yi − f ( A; Xi )) =0
∂a j i =1 ∂a j
de varias variables
Para resolver las ecuaciones anteriores (ecuaciones normales), se suele recurrir a
métodos iterativos, como por ejemplo los métodos de Levenberg-Marquardt y
de Gauss-Newton. A continuación, se explica el principio de dichos métodos.
Denotemos como Ak el estimador de A en la k-ésima iteración, y Amin el vector

solución de las ecuaciones normales. Se tiene la siguiente aproximación
(linealización de f):
M
∂f ( A k ; X i )
f (A min
; Xi ) ≈ f ( A ; Xi ) + ∑
k
δa j
j =1 ∂a j
con δa j = a min
j − a k
j
de varias variables
La suma de cuadrados se escribe entonces bajo la forma
2
N  M
∂f ( A k
; Xi ) 
S E = ∑  yi − f ( A ; X i ) − ∑
 k
δa j 
i =1  j =1 ∂a j 
Se trata de un problema de mínimos cuadrados, con un modelo lineal con

respecto a las incógnitas {δaj, j = 1… M}. La solución a este problema
proporciona los valores de estas incógnitas, los cuales a su vez permiten
actualizar los valores de los parámetros {aj, j = 1… M}:
∀j ∈{1,...M }, a kj +1 = a kj + δa j
de varias variables
Después de numerosas iteraciones, se obtiene la solución para los parámetros
{aj, j = 1… M}, o sea { â min
j , j = 1… M}. Se obtiene también una aproximación
de la matriz de varianza – covarianza de estos parámetros:
ˆ = σˆ 2 ( Xt X ) −1
C
SE
donde σ̂ = es una estimación de la desviación estándar σ desconocida
N −M
X es una matriz de tamaño N × M cuyo término genérico es
ˆ min ; X )
∂f ( A i
∂a j
de varias variables
Modelos particulares
• regresión polinomial
• regresión potencia (ver ejercicios)
• regresión logística
• regresión poissoniana
Lecturas recomendadas
Deming, W.E., 1964. Statistical Adjustment of Data. Dover Publications, New

York, 261 p.
Green, J.R., Margerison, D., 1978. Statistical Treatment of Experimental Data.

Elsevier Scientific Publishing Company, Amsterdam, 382 p.
Johnson, R.A, Bhattacharyya, G.K., 1996. Statistics: Principles and Methods.

Wiley, New York
Ejercicios
1) (Control de calidad) Modelar la relación entre los datos duplicados que

fueron mandados a dos laboratorios distintos. ¿Es la regresión distinta a la
identidad (recta Y = X)?
2) (Modelo autoregresivo) Se les solicita diseñar modelos predictivos del

precio anual del cobre a corto plazo, utilizando para ello datos históricos de
precios y stock de cobre, así como de la tasa de interés Libor a 90 días.
3) (Regresión polinomial) Se desea ajustar un modelo de regresión polinomial

a los siguientes datos:
x: 1.487 0.245 3.465 3.252 4.914 2.763 2.001 0.993

y: 6.746 1.181 15.08 16.96 28.56 10.72 8.238 2.191
Ejercicios
4) (Modelo reducido vs. modelo expandido). Se quiere definir y comparar dos

modelos empíricos para el agua en el overflow de un ciclón:
modelo reducido: WOF = a + b1 WF + b2 SPIG
modelo expandido:
WOF = a + b1 WF + b2 SPIG + b3 (WF × SPIG) + b4 (WF2) + b5 (SPIG2)
Determinar los parámetros de cada modelo, a partir de los datos obtenidos

de un experimento. ¿Qué modelo es preferible usar? Para el modelo
reducido, Lynch y Rao dan los siguientes valores: b1 = 1.1 y b2 = –10. ¿Está
de acuerdo con estos valores?
Ejercicios
5) (Comparación de rectas de regresión) Se tiene los siguientes valores para dos

variables x e y, para dos condiciones de operación distintas (A y B):
Condición A
x: 0.536 0.543 0.377 0.940 0.629 0.826
y: 0.540 0.450 0.279 1.176 0.582 1.098
Condición B
x: 0.614 0.357 0.556 1.411 0.650 0.864 0.885 0.554
y: 0.876 0.399 0.570 2.025 1.035 1.533 1.266 0.795
Se desea saber si las rectas de regresión bajo cada condición son iguales o no.
Indicación: se podrá introducir una variable indicador i (que vale 1 si el dato

corresponde a la condición A, 0 en caso contrario) y considerar un modelo
de regresión único dependiente de las variables y, x e i.
Ejercicios
6) (Regresión potencia) Se tiene los siguientes valores para dos variables x e y:
x: 0.136 1.563 0.064 1.92 3.416 0.464 0.177 3.061

y: 1.401 3.43 0.99 3.769 4.874 2.476 1.43 4.243
Se postula un modelo de la forma yˆ = a x b
i) Estimar los parámetros a y b

ii) ¿Es un modelo de la forma yˆ = a x aceptable?
iii) Determinar las varianzas de los estimadores de a y b
iv) Determinar intervalos de confianza sobre los valores de a y b.
Ejercicios
7) Un día, sin razón aparente, la capacidad del circuito de filtración en una planta
disminuyó aproximadamente un 20% y se ha mantenido en este nivel durante
varios días. El superintendente de la planta quiere saber por qué y si es o no
necesario comprar filtros adicionales para recuperar la producción anterior de
la planta. El tiempo necesario para reunir un filtrado de volumen V de una
celda con concentración de sólidos C a presión constante ∆P está representado
por la siguiente ecuación:
V 2 r µC
t= 2 A2 ∆P
(1)
donde µ es la viscosidad del fluido, A es el área de filtración y r es la resistencia

específica de la torta de filtro. Ésta última se puede modelar por la siguiente
relación:
r = r0 + β(∆P) n (2)
Los valores previamente determinados para la planta fueron:
r0 = 3.1 × 106 (ft-2), β = 1.10 × 105 (psi-0.9 ft-2), n = 0.90
Ejercicios
No hubo cambios significativos en las condiciones de operación de las últimas

semanas, salvo que el concentrado producido ha estado más fino en estas
últimas semanas. El analista se recuerda haber leído en la literatura técnica que
el parámetro r0 depende de la distribución de tamaño. Por ende, decide revisar
la relación anterior para el material concentrado más fino. Se realizó un
experimento, cuyos datos están proporcionados en archivo adjunto. Se les pide:
a. Verificar que la forma de la ecuación (2) no ha cambiado. Se sugiere

βX
plantear X = (∆P)0.9 y probar los modelos r = r0 + βX , r = r0 + e y
r = r0 + X β , luego decidir cuál de estos modelos ajusta mejor los datos.
b. Verificar si hubo algún cambio en los parámetros β y r0.

08 M Nimos Cuadrados PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

08 M Nimos Cuadrados PDF

Cargado por

Copyright:

Formatos disponibles

Lección 8:

Se puede clasificar los modelos matemáticos entre

• modelos determinísticos: el mismo input genera siempre el mismo output

• modelos probabilísticos: el output intenta reflejar la naturaleza aleatoria del

Asimismo, los modelos (incluso determinísticos) recurren generalmente a la

Supongamos que se dispone de N datos {yi, i = 1… N} de una variable “y”.

Supongamos también que se tiene L restricciones (ecuaciones del modelo

∀j ∈{1,...L}, f j ( yˆ1 ,... yˆ N ; a1 ,...aM ) = 0

con M parámetros {ak, k = 1… M} a determinar junto con los { ŷi , i = 1… N}.

bajo las L restricciones anteriores. Esta técnica ha recibido el nombre de

En adelante, consideraremos esencialmente la técnica de “mínimos cuadrados

Cada uno de los N términos en la suma de errores cuadráticos que define χ2

El número total de grados de libertad es:

datos parámetros restricciones

Cuando está en su valor mínimo y suponiendo que los residuos de la regresión

Si la probabilidad de superar el valor obtenido de χ2 es muy pequeña (valor de

modelo “malo” que puede ser rechazado

los valores de desviación estándar {σi, i = 1… N} están subestimados

los residuos de la regresión {εi, i = 1… N} no son independientes o no tienen

Ejemplo: se busca ajustar un modelo con L = N restricciones:

bajo el supuesto que las desviaciones estándares {σi, i = 1… N} son iguales a σ.

El mínimo se obtiene al anular la derivada parcial de χ2 con respecto al parámetro

Validación del modelo

Validación del modelo: normalidad de los residuos

Alternativamente, se puede utilizar herramientas como histogramas o gráficos

Validación del modelo: homoscedasticidad

Validación del modelo: independencia de los residuos

Se busca ajustar una recta que pasa por el origen, i.e.

• cada medición yi está asociada a un valor xi (supuesto sin error de medición)

En este ejemplo, existen tantas restricciones como datos (L = N) y un solo

La minimización de la suma de residuos cuadráticos conduce a:

La pendiente encontrada cambiaría al considerar que las mediciones tienen

• Cada medición yi está asociada a un valor xi (supuesto sin error de medición)

Aquí, existen el mismo número de restricciones que de datos (L = N) y dos

Se busca minimizar la suma de errores cuadráticos

Como las restricciones han sido incorporadas en esta expresión, el mínimo se

Suponiendo que los residuos de la regresión son independientes y tienen una

Por consiguiente, se puede estimar el valor desconocido de σ al plantear

Los parámetros â y b̂ dependen de los valores medidos {yi, i = 1… N} en la

En otras palabras, â y b̂ constituyen estimadores insesgados de los parámetros

Suponiendo que los yi son independientes y utilizando la fórmula de propagación

Estos resultados permiten determinar intervalos de confianza para los

Como el valor de σ es desconocido y se estima por σ̂ , se utiliza la distribución

Se plantea el siguiente test:

Hipótesis nula H0: b = 0

Hipótesis alternativa H1: b ≠ 0

Se examinará si el valor absoluto de TN′ − 2 no supera el valor crítico de una

Un test equivalente para ver la significancia de la regresión consiste en calcular

Se rechazará la hipótesis nula (b = 0) si | TN′′−2 | supera el valor crítico de una

x: 2.4 4.0 0.7 3.5

Suponiendo que todas las mediciones tienen la misma desviación estándar,

Si se toma xi1 = 1 para todo i, entonces se obtiene la regresión multi-lineal usual.

En este ejemplo, existen tantas restricciones como datos (L = N) y M

Se supone que las desviaciones estándares de los yi son iguales:

∀i ∈ {1,...N }, σi = σ con σ desconocido

En este caso, se busca minimizar

Se encuentra el mínimo de SE al plantear

• X una matriz de tamaño N × M cuyo término genérico es xij

• A un vector de tamaño M × 1 cuyo término genérico es aj

• Y un vector de tamaño N × 1 cuyo término genérico es yi

El sistema de ecuaciones anteriores se escribe:

llamado sistema de ecuaciones normales del problema de mínimos cuadrados.

Existen varios métodos de resolución: