Está en la página 1de 33

Tema 4: Regresin lineal.

Calibracin

Relacin entre dos variables


Mtodo de mnimos cuadrados
Validacin y evaluacin del modelo
Prediccin a partir del modelo
Anexo: algunos detalles importantes

EAIQ (GQ) Tema 4


Relacin entre dos variables
Qu tienen en comn las siguientes grficas?

EAIQ (GQ) Tema 4


- En todos los casos, hay dos variables relacionadas.
seal

EAIQ (GQ) Tema 4 tiempo de retencin


Segn estn sometidas o no a error aleatorio, la
dependencia o relacin entre dos variables puede ser:
Funcional: ninguna variable tiene error aleatorio.
Regresin: slo una variable tiene error aleatorio.
Correlacin: ambas variables tienen error
aleatorio.
Generalmente, las calibraciones experimentales se
ajustan a una relacin de tipo regresin, que
presupone una distribucin normal para la variable
sometida a error aleatorio.

EAIQ (GQ) Tema 4


Definiciones:
Variable aleatoria o variable dependiente o
variable respuesta: es la que est sometida a
errores aleatorios.
Variable independiente o variable predictora o
variable explicativa: es la que origina -causa,
explica- los valores de la otra variable. Es la que
est controlada por el experimentador, bien
porque sus valores son conocidos (fijos), bien
porque pueden ser seleccionados de antemano.
No tiene errores aleatorios, sino valores fijos.
Estrictamente: el error de una de las variables es
despreciable frente al de la otra.
EAIQ (GQ) Tema 4
Dependiendo de si se fijan o no los valores de la
variable independiente, se puede hacer un anlisis de
regresin o de correlacin.
Ejemplo: estudiar el peso de los alumnos en relacin con su
altura:
si se fijan de antemano distintas alturas: regresin.
si no se fijan: correlacin.
Objetivo del anlisis de regresin: obtener una
expresin matemtica que representa la relacin
entre dos variables y luego utilizar dicha relacin para
predecir el valor de una variable a partir de un valor de
la otra. Una variable se expresa condicionada al valor
de la otra:
Variable r espuesta = f (var iable exp licativa )
EAIQ (GQ) Tema 4
La aplicacin ms importante: calibracin:
variable independiente: suele ser la concentracin
de la sustancia que se analiza (analito).
variable dependiente: seal que proporciona el
instrumento, y que se debe a la concentracin.
Dos tipos de calibracin: instrumental y metodolgica.
a) Calibracin instrumental: ajuste del instrumento
para que funcione correctamente. Con materiales
sin analito. Lo hace el fabricante o instalador.
b)Calibracin metodolgica (calibracin): es la
regresin de la variable dependiente (Y) sobre
la independiente (X). Con patrones (materiales
con analito en concentracin conocida).
EAIQ (GQ) Tema 4
Cuando dos variables estn relacionadas mediante una
relacin de regresin, esa relacin puede tomar
distintas representaciones grficas:
lnea recta (regresin lineal (simple)).
lnea curva (ms o menos complicada).
no paramtrica (a partir de los datos).
...
Idea fundamental:
Buscar la lnea que mejor se adapta a los datos,
NO AL REVS!
(no hacer que los datos estn sobre la lnea)
EAIQ (GQ) Tema 4
Suele interesar encontrar una lnea recta (ecuacin
paramtrica de la recta) porque:
las conclusiones son ms fciles de obtener.
el ajuste es ms sencillo (y ms fcil de dibujar).
es frecuente que haya un soporte terico para esa
lnea recta.
Ejemplo: transformaciones de los datos para conseguir
la linealidad.

S => 10S:

EAIQ (GQ) Tema 4


S => log S:

Esa lnea recta se puede obtener de distintas formas:


a ojo, solucin grfica (no despreciar!).
hallar la pendiente de la recta como Y / X, y la
ordenada en el origen por el punto de corte.
procedimientos sistemticos. Entre ellos, el ms
empleado: mtodo de minimizacin de la
varianza (Mtodo de Mnimos Cuadrados).
EAIQ (GQ) Tema 4
Mtodo de mnimos cuadrados
La relacin entre la variable dependiente (Y) y la
variable independiente (X) se puede expresar de
forma genrica como:
Y = 0 + 1 X + 2 X2 + 3 X3 + ... + nXn
donde los i son coeficientes del modelo.
Cuando la relacin entre variables se puede
representar por medio de una lnea recta, basta con
determinar slo los dos primeros trminos, en los que:
0: ordenada en el origen o intercepto (, a).
1: pendiente o coeficiente de regresin, razn de
cambio en Y al cambiar X en una unidad (,b).
EAIQ (GQ) Tema 4
Para aplicar correctamente el modelo de regresin
por mnimos cuadrados, se deben cumplir una serie de
hiptesis bsicas:
linealidad: la funcin de regresin es una lnea
recta: Y = +X +
y son parmetros desconocidos.
independencia: los datos (xi,yi) (con i = 1, ..., n)
que observamos del modelo son independientes.
normalidad: el error tiene una distribucin
normal ( N(0,2)).
homocedasticidad: el error tiene la misma
varianza independientemente del valor de X.
EAIQ (GQ) Tema 4
Procedimiento:
1) adoptar un modelo (lnea recta, Y = + X + )
2) preparar y realizar las medidas (datos (xi,yi)).
3) representar grficamente los datos (X vs Y).
4) examinar la grfica y tomar decisiones
(repeticin, dilucin, rechazo, ...).
5) estimar los parmetros del modelo (a, b, e, ...).
6) validar el modelo (comprobar residuos e
hiptesis).
7) predecir una variable a partir de la otra
(interpolacin matemtica o grfica, no
extrapolacin: i = a + b xi x^ i= (yi a)/b).
EAIQ (GQ) Tema 4
+X +
Y =
y i= a + b x i

+
? ei
0
X
_
ANOVA, contrastes,
Y= a + b X residuos, ...?

EAIQ (GQ) Tema 4


Modelo de regresin de Y
(variable dependiente) sobre X
(variable independiente):
+X +
Y =

Los estimadores de , y
(respectivamente, ordenada en
el origen, pendiente y error) son,
respectivamente, a, b y e:
Y =
a + b X + e

Esta recta pasa por el vector de medias (,) (o centro


de gravedad o centroide de los n pares de datos (xi,yi)
con los que se calculan los estimadores.

EAIQ (GQ) Tema 4


ei: es el residuo o error aleatorio para el valor yi de la
variable dependiente (relacionado con el valor xi de la
variable independiente). Es la diferencia entre el valor
real (yi) y el valor estimado con el modelo (i):
ei = y i ( a + b x i ) = y i y i

Fundamento del mtodo de mnimos cuadrados:


obtener los valores de los estimadores a y b que hacen
que los residuos sean los ms pequeos posibles. Se
usa la suma de cuadrados para evitar la compensacin
entre los residuos positivos y los negativos:
nn

e (y y i ) = y i ( a + b x i ) = mnimo
2 2
2
i = i
=i 1= i 1

EAIQ (GQ) Tema 4


Haciendo derivadas parciales respecto a a y b de esta
expresin e igualando a cero cada derivada, se llega a
las expresiones matemticas para calcular a y b:
la pendiente (b): cociente entre la covarianza
(SXY) y la varianza de X (SX2):
( x x )( y y )
n

( x )( y )
n i i

y
i =1
x SXY =
SXY i =1
i i n
=
b =
(x ) (x )
n
SX2
n 2
2
x i x
i i =1
i =1 SX2 =
n

la ordenada en el origen (a):


SXY
a=
y 2 x=
y b x
SX

EAIQ (GQ) Tema 4


Validacin y evaluacin del modelo
El ajuste por regresin slo es aplicable si hay relacin
lineal (recta) entre las variables. Ese modelo se valida
calculando covarianza y coeficientes de correlacin y
de determinacin y examinando los residuos.
Covarianza (SXY): depende de las unidades y es
sensible a cambios de escala, pero no de
localizacin (ver Tema 1):
(x )( y )
n

SXY > 0 => relacin directa. i x i y


i =1
SXY < 0 => relacin inversa. SXY = n
SXY = 0 => no hay relacin lineal (recta). Las variables
pueden ser independientes o no.
si ambas variables son independientes => SXY = 0.
EAIQ (GQ) Tema 4
Coeficiente de correlacin (R, r): no se afecta por
cambios de escala (ver Tema 1):
( x x )( y y )
n

i i
i =1

( )( )
n
SXY =

SXY

i =1
xi x

yi y

n

= (x )
n
r x
2

(x ) (y )
SX SY n 2 n 2 i =1
i

i x i y SX =
n
=i 1= i 1

( )
n 2
yi y
es adimensional, y -1 r 1. SY =
i =1

n
cuanto ms cercano sea r a 1 a 1, mejor es el ajuste.
r > 0 => relacin directa.
r < 0 => relacin inversa.
r 0 => relacin no lineal (recta). Puede ser otra
relacin.
EAIQ (GQ) Tema 4
El coeficiente de correlacin, es til para evaluar
el ajuste, pero debe usarse con precaucin:
r +1 r -1 no garantiza que todos los
datos estn prximos a la recta.
la forma de la lnea puede cambiar sin
cambiar r.
r depende de los intervalos de las variables:
distintos valores de r no se pueden comparar
si se obtienen con distintas muestras.
r no es proporcional: r = 0,98 no es el doble
de bueno que r = 0,49; mejorar r de 0,985 a
0,990 no es equivalente a mejorar de 0,990 a
0,995.
EAIQ (GQ) Tema 4
Por tanto, aparte de r, es esencial la inspeccin
visual de los datos representados, para evaluar el
ajuste.
Coeficiente de determinacin (R2, r2): es una
buena medida para determinar lo bueno que es el
ajuste, pues mide la proporcin de variabilidad de
Y que es explicada por X a travs de la recta de
regresin (ver Tema 1): 2
SXY
r =
2

X Y
S S

0 r2 1; cuanto ms cercano a 1, mejor ajuste.


r2 es el mismo para la regresin de Y sobre X que
para la regresin de X sobre Y.
EAIQ (GQ) Tema 4
Grfico de residuos (residuales): grfica de los
ei frente a los xi o los i (valores estimados de Y).
Es til para:
validar el ajuste.
comprobar si se cumplen las hiptesis de
partida, especialmente la homocedasticidad.
Al examinar un grfico de residuos, comprobar:
tendencia (residuos constantes o no?)
residuos positivos vs negativos (mismo
nmero de ambos grupos? estn distribuidos
uniformemente?)
datos atpicos (hay residuos mucho mayores
o
EAIQ (GQ) Tema 4
menores que el resto?)
+ homocedasticidad: residuos dispersos
ei aleatoriamente, con nmero de residuos
0
_
X positivos similar al de residuos negativos.
El modelo es adecuado.
heterocedasticidad: los residuos se
+ dispersan ms a medida que aumenta X.
ei
0
X
La precisin vara con X. Modelo
_ probablemente adecuado, pero mejor:
mnimos cuadrados ponderados.
+ homocedasticidad: modelo no adecuado.
ei
0 Quiz sera til considerar alguna variable
X
_ adicional.
+ homocedasticidad: caso tpico de ajustar
ei
0 a una recta datos que mejor se ajustaran
X
_ a una curva: el modelo no es vlido.
EAIQ (GQ) Tema 4
Con el grfico de residuos, se pueden poner de
manifiesto datos atpicos, que puede ser
necesario eliminar del ajuste, puesto que pueden
tener enorme influencia sobre los estimadores.
Estos datos pueden ser: atpicos e influyentes.
dato atpico: el que se sale del modelo, tiene
un residuo grande (= mayor que 1,96 o
menor que 1,96). Slo suele subir o bajar
la lnea.

EAIQ (GQ) Tema 4


dato influyente: es un dato atpico que
haciendo palanca modifica pendiente y
ordenada en el origen, por estar lejos del
vector de medias.

La eliminacin en su caso- de estos datos


atpicos debe hacerse con precaucin. Puede
ser til algn contraste de hiptesis.
EAIQ (GQ) Tema 4
Prediccin a partir del modelo
El ajuste es un medio para hacer predicciones de los
valores de las variables. En el caso ms importante,
calibracin: hacer predicciones de la variable
concentracin a partir de valores de la variable seal.
Se pueden definir desviaciones tpicas para la
ordenada en el origen y la pendiente, con las que
definir sus intervalos de confianza:
varianza residual (sX/Y2, se2): (xi,yi) son los n datos
originales y (xi, i) los n datos sobre la recta:
n
(xi,i) (y y i )
2
i
i =1
sy =
(xi,yi) x
n2
EAIQ (GQ) Tema 4
ordenada en el origen (a): n

i
x 2

i =1
sa = s y
( )
x n
n xi x
2

i =1

Intervalo de confianza (normalmente, al 95%) con


(n 2) grados de libertad: = a t s = 0 ,05 ;( n 2 ) a

pendiente (b): sy
sb =
x

(x )
n 2
i x
i =1

Intervalo de confianza (normalmente, al 95%) con


(n 2) grados de libertad:
= b=
t 0 ,05 ;( n 2 ) sb
EAIQ (GQ) Tema 4
La incertidumbre en el clculo de a y b da lugar a una
incertidumbre en el clculo del valor de X
(concentracin) a partir del valor de Y (seal).
Esta incertidumbre se expresa como desviacin tpica
(m es el nmero de medidas replicadas):
( )
2
sy 1 1 y MUESTRA y
= + +
x
s x MUESTRA
( )
n
b n m
b2 x i x
2

i =1

Intervalo de confianza (normalmente, al 95%) y (n 2)


grados de libertad: y a
x MUESTRA = MUESTRA

b
=
MUESTRA t
x MUESTRA= 0 ,05 ;( n 2 ) s x MUESTRA
EAIQ (GQ) Tema 4
Esto da lugar a la llamada banda de prediccin, que
marca los lmites de confianza para la prediccin del
valor de xMUESTRA:

En la parte central, el error es menor: siempre es


bueno tener un nmero suficiente de datos (n).
EAIQ (GQ) Tema 4
Anexo: algunos detalles importantes
la recta slo vale para los intervalos de X e Y en los
que se encuentran los datos de partida. Fuera de
esos intervalos:
diluir (para reducir Y)
obtener ms datos (para cubrir ampliar la
zona de ajuste)
cerca y fuera del lmite: hacerlo constar
la resolucin grfica y la matemtica deben dar
resultados parecidos.
la recta de regresin de Y sobre X NO es la misma
que la de regresin de X sobre Y: es conceptual.
EAIQ (GQ) Tema 4
en otros tipos de calibrado (patrn interno,
adicin estndar) el ajuste por mnimos
cuadrados es idntico: slo cambia la variable.
Ejemplo: calibrado con patrn interno.

Variable independiente: concentracin (C)


Variable dependiente: cociente de seales (SA/SPI), es
decir: SANALITO/SPATRN INTERNO

SA SPI= a + b C
EAIQ (GQ) Tema 4
Ejemplo: calibrado con adicin estndar.

Variable independiente: concentracin aadida (CAADIDA)


Variable dependiente: seal (S)

= a' + b' CAADIDA


S

EAIQ (GQ) Tema 4


Referencias:
R.M. Crujeiras, P. Faraldo Roca: Manual de estadstica
bsica para ciencias de la salud, Universidad de Santiago
de Compostela, Santiago de Compostela, 2010.
L. Gonick, W. Smith: estatstica en caricaturas!,
SGAPEIO, Lugo, 2001.
D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de
Long, P.J. Lewi, J. Smeyers-Verbeke: Handbook of
chemometrics and qualimetrics: Part A, Elsevier,
Amsterdam, 1997.
J.N. Miller, J.C. Miller: Statistics and chemometrics for
analytical chemistry, 6th Ed., Pearson, Harlow, 2010.
J.S. Milton: Estadstica para biologa y ciencias de la salud,
3 Ed., McGraw-Hill, Madrid, 2002.
EAIQ (GQ) Tema 4

También podría gustarte