Está en la página 1de 29

CORRELACION de DATOS

CURVA DE CALIBRADO
Los métodos instrumentales son métodos
relativos

NOS interesa estudiar si existe o no algún tipo


de relación entre dos variables aleatorias.

En la práctica, los cálculos relacionados con un


análisis de regresión se efectúan por medio de
programas de computadora, por lo que los
cálculos detallados en esta sección se incluyen
únicamente a título de ilustración.
1
REGRESION LINEAL
CURVA DE CALIBRADO

OBJETIVOS ________________________
• Aprender a calcular la correlación entre dos
variables.
• Saber dibujar un diagrama de dispersión.
• Saber estimar la recta de regresión por el
método de mínimos cuadrados e interpretar su
ajuste.
• Realizar inferencia sobre los parámetros de la
recta de regresión

2
CONCEPTOS BASICOS
Una relación funcional se expresa mediante una
función matemática.
Si X es la variable independiente e Y es la variable
dependiente, una relación funcional tiene la forma:
Y=f(X)
Relación estadística entre dos variables
A diferencia de la relación
funcional, no es una relación
perfecta, las observaciones no
caen exactamente sobre la curva
de relación entre las variables

3
Conceptos básicos
❖ Análisis de Regresión: Es un procedimiento estadístico que estudia
la relación funcional entre variables.Con el objeto de predecir una
en función de la/s otra/s.
❖ Análisis de Correlación: Un grupo de técnicas estadísticas usadas
para medir la intensidad de la relación entre dos variables
❖ Diagrama de Dispersión: Es un gráfico que muestra la intensidad y
el sentido de la relación entre dos variables de interés.
❖ Variable dependiente (respuesta, predicha, endógena): es la
variable que se desea predecir o estimar
❖ Variables independientes (predictoras, explicativas exógenas). Son
las variables que proveen las bases para estimar.
❖ Regresión simple: interviene una sola variable independiente
❖ Regresión múltiple: intervienen dos o más variables
independientes.
❖ Regresión lineal: la función es una combinación lineal de los
parámetros.
❖ Regresión no lineal: la función que relaciona los parámetros no es
una combinación lineal
4
CORRELACION DE DATOS
Cuadro 1.
Operaciones Mensuales en
una Empresa de Transporte de Pasajeros.
Costos Millas
Totales Vehículo
(miles) (miles)
Mes Nº Y X
1 213.9 3147
16 200.1 3096
2 212.6 3160
17 201.5 3158
3 215.3 3197
18 213.2 3338
4 215.3 3173
19 219.5 3492
5 215.4 3292
20 243.7 4019
6 228.2 3561
21 262.3 4394
7 245.6 4013
22 252.3 4251
8 259.9 4244
23 224.4 3844
9 250.9 4159
24 215.3 3276
10 234.5 3776
25 202.5 3184
11 205.9 3232
26 200.7 3037
12 202.7 3141
27 201.8 3142
13 198.5 2928
28 202.1 3159
14 195.6 3063
29 200.4 3139
15 200.4 3096
30 209.3 3203 5
CORRELACION DE DATOS

Diagrama de dispersión

6
Coeficiente de correlación lineal
La bondad de la correlación se mide con el
Coeficiente de correlación lineal: r o R.

El Coeficiente de Correlación (r) requiere


variables medidas en escala de intervalos o
de proporciones
– Varía entre -1 y 1.
– Valores de -1 ó 1 indican correlación perfecta.
– Valor igual a 0 indica ausencia de correlación.
– Valores negativos indican una relación lineal
inversa y valores positivos indican una relación
lineal directa7
7
Correlación Negativa Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X 8
Correlación Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X 9
Ausencia de Correlación
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X 10
Correlación Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X 11
Fórmula para el coeficente de
correlación (r) Pearson

n(ΣXY) (ΣX)(ΣY)
r=
[n(ΣX ) (ΣX) ][n(ΣY ) (ΣY) ]
2 2 2 2

12
Análisis de Regresión

❖Objetivo: determinar la ecuación de regresión


para predecir los valores de la variable
dependiente (Y) en base a la (o las) variables
independientes (X).

❖Procedimiento: seleccionar una muestra a partir


de la población, listar pares de datos para cada
observación; dibujar un diagrama de puntos para
dar una imagen visual de la relación; determinar
la ecuación de regresión.

13
REGRESION LINEAL
El método de mínimos cuadrados se aplica si se cumplen las
siguientes condiciones

❖- la incertidumbre asociada a la respuesta instrumental de cada


punto experimental ha de ser mucho mayor que la incertidumbre
asociada al correspondiente valor de concentración. Esta condición
se suele cumplir en la mayoría de los casos.

❖- la incertidumbre asociada a la respuesta instrumental (estimable


por ejemplo mediante repeticiones) debe tener un valor constante a
lo largo de todo el intervalo de linealidad (lo que se conoce como
homoscedasticidad).

❖- los errores aleatorios asociados a la respuesta instrumental


deben ser mutuamente independientes. En la práctica esto implica
que las soluciones patrón utilizadas para construir la recta de
calibrado deben prepararse de forma independiente, a partir de una
o varias soluciones madre.
14
Los supuestos de la regresión
• 1. Para cada “x” hay una poblacion con
distribución normal de “y”
• 2. homogeneidad de varianza
• 3. la relación es lineal
• 4. datos al azar e independientes
• 5. los x’s se obtiene sin error.

15
REGRESION LINEAL

El problema radica en encontrar aquella recta que


mejor ajuste a los datos.

Se ha recurrido para ello al método de mínimos


cuadrados, que elige como recta de regresión a
aquella que minimiza las distancias verticales de
las observaciones a la recta, es decir minimiza las
desviaciones de los valores medidos y i a la recta.

16
REGRESION LINEAL
Curva de Calibración
Los métodos instrumentales son métodos relativos

Señal analítica = f concanalito


y

x
❑ ¿Es la gráfica de calibrado lineal?
❑ ¿Cuál es la mejor línea recta a través de los puntos
experimentales?
❑ ¿Cuál es la incertidumbre de la pendiente y de la ordenada
en el origen?
❑ ¿Cuál es la incertidumbre en la medida de la
17
concentración?
Proceso de estimación de la regresión lineal simple
Modelo de regresión Datos de la muestra
y=0+1x+ x y
x1 y1
Ecuación de regresión x2 y2
E(y)=0+1x . .
Parámetros desconocidos . .
0.1 . .
xn yn

Ecuación estimada de
b0 y b1 regresión
y=b0+b1x
proporcionan estimados Estadísticos de la muestra
0 y 1 b0.b1
18
Regresión Lineal Simple
Se trata de predecir el comportamiento de Y usando X .
Entonces el modelo de regresión lineal simple es de
la forma:
Y =  + X + 

Donde, Y es llamada la variable de respuesta o


dependiente,
X es llamada la variable predictora o independiente,
 es el intercepto de la línea con el eje Y,
 es la pendiente de la línea de regresión y
 es un error aleatorio, el cual se supone que tiene
media 0 y varianza constante 2.
19
Regresión Lineal Simple
El método de mínimos cuadrados, se basa en minimizar la
suma de cuadrados de los errores o desviaciones.
Yi debe ser calculada con respecto a su propia media
estimada Yi.
Por tanto, las desviaciones son los residuales

Yi - Ŷi = e i
Y la suma de cuadrados es:
n n n
SCe =  (Yi − Yˆi ) 2 =  (Yi − b − mX1 ) 2 =  ei2
i =1 i =1 i =1
20
Regresión Lineal Simple
La recta que cumple dicha condición, es aquella
cuya pendiente y ordenada al origen se calcula
asi:

 xi yi −
ixy i

m= N b=
 y i − m xi
( xi )
2
N
 xi − N
2

21
Regresión Lineal Simple
¿ Qué fiabilidad tienen los parámetros m y b de la
curva de calibrado ?

El método de los mínimos cuadrados nos permite conocer


la desviación estándar de la pendiente, Sm, y de la
ordenada en el origen; Sb.

Sy N
Sm =
2  x 2

N
 Sb = S m i =1
  xi  N
 i =1 
N

 i x 2

N
i =1
22
Regresión Lineal Simple
Donde S y viene dado por la siguiente relación:

 (d i − d )  i
2 2
( d )
Sy = = ;
N −2 N −2


(
  yi −
2
)( yi )
2
 
 − m  xi −
2 2
( xi ) 
2


 N 
  N 

Sy =
N −2
23
El Coeficiente de Determinación
Es una medida de la bondad de ajuste del modelo de
regresión hallado.
SSR
R2 =
Donde, SST

SSR representa la suma de cuadrados debido a la regresión y


SST representa la suma de cuadrados del total.

El coeficiente de determinación es simplemente


el cuadrado del coeficiente de correlación.

El coeficiente de Determinación varía entre 0 y 1.

R2 indica qué porcentaje de la variabilidad de la


variable de respuesta Y es explicada por su relación24
lineal con X.
Análisis de Residuales
Un residual es la diferencia entre el valor observado Yi y
el valor estimado por la línea de regresión Yˆ ,
i

El residual puede ser considerado como el error aleatorio


ei observado.

También se acostumbra usar el Residual estandarizado,


el cual se obtiene al dividir el residual entre la
desviación estándar del residual, y

el Residual estudentizado "deleted", que es similar al


anterior pero eliminando de los cálculos la observación
cuyo residual se desea hallar.
25
Análisis de Residuales
En un análisis de residuales se puede detectar:

• Si efectivamente la relación entre las variables X


e Y es lineal.
• Si hay normalidad de los errores.
• Si hay valores anormales en la distribución de
errores.
• Si hay varianza constante (propiedad de
Homocedasticidad) y
• Si hay independencia de los errores.

26
Modelos No Lineales y
Transformaciones
Cuando se construyen modelos de regresión el objetivo
es conseguir un modelo con R2 alto que se
aproxime a 100 %, asumiendo que no hay datos
atípicos presentes.
Si no se desea incluir variables predictoras adicionales
en el modelo, hay dos alternativas:
Tratar de usar modelos polinómicos de grado mayor o
igual a dos, y
Transformando las variables tanto la predictora como la
de respuesta.

27
Regresión Cuadrática

Un modelo cuadrático es de la forma:


Y = a + bX + cX 2 + 

donde a, b y c son constantes a estimar. Usando la técnica de


mínimos cuadrados se pueden obtener fórmulas explícitas para
calcular a, b y c.

para obtener la ecuación del modelo( lineal, cuadrático y otros)


hay muchos software disponibles. El mas accesible, y fácil de
usar es el EXEL.

28
Modelos No lineales que pueden ser
transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a través de
transformaciones tanto de la variable independiente como dependiente.

Nombre del modelo Ecuación del Transformación Modelo


Modelo Linealizado
Exponencial Y=eX Z=Ln Y X=X Z=Ln  +X
Logarítmico Y=  +Log X Y=Y W=Log X Y=  +W
Doblemente Y=X Z=Log Y W=Log Z= Log  +W
Logarítmico X
Hiperbólico Y=  +/X Y=Y W=1/X Y=  +W
Inverso Y=1/( +X) Z=1/Y X=X Z= +X

Para predecir el valor de Y usando el modelo linealizado hay que


aplicar la inversa de la transformación correspondiente al mismo. 29