Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AJUSTE DE CURVAS
En mltiples ocasiones se encuentran situaciones en las que se requiere analizar
la relacin entre dos variables cuantitativas. Los dos objetivos fundamentales de este
anlisis sern:
Determinar si dichas variables estn asociadas y en qu sentido se da dicha
asociacin (es decir, si los valores de una de las variables tienden a aumentar o
disminuir- al aumentar los valores de la otra);
Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de
la otra.
La forma correcta de abordar el primer problema es recurriendo a coeficientes de
correlacin. Sin embargo, el estudio de la correlacin es insuficiente para obtener una
respuesta a la segunda cuestin: se limita a indicar la fuerza de la asociacin mediante
un nico nmero, tratando las variables de modo simtrico, mientras que lo que interesa
es modelizar dicha relacin y usar una de las variables para explicar la otra.
Para tal propsito se recurrir a la tcnica de regresin. Aqu se analizar el caso
ms sencillo en el que se considera nicamente la relacin entre dos variables (x e y).
As mismo, se limita al caso en el que la relacin que se pretende modelizar es de tipo
lineal. En este caso, la media de la distribucin de las y sobre x est dada por .x.
LA RECTA DE REGRESIN
Considrese una variable aleatoria respuesta (o dependiente) y, que se supone
relacionada con otra variable (no necesariamente aleatoria) que se llamar explicativa,
predictora o independiente y que se denotar por x.
A partir de una muestra de n individuos para los que se dispone de los valores de
ambas variables, {(xi,yi),i = 1,...n}, se puede visualizar grficamente la relacin
existente entre ambas mediante un grfico de dispersin, en el que los valores de la
variable x se disponen en el eje horizontal y los de y en el vertical. El problema que
subyace a la metodologa de la regresin lineal simple es el de encontrar una recta que
ajuste a la nube de puntos del diagrama as dibujado, y que pueda ser utilizada para
predecir los valores de y a partir de los de x. La ecuacin general de la recta de
regresin ser entonces de la forma: .x.
El problema radica en encontrar aquella recta que mejor ajuste a los datos.
Tradicionalmente se ha recurrido para ello al mtodo de mnimos cuadrados, que elige
como recta de regresin a aquella que minimiza las distancias verticales de las
observaciones a la recta.
Cualquier observacin i-sima yi diferir verticalmente de esa recta (por ahora
desconocida) en un valor i. Luego es el valor de una variable aleatoria.
Ctedra Estadstica II
Universidad de Mendoza
ei
i 1
tan cercano a cero como sea posible.
Esto no es aconsejable puesto que errores positivos y negativos se compensarn
dando lneas inadecuadas como respuesta. Por lo tanto, se minimizar la suma de los
cuadrados de ei. Es decir, se elegirn a y b de modo que:
yi a b xi
sea mnimo
i 1
Ctedra Estadstica II
Universidad de Mendoza
yi a b xi (1)
derivada respecto de a
yi a b xi xi
derivada respecto de b
i 1
n
i 1
a n b
yi
i 1
n
xi
i 1
n
yixi
i 1
xi b
i 1
xi 2
i 1
yi
i 1
xi
i 1
xi
i 1
n
n
b
xiyi
i 1
xi
i 1
2
xi
i 1
xi
yixi
xi
i 1
i 1
i 1
yi
i 1
xi
i 1
Ejemplo: Los siguientes datos son las mediciones de la Tensin Arterial en 14 pacientes
de distintas edades:
Ctedra Estadstica II
Universidad de Mendoza
ajustar una lnea recta a estos datos por el mtodo de mnimos cuadrados y utilizarla
para estimar la tensin arterial para una persona de 36 aos.
n
xi
461
i 1
yixi
xi 2
i 1
n
yi
1901
i 1
63892
16819
i 1
109.7715
0.79
La siguiente funcin Matlab permite obtener los resultados vistos del proceso:
function recta
% Ajuste lineal de un conjunto de datos por Minimos Cuadrados
% con datos presentes en el archivo ascii regre.txt
Ctedra Estadstica II
Universidad de Mendoza
Ctedra Estadstica II
Universidad de Mendoza
En las suposiciones hechas hasta aqu, como se ilustra, se pueden advertir las
distribuciones de los yi para varios valores de las xi.
Antes de establecer un teorema relativo a la distribucin de los estimadores de
mnimos cuadrados de y , es conveniente introducir una notacin especial:
n
Sxx
i 1
n
Syy
i 1
n
Sxy
2
xi
xi
i 1
2
yi
yi
i 1
nsx ( n 1)
xiyi
i 1
xi
i 1
nsy ( n 1)
yi
nsxy( n 1)
i 1
Sxy
b
a y b x
Sxx
donde e son, respectivamente las medias de las x y de las y. Debe notarse tambin la
estrecha relacin entre las Sxx y Syy con las varianzas muestrales respectivas de las x y
las y (sx y sy).
La varianza comn 2 puede estimarse en trmino de las desviaciones verticales
de los puntos muestrales a partir de la lnea de mnimos cuadrados. La i-sima de tales
desviaciones es:
yi a b xi
De aqu, la estimacin, se2, es:
n
n 2
1
2
se
yi a b xi
i 1
donde se se denomina Error Estndar de Estimacin, tambin la suma de los cuadrados
dada por se2.(n-2) recibe el nombre de Suma de Cuadrados Residual o Suma de
Cuadrados de Error.
Una frmula equivalente de esa estimacin de 2 es:
se
n( n 2) Sxx
el divisor n-2 se emplea para que el estimador resultante de 2 sea insesgado.
En base a las suposiciones efectuadas relativas a la distribucin de las y, se
pueden probar los siguientes teoremas:
Ctedra Estadstica II
Universidad de Mendoza
n
n
b t s e
b t s e
Sxx
Sxx
2
Problema: Los siguientes datos son las mediciones de la velocidad del aire y del
coeficiente de evaporacin de las gotitas de combustible en una turbina de propulsin:
Velocidad del aire 20
(cm/s)
Coeficiente de Eva- .18
poracin (mm2/seg)
60
100
140
180
220
260
300
340
380
.37
.35
.78
.56
.75
1.18
1.36
1.17
1.65
Sxx
i 1
Syy
i 1
n
Sxy
Sxy
Sxx
2
yi
yi
i 1
n
1.32 10
xiyi
i 1
2
xi
xi
i 1
21.375
xi
i 1
3.829 10
yi
5.054 10
i 1
y b x
0.835 3.829 10
200
0.069
Grficamente:
Ctedra Estadstica II
Universidad de Mendoza
2.306 0.159
1.32 10 ( 2000)
6
10 1.32 10
0.233
a 0.233 0.302
Ctedra Estadstica II
Universidad de Mendoza
3.829 10
0.159
1.32 10
8.749
10
5. Decisin: Ya que 8.749 > 2.306 Se Rechaza la Hiptesis Nula. Luego, existe
relacin entre la velocidad del aire y el coeficiente de evaporacin promedio (la
relacin es lineal por las suposiciones que fundamentan la prueba).
Otro problema es estimar .x, es decir la media de la distribucin de las y, para
un valor dado de x. Si x se hace igual a un valor fijo x0 se desea estimar .x0 y sera
razonable emplear ab.x0 (con a y b obtenidos por el mtodo de los mnimos
cuadrados). Puede verificarse que este estimador es insesgado, y que tiene la varianza:
2
1 n x0 x
Sxx
n
y que los lmites de confianza del (1-).100% para . x0 estn dados por:
1
10
10 ( 190 200)
6
0.116
1.32 10
intervalo de confianza
Ctedra Estadstica II
Universidad de Mendoza
Problema: Conforme al ejemplo anterior, encontrar los lmites de prediccin del 95%
para una observacin del coeficiente de evaporacin cuando la velocidad del aire es de
190 cm/seg.
2.306 0.159 1
1
10
10 ( 190 200)
1.32 10
0.385
1
10
10 ( 450 200)
1.32 10
0.46
el ancho es de 2*0.46 = 0.92, contra los 2*0.385 = 0.77 del problema anterior.
REGRESIN CURVILNEA
Se considerar primero el caso en que la graficacin en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n puntos
(xi,yi) "se enderezan" cuando son graficados sobre ejes escalados adecuadamente. E
este caso, al ser representados sobre papel semilogartmico, indican que la curva de
regresin de y sobre x es exponencial, es decir para cualquier x considerada, la media de
Ctedra Estadstica II
10
Universidad de Mendoza
log xlog
10
20
30
81.3
64.0
36.4
32.6
1.9101 1.8062 1.5611 1.5132
40
50
17.1
1.2330
11.3
1.0531
El patrn global (del segundo grfico) es lineal y esto justifica el ajuste mediante
una curva exponencial.
b) Para formar las ecuaciones normales:
x = 158 x2 = 5530 x.log(y) = 212.1224 log(y) = 13.0312
13.0312 = 8 log(a) + 158 log(b)
212.1224 = 158 log(a) + 5530 log(b)
log(a) = 1.9997 a = 99.9408
Ctedra Estadstica II
11
Universidad de Mendoza
Ctedra Estadstica II
12
Universidad de Mendoza
1
6.5
2
40
3 4
5
6
7
90 140 250 500 700
b = 2.338
y = 6.7437 . x2.338
Ctedra Estadstica II
13
Universidad de Mendoza
1
1.5
2
1
3
0.8
4
5
0.85 0.6
6
0.5
7
0.55
a = 0.53
b = 0.21
y = 1/(0.53 + 0.21 x)
14
Universidad de Mendoza
Ctedra Estadstica II
15
Universidad de Mendoza
donde el grado se determina por observacin de los datos o por un mtodo ms riguroso
como el siguiente: dado un conjunto de datos que consta de n puntos (xi,yi) se estiman
los coeficientes 0 ,1 ,2, p del polinomio de p-simo grado, minimizando:
n
yi 0 1 x 2 x2 . p xp
i 1
b0 n b1
yi
i 1
n
xi . bp
i 1
b0
i 1
xi p
i 1
xiyi
xi b1
i 1
xi
. bp
i 1
xi p1
i 1
.
n
xi
yi
i 1
b0
xi
b1
i 1
xi
p1
. bp
i 1
xi 2 p
i 1
Cantidad de
aditivo (en gr.)
Tiempo de
secado (en seg.)
12.0
10.5
10.0
8.0
7.0
8.0
7.5
8.5
9.0
Ctedra Estadstica II
16
Universidad de Mendoza
b) Clculos:
n
xi
i 1
n
xi
204
i 1
i 1
n
36
xi 4
xi 3
1.296 10
i 1
n
8.772 10
yi 2
740.75
i 1
yi
i 1
80.5
xi
yi
1.697 10
i 1
9 b0 36 b1 204 b2
299
36 b0 204 b1 1296 b2
1697
xi
xiyi
299
i 1
1.296 10
i 1
b0 = 12.2
b1 = -1.85
b2 = 0.183
grficamente:
Ctedra Estadstica II
17
Universidad de Mendoza
En la prctica, puede ser difcil determinar el grado del polinomio que se ajusta a
un conjunto de parejas de datos. Como siempre, es posible hallar un polinomio de grado
Ctedra Estadstica II
18
Universidad de Mendoza
n-1 que pase a travs de los n puntos correspondientes a n valores distintos de x. Debe
ser claro el objetivo de encontrar un polinomio de grado mnimo que describa
adecuadamente a los datos. A menudo es posible determinar el grado con la simple
observacin de los datos.
Existe tambin un mtodo ms estricto para determinar el grado de un polinomio
que se ajuste a un conjunto de datos. En esencia, consiste en ajustar inicialmente a una
lnea recta, as como a un polinomio de segundo grado y probar la Hiptesis Nula =0.
Es decir, nada se gana incluyendo el trmino cuadrtico.
Si esta Hiptesis Nula puede rechazarse, entonces se ajusta con un polinomio de
tercer grado y se prueba la Ho =0. Es Es decir, nada se gana incluyendo el trmino
cbico.
Este procedimiento se continua hasta que la Ho =0 no pueda ser rechazada en
dos etapas sucesivas, no existe pues ventaja en utilizar trminos adicionales. Para
aplicar estas pruebas, se requieren las suposiciones de normalidad, independencia y
varianzas iguales introducidas al principio.
AJUSTE POLINOMIAL MEDIANTE LA VARIAZA RESIDUAL
Como se ha dicho ms arriba, cuando se ajusta un polinomio a un conjunto de
parejas de datos, se suele empezar ajustando una lnea recta y se prueba la Ho =0.
Entonces se ajusta un polinomio de segundo grado y se prueba si vale la pena conservar
el trmino cuadrtico comparando
recta, con
, la varianza residual despus de ajustar el polinomio de segundo grado.
Cada una de estas varianzas residuales est dada por:
con
determinada, respectivamente, de la ecuacin de la recta y de la ecuacin de
segundo grado. Los grados de libertad se determinan restando el nmero de puntos
considerados y los coeficientes estimados.
Este proceso se reitera, hacia grados superiores, hasta que la varianza residual
produzca el salto decreciente ms significativo.
Problema: Dado el siguiente conjunto de datos:
x
y
.5
3
1.5
7
2.5
12.5
5.5
14.5
6.5
16
9.5
14.5
10.5
16
12.5
16
14.5
21
15.5
23
Ctedra Estadstica II
19
Universidad de Mendoza
1394 = 79 b0 + 888.5 b1
b0 = 6.578
b1 = 0.984
res1
yi b0 b1 xi 2
i 1
7.207
10 2
143.5 = 10 b0 + 79 b1 + 888.5 b2
1394 = 79 b0 + 888.5 b1 + 11200 b2
16720 = 888.5 b0 + 11200 b1 + 149400 b2 b0 = 5.399 b1 = 1.5 b1 = -0.033
10
res2
yi b0 b1 xi b2 xi 2
i 1
10 3
7.58
y as hasta llegar a un polinomio de grado 9, que pasar por todos los puntos (varianza
residual nula).
Una tabla con las varianzas residuales para cada ajuste es la siguiente (hasta el
orden curtico):
Lineal
7.207
Cuadrtico
7.58
Cbico
1.021
Cuartico
0.992
Ctedra Estadstica II
20
Universidad de Mendoza
Ejecutando:
>> residual
re =
7.2069
re =
7.5798
re =
1.0206
re =
0.9917
re =
1.2390
REGRESIN MLTIPLE
Es necesario sealar que las curvas obtenidas (y las superficies a obtener) no
slo se utilizan para hacer predicciones . A menudo tambin se emplean para fines de
Ctedra Estadstica II
21
Universidad de Mendoza
Ctedra Estadstica II
22
Universidad de Mendoza
yi 0 1 x1i 2 x2i
i 1
b0 n b1
yi
i 1
n
x1i b2
i 1
yix1i
yix2i
b0
i 1
n
x1i b1
x2i b1
i 1
n
b0
i 1
x2i
i 1
x1i
x1ix2i b2
b2
i 1
n
i 1
x1ix2i
x2i 2
i 1
n
i 1
i 1
Estas son las ecuaciones normales para regresin mltiple con r=2. Donde b0, b1
y b2 son estimadores de mnimos cuadrados para 0, 1 y 2.
Problema: Los datos siguientes provienen del nmero de torsiones necesarios para
romper una barra hecha con cierto tipo de aleacin y los porcentajes de metales que la
integran:
Nro, de
Torsiones (x)
Porc. Del
elemento A (x1)
Porc. Del
elemento B (x2)
38 40 85 59 40 60 68
53 31 35 42 59 18 34 29 42
10 10 10
10 15 15 15 15 20 20 20 20
23
Universidad de Mendoza
Ejecutando:
>> multiple(2.5,12)
C=
48.1875
7.8250
-1.7550
estima =
46.6900
Ctedra Estadstica II
24
Universidad de Mendoza
Ctedra Estadstica II
25
Universidad de Mendoza
Se debe tener cuidado al analizar la correlacin entre dos variables, de que ambas
varen juntas permanentemente. Esto parece redundante, pero es importante. Por
ejemplo, si se correlaciona edad y altura. La altura ir aumentando con la edad hasta un
determinado punto en donde ya no aumentar ms.
Puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc.
En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la
relacin de las variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor
es representar los pares de valores en un grfico y ver que forma describen.
1
n
xi
2
sx
i 1
xi x
n 1
1
i 1
1
n
yi
2
sy
i 1
yi y
n 1
1
i 1
1
n 1
xi x yi y
i 1
Ctedra Estadstica II
26
Universidad de Mendoza
yi a b xi 2
i 1
adems:
r sx sy
sxy
sxy
sx
a b x
queda:
n
i 1
n
i 1
q
q
s xy s xy
s xy
yi y
x
xi
yi y
xi x
2
2
2
sx
sx
sx
i 1
2
y y 2 2 y y s xy x x s xy x x 2
i
i
i
2
4
i
s
s
x
x
2
2
s xy
2
2 s xy
( n 1) s y 2 ( n 1)
( n 1) s x
2
4
sx
sx
2
s xy
2
2
2
2
( n 1) s y ( n 1)
( n 1) s y r s y
2
sx
2
2
( n 1) s y 1 r
puesto que q es una suma de cuadrados, debe ser mayor que cero. Por lo tanto,
conforme a la ltima expresin, los tres factores deben ser positivos. Luego:
1 r2 > 0 o bien r2 < 1 por lo tanto: -1 < r < 1
Los valores de la muestra (x1,y1) (x2,y2) (xn,yn) se localizan sobre una
recta si y slo si el coeficiente de correlacin tiene los valores +1 1.
Problema: Sea la siguiente muestra:
X
Y
26
36
45
59
111
102
92
90
119
97
114
116
136
114
156
143
132
131
55
59
30
41
35
37
Ctedra Estadstica II
27
Universidad de Mendoza
s y = 41.808
s xy = 2118
Y = E [Y]
Y2 = E [(Y - Y) 2]
la cantidad
XY = E [(X - X) (Y - Y)]
se llama covarianza de las variables aleatorias X e Y. El cociente:
= XY /(X Y)
se llama coeficiente de correlacin de X e Y.
Si = 0, se dice que X e Y son no correlacionadas, tambin si X e Y son
independientes XY = 0 y = 0.
Teorema: Si las variables aleatorias X e Y son independientes entonces son no
correlacionadas. Lo recproco no es cierto.
Ejemplo: Suponer que X es una variable aleatoria que toma los valores 1, 0 y +1 con
probabilidad p=1/3. Luego, X = 0 . Sea Y = X2, entonces:
XY = E[XY] - E[X] E[Y] = E [X3] 0. E[Y]
Ctedra Estadstica II
28
Universidad de Mendoza
yi y
i 1
y i y
y i y i y i y
elevando al cuadrado en ambos miembros y tomando sumatoria
n
i1
i1
yi y 2 yi y i . y i y 2
desarrollando
n
i1
i1
i1
yi y yi y i 2 y i y 2 2. yi y i . y i y
2
i1
dado que: y i a b. x i
n
i1
i1
2.
y i y i
. y i y 2.
y i a b. x i
. y i y
y por las ecuaciones normales y i a b. x i 0
La misma se puede reescribir como:
Ctedra Estadstica II
29
Universidad de Mendoza
el primer trmino del segundo miembro se llama variacin no explicada, mientras que el
segundo se llama variacin explicada, y esto es as porque las desviaciones
tienen
un patrn definido, mientras que las desviaciones
se comportan en forma
aleatoria o no previsible. Resultados anlogos se obtienen para la variable X.
La razn de la variacin explicada a la variacin total se llama Coeficiente de
Determinacin. Si la variacin explicada es cero, es decir, la variacin total es toda no
explicada, esta razn es cero. Si la variacin no explicada es cero, es decir, la variacin
total es toda explicada, la razn es uno. En los dems casos la razn se encuentra entre 0
y 1.
Puesto que la razn es siempre no negativa, se denota por r2. La cantidad r es lo
que conocemos como coeficiente de correlacin y otra forma de definirlo es como:
11.1
10.9
10.3
14.2
12
13.8
15.1
21.5
13.7
13.2
18.5
21.1
17.3
16.4
14.2
19.3
14.8
17.4
15.3
19
calcular r.
Para un ajuste lineal, se forma el sistema de ecuaciones normales.
b = 1.012
var_total = 115.576
Ctedra Estadstica II
30
Universidad de Mendoza
1 r
2 1r
1
ln
Z es un estadstico con distribucin normal con media y varianza dadas por las
siguientes expresiones:
2 1
1
ln
1
n 3
( 1 r) 1
( 1 r) 1
Z Z
n 3 ln
1
n 3
2
1r
Ejemplo: En relacin con el problema anterior (donde n=10 y r=0.73) probar la
Hiptesis Nula que =0 contra la alternativa < >0 con un nivel de significancia de
0.05.
1
234-
Hiptesis Nula =0
Hiptesis Alternativa < >0 (bilateral)
Nivel de significancia: =0.05. z = 1.96
Criterio: se rechaza Ho si z < -1.96 z > 1.96, donde z vale:
z
n 3
n 3 Z
4 Clculos:
z
10 3
2
1 r
1r
ln
1 0.73
1 0.73
ln
2.457
5- Dado que 2.457 > 1.96 se Rechaza la Hiptesis Nula, por lo tanto se acepta la
Hiptesis Alternativa, esto es existe relacin entre el tiempo que ocupa en la maana y
en la tarde, un mecnico para ensamblar un determinado tipo de maquinaria.
Ctedra Estadstica II
31
Universidad de Mendoza
z
z
2
2
1
Z Z
2
2
n 3
n 3
n 3
z
n 3
Z Z
n 3
n 3
Z Z
n 3
1 0.7
2 1 0.7
1
ln
0.867
z0.025
1.96
luego:
1.96
0.867
27
Z 0.867
1.96
0.49 Z 1.244
27
y como:
2 1
1
Z
2 Z
2 Z
ln
1
2 Z
2 Z
1
1
2 0.49
2 1.244
2 1.244
0.454 0.847
Ejemplo: Si r=0.20 para una muestra aleatoria de n=40 parejas de datos, construir un
intervalo de confianza del 95% para .
Z
1 0.2
2 1 0.2
1
ln
0.203
1.96
37
Ctedra Estadstica II
0.203
Z 0.203
z0.025
1.96
1.96
37
0.119 Z 0.525
32
Universidad de Mendoza
2 ( 0.119)
2 ( 0.119)
1
1
2 0.525
2 0.525
e
e
0.118 0.482
En ambos ejemplo los intervalos de confianza son grandes para . Esto ilustra el
hecho de que los coeficientes de correlacin basados en muestras relativamente chicas
suelen ser poco confiables.
Existen varias trampas peligrosas en la interpretacin de . r es una estimacin
de la fuerza de la relacin entre los valores de dos variables aleatorias. En la siguiente
figura r puede ser muy cercana a cero, an cuando hay una fuerte relacin funcional
(parablica, no lineal).
Ctedra Estadstica II
33