Está en la página 1de 33

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

AJUSTE DE CURVAS
En mltiples ocasiones se encuentran situaciones en las que se requiere analizar
la relacin entre dos variables cuantitativas. Los dos objetivos fundamentales de este
anlisis sern:
Determinar si dichas variables estn asociadas y en qu sentido se da dicha
asociacin (es decir, si los valores de una de las variables tienden a aumentar o
disminuir- al aumentar los valores de la otra);
Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de
la otra.
La forma correcta de abordar el primer problema es recurriendo a coeficientes de
correlacin. Sin embargo, el estudio de la correlacin es insuficiente para obtener una
respuesta a la segunda cuestin: se limita a indicar la fuerza de la asociacin mediante
un nico nmero, tratando las variables de modo simtrico, mientras que lo que interesa
es modelizar dicha relacin y usar una de las variables para explicar la otra.
Para tal propsito se recurrir a la tcnica de regresin. Aqu se analizar el caso
ms sencillo en el que se considera nicamente la relacin entre dos variables (x e y).
As mismo, se limita al caso en el que la relacin que se pretende modelizar es de tipo
lineal. En este caso, la media de la distribucin de las y sobre x est dada por .x.
LA RECTA DE REGRESIN
Considrese una variable aleatoria respuesta (o dependiente) y, que se supone
relacionada con otra variable (no necesariamente aleatoria) que se llamar explicativa,
predictora o independiente y que se denotar por x.
A partir de una muestra de n individuos para los que se dispone de los valores de
ambas variables, {(xi,yi),i = 1,...n}, se puede visualizar grficamente la relacin
existente entre ambas mediante un grfico de dispersin, en el que los valores de la
variable x se disponen en el eje horizontal y los de y en el vertical. El problema que
subyace a la metodologa de la regresin lineal simple es el de encontrar una recta que
ajuste a la nube de puntos del diagrama as dibujado, y que pueda ser utilizada para
predecir los valores de y a partir de los de x. La ecuacin general de la recta de
regresin ser entonces de la forma: .x.
El problema radica en encontrar aquella recta que mejor ajuste a los datos.
Tradicionalmente se ha recurrido para ello al mtodo de mnimos cuadrados, que elige
como recta de regresin a aquella que minimiza las distancias verticales de las
observaciones a la recta.
Cualquier observacin i-sima yi diferir verticalmente de esa recta (por ahora
desconocida) en un valor i. Luego es el valor de una variable aleatoria.

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

El valor de para cualquier observacin determinada depender de un posible


error de medicin y de los valores de otras variables distintas de x que podran influir
sobre y.
Habr que calcular los valores de y de la lnea de regresin, es decir la
ecuacin de la recta que de alguna manera da el mejor ajuste. En referencia al grfico
anterior, es relativamente fcil trazarla a simple vista con un poco de sentido comn. Sin
embargo, lo habitual es recurrir a un mtodo menos subjetivo.
Para plantear este problema de manera formal, considrese n parejas de
observaciones (xi,yi) en las cuales es razonable suponer que la regresin de y sobre x es
lineal, y se desea determinar la recta del mejor ajuste. Si se predice y por medio de la
ecuacin:
sea ei el error de predecir el valor de y correspondiente a la xi es:

Se quiere determinar a y b de modo que estos errores sean, en cierto modo, lo


ms pequeos posibles. Ya que no se pueden minimizar cada uno de los ei por separado,
esto sugiere intentar
n

ei

i 1
tan cercano a cero como sea posible.
Esto no es aconsejable puesto que errores positivos y negativos se compensarn
dando lneas inadecuadas como respuesta. Por lo tanto, se minimizar la suma de los
cuadrados de ei. Es decir, se elegirn a y b de modo que:

yi a b xi

sea mnimo

i 1

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Esto equivale a minimizar la suma de los cuadrados de las distancias verticales a


partir de los puntos respecto de la lnea. Este mtodo (llamado de los Mnimos
Cuadrados) da valores de a y b (estimaciones de y ) que tienen muchas propiedades
convenientes.
Una condicin necesaria para que exista un mnimo relativo es la anulacin de
las derivadas parciales con respecto a a y b:
n

yi a b xi (1)

derivada respecto de a

yi a b xi xi

derivada respecto de b

i 1
n

i 1

lo que se puede reescribir como:


n

a n b

yi

i 1
n

xi

i 1
n

yixi

i 1

xi b

i 1

xi 2

i 1

esto es un conjunto de ecuaciones lineales con incgnitas a y b, denominadas


Ecuaciones Normales.
Resolviendo por determinantes:
n

yi

i 1

xi

i 1

xi

i 1
n

n
b

xiyi

i 1

xi

i 1
2

xi

i 1

xi

yixi

xi

i 1

i 1

i 1

yi

i 1

xi

i 1

Ejemplo: Los siguientes datos son las mediciones de la Tensin Arterial en 14 pacientes
de distintas edades:

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

ajustar una lnea recta a estos datos por el mtodo de mnimos cuadrados y utilizarla
para estimar la tensin arterial para una persona de 36 aos.
n

xi

461

i 1

yixi

xi 2

i 1
n

yi

1901

i 1

63892

16819

i 1

de aqu el sistema de ecuaciones queda:

1901 a14 b461


63892 a461 b16819
con la soluciones:
a

109.7715

0.79

Para una persona de 36 aos de edad:


y = 0.79.(36)+109.7715 = 138.2122
En el siguiente grfico se puede apreciar el Diagrama de Dispersin y la recta
del mejor ajuste (desde el punto de vista de los mnimos cuadrados) y la estimacin para
una persona de 36 aos de edad:

La siguiente funcin Matlab permite obtener los resultados vistos del proceso:
function recta
% Ajuste lineal de un conjunto de datos por Minimos Cuadrados
% con datos presentes en el archivo ascii regre.txt

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

% Entradas: u, vector, obtenido del archivo ascii "regre.txt"


% Salida: a, real, Ordenada al origen
%
b, real, pendiente de la recta
load regre.txt;u=regre;n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,2);end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),u(i,2),'*')
a
b

El Teorema de Gauss-Markov establece: Entre los estimadores insesgados de


y que son lineales en los yi, los estimadores de mnimos cuadrados tienen la varianza
ms pequea.
INFERENCIAS BASADAS EN ESTIMADORES DE MNIMOS CUADRADOS
En lo que sigue se supondr que la regresin es lineal y, ms an, que las n
variables aleatorias que tienen valores yi (i=1, 2, , n) son independientes y que estn
distribuidos normalmente con las medias .xi y la varianza comn 2.
Si se escribe: yi = .xi + i se deriva que los i son valores de variables
aleatorias independientes, distribuidas normalmente, y que tienen medias 0 y varianza
comn 2. Grficamente:

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

En las suposiciones hechas hasta aqu, como se ilustra, se pueden advertir las
distribuciones de los yi para varios valores de las xi.
Antes de establecer un teorema relativo a la distribucin de los estimadores de
mnimos cuadrados de y , es conveniente introducir una notacin especial:
n

Sxx

i 1
n

Syy

i 1
n

Sxy

2
xi
xi

i 1

2
yi
yi

i 1

nsx ( n 1)

xiyi

i 1

xi

i 1

nsy ( n 1)

yi

nsxy( n 1)

i 1

en base a esto, las ecuaciones normales, resueltas por determinantes, quedan:

Sxy
b
a y b x
Sxx
donde e son, respectivamente las medias de las x y de las y. Debe notarse tambin la
estrecha relacin entre las Sxx y Syy con las varianzas muestrales respectivas de las x y
las y (sx y sy).
La varianza comn 2 puede estimarse en trmino de las desviaciones verticales
de los puntos muestrales a partir de la lnea de mnimos cuadrados. La i-sima de tales
desviaciones es:
yi a b xi
De aqu, la estimacin, se2, es:
n

n 2
1

2
se

yi a b xi

i 1
donde se se denomina Error Estndar de Estimacin, tambin la suma de los cuadrados
dada por se2.(n-2) recibe el nombre de Suma de Cuadrados Residual o Suma de
Cuadrados de Error.
Una frmula equivalente de esa estimacin de 2 es:

se

Sxx Syy Sxy

n( n 2) Sxx
el divisor n-2 se emplea para que el estimador resultante de 2 sea insesgado.
En base a las suposiciones efectuadas relativas a la distribucin de las y, se
pueden probar los siguientes teoremas:

Teorema 1: Con las suposiciones dadas, los estadsticos:


con valores de variables aleatorias que tienen la distribucin t-Student con n-2 grados de
libertad.

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Si se requieren intervalos de confianza para los coeficientes de regresin y ,


se sustituye el trmino medio de t < t < t por el estadstico t adecuado del teorema
anterior. Luego, por medio de clculos simples, se determinan los correspondientes
intervalos de confianza:

n
n
b t s e
b t s e

Sxx
Sxx
2

Problema: Los siguientes datos son las mediciones de la velocidad del aire y del
coeficiente de evaporacin de las gotitas de combustible en una turbina de propulsin:
Velocidad del aire 20
(cm/s)
Coeficiente de Eva- .18
poracin (mm2/seg)

60

100

140

180

220

260

300

340

380

.37

.35

.78

.56

.75

1.18

1.36

1.17

1.65

Construir un intervalo de confianza del 95% para el coeficiente de regresin .


n

Sxx

i 1

Syy

i 1
n

Sxy

Sxy
Sxx

2
yi
yi

i 1
n

1.32 10

xiyi

i 1

2
xi
xi

i 1

21.375

xi

i 1

3.829 10

yi

5.054 10

i 1

y b x

0.835 3.829 10

200

0.069

Grficamente:

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

1-= 0.05; = 0.025; t = 2.306 con = n 2 = 8 g.d.l.


los lmites de confianza del 95%, para se calculan entonces:

2.306 0.159

1.32 10 ( 2000)
6
10 1.32 10

0.233

luego, el intervalo es:


a 0.233 0.164

a 0.233 0.302

En las pruebas de hiptesis relativas a los coeficientes de regresin y , las


que se refieren a son muy importantes ya que es la pendiente de la lnea de
regresin. Esto es, es el cambio promedio de las y correspondiente a un incremento
unitario de x. Si la lnea de regresin es horizontal y la media de las y no depende
linealmente de x.
Ejemplo: En base al problema anterior, probar la Hiptesis Nula de que contra la
Hiptesis Alterna que , con un nivel de significacin de 0.05.
1. Hiptesis nula:
Hiptesis alterna:
2. Nivel de significacin 0.05
3. Criterio: Se rechaza Ho si t > 2.306 o t < -2.306, con = n 2 = 8 g.d.l.
4. Clculos:

Ctedra Estadstica II

Universidad de Mendoza

3.829 10

Ing. Jess Rubn Azor Montoya

0.159

1.32 10

8.749

10

5. Decisin: Ya que 8.749 > 2.306 Se Rechaza la Hiptesis Nula. Luego, existe
relacin entre la velocidad del aire y el coeficiente de evaporacin promedio (la
relacin es lineal por las suposiciones que fundamentan la prueba).
Otro problema es estimar .x, es decir la media de la distribucin de las y, para
un valor dado de x. Si x se hace igual a un valor fijo x0 se desea estimar .x0 y sera
razonable emplear ab.x0 (con a y b obtenidos por el mtodo de los mnimos
cuadrados). Puede verificarse que este estimador es insesgado, y que tiene la varianza:
2

1 n x0 x

Sxx
n

y que los lmites de confianza del (1-).100% para . x0 estn dados por:

Problema: En relacin al ejemplo anterior, construir un intervalo de confianza del 95%


para el coeficiente de evaporacin medio cuando la velocidad del aire es de 190 cm/seg.
2.306 0.159

1
10

10 ( 190 200)
6

0.116

1.32 10

0.797 0.116 0.681

0.681 < . 190 < 0.913

0.797 0.116 0.913

intervalo de confianza

De mayor importancia an que la estimacin de . x0 es la prediccin de


un valor futuro de y cuando x = x0 donde x0 est dentro del rango de experimentacin
(se agrega dentro del rango de experimentacin dado que, la extrapolacin es
aventurada y se observa que una relacin no siempre es vlida fuera de tal rango).
Para el primer problema se verifica que para una velocidad de 190 cm/seg (valor
situado bien adentro del rango de experimentacin) el coeficiente de evaporacin es de
0.797 mm2/seg.
Se describir un mtodo para construir un intervalo en el cual puede esperarse
que una futura observacin y se halle con una probabilidad determinada (o confianza)
cuando x = x0. Si se conocieran y se podra usar el hecho de que y es un valor de
una variable aleatoria que tiene distribucin normal con la media . x0 y varianza
o que y - . x0 es un valor de una variable aleatoria con distribucin normal de
media cero y varianza ).

Ctedra Estadstica II

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Sin embargo y se desconocen, debindose considerar la cantidad y a - b.x0


(donde y, a, b son todas variables aleatorias y la teora resultante origina los siguientes
lmites de prediccin para y cuando x = x0.

Problema: Conforme al ejemplo anterior, encontrar los lmites de prediccin del 95%
para una observacin del coeficiente de evaporacin cuando la velocidad del aire es de
190 cm/seg.
2.306 0.159 1

1
10

10 ( 190 200)
1.32 10

0.385

luego, los lmites de prediccin son:


0.797 0.385 0.412

0.797 0.385 1.182

Comparando con el problema anterior, se ve que si bien la media de la


distribucin de las y cuando x=190 puede estimarse con bastante precisin, el valor de
una simple estimacin futura no puede predecirse con mucha precisin.
El ancho del intervalo de prediccin depende fundamentalmente de se que mide
la variabilidad inherente de los datos. Se nota que si se desea extrapolar, el intervalo de
prediccin (y tambin el intervalo de confianza para . x0) incrementa su ancho.
Problema: Conforme al ejemplo anterior, suponer que la relacin de linealidad se
cumple ms all del rango de experimentacin y calcular los lmites de prediccin del
95% para una observacin del coeficiente de evaporacin cuando la velocidad del aire
es de 450 cm/seg.
2.306 0.159 1

1
10

0.797 0.46 0.337

10 ( 450 200)
1.32 10

0.46

0.797 0.46 1.257

el ancho es de 2*0.46 = 0.92, contra los 2*0.385 = 0.77 del problema anterior.
REGRESIN CURVILNEA
Se considerar primero el caso en que la graficacin en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n puntos
(xi,yi) "se enderezan" cuando son graficados sobre ejes escalados adecuadamente. E
este caso, al ser representados sobre papel semilogartmico, indican que la curva de
regresin de y sobre x es exponencial, es decir para cualquier x considerada, la media de

Ctedra Estadstica II

10

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

la distribucin est dada por la siguiente ecuacin predictora y = . x, tomando


logaritmos en ambos miembros:
log( y)

log xlog

y se puede estimar ahora log() y log(, y de ah obtener y , aplicando los mtodos


anteriores a los n pares de valores [xi,log(yi)].
Problema: Las cifras siguientes son datos sobre el porcentaje de llantas radiales
producidas por cierto fabricante que an pueden usarse despus de recorrer cierto
nmero de millas:
Miles
de
Millas 1
2
recorridas (x)
Porcentaje til (y)
98.2
91.7
Log(y)
1.9921 1.9624

10

20

30

81.3
64.0
36.4
32.6
1.9101 1.8062 1.5611 1.5132

40

50

17.1
1.2330

11.3
1.0531

a) Graficar los datos proporcionados en escala semilogaritmica para advertir si es


razonable que la relacin es exponencial.
b) Ajustar una curva exponencial aplicando el mtodo de mnimos cuadrados a las
parejas de puntos [xi,log(yi)].
c) Emplear los resultados de la parte b) para estimar qu porcentaje de las llantas
radiales del fabricante durarn al menos 25000 millas.
a)

El patrn global (del segundo grfico) es lineal y esto justifica el ajuste mediante
una curva exponencial.
b) Para formar las ecuaciones normales:
x = 158 x2 = 5530 x.log(y) = 212.1224 log(y) = 13.0312
13.0312 = 8 log(a) + 158 log(b)
212.1224 = 158 log(a) + 5530 log(b)
log(a) = 1.9997 a = 99.9408

log(b) = -0.0188 b = 0.9577

Luego, la ecuacin de la recta de regresin estimada ser:

Ctedra Estadstica II

11

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

c) Utilizando la ltima expresin:


99.9408.(0.9577)25 = 33.9
Vale decir, el 33.9% durarn al menos 25000 millas.
La siguiente funcin de Matlab, produce los resultados vistos.
function logar(x)
% Regresion curvilinea de un conjunto de datos exponencial
% con datos presentes en el archivo ascii expo.txt
% Entradas: u, vector, obtenido del archivo ascii "expo.txt"
%
x, real, valor para el que se quiere hallar la estimacion
% Salida: a, real, Ordenada al origen del ajuste lineal
%
b, real, pendiente de la recta del ajuste linea
load expon.txt;u=expon';n=size(u,1);
slogy=0; for i=1:n, slogy=slogy+log10(u(i,2));end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
slogxy=0; for i=1:n, slogxy=slogxy+u(i,1)*log10(u(i,2));end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=slogy;B(2,1)=slogxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),b*u(i,1)+a,u(i,1),log10(u(i,2)),'*')
estima=(10^a)*(10^b)^x

de modo que ejecutando:


>> logar(25)
estima =
33.9088

Hay dos relaciones ms, muy aplicadas: La funcin potencial y = x y la


funcin recproca y = 1/.x).
Para el primer caso, al ser representado el conjunto de datos sobre papel doble
logartmico toma la forma de recta, esto significa que los valores siguen una ley
potencial.
Si la ecuacin predictora est dada por:
y=.x

Ctedra Estadstica II

12

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

tomando logaritmos en ambos miembros, queda:


log(y) = log() + . log(x)
En este caso habr que considerar tanto los logaritmos de los elementos de y
como los de x.
Problema: Sea el siguiente conjunto de valores, las lecturas de un experimento donde x
es la variable independiente (controlada, medida con poco error) e y la variable
resultante.
X
Y

1
6.5

2
40

3 4
5
6
7
90 140 250 500 700

log(x) = 3.7024 [log(x)]2 = 2.4890 log(x).log(y) = 8.8875


[log(y)] = 14.4574
con lo que las ecuaciones normales quedan:
14.4574 = 7 log(a) + 3.7024 (b)
8.8875 = 3.7024 log(a) + 2.4890 (b)
log(a) = 0.8289 a = 6.7437

b = 2.338

Luego, la ecuacin de la recta de regresin estimada ser:


y = 0.8229 + . x
y la funcin predictora:

y = 6.7437 . x2.338

Los resultados grficos son:

La siguiente funcin de Matlab, produce los resultados vistos.


function potencia(x)
% Regresion curvilinea de un conjunto de datos potencial

Ctedra Estadstica II

13

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

% con datos presentes en el archivo ascii poten.txt


% Entradas: u, vector, obtenido del archivo ascii "poten.txt"
%
x, real, valor para el que se quiere hallar la estimacion
% Salida: a, real, Ordenada al origen del ajuste lineal
%
b, real, pendiente de la recta del ajuste linea
%
estima, real, estimacion correspondiente a x
load poten.txt
load poten.txt;u=poten';n=size(u,1);
slogy=0; for i=1:n, slogy=slogy+log10(u(i,2));end
slogx=0; for i=1:n, slogx=slogx+log10(u(i,1));end
slogx2=0; for i=1:n, slogx2=slogx2+log10(u(i,1))^2;end
slogxy=0; for i=1:n, slogxy=slogxy+log10(u(i,1))*log10(u(i,2));end
A(1,1)=n;A(1,2)=slogx;A(2,1)=slogx;A(2,2)=slogx2;B(1,1)=slogy;B(2,1)=slogxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
a=10^a;
i=1:n;plot(u(i,1),a*u(i,1).^b,u(i,1),u(i,2),'*');
a
b
estima=a*x^b

de modo que ejecutando:


>> potencia(2)
a=
6.7431
b=
2.3377
estima =
34.0872

Para el caso de la funcin recproca y = 1/.x), se obtienen y , aplicando los


mtodos anteriores a los n pares de valores [xi,1/ yi].
Problema: Sea el siguiente conjunto de valores, las lecturas de un experimento donde x
es la variable independiente (controlada, medida con poco error) e y la variable
resultante.
X
Y

1
1.5

2
1

3
0.8

4
5
0.85 0.6

6
0.5

7
0.55

(x) = 28 x2 = 140 x.1/y = 44.183 1/y = 9.578


con lo que las ecuaciones normales quedan:
9.578 = 7 a + 28 b
44.183 = 28 a + 140 b

a = 0.53

b = 0.21

Luego, la ecuacin de la recta de regresin estimada ser:


y = 0.53 + x
y la funcin predictora:

y = 1/(0.53 + 0.21 x)

Los resultados grficos son:


Ctedra Estadstica II

14

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

La siguiente funcin de Matlab, produce los resultados vistos.


function reciproca(x)
% Regresion curvilinea de un conjunto de datos reciprocos
% con datos presentes en el archivo ascii reci.txt
% Entradas: u, vector, obtenido del archivo ascii "reci.txt"
%
x, real, valor para el que se quiere hallar la estimacion
% Salida: a, real, Ordenada al origen del ajuste lineal
%
b, real, pendiente de la recta del ajuste linea
%
estima, real, estimacion correspondiente a x
load reci.txt;u=reci';n=size(u,1);
sy=0; for i=1:n, sy=sy+1/(u(i,2));end
sx=0; for i=1:n, sx=sx+u(i,1);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*1/u(i,2);end
A(1,1)=n;A(1,2)=sx;A(2,1)=sx;A(2,2)=sx2;B(1,1)=sy;B(2,1)=sxy;
C=inv(A)*B;a=C(1,1);b=C(2,1);
i=1:n;plot(u(i,1),1./(a+b*u(i,1)),u(i,1),u(i,2),'*');end
a
b
estima=1/(a+b*x)

de modo que ejecutando:


>> reciproca(1)
a=
0.5295
b=
0.2097
estima =
1.3528

Si no hay ninguna indicacin acerca de la forma funcional de la regresin de y


sobre x, se supone a menudo que la relacin fundamental al menos se comporta bien
al grado que admita un desarrollo en Serie de Taylor y que los primeros trminos
constituyen una aproximacin bastante buena.
Vale decir, los datos se ajustan a un polinomio o ecuacin predictora de la forma
y = 0 +1.x+2.x2 + +p.xp

Ctedra Estadstica II

15

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

donde el grado se determina por observacin de los datos o por un mtodo ms riguroso
como el siguiente: dado un conjunto de datos que consta de n puntos (xi,yi) se estiman
los coeficientes 0 ,1 ,2, p del polinomio de p-simo grado, minimizando:
n

yi 0 1 x 2 x2 . p xp

i 1

diferenciado parcialmente con respecto a 0 ,1 ,2, p , igualando estas derivadas


parciales a cero, reacomodando trminos e indicando con bi las estimaciones de i, se
obtienen las p+1ecuaciones normales:
n

b0 n b1

yi

i 1
n

xi . bp

i 1

b0

i 1

xi p

i 1

xiyi

xi b1

i 1

xi

. bp

i 1

xi p1

i 1

.
n

xi

yi

i 1

b0

xi

b1

i 1

xi

p1

. bp

i 1

xi 2 p

i 1

siendo b0, b1, , bp las p+1 incgnitas.


Problema: Los datos siguientes corresponden al tiempo de secado de cierto barniz y a la
cantidad de un aditivo con que se intenta reducir el tiempo de secado:

Cantidad de
aditivo (en gr.)
Tiempo de
secado (en seg.)

12.0

10.5

10.0

8.0

7.0

8.0

7.5

8.5

9.0

a) Dibujar el diagrama de dispersin de modo que permita advertir si es razonable una


relacin parablica.
b) Ajustar un polinomio de segundo grado por el mtodo de mnimos cuadrados.
c) Emplear el resultado de b) para predecir el valor del tiempo de secado cuando se han
utilizado 6.5 gr. del aditivo.
a)

Ctedra Estadstica II

16

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

b) Clculos:
n

xi

i 1
n

xi

204

i 1

i 1
n

36

xi 4

xi 3

1.296 10

i 1
n

8.772 10

yi 2

740.75

i 1

yi

i 1

80.5

xi

yi

1.697 10

i 1

con lo que las ecuaciones normales quedan:


80.5

9 b0 36 b1 204 b2

299

36 b0 204 b1 1296 b2

1697

xi

xiyi

299

i 1

1.296 10

i 1

204 b0 1296 b1 8772 b2

b0 = 12.2

b1 = -1.85

b2 = 0.183

La ecuacin del polinomio ser:

grficamente:

Ctedra Estadstica II

17

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

d) sustituyendo x = 6.5, da:

La siguiente funcin de Matlab, produce los resultados vistos.


function parabola(x)
% Regresion curvilinea de un conjunto de datos de origen cuadratico
% con datos presentes en el archivo ascii parabo.txt
% Entradas: u, vector, obtenido del archivo ascii "parabo.txt"
%
x, real, valor para el que se quiere hallar la estimacion
% Salida: b0, b1, b2, reale, coeficientes del polinomio de ajuste
%
estima, real, estimacion correspondiente a x
load parabo.txt;u=parabo';n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,2);end
sx=0; for i=1:n, sx=sx+u(i,1);end
sxy=0; for i=1:n, sxy=sxy+u(i,1)*u(i,2);end
sx2=0; for i=1:n, sx2=sx2+u(i,1)^2;end
sx3=0; for i=1:n, sx3=sx3+u(i,1)^3;end
sx4=0; for i=1:n, sx4=sx4+u(i,1)^4;end
sx2y=0; for i=1:n, sx2y=sx2y+(u(i,1)^2)*u(i,2);end
sy2=0; for i=1:n, sy2=sy2+u(i,2)^2;end
A(1,1)=n;A(1,2)=sx;A(1,3)=sx2;
A(2,1)=sx;A(2,2)=sx2;A(2,3)=sx3;
A(3,1)=sx2;A(3,2)=sx3;A(3,3)=sx4;
B(1,1)=sy;B(2,1)=sxy;B(3,1)=sx2y;
C=inv(A)*B;b0=C(1,1);b1=C(2,1);b2=C(3,1);
C
i=1:n;plot(u(i,1),b0+b1.*u(i,1)+b2.*u(i,1).^2,u(i,1),u(i,2),'*');end
estima=b0+b1*x+b2*x^2

de modo que ejecutando:


>> parabola(6.5)
C=
12.1848
-1.8465
0.1829
estima =
7.9099

En la prctica, puede ser difcil determinar el grado del polinomio que se ajusta a
un conjunto de parejas de datos. Como siempre, es posible hallar un polinomio de grado

Ctedra Estadstica II

18

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

n-1 que pase a travs de los n puntos correspondientes a n valores distintos de x. Debe
ser claro el objetivo de encontrar un polinomio de grado mnimo que describa
adecuadamente a los datos. A menudo es posible determinar el grado con la simple
observacin de los datos.
Existe tambin un mtodo ms estricto para determinar el grado de un polinomio
que se ajuste a un conjunto de datos. En esencia, consiste en ajustar inicialmente a una
lnea recta, as como a un polinomio de segundo grado y probar la Hiptesis Nula =0.
Es decir, nada se gana incluyendo el trmino cuadrtico.
Si esta Hiptesis Nula puede rechazarse, entonces se ajusta con un polinomio de
tercer grado y se prueba la Ho =0. Es Es decir, nada se gana incluyendo el trmino
cbico.
Este procedimiento se continua hasta que la Ho =0 no pueda ser rechazada en
dos etapas sucesivas, no existe pues ventaja en utilizar trminos adicionales. Para
aplicar estas pruebas, se requieren las suposiciones de normalidad, independencia y
varianzas iguales introducidas al principio.
AJUSTE POLINOMIAL MEDIANTE LA VARIAZA RESIDUAL
Como se ha dicho ms arriba, cuando se ajusta un polinomio a un conjunto de
parejas de datos, se suele empezar ajustando una lnea recta y se prueba la Ho =0.
Entonces se ajusta un polinomio de segundo grado y se prueba si vale la pena conservar
el trmino cuadrtico comparando

, la varianza residual despus de ajustar la lnea

recta, con
, la varianza residual despus de ajustar el polinomio de segundo grado.
Cada una de estas varianzas residuales est dada por:

con
determinada, respectivamente, de la ecuacin de la recta y de la ecuacin de
segundo grado. Los grados de libertad se determinan restando el nmero de puntos
considerados y los coeficientes estimados.
Este proceso se reitera, hacia grados superiores, hasta que la varianza residual
produzca el salto decreciente ms significativo.
Problema: Dado el siguiente conjunto de datos:
x
y

.5
3

1.5
7

2.5
12.5

5.5
14.5

6.5
16

9.5
14.5

10.5
16

12.5
16

14.5
21

15.5
23

encontrar el polinomio de mejor ajuste.


Se intenta en primer lugar, el ajuste lineal. Para ello se determinan y resuelven
las ecuaciones normales:
x = 79 x2 = 888.5 x.y = 1394 y = 143.5
143.5 = 10 b0 + 79 b1

Ctedra Estadstica II

19

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

1394 = 79 b0 + 888.5 b1

b0 = 6.578

b1 = 0.984

luego, se calcula la varianza residual:


10

res1

yi b0 b1 xi 2

i 1

7.207

10 2

Se sigue con un ajuste cuadrtico:


x2 y = 16720 x3 = 11200 x4 = 149400

143.5 = 10 b0 + 79 b1 + 888.5 b2
1394 = 79 b0 + 888.5 b1 + 11200 b2
16720 = 888.5 b0 + 11200 b1 + 149400 b2 b0 = 5.399 b1 = 1.5 b1 = -0.033
10

res2

yi b0 b1 xi b2 xi 2

i 1

10 3

7.58

y as hasta llegar a un polinomio de grado 9, que pasar por todos los puntos (varianza
residual nula).
Una tabla con las varianzas residuales para cada ajuste es la siguiente (hasta el
orden curtico):

Lineal
7.207

Cuadrtico
7.58

Cbico
1.021

Cuartico
0.992

Se ve que el salto mayor se produce entre el ajuste cuadrtico y el cbico, por lo


tanto el mejor estimador lo constituye el ajuste cbico.
Grficamente:

Ctedra Estadstica II

20

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

La siguiente funcin de Matlab, permite encontrar las varianzas residuales para


ajuste lineal y de mayor orden, lo que permite decidir el ajuste ms conveniente a
realizar:
function residual
% Ajuste de un conjunto de datos por medio de un polinomio
% con datos presentes en el archivo ascii resi.txt
% por el metodo de la varianza residual
% Entradas: u, vector, obtenido del archivo ascii "resi.txt"
% Salida: re, real, varianza residual para cada ajuste (desde lineal)
load resi.txt;u=resi';n=size(u,1);
A(1,1)=n;
B(1,1)=0; for i=1:n, B(1,1)=B(1,1)+u(i,2);end
B(2,1)=0; for i=1:n, B(2,1)=B(2,1)+u(i,2)*u(i,1);end
A(1,2)=0; for i=1:n, A(1,2)=A(1,2)+u(i,1);end
A(2,1)=A(1,2);
A(2,2)=0; for i=1:n, A(2,2)=A(2,2)+u(i,1)^2;end
C=inv(A)*B;re=0; for i=1:n, re=re+(u(i,2)-C(1,1)-C(2,1)*u(i,1))^2/(n-2);end
z=3;
re
while z<7,
for j=1:z
A(j,z)=0; for i=1:n, A(j,z)=A(j,z)+u(i,1)^(z+j-2);end
if j<z, A(z,j)=A(z-1,j+1);end
end
B(z,1)=0; for i=1:n, B(z,1)=B(z,1)+u(i,2)*u(i,1)^(z-1);end
C=inv(A)*B;
re=0;
for i=1:n,
aju=0;
for j=1:z,
aju=aju+(C(j,1)*u(i,1)^(j-1));
end
dif(i)=aju;
re=re+(u(i,2)-dif(i))^2;
end
re=re/(n-z); z=z+1;
re
end

Ejecutando:
>> residual
re =
7.2069
re =
7.5798
re =
1.0206
re =
0.9917
re =
1.2390

REGRESIN MLTIPLE
Es necesario sealar que las curvas obtenidas (y las superficies a obtener) no
slo se utilizan para hacer predicciones . A menudo tambin se emplean para fines de

Ctedra Estadstica II

21

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

optimizacin, es decir, para determinar los valores de la variable independiente (o


variables) de tal manera que la variable dependiente sea un mximo o un mnimo. En el
caso del barniz del problema de ajuste cuadrtico, el tiempo de secado tiene un mnimo
cuando la cantidad de aditivo es de 5.1 gramos.
Esto se obtiene derivando
e igualando a cero.
Los mtodos estadsticos de prediccin y optimizacin suelen ser incluidos bajo
el ttulo general de Anlisis de las Superficies de Respuesta.
En la regresin mltiple, se manejan datos que constan de n (r+1) coordenadas
(x1i, x2i , , xri, yi) donde otra vez se supone que las xi se conocen sin error, mientras
que las y son valores de variables aleatorias. Datos de esta clase aparecen en:

Estudios diseados para determinar el efecto que ejercen en la resistencia mecnica


de un metal la corrosin bajo varias condiciones climticas.
El efecto que la temperatura de horneado, humedad y contenido de hierro tienen en
la resistencia mecnica de un revestimiento cermico.
El efecto de la produccin industrial, nivel de consumo y existencias almacenadas
producen en el precio de un producto.

Como en el caso de una sola variable, en primer trmino se aborda el problema en


que la ecuacin de regresin es lineal, es decir cuando para cualquier conjunto
determinado de valores x1, x2 , , xr la media de la distribucin es:
0 + 1 x1 + 2 x2 + . + r xr
En el caso de dos variables independientes, el problema es ajustar un plano a un
conjunto de n puntos con coordenadas (x1i, x2i , yi). Grficamente:

Aplicando el mtodo de los mnimos cuadrados para obtener estimaciones de 0,


1 y 2, se minimiza la suma de los cuadrados de las distancias verticales de los puntos
del plano, es decir minimizar:

Ctedra Estadstica II

22

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

yi 0 1 x1i 2 x2i

i 1

Las ecuaciones normales resultantes de la aplicacin de derivadas parciales son:


n

b0 n b1

yi

i 1
n

x1i b2

i 1

yix1i

yix2i

b0

i 1
n

x1i b1

x2i b1

i 1
n

b0

i 1

x2i

i 1

x1i

x1ix2i b2

b2

i 1
n

i 1

x1ix2i

x2i 2

i 1
n

i 1

i 1

Estas son las ecuaciones normales para regresin mltiple con r=2. Donde b0, b1
y b2 son estimadores de mnimos cuadrados para 0, 1 y 2.
Problema: Los datos siguientes provienen del nmero de torsiones necesarios para
romper una barra hecha con cierto tipo de aleacin y los porcentajes de metales que la
integran:
Nro, de
Torsiones (x)
Porc. Del
elemento A (x1)
Porc. Del
elemento B (x2)

38 40 85 59 40 60 68

53 31 35 42 59 18 34 29 42

10 10 10

10 15 15 15 15 20 20 20 20

Ajustar un plano de regresin por mnimos cuadrados y emplear su ecuacin para


estimar el nmero de torsiones requeridas para romper una de las barras cuando x 1= 2.5
y x2 = 12.
Sustituyendo en las ecuaciones normales anteriores:
x1 = 40 x2 = 200 x12= 120 x1 x2= 500 x22= 3000
y= 733 x1 y = 1989 x2 y = 8285
733 = 16 b0 + 40 b1 + 200 b2
1989 = 40 b0 + 200 b1 + 500 b2
8285 = 200 b0 + 500 b1 + 3000 b2 b0 = 48.2 b1 = 7.83 b1 = -1.76
el plano de regresin tiene entonces la ecuacin:

sustituyendo por x1= 2.5 y x2 = 12:


Ctedra Estadstica II

23

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

La siguiente funcin de Matlab, permite encontrar los coeficientes del plano de


regresin y la estimacin para una par de valores x1 y x2.
function multiple(x1,x2)
% Regresion multiple de un conjunto de datos
% con datos presentes en el archivo ascii multip.txt
% Entradas: u, matriz, obtenida del archivo ascii "multip.txt"
%
x1,x2, reales, valores para los que se quiere hallar la estimacion
% Salida: b0, b1, b2, reales, coeficientes del polinomio de ajuste
%
estima, real, estimacion correspondiente a x
load multip.txt;u=multip';n=size(u,1);
sy=0; for i=1:n, sy=sy+u(i,1);end
sx1=0; for i=1:n, sx1=sx1+u(i,2);end
sx2=0; for i=1:n, sx2=sx2+u(i,3);end
sx12=0; for i=1:n, sx12=sx12+u(i,2)^2;end
sx22=0; for i=1:n, sx22=sx22+u(i,3)^2;end
sx1x2=0; for i=1:n, sx1x2=sx1x2+u(i,2)*u(i,3);end
sx1y=0; for i=1:n, sx1y=sx1y+u(i,2)*u(i,1);end
sx2y=0; for i=1:n, sx2y=sx2y+u(i,3)*u(i,1);end
A(1,1)=n;A(1,2)=sx1;A(1,3)=sx2;
A(2,1)=sx1;A(2,2)=sx12;A(2,3)=sx1x2;
A(3,1)=sx2;A(3,2)=sx1x2;A(3,3)=sx22;
B(1,1)=sy;B(2,1)=sx1y;B(3,1)=sx2y;
C=inv(A)*B;b0=C(1,1);b1=C(2,1);b2=C(3,1);
estima=b0+b1*x1+b2*x2

Ejecutando:
>> multiple(2.5,12)
C=
48.1875
7.8250
-1.7550
estima =
46.6900

COEFICIENTE DE CORRELACIN SIMPLE DE PEARSON


(MODELO RECTILNEO)
El coeficiente de correlacin es una medida de asociacin entre dos variables y
se simboliza con la literal r. Los valores de la correlacin van de + 1 a 1, pasando por
el cero, el cual corresponde a ausencia de correlacin. Los primeros dan a entender que
existe una correlacin directamente proporcional e inversamente proporcional. El
coeficiente de correlacin permite predecir si entre dos variables existe o no una
relacin o dependencia matemtica.
Supngase que se quiere estudiar la correlacin existente entre peso y altura de
un grupo de personas tomadas al azar. Se someten los datos recogidos de peso y altura
al anlisis de correlacin y se encuentra el coeficiente de correlacin entre ambas,
resultando r = 0.78. Esto significa que a mayor altura correspondera mayor peso.
Se puede representar la correlacin entre las dos variables a travs de una grfica
de dos ejes (abscisas y ordenadas) cartesianos.

Ctedra Estadstica II

24

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

En el siguiente grfico se observa la correlacin entre potencia de motor de un


automvil y consumo en Litros por cada 100 Km. El r = 0.87 (correlacin positiva).
(SPSS). Evidentemente a mayor potencia se observa mayor consumo de combustible.
Esto quiere decir que la correlacin entre potencia y consumo no es aleatoria.

En el siguiente grfico se encuentra la relacin existente entre peso del


automvil en kg. y aceleracin 0 a 100 Km. / hora en segundos. Para este caso, r=- 0.56.
Esto significa que existe una correlacin negativa significativa, entre peso del auto y
respuesta de la aceleracin.

Para interpretar el coeficiente de correlacin, Colton a dado los siguientes


lineamientos generales:
Valor de r de 0 a 0.25 implica que no existe correlacin entre ambas variables.
Valor de r de 0.25 a 0.50 implica una correlacin baja a moderada.
Valor de r de 0.50 a 0.75 implica correlacin moderada a buena.
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlacin.

Ctedra Estadstica II

25

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Estos rangos de valores se pueden extrapolar a correlaciones negativas tambin.

Se debe tener cuidado al analizar la correlacin entre dos variables, de que ambas
varen juntas permanentemente. Esto parece redundante, pero es importante. Por
ejemplo, si se correlaciona edad y altura. La altura ir aumentando con la edad hasta un
determinado punto en donde ya no aumentar ms.
Puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc.
En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la
relacin de las variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor
es representar los pares de valores en un grfico y ver que forma describen.

Para calcular el coeficiente de correlacin lineal se considera el caso en que las


dos variables son aleatorias. Dada una muestra:
(x1,y1) (x2,y2) (xn,yn)
de tamao n proveniente de una poblacin bidimensional (X,Y), se pueden determinar:

1
n

xi

2
sx

i 1

xi x
n 1
1

i 1

del mismo modo:

1
n

yi

2
sy

i 1

yi y
n 1
1

i 1

Se define como Covarianza:


sxy

1
n 1

xi x yi y

i 1

de modo que el coeficiente de correlacin de la muestra es:


s xy
r
s x s y
ya que sx > 0 y sy > 0, el producto sx sy > 0 y r puede ser positivo, negativo o nulo segn
lo sea sxy.
En base a lo expresado, la suma de cuadrados de error en un ajuste lineal es:

Ctedra Estadstica II

26

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

yi a b xi 2

i 1

adems:
r sx sy

sxy

sxy
sx

a b x

queda:
n

i 1
n

i 1

q
q

s xy s xy
s xy

yi y
x
xi
yi y
xi x
2
2
2

sx
sx
sx

i 1
2

y y 2 2 y y s xy x x s xy x x 2
i
i
i
2
4
i

s
s
x
x

2
2
s xy
2
2 s xy
( n 1) s y 2 ( n 1)
( n 1) s x
2
4
sx
sx
2
s xy
2
2
2
2
( n 1) s y ( n 1)
( n 1) s y r s y
2
sx
2
2
( n 1) s y 1 r

puesto que q es una suma de cuadrados, debe ser mayor que cero. Por lo tanto,
conforme a la ltima expresin, los tres factores deben ser positivos. Luego:
1 r2 > 0 o bien r2 < 1 por lo tanto: -1 < r < 1
Los valores de la muestra (x1,y1) (x2,y2) (xn,yn) se localizan sobre una
recta si y slo si el coeficiente de correlacin tiene los valores +1 1.
Problema: Sea la siguiente muestra:
X
Y

26
36

45
59

111
102

92
90

119
97

114
116

136
114

156
143

132
131

55
59

30
41

35
37

El diagrama de dispersin correspondiente es:

Ctedra Estadstica II

27

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

y para calcular el coeficiente de correlacin, se procede del siguiente modo:


s x = 51.639

s y = 41.808

s xy = 2118

r = s xy /( s x s y) = 2118/(51.639 41.808) = 0.981


COEFICIENTE DE CORRELACIN DE LA POBLACIN
Hasta aqu se us una muestra de n parejas (x1,y1) (x2,y2) (xn,yn) que se
tomaron de una poblacin XY. A los promedios e les corresponden los valores
medios X de X y Y de Y, respectivamente:
X = E [X]

Y = E [Y]

a las varianzas sX2 y sY2 les corresponden las varianzas:


X2 = E [(X - X) 2]

Y2 = E [(Y - Y) 2]

la cantidad
XY = E [(X - X) (Y - Y)]
se llama covarianza de las variables aleatorias X e Y. El cociente:
= XY /(X Y)
se llama coeficiente de correlacin de X e Y.
Si = 0, se dice que X e Y son no correlacionadas, tambin si X e Y son
independientes XY = 0 y = 0.
Teorema: Si las variables aleatorias X e Y son independientes entonces son no
correlacionadas. Lo recproco no es cierto.
Ejemplo: Suponer que X es una variable aleatoria que toma los valores 1, 0 y +1 con
probabilidad p=1/3. Luego, X = 0 . Sea Y = X2, entonces:
XY = E[XY] - E[X] E[Y] = E [X3] 0. E[Y]
Ctedra Estadstica II

28

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

XY = (-1) 3 1/3 + (0) 3 1/3 + (1) 3 1/3 = 0


luego, por ser XY = 0, = 0, las variables aleatorias X e Y no estn correlacionadas,
pero no son independientes entre s, ya que estn ligadas por una relacin funcional.
En el ejemplo se ve que no es una medida de la dependencia general, pero si se
ver que es una medida de la dependencia lineal.
VARIACIN EXPLICADA Y NO EXPLICADA
La variacin total de una variable aleatoria Y se define como:
n

yi y

i 1

es decir, la suma de los cuadrados de las desviaciones de los valores de la variable


aleatoria Y respecto de su media .
Partiendo de la siguiente igualdad:

y i y
y i y i y i y
elevando al cuadrado en ambos miembros y tomando sumatoria
n

i1

i1

yi y 2 yi y i . y i y 2
desarrollando
n

i1

i1

i1

yi y yi y i 2 y i y 2 2. yi y i . y i y
2

i1

dado que: y i a b. x i
n

i1

i1

2.
y i y i
. y i y 2.
y i a b. x i
. y i y
y por las ecuaciones normales y i a b. x i 0
La misma se puede reescribir como:

Ctedra Estadstica II

29

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

el primer trmino del segundo miembro se llama variacin no explicada, mientras que el
segundo se llama variacin explicada, y esto es as porque las desviaciones
tienen
un patrn definido, mientras que las desviaciones
se comportan en forma
aleatoria o no previsible. Resultados anlogos se obtienen para la variable X.
La razn de la variacin explicada a la variacin total se llama Coeficiente de
Determinacin. Si la variacin explicada es cero, es decir, la variacin total es toda no
explicada, esta razn es cero. Si la variacin no explicada es cero, es decir, la variacin
total es toda explicada, la razn es uno. En los dems casos la razn se encuentra entre 0
y 1.
Puesto que la razn es siempre no negativa, se denota por r2. La cantidad r es lo
que conocemos como coeficiente de correlacin y otra forma de definirlo es como:

los signos + se utilizan para la correlacin lineal positiva y negativa, respectivamente.


Ntese que r es una cantidad sin dimensiones, es decir no depende de las unidades
empleadas.
Problema: Los datos siguientes corresponden al nmero de minutos x que tardan 10
mecnicos en ensamblar cierta pieza de una maquinaria en la maana, e y representa el
tiempo que ocupan en la tarde.
x
y

11.1
10.9

10.3
14.2

12
13.8

15.1
21.5

13.7
13.2

18.5
21.1

17.3
16.4

14.2
19.3

14.8
17.4

15.3
19

calcular r.
Para un ajuste lineal, se forma el sistema de ecuaciones normales.

x = 142.3 x2 = 2085 x. y = 2435 y = 166.8


166.8 = 10 log(a) + 142.3 log(b)
2435 = 142.3 log(a) + 2085 log(b) a = 2.274
var_explicada = 61.88

b = 1.012

var_total = 115.576

de aqu, el coeficiente de correlacin al cuadrado (r2) vale:


r2 = 61.88 / 115.576 = 0.535
Esto implica que r2.100% (es decir 53.5%) de la variacin entre los tiempos de la
tarde responden a las diferencias correspondientes entre los tiempos de la maana.

Ctedra Estadstica II

30

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Siempre que un valor de r se fundamenta en una muestra aleatoria de una


poblacin normal bivariada, se puede practicar una prueba de significacin (como
= 0) o construir un intervalo de confianza para , en base a la transformacin:

1 r

2 1r
1

ln

Z es un estadstico con distribucin normal con media y varianza dadas por las
siguientes expresiones:

2 1
1

ln

1
n 3

Luego las inferencias respecto de sern:


z

( 1 r) 1

( 1 r) 1

Z Z

n 3 ln

1
n 3

donde z es una variable aleatoria con distribucin normal estndar.


En particular, se puede probar la Hiptesis Nula de que no hay correlacin
(=0) con el estadstico:
n 3 1 r
z
n 3 Z
ln

2
1r
Ejemplo: En relacin con el problema anterior (donde n=10 y r=0.73) probar la
Hiptesis Nula que =0 contra la alternativa < >0 con un nivel de significancia de
0.05.
1
234-

Hiptesis Nula =0
Hiptesis Alternativa < >0 (bilateral)
Nivel de significancia: =0.05. z = 1.96
Criterio: se rechaza Ho si z < -1.96 z > 1.96, donde z vale:
z

n 3

n 3 Z

4 Clculos:
z

10 3
2

1 r

1r

ln

1 0.73

1 0.73

ln

2.457

5- Dado que 2.457 > 1.96 se Rechaza la Hiptesis Nula, por lo tanto se acepta la
Hiptesis Alternativa, esto es existe relacin entre el tiempo que ocupa en la maana y
en la tarde, un mecnico para ensamblar un determinado tipo de maquinaria.

Ctedra Estadstica II

31

Universidad de Mendoza

Ing. Jess Rubn Azor Montoya

Si se quiere construir un intervalo de confianza para se debe empezar por


construir uno para Z:
z
z
Z Z

z
z
2
2

1
Z Z
2
2
n 3
n 3
n 3
z

n 3

Z Z

n 3

n 3

Z Z

n 3

Ejemplo: Si r=0.70 para las calificaciones en Fsica y Matemtica de 30 estudiantes,


un intervalode
de30confianza
con un nivel de confianza del 95% para el
as calificaciones enconstruir
fsica y matemtica
estudiantes,
coeficiente
de
correlacin
de
la
poblacin.
fianza con un nivel de confianza del 95% para el coeficiente de

1 0.7

2 1 0.7
1

ln

0.867

z0.025

1.96

luego:
1.96

0.867

27

Z 0.867

1.96

0.49 Z 1.244

27

y como:

2 1
1

Z
2 Z

2 Z

ln

1
2 Z

2 Z

1
1

el intervalo para queda:


2 0.49

2 0.49

2 1.244

2 1.244

0.454 0.847

Ejemplo: Si r=0.20 para una muestra aleatoria de n=40 parejas de datos, construir un
intervalo de confianza del 95% para .
Z

1 0.2

2 1 0.2
1

ln

0.203

1.96
37

Ctedra Estadstica II

0.203

Z 0.203

z0.025

1.96

1.96
37

0.119 Z 0.525

32

Universidad de Mendoza

2 ( 0.119)

2 ( 0.119)

Ing. Jess Rubn Azor Montoya

1
1

2 0.525

2 0.525

e
e

0.118 0.482

En ambos ejemplo los intervalos de confianza son grandes para . Esto ilustra el
hecho de que los coeficientes de correlacin basados en muestras relativamente chicas
suelen ser poco confiables.
Existen varias trampas peligrosas en la interpretacin de . r es una estimacin
de la fuerza de la relacin entre los valores de dos variables aleatorias. En la siguiente
figura r puede ser muy cercana a cero, an cuando hay una fuerte relacin funcional
(parablica, no lineal).

En segundo lugar, una correlacin significativa no necesariamente implica una


relacin causal entre las dos variables aleatorias.

Ctedra Estadstica II

33

También podría gustarte