Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Descriptiva Bivariante
Apuntes Descriptiva Bivariante
,
8 Estadstica descriptiva bivariante
que es simetrica porque cov(x, y) =cov(y, x). Analogamente, se dene la matriz de correlaciones
muestral R a la siguiente matriz
R =
1 corr(x, y)
corr(y, x) 1
,
que de nuevo es simetrica porque corr(x, y) =corr(y, x).Esta matriz tiene unos en la diagonal porque
representaran la correlacion de cada variable consigo misma. Es decir, corr(x, x)=1, y corr(y, y)=1.
2.5. La recta de regresi on simple
2.5.1. Denicion de la recta de regresi on simple
Nuestro interes en el c alculo de la correlaci on esta en medir la proximidad de la nube de puntos
a una lnea recta imaginaria. Lo que vamos a hacer ahora es obtener la ecuacion de esa lnea recta
que sirva de resumen de la relacion entre ambas variables. Es importante recalcar que esta lnea
recta es s olo una aproximacion de la relaci on entre ambas variables. Cuando m as pr oximo a 1
este el coeciente de correlacion, mayor ser a la capacidad de aproximaci on o explicacion de dicha
recta como resumen de la relaci on entre ambas variables. A este procedimiento de buscar una recta
que aproxime el comportamiento de una nube de puntos le llamaremos ajuste de una recta.
Nuestro objetivo es encontrar la recta a + bx que mejor resuma esa tendencia lineal que muestra
la nube de puntos, como se ilustra en esta gura.
Conjunto de datos y recta que resume su tendencia lineal
A la variable que queremos saber su valor le denominamos variable respuesta, y se le suele
reservar la letra y. A la variable que vamos a usar para predecir el valor de la variable respuesta
le denominaremos variable explicativa, y se le suele reservar la letra x. Nuestro interes es en la
recta que nos ayude a predecir el valor de y a partir de la observaci on de x. Si la nube de puntos
formase una lnea recta perfecta (lo que ocurre s olo si la correlaci on entre ambas es 1) tendramos
que y = a + bx, y los valores de a y b los podramos calcular usando s olo un par de puntos. En
cualquier otro caso, si la correlaci on es diferente a 1, es imposible encontrar una lnea recta que
pase por todos los puntos. Dada una nube de puntos formada por un conjunto de datos de dos
variables, existen muchos criterios para ajustar una lnea recta, lo que llevara a calcular rectas
diferentes seg un el criterio que empleemos.
2.5 La recta de regresi on simple 9
Este plantemiento supone que los diferentes valores de y vienen explicados en parte, y de forma
lineal, por otra variable x. Esta relaci on puede escribirse como
y
i
= a + bx
i
+ e
i
, (2.1)
donde y
i
es el valor observado de la variable y para el individuo i-esimo, x
i
es el valor observado de
la variable x para ese mismo indivduo, y e
i
es la parte de y
i
que no viene explicada por la recta, y
recibe el nombre de residuo o error de prediccion. A la expresi on (2.1) se le denomina modelo
de regresi on simple, pues supone un modelo de como se comporta y para determinados valores
de x a traves de una regresi on simple. Al valor que resulta de aplicar la recta a +bx para un valor
de x = x
i
dado, le llamaremos prediccion, y lo denotaremos por el smbolo y(x
i
), o simplemente
y
i
. La recta que predice el valor de y cuando se conoce que x = x
i
puede expresar entonces como
y
i
= a + bx
i
. (2.2)
Por tanto, el residuo puede calcularse como
e
i
= y
i
y
i
= y
i
(a + bx
i
)
La siguiente gura muestra la diferencia entre un valor observado y
i
y un valor previsto y
i
para el
valor x
i
, usando la recta y = a + bx.
En este caso, el residuo e
i
es positivo.
2.5.2. La recta de mnimos cuadrados
Como hemos dicho antes, la recta de regresi on simple se utilizara para predecir y a partir de x.
Esta utilizaci on nos ayudara a determinar como construir esa recta dentro de las m ultiples rectas
que pueden pasar por la nube de puntos. Nuestro porblema ahora es, a partir de un conjunto de
datos, encontrar los valores de a y b que proporcionen mejores predicciones de y a partir de x.
Diremos que una recta de regresion simple es mejor que otra (que unos valores de a y b son
m as apropiados que otros) si las predicciones son mejores en el sentido de que los residuos sean,
en conjunto, menores. La forma m as habitual es determinar el tama no de los residuos es usando
10 Estadstica descriptiva bivariante
su suma cuadratica
P
e
2
i
. A esta suma cuadratica le denominaremos funci on de perdida S(a, b),
que es una funcion de a y b, es decir
S(a, b) =
n
X
i=1
e
2
i
=
n
X
i=1
[y
i
(a + bx
i
)]
2
.
Se denomina funcion de perdida porque resume lo que se pierde al usar una recta de regresion
simple. Es decir, S(a, b) cuantica la parte de y que no viene explicada por x. El objetivo es
encontrar los valores de a y b que minimicen S(a, b) para unos datos dados. A los valores que
minimizan S(a, b) los denotaremos por a y
b. La teora estadstica nos dice que esos valores optimos
son
b =
cov(x, y)
s
2
x
, (2.3)
a = y b x. (2.4)
A la recta y = a+
=
cov(x, y)
s
2
x
=
3688,24
54,42
= 67,774
a
+ b
e y
tales que entre ellas s exista una relaci on lineal y construir con
ellas una regresion lineal. Las Figuras 2.1 y 2.2 son un ejemplo de este tipo de variables. En este
caso la relacion entre x =Presi on e y =Temperatura no es lineal, y presenta cierta curvatura. Sin
embargo, la relaci on entre x
= x
c
donde c > 1 o c < 1 dependiendo del tipo de transformaci on
que necesiten los datos. Para explicar esta metodologa vamos a utilizar la Figura 2.3.
(a) (b) (c)
Figura 2.3: Transformaciones usando potencias para conseguir linealidad.
En la Figura 2.3 (a) tenemos dos variables que tienen claramente una relacion no lineal. La lnea
roja representara la curva que nos gustara utilizar para predecir y a partir de x. Lo que vamos a
hacer entonces es corregir esa curvatura. Con este n vamos a aplicar una transformacion a x tal
que los valores muy altos se reduzcan mucho y los valores mas bajos se reduzcan menos, tal y como
se ilustra en la Figura 2.3 (b). Esta compresion creciente a medida que aumenta x se consigue con
transformaciones del tipo x
c
con c < 1. El valor de c puede buscarse probando diferentes valores y
analizando los residuos. Hay que encontrar el valor justo de c. Un valor demasiado peque no podra
no ser suciente para corregir la no linealidad, y un valor demasiado alto pede provocar una no
18 Estadstica descriptiva bivariante
linealidad con la curvatura en direcci on opuesta. La transformacion x
= x
0,9
. Esta
transformacion parece insuciente para corregir la no linealidad. Las Figuras 2.4 (b.1) y (b.2)
utilizan la transformacion x
= x
0,5
, que parece que resuelven el problema de la no linealidad. Las
Figuras 2.4 (c.1) y (c.2) utilizan la transformacion x
= x
0,1
que ya es excesiva, y por eso produce
de nuevo no linealidad.
(a.1) (b.1) (c.1)
(a.2) (b.2) (c.2)
Figura 2.4: Gracos xy con recta de regresi on (arriba) y gr aco de residuos frente a valores previstos (abajo). (a)
transformacion x
0,9
. (b) transformaci on x
0,5
. (c) transformaci on x
0,1
.
La Figura 2.5 muestra un esquema de cual debera ser la transformaci on que debe realizarse
sobre x (x
= x
c
) para conseguir corregir la no linealidad. La lnea punteada simboliza la curva
2.5 La recta de regresi on simple 19
alrededor de la cu al se agruparan los datos sin transformar. Como debera ser la transformaci on
si decidimos hacerla sobre la variable y (y
= y
c
)?
Figura 2.5: Transformaciones que, en cada caso, pueden corregir la no linealidad.
Anexo: demostracion de la recta de mnimos cuadrados
Dado un conjunto de n observaciones bidimensionales (y
1
, x
1
), ..., (y
n
, x
n
), de las variables (y, x)
buscamos la recta de regresi on simple y = a + bx + e tal que se minimice la funci on de perdida
S(a, b) donde
S(a, b) =
n
X
i=1
e
2
i
=
n
X
i=1
[y
i
(a + bx
i
)]
2
.
A los valores de a y b que minimizan S(a, b) los denotaremos por a y
b. Por tanto, la primera
derivada se anulara en dichos valores, es decir
S
a
a= a
= 0,
S
b
b=
b
= 0,
de donde se obtiene que
S
a
a= a
= 2
n
X
i=1
y
i
a
bx
i
= 0, (2.6)
S
b
b=
b
= 2
n
X
i=1
y
i
a
bx
i
(x
i
) = 0. (2.7)
De estas equaciones resulta
n
X
i=1
y
i
= n a +
b
n
X
i=1
x
i
n
X
i=1
y
i
x
i
= a
n
X
i=1
x
i
+
b
n
X
i=1
x
2
i
20 Estadstica descriptiva bivariante
de donde se obtiene que
a =
P
n
i=1
y
i
n
b
P
n
i=1
x
i
n
= y
b x,
b =
P
n
i=1
(y
i
y) (x
i
x)
P
n
i=1
(x
i
x)
2
=
cov(x, y)
s
2
x
.
Ademas de este resultado, de (2.6) puede escribirse que
n
X
i=1
y
i
h
a +
bx
i
i
=
n
X
i=1
(y
i
y
i
) =
n
X
i=1
e
i
= 0,
por lo que los residuos de la regresi on de mnimos cuadrados tienen media cero.