Apuntes Descriptiva Bivariante

Captulo 2
Estadstica descriptiva bivariante

1. Introducci on.
2. Descripci on de datos mediante de frecuencias bivariantes.
3. Descripci on de datos bivariantes mediante gracos de dispersion.
4. Relaci on lineal entre dos variables.
5. La recta de regresion simple.
0
Apuntes realizados por Ismael S anchez para la asignatura de Estadstica. Universidad Carlos III de Madrid.
Todos los derechos reservados.
1
2 Estadstica descriptiva bivariante
2.1. Introduccion.
En este captulo continuamos describiendo un conjunto de datos, pero ahora los datos tienen
informaci on de dos variables. Nuestro interes en este tema continua siendo el resumen de variables
cuantitativas. Por ejemplo, para una misma persona podemos tener su edad y su salario. Para
un artculo manufacturado podemos tener informaci on de mas de una dimension. Nos interesa el
estudio conjunto de ambas variables, y en particular saber si estan relacionadas o por el contrario
son variables independientes. En el caso en el que esten relacionadas, nos interesara poder describir
c omo es su relaci on: lineal o no lineal.
Nos interesara especialmente el caso en el que ambas variables esten relacionadas de forma
lineal. En ese caso, es f acil construir un modelo lineal que resuma dicha relaccion. Este modelo
puede utilizarse, por ejemplo, para predecir que valor tomar a una variable en un individuo a partir
del valor de la otra varable. La tecnica estadstica que emplearemos para modelizar esta relacion
lineal es la de regresi on simple por mnimos cuadrados.
2.2. Descripci on de datos mediante tablas de frecuencias
bivariantes. Distribuci on marginal y condicionada
Si se tiene m as de una variable de cada individuo, puede realizarse una tabla de frecuencias
como en el caso univariante. Por ejemplo, con dos variables se tendr a una tabla de doble entrada
donde cada dimension correspondera a una variable y cada celda de la tabla tendra el n umero de
individuos que tengan los correspondientes valores seg un la la y columna en que se encuentre.
Dicho valor recibe el nombre de frecuencia conjunta (absoluta o relativa).
Ejemplo 1 La tabla siguiente muestra la tabla de distribuci on de frecuencias conjunta para
las variables: n umero de hermanos (columnas) y sexo (las) de 95 estudiantes ((chero Alum-
nosIndustriales.sf3).
N umero de hermanos en funci on del sexo del alumno
En esta tabla puede verse, por ejemplo, que hay 9 alumnos que son hijos unicos, de los cuales 3
son chicas y 6 son chicos. En los margenes de la tabla aparecen tambien los totales for las y por
columnas, que son precisamente las frecuencias de cada variable por separado. A esta distribucion
de frecuencias univariante que aparece en las tablas multivariantes se les denomina distribuciones
2.2 Descripci on de datos mediante tablas de frecuencias bivariantes. Distribucion marginal y condicionada3
marginales, por estar situados en los m argenes. Las distribuciones marginales son por tanto las
distribuciones univariantes. Cada una de las las o columnas por separado nos mostrara la dis-
tribuci on de frecuencias de una variable cuando la otra variable toma un valor determinado. A
esta distribucion de frecuencias, que es tambien univariante, se le denomina distribuci on condi-
cionada. Por ejemplo, los valores de la primera columna de la tabla es la distribuci on por sexo de
los estudiantes que son hijos unicos..
Las tablas de frecuencias multivariantes tambien pueden contener frecuencias relativas. En este
caso es importante distinguir si el interes est a en la frecuencia relativa conjunta o condicionada,
puyes el n umero por el que hay que dividir la frecuencia absoluta sera diferente. Por ejemplo,
la tabla anterior muestra la distribuci on de frecuencias relativa conjunta, donde en cada celda se
encuentra el porcentaje que representan los elementos de dicha celda respecto al total (95 alumnos).
Por ejemplo, los 6 chicos que son hijos unicos son el 6.3 % de los estudiantes del aula en que se
tomaron estos datos. Si lo que se desea es la distribuci on de frecuencias relativas condicionada a
la variable n umero de hermanos, los porcentajes se obtendran dividiendo las frecuencias absolutas
entre el total de la la. Se tendra la siguiente tabla:
N umero de hermanos en funci on del sexo del alumno
En esta tabla puede verse, por ejemplo, que de los 37 estudiantes que tienen 2 hermanos el
70,27 % (26/37100) son chicos.
Ejercicios 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1. Un proceso productivo tiene dos lneas de produccion: lnea A y lnea B que funcionan de
forma totalmente independiente (distintas m aquinas, distintos operarios, etc). Un analista
toma nota al nal de cada lnea del n umero de defectos que tienen los artculos que van
produciendo ambas lneas. Primero toma nota de 50 artculos de la lnea A y despues va a
la lnea B y toma nota de 50 artculos de dicha lnea. La tabla siguiente muestra un ejemplo
de c omo son los datos:
N umero de defectos
Artculo Lnea A Lnea B
1 0 1
2 1 1
3 2 0
.
.
.
.
.
.
.
.
.
50 1 0
Cuando tiene 50 artculos inspeccionados por cada lnea construye una tabla de frecuencias
bivariante, resultando la siguiente tabla:
Que opini on te merece la realizaci on de esta tabla?
2. En un aula con 25 chicos y 14 chicas se pregunta quien fuma, resultando la siguiente tabla
Fuma No fuma total
Chico 12 13 25
Chica 8 6 14
total 20 19 39
a) Que proporcion de estudiantes fuma?
b) Que propoci on de chicas no fuma?
c) Que proporcion de estudiantes son chicos y fumadores?Que son el resto de los alum-
nos?
d) Cual es la distribucion marginal de frecuencias relativas del sexo de los alumnos?
e) Cual es la distribucion marginal de frecuencias absolutas del sexo de los alumnos?
f ) Cual es la distribuci on de frecuencias relativas de la variable sexo condicionada a que
son alumnos fumadores?
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Descripci on de datos bivariantes mediante gracos de
dispersi on
Este gr aco, tambien conocido como graco bivariante o gr aco XY representa la informaci on
de dos variables para un conjunto de individuos. Para cada individuo se tiene un dato bivariante:
la informaci on de la variable x y la de la variable y. En unos ejes de ordenadas se representa cada
punto colocando en el eje x el valor de la primera variable y en el y el de la segunda. Se tendr an
tantos puntos como tama no de la muestra.
2.4 Relaci on lineal entre dos variables 5
Ejemplo 2 El siguiente gr aco muestra la informacion de una muestra de 40 vehculos. Para cada
vehculo se tiene la potencia del motor (eje x) y la velocidad m axima (eje y). El graco de estos
40 puntos, uno por vehculo, revela que a mayor potencia mayor velocidad maxima, siendo esta
relaci on lineal (la nube de puntos se extiende a lo largo de una lnea recta imaginaria)
Graco de dispersion para la velocidad y la potencia de un conjunto de coches
Ejemplo 3 La siguiente gura muestra el graco de dispersion de la energa generada en un parque
eolico y la velocidad del viento (chero parqueeolico1.sf3 (por condencialidad estos datos han
sido contaminados con un ruido)). Cada punto tiene dos valores: la energa producida en una hora
y la velocidad registrada del viento en dicha hora. El eje X representa la velocidad (m/s) media
registrada en una hora, mientras que el eje Y representa la energa (kwh) generada en ese tiempo.
Puede verse en la gura que hay una clara relaci on entre la velocidad del viento y la energa, pero
en este caso dicha relacion es no lineal. A velocidades bajas, la produccion energetica es casi nula.
A partir de cierta velocidad mnima, la energa aumenta de forma creciente. A partir de cierta
velocidad maxima, la energa generada en una hora apenas vara y se mantiene proxima a cierto
nivel m aximo, que es la capacidad maxima de la instalacion.
0 5 10 15 20 25
0
0.5
1
1.5
2
2.5
3
x 10
4
Velocidad horaria media del viento (m/s)
k
W
h
Energa horaria generada
Potencia horaria media generada en un parque e olico en funci on de la velocidad del viento
2.4. Relaci on lineal entre dos variables
En esta secci on presentaremos medidas que resuman la asociacion entre dos variables cuantita-
tivas. Estas medidas ser an res umenes numericos de las relaciones que se hayan detectado usando los
gracos de dispersion presentados anteriormente. Nos centraremos s olamente en relaciones lineales
entre dos variables. En esos casos, el graco de dispersi on mostrara una nube de puntos alrededor
de cierta linea recta imaginaria. Para resumir el grado de relacion lineal entre dos variables se
usan las siguientes medidas: (1) coeciente de covarianza, (2) coeciente de correlacion (3) recta
de regresion.
2.4.1. Coeciente de covarianza
Supongamos que para un conjunto de n individuos se tiene informacion de dos variables x e y
(datos bidimensiionales). Entonces la covarianza o coeciente de covarianza se dene como
cov(x, y) s
xy
=
P
n
i=1
(x
i
x) (y
i
y)
n
.
Este coeciente de covarianza tomar a valores positivos si hay una relaci on lineal positiva entre
ambas variables; es decir, si al aumentar una de ellas tambien lo hace la otra. El siguiente gr aco
de dispersion ilustra esta covarianza positiva. El graco (a) muestra el precio del coche y su potencia
para un conjunto de 90 coches europeos, donde la covarianza es 302764. Por el contario, si la relacion
lineal es negativa, el coeciente de covarianza ser a negativo, como sucede con los datos de peso del
coche y la distancia que recorrera con un litro de combustible, que posee una covarianza de -1600.
(a) Relaci on entre precio y potencia de 90 coches (b) Relaci on entre peso y consumo de 90 coches
Si entre ambas variables no hay relacion, la covarianza ser a proxima a cero. En estos casos, el
diagrama de dispersion muestra una nube de puntos sin ning un patron de relacion. El signo del
coeciente de covarianza nos indica claramente el signo de la relaci on lineal que exista entre las
variables. Sin embargo, al depender el coeciente de covarianza de las unidades de x y de y , el
valor concreto no es f acil de interpretar. Por ejemplo, en los dos gr acos anteriores, no sabramos
decir, a partir de los valores de covarianzas, que relacion lineal es m as fuerte. Para el graco (a)
la covarianza es 302764 d olaresCV, mientras que para el gr aco (b) la covarianza es de -1600
kilogramosmillas, que no son unidades comparable con dolaresCV.
Sera conveniente por tanto utilizar alguna medida caracterstica que resuma la relacion lineal
de forma adimensional. Esta medida es el coeciente de correlacion, que se muestra a continuacion.
2.4 Relaci on lineal entre dos variables 7
2.4.2. Coeciente de correlacion
La informaci on que suministra el coeciente de correlacion es la misma que la covarianza. Es
un coeciente que mide el grado de relacion lineal entre dos variables tomadas en los mismos
individuos, pero usando un valor adimensional. Se dene como
r r
xy
r(x, y) =
cov(x, y)
s
x
s
y
.
Puede demostarse que estara siempre entre -1 y 1. Su interpretacion es
r = 0; no hay relaci on lineal
r > 0; relacion lineal positiva
r < 0; relacion lineal negativa
Si r = 1 tendremos una relacion lineal positiva perfecta, en el sentido de que los datos estaran
perfectamente alineados seg un una recta de pendiente positiva. Analogamente, si r = 1 tendremos
una relacion lineal negativa perfecta. En el caso de las variables precio y potencia mostradas
anteriormente la correlaci on es 0.73 que es positiva y alta. En el caso de las variables peso y
distancia recorrida, la correlaci on es -0.82 que es negativa y muy alta. Cuanto mas proxima este la
nube de puntos a una lnea recta m as proximo estara el coeciente de correlacion a la unidad
(en valor absoluto). Por el contrario, cuanto m as dispersa este la nube de puntos, la correlacion
estara mas proxima a cero. A continuaci on se muestra una serie de guras donde se representan
conjuntos de datos de diferente coeciente de correlacion.
r=1 r=1 r=0.8 r=0.8 r=0.06 r=0.06
r=-0.94 r=-0.94 r=-0.83 r=-0.83 r=-0.08 r=-0.08
2.4.3. Matrices de covarianzas y correlaciones
Una forma habitual de presentar las medidas de dependencia lineal entre las variables de un
conjunto de datos bidimensionales es en forma de matriz. Para el caso de covarianzas se dene la
matriz de covarianzas muestral M a la siguiente matriz
M =

s
2
x
cov(x, y)
cov(y, x) s
2
y
,
que es simetrica porque cov(x, y) =cov(y, x). Analogamente, se dene la matriz de correlaciones
muestral R a la siguiente matriz
R =

1 corr(x, y)
corr(y, x) 1
,
que de nuevo es simetrica porque corr(x, y) =corr(y, x).Esta matriz tiene unos en la diagonal porque
representaran la correlacion de cada variable consigo misma. Es decir, corr(x, x)=1, y corr(y, y)=1.
2.5. La recta de regresi on simple
2.5.1. Denicion de la recta de regresi on simple
Nuestro interes en el c alculo de la correlaci on esta en medir la proximidad de la nube de puntos
a una lnea recta imaginaria. Lo que vamos a hacer ahora es obtener la ecuacion de esa lnea recta
que sirva de resumen de la relacion entre ambas variables. Es importante recalcar que esta lnea
recta es s olo una aproximacion de la relaci on entre ambas variables. Cuando m as pr oximo a 1
este el coeciente de correlacion, mayor ser a la capacidad de aproximaci on o explicacion de dicha
recta como resumen de la relaci on entre ambas variables. A este procedimiento de buscar una recta
que aproxime el comportamiento de una nube de puntos le llamaremos ajuste de una recta.
Nuestro objetivo es encontrar la recta a + bx que mejor resuma esa tendencia lineal que muestra
la nube de puntos, como se ilustra en esta gura.
Conjunto de datos y recta que resume su tendencia lineal
A la variable que queremos saber su valor le denominamos variable respuesta, y se le suele
reservar la letra y. A la variable que vamos a usar para predecir el valor de la variable respuesta
le denominaremos variable explicativa, y se le suele reservar la letra x. Nuestro interes es en la
recta que nos ayude a predecir el valor de y a partir de la observaci on de x. Si la nube de puntos
formase una lnea recta perfecta (lo que ocurre s olo si la correlaci on entre ambas es 1) tendramos
que y = a + bx, y los valores de a y b los podramos calcular usando s olo un par de puntos. En
cualquier otro caso, si la correlaci on es diferente a 1, es imposible encontrar una lnea recta que
pase por todos los puntos. Dada una nube de puntos formada por un conjunto de datos de dos
variables, existen muchos criterios para ajustar una lnea recta, lo que llevara a calcular rectas
diferentes seg un el criterio que empleemos.
2.5 La recta de regresi on simple 9
Este plantemiento supone que los diferentes valores de y vienen explicados en parte, y de forma
lineal, por otra variable x. Esta relaci on puede escribirse como
y
i
= a + bx
i
+ e
i
, (2.1)
donde y
i
es el valor observado de la variable y para el individuo i-esimo, x
i
es el valor observado de
la variable x para ese mismo indivduo, y e
i
es la parte de y
i
que no viene explicada por la recta, y
recibe el nombre de residuo o error de prediccion. A la expresi on (2.1) se le denomina modelo
de regresi on simple, pues supone un modelo de como se comporta y para determinados valores
de x a traves de una regresi on simple. Al valor que resulta de aplicar la recta a +bx para un valor
de x = x
i
dado, le llamaremos prediccion, y lo denotaremos por el smbolo y(x
i
), o simplemente
y
i
. La recta que predice el valor de y cuando se conoce que x = x
i
puede expresar entonces como
y
i
= a + bx
i
. (2.2)
Por tanto, el residuo puede calcularse como
e
i
= y
i
y
i
= y
i
(a + bx
i
)
La siguiente gura muestra la diferencia entre un valor observado y
i
y un valor previsto y
i
para el
valor x
i
, usando la recta y = a + bx.
En este caso, el residuo e
i
es positivo.
2.5.2. La recta de mnimos cuadrados
Como hemos dicho antes, la recta de regresi on simple se utilizara para predecir y a partir de x.
Esta utilizaci on nos ayudara a determinar como construir esa recta dentro de las m ultiples rectas
que pueden pasar por la nube de puntos. Nuestro porblema ahora es, a partir de un conjunto de
datos, encontrar los valores de a y b que proporcionen mejores predicciones de y a partir de x.
Diremos que una recta de regresion simple es mejor que otra (que unos valores de a y b son
m as apropiados que otros) si las predicciones son mejores en el sentido de que los residuos sean,
en conjunto, menores. La forma m as habitual es determinar el tama no de los residuos es usando
su suma cuadratica
P
e
2
i
. A esta suma cuadratica le denominaremos funci on de perdida S(a, b),
que es una funcion de a y b, es decir
S(a, b) =
n
X
i=1
e
2
i
=
n
X
i=1
[y
i
(a + bx
i
)]
2
.
Se denomina funcion de perdida porque resume lo que se pierde al usar una recta de regresion
simple. Es decir, S(a, b) cuantica la parte de y que no viene explicada por x. El objetivo es
encontrar los valores de a y b que minimicen S(a, b) para unos datos dados. A los valores que
minimizan S(a, b) los denotaremos por a y

b. La teora estadstica nos dice que esos valores optimos
son
b =
cov(x, y)
s
2
x
, (2.3)
a = y b x. (2.4)
A la recta y = a+
bx que utiliza los valores (2.4) y (2.3) le denominaremos recta de regresi on

simple de mnimos cuadrados.
Ejemplo 4 El chero cardata.sf tiene datos de 155 vehculos. Entre estos datos tenemos las vari-
ables mpg=distancia recorrida con un galon de combustible, y la variable weight=peso del vehculo.
La gura siguiente muestra el gr aco de dispersion basado en estos 155 vehculos.
Datos de peso y consumo de coches
En esta gura puede verse que hay una fuerte tendencia lineal negativa, con un coeciente de cor-
relacion de -0.82. Queremos calcular la recta de regresi on que me ayude a dar un valor aproximado
de la distancia que recorrera un vehculo a partir de su peso. Del analisis de los datos tenemos que
cov(mpg,weight)=3688.24
var(mpg)=54.42
var(weight)=363630
media mpg=28.79
media weight=2672.2
Calcularemos la recta de regresion que nos ayude a predecir la distancia recorrida (mpg) en funci on
del peso (weight). Por tanto nuestras variables son y =mpg y x =weight. La recta de regresion es
entonces
b =
cov(x, y)
s
2
x
=
3688,24
363630
= 0,01014
a = y b x = 28,79 (0,01014) 2672,2 = 55,89
Supongamos ahora que tenemos un vehculo que pesa 2600 unidades y que no conozcamos su con-
sumo. Usando como aproximacion la anterior recta de regresion podemos predecir que la distancia
que recorra con un gal on de combustible sera
Distancia prevista= y(x = 2600) = a + b 2600 = 55,89 + (0,01014) 2600 = 29,52 millas.
Hay que mencionar que la recta de regresi on de mnimos cuaadrados y = a +
bx est a dise nada

para predecir y a partir de x y no debemos usarla para predecir un valor de x dado y. Es decir, si
observamos un valor de y y predecimos el valor de x despejando de la recta de regresion tal que
haciendo x = (y a) /b ya no estamos usando la mejor recta posible que prediga x a partir de
y. No estamos haciendo el mejor uso de nuestros datos. Debemos en ese caso calcular una nueva
recta intercambiando los papeles de x e y. Volviendo al Ejemplo 4, si nuestro interes es encontar
la predicci on del peso de un vehculo si conociesemos la distancia que recorre con un galon de
combustible, lo mejor es volver a construir una nueva regresion especca para esa prediccion.
Ahora la variable explicativa es x =mpg y la variable respuesta es y =weight, y tendremos que
b
=
cov(x, y)
s
2
x
=
3688,24
54,42
= 67,774
a
= y b x = 2672,2 (67,774) 28,79 = 4623,4.

Entonces, si sabemos que un vehculo ha recorrido 10 millas con un galon de combustible, el peso
que podemos predecir para ese vehculo ser a de
Peso previsto= y(x = 10) = a
+ b
10 = 4623,4 + (67,774) 10 = 3945,7.

2.5.3. Interpretaci on de los coecientes de una regresion simple
La interpretaci on de los coecientes es muy sencilla. A partir de (2.2) puede verse que
dy
dx
= b,
por lo que b es la pendiente de la recta (en inges, slope). La interpretacion mas habitual de b
es interpretarlo como el incremento que se produce en y cuando x aumenta en una unidad. Este
resultado puede verse del siguiente desarrrollo:
y = y(x
i
+ 1) y(x
i
) = {a + b(x
i
+ 1)} {a + bx
i
} = b.
Por ejemplo, en el caso de la regresi on anterior en la que se relaciona el peso del coche con su
consumo, se tiene que un peso adicional de una unidad reduce la distancia que puede recorrerse
con un galon en 0,01014 millas.
El termino constante a es el valor de la recta cuando x = 0, ya que y(0) = a + b 0 = a (en
ingles, intercept). En muchas ocasiones no tiene mucho interes interpretar esta constante, pues el
caso x = 0 no siempre esta dentro del rango de los datos. Por ejemplo, en el caso de la regresi on
anterior, un coche de peso 0 no tiene sentido.
2.5.4. Evaluacion de la recta de regresion simple. Analisis de los residuos
Como sabemos que la recta de regresion simple es una buena herramienta para predecir y a
partir de x? Para contestar adecuadamente deberemos esperar a captulos posteriores, donde se
desarrollar an tecnicas estadsticas especcas para responder a esta pregunta. No obstante, en este
tema podemos dar una contestacion aproximada que resulta util.
Para considerar que una regresi on simple es una buena idea para predecir y a partir de x
necesitamos cumplir dos condiciones. En primer lugar, y como condici on mnima, necesitamos que
la relaci on entre y y x sea sea verdaderamente lineal. Es decir, la nube de puntos debe seguir un
patron lineal, como sucede en el gr aco que se observa en el Ejemplo 4 y no un patron curvilneo
u otro tipo de estructura diferente a una linea recta. En segundo lugar, la nube de puntos debe ser
lo mas estrecha posible alrededor de la recta de regresion.
La linealidad de la relaci on
Respecto a la condici on de linealidad, lo mas facil para comprobarla es hacer representaciones
gracas. En muchos casos un simple graco de dispersion XY puede decirnos si una lnea recta
es un buen resumen de los datos. Por ejemplo, la gura siguiente muestra la relacion entre la
velocidad del viento (metros/segundo) que sopla en una hora y la energa e olica generada por un
parque eolico (kWh) (parqueeolico1.sf3). En esta gura puede verse que la relaci on es no lineal
con una forma parecida a una S. Sin embargo el coeciente de correlaci on entre ambas variables
es elevado, de 0.96. Este coeciente es, en este caso, enga noso. No es ninguna medida-resumen de
ninguna relacion lineal pues no hay relaci on lineal entre las variables.
Esta gura tiene en color rojo la recta de mnimos cuadrados, que en este caso es
y
i
= 5103 + 1983x
i
.
Seg un esta ecuacion de la recta, al aumentar la velocidad del viento en una unidad la energa
generada por el parque aumentara en 1983 unidades. Si la hipotesis de linealidad fuese cierta,
esta relaci on (1 m/s adicional =1938 unidades de energa adicionales (kWh)) sera la misma para
todos los niveles de velocidad de viento. Eso es precisamente el signicado del termino lineal. Sin
embargo, vemos en el gr aco que la realidad es diferente ya que a partir de 12 unidades de velocidad
(metros/segundo) al aumentar la velocidad del viento ya no se aumenta la energa generada, sino
que se mantiene en un nivel constante. Un comentario parecido puede realizarse para velocidades
inferiores a 4 m/s.
Adem as del graco anterior, se suele emplear el graco de valores previstos frente a
valores observados. En este graco, en el eje X ponemos las predicciones y, y en el eje Y los
valores reales y. De esta forma representamos los pares de puntos ( y
i
, y
i
), i = 1, ..., n. En el caso
en el que exista relaci on lineal, dicha gura debe mostrar una nube de puntos con estructura lineal
agrupados alrededor de la diagonal. La guras siguiente muestra a la izquierda el graco de valores
previstos frente a observados con los datos del Ejemplo 4, y a la derecha el gr aco con los datos
de energa e olica. En esta gura puede verse que los datos relacionados con el consumo de los
automoviles tienen una mayor relacion lineal que los de la energa e olica.
Aparte de estos gracos, el graco que m as se emplea para evaluar la idoneidad de una regresi on
es el graco de residuos frente a valores previstos. En este gr aco, el eje X representa los
valores previstos y, y el eje Y los residuos e. De esta forma se representan los n pares de puntos
( y
i
, e
i
). Este graco ilustra la informaci on que tienen los residuos, una vez que a los datos originales
les hemos extrado la informacion que viene explicada por la recta de regresion. Si los datos tiene una
relaci on lineal, los residuos no deben tener ya ning un tipo de informacion, y deben aparecer como
una nube de puntos dispuestos al azar alrededor de la horizontal. La gura siguiente muestra el
graco de residuos frente a valores previstos de los datos del consumo de combustible de los coches
y la energa e olica. Mientras que en el caso de los datos del consumo de combustible el gr aco
muestra una nube con distribucion aleatoria, en el caso de la energa e olica se nota claramente la
falta de linealidad. Como la relaci on entre la velocidad de viento y la energa producida es no lineal
los residuos reejan esa falta de linealidad que no ha sido capaz de captar la regresion.
A la hora de interpretar el graco de residuos frente a valores previstos debemos jarnos en la
presencia de estructuras en los datos que sean muy claras, como la que aparece en el graco
de la derecha de la gura de arriba. La pregunta que debemos hacerlos al mirar este gr aco es: si
hubiese dispuesto unos puntos al azar sobre el graco, sera plausible obtener esa representaci on?
Si la respuesta es armativa, entonces podemos concluir que la hipotesis de linealidad entre x e y
es razonable. Si por el contrario pensamos que la nube de los residuos tiene una estructura que no
parezca debida al azar, pensaremos que el modelo lineal no es adecuado.
En el ejemplo siguiente se muestra m as claramente la utilidad del graco de residuos frente a
valores previstos. Los datos corresponden a un conjunto de experimentos en los que se hierve agua
a diferentes alturas en la cordillera del Himalaya, y estan extrados del texto Weisberg, S (1985).
Applied Linear Regression, 2nd edition. John Wiley and Sons, p. 28. Los datos se encuentran en
el chero ebullicionhimalaya.sf3. Este chero tiene dos variables. La variable Temperatura tiene la
temperatura en
o
C a la que hierve el agua en el experimento, y la variable Presion tiene la presion
atmosferica, en atm osferas, a la que se realiza el experimento. A mayor altura menor presi on
atmosferica (a nivel del mar, la presi on es de 1 atmosfera). La Figura 2.1X muestra el gr aco de
dispersi on junto con la recta de mnimos cuadrados que predice la temperatura de ebullicion a
partir de la presi on atmosferica, as como el gr aco de residuos frente a valores previstos. En este
caso, el gr aco de dispersion de la izquierda parece sugerir que la relaci on es lineal, sin embargo
esta no lo es. El gr aco de residuos frente a valores previstos nos muestra una curvatura que nos
dice que la relaci on real entre ambas variables es no lineal. Esta falta de linealidad no es muy
acusada y por eso es mas difcil de ver en el gr aco de dispersi on, aunque mirandolo con atenci on
tambien puede apreciarse. Este ejemplo ilustra la utilidad del graco de residuos frente a valores
previstos para evaluar la linealidad entre dos variables.
En este caso concreto de la relaci on entre el punto de ebullicion y la presion, puede mejorarse
el modelo de regresi on si, por ejemplo, buscamos una transformacion no lineal entre las variables.
Por ejemplo puede observarse que entre el logaritmo de la presion y la temperatura s hay una
relaci on lineal. Si hacemos la regresion con x = log(Presi on) frente a y =Temperatura obtenemos
la siguente recta de mnimos cuadrados
y = 99,9 + 26,5 log(Temperatura),
y los gr acos de evaluaci on, que se muestran en la Figura 2.2 ya resultan bastante m as satisfactorios.
(a) Presion atmosferica y punto de ebullici on del agua (b) Residuos frente a valores previstos.
Figura 2.1: Resultados de la regresin que explica el punto de ebullicin en funcin de la presin atmosfrica.
Figura 2.2: Resultados de la regresin que explica el punto de ebullicin en funcin del logaritmo de la presin
atmosfrica.
Vemos por tanto que la recta de regresion simple puede utilizarse tambien, con un poco de
ingenio y experiencia, para modelizar relaciones no lineales. Basta con transformar las variables
observadas en otras entre las que s exista una relaci on lineal. En el siguiente apartado analizaremos
este tipo de transformaciones para algunos casos sencillos, pero muy frecuente
Bondad del ajuste lineal
Una vez que podemos asumir (tras el an alisis de los residuos de la regresion) que la relacion
entre x e y es lineal, el siguiente paso es cuanticar c omo de precisa es la predicci on de y utilizando
la recta de regresi on simple. Desde un punto de vista graco, la predicci on que se haga con la
regresi on simple ser a tanto mejor cuanto mas estrecha sea la nube de puntos alrededor de la recta.
Es decir, cuanto mas proximos a cero sean los residuos. El siguiente ejemplo ilustra esta idea. Se
desea predecir el recorrido que har a un coche con 1 gal on de combustible (variable y =mpg del
chero cardata.sf), y estamos pensando en elegir entre dos variables x alternativas. Una es el peso
del vehculo (variable weight), pues a mayor peso mayor sera el consumo y menor la distancia que
recorrera con una unidad de combustible. El graco de dispersion de las variables mpg y weight
con la recta de regresion superpuesta se encuentra en la gura de la izquierda. La segunda opcion
es emplear la aceleraci on del vehculo (variable accel ) que mide el tiempo que tarda en alcanzar
cierta velocidad. El graco de dispersi on con la recta de regresi on para esta segunda opci on est a en
la gura de la derecha. Parece que a mayor capacidad de aceleracion, el coche es mas eciente y
consume menos. Cual de las dos regresiones elegiramos para predecir mpg? Parece evidente que
la variable weight es mejor pues la nube de puntos esta mas proxima a la recta que en el caso de
la variable accel.
(a) mpg en funci on de weight (b) mpg en funci on de accel
Esta menor dispersi on de la nube de puntos viene cuanticada por el coeciente de correlaccion
entre x e y. Las correlaciones en estos datos son las siguientes
corr(weight,mpg) =-0.83,
corr(accel,mpg) =0.22.
Por tanto, y dado que las relaciones son lineales, la variable weight sera mejor predictor que la
variable accel en el sentido de que los errores que cometamos al predecir con la regresi on simple
tenderan a ser menores.
Aunque el coeciente de correlaci on sea facil de utilizar, vamos a emplear otro coeciente para
medir la bondad de ajuste de la recta de regresion simple. Este coeciente se denomina coeciente
de determinacion R
2
. El coeciente de determinaci on se dene como
R
2
= 1
P
n
i=1
e
2
i
P
n
i=1
(y
i
y)
2
. (2.5)
Este coeciente proporciona un valor entre 0 y 1 tal que cuanto mas estrecha sea la lnea de puntos
alrededor de la recta de regresi on mas proximo ser a su valor a 1. En este sentido es bastante similar
al coeciente de correlaci on. Se puede demostrar que
R
2
= corr(x, y)
2
.
Que utilidad tiene entonces utilizar R
2
en lugar de la correlaci on para medir la bondad del
ajuste del a regresion? En primer lugar, la utilidad sera evidente cuando en un captulo futuro
se construyan regresiones con mas de una variable explicativa, pues en ese caso habra varias
correlaciones en juego, una por variable explicativa, y dejar an de ser utiles para comparar modelos.
En segundo lugar esta la interpretaci on del coeciente R
2
. El termino
P
n
i=1
(y
i
y)
2
que aparece
en (2.5) cuantica la dispersi on que tienen las observaciones de y. Ademas, como los residuos
tienen media cero podemos escribir que
P
n
i=1
e
2
i
=
P
n
i=1
(e
i
e)
2
, por lo que el termino
P
n
i=1
e
2
i
cuantica la dispersion que tienen los residuos. Por tanto el coeciente de determinacion compara
la variabilidad inicial de los datos
P
n
i=1
(y
i
y)
2
con la que todava queda en los residuos,
P
n
i=1
e
2
i
tras extraer de los datos de y laparte que viene explicada por la relacion lineal con x. Cuanto
mas explicativa sea la regresi on menor sera
P
n
i=1
e
2
i
con respecto a
P
n
i=1
(y
i
y)
2
. Por tanto el
coeciente de determinaci on nos dice que proporcion de la dispersion de la variable
respuesta y viene explicada por la recta de la regresion. En el caso de las dos regresiones
que se proponen para explicar mpg se tiene que:
regresion de mpg con weight : R
2
= 68,73 %,
regresi on de mpg con accel : R
2
= 5,15 %.
Por tanto, el peso del vehculo es mejor predictor que la aceleraci on al explicar el 68.73 % de la
variabilidad de la variable mpg frente al 5.15 % que explica accel.
2.5.5. Transformaciones para mejorar la linealidad
Si x e y est an relacionadas de forma no lineal, la utilizacion de una regresi on lineal para
modelizar dicha relacion no sera adecuado. Sin embargo, en muchas ocasiones, es f acil transformar
las variables en otras x
e y
tales que entre ellas s exista una relaci on lineal y construir con
ellas una regresion lineal. Las Figuras 2.1 y 2.2 son un ejemplo de este tipo de variables. En este
caso la relacion entre x =Presi on e y =Temperatura no es lineal, y presenta cierta curvatura. Sin
embargo, la relaci on entre x
= log(Presion) e y =Temperatura s lo es. Lo que consigue esta

transformacion es, en cierta forma, enderezar la curva no lineal que siguen los datos. Este efecto
se puede conseguir de varias maneras. A continuacion vamos a presentar un porcedimiento basado
en transformaciones del tipo x
= x
c
donde c > 1 o c < 1 dependiendo del tipo de transformaci on
que necesiten los datos. Para explicar esta metodologa vamos a utilizar la Figura 2.3.
(a) (b) (c)
Figura 2.3: Transformaciones usando potencias para conseguir linealidad.
En la Figura 2.3 (a) tenemos dos variables que tienen claramente una relacion no lineal. La lnea
roja representara la curva que nos gustara utilizar para predecir y a partir de x. Lo que vamos a
hacer entonces es corregir esa curvatura. Con este n vamos a aplicar una transformacion a x tal
que los valores muy altos se reduzcan mucho y los valores mas bajos se reduzcan menos, tal y como
se ilustra en la Figura 2.3 (b). Esta compresion creciente a medida que aumenta x se consigue con
transformaciones del tipo x
c
con c < 1. El valor de c puede buscarse probando diferentes valores y
analizando los residuos. Hay que encontrar el valor justo de c. Un valor demasiado peque no podra
no ser suciente para corregir la no linealidad, y un valor demasiado alto pede provocar una no
linealidad con la curvatura en direcci on opuesta. La transformacion x
= log(x), que es la que se

ha usado en la Figura 2.2, tambien produce este tipo de compresi on creciente con x (obviamente si
x > 0). En este caso, el tipo de transformaci on que se obtiene puede interpretarse como equivalente
a la transformacion con c 0. De esta forma se subsana la discontinuidad que tiene este metodo
en c = 0, pues en ese caso se tendra que x
c
= 1 y la transformacion sera absurda.
Otra opcion para corregir la curvatura es manipulando y en lugar de x. En el caso del ejemplo
de la Figura 2.3, el gr aco muestra que para corregir la curvatura lo que hay que hacer es expandir
los valores de y de tal manera que los valores altos se expandan mucho m as que los bajos, tal
y como se ilustra en la Figura 2.3 (c). Este tipo de transformaciones se consigue usando c > 1.
Hay que tener cuiado con valores de c que sean pares pues si y tiene valores positivos y negativos,
la variable transformada carecera de sentido. Este tipo de transformaciones solo funcionara si los
datos tienen cierto rango de variabilidad, de forma que sea observable un comportamiento distinto
en los valores altos respecto a los bajos.
La Figura 2.4 muestra tres transformaciones diferentes realizadas sobre la variable x de la Figura
2.3 (a), as como los respectivos gr acos de residuos frente a valores previstos de las respectivas
regresiones de y con x
. Las Figuras 2.4 (a.1) y (a.2) utilizan la transformacion x
= x
0,9
. Esta
transformacion parece insuciente para corregir la no linealidad. Las Figuras 2.4 (b.1) y (b.2)
utilizan la transformacion x
= x
0,5
, que parece que resuelven el problema de la no linealidad. Las
Figuras 2.4 (c.1) y (c.2) utilizan la transformacion x
= x
0,1
que ya es excesiva, y por eso produce
de nuevo no linealidad.
(a.1) (b.1) (c.1)
(a.2) (b.2) (c.2)
Figura 2.4: Gracos xy con recta de regresi on (arriba) y gr aco de residuos frente a valores previstos (abajo). (a)
transformacion x
0,9
. (b) transformaci on x
0,5
. (c) transformaci on x
0,1
.
La Figura 2.5 muestra un esquema de cual debera ser la transformaci on que debe realizarse
sobre x (x
= x
c
) para conseguir corregir la no linealidad. La lnea punteada simboliza la curva
alrededor de la cu al se agruparan los datos sin transformar. Como debera ser la transformaci on
si decidimos hacerla sobre la variable y (y
= y
c
)?
Figura 2.5: Transformaciones que, en cada caso, pueden corregir la no linealidad.
Anexo: demostracion de la recta de mnimos cuadrados
Dado un conjunto de n observaciones bidimensionales (y
1
, x
1
), ..., (y
n
, x
n
), de las variables (y, x)
buscamos la recta de regresi on simple y = a + bx + e tal que se minimice la funci on de perdida
S(a, b) donde
S(a, b) =
n
X
i=1
e
2
i
=
n
X
i=1
[y
i
(a + bx
i
)]
2
.
A los valores de a y b que minimizan S(a, b) los denotaremos por a y

b. Por tanto, la primera
derivada se anulara en dichos valores, es decir
S
a
a= a
= 0,
S
b
b=
b
= 0,
de donde se obtiene que
S
a
a= a
= 2
n
X
i=1
y
i
a
bx
i
= 0, (2.6)
S
b
b=
b
= 2
n
X
i=1
y
i
a
bx
i
(x
i
) = 0. (2.7)
De estas equaciones resulta
n
X
i=1
y
i
= n a +
b
n
X
i=1
x
i
n
X
i=1
y
i
x
i
= a
n
X
i=1
x
i
+
b
n
X
i=1
x
2
i
de donde se obtiene que
a =
P
n
i=1
y
i
n

b
P
n
i=1
x
i
n
= y
b x,
b =
P
n
i=1
(y
i
y) (x
i
x)
P
n
i=1
(x
i
x)
2
=
cov(x, y)
s
2
x
.
Ademas de este resultado, de (2.6) puede escribirse que
n
X
i=1
y
i
h
a +
bx
i
i
=
n
X
i=1
(y
i
y
i
) =
n
X
i=1
e
i
= 0,
por lo que los residuos de la regresi on de mnimos cuadrados tienen media cero.

Apuntes Descriptiva Bivariante

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Descriptiva Bivariante

Cargado por

Copyright:

Formatos disponibles

Captulo 2

Estadstica descriptiva bivariante

bx que utiliza los valores (2.4) y (2.3) le denominaremos recta de regresi on

bx est a dise nada

= y b x = 2672,2 (67,774) 28,79 = 4623,4.

10 = 4623,4 + (67,774) 10 = 3945,7.

= log(Presion) e y =Temperatura s lo es. Lo que consigue esta

= log(x), que es la que se

. Las Figuras 2.4 (a.1) y (a.2) utilizan la transformacion x

También podría gustarte