Está en la página 1de 14

Cap tulo 1 Diagrama de dispersi on y Regresi on

1.1. Introducci on

Regresi on es el estudio de la dependencia. Se usa para responder preguntas como: la cantidad de estudiantes afecta el desempe no del sal on? es posible predecir la hora de erupci on de un geiser a partir de la duraci on de la erupci on anterior? un cambio en el h abito alimenticio puede provocar cambios en el nivel de colesterol? y este cambio depende de otras caracter sticas tales como la edad, g enero y cantidad de ejercicio? las ciudades con mayor ingreso per c apita tienen menores tasas de nacimiento en comparaci on a las ciudades con menor ingreso per c apita? El an alisis de regresi on es parte central de muchos proyectos de investigaci on. Este curso se enfoca al estudio de la regresi on lineal. Al igual que la mayor a de an alisis estad sticos, el objetivo del an alisis de regresi on es resumir la data observada la manera m as simple, elegante y u til posible. En muchos problemas la teor a puede indicar la forma en la que la variable respuesta var a frente a un cambio en las variables predictoras, en otros ser a necesario usar la data para descubrir este comportamiento. En cualquier caso, un primer paso en el an alisis de regresi on es construir gr acos apropiados para la data. En este cap tulo se presenta una herramienta gr aca para representar data en dos dimensiones conocida como el diagrama de dispersi on. En problemas de regresi on con un solo predictor y una sola variable respuesta el diagrama

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

de dispersi on es el punto de partida. En problemas con muchas variables predictoras se requiere de una matriz de dispersi on para organizar todos los diagramas de dispersi on necesarios de manera compacta.

1.2.

Diagrama de dispersi on

Considere un problema de regresi on con un solo predictor X y una variable respuesta Y . La data consiste de valores (xi , yi ) observados en n unidades o casos. En alg un problema particular las variables tendr an nombres como Temperatura y Presi on que son mucho m as descriptivos de la data que se va a analizar. El objetivo de la regresi on es determinar el comportamiento de Y frente a un cambio en X . Una primera mirada hacia este comportamiento se logra a trav es de un diagrama de dispersi on.

Herencia de la talla
Uno de los primeros usos del an alisis de regresi on tiene que ver con el estudio de la herencia de rasgos de generaci on en generaci on. Durante el periodo 18931898, Karl Pearson organiz o la data correspondiente a n = 1375 tallas de madres menores de 65 a nos en el Reino Unido con las tallas para una de sus hijas mayores de 18 a nos. Los datos se encuentran en el archivo Tallas.txt. El estudio se centra en la herencia de madre a la hija por lo que la variable predictora es la talla de la madre y la variable respuesta la talla de la hija. Son las madres altas las que tienden a tener hijas altas? son las madres bajas las que tienden a tener hijas tambi en bajas? Un diagrama de dispersi on puede ayudar a responder las preguntas anteriores ya que permite observar el tipo de relaci on que hay entre las variables bajo estudio. Se trata de un gr aco para los n puntos correspondientes a la data considerando la variable respuesta en el eje vertical y la variable predictora en el eje horizontal. Para problemas de regresi on se considera que un diagrama de dispersi on es un gr aco resumen. El diagrama de dispersi on se muestra en la Figura 1.1. Estas son algunas de las caracter sticas importantes a mencionar a partir del gr aco:

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

75

q q

q q q

70

q q

q q q q q q

q q q q

q q

q q q

q q q q q

q q

qq q

qq

q q q

q q q

q q q

q q q q q q q q q q q q q q q q q q

q qq q q q q q

q q q

q q q q

q q

q q q qq q q q q q

q q q q q q q q q q q q q q q q qq q q qqq q q q q q q q q q q q q qq q qq q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q qq q qqqq q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q qq q q q q qq q q qqq q q q q q q qq q q q q qq q q q q q q q qq q q q qq q qqq qq q q q qq q q q q q qq q q q q q q q q q qq q q q qq qq qq q q qq q q q q q q q q q qqqqq q q qq qq q q q qq q q q q qq q q q q q q q q q q q q q q q qq q q qq q q qq q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q qq q qq qq q q q q q q q q qqqq qq qq q q q q q q q q qq qq qq qq q q q q q q q qq q q q qq q q qq q q q q q q qq q q q q qq q q q qq qq q q qq q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q q qq q q qq q qqq qq q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q qq q qq q qqq q q q qq q q q q q q q qqqqq q qq q qq q q qq q q q q qqq qq q q qqq q qqq q qqq q q q q q q q q q q qq q qqqq q q qqq q qq q q q q q qq q q q qq q q q q q q q q q qq qq qq q qq q qqq q q q qq q q q q q q qqq qq q qq qq q q q qq q qq q q q qq q q q q q q q q q q q qq q q q q q qq q qqq q q q q q q q q q qqq q q q q q q q q qqqqq qq q qq qq q q q q q q q q qq q q qq q q q q q q q q q q q qq q qq qqq q q q q q q q q q q q q qq q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q qq q qq q qq q qqq q q q q q q q q qq q q qq qqq qq q q q q q q q q q qq qq q q q q qq qq q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q qq q qq q qqq q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q qq qqq q q q q q q q qq qq qq q q qq q q q q q q q q q qqq q q q q q q q q q q q q qq q q q qqqq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q qq q qq qq q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qqq q qq q q q q q q q q q q q q q q

q q

HTalla

q q

65

q q

60

q q

55

55

60

65 MTalla

70

75

Figura 1.1: Diagrama de dispersi on para la data Tallas.txt 1. El rango para las tallas es el mismo tanto para madres como para hijas. Debido a esto el gr aco tiene la misma escala tanto en el eje horizontal como vertical. Algunos programas de computadora no son lo sucientemente inteligentes como para determinar la mejor escala de los ejes por lo que debe recongurarse de forma manual. 2. La data original presenta muchos puntos en la misma ubicaci on lo cual impide saber si un punto representa uno o m as casos. Una alternativa de soluci on es usar jittering que consiste en agregar un n umero aleatorio a cada valor. En la Figura 1.1 se us o un n umero aleatorio con distribuci on uniforme en el intervalo que va desde 0.5 hasta 0.5 y luego se aplic o un redondeo hacia los valores que se encuentran en la data.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

3. La Figura 1.2 solo considera los puntos correspondientes a las tallas de las madres cercanas a 58, 64 o 68 pulgadas obteniendose tres bandas, cada una con diferente cantidad de puntos. Se observa que (a) la talla media de las hijas se incrementa de izquierda a derecha y (b) la variabilidad vertical parece presentar algunas diferencias. 4. La dispersi on de los puntos en el gr aco tiene forma aproximadamente el ptica con eje inclinado hacia arriba. Tal como se ver a en la secci on 4.3 un diagrama de dispersi on con esta forma sugiere el uso de una regresi on lineal simple que ser a discutida en el Cap tulo 2. 5. Los diagramas de dispersi on son importantes pues permiten identicar puntos separados que son aquellos valores en el eje horizontal que se encuentran separados de los otros puntos o valores en el eje vertical que son muy grandes o muy peque nos. En este ejemplo se trata de puntos que corresponden a madres muy altas o muy bajas y alternativamente, hijas que son muy altas o muy bajas para una talla espec ca de la madre. Los puntos separados tienen diferente nombre en un problema de regresi on. Los valores extremos hacia el lado derecho o izquierdo del eje horizontal son puntos posiblemente inuyentes en el proceso de estimaci on de los modelos de regresi on y son llamados puntos leverage. Los valores separados sobre el eje vertical son puntos potencialmente outliers, casos que son de alguna manera diferentes del resto de la data.

La data Forbes
En un art culo de 1857, un f sico escoc es llamado James D. Forbes discuti o una serie de experimentos realizados para estudiar la relaci on entre la presi on atmosf erica y el punto de ebullici on del agua. Forbes sab a que la altitud pod a ser determinada a partir de la presi on atmosf erica medida con un bar ometro, que a mediados del siglo 19 se consideraba un instrumento fr agil, y se pregunt o si una simple medici on del punto de ebullici on del agua podr a sustituir la medici on obtenida a partir de un bar ometro. Forbes recolect o su data en los Alpes y en Escocia midiendo la presi on en pulgadas de mercurio con un bar ometro y el punto de ebullici on en grados Fahrenheit usando un term ometro. La data para las n = 17 localizaciones se encuentran en el conjunto de datos Forbes.txt.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

75

70

q q q q q q

qq q

q q q q

q q q

HTalla

q q

65

q qq q q q qq q q q q qqqq q qq q q q q q q q q qqq q q q q qq q q q qqqqq q qq q q

qq q

q q

q q q q q

qq q q q q qq q qq qqq qq q qq q q q q q q qq q q q q q qqq qq q q q q q qq q qq q qqq q qq q qq q qq q q qq q q qq q q q q q q q qq q q q q q q q q q qqq q q qq qq q q q q qq q q q q q qq q q q q q q q q q qq q

q q

q q q

q q q

q q

q q q

60

q q q q

q q

q q

55 55

60

65 MTalla

70

75

Figura 1.2: Diagrama de dispersi on para las tallas 58, 64 o 68 pulgadas El diagrama de dispersi on de Presi on versus Temperatura se muestra en la Figura 1.3(a). La apariencia general de este gr aco es diferente del gr aco correspondiente al ejemplo anterior. Primero, hay una diferencia importante con respecto al n umero de casos y segundo, casi todos los puntos se encuentran sobre la l nea mostrada en el gr aco lo cual sugiere que la media de la presi on dada la temperatura puede modelarse usando una recta. Observando detalladamente el gr aco se puede observar un peque no error sistem atico en la recta: sin considerar el valor alejado, los puntos en la parte central del gr aco se encuentran debajo de la recta y los puntos en los extremos se encuentran sobre la recta. Lo anterior es f acil de observar en la Figura 1.3(b) cuyos valores son obtenidos quitando a los puntos la tendencia

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION lineal de la Figura 1.3(a) seg un: Residual = P resio n punto en la recta

30

28

q q q q

Residuales

Presion

26

0.6

q q

0.2

q q q q q q q qq q q q q q q q

24

22

q q

195

200

205

210

0.2 195

q q

q q

q q q q

200

205

210

Temperatura (a)

Temperatura (b)

q q

1.45

q q q

log(Presion)

q q q q q q q q q q q

Residuales

1.40

0.000

1.35

0.010

q q

q qq q q q q q

q q q q

q q

195

200

205

210

195

200

205

210

Temperatura (c)

Temperatura (d)

Figura 1.3: Data Forbes.txt La operaci on anterior permite ganar resoluci on en el gr aco ya que el rango del eje vertical de la Figura 1.3(a) es aproximadamente 10 pulgadas de mercurio mientras que el rango correspondiente en la Figura 1.3(b) es aproximadamente 0.8 pulgadas de mercurio. Para obtener la misma resoluci on se necesitar a un gr aco 10/0.8 = 12.5 veces tan grande como el segundo. Sin tomar en cuenta el punto alejado, la Figura 1.3(b) permite observar f acilmente la curvatura en el resto de puntos. Mientras no exista nada extra no con la curvatura los m etodos a estudiar en el curso funcionan de maner adecuada. En muchos casos puede obtenerse

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

la tendencia lineal transformando una o ambas variables. Forbes sugiri o que log(Presi on ) se encuentra relacionada de forma lineal con la Temperatura. El resultado se observa en la Figura 1.3(c) donde se us o el logaritmo en base 10. La elecci on de la base no tiene efecto importante sobre la apariencia del gr aco o sobre el modelo de regresi on estimado pero s sobre la interpretaci on de los par ametros obteni endose mayor simplicidad con la base 2. La principal caracter stica de la Figura 1.3(c) es que, a excepci on de un punto, el resto se encuentra bastante cerca de la recta. El gr aco de residuales en la Figura 1.3(d) conrma que las desviaciones observadas a partir de la recta no son sistem aticas tal como se observ o en la Figura 1.3(b). Lo anterior evidencia que la recta resume de forma apropiada esta data.

1.3.

Funci on media

Suponga un gr aco de resumen de Y versus X . Se desea estudiar el cambio en la distribuci on de Y cuando X varia. Un aspecto importante de esta distribuci on es la funci on media que se dene por: E(Y |X = x) = una funci on que depende del valor de x (1.3.1)

lo cual se lee como el valor esperado de la variable respuesta cuando el predictor toma el valor X = x. Por ejemplo, para la data Tallas se asume que: E(HT alla|M T alla = x) = 0 + 1 x (1.3.2) es decir, que la funci on media es una recta con dos par ametros, un intercepto 0 y una pendiente 1 . Cuando se conocen los valores de los par ametros la funci on media se encuentra completamente especicada, sin embargo en la mayor a de los casos sus valores deben ser estimados a partir de la data. La Figura 1.4 muestra dos alternativas para la funci on media 1.3.2 con la data Tallas. La l nea punteada corresponde a la recta con 0 = 0 y 1 = 1. Esta funci on media sugiere que las hijas tienen en promedio la misma talla de sus madres. La segunda recta es estimada usando el m etodo de m nimos cuadrados ordinarios discutido en el siguiente cap tulo. La recta por m nimos cuadrados ordinarios tiene pendiente menor que uno lo cual indica que las madres altas tienden a tener hijas que son m as altas que el promedio, ya que la pendiente es positiva, pero m as bajas que sus madres. De manera similar, las madres bajas tienden a tener hijas bajas

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

pero m as altas que ellas. Esto es quiz as un resultado sorprendente y adem as el origen del t ermino regresi on, ya que los valores extremos en una generaci on tienden a revertir o regresionar hacia la media poblacional en la siguiente generaci on.

75

q q

q q q

70

q q

q q q q q q

q q q q

q q

q q q

q q q q q

q q

qq q

qq

q q q

q q q

q q q

q q q q q q q q q q q q q q q q q q

q qq q q q q q

q q q

q q q q

q q

q q q qq q q q q q

q q q q q q q q q q q q q q q q qq q q qqq q q q q q q q q q q q q qq q qq q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q qq q qqqq q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q qq q q q q qq q q qqq q q q q q q qq q q q q qq q q q q q q q qq q q q qq q qqq qq q q q qq q q q q q qq q q q q q q q q q qq q q q qq qq qq q q qq q q q q q q q q q qqqqq q q qq qq q q q qq q q q q qq q q q q q q q q q q q q q q q qq q q qq q q qq q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q qq q qq qq q q q q q q q q qqqq qq qq q q q q q q q q qq qq qq qq q q q q q q q qq q q q qq q q qq q q q q q q qq q q q q qq q q q qq qq q q qq q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q q qq q q qq q qqq qq q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q qq q qq q qqq q q q qq q q q q q q q qqqqq q qq q qq q q qq q q q q qqq qq q q qqq q qqq q qqq q q q q q q q q q q qq q qqqq q q qqq q qq q q q q q qq q q q qq q q q q q q q q q qq qq qq q qq q qqq q q q qq q q q q q q qqq qq q qq qq q q q qq q qq q q q qq q q q q q q q q q q q qq q q q q q qq q qqq q q q q q q q q q qqq q q q q q q q q qqqqq qq q qq qq q q q q q q q q qq q q qq q q q q q q q q q q q qq q qq qqq q q q q q q q q q q q q qq q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q qq q qq q qq q qqq q q q q q q q q qq q q qq qqq qq q q q q q q q q q qq qq q q q q qq qq q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q qq q qq q qqq q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q qq qqq q q q q q q q qq qq qq q q qq q q q q q q q q q qqq q q q q q q q q q q q q qq q q q qqqq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q qq q qq qq q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qqq q qq q q q q q q q q q q q q q q

q q

HTalla

q q

65

q q

60

q q

55

55

60

65 MTalla

70

75

Figura 1.4: Data Tallas.txt

1.4.

Funci on variancia

Otra caracter stica en la distribuci on de la variable respuesta es la funci on variancia denida por Var(Y |X = x) que se lee como la varianza de Y dado que el predictor toma el valor X = x. Por ejemplo, la Figura 1.2 muestra que la funci on variancia presenta algunas diferencias para las tallas consideradas.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

Un supuesto usado frecuentemente en la estimaci on de los modelos de regresi on es que la funci on variancia es la misma para cada valor de x, es decir: Var(Y |X = x) = 2 (1.4.1) donde 2 es una constante positiva cuyo valor es, por lo general, desconocido.

1.5.

Gr acos de resumen

En los ejemplos anteriores existe una clara dependencia entre la variable respuesta y el predictor observada a trav es de un diagrama de dispersi on. Un an alisis de los gr acos de resumen es el primer paso en el estudio de las relaciones de dependencia. Anscombe (1973) proporcion o una data articial que permite obtener rectas con el mismo intercepto y pendiente a un cuando la impresi on visual de cada gr aco sea completamente diferente. El gr aco en la Figura 1.5(a) permite observar que resulta apropiado usar un modelo de regresi on lineal simple. El gr aco en la Figura 1.5(b) sugiere que el modelo anterior es inapropiado y que quiz as un polinomio cuadr atico ser a una mejor alternativa. En la Figura 1.5(c) se observa que una regresi on lineal simple es apropiada para toda la data salvo para uno de los puntos que se encuentra bastante alejado de la recta estimada, lo que se conoce como el problema outlier. El conjunto nal en la Figura 1.5(d) es diferente de los anteriores ya que no existe suciente informaci on para realizar un juicio sobre la funci on media.

1.6.

Herramientas para observar un diagrama de dispersi on

Debido a que los diagramas de dispersi on son herramientas importantes en el an alisis de los modelos de regresi on es necesario considerar algunas caracter sticas que permitan describir y extraer la mayor cantidad de informaci on que estos contienen.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

10

12

q q q q q

q q q

10

q q q q

y1

5
q

q q

6
q

4
q

10 x1 (a)

12

14

y2

10 x1 (b)

12

14

10 12 14

10 12 14

y3

y4

10

12

14

q q q q q q q q q q

10

14 x2 (d)

18

x1 (c)

Figura 1.5: Data Anscombe.txt Un gr aco de resumen se construye para una variable respuesta Y versus el predictor X . La funci on media para el gr aco se dene por 1.3.1 y describe como se comporta Y cuando cambia el valor de X . Es posible usar un modelo param etrico para la funci on media y luego estimar sus par ametros con la data. La funci on variancia tambi en caracteriza el gr aco y se asume en muchos casos que su valor es constante. Un diagrama de dispersi on tambi en permite detectar puntos separados que podr an ser de inter es especial ya que no siguen la tendencia denida por la mayor a de puntos. Un gr aco nulo tiene funci on media y variancia constante y no presenta puntos separados.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

11

1.6.1.

Tama no

Para extraer toda la informaci on disponible en un diagrama de dispersi on es necesario interactuar con el gr aco cambiando o redeniendo las escalas para poder observar la tendencia presente en los datos.

1.6.2.

Transformaciones

En muchos problemas pueden transformarse tanto X como Y para obtener una tendencia lineal en los valores transformados. Por lo general se usan las transformaciones potencia que reemplazan X por X . La transformaci on logaritmica se obtiene cuando = 0. En este curso se usa el logaritmo en base 2 para las transformaciones, sin embargo podr a usarse cualquier otra base de forma equivalente.

1.6.3.

Suavizadores para la funci on media

Un suavizador no param etrico simple puede obtenerse promediando las observaciones repetidas de Y para cada valor de X . Si no se tienen observaciones repetidas se pueden promediar aquellas observaciones que se encuentren cerca de x. Los suavizadores en el curso servir an para identicar la tendencia en un diagrama de dispersi on. Por ejemplo, la Figura 1.6 muestra la recta estimada por m nimos cuadrados ordinarios y la estimaci on usando el suavizador loess (Cleveland, 1979). La estimaci on por loess para E(Y |X = x) en el punto x se obtiene estimando una recta para una fracci on de los puntos cerca de el. El suavizador loess y la recta estimada por m nimos cuadrados ordinarios son muy parecidas pero muestran algunas diferencias en los extremos donde no se tienen muchos datos.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

12

q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

70

65

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

q q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

60

q q q q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

HTalla

55

55

60 MTalla

65

70

Figura 1.6: Data Tallas.txt con el suavizador loess

1.7.

Matrices de dispersi on

En problemas de regresi on con muchos predictores se requiere construir un diagrama de dispersi on para Y y cada X . Una forma efectiva de organizar estos gr acos se logra a trav es del uso de una matriz de dispersi on.

Consumo de gasolina
El objetivo de este ejemplo es estudiar el comportamiento para el consumo de gasolina en los estados de USA y entender el efecto que tienen los impuestos en cada estado sobre dicho comportamiento. La Tabla 1.1 describe

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

13

las variables usadas en el archivo Gasolina2001.txt. La data fue colectada por la administraci on federal de carreteras en USA. Las variables Licencias y Combustible son los totales por estado por lo que tomaran valores altos en aquellos con m as gente y valores peque nos en estados menos poblados. Para hacer estas cantidades comparables e intentar eliminar el efecto del tama no del estado se calculan las razones TasaComb = Combustible /Poblaci on y TasaLic = Licencias/Poblaci on. Adicionalmente se reemplaza Millas por su logaritmo en base 2. Tabla 1.1: Variables en la data Gasolina2001.txt Licencias Combustible Ingreso Millas Poblaci on Impuesto Estado TasaComb TasaLic log(Millas) N umero de licencias de conducir en el estado Gasolina vendida para uso en carretera (en miles de galones) Ingreso por persona para el a no 2000 (en miles de d olares) Millas de carreteras federales en el estado Poblaci on en el 2001 de 16 o m as Tasa de impuesto a la gasolina (en centavos por gal on) Nombre del estado 1000Combustible /Poblaci on 1000Licencias /Poblaci on logaritmo en base 2 de Millas

La matriz de dispersi on se muestra en la Figura 1.7. Excepto por la diagonal se trata de un arreglo bidimensional de diagramas de dispersi on. La variable logMillas aparece sobre el eje horizontal para todos los gr acos de la quinta la desde la izquierda y sobre el eje vertical de todos los gr acos en la quinta columna desde arriba. Cada gr aco en una matriz de dispersi on es relevante para la regresi on de la variable del eje vertical dada la variable en el eje horizontal. Por ejemplo, el gr aco de TasaComb versus Impuesto es relevante para la regresi on entre estas variables. Se puede observar que TasaComb decrece con respecto al promedio conforme el Impuesto aumenta pero existe mucha dispersi on. De esta forma se pueden establecer las relaciones que tiene TasaComb con las otras variables predictoras.

Y REGRESION CAP ITULO 1. DIAGRAMA DE DISPERSION

14

10
q q

20
q

25 30 35 40
q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q qq qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq qq q q q q q qq q qq q q q q q q qq q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q qq q q q q q q

q q

q q q q q q qq qq q q q qq q q q qq q q q q q q q qq q q q q qq q qq q q q qq q q q q q q q q q q q q q q q q

q q q

20

q q q

Impuesto
q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q qq qqq q q q q qq q qq q q q q q q q q q q qq q q q

10

q qq q qq qq q qq q q qq q qq q q q q qq q q q q q q qq q q q qq q q q q q q q q q

25 30 35 40

q q q q q q q q

q q q q q qq q q

q q q q

q q q q qq q qq q q q qq q q q q q q q q q q q qq q q qq q q q q qq qq q q q

q q q qq q qq q q qq q q q q q q q q qq q q q q q q q q qq qq q qq q q q q q q q q q q qq qq q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q qq q q q q q

q q q

q q qq q q q q q q q q q qq q q q q q q q q qq q q q qq q q q q q q qq q q qq q q q q q q q q q q qq q q q qq qq q q q q q q q qq qq q q q q q q q q q q q q q q q q q

q q qq q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q qq q

Ingreso

q q q

q q q q

q q q qq q q q q qq qq qq q q qq q q q qq q q q q q q qq q qq q qq q q q qq qq q q qq q q qq q qq qqq q q q q q q q q q q q q qq q q qq q qq qq q q q q q q q q q q q qq q

logMillas

300

500

700

700

900

12 14 16 18

Figura 1.7: Matriz de dispersi on para la data Gasolina2001.txt El gr aco anterior ayuda a entender como TasaComb se encuentra relacionada de forma simult anea con las cuatro variables predictivas? Las relaciones marginales entre la variable respuesta y cada una de las predictoras no son sucientes para comprender la relaci on conjunta de la variable respuesta y los predictores. Las relaciones que presentan las variables predictoras entre s tambi en son importantes y pueden observarse en la matriz de dispersi on. En la Figura 1.7 se observa que estas relaciones son bastante fuertes lo cual sugiere que los gr acos marginales que incluyen TasaComb son poco informativos acerca del problema de regresi on m ultiple. Se mencionan algunas consideraciones adicionales sobre la matriz de dispersi on en los cap tulos posteriores.

12 14 16 18

700

q q q q q q q qq q q q q qq q q qq qq q q q q q qq q q q q q q qq qq q q q q q

q q q

TasaLic

q q qq q q q q q q q q q q qq q q q qq q qq qq q q qq q q qq q qq q q q q q q q

900

300

500

TasaComb

q q q q q qq q q qq q qq q q q q q q qq qq q q q q q q q q q q q q q q qq q

q q q q q q q q q q q q q q q qqq q q qq q q qq q q qq qq q q q q q q qq qq qq q qq q qq q q q q q q qq q qq qq q qq q q qq q q q q q q q q qq q q q qq q q q q q q q q q q q q q q

700