Está en la página 1de 6

Para hacer regresin lineal,

grafique!

Esquema para recordar algunos puntos expuestos por Florentino Menndez en la mesa redonda sobre regresin lineal mltiple, junio 2002. Ctedra de Metodologa de la Investigacin III Departamento de Sociologa - Universidad de la Repblica - Uruguay

Hay razones de todo tipo que aconsejan graficar a la hora de hacer regresin lineal simple.

Relaciones curvilneas. La primer razn por la cual no se puede calcular la r de Pearson y los coeficientes de regresin sin graficar primero, es que la relacin entre x e y puede ser curvilnea. En la grfica que sigue, se ve una relacin perfecta entre x e y. Es perfecta porque conociendo x podemos saber el valor exacto que tomar y. Sin embargo, si hubisemos calculado irreflexivamente r2, nos hubiese dado, tal cual se ve, 0.02, y quizs habramos pensado que no haba asociacin. Para evitarse este problema, grafique!

60

50

40

30

20

10

0 12 14 16 18 20 22 24 26 28

Rsq = 0,0244

X1

Datos errneos. En el ejemplo que sigue se muestran los daos que puede causar un dato entrado errneamente y no depurado. Aqu se entr un valor x sin la coma correspondiente. Como se ver, un r2 de Pearson que deba ser muy alto, qued en 0.04 y la pendiente no ajusta bien con los datos correctamente entrados.
90

80

70

60

Comprensin lectora

50

40

30 Rsq = 0,0384 0 100 200 300 400

20

Meses de aprendizaje de idioma extranjero

La graficacin ayuda a detectar errores. Por tanto, para depurar, grafique!

Casos desviantes En ocasiones hay casos que se apartan fuertemente de lo esperable. En nuestro caso, la hipottica Villa Dud muestra muchos ms jvenes aprendiendo computacin de lo que esperaramos. Esto nos lleva a preguntarnos qu pasa all? Estudiando Villa Dud quizs localicemos nuevas variables que inciden sobre la variable dependiente. Quizs all se haya instalado una empresa que exporta software.

% de jvenes tomando clases de computacin

90 Villa Dudu 80

70

60

50

40

30

20 10 20 30 40 50

tamao de la localidad

Para detectar casos desviantes, vuelva

a graficar!

Puntos influyentes. Los outliers en el eje de las x, tienen un muy fuerte impacto sobre la recta de regresin. Veamos el siguiente ejemplo:
40

Pas 108 30

20

Tasa de delincuencia

10

0 0 10 20 30 40

Rsq = 0,8076

Crecimiento econmico

Estamos estudiando la relacin entre crecimiento econmico y tasas de delincuencia. Sucede que un pas hipottico, que hemos identificado como Pas 108, parece tener una fortsima influencia sobre r2 y sobre la recta de regresin. Para saber que tanto pesa, graficamos sin el punto influyente.

12 11

10 9

Tasa de delincuencia

7 6

5 4 4 5 6 7 8 9 10 Rsq = 0,0072

Crecimiento econmico

Segn puede verse, al retirar del anlisis el Pas 108, cambi radicalmente la pendiente de la recta de regresin y r2. El punto que pareca ser influyente, lo era! Dar por buenos sin mayor reflexin el r2 y los coeficientes de regresin de la primera grfica sin advertir que dependen de un solo punto, es sacar conclusiones aventuradas. Enfrentados a una situacin de este tipo, debemos ser concientes de ella, y elegir reflexivamente como proceder. Para detectar los puntos influyentes... ya sabe lo que tiene que hacer!

Homocedasticidad y heterocedasticidad. Homocedasticidad significa que la dispersin alrededor de la recta de regresin es igual para los diversos valores de x. Los valores observados tienden a caer en una zona que podramos definir por dos paralelas a la recta de regresin. Heterocedasticidad implica no homocedasticidad. En el caso que veremos, la dispersin en la grfica con heterocedasticiad, aumentar conforme aumentan los valores de x. Los puntos quedan con lmites en forma de cono ms estrecho abajo y ms abierto arriba.

Caso de homocedasticidad
17 16 15 14 13 12 11

10 4 5 6 7 8 9 10

X1
Los puntos tienen aproximadamente igual dispersin en todo el recorrido.

Caso de heterocedasticidad
17 16 15 14 13 12 11

10 4 5 6 7 8 9 10

X1
Ntese que los puntos se van abriendo, como en embudo. Conforme aumenta x, aumenta la dispersin.

En resumen: Si Ud. desea correr una regresin lineal entre x e y, antes de correrla, grafique. Ello le permitir detectar: Relaciones curvilneas Datos errneos Casos desviantes Puntos influyentes Heterocedasticidad. Por tanto,

primero grafique y luego piense!

También podría gustarte