Está en la página 1de 6

Para hacer regresin lineal,

grafique!

Esquema para recordar algunos puntos expuestos por Florentino Menndez en la mesa redonda sobre
regresin lineal mltiple, junio 2002. Ctedra de Metodologa de la Investigacin III
Departamento de Sociologa - Universidad de la Repblica - Uruguay

Hay razones de todo tipo que aconsejan graficar a la hora de hacer regresin lineal
simple.

Relaciones curvilneas.
La primer razn por la cual no se puede calcular la r de Pearson y los coeficientes de
regresin sin graficar primero, es que la relacin entre x e y puede ser curvilnea.
En la grfica que sigue, se ve una relacin perfecta entre x e y. Es perfecta porque
conociendo x podemos saber el valor exacto que tomar y. Sin embargo, si hubisemos
calculado irreflexivamente r2, nos hubiese dado, tal cual se ve, 0.02, y quizs habramos
pensado que no haba asociacin.
Para evitarse este problema, grafique!

60

50

40

30

20

10

Rsq = 0,0244

12

X1

14

16

18

20

22

24

26

28

Datos errneos.
En el ejemplo que sigue se muestran los daos que puede causar un dato entrado
errneamente y no depurado. Aqu se entr un valor x sin la coma correspondiente.
Como se ver, un r2 de Pearson que deba ser muy alto, qued en 0.04 y la pendiente no
ajusta bien con los datos correctamente entrados.
90

80

70

Comprensin lectora

60

50

40

30
Rsq = 0,0384

20
0

100

200

300

400

Meses de aprendizaje de idioma extranjero

La graficacin ayuda a detectar errores. Por tanto, para depurar, grafique!

Casos desviantes

% de jvenes tomando clases de computacin

En ocasiones hay casos que se apartan fuertemente de lo esperable. En nuestro caso, la


hipottica Villa Dud muestra muchos ms jvenes aprendiendo computacin de lo que
esperaramos. Esto nos lleva a preguntarnos qu pasa all? Estudiando Villa Dud
quizs localicemos nuevas variables que inciden sobre la variable dependiente. Quizs
all se haya instalado una empresa que exporta software.

90
Villa Dudu
80

70

60

50

40

30

20
10

20

30

40

tamao de la localidad

Para detectar casos desviantes, vuelva

a graficar!

50

Puntos influyentes.
Los outliers en el eje de las x, tienen un muy fuerte impacto sobre la recta de regresin.
Veamos el siguiente ejemplo:
40

Pas 108
30

Tasa de delincuencia

20

10

Rsq = 0,8076
0

10

20

30

40

Crecimiento econmico

Estamos estudiando la relacin entre crecimiento econmico y tasas de delincuencia.


Sucede que un pas hipottico, que hemos identificado como Pas 108, parece tener una
fortsima influencia sobre r2 y sobre la recta de regresin. Para saber que tanto pesa,
graficamos sin el punto influyente.

12
11

10
9

Tasa de delincuencia

7
6

5
4

Rsq = 0,0072
4

Crecimiento econmico

10

Segn puede verse, al retirar del anlisis el Pas 108, cambi radicalmente la pendiente
de la recta de regresin y r2. El punto que pareca ser influyente, lo era!
Dar por buenos sin mayor reflexin el r2 y los coeficientes de regresin de la primera
grfica sin advertir que dependen de un solo punto, es sacar conclusiones aventuradas.
Enfrentados a una situacin de este tipo, debemos ser concientes de ella, y elegir
reflexivamente como proceder.
Para detectar los puntos influyentes... ya sabe lo que tiene que hacer!

Homocedasticidad y heterocedasticidad.
Homocedasticidad significa que la dispersin alrededor de la recta de regresin es igual
para los diversos valores de x. Los valores observados tienden a caer en una zona que
podramos definir por dos paralelas a la recta de regresin.
Heterocedasticidad implica no homocedasticidad. En el caso que veremos, la dispersin
en la grfica con heterocedasticiad, aumentar conforme aumentan los valores de x.
Los puntos quedan con lmites en forma de cono ms estrecho abajo y ms abierto
arriba.

Caso de homocedasticidad
17
16
15
14
13
12

11
10
4

X1
Los puntos tienen aproximadamente igual dispersin en todo el recorrido.

10

Caso de heterocedasticidad
17
16
15
14
13
12

11
10
4

10

X1
Ntese que los puntos se van abriendo, como en embudo.
Conforme aumenta x, aumenta la dispersin.

En resumen:
Si Ud. desea correr una regresin lineal entre x e y, antes de correrla, grafique. Ello le
permitir detectar:
Relaciones curvilneas
Datos errneos
Casos desviantes
Puntos influyentes
Heterocedasticidad.
Por tanto,

primero grafique y luego piense!

También podría gustarte