Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Coco 1
Coco 1
grafique!
Esquema para recordar algunos puntos expuestos por Florentino Menndez en la mesa redonda sobre
regresin lineal mltiple, junio 2002. Ctedra de Metodologa de la Investigacin III
Departamento de Sociologa - Universidad de la Repblica - Uruguay
Hay razones de todo tipo que aconsejan graficar a la hora de hacer regresin lineal
simple.
Relaciones curvilneas.
La primer razn por la cual no se puede calcular la r de Pearson y los coeficientes de
regresin sin graficar primero, es que la relacin entre x e y puede ser curvilnea.
En la grfica que sigue, se ve una relacin perfecta entre x e y. Es perfecta porque
conociendo x podemos saber el valor exacto que tomar y. Sin embargo, si hubisemos
calculado irreflexivamente r2, nos hubiese dado, tal cual se ve, 0.02, y quizs habramos
pensado que no haba asociacin.
Para evitarse este problema, grafique!
60
50
40
30
20
10
Rsq = 0,0244
12
X1
14
16
18
20
22
24
26
28
Datos errneos.
En el ejemplo que sigue se muestran los daos que puede causar un dato entrado
errneamente y no depurado. Aqu se entr un valor x sin la coma correspondiente.
Como se ver, un r2 de Pearson que deba ser muy alto, qued en 0.04 y la pendiente no
ajusta bien con los datos correctamente entrados.
90
80
70
Comprensin lectora
60
50
40
30
Rsq = 0,0384
20
0
100
200
300
400
Casos desviantes
90
Villa Dudu
80
70
60
50
40
30
20
10
20
30
40
tamao de la localidad
a graficar!
50
Puntos influyentes.
Los outliers en el eje de las x, tienen un muy fuerte impacto sobre la recta de regresin.
Veamos el siguiente ejemplo:
40
Pas 108
30
Tasa de delincuencia
20
10
Rsq = 0,8076
0
10
20
30
40
Crecimiento econmico
12
11
10
9
Tasa de delincuencia
7
6
5
4
Rsq = 0,0072
4
Crecimiento econmico
10
Segn puede verse, al retirar del anlisis el Pas 108, cambi radicalmente la pendiente
de la recta de regresin y r2. El punto que pareca ser influyente, lo era!
Dar por buenos sin mayor reflexin el r2 y los coeficientes de regresin de la primera
grfica sin advertir que dependen de un solo punto, es sacar conclusiones aventuradas.
Enfrentados a una situacin de este tipo, debemos ser concientes de ella, y elegir
reflexivamente como proceder.
Para detectar los puntos influyentes... ya sabe lo que tiene que hacer!
Homocedasticidad y heterocedasticidad.
Homocedasticidad significa que la dispersin alrededor de la recta de regresin es igual
para los diversos valores de x. Los valores observados tienden a caer en una zona que
podramos definir por dos paralelas a la recta de regresin.
Heterocedasticidad implica no homocedasticidad. En el caso que veremos, la dispersin
en la grfica con heterocedasticiad, aumentar conforme aumentan los valores de x.
Los puntos quedan con lmites en forma de cono ms estrecho abajo y ms abierto
arriba.
Caso de homocedasticidad
17
16
15
14
13
12
11
10
4
X1
Los puntos tienen aproximadamente igual dispersin en todo el recorrido.
10
Caso de heterocedasticidad
17
16
15
14
13
12
11
10
4
10
X1
Ntese que los puntos se van abriendo, como en embudo.
Conforme aumenta x, aumenta la dispersin.
En resumen:
Si Ud. desea correr una regresin lineal entre x e y, antes de correrla, grafique. Ello le
permitir detectar:
Relaciones curvilneas
Datos errneos
Casos desviantes
Puntos influyentes
Heterocedasticidad.
Por tanto,