Documentos de Académico
Documentos de Profesional
Documentos de Cultura
grafique!
Esquema para recordar algunos puntos expuestos por Florentino Menndez en la mesa redonda sobre regresin lineal mltiple, junio 2002. Ctedra de Metodologa de la Investigacin III Departamento de Sociologa - Universidad de la Repblica - Uruguay
Hay razones de todo tipo que aconsejan graficar a la hora de hacer regresin lineal simple.
Relaciones curvilneas. La primer razn por la cual no se puede calcular la r de Pearson y los coeficientes de regresin sin graficar primero, es que la relacin entre x e y puede ser curvilnea. En la grfica que sigue, se ve una relacin perfecta entre x e y. Es perfecta porque conociendo x podemos saber el valor exacto que tomar y. Sin embargo, si hubisemos calculado irreflexivamente r2, nos hubiese dado, tal cual se ve, 0.02, y quizs habramos pensado que no haba asociacin. Para evitarse este problema, grafique!
60
50
40
30
20
10
0 12 14 16 18 20 22 24 26 28
Rsq = 0,0244
X1
Datos errneos. En el ejemplo que sigue se muestran los daos que puede causar un dato entrado errneamente y no depurado. Aqu se entr un valor x sin la coma correspondiente. Como se ver, un r2 de Pearson que deba ser muy alto, qued en 0.04 y la pendiente no ajusta bien con los datos correctamente entrados.
90
80
70
60
Comprensin lectora
50
40
20
Casos desviantes En ocasiones hay casos que se apartan fuertemente de lo esperable. En nuestro caso, la hipottica Villa Dud muestra muchos ms jvenes aprendiendo computacin de lo que esperaramos. Esto nos lleva a preguntarnos qu pasa all? Estudiando Villa Dud quizs localicemos nuevas variables que inciden sobre la variable dependiente. Quizs all se haya instalado una empresa que exporta software.
90 Villa Dudu 80
70
60
50
40
30
20 10 20 30 40 50
tamao de la localidad
a graficar!
Puntos influyentes. Los outliers en el eje de las x, tienen un muy fuerte impacto sobre la recta de regresin. Veamos el siguiente ejemplo:
40
Pas 108 30
20
Tasa de delincuencia
10
0 0 10 20 30 40
Rsq = 0,8076
Crecimiento econmico
Estamos estudiando la relacin entre crecimiento econmico y tasas de delincuencia. Sucede que un pas hipottico, que hemos identificado como Pas 108, parece tener una fortsima influencia sobre r2 y sobre la recta de regresin. Para saber que tanto pesa, graficamos sin el punto influyente.
12 11
10 9
Tasa de delincuencia
7 6
5 4 4 5 6 7 8 9 10 Rsq = 0,0072
Crecimiento econmico
Segn puede verse, al retirar del anlisis el Pas 108, cambi radicalmente la pendiente de la recta de regresin y r2. El punto que pareca ser influyente, lo era! Dar por buenos sin mayor reflexin el r2 y los coeficientes de regresin de la primera grfica sin advertir que dependen de un solo punto, es sacar conclusiones aventuradas. Enfrentados a una situacin de este tipo, debemos ser concientes de ella, y elegir reflexivamente como proceder. Para detectar los puntos influyentes... ya sabe lo que tiene que hacer!
Homocedasticidad y heterocedasticidad. Homocedasticidad significa que la dispersin alrededor de la recta de regresin es igual para los diversos valores de x. Los valores observados tienden a caer en una zona que podramos definir por dos paralelas a la recta de regresin. Heterocedasticidad implica no homocedasticidad. En el caso que veremos, la dispersin en la grfica con heterocedasticiad, aumentar conforme aumentan los valores de x. Los puntos quedan con lmites en forma de cono ms estrecho abajo y ms abierto arriba.
Caso de homocedasticidad
17 16 15 14 13 12 11
10 4 5 6 7 8 9 10
X1
Los puntos tienen aproximadamente igual dispersin en todo el recorrido.
Caso de heterocedasticidad
17 16 15 14 13 12 11
10 4 5 6 7 8 9 10
X1
Ntese que los puntos se van abriendo, como en embudo. Conforme aumenta x, aumenta la dispersin.
En resumen: Si Ud. desea correr una regresin lineal entre x e y, antes de correrla, grafique. Ello le permitir detectar: Relaciones curvilneas Datos errneos Casos desviantes Puntos influyentes Heterocedasticidad. Por tanto,