Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mauricio Grotz
1
Temas
• Correlación
– Bivariada
– Análisis gráfico
– Fórmula (r-Pearson)
– Interpretación
• Regresión
– Lineal simple
2
3
Relación entre variables
4
Correlación vs Causalidad
X Y
monocausal
5
Relación entre variables
• Fuerza y dirección
– Variación conjunta de las variables
• Predicción
– Conocimiento de la relación entre variables
– Dado un cierto valor de X→posible valor de Y
6
Correlación
7
Gráfico de dispersión
• Permite ver de manera simultánea los
valores de dos variables para cada unidad
de análisis
• Ejes (unidades de medida de cada
variable
– VD→eje ordenadas (Y)
– VI→eje abscisas (X)
8
9
10
https://elpais.com/internacional/2018/10/23/actualidad/1540291997_116759.html
11
12
Asociación lineal
• Gráfico de dispersión
– Patrón de la relación entre las variables
– Fuerza y dirección
• Asociación lineal
– El patrón de la relación puede describirse a
través de una línea recta
– Existen distintas formas
13
Asociación lineal: Dirección
14
Asociación lineal: Fuerza
15
16
17
Otros tipos de asociación
18
Asociación: resumen
• Positiva/Negativa
• Fuerte/Débil
• Lineal
• No lineal
• Inexistente
19
Correlación
20
Correlación simple
1 n
( xi − x ) ( yi − y )
r=
n − 1 i =1 s x sy
22
Ejemplo
23
Interpretación
Interpretación: r2
• r2:Coeficiente de determinación
– Indica el porcentaje de variación (estadística)
de una variable atribuible a la variación de
otra variable
– Medida simétrica (independiente de cuál sea
conceptualmenta la VD ó la VI)
25
Significancia estadística
• Relación en la muestra vs relación en la
población (estadística inferencial)
• Hipótesis nula: r=0 (no hay asociación)
• Grados de libertad: n-2
• Nivel de significancia
• Conclusión
– p-valor<nivel de significancia→Rechazo H0
26
Significancia estadística
27
Correlación
• Siempre graficar los datos
• La relación entre las variables puede ser no-lineal
• Alta correlación no siempre significa relación lineal
perfecta
• Baja correlación no siempre implica que no hay
correlación
• Sensible a outliers
28
29
30
Análisis de regresión
• Correlación→unidades estandarizadas
• Regresión→volvemos a unidades de
medida original
– Objetivo: predecir valores de la variable
dependiente en base a los valores de otra
variables
– Respuesta a la pregunta ¿cuánto varía?
• Regresión lineal
– Línea que representa el patrón de asociación
– Línea de regresión→mejor ajuste
31
Regresión (Mínimos Cuadrados)
• Análisis de Regresión
– Estudio de los datos con el objetivo de detectar
como una (o más) variable(s) idependiente(s)
(predictores, regesores) están asociadas (y tal
vez “determinan”) con los valores de otra variable
(dependiente, respuesta)
32
Estimación Mínimos Cuadrados
Ordinarios (MCO)
33
34
Regresión Lineal
• Supuestos :
- Hay una relación lineal entre las variables (X e
Y)
- Y (continua), X (continua ó dicotómica)
- Relación aditiva
35
Recta de regresión:
minimiza las distancias
al cuadrado Distancia
(mínimos cuadrados) Vertical entre
el cada punto
y la recta
36
Cálculos
• Recta: y = a + b (x)
sy
b: pendiente→ b=r Desvíos estándar
sx (son siempre
positivos)
Determina
37
el signo
Modelo de Predicción
• Utilizando la recta de regresión puedo predecir
los valores de Y conociendo los valores de X:
–Valor predicho: yˆ = a + b( x)
–Residuo (error) e = y − yˆ
Es la distancia entre el valor observado de la variable
Y, y la recta de regresión. Error de predicción (lo que
no explica el modelo)
38
39
Error estándar de la recta
• Indica en qué medida los valores
predichos de la VD se alejan de los
valores reales de la VD
2
σ(𝑦 − 𝑦)
ො
𝑠𝑒 =
𝑛−2
40
41
Modelo de Predicción
Supuestos:
1. Variable independiente: intervalar o
dicotómica
2. Variable dependiente: intervalar continua
3. Las variables no tienen error de medición
4. Efecto de la VI sobre la VD es lineal
5. El error no está correlacionado con la
variable independiente
42
43
Ejemplo
44
Regresión simple
¿El gasto público de un país depende
la fragmentación del sistema de
partidos?
45
Preguntas
• ¿Cómo se relacionan las variables?
– Correlación
– Interpretación de la constante y la pendiente
• ¿Cuál sería el valor esperado de Y si X
fuera x? (predicción)
• ¿Qué tan seguros estamos de la
estimación? (bondad de ajuste, tests,
supuestos)
46
sc imf_exp gol_enep|| lfit imf_exp gol_enep
100
80
60
40
20
0 5 10 15
Effective Number of Electoral Parties
47
Regresión simple
regress imf_exp gol_enep
------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
48
Regresión simple
regress imf_exp gol_enep
Intercepto: ¿cuál sería el % de gasto público en términos
del PIB, si el número efectivo de partidos es cero?
Source | SS df MS Number of obs = 116
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
49
Regresión simple
Significancia estadística de la pendiente:
¿Hay relación estadísticamente significativa entre la VD y
la VI?
------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
50
Regresión simple
Pendiente: por cada unidad de incremento en el número
efectivo de partidos ¿qué pasa con el % de gasto
público/pib?
(!) ESPECIFICAR UNIDADES
Source | SS df MS Number of obs = 116
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
51
¿Qué tan bueno es el Ajuste?
• R2: Medida de bondad de ajuste (calidad
global de la regresión)
52
Bondad de Ajuste
Y X
53
Bondad de Ajuste
Y X
54
Bondad de Ajuste
Y=X
55
¿Qué tan bueno es el Ajuste?
56
57
Regresión simple
58
Validación Modelo
1. Linealidad (gráfico de dispersión)
2. Normalidad de los residuos (histograma)
3. Heteroscedasticidad (residuos vs Y, X)
4. Multicolinealidad (signos, coeficientes)
59
Examinar los Residuos
60
Resumen
1. Mirar la correlación no es suficiente.
2. La regresión lineal ayuda a mostrar la tendencia
en la asociación entre X e Y.
3. Puede usarse para predicción.
4. Cuidado con las predicciones fuera del rango de
los datos.
5. La regresión simple puede calcularse a partir de
estadísticas descriptivas.
6. Siempre graficar los datos.
7. Correlación no implica causalidad. 61
62
63