Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema3 PDF
Tema3 PDF
Contenidos
3.1 Tablas de doble entrada.
I Datos bivariantes.
I Estructura de la tabla de doble entrada.
I Distribuciones de frecuencias marginales.
I Distribución conjunta de frecuencias relativas.
I Distribuciones de frecuencias condicionadas.
I Tabla de doble entrada para variables cuantitativas.
3.2 Correlación.
I Diagrama de dispersión.
I Tipos de relación entre dos variables cuantitativas.
I Medidas de dependencia lineal.
I Correlación y heterogeneidad.
I Correlación y datos atı́picos.
I Correlación y causalidad.
Lecturas recomendadas
I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias
Sociales.
I Capı́tulos 7, 8 y 9.
I Newbold, P. Estadı́stica para los Negocios y la Economı́a.
I Secciones 2.5 y 12.1–12.4.
Datos bivariantes
Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3
Datos bivariantes
Y
Empleado Desempleado Inactivo
Primaria 95 6 315
X Secundaria 393 28 257
Post-secundaria 317 8 89
Y
0 1 2 3 4 Total
0 12 5 4 2 1 24
1 4 3 2 1 0 10
X 2 3 3 2 0 0 8
3 1 0 0 0 0 1
Total 20 11 8 3 1 43
Diagrama de dispersión
I La representación gráfica más común para dos variables cuantitativas es el
diagrama de dispersión
I ¿Ventajas?
I Está acotado: −1 ≤ r(x,y ) ≤ 1
I Es adimensional.
I Interpretación del coeficiente de correlación de Pearson:
I r(x,y ) > 0 Dependencia Directa.
I r(x,y ) < 0 Dependencia Indirecta.
I |r(x,y ) | = 1 Relación Lineal Perfecta.
I r(x,y ) = 0 X e Y están Incorreladas (ausencia de relación lineal).
Correlación y heterogeneidad
Correlación 6= Causalidad
Recta de regresión
Ejemplo Diagrama de dispersión de Y : Ingresos netos frente a X : Años de
estudio para 1508 madrileños.
200000
●
●
●
● ● ●
● ●
● ●
● ● ●
●
● ●
150000
● ●
● ● ● ●
● ● ● ●
● ● ●
●
● ● ● ●
●
● ●
● ●
● ●
● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ● ●
● ● ● ●
● ● ●
● ●
● ●
● ● ●
● ●
● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ●
Ingresos netos
● ● ● ● ● ●
● ●
● ● ●
●
● ●
● ● ●
● ● ● ● ● ●
●
● ● ● ● ● ●
● ●
● ●
● ●
● ● ●
● ● ●
● ● ●
● ●
● ●
● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ●
● ●
●
●
100000
●
● ●
● ●
● ● ● ● ● ● ●
● ●
● ●
● ● ●
● ● ●
● ●
● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ●
● ●
● ● ● ●
● ●
● ●
● ● ●
● ● ●
●
● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ●
● ● ●
● ●
● ●
● ● ● ●
●
● ●
● ●
● ● ●
● ● ●
● ● ●
● ● ● ●
●
● ● ●
● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ● ●
●
● ●
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ●
●
● ● ●
● ● ●
●
● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ●
● ●
● ● ● ● ●
● ● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ●
● ●
● ● ●
● ●
● ●
● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ●
50000
● ●
● ●
● ●
● ●
● ● ● ● ● ● ●
● ●
● ● ● ● ● ●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ●
●
● ● ● ●
● ●
● ●
● ●
● ● ●
● ●
● ●
● ●
● ●
● ●
●
● ●
● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
●
● ● ● ● ●
● ● ● ●
● ●
● ●
●
● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ●
● ● ● ●
●
● ● ●
● ● ●
●
● ● ● ● ●
● ●
●
● ● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ●
● ●
● ● ● ● ●
●
● ●
● ●
● ● ●
● ● ● ●
●
● ● ●
● ●
● ●
● ●
●
● ● ● ●
● ●
● ●
0
5 10 15 20 25
Años estudio
I Los ingresos netos medios para cada valor de años de estudio (medias de
Y condicionadas a cada valor de X ) forman aproximadamente una lı́nea
recta.
n
residuo n
X z }| { X
mı́n ( yi − ŷi )2 = mı́n (yi − (a + bxi ))2
a,b a,b
i=1 i=1
I Estimadores de b y a:
sxy
b =
sx2
a = ȳ − bx̄
s
I Propiedad: b = r(x,y ) syx
sxy sy s
porque b = sx2 sy
= r(x,y ) sy
x
ŷ = a + bx
x = 0 −→ ŷ = a + b(0) = a
ŷi = a + bxi , i = 1, . . . , n
I Residuos:
ei = yi − ŷi , i = 1, . . . , n
e = 0 porque y = yb.
I Varianza residual: Es una medida del error cometido en la predicción de
los datos. Divides entre n − 2 porque se han estimado a y b (menos dos
grados de libertad).
n
1 X 2
se2 = ei
n−2
i=1
I Relación fundamental de la Regresión: La variabilidad total de la variable
dependiente se puede explicar como la suma de la variabilidad del modelo
más la variabilidad residual (como sumas de cuadrados):
SCT = SCR + SCE.
Estadı́stica I. ECO/ Dobles grados ECO-DER y ADE-INF 2010/11 Tema 3
30
sxy sxy
b= sx2 a = y − bx d= sy2 c = x − dy
SCR SCE
R2 = =1−
SCT SCT
I En el modelo de regresión lineal simple, el Coeficiente de determinación es
igual al coeficiente de correlación al cuadrado R 2 = r(x,y
2
)
I 0 ≤ R 2 ≤ 1: Mayor R 2 indica un mejor ajuste.
I Interpretación:
I R 2 = 1 ⇒ Ajuste perfecto (SCE = 0) todos los residuos son 0
I R 2 = 0 ⇒ Ajuste muy malo (SCE = SCT )
I R 2 < 0,6 ⇒ Modelo con escasa fiabilidad: Buscar otro modelo mejor...
●
●
● ●
●
●
● ●
50000
● ● ●
● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ●
● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ●
Residuos
● ● ● ● ● ● ●
●
● ● ● ● ● ● ●
●
● ● ● ● ●
● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ●
●
● ● ●
● ●
● ●
● ●
● ●
● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
● ●
● ●
●
● ●
● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ● ● ● ●
● ● ● ●
● ●
● ● ● ●
● ● ●
● ● ●
● ● ● ●
●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
● ●
● ●
● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
● ●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
0
●
● ● ● ● ●
● ●
● ●
● ●
●
● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ●
●
● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
●
● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ●
●
● ● ●
● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ●
● ● ● ●
● ● ●
● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ●
● ●
● ●
● ●
● ●
● ● ● ●
● ●
● ●
● ●
● ●
● ●
● ● ●
● ●
● ● ●
● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
● ● ●
●
● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ●
● ●
● ● ● ● ● ●
●
● ● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
●
● ● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ● ●
● ●
●
● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
● ●
● ● ● ● ●
● ●
● ●
● ●
● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ●
−50000
● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
● ●
● ● ● ●
●
● ● ● ● ●
● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ● ●
●
● ● ●
● ●
Valores ajustados
I Recta ajustada:
ŷ = 3 + 0,5x
I Interpretación de la pendiente: un incremento de una unidad en la variable
X produce, en promedio, un incremento de 0.5 unidades en la variable Y .
I Predicción para x = 7,5 (dentro del rango de X )
ŷ = 3 + 0,5(7,5) = 6,75