Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2. Representaciones.
I Tablas de doble entrada. Distribución conjunta de frecuencias.
I Frecuencias marginales y condicionadas.
I Tabla de doble entrada con alguna variable cuantitativa.
Lecturas recomendadas
I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias
Sociales.
I Capı́tulos 7, 8 y 9.
I Newbold, P. Estadı́stica para los Negocios y la Economı́a.
I Secciones 2.5 y 12.1–12.4.
Introducción. Datos bivariantes
Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3
Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3
Y
c10 ··· cj0 ··· cm 0
Total
c1 f11 ··· f1j ··· f1m f1
.. .. .. .. ..
. . . . .
X ci fi1 ··· fij ··· fim fi
.. .. .. .. ..
. . . . .
ck fk1 ··· fkj ··· fkm fk
Total f1 ··· fj ··· fm 1
Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975)
ADMISIONES
Admisiones Denegadas
56%
65%
44%
35%
HOMBRES MUJERES
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
ADMISIONES SOLICITUDES
Hombres Mujeres Hombres Mujeres
82%
825
68%
63%
62%
593
560
44%
417
393
37%
375
35%
35%
34%
341
33%
325
28%
272
24%
191
108
7%
6%
25
A B C D E F TOTAL A B C D E F
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Variables cualitativas y cuantitativas
Ejemplo
I Muestra: 157 paı́ses.
I Variable Y : Puntuación promedio obtenida acerca del grado de
cumplimiento del ODS12 (Producción y Consumo Responsables)
I Variable X : Grupo de Ingresos en 2016.
50
40
FRECUENCIA
30
20
10
0
32.8 41.5 50.2 58.9 67.6 76.3 85 93.7
CLASE
15
FRECUENCIA
5
4 10
3
2 5
1
0 0
76.6 78.7 80.8 82.9 85 71.2 75.7 80.2 84.7 89.2 93.7
CLASE CLASE
FRECUENCIA
12 8
10
8 6
6
4 4
2 2
0
0
49.2 54.6 60 65.4 70.8 76.2 81.6
31.3 38.4 45.5 52.6 59.7 66.8 73.9
CLASE
CLASE
165000
● ● ●
96 158271 Price of a house (euro) ●
107 166925 ● ●
●
●
104 161917 ●
160000
100 161149 ●
80 152263
155000
81 151878 ●
105 165678 ●
●
111 166696
80 85 90 95 100 105 110 115
108 165387
Size of a house (m^2)
97 161806
106 163824
Medidas de asociación lineal para variables cuantitativas
I La covarianza es una medida de la relación entre dos variables.
Cuantifica la información en un gráfico de dispersión sobre la
x y
asociación
1 0.81186553 1.71903042
2 0.98151318 1.77181509
lineal entre dos variables.
3 1.86964664 3.11027837
4 1.67494569 2.8040063
9 Y
5 1.67159679 3.13403354
6 2.06896883 4.82231585
7 2.07458768 3.77439638 8
8 2.1276676 3.98994917
9 2.0867583 4.6670687 7
10 3.01682761 4.4723854
11 2.21807301 4.87721889 6
12 1.31836091 3.52703885 xi>media(x)
13 0.94868813 2.44574875 5 yi>media(y)
14 3.71304211 8.19843302
15 1.50010914 2.49454861 4
16 3.08738201 5.43299601 X
17 1.3694318 0.92412073 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
3
18 1.86684042 3.80057902
xi<media(x)
19 1.24087921 1.55770547
yi<media(y) 2
20 2.07104626 4.70391609
21 0.71226336 0.26642136
22 1.44547522 3.01707838 1
23 2.44837446 4.86795198
24 3.38040178 6.17440013 0
25 0.69995779 0.85487048
26 0.93002587 0.00913399
27 2.53962691 5.79717576
Covarianza:
28 3.00173124 5.26160403
Pn
29 2.99222302 6.00492001
30
31
2.78137228
2.83313549
3.57409016
6.24472749 i=1 xi yi − nx̄ ȳ
32 1.21334859 1.78724959 z }| {!
n
1 X
sxy = (xi − x̄)(yi − ȳ ) − ∞ < sxy < ∞
n−1
i=1
Medidas de asociación lineal: La covarianza
I ¿Ventajas?
I Está acotada: −1 ≤ rxy ≤ 1
I No depende de las unidades de medida de las variables (es
adimensional).
I Interpretación:
I rxy > 0: Asociación lineal positiva.
I rxy < 0: Asociación lineal negativa.
I |rxy | = 1: Relación lineal perfecta.
I rxy = 0: X e Y están incorreladas (ausencia de relación lineal).
Correlación y causalidad
I Ver:
https://es.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
Ejemplo
Se obtiene que
I La covarianza entre X e Y es sxy = 2440.78.
I La correlación entre X e Y es rxy = 0.96.
A continuación se muestra el diagrama de dispersión para estos datos.
I ¿Qué puedes concluir sobre la relación entre ambas variables?
Ejercicio: Resultados del informe PISA 2012
Ejercicio: Resultados del informe PISA 2012