Está en la página 1de 41

Estadı́stica I

Tema 3: Análisis de datos bivariantes


Tema 3: Análisis de datos bivariantes
Contenidos
1. Introducción. Datos bivariantes.

2. Representaciones.
I Tablas de doble entrada. Distribución conjunta de frecuencias.
I Frecuencias marginales y condicionadas.
I Tabla de doble entrada con alguna variable cuantitativa.

3. Gráficos y resúmenes numéricos:


I Variables cualitativas: diagramas de barras (agrupadas, apiladas)
I Variable cualitativa y cuantitativa:
I Múltiples diagramas de caja, histogramas
I Múltiples resúmenes numéricos.
I Variables cuantitativas:
I Diagrama de dispersión.
I Tipos de relación entre dos variables cuantitativas.
I Medidas de asociación lineal: covarianza y coeficiente de correlación
Tema 3: Análisis de datos bivariantes

Lecturas recomendadas
I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias
Sociales.
I Capı́tulos 7, 8 y 9.
I Newbold, P. Estadı́stica para los Negocios y la Economı́a.
I Secciones 2.5 y 12.1–12.4.
Introducción. Datos bivariantes

I ¿Afecta el paro en igual medida a toda la población


independientemente de su formación?
I ¿Los individuos con mayor nivel educativo están más, menos o
igualmente satisfechos con su vida que aquellos que tienen menor
nivel educativo?
I ¿Cambia el patrón de consumo y producción responsable en los
paı́ses con mayores ingresos con respecto a aquellos con menores
ingresos?
I ¿Sigue habiendo brecha de género en el salario?
I ¿Existe alguna relación entre el volumen de ventas de una empresa y
sus activos humanos?
I ¿Están relacionadas la superficie de una vivienda y su precio?
I ¿Hay alguna relación entre los resultados medios de un paı́s en
comprensión lectora y en matemáticas en las evaluaciones PISA?
Introducción. Datos bivariantes

I Datos bivariantes: provienen de la observación simultánea de dos


variables (X , Y ) en una muestra de n individuos. Los datos
bivariantes son pares de valores, numéricos o no, de la forma

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

I Además de analizar cada variable por separado, queremos estudiar si


existe relación entre ellas, y en tal caso analizar tal relación.
Tablas de doble entrada. Distribución conjunta de
frecuencias absolutas.
I Muestra: 10 madrileños.
I Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria,
3=Post-secundaria)
I Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3

X \Y Empleado (1) Desempleado (2) Inactivo (3)


Primaria (1) 0 0 2
Secundaria (2) 1 0 4
Post-secundaria (3) 2 0 1
Tablas de doble entrada. Distribución conjunta de
frecuencias absolutas.
I Muestra: 10 madrileños.
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,
3=Post-secundaria)
I Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3

X \ Y Empleado (1) Desempleado (2) Inactivo (3)


Primaria (1) 0 0 2
Secundaria (2) 1 0 4
Post-secundaria (3) 2 0 1
Ejemplo: Distribución conjunta de frecuencias absolutas.

Cuando al menos una variable es cualitativa, la tabla de doble entrada


también se denomina tabla de contingencia.
I Muestra: 1508 madrileños (Encuesta de Condiciones de Vida, INE).
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,
3=Post-secundaria)
I Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo)

X \ Y Empleado Desempleado Inactivo


Primaria 95 6 315
Secundaria 393 28 257
Post-secundaria 317 8 89
Distribuciones de frecuencias absolutas: conjunta y
marginales.

¿Y si solo nos interesa la situación laboral de los madrileños?


¿o solo su nivel educativo?

X \ Y Empleado Desempleado Inactivo Total


Primaria 95 6 315 416
Secundaria 393 28 257 678
Post-secundaria 317 8 89 414
Total 805 42 661 1508
Tabla de doble entrada de frecuencias absolutas

I Tabla de doble entrada con k filas y m columnas


Y
c10 ··· cj0 · · · cm 0
Total
c1 n11 · · · n1j · · · n1m n1
.. .. .. .. ..
. . . . .
X ci ni1 · · · nij · · · nim ni
.. .. .. .. ..
. . . . .
ck nk1 ··· nkj ··· nkm nk
Total n1 ··· nj ··· nm n
I Notación:
Frec. absoluta conjunta para las clases ci de X y cj0 de Y : nij
Frec. absoluta marginal para la clase ci de X : ni = ni1 + · · · + nim
Frec. absoluta marginal para la clase cj0 de Y : nj = n1j + · · · + nkj
Tamaño muestral: n = n
Distribuciones de frecuencias relativas: conjunta y
marginales.

X \ Y Empleado Desempleado Inactivo Total


Primaria 0.0630 0.0040 0.2089 0.2759
Secundaria 0.2606 0.0186 0.1704 0.4496
Post-secundaria 0.2102 0.0053 0.0590 0.2745
Total 0.5338 0.0279 0.4383 1

I El 0.53 % de los encuestados tiene estudios de Post-secundaria y


está desempleado.
I Empleando frecuencias relativas podrı́amos comparar los resultados
obtenidos en estudios similares (de otros paı́ses) con distintos
tamaños muestrales.
Tabla de doble entrada de frecuencias relativas
I fij = nij /n: Frec. relativa conjunta para las clases ci de X y cj0 de Y

Y
c10 ··· cj0 ··· cm 0
Total
c1 f11 ··· f1j ··· f1m f1
.. .. .. .. ..
. . . . .
X ci fi1 ··· fij ··· fim fi
.. .. .. .. ..
. . . . .
ck fk1 ··· fkj ··· fkm fk
Total f1 ··· fj ··· fm 1

I Frecuencia relativa marginal para la fila i (clase ci de X ):

fi = fi1 + · · · + fij + · · · + fim

I Frecuencia relativa marginal para la columna j (clase cj0 de Y ):

fj = f1j + · · · + fij + · · · + fkj


Representaciones gráficas. Diagramas de barras agrupadas
y apiladas

En Excel: Insertar gráfico → Columna agrupada


Distribuciones de frecuencias condicionadas

I ¿Y si solo nos interesa la situación laboral de los individuos con nivel


educativo más alto?
I ¿Y si queremos analizar la relación entre el nivel educativo y la
situación laboral?

I ¿Tiene sentido comparar el número de desempleados con estudios de


secundaria con el número de desempleados con estudios de
post-secudaria sin tener en cuenta cuántos individuos hay en cada
categorı́a?
Distribuciones de frecuencias condicionadas
I Dada la distribución conjunta de (X , Y ), llamaremos distribución
condicionada a la distribución de frecuencias (absolutas o relativas)
de una variable, suponiendo conocido el valor de la otra variable.
I Notación: Y | X = ci , o X | Y = cj0 .
Distribución condicionada de frecuencias de la situación laboral (Y ) para
personas con un nivel educativo (X ) de Post-secundaria:

Y | X = Post-secundaria Empleado Desempleado Inactivo Total


Frec. cond. absoluta 317 8 89 414
Frec. cond. relativa 0.7657 0.0193 0.2150 1

I El 1.93 % de los encuestados con estudios de Post-secundaria está


desempleado
I ¿Qué porcentaje de individuos con estudios de secundaria o
superiores está desempleado?
Distribuciones de frecuencias condicionadas

Puede condicionarse también a que una variable tome varios valores:


I Y | X ≥ Secundaria.

Y | (X ≥ Secundaria) Empleado Desempleado Inactivo Total


Frec. cond. absoluta 710 36 346 1092
Frec. cond. relativa 0.6502 0.0330 0.3168 1

I El 3.3 % de los encuestados con estudios de secundaria o superiores


está desempleado.
Distribuciones de frecuencias condicionadas

¿Podemos emplear las distribuciones condicionadas para analizar la


relación entre la situación laboral y el nivel de estudios?

En Excel: Insertar gráfico → Columna 100 % apilada


Tabla de doble entrada para variables cuantitativas
I Muestra: 43 alumnos.
I Variable X : Núm. de veces que ha ido al teatro en el último mes.
I Variable Y : Núm. de veces que ha ido al cine en el último mes.

X e Y son variables cuantitativas discretas y toman un número pequeño


de valores distintos ⇒ datos sin agrupar

Teatro / Cine 0 1 2 3 4 Total


0 12 5 4 2 1 24
1 4 3 2 1 0 10
2 3 3 2 0 0 8
3 1 0 0 0 0 1
Total 20 11 8 3 1 43

I ¿Cuál es el número medio de veces que han ido al cine en el último


mes (independientemente del número de veces que hayan ido al
teatro)? ¿y al teatro?
I ¿Cuál es el número medio de veces que han ido al cine en el último
mes aquellos que no han ido ninguna vez al teatro? ¿y entre los que
han ido 1 vez al teatro? ¿y 2? ¿y 3?
Tabla de doble entrada para variables cuantitativas
I Muestra: 1000 empresas americanas.
I Variable X : Volumen de ventas.
I Variable Y : Núm. de trabajadores.
X e Y son cuantitativas discretas y toman un número grande de valores
distintos (o si son continuas) ⇒ datos agrupados

X /Y [1,25) [25,50) [50,75) [75,99] Total


[1,100) 0.293 0.122 0.098 0.049 0.561
[100,200) 0.098 0.073 0.049 0.024 0.244
[200,300] 0.073 0.073 0.049 0.000 0.195
Total 0.463 0.268 0.195 0.073 1.000

I ¿Cuántas empresas tienen un volumen de ventas menor que 100?


I ¿Qué porcentaje de empresas con menos de 25 trabajadores tiene un
volumen de ventas de al menos 200?
I ¿Qué proporción de empresas tiene menos de 25 trabajadores y un
volumen de ventas de al menos 200?
I ¿Cuál es el tamaño medio de todas las empresas de la muestra? ¿Y
de aquellas con un volumen de ventas menor que 100?
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE)

I ¿Qué distribuciones están representadas en la tabla anterior?


I ¿Qué porcentaje de encuestados con educación secundaria primera
etapa puntúa su satisfacción entre 5 y 6?
Muchas tablas en informes son tablas de frecuencias condicionadas
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE)

¿Verdadero o falso? Si es falso, ¿tienes suficiente información para


calcular el porcentaje verdadero?
I Entre los encuestados más satisfechos con su vida actual
(puntuación entre 9 y 10), el 23.3 % tiene educación superior.
I El 75.5 % de los encuestados con educación superior está satisfecho
o muy satisfecho con su vida actual (puntuación por encima de 7)
I El 38.5 % de los encuestados puntúa su satisfacción con su vida
actual por debajo de 5.
Es incorrecto sumar frecuencias condicionadas cuando se condiciona en
valores distintos
Ejercicio

Comenta los siguientes gráficos:

I ¿Qué distribuciones están representadas en el gráfico de barras?


I ¿Qué relación observas entre la satisfacción media con su vida actual
y el nivel educativo de los individuos?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
https://es.wikipedia.org/wiki/Paradoja_de_Simpson

Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975)

ADMISIONES
Admisiones Denegadas

56%
65%

44%
35%

HOMBRES MUJERES

¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson

Datos de admisiones desglosados por departamentos (A, …, F) y sexo:

ADMISIONES SOLICITUDES
Hombres Mujeres Hombres Mujeres
82%

825
68%
63%
62%

593
560
44%

417

393
37%

375
35%

35%
34%

341
33%

325
28%

272
24%

191
108
7%
6%

25
A B C D E F TOTAL A B C D E F

¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Variables cualitativas y cuantitativas

I En la mayorı́a de los estudios se recogen datos de distinta


naturaleza, cualitativos y cuantitativos.
I Es habitual que las variables cualitativas se utilicen para clasificar: se
estudia el comportamiento de la variable cuantitativa según las
categorı́as de la variable cualitativa.

Ejemplo
I Muestra: 157 paı́ses.
I Variable Y : Puntuación promedio obtenida acerca del grado de
cumplimiento del ODS12 (Producción y Consumo Responsables)
I Variable X : Grupo de Ingresos en 2016.

¿Cómo cambia la puntuación promedio en el ODS12 de los paı́ses según


su nivel de ingresos?
Variables cualitativas y cuantitativas. Múltiples Box-Plot
(nota: SDG = ODS)

Average score on SDG12 (Producción y consumo responsables)


(nota: Low Income Countries (LIC), Low-Middle ... (LMIC), Upper-Middle ... (UMIC), High ... (HIC)

Average score on SDG12


60

50

40
FRECUENCIA

30

20

10

0
32.8 41.5 50.2 58.9 67.6 76.3 85 93.7
CLASE

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/


Variables cualitativas y cuantitativas. Múltiples Histogramas
Average score on SDG12 (Producción y consumo responsables)

LIC-Average Score SDG12 LMIC-Average Score SDG12


8 20
7
6
FRECUENCIA

15

FRECUENCIA
5
4 10
3
2 5
1
0 0
76.6 78.7 80.8 82.9 85 71.2 75.7 80.2 84.7 89.2 93.7
CLASE CLASE

UMIC-Average Score SDG12 HIC-Average Score SDG12


12
16
14 10
FRECUENCIA

FRECUENCIA
12 8
10
8 6
6
4 4
2 2
0
0
49.2 54.6 60 65.4 70.8 76.2 81.6
31.3 38.4 45.5 52.6 59.7 66.8 73.9
CLASE
CLASE

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/


Variables cualitativa y cuantitativa. Histogramas múltiples

I ¿Sigue habiendo brecha de género en el salario?


Resúmenes numéricos múltiples. Tablas de datos

I ¿Existe relación entre el salario y el nivel de formación?


Son habituales las tablas que presentan medidas numéricas de la variable
cuantitativa para cada categorı́a de la variable cualitativa:
Resúmenes numéricos múltiples. Tablas de datos
I ¿Existe relación entre el salario y el nivel de formación?
Los resultados de una tabla se pueden representar gráficamente.

La desviación del salario medio en % de un grupo g con respecto al


salario medio total se obtiene como:
 x̄ − x̄ 
g total
Desvg = · 100
x̄total
Resúmenes numéricos múltiples. Pictogramas
I ¿Se observan diferencias entre los salarios de los trabajadores
dependiendo de su CCAA?
Los resultados de una tabla se pueden representar por medio de
pictogramas. En este caso, de un cartograma:
Variables cuantitativas. Diagrama de dispersión
I ¿Hay relación entre la superficie de una vivienda y su precio?
I Muestra: 15 viviendas.
I Variable Y : Precio.
I Variable X : m2 habitables.
m2 habitables precio
107 162657
114 165554
91 154506
100 162103 ● ●

165000
● ● ●
96 158271 Price of a house (euro) ●
107 166925 ● ●


104 161917 ●
160000

100 161149 ●

80 152263
155000

81 151878 ●

105 165678 ●

111 166696
80 85 90 95 100 105 110 115
108 165387
Size of a house (m^2)
97 161806
106 163824
Medidas de asociación lineal para variables cuantitativas
I La covarianza es una medida de la relación entre dos variables.
Cuantifica la información en un gráfico de dispersión sobre la
x y
asociación
1 0.81186553 1.71903042
2 0.98151318 1.77181509
lineal entre dos variables.
3 1.86964664 3.11027837
4 1.67494569 2.8040063
9 Y
5 1.67159679 3.13403354
6 2.06896883 4.82231585
7 2.07458768 3.77439638 8
8 2.1276676 3.98994917
9 2.0867583 4.6670687 7
10 3.01682761 4.4723854
11 2.21807301 4.87721889 6
12 1.31836091 3.52703885 xi>media(x)
13 0.94868813 2.44574875 5 yi>media(y)
14 3.71304211 8.19843302
15 1.50010914 2.49454861 4
16 3.08738201 5.43299601 X
17 1.3694318 0.92412073 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
3
18 1.86684042 3.80057902
xi<media(x)
19 1.24087921 1.55770547
yi<media(y) 2
20 2.07104626 4.70391609
21 0.71226336 0.26642136
22 1.44547522 3.01707838 1
23 2.44837446 4.86795198
24 3.38040178 6.17440013 0
25 0.69995779 0.85487048
26 0.93002587 0.00913399
27 2.53962691 5.79717576
Covarianza:
28 3.00173124 5.26160403
Pn
29 2.99222302 6.00492001
30
31
2.78137228
2.83313549
3.57409016
6.24472749 i=1 xi yi − nx̄ ȳ
32 1.21334859 1.78724959 z }| {!
n
1 X
sxy = (xi − x̄)(yi − ȳ ) − ∞ < sxy < ∞
n−1
i=1
Medidas de asociación lineal: La covarianza

I sxy >> 0 ⇒ Relación lineal positiva.


I sxy << 0 ⇒ Relación lineal negativa.
I sxy ≈ 0 ⇒ No existe relación lineal o existe relación no lineal.
I Inconvenientes de la covarianza:
I No está acotada ni superior ni inferiormente. Por lo tanto no se sabe
cuándo sxy es suficientemente grande o pequeña.
I Depende de las unidades de medida de las variables:
Si sxy es la covarianza de X e Y , a y b son dos números, y
T = a + bY , entonces sxt = b sxy .
Covarianza y relación entre variables
Medidas de asociación lineal: La correlación

I Correlación (coeficiente de correlación lineal de Pearson):


sxy
rxy =
sx sy

I ¿Ventajas?
I Está acotada: −1 ≤ rxy ≤ 1
I No depende de las unidades de medida de las variables (es
adimensional).
I Interpretación:
I rxy > 0: Asociación lineal positiva.
I rxy < 0: Asociación lineal negativa.
I |rxy | = 1: Relación lineal perfecta.
I rxy = 0: X e Y están incorreladas (ausencia de relación lineal).
Correlación y causalidad

I Supongamos que la correlación entre dos variables X e Y es muy


alta (p. ej., rxy = 0.9)
I ¿Podemos concluir que hay una relación causal entre ambas
variables? (una es causa de la otra)
I La respuesta es que NO.

I P. ej., X = tamaño de los pies de un niño, Y = capacidad de


comprensión lectora de un niño
I La correlación no implica causalidad

I Ver:
https://es.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
Ejemplo

Ejemplo- Tenemos tres variables sobre 91 paı́ses: X = esperanza de vida


en hombres, Y = esperanza de vida en mujeres, y Z = PIB.
I Las covarianzas entre los tres posibles pares de dos variables son
sxy = 105.15, sxz = 50066.04 y syz = 57917.93.
I Las correlaciones son rxy = 0.98, rxz = 0.64 y rxz = 0.65.

I Por lo tanto, aunque las covarianzas entre la esperanza de vida en


hombres y mujeres y el producto interior bruto sean mayores que la
covarianza entre la esperanza de vida para hombres y la esperanza
de vida para mujeres, la correlación es mayor entre estas dos últimas
variables.
Ejercicio: Resultados del informe PISA 2012

I Muestra: 64 paı́ses cuyos estudiantes realizaron el examen PISA en 2012.


I X : Puntuación media en lectura.
I Y : Puntuación media en matemáticas.

Se obtiene que
I La covarianza entre X e Y es sxy = 2440.78.
I La correlación entre X e Y es rxy = 0.96.
A continuación se muestra el diagrama de dispersión para estos datos.
I ¿Qué puedes concluir sobre la relación entre ambas variables?
Ejercicio: Resultados del informe PISA 2012
Ejercicio: Resultados del informe PISA 2012

También podría gustarte