Tema3esp 1718 6febrero

Estadı́stica I
Tema 3: Análisis de datos bivariantes

Contenidos
1. Introducción. Datos bivariantes.
2. Representaciones.
I Tablas de doble entrada. Distribución conjunta de frecuencias.
I Frecuencias marginales y condicionadas.
I Tabla de doble entrada con alguna variable cuantitativa.
3. Gráficos y resúmenes numéricos:

I Variables cualitativas: diagramas de barras (agrupadas, apiladas)
I Variable cualitativa y cuantitativa:
I Múltiples diagramas de caja, histogramas
I Múltiples resúmenes numéricos.
I Variables cuantitativas:
I Diagrama de dispersión.
I Tipos de relación entre dos variables cuantitativas.
I Medidas de asociación lineal: covarianza y coeficiente de correlación
Lecturas recomendadas
I Peña, D. y Romo, J., Introducción a la Estadı́stica para las Ciencias
Sociales.
I Capı́tulos 7, 8 y 9.
I Newbold, P. Estadı́stica para los Negocios y la Economı́a.
I Secciones 2.5 y 12.1–12.4.
Introducción. Datos bivariantes
I ¿Afecta el paro en igual medida a toda la población

independientemente de su formación?
I ¿Los individuos con mayor nivel educativo están más, menos o
igualmente satisfechos con su vida que aquellos que tienen menor
nivel educativo?
I ¿Cambia el patrón de consumo y producción responsable en los
paı́ses con mayores ingresos con respecto a aquellos con menores
ingresos?
I ¿Sigue habiendo brecha de género en el salario?
I ¿Existe alguna relación entre el volumen de ventas de una empresa y
sus activos humanos?
I ¿Están relacionadas la superficie de una vivienda y su precio?
I ¿Hay alguna relación entre los resultados medios de un paı́s en
comprensión lectora y en matemáticas en las evaluaciones PISA?
Introducción. Datos bivariantes
I Datos bivariantes: provienen de la observación simultánea de dos

variables (X , Y ) en una muestra de n individuos. Los datos
bivariantes son pares de valores, numéricos o no, de la forma
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I Además de analizar cada variable por separado, queremos estudiar si

existe relación entre ellas, y en tal caso analizar tal relación.
Tablas de doble entrada. Distribución conjunta de
frecuencias absolutas.
I Muestra: 10 madrileños.
I Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria,
3=Post-secundaria)
I Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo)
Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3
X \Y Empleado (1) Desempleado (2) Inactivo (3)

Primaria (1) 0 0 2
Secundaria (2) 1 0 4
Post-secundaria (3) 2 0 1
Tablas de doble entrada. Distribución conjunta de
frecuencias absolutas.
I Muestra: 10 madrileños.
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,
3=Post-secundaria)
Individuo 1 2 3 4 5 6 7 8 9 10
Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2
Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3
X \ Y Empleado (1) Desempleado (2) Inactivo (3)

Primaria (1) 0 0 2
Secundaria (2) 1 0 4
Post-secundaria (3) 2 0 1
Ejemplo: Distribución conjunta de frecuencias absolutas.
Cuando al menos una variable es cualitativa, la tabla de doble entrada

también se denomina tabla de contingencia.
I Muestra: 1508 madrileños (Encuesta de Condiciones de Vida, INE).
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,
3=Post-secundaria)
X \ Y Empleado Desempleado Inactivo

Primaria 95 6 315
Secundaria 393 28 257
Post-secundaria 317 8 89
Distribuciones de frecuencias absolutas: conjunta y
marginales.
¿Y si solo nos interesa la situación laboral de los madrileños?

¿o solo su nivel educativo?
X \ Y Empleado Desempleado Inactivo Total

Primaria 95 6 315 416
Secundaria 393 28 257 678
Post-secundaria 317 8 89 414
Total 805 42 661 1508
Tabla de doble entrada de frecuencias absolutas
I Tabla de doble entrada con k filas y m columnas

Y
c10 ··· cj0 · · · cm 0
Total
c1 n11 · · · n1j · · · n1m n1
.. .. .. .. ..
. . . . .
X ci ni1 · · · nij · · · nim ni
.. .. .. .. ..
. . . . .
ck nk1 ··· nkj ··· nkm nk
Total n1 ··· nj ··· nm n
I Notación:
Frec. absoluta conjunta para las clases ci de X y cj0 de Y : nij
Frec. absoluta marginal para la clase ci de X : ni = ni1 + · · · + nim
Frec. absoluta marginal para la clase cj0 de Y : nj = n1j + · · · + nkj
Tamaño muestral: n = n
Distribuciones de frecuencias relativas: conjunta y
marginales.
X \ Y Empleado Desempleado Inactivo Total

Primaria 0.0630 0.0040 0.2089 0.2759
Secundaria 0.2606 0.0186 0.1704 0.4496
Post-secundaria 0.2102 0.0053 0.0590 0.2745
Total 0.5338 0.0279 0.4383 1
I El 0.53 % de los encuestados tiene estudios de Post-secundaria y

está desempleado.
I Empleando frecuencias relativas podrı́amos comparar los resultados
obtenidos en estudios similares (de otros paı́ses) con distintos
tamaños muestrales.
Tabla de doble entrada de frecuencias relativas
I fij = nij /n: Frec. relativa conjunta para las clases ci de X y cj0 de Y
Y
c10 ··· cj0 ··· cm 0
Total
c1 f11 ··· f1j ··· f1m f1
.. .. .. .. ..
. . . . .
X ci fi1 ··· fij ··· fim fi
.. .. .. .. ..
. . . . .
ck fk1 ··· fkj ··· fkm fk
Total f1 ··· fj ··· fm 1
I Frecuencia relativa marginal para la fila i (clase ci de X ):
fi = fi1 + · · · + fij + · · · + fim
I Frecuencia relativa marginal para la columna j (clase cj0 de Y ):
fj = f1j + · · · + fij + · · · + fkj

Representaciones gráficas. Diagramas de barras agrupadas
y apiladas
En Excel: Insertar gráfico → Columna agrupada

Distribuciones de frecuencias condicionadas
I ¿Y si solo nos interesa la situación laboral de los individuos con nivel

educativo más alto?
I ¿Y si queremos analizar la relación entre el nivel educativo y la
situación laboral?
I ¿Tiene sentido comparar el número de desempleados con estudios de

secundaria con el número de desempleados con estudios de
post-secudaria sin tener en cuenta cuántos individuos hay en cada
categorı́a?
I Dada la distribución conjunta de (X , Y ), llamaremos distribución
condicionada a la distribución de frecuencias (absolutas o relativas)
de una variable, suponiendo conocido el valor de la otra variable.
I Notación: Y | X = ci , o X | Y = cj0 .
Distribución condicionada de frecuencias de la situación laboral (Y ) para
personas con un nivel educativo (X ) de Post-secundaria:
Y | X = Post-secundaria Empleado Desempleado Inactivo Total

Frec. cond. absoluta 317 8 89 414
Frec. cond. relativa 0.7657 0.0193 0.2150 1
I El 1.93 % de los encuestados con estudios de Post-secundaria está

desempleado
I ¿Qué porcentaje de individuos con estudios de secundaria o
superiores está desempleado?
Puede condicionarse también a que una variable tome varios valores:

I Y | X ≥ Secundaria.
Y | (X ≥ Secundaria) Empleado Desempleado Inactivo Total

Frec. cond. absoluta 710 36 346 1092
Frec. cond. relativa 0.6502 0.0330 0.3168 1
I El 3.3 % de los encuestados con estudios de secundaria o superiores

está desempleado.
¿Podemos emplear las distribuciones condicionadas para analizar la

relación entre la situación laboral y el nivel de estudios?
En Excel: Insertar gráfico → Columna 100 % apilada

Tabla de doble entrada para variables cuantitativas
I Muestra: 43 alumnos.
I Variable X : Núm. de veces que ha ido al teatro en el último mes.
I Variable Y : Núm. de veces que ha ido al cine en el último mes.
X e Y son variables cuantitativas discretas y toman un número pequeño

de valores distintos ⇒ datos sin agrupar
Teatro / Cine 0 1 2 3 4 Total

0 12 5 4 2 1 24
1 4 3 2 1 0 10
2 3 3 2 0 0 8
3 1 0 0 0 0 1
Total 20 11 8 3 1 43
I ¿Cuál es el número medio de veces que han ido al cine en el último

mes (independientemente del número de veces que hayan ido al
teatro)? ¿y al teatro?
I ¿Cuál es el número medio de veces que han ido al cine en el último
mes aquellos que no han ido ninguna vez al teatro? ¿y entre los que
han ido 1 vez al teatro? ¿y 2? ¿y 3?
Tabla de doble entrada para variables cuantitativas
I Muestra: 1000 empresas americanas.
I Variable X : Volumen de ventas.
I Variable Y : Núm. de trabajadores.
X e Y son cuantitativas discretas y toman un número grande de valores
distintos (o si son continuas) ⇒ datos agrupados
X /Y [1,25) [25,50) [50,75) [75,99] Total

[1,100) 0.293 0.122 0.098 0.049 0.561
[100,200) 0.098 0.073 0.049 0.024 0.244
[200,300] 0.073 0.073 0.049 0.000 0.195
Total 0.463 0.268 0.195 0.073 1.000
I ¿Cuántas empresas tienen un volumen de ventas menor que 100?

I ¿Qué porcentaje de empresas con menos de 25 trabajadores tiene un
volumen de ventas de al menos 200?
I ¿Qué proporción de empresas tiene menos de 25 trabajadores y un
volumen de ventas de al menos 200?
I ¿Cuál es el tamaño medio de todas las empresas de la muestra? ¿Y
de aquellas con un volumen de ventas menor que 100?
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE)
I ¿Qué distribuciones están representadas en la tabla anterior?

I ¿Qué porcentaje de encuestados con educación secundaria primera
etapa puntúa su satisfacción entre 5 y 6?
Muchas tablas en informes son tablas de frecuencias condicionadas
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE)
¿Verdadero o falso? Si es falso, ¿tienes suficiente información para

calcular el porcentaje verdadero?
I Entre los encuestados más satisfechos con su vida actual
(puntuación entre 9 y 10), el 23.3 % tiene educación superior.
I El 75.5 % de los encuestados con educación superior está satisfecho
o muy satisfecho con su vida actual (puntuación por encima de 7)
I El 38.5 % de los encuestados puntúa su satisfacción con su vida
actual por debajo de 5.
Es incorrecto sumar frecuencias condicionadas cuando se condiciona en
valores distintos
Ejercicio
Comenta los siguientes gráficos:
I ¿Qué distribuciones están representadas en el gráfico de barras?

I ¿Qué relación observas entre la satisfacción media con su vida actual
y el nivel educativo de los individuos?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
https://es.wikipedia.org/wiki/Paradoja_de_Simpson
Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975)
ADMISIONES
Admisiones Denegadas
56%
65%
44%
35%
HOMBRES MUJERES
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
Datos de admisiones desglosados por departamentos (A, …, F) y sexo:
ADMISIONES SOLICITUDES
Hombres Mujeres Hombres Mujeres
82%
825
68%
63%
62%
593
560
44%
417
393
37%
375
35%
35%
34%
341
33%
325
28%
272
24%
191
108
7%
6%
25
A B C D E F TOTAL A B C D E F
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Variables cualitativas y cuantitativas
I En la mayorı́a de los estudios se recogen datos de distinta

naturaleza, cualitativos y cuantitativos.
I Es habitual que las variables cualitativas se utilicen para clasificar: se
estudia el comportamiento de la variable cuantitativa según las
categorı́as de la variable cualitativa.
Ejemplo
I Muestra: 157 paı́ses.
I Variable Y : Puntuación promedio obtenida acerca del grado de
cumplimiento del ODS12 (Producción y Consumo Responsables)
I Variable X : Grupo de Ingresos en 2016.
¿Cómo cambia la puntuación promedio en el ODS12 de los paı́ses según

su nivel de ingresos?
Variables cualitativas y cuantitativas. Múltiples Box-Plot
(nota: SDG = ODS)
Average score on SDG12 (Producción y consumo responsables)

(nota: Low Income Countries (LIC), Low-Middle ... (LMIC), Upper-Middle ... (UMIC), High ... (HIC)
Average score on SDG12

60
50
40
FRECUENCIA
30
20
10
0
32.8 41.5 50.2 58.9 67.6 76.3 85 93.7
CLASE
Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Variables cualitativas y cuantitativas. Múltiples Histogramas
Average score on SDG12 (Producción y consumo responsables)
LIC-Average Score SDG12 LMIC-Average Score SDG12

8 20
7
6
FRECUENCIA
15
FRECUENCIA
5
4 10
3
2 5
1
0 0
76.6 78.7 80.8 82.9 85 71.2 75.7 80.2 84.7 89.2 93.7
CLASE CLASE
UMIC-Average Score SDG12 HIC-Average Score SDG12

12
16
14 10
FRECUENCIA
FRECUENCIA
12 8
10
8 6
6
4 4
2 2
0
0
49.2 54.6 60 65.4 70.8 76.2 81.6
31.3 38.4 45.5 52.6 59.7 66.8 73.9
CLASE
CLASE
Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Variables cualitativa y cuantitativa. Histogramas múltiples
I ¿Sigue habiendo brecha de género en el salario?

Resúmenes numéricos múltiples. Tablas de datos
I ¿Existe relación entre el salario y el nivel de formación?

Son habituales las tablas que presentan medidas numéricas de la variable
cuantitativa para cada categorı́a de la variable cualitativa:
Resúmenes numéricos múltiples. Tablas de datos
I ¿Existe relación entre el salario y el nivel de formación?
Los resultados de una tabla se pueden representar gráficamente.
La desviación del salario medio en % de un grupo g con respecto al

salario medio total se obtiene como:
x̄ − x̄
g total
Desvg = · 100
x̄total
Resúmenes numéricos múltiples. Pictogramas
I ¿Se observan diferencias entre los salarios de los trabajadores
dependiendo de su CCAA?
Los resultados de una tabla se pueden representar por medio de
pictogramas. En este caso, de un cartograma:
Variables cuantitativas. Diagrama de dispersión
I ¿Hay relación entre la superficie de una vivienda y su precio?
I Muestra: 15 viviendas.
I Variable Y : Precio.
I Variable X : m2 habitables.
m2 habitables precio
107 162657
114 165554
91 154506
100 162103 ● ●
165000
● ● ●
96 158271 Price of a house (euro) ●
107 166925 ● ●
●
●
104 161917 ●
160000
100 161149 ●
80 152263
155000
81 151878 ●
105 165678 ●
●
111 166696
80 85 90 95 100 105 110 115
108 165387
Size of a house (m^2)
97 161806
106 163824
Medidas de asociación lineal para variables cuantitativas
I La covarianza es una medida de la relación entre dos variables.
Cuantifica la información en un gráfico de dispersión sobre la
x y
asociación
1 0.81186553 1.71903042
2 0.98151318 1.77181509
lineal entre dos variables.
3 1.86964664 3.11027837
4 1.67494569 2.8040063
9 Y
5 1.67159679 3.13403354
6 2.06896883 4.82231585
7 2.07458768 3.77439638 8
8 2.1276676 3.98994917
9 2.0867583 4.6670687 7
10 3.01682761 4.4723854
11 2.21807301 4.87721889 6
12 1.31836091 3.52703885 xi>media(x)
13 0.94868813 2.44574875 5 yi>media(y)
14 3.71304211 8.19843302
15 1.50010914 2.49454861 4
16 3.08738201 5.43299601 X
17 1.3694318 0.92412073 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
3
18 1.86684042 3.80057902
xi<media(x)
19 1.24087921 1.55770547
yi<media(y) 2
20 2.07104626 4.70391609
21 0.71226336 0.26642136
22 1.44547522 3.01707838 1
23 2.44837446 4.86795198
24 3.38040178 6.17440013 0
25 0.69995779 0.85487048
26 0.93002587 0.00913399
27 2.53962691 5.79717576
Covarianza:
28 3.00173124 5.26160403
Pn
29 2.99222302 6.00492001
30
31
2.78137228
2.83313549
3.57409016
6.24472749 i=1 xi yi − nx̄ ȳ
32 1.21334859 1.78724959 z }| {!
n
1 X
sxy = (xi − x̄)(yi − ȳ ) − ∞ < sxy < ∞
n−1
i=1
Medidas de asociación lineal: La covarianza
I sxy >> 0 ⇒ Relación lineal positiva.

I sxy << 0 ⇒ Relación lineal negativa.
I sxy ≈ 0 ⇒ No existe relación lineal o existe relación no lineal.
I Inconvenientes de la covarianza:
I No está acotada ni superior ni inferiormente. Por lo tanto no se sabe
cuándo sxy es suficientemente grande o pequeña.
I Depende de las unidades de medida de las variables:
Si sxy es la covarianza de X e Y , a y b son dos números, y
T = a + bY , entonces sxt = b sxy .
Covarianza y relación entre variables
Medidas de asociación lineal: La correlación
I Correlación (coeficiente de correlación lineal de Pearson):

sxy
rxy =
sx sy
I ¿Ventajas?
I Está acotada: −1 ≤ rxy ≤ 1
I No depende de las unidades de medida de las variables (es
adimensional).
I Interpretación:
I rxy > 0: Asociación lineal positiva.
I rxy < 0: Asociación lineal negativa.
I |rxy | = 1: Relación lineal perfecta.
I rxy = 0: X e Y están incorreladas (ausencia de relación lineal).
Correlación y causalidad
I Supongamos que la correlación entre dos variables X e Y es muy

alta (p. ej., rxy = 0.9)
I ¿Podemos concluir que hay una relación causal entre ambas
variables? (una es causa de la otra)
I La respuesta es que NO.
I P. ej., X = tamaño de los pies de un niño, Y = capacidad de

comprensión lectora de un niño
I La correlación no implica causalidad
I Ver:
https://es.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
Ejemplo
Ejemplo- Tenemos tres variables sobre 91 paı́ses: X = esperanza de vida

en hombres, Y = esperanza de vida en mujeres, y Z = PIB.
I Las covarianzas entre los tres posibles pares de dos variables son
sxy = 105.15, sxz = 50066.04 y syz = 57917.93.
I Las correlaciones son rxy = 0.98, rxz = 0.64 y rxz = 0.65.
I Por lo tanto, aunque las covarianzas entre la esperanza de vida en

hombres y mujeres y el producto interior bruto sean mayores que la
covarianza entre la esperanza de vida para hombres y la esperanza
de vida para mujeres, la correlación es mayor entre estas dos últimas
variables.
Ejercicio: Resultados del informe PISA 2012
I Muestra: 64 paı́ses cuyos estudiantes realizaron el examen PISA en 2012.

I X : Puntuación media en lectura.
I Y : Puntuación media en matemáticas.
Se obtiene que
I La covarianza entre X e Y es sxy = 2440.78.
I La correlación entre X e Y es rxy = 0.96.
A continuación se muestra el diagrama de dispersión para estos datos.
I ¿Qué puedes concluir sobre la relación entre ambas variables?

Tema3esp 1718 6febrero

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema3esp 1718 6febrero

Cargado por

Copyright:

Formatos disponibles

Estadı́stica I

Tema 3: Análisis de datos bivariantes

3. Gráficos y resúmenes numéricos:

I ¿Afecta el paro en igual medida a toda la población

I Datos bivariantes: provienen de la observación simultánea de dos

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

I Además de analizar cada variable por separado, queremos estudiar si

X \Y Empleado (1) Desempleado (2) Inactivo (3)

X \ Y Empleado (1) Desempleado (2) Inactivo (3)

Cuando al menos una variable es cualitativa, la tabla de doble entrada

X \ Y Empleado Desempleado Inactivo

¿Y si solo nos interesa la situación laboral de los madrileños?

X \ Y Empleado Desempleado Inactivo Total

I Tabla de doble entrada con k filas y m columnas

X \ Y Empleado Desempleado Inactivo Total

I El 0.53 % de los encuestados tiene estudios de Post-secundaria y

I Frecuencia relativa marginal para la fila i (clase ci de X ):

fi = fi1 + · · · + fij + · · · + fim

I Frecuencia relativa marginal para la columna j (clase cj0 de Y ):

fj = f1j + · · · + fij + · · · + fkj

En Excel: Insertar gráfico → Columna agrupada

I ¿Y si solo nos interesa la situación laboral de los individuos con nivel

I ¿Tiene sentido comparar el número de desempleados con estudios de

Y | X = Post-secundaria Empleado Desempleado Inactivo Total

I El 1.93 % de los encuestados con estudios de Post-secundaria está

Puede condicionarse también a que una variable tome varios valores:

Y | (X ≥ Secundaria) Empleado Desempleado Inactivo Total

I El 3.3 % de los encuestados con estudios de secundaria o superiores

¿Podemos emplear las distribuciones condicionadas para analizar la

En Excel: Insertar gráfico → Columna 100 % apilada

X e Y son variables cuantitativas discretas y toman un número pequeño

Teatro / Cine 0 1 2 3 4 Total

I ¿Cuál es el número medio de veces que han ido al cine en el último

X /Y [1,25) [25,50) [50,75) [75,99] Total

I ¿Cuántas empresas tienen un volumen de ventas menor que 100?

I ¿Qué distribuciones están representadas en la tabla anterior?

¿Verdadero o falso? Si es falso, ¿tienes suficiente información para

Comenta los siguientes gráficos:

I ¿Qué distribuciones están representadas en el gráfico de barras?

Datos de admisiones desglosados por departamentos (A, …, F) y sexo:

I En la mayorı́a de los estudios se recogen datos de distinta

¿Cómo cambia la puntuación promedio en el ODS12 de los paı́ses según

Average score on SDG12 (Producción y consumo responsables)

Average score on SDG12

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

LIC-Average Score SDG12 LMIC-Average Score SDG12

UMIC-Average Score SDG12 HIC-Average Score SDG12

Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

I ¿Sigue habiendo brecha de género en el salario?

I ¿Existe relación entre el salario y el nivel de formación?

La desviación del salario medio en % de un grupo g con respecto al

I sxy >> 0 ⇒ Relación lineal positiva.

I Correlación (coeficiente de correlación lineal de Pearson):

I Supongamos que la correlación entre dos variables X e Y es muy

I P. ej., X = tamaño de los pies de un niño, Y = capacidad de

Ejemplo- Tenemos tres variables sobre 91 paı́ses: X = esperanza de vida

I Por lo tanto, aunque las covarianzas entre la esperanza de vida en

I Muestra: 64 paı́ses cuyos estudiantes realizaron el examen PISA en 2012.

También podría gustarte

fi = fi1 + · · · + fij + · · · + fim

fj = f1j + · · · + fij + · · · + fkj