Está en la página 1de 58

TEMA 5

TABULACIÓN Y
REPRESENTACIÓN GRÁFICA
DE DATOS BIVARIANTES
ÍNDICE

● INTRODUCCIÓN
● DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
● DISTRIBUCIONES MARGINALES
● DISTRIBUCIONES CONDICIONADAS
● REPRESENTACIONES GRÁFICAS
● DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA.
TIPOS DE DEPENDENCIA
INTRODUCCIÓN
● Temas anteriores: Tratamiento estadístico de una
única variable
● Ahora: Estudiar simultáneamente distintas
características de los individuos
● Ejemplo: Análisis de la situación socioeconómica de
las familias de una ciudad según:
- Tamaño familiar,
- Gastos e ingresos
- Nivel de instrucción
- Características de la vivienda, etc.
● Proporciona: Visión más enriquecedora de la
realidad.
● Estudiar si distintas variables se influyen
mutuamente: ¿Afecta el salario del cabeza de familia
a la estructura de gasto de la misma?
INTRODUCCIÓN
● Ejemplo

Fuente: INE. Decil de salarios del


empleo principal.
Encuesta de Población Activa (EPA)
Año 2015
INTRODUCCIÓN
● Ejemplo
INTRODUCCIÓN
● Ejemplo
DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
Ejemplo: Trabajadores de una empresa

● X: “Salario mensual (en €)” (Variable cuantitativa)


● Y: “Nivel de estudios” (Variable cualitativa ordinal)

Secundaria Bachillerato Universitarios


1000 - 1500 18 9 3
1500 - 2000 15 24 6
2000 - 2500 6 19 15
2500 - 3000 1 3 6

 ¿Cuántos trabajadores tienen estudios universitarios


y un sueldo entre 2.000 y 2.500€?
 ¿Qué porcentaje de trabajadores tienen un sueldo
inferior a 1.500€ y estudios de bachillerato?
DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
● Concepto
● Observamos dos variables X e Y sobre una misma
población de tamaño N
X toma valores xi (i =1,…,k)
Y toma valores yj (j =1,…,h)

● Frecuencia absoluta conjunta (nij): número de veces


que ha sido observado el par (xi, yj)

● Frecuencia relativa conjunta (fij): proporción de veces


sobre N que se presenta conjuntamente el par (xi, yj)
DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
● Distribución de frecuencias conjunta:
Terna (xi, yj, nij), i = 1,...,k; j = 1,...,h

● Tabla de doble entrada: Los valores de las variables


x e y se representan en los márgenes y la frecuencia
de cada pareja de clases se representa en la casilla
correspondiente
X\Y y1 y2 … yj … yh
x1 n11 n12 … n1j … n1h
x2 n21 n22 … n2j … n2h
… … … … … … …
xi ni1 ni2 … nij … nih
… … … … … … …
xk nk1 nk2 … nkj … nkh
DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
● Distribución de frecuencias relativas conjunta:
Terna (xi, yj, fij), i = 1,...,k; j = 1,...,h

● Tabla de doble entrada: Los valores de las variables x


e y se representan en los márgenes y la frecuencia de
cada pareja de clases se representa en la casilla
correspondiente

X\Y y1 y2 … yj … yh
x1 f11 f12 … f1j … f1h
x2 f21 f22 … f2j … f2h
… … … … … … …
xi fi1 fi2 … fij … fih
… … … … … … …
xk fk1 fk2 … fkj … fkh
DISTRIBUCIÓN DE FRECUENCIAS CONJUNTA
● Frecuencias conjuntas absolutas y relativas
● Ejemplo
Secundaria Bachillerato Universitarios
1000 - 1500 18 9 3
1500 - 2000 15 24 6
2000 - 2500 6 19 15
2500 - 3000 1 3 6

Secundaria Bachillerato Universitarios


1000 - 1500 14,4% 7,2% 2,4%
1500 - 2000 12,0% 19,2% 4,8%
2000 - 2500 4,8% 15,2% 12,0%
2500 - 3000 0,8% 2,4% 4,8%
DISTRIBUCIONES MARGINALES
● Ejercicio
Secundaria Bachillerato Universitarios
1000 - 1500 18 9 3
1500 - 2000 15 24 6
2000 - 2500 6 19 15
2500 - 3000 1 3 6

Secundaria Bachillerato Universitarios


1000 - 1500 14,4% 7,2% 2,4%
1500 - 2000 12,0% 19,2% 4,8%
2000 - 2500 4,8% 15,2% 12,0%
2500 - 3000 0,8% 2,4% 4,8%

 ¿Cuántos trabajadores universitarios hay?


 ¿Qué porcentaje de trabajadores cobran más de 2.500€?
 ¿Cuál es aproximadamente el salario medio?
 ¿Cuál es el nivel de estudios más frecuente?
DISTRIBUCIONES MARGINALES
● Ejercicio
Secundaria Bachillerato Universitarios
1000 - 1500 18 9 3 30
1500 - 2000 15 24 6 45
2000 - 2500 6 19 15 40
2500 - 3000 1 3 6 10
40 55 30 125

Secundaria Bachillerato Universitarios


1000 - 1500 14,4% 7,2% 2,4% 24,0%
1500 - 2000 12,0% 19,2% 4,8% 36,0%
2000 - 2500 4,8% 15,2% 12,0% 32,0%
2500 - 3000 0,8% 2,4% 4,8% 8,0%
32,0% 44,0% 24,0% 100,0%

 ¿Cuántos trabajadores universitarios hay?


 ¿Qué porcentaje de trabajadores cobran más de 2.500€?
 ¿Cuál es aproximadamente el salario medio?
 ¿Cuál es el nivel de estudios más frecuente?
DISTRIBUCIONES MARGINALES
● Frecuencias marginales: Se obtienen de sumar
frecuencias conjuntas (absolutas o relativas) por filas y por
columnas.
● Frecuencia marginal absoluta de X (ni.): número de veces
que es observado el valor xi independientemente de los
valores de la variable Y

. .

● Frecuencia marginal absoluta de Y (n.j): número de veces


que es observado el valor yj independientemente de los
valores de la variable X

. .
DISTRIBUCIONES MARGINALES
● Distribución marginal de X

En la tabla de doble entrada, la distribución marginal


de X se obtiene sumando las frecuencias por filas

X\Y y1 y2 … yj … yh ni.
x1 n11 n12 … n1j … n1h n1.
x2 n21 n22 … n2j … n2h n2.
… … … … … … … …
xi ni1 ni2 … nij … nih ni.
… … … … … … … …
xk nk1 nk2 … nkj … nkh nk.
n.j n.1 n.2 … n.j … n.h N
DISTRIBUCIONES MARGINALES
● Distribución marginal de Y

En la tabla de doble entrada, la distribución marginal de


Y se obtiene sumando las frecuencias por columnas

X\Y y1 y2 … yj … yh ni.
x1 n11 n12 … n1j … n1h n1.
x2 n21 n22 … n2j … n2h n2.
… … … … … … … …
xi ni1 ni2 … nij … nih ni.
… … … … … … … …
xk nk1 nk2 … nkj … nkh nk.
n.j n.1 n.2 … n.j … n.h N
DISTRIBUCIONES MARGINALES
● Distribuciones marginales en términos relativos

● Frecuencia marginal relativa de X (fi.):

.
.
.

● Frecuencia marginal relativa de Y (f.j):

.
.
.
DISTRIBUCIONES MARGINALES

● Distribuciones marginales en términos relativos

X\Y y1 y2 … yj … yh fi.
x1 f11 f12 … f1j … f1h f1.
x2 f21 f22 … f2j … f2h f2.
… … … … … … … …
xi fi1 fi2 … fij … fih fi.
… … … … … … … …
xk fk1 fk2 … fkj … fkh fk.
f.j f.1 f.2 … f.j … f.h 1
DISTRIBUCIONES CONDICIONADAS
● Ejercicio
Secundaria Bachillerato Universitarios ni.
1000 - 1500 18 9 3 30
1500 - 2000 15 24 6 45
2000 - 2500 6 19 15 40
2500 - 3000 1 3 6 10
n.j 40 55 30 125

 ¿Cuál es aproximadamente el salario medio de los


trabajadores universitarios?
 ¿Cuál es el nivel de estudios mediano de los trabajadores que
tienen un salario entre 2.000 y 2.500 €?
 ¿Qué porcentaje de trabajadores con estudios de secundaria
tienen un salario inferior a 1.500 €?
 ¿En qué rango salarial hay mayor porcentaje de
universitarios?
DISTRIBUCIONES CONDICIONADAS
● Concepto

● Es la distribución de una de las dos variables, cuando


fijamos un valor o modalidad concreto en la otra

● Distribución de X condicionada por Y:


○ Cuando fijamos el valor de Y y estudiamos la distribución de la
variable X
○ En nuestro ejemplo, estudiamos el salario (X) para los trabajadores
de un cierto nivel educativo (para un valor concreto de Y)
● Distribución de Y condicionada por X:
○ Cuando fijamos el valor de X y estudiamos la distribución de la
variable Y
○ En nuestro ejemplo, estudiamos nivel educativo (Y) de los
trabajadores que tienen un salario determinado (X)
DISTRIBUCIONES CONDICIONADAS
● Distribuciones de X condicionadas por cada valor Y=yj:

X\Y y1 y2 … yj … yh ni.
x1 n11 n12 … n1j … n1h n1.
x2 n21 n22 … n2j … n2h n2.
… … … … … … … …
xi ni1 ni2 … nij … nih ni.
… … … … … … … …
xk nk1 nk2 … nkj … nkh nk.
n.j n.1 n.2 … n.j … n.h N
DISTRIBUCIONES CONDICIONADAS
● Distribuciones de X condicionadas por cada valor Y=yj:

X\Y y1 y2 … yj … yh ni. X\Y yj


x1 n11 n12 … n1j … n1h n1. x1 n1j
x2 n21 n22 … n2j … n2h n2. x2 n2j
… … … … … … … … … …
xi ni1 ni2 … nij … nih ni. xi nij
… … … … … … … … … …
xk nk1 nk2 … nkj … nkh nk. xk nkj
n.j n.1 n.2 … n.j … n.h N n.j n.j
DISTRIBUCIONES CONDICIONADAS
● Perfiles columna
Distribución de X (frecuencias relativas) para cada
valor/modalidad de la variable Y (Y=yj)

/
.

X\Y y1 y2 … yj … yh Marginal X
x1 fX=x1|Y=y1 fX=x1|Y=y2 … fX=x1|Y=yj … fX=x1|Y=yh f1.
x2 fX=x2|Y=y1 fX=x2|Y=y2 … fX=x2|Y=yj … fX=x2|Y=yh f2.
… … … … … … … …
xi fX=xi|Y=y1 fX=xi|Y=y2 … fX=xi|Y=yj … fX=xi|Y=yh fi.
… … … … … … … …
xk fX=xk|Y=y1 fX=xk|Y=y2 … fX=xk|Y=yj … fX=xk|Y=yh fk.
Total 1 1 … 1 … 1 1
DISTRIBUCIONES CONDICIONADAS
● Distribuciones de Y condicionadas por cada valor X = xi:

X\Y y1 y2 … yj … yh ni.
x1 n11 n12 … n1j … n1h n1.
x2 n21 n22 … n2j … n2h n2.
… … … … … … … …
xi ni1 ni2 … nij … nih ni.
… … … … … … … …
xk nk1 nk2 … nkj … nkh nk.
n.j n.1 n.2 … n.j … n.h N
DISTRIBUCIONES CONDICIONADAS
● Distribuciones de Y condicionadas por cada valor X = xi:
o
X\Y y1 y2 … yj … yh ni.
x1 n11 n12 … n1j … n1h n1.
x2 n21 n22 … n2j … n2h n2.
… … … … … … … …
xi ni1 ni2 … nij … nih ni.
… … … … … … … …
xk nk1 nk2 … nkj … nkh nk.
n.j n.1 n.2 … n.j … n.h N

X\Y y1 y2 … yj … yh ni.
xi ni1 ni2 … nij … nih ni.
DISTRIBUCIONES CONDICIONADAS
● Perfiles fila

Distribución de Y (frecuencias relativas) para cada


valor/modalidad de la variable X (X=xi)

/
.

X\Y y1 y2 … yj … yh Total
x1 fY=y1|X=x1 fY=y2|X=x1 … fY=yj|X=x1 … fY=yh|X=x1 1
x2 fY=y1|X=x2 fY=y2|X=x2 … fY=yj|X=x2 … fY=yh|X=x2 1
… … … … … … … …
xi fY=y1|X=xi fY=y2|X=xi … fY=yj|X=xi … fY=yh|X=xi 1
… … … … … … … …
xk fY=y1|X=xk fY=y2|X=xk … fY=yj|X=xk … fY=yh|X=xk 1
Marginal Y f.1 f.2 … f.j … f.h 1
DISTRIBUCIONES CONDICIONADAS
● Ejemplo

Distribuciones de X condicionadas por Y (perfiles columnas):

Secundaria Bachillerato Universitarios fi.


1000-1500 45,0% 16,4% 10,0% 24,0%
1500-2000 37,5% 43,6% 20,0% 36,0%
2000-2500 15,0% 34,5% 50,0% 32,0%
2500-3000 2,5% 5,5% 20,0% 8,0%
100,0% 100,0% 100,0% 100,0%

Distribuciones de Y condicionadas por X (perfiles fila):

Secundaria Bachillerato Universitarios


1000-1500 60,0% 30,0% 10,0% 100,0%
1500-2000 33,3% 53,3% 13,3% 100,0%
2000-2500 15,0% 47,5% 37,5% 100,0%
2500-3000 10,0% 30,0% 60,0% 100,0%
f.j 32,0% 44,0% 24,0% 100,0%
DISTRIBUCIONES CONDICIONADAS
● Ejemplo: Estaturas-Sexo Hombre Mujer Marginal X
150-155 0,00% 3,77% 1,47%
155-160 1,20% 16,98% 7,35%
160-165 3,61% 39,62% 17,65%
165-170 12,05% 20,75% 15,44%
Sexo 170-175 21,69% 15,09% 19,12%
Hombre Mujer TOTAL 175-180 27,71% 0,00% 16,91%
150-155 0 2 2 180-185 19,28% 1,89% 12,50%
155-160 1 9 10 185-190 12,05% 1,89% 8,09%
160-165 3 21 24 190-195 2,41% 0,00% 1,47%
165-170 10 11 21 TOTAL 100% 100% 100,00%
170-175 18 8 26
175-180 23 0 23
Hombre Mujer TOTAL
180-185 16 1 17
150-155 0,00% 100,00% 100%
185-190 10 1 11
155-160 10,00% 90,00% 100%
190-195 2 0 2
160-165 12,50% 87,50% 100%
TOTAL 83 53 136
165-170 47,62% 52,38% 100%
170-175 69,23% 30,77% 100%
175-180 100,00% 0,00% 100%
180-185 94,12% 5,88% 100%
185-190 90,91% 9,09% 100%
190-195 100,00% 0,00% 100%
Marginal Y 61,03% 38,97% 100%
DISTRIBUCIONES CONDICIONADAS
● Grado Asistencia - Provincias
Zaragoza Huesca Teruel Aragón
No hospitalizado 3195 823 410 4428
Hospitalización normal 1901 251 221 2373
Hospitalización UCI 191 41 33 265
Contagiados 5287 1115 664 7066

Perfiles columna Zaragoza Huesca Teruel Aragón


No hospitalizado 60,4% 73,8% 61,7% 62,7%
Hospitalización normal 36,0% 22,5% 33,3% 33,6%
Hospitalización UCI 3,6% 3,7% 5,0% 3,8%

Perfiles fila Zaragoza Huesca Teruel


No hospitalizado 72,2% 18,6% 9,3%
Hospitalización normal 80,1% 10,6% 9,3%
Hospitalización UCI 72,1% 15,5% 12,5%
Contagiados 74,8% 15,8% 9,4%
REPRESENTACIONES GRÁFICAS
Normalmente es más interesante representar
gráficamente las distribuciones condicionadas que la
distribución conjunta
Distribución conjunta
4000
Zaragoza Huesca Teruel
2000
No hospitalizado 3195 823 410
Hospitalización normal 1901 251 221 0
Hospitalización UCI 191 41 33 Zaragoza Huesca Teruel
No hospitalizado Hospitalización normal
Hospitalización UCI

Grado de asistencia según provincia


Zaragoza Huesca Teruel 100,0%
No hospitalizado 60,4% 73,8% 61,7%
Hospitalización normal 36,0% 22,5% 33,3% 0,0%
Hospitalización UCI 3,6% 3,7% 5,0% Zaragoza Huesca Teruel
Totales 100% 100% 100%
No hospitalizado Hospitalización normal
Hospitalización UCI
REPRESENTACIONES GRÁFICAS
Tipos de representaciones gráficas
● Si las dos variables son cualitativas:
○ Gráfico de barras o columnas agrupadas
○ Gráfico de barras o columnas apiladas

● Si las dos variables son cuantitativas:


○ Polígono de frecuencias (usar las densidades de
frecuencia!)

● Si una variable es cualitativa y la otra cuantitativa


○ Emplear el tipo apropiado de gráfico dependiendo de la
variable que se quiere representar

● Tipos especiales para variables específicas


○ Pirámides de población
REPRESENTACIONES GRÁFICAS
● Ambas variables son cualitativas
Zaragoza Huesca Teruel ni.
No hospitalizado 3195 823 410 4428
X – Grado de Hospitalización normal 1901 251 221 2373
hospitalización Hospitalización UCI 191 41 33 265
Y – Provincia n.j 5287 1115 664 7066

Perfiles fila: Zaragoza Huesca Teruel Total


No hospitalizado 72,2% 18,6% 9,3% 100,0%
Distribución de los enfermos Hospitalización normal 80,1% 10,6% 9,3% 100,0%
por provincias según el grado Hospitalización UCI 72,1% 15,5% 12,5% 100,0%
Marginal Y 74,8% 15,8% 9,4% 100,0%
de hospitalización

Perfiles columna: Zaragoza Huesca Teruel Margin. X


No hospitalizado 60,4% 73,8% 61,7% 62,7%
Distribución del grado de Hospitalización normal 36,0% 22,5% 33,3% 33,6%
hospitalización para cada Hospitalización UCI 3,6% 3,7% 5,0% 3,8%
provincia Total 100,0% 100,0% 100,0% 100,0%
REPRESENTACIONES GRÁFICAS
● Ambas variables son cualitativas
● Perfiles fila: Distribución por provincias según grado
de hospitalización
Zaragoza Huesca Teruel Marg. X
No hospitalizado 72,2% 18,6% 9,3% 100,0%
Hospitalización normal 80,1% 10,6% 9,3% 100,0%
Hospitalización UCI 72,1% 15,5% 12,5% 100,0%
Total 74,8% 15,8% 9,4% 100,0%

Gráfico de columnas agrupadas Gráfico de columnas apiladas


Distribución por provincias según Distribución por provincias según
grado de hospitalización grado de hospitalización
100,0% 100,0%
50,0% 50,0%
0,0% 0,0%

Zaragoza Huesca Teruel Zaragoza Huesca Teruel


REPRESENTACIONES GRÁFICAS
● Ambas variables son cualitativas
● Perfiles columna: Grado de hospitalización por
provincias Zaragoza Huesca Teruel Marg. X
No hospitalizado 60,4% 73,8% 61,7% 62,7%
Hospitalización normal 36,0% 22,5% 33,3% 33,6%
Hospitalización UCI 3,6% 3,7% 5,0% 3,8%
Total 100,0% 100,0% 100,0% 100,0%

Gráfico de columnas agrupadas Gráfico de columnas apiladas


Distribución del grado de Distribución del grado de
hospitalización por provincias hospitalización por provincias
100,0% 200,0%
0,0% 0,0%
Zaragoza Huesca Teruel Marg. X Zaragoza Huesca Teruel Marg. X

No hospitalizado Hospitalización UCI


Hospitalización normal Hospitalización normal
Hospitalización UCI No hospitalizado
REPRESENTACIONES GRÁFICAS
● Ambas variables son cuantitativas
Una empresa que comercializa una plataforma de contenidos online quiere
analizar la relación entre su inversión mensual en publicidad (variable X,
medida en miles de euros) y el número de altas mensuales en su servicio
(variable Y, medida en miles de suscriptores). Analizando los datos
históricos de los últimos años obtiene la tabla de frecuencias que se
muestra a continuación:
0-2 2-4 4-6
0 - 10 5 1 0 6
10 - 20 3 5 2 10
20 - 30 2 8 4 14
30 - 40 1 6 13 20
11 20 19 50

Ambas variables son cuantitativas y se encuentran


agrupadas en intervalos. En estos casos tendremos que
emplear polígonos de frecuencias.
REPRESENTACIONES GRÁFICAS
● Ambas variables son cuantitativas
● Perfiles fila
0-2 2-4 4-6
0 - 10 83,3% 16,7% 0,0% 100,0%
Distribución de las altas (Y) según
10 - 20 30,0% 50,0% 20,0% 100,0% la inversión en publicidad:
20 - 30 14,3% 57,1% 28,6% 100,0% • Y es una variable cuantitativa
30 - 40 5,0% 30,0% 65,0% 100,0% agrupada en intervalos: polígono
Marginal Y 22,0% 40,0% 38,0% 100,0% de frecuencias

Hay que construir un polígono de


frecuencias para cada fila (para
Distribución de las altas
cada modalidad de la variable X). según el gasto en publicidad
100,0%
Recordad:
• En el eje de abscisas se 50,0%
representan las marcas de clase.
• Si los intervalos de la variable 0,0%
0 1 2 3 4 5 6
(Y) tuvieran amplitudes
diferentes, sería necesario 0 - 10 10 - 20 20 - 30
calcular las densidades relativas. 30 - 40 Marginal Y
REPRESENTACIONES GRÁFICAS
● Ambas variables son cuantitativas
● Perfiles columna
0-2 2-4 4-6 Marginal X Distribución de la inversión en
0 - 10 45,5% 5,0% 0,0% 12,0%
publicidad (X) según las altas
10 - 20 27,3% 25,0% 10,5% 20,0%
20 - 30 18,2% 40,0% 21,1% 28,0% • X es una variable cuantitativa
30 - 40 9,1% 30,0% 68,4% 40,0% agrupada en intervalos: polígono
100,0% 100,0% 100,0% 100,0% de frecuencias

Hay que construir un polígono de


frecuencias para cada columna Distribución del gasto en
(para cada modalidad de la variable publicidad según las altas
Y). 80,0%
Recordad: 60,0%
• En el eje de abscisas se 40,0%
representan las marcas de clase.
20,0%
• Si los intervalos de la variable
(X) tuvieran amplitudes 0,0%
0 10 20 30 40
diferentes, sería necesario
calcular las densidades relativas. 0-2 2-4 4-6 Marg. X
REPRESENTACIONES GRÁFICAS
● Una variable cualitativa y otra cuantitativa
● Distribución del salario y del nivel educativo
Perfiles fila: Distribución del nivel educativo (Y) para cada rango salarial:
• Y es una variable cualitativa: gráfico de columnas (agrupadas o apiladas)
Secundaria Bachillerato Universitarios
1000-1500 60,0% 30,0% 10,0% 100,0%
1500-2000 33,3% 53,3% 13,3% 100,0%
2000-2500 15,0% 47,5% 37,5% 100,0%
2500-3000 10,0% 30,0% 60,0% 100,0%
f.j 32,0% 44,0% 24,0% 100,0%

Distribución del nivel educativo según


Se aprecia que entre los
trabajadores con menos
el rango salarial salario lo más frecuente es
80,0% tener sólo estudios
60,0% secundarios.
40,0%
20,0% Sin embargo, en el grupo de
0,0% mayor rango salarial
1000-1500 1500-2000 2000-2500 2500-3000 Marginal Y predominan los trabajadores
con formación universitaria.
Secundaria Bachillerato Universitarios
REPRESENTACIONES GRÁFICAS
● Una variable cualitativa y otra cuantitativa
● Distribución del salario y del nivel educativo
Perfiles columna: Distribución del salario (X) según el nivel educativo
• X es una variable cuantitativa: polígonos de frecuencia
Secundaria Bachillerato Universitarios fi.
1000-1500 45,0% 16,4% 10,0% 24,0%
1500-2000 37,5% 43,6% 20,0% 36,0%
2000-2500 15,0% 34,5% 50,0% 32,0%
2500-3000 2,5% 5,5% 20,0% 8,0%
100,0% 100,0% 100,0% 100,0%
Los trabajadores con educación
Distribución de los salarios según el secundaria suelen tener sueldos
nivel educativo bajos. Muy pocos llegan a niveles
salariales altos.
60,0%
40,0%
Con los trabajadores con estudios
universitarios se aprecia lo
20,0% contrario: pocos son los que
0,0% tienen salarios bajos,
1000 1500 2000 2500 3000 concentrándose la mayoría en el
rango 2000-2500.
Secundaria Bachillerato
Situación intermedia para los que
Universitarios Marginal X tienen bachillerato
REPRESENTACIONES GRÁFICAS
● Gráficos especiales para algunas variables
● Pirámides de población
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Dos variables son independientes entre sí, si los valores
que toma una de ellas no están afectados por los valores
que toma la otra
● X e Y son estadísticamente independientes si se verifica
alguna de las siguientes condiciones
○ | .

○ | .

○ . .
● Estas condiciones son equivalentes. Si se verifica una de ellas,
lo hacen las otras dos
● La primera condición significa que todas las distribuciones de
X condicionadas coinciden con la distribución marginal de X
● La segunda implica que todas las distribuciones de Y
condicionadas coinciden con la distribución marginal de Y.
● La tercera indica que las frecuencias conjuntas relativas
coinciden con el producto de las correspondientes
marginales relativas
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Salario y nivel educativo
Distribución conjunta del salario y el
nivel educativo
Secundaria Bachillerato Universitarios
1000 -
1500 14,4% 7,2% 2,4% 24,0%
1500 -
2000 12,0% 19,2% 4,8% 36,0%
2000 -
2500 4,8% 15,2% 12,0% 32,0%
2500 -
3000 0,8% 2,4% 4,8% 8,0%
32,0% 44,0% 24,0% 100,0%

Distribuciones de X condicionadas Distribuciones de Y condicionadas


por Y (perfiles columna): por X (perfiles fila):
Secundaria Bachillerato Universitarios fi. Secundaria Bachillerato Universitarios
1000-1500 45,0% 16,4% 10,0% 24,0% 1000-1500 60,0% 30,0% 10,0% 100,0%
1500-2000 37,5% 43,6% 20,0% 36,0% 1500-2000 33,3% 53,3% 13,3% 100,0%
2000-2500 15,0% 34,5% 50,0% 32,0% 2000-2500 15,0% 47,5% 37,5% 100,0%
2500-3000 2,5% 5,5% 20,0% 8,0% 2500-3000 10,0% 30,0% 60,0% 100,0%
100,0% 100,0% 100,0% 100,0% f.j 32,0% 44,0% 24,0% 100,0%
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA

Hombres Mujeres
No Fumador 30 45
Ocasional 10 15
Habitual 36 54
Empedernido 24 36
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA

Hombres Mujeres ni.


No Fumador 30 45 75
Ocasional 10 15 25
Habitual 36 54 90
Empedernido 24 36 60
n.j 100 150 250
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Perfiles columna
Hombre Mujer ni. Hombre Mujer Marg. X.
No Fumador 30 45 75 No Fumador 30% 30% 30%
Ocasional 10 15 25 Ocasional 10% 10% 10%
Habitual 36 54 90 Habitual 36% 36% 36%
Empedernido 24 36 60 Empedernido 24% 24% 24%
100 150 250 100% 100% 100%

Perfiles columna = Perfil de la Marginal X, por lo tanto son independientes


También lo podíamos haber visto en el gráfico:

Distribución del hábito de tabaco Distribución del hábito de tabaco


dado el sexo dado el sexo
100% 50%

0% 0%
Hombre Mujer Marg. X. Hombre Mujer Marg. X.

No Fumador Ocasional No Fumador Ocasional


Habitual Empedernido Habitual Empedernido
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Perfiles fila
Hombre Mujer Hombre Mujer
No Fumador 30 45 75 No Fumador 40% 60% 100%
Ocasional 10 15 25 Ocasional 40% 60% 100%
Habitual 36 54 90 Habitual 40% 60% 100%
Empedernido 24 36 60 Empedernido 40% 60% 100%
Marginal Y 100 150 250 Marginal Y 40% 60% 100%

Perfiles fila = Perfil de la Marginal Y, por lo tanto son independientes


También lo podíamos haber visto en el gráfico:

Distribución del sexo dado el nivel Distribución del sexo dado el nivel
en el hábito de fumar en el hábito de fumar
100% 100%
50% 50%
0% 0%

Hombre Mujer Hombre Mujer


DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Frecuencias relativas

Hombres Mujeres ni. Comprobar que fij =fi.f.j


No Fumador 30 45 75 i = 1,…,k j = 1,…,h
Ocasional 10 15 25
Habitual 36 54 90
𝟏• •𝟏 𝟏𝟏
Empedernido 24 36 60
n.j 100 150 250 𝟏• •𝟐 𝟏𝟐

𝟐• •𝟏 𝟐𝟏

Hombres Mujeres fi. 𝟐• •𝟐 𝟐𝟐

No Fumador 0,120 0,180 0,30 𝟑• •𝟏 𝟑𝟏


Ocasional 0,040 0,060 0,10
𝟑• •𝟐 𝟑𝟐
Habitual 0,144 0,216 0,36
Empedernido 0,096 0,144 0,24 𝟒• •𝟏 𝟒𝟏

f.j 0,40 0,60 1 𝟒• •𝟐 𝟒𝟐


DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA

● Dependencia funcional: una de las variables


puede ser expresada en función de la otra

● Dependencia estadística: existe una cierta


relación entre las variables (situaciones
intermedias)
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA

● Ejemplo: Tamaño y sector de un conjunto de compañías

● A partir de las frecuencias relativas conjuntas y


marginales
Comercial Industrial Servicios ni.
Pequeña 30 2 5 37
Media 0 27 1 28
Grande 2 3 30 35
n.j 32 32 36 100

NO independientes
estadísticamente
• •
DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Ejemplo: Tamaño y sector de un conjunto de compañías
● A partir de los perfiles fila: Distribución del sector
dado el tamaño
Comercial Industrial Servicios TOTAL
Pequeña 81% 5% 14% 100%
Media 0% 96% 4% 100%
Grande 6% 9% 86% 100%
Marginal Y 32% 32% 36% 100%

Perfiles fila muy diferentes entre NO


sí y también diferentes de la independientes
distribución marginal de Y estadísticamente
Distribución del sector dado el tamaño Distribución del sector dado el tamaño
100% 100%
80% 80%
60% 60%
40% 40%
20% 20%
0% 0%
Pequeño Medio Grande Marginal Y Pequeño Medio Grande Marginal Y

Comercial Industrial Servicios Comercial Industrial Servicios


DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA
● Ejemplo: Tamaño y sector de un conjunto de compañías
● A partir de los perfiles columna: Distribución del
tamaño dado el sector
Comercial Industrial Servicios Marginal X
Pequeña 94% 6% 14% 37%
Media 0% 84% 3% 28%
Grande 6% 9% 83% 35%
TOTAL 100% 100% 100% 100%

Perfiles columna muy diferentes NO


entre sí y también diferentes de independientes
la distribución marginal de X estadísticamente
Distribución del tamaño dado el sector Distribución del tamaño dado el
100%
sector
80% 100%
60%
40% 50%
20%
0% 0%
Comercial Industrial Servicios Marginal X Comercial Industrial Servicios Marginal X

Pequeño Medio Grande Pequeño Medio Grande


Ejercicio
En una empresa se ha seleccionado un grupo de 100
trabajadores para estudiar su edad (X) y el número de días al
año que están de baja por enfermedad (Y), obteniéndose los
resultados que se muestran en la tabla. Responder las siguientes
cuestiones:
0-5 5-10 10-20
18-30 16 12 0
30-45 28 6 4
45-67 16 13 5

a) ¿Cuál es el número medio de días al año que estos


trabajadores están de baja por enfermedad? ¿Es este valor
representativo?

b) ¿Cuál es el número medio de días al año que los


trabajadores de más de 30 años trabajadores están de baja
por enfermedad? ¿Y el número mediano de días? ¿Y el
número más frecuente de días?
Ejercicio
En una empresa se ha seleccionado un grupo de 100
trabajadores para estudiar su edad (X) y el número de días al
año que están de baja por enfermedad (Y), obteniéndose los
resultados que se muestran en la tabla. Responder las siguientes
cuestiones:
0-5 5-10 10-20
18-30 16 12 0
30-45 28 6 4
45-67 16 13 5
c) ¿Son independientes estadísticamente las variables X e Y?
d) Obtén la distribución del número de días de baja dada su
edad. ¿De qué perfiles, fila o columna, se trata? A partir de
estos perfiles, ¿qué puedes decir de la independencia de
estas variables?
e) Obtén los otros perfiles (fila o columna). Interprétalos en el
contexto de los datos
Ejercicio
a) ¿Cuál es el número medio de días al año que estos
trabajadores están de baja por enfermedad? ¿Es este valor
representativo?
yj 2,5 7,5 15
xi 0-5 5-10 10-20 ni.
24 18-30 16 12 0 28
37,5 30-45 28 6 4 38
56 45-67 16 13 5 34
n.j 60 31 9 100
n.jyj 150 232,5 135 517,5
n.jyj2 375 1743,8 2025 4143,8

No representativo
 
S
Ejercicio
b) ¿Cuál es el número medio de días al año que los
trabajadores de más de 30 años trabajadores están de baja por
enfermedad? ¿Y el número mediano de días? ¿Y el número
más frecuente de días?
yj 2,5 7,5 15
xi 0-5 5-10 10-20 ni.
24 18-30 16 12 0 28
37,5 30-45 28 6 4 38
56 45-67 16 13 5 34 Mediana: buscamos en las
n.j 60 31 9 100 frecuencias acumuladas el
n.jyj 150 232,5 135 517,5
valor 36 (N/2). El intervalo
mediano es (0, 5), por lo
n.jyj2 375 1743,8 2025 4143,8
que la mediana es 2,5 días
nj|X>30 44 19 9 72
njyj|X>30 110 142,5 135 387,5 El intervalo modal es el de
Nj|X>30 44 63 72 mayor densidad: (0, 5)
aj 5 5 10
dj 8,8 3,8 0,9
Ejercicio
c) ¿Son independientes estadísticamente las variables X e Y?

yj 2,5 7,5 15
xi 0-5 5-10 10-20 ni. Para comprobar que
24 18-30 16 12 0 28 son dependientes
37,5 30-45 28 6 4 38 basta con ver que para
56 45-67 16 13 5 34 alguna fila y columna
n.j 60 31 9 100 no se verifica fij = fi.f.j

NO
independientes
• •
estadísticamente
Ejercicio
d) Obtén la distribución del número de días de baja dada su edad.
¿De qué perfiles, fila o columna, se trata? A partir de estos
perfiles, ¿qué puedes decir de la independencia de estas
variables? Son los perfiles fila.
0-5 5-10 10-20 TOTAL Las distribuciones del número de
18-30 57.1% 42.9% 0.0% 100.0% días de baja son diferentes
30-45 73.7% 15.8% 10.5% 100.0% dependiendo de la edad del
45-67 47.1% 38.2% 14.7% 100.0% trabajador. Por lo tanto, las dos
Marginal Y 60.0% 31.0% 9.0% 100.0% variables no son estadísticamente
independientes.

e) Obtén los otros perfiles (fila o columna). Interprétalos en el contexto


de los datos
Son los perfiles columna. Se
0-5 5-10 10-20 Marginal X
corresponden con las
18-30 26.7% 38.7% 0.0% 28.0%
distribuciones de la edad de los
30-45 46.7% 19.4% 44.4% 38.0%
45-67 26.7% 41.9% 55.6% 34.0% trabajadores dado el número
TOTAL 100.0% 100.0% 100.0% 100.0% de días de baja
Mapa conceptual

También podría gustarte