Taller 5

Taller 5
Lina Buitrago PhD(c), labuitragor@unal.edu.co

Juan Sosa PhD, jcsosam@unal.edu.co
1. Considere la base de datos dada en el archivo taller05_datos.txt, la cual

contiene los datos de n=1,000n=1,000 individuos en relación con las siguientes
variables:
 Ingresos (en millones de pesos).

 Sexo (1 = Hombre; 0 = Mujer).
A continuación se presenta el procedimiento importar este conjunto de datos en R. Observe

que para importar la base de datos exitosamente en R por medio de la rutina read.table,
hay que proporcionar la ruta de acceso estableciendo el directorio de trabajo con setwd.
¡No olvide actualizar esta ruta!
# establecer el directorio de trabajo

setwd("C:/Users/Juan
Camilo/Dropbox/UN/probabilidad_y_estadistica_2021_2")
# importar base de datos en el objeto llamado datos

datos <- read.table(file = "taller_05_datos.txt", header = TRUE, sep =
";")
# tamaño de la muestra
n <- nrow(datos)
# extraer los ingresos de los hombres en x_h

x_h <- datos$ingresos[datos$sexo == 1]
# extraer los ingresos de los mujeres en x_m

x_m <- datos$ingresos[datos$sexo == 0]
El objetivo de este ejercicio es comparar el comportamiento de los ingresos en términos del

sexo.
a. Hacer una tabla de frecuencias relativas y un diagrama de barras para la variable

sexo.
La siguiente tabla contiene las frecuencias relativas de la variable sexo expresadas en

puntos porcentuales:
# tabla
tab <- 100*table(datos$sexo)/n
names(tab) <- c("Mujere", "Hombre")
tab
## Mujere Hombre
## 47.5 52.5
El siguiente gráfico representa la información de la tabla anterior:
# grafico de barras
b <- barplot(tab, ylab = "Porcentaje (%)", xlab = "Sexo", col =
"gray95", border = "darkgray")
text(x = b, y = tab-2, labels = tab, font = 4)
b. Completar la siguiente tabla y hacer un histograma con 15 categorias y un diagrama

de caja para cada grupo.
Grupo Tamaño Mín. Máx. Prom. Cuar. 1 Cuar. 2 C
Todos 1000 0.053 10.205 2.845 1.714 2.470
Hombres 525 0.053 8.385 2.857 1.731 2.485

Grupo Tamaño Mín. Máx. Prom. Cuar. 1 Cuar. 2 C
Mujeres 475 0.143 10.205 2.832 1.697 2.458
DE: desviación estándar. CV: coeficiente de variación de Pearson.
# TODOS
# datos
y <- datos$ingresos
# tamaño
length(y)
# medidas de tendencia
summary(y)
# DE y CV
round(c(sd(y), 100*sd(y)/mean(y)), 3)
# HOMBRES
# tamaño
length(x_h)
summary(x_h)
# DE y CV
round(c(sd(x_h), 100*sd(x_h)/mean(x_h)), 3)
# MUJERES
# tamaño
length(x_m)
summary(x_m)
# DE y CV
round(c(sd(x_m), 100*sd(x_m)/mean(x_m)), 3)
Los siguientes gráficos representan la distribución de los ingresos de ambos grupos:
par(mfrow=c(2,2))
# HOMBRES
hist(x_h, freq = F, nclass = 15, xlab = "Ingresos (en millones)",
col = "lightblue", border = "blue", ylab = "Densidad", main =
"Hombres")
boxplot(x_h, horizontal = T, col = "lightblue", border = "blue")
# MUJERES
hist(x_m, freq = F, nclass = 15, xlab = "Ingresos (en millones)",
col = "mistyrose", border = "red", ylab = "Densidad", main =
"Mujeres")
boxplot(x_h, horizontal = T, col = "mistyrose", border = "red")
c. Teniendo en cuenta los dos grupos, calcular la proporción de variabilidad debida

tanto a la dispersión dentro (intravarianza) como entre (intervarianza) de los grupos.
En este caso la variabilidad total es:
s2T=1n−1∑i=1n(yi−y¯)2=2.65337.sT2=1n−1∑i=1n(yi−y¯)2=2.65337.
De otra parte, la variabilidad dentro (intra) es

s2w=1n−1∑j=1m(nj−1)s2j=2.653217,sw2=1n−1∑j=1m(nj−1)sj2=2.653217,
mientras que la variabilidad entre (inter) es

s2b=1n−1∑j=1mnj(y¯j−y¯)2=0.000153sb2=1n−1∑j=1mnj(y¯j−y¯)2=0.000153
donde m=2m=2 grupos. Se observa que la suma de las variabilidades intra e inter

coincide exactamente con la variabilidad total:
s2w+s2b=2.653217+0.000153=2.65337=s2Tsw2+sb2=2.653217+0.000153=2.65337=s
T2
Por lo tanto, la proporción de variabilidad debida a la variabilidad dentro es
s2ws2T=99.994%sw2sT2=99.994%
y proporción de variabilidad debida a la variabilidad entre es
s2bs2T=0.006%.sb2sT2=0.006%.
# variabilidad TOTAL
var_t <- var(y)
var_t
# variabilidad INTRA
var_w <- ((length(x_h)-1)*var(x_h) + (length(x_m)-
1)*var(x_m))/(length(y)-1)
var_w
# variabilidad INTER
var_b <- (length(x_h)*(mean(x_h)-mean(y))^2 + length(x_m)*(mean(x_m)-
mean(y))^2)/(length(y)-1)
var_b
# suma INTRA e INTER
var_w + var_b
# proporcion INTRA
var_w/var_t*100
# proporcion INTRA
var_b/var_t*100
d. Comentar los resultados obtenidos.
Los resultados del numeral b. indican que, aunque la dispersión de ambos grupos respecto
al promedio es semejante (alta en ambos casos), tanto en promedio como mediana los
hombres perciben un ingreso ligeramente superior que el de las muejeres. Como era de
esperarse, tanto los gráficos como las medidas de tendencia indican que la distribución de
los ingresos es sesgada positivamente en ambos grupos (observe que la mediana es menor
que la media, y la presencia de datos atípicos superiores). De otra parte, los resultados del
numeral c. indican que la variabildad total de los ingresos se debe casi que totalmente
debido a las diferencias dentro de cada uno de los grupos, dado que las diferencia entre el
promedio de los grupos y el promedio total no es substancial.
2. Relacione cada histograma con el diagrama de caja que representa el mismo

conjunto de datos.
Se observa que las distribuciones están relacionadas como sigue:
 a - 4.
 b - 2.
 c - 1.
 d - 3.

Taller 5

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller 5

Cargado por

Copyright:

Formatos disponibles

Taller 5

Lina Buitrago PhD(c), labuitragor@unal.edu.co

1. Considere la base de datos dada en el archivo taller05_datos.txt, la cual

 Ingresos (en millones de pesos).

A continuación se presenta el procedimiento importar este conjunto de datos en R. Observe

# establecer el directorio de trabajo

# importar base de datos en el objeto llamado datos

# extraer los ingresos de los hombres en x_h

# extraer los ingresos de los mujeres en x_m

El objetivo de este ejercicio es comparar el comportamiento de los ingresos en términos del

a. Hacer una tabla de frecuencias relativas y un diagrama de barras para la variable

La siguiente tabla contiene las frecuencias relativas de la variable sexo expresadas en

El siguiente gráfico representa la información de la tabla anterior:

b. Completar la siguiente tabla y hacer un histograma con 15 categorias y un diagrama

Grupo Tamaño Mín. Máx. Prom. Cuar. 1 Cuar. 2 C

Todos 1000 0.053 10.205 2.845 1.714 2.470

Hombres 525 0.053 8.385 2.857 1.731 2.485

Mujeres 475 0.143 10.205 2.832 1.697 2.458

DE: desviación estándar. CV: coeficiente de variación de Pearson.

Los siguientes gráficos representan la distribución de los ingresos de ambos grupos:

c. Teniendo en cuenta los dos grupos, calcular la proporción de variabilidad debida

En este caso la variabilidad total es:

De otra parte, la variabilidad dentro (intra) es

mientras que la variabilidad entre (inter) es

donde m=2m=2 grupos. Se observa que la suma de las variabilidades intra e inter

d. Comentar los resultados obtenidos.

2. Relacione cada histograma con el diagrama de caja que representa el mismo

Se observa que las distribuciones están relacionadas como sigue:

También podría gustarte