Está en la página 1de 9

#PC1

#CARLOS ANDRES CASTILLEJO GONZALES - 20203179

#BRANDON STEAFANO BRICEÑO TAPULLIMA - 20205813

library(haven)

datos<-read.csv(file.choose())

View(datos)

#------------------------------------------------------------------------------

#Pregunta 1 (5.0 puntos)

# a) (2.0 puntos) Construya un gráfico de la función distribución

# acumulada empírica del Número total de

# usuarios del sistema (cnt) para cada estación del año (season).

datos$cnt

datos$season

#segun estacione:

#inVierno

ecdf(datos$cnt[datos$season==1])

invierno<-ecdf(datos$cnt[datos$season==1])

plot(invierno,

main="DISTRIBUCION ACUMULADA EMPIRICA DE LOS USUARIOS DEL SISTEMA POR


ESTACION",

xlab=" Número total de usuarios del sistema")

#primavera

ecdf(datos$cnt[datos$season==2])

primavera<-ecdf(datos$cnt[datos$season==2])

plot(primavera,

xlab=" Número total de usuarios del sistema",

add=TRUE,

col=2)
#verano

ecdf(datos$cnt[datos$season==3])

verano<-ecdf(datos$cnt[datos$season==3])

plot(verano,

xlab=" Número total de usuarios del sistema",

add=TRUE,

col=3)

#otoño

ecdf(datos$cnt[datos$season==4])

otoño<-ecdf(datos$cnt[datos$season==4])

plot(otoño,

xlab=" Número total de usuarios del sistema",

add=TRUE,

col=4)

abline(h=0.5,col=2,lty=2)

abline(h=0.25,col=2,lty=2)

abline(h=0.75,col=2,lty=2)

legend(600,0.8,c("Invierno","Primavera","Verano","Otoño"),bty ="n" ,pch =15, col = 1:4)

# b) (1.5 punto) Usando el gráfico responda verdadero o falso y justifique

# la siguiente afirmación: “la

# mediana del número total de usuarios del sistema en verano es mayor que

# en invierno”.

# VERDADERO, se observa del grafico que verano tiene una mayor media (199) que

# invierno (76)
median(datos$cnt[datos$season==3]) #199 mediana de verano

median(datos$cnt[datos$season==1]) #76 mediano de invierno

median(datos$cnt[datos$season==3]) > median(datos$cnt[datos$season==1])

#TRUE

# c) (1.5 punto) Usando el gráfico responda verdadero o falso y justifique

# la siguiente afirmación: “el rango

# intercuartil del número total de usuarios del sistema en invierno es menor

# que el del verano”.

#VERDADERO, se aprecia del grafico que el IQR ranngo intercuartil de invierno

# es menor que el de verano de acuerdo a la diferencia de los valores de los

#percentiles P75 y P25 de cada estacion.

IQR(datos$cnt[datos$season==3]) # VERANO IQR= 277

IQR(datos$cnt[datos$season==1]) #INVIERNO IQR= 135

IQR(datos$cnt[datos$season==1])<IQR(datos$cnt[datos$season==3])

#TRUE

#------------------------------------------------------------------------------

# Pregunta 2 (4.0 puntos)

# Responda a las siguientes preguntas

# a) (1.0 punto) Se aplicó la función summary a la variable número total

# de usuarios del sistema en una hora(cnt) y a partir de los resultados

# obtenidos, se llegó a la conclusión que en el 50% de las horas evaluadas

# se alquilaron más de 142 bicicletas. Evalúe la veracidad o falsedad de

# esta afirmación. Justifique su respuesta.

summary(datos$cnt)
# Min. 1st Qu. Median Mean 3rd Qu. Max.

# 1.0 40.0 142.0 189.5 281.0 977.0

# FALSO, ya que mediana indica que en el 50% de las horas evaluadas se

# alquilaron no mas de 142 bicicletas.

# b) (1.0 punto) “En esta ciudad, el nivel de Humedad (hum) presenta mayor

# cantidad de datos atípicos que la Velocidad del viento (windspeed)”.

# Evalúe la veracidad o falsedad de esta afirmación. Justifique su respuesta.

boxplot(datos$hum) #garfico de cajas de el nivel de humedad

length(boxplot(datos$hum)$out) #conteo de la cantidad de datos

#22 valores atipicos

boxplot(datos$windspeed) #garfico de cajas de la velocidad del viento

length(boxplot(datos$windspeed)$out) #conteo de la cantidad de datos

#342 valores atipicos

length(boxplot(datos$hum)$out)>length(boxplot(datos$windspeed)$out)

#FALSO, la cantidad de valores atipicos es mayor el de los datos de la

#velocidad del viento con 342 a comparacion del nivel de humedad con 22 datos.

# c) (1.0 punto) Se puede afirmar que en promedio el número usuarios

# ocasionales del sistema en una hora (casual) es el mismo para días feriados

# y no feriados (holiday). Evalúe la veracidad o falsedad de esta afirmación.

# Justifique su respuesta.

mean(datos$casual[datos$holiday==1])

#44.718
mean(datos$casual[datos$holiday==0])

#35.40838

#FALSO, la media de usuarios ocasionales respecto a los dias que son feriado (44.72)

#es mayor a los no feriados (35.41)

# d) (1.0 punto) Para representar la tendencia central de la variable

# número total de usuarios del sistema en una hora (cnt) es adecuado usar

# la media. Evalúe la veracidad o falsedad de esta afirmación.

# Justifiquesu respuesta

mean(datos$cnt)

boxplot(datos$cnt)

length(boxplot(datos$cnt)$out)

#505 valores atipicos

#FALSO, porque la media es afectada por los valores atipicos por ende no seria

#un buen indicador de tenedencia central.

#------------------------------------------------------------------------------

# Pregunta 3 (6.0 puntos)

# a) (1.5 punto) Grafique la distribución del número de usuarios registrados

# del sistema (registered) de acuerdo a la hora (hr) mediante un gráfico

# de boxplot. Realice este mismo gráfico para el número de usuarios ocasionales

# del sistema (casual).

boxplot(datos$registered~datos$hr,

main = "Numero de usuarios registrados del sistema de acuerdo a la hora ",

xlab = "Hora",

ylab = "Usuarios registrados del sistema")

boxplot(datos$casual~datos$hr,

main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",

xlab = "Hora",

ylab = "Usuarios registrados del sistema")


# b) (1.5 punto) En base a los gráficos anteriores, se podría decir que durante

# las mañanas la hora en que en promedio se hace mayor uso del sistema es las 8,

# independientemente que el usuario sea registrado u ocasional. Justifique su respuesta.

#De acuerdo a lo observado de los graficos no se podria afirmar que el mayor

#uso del sistema es a las 8 am idependientemente que sea usuario registrado u ocacional

#ya que para los usuarios registrados si se cumple el mayor uso, pero para los usuarios

#ocacionales no.

# c) (1.5 punto) Considerando los resultados en a) indique cuál sería la

# hora pico del sistema para los usuarios ocasionales, considerando como indicador el
percentil 75.

boxplot(datos$casual~datos$hr,

main = "Numero de usuarios ocasionales del sistema de acuerdo a la hora ",

xlab = "Hora",

ylab = "Usuarios registrados del sistema")

abline(h=quantile(datos$casual, 0.75), col=2, lty=2)

quantile(datos$casual, 0.75)

boxplot(datos$hr~datos$casual,)

#la hora pico del sistema seria a las 12pm ya que es cuando en una misma hora se concetra

# especificamente el P75

# d) (1.5 punto) Muestre un gráfico adecuado que le permita analizar en qué

# estación del año (season) se presentan la mayoría de los casos atípicos

# para el número de usuarios ocasionales que utilizan el sistema a las 17 horas.


Hora<- datos[datos$hr==17,]

boxplot(Hora$casual~Hora$season,

xlab = "estaciones",

ylab = "usuarios casuales",

main = "Usuarios casuales por estación a las 17 horas")

mybox<- boxplot(Hora$casual~Hora$season,

xlab = "estaciones",

ylab = "usuarios casuales",

main = "Usuarios casuales por estación a las 17 horas")

#------------------------------------------------------------------------------

# Pregunta 4 (4.0 puntos)

install.packages("curl")

library(curl)

library(haven)

salud.personal = read_sav("http://portal.susalud.gob.pe/wp-content/uploads/archivo/base-
de-datos/2015/CUESTIONARIO%2002%20-%20CAPITULOS.sav")

salud.medicos = salud.personal[salud.personal$C2P1 == 1 , ]

salud.medicos = as_factor(salud.medicos)

View(salud.medicos)

# a) (2.0 punto) Presente un gráfico adecuado para estudiar

# la relación entro los intervalos de ingreso (C2P28) reportados y tener o no

# especialidad (C2P13).

# ¿Existe asociación entre estas dos variables?, justifique su respuesta.

salud.medicos$C2P28

salud.medicos$C2P13

table(salud.medicos$C2P13,salud.medicos$C2P28)

prop.table(table(salud.medicos$C2P13,salud.medicos$C2P28))
barplot(prop.table(table(salud.medicos$C2P13,salud.medicos$C2P28)),

beside = T,

col=1:2)

legend("topleft",c("si","no"),bty="n", pch=15, col = 1:2)

#Los que si tiene una especialidad tieneden a ganar más en el rango de 4001 a 5000

#que los que tienen una especialidad

# b) (1.0 punto) Responda verdadero o falso y justifique la

# siguiente afirmación: “En personas con

# especialidad, la proporción de médicos que reporta ingresos

# mayores a 5000 soles es 0.6348”

prop.table(table(salud.medicos$C2P13,salud.medicos$C2P28),1)

#VERDADERO, la proporcion de medicos que si tienen especialidad con un ingreso

#mayores a s/. 5000 es 0.6348 y los que no 0.2839.

# c) (1.0 punto) Responda verdadero o falso y justifique la siguiente

# afirmación: “En personas que ganan

# entre 4001 y 5000 soles la proporción de médicos que tienen

# especialidad es menor a la proporción

# de estos que no la tiene”.

prop.table(table(salud.medicos$C2P13,salud.medicos$C2P28),2)

#FALSO, DENTRO DEL RANGO 4001 y 5000 soles, LOS QUE SI TIENEN ESPECIALIDAD

# PRESENTAN UNA PROPORCIÓN DE 0.5990 Y LOS QUE NO UNA PROPORCION DE 0.4010,


SIENDO MAYOR LOS QUE

#TIENEN ESPECIALIDAD A LOS QUE NO.


# d) (1.0 punto) Responda verdadero o falso y justifique la

# siguiente afirmación: “La proporción de

# médicos que tienen ingresos menores o iguales a 3000 soles es de 0.0505”

prop.table(table(salud.medicos$C2P13,salud.medicos$C2P28))

#FALSO, la proporción de médicos con ingresos menores o iguales a 3000 soles da un total de
0.0617

También podría gustarte