Está en la página 1de 7

Probabilidad y estadística: PEC2

UOC

NOMBRE: Luis Ricardo Suárez de Abreu


Indique claramente el nombre y apellidos en la primera página del informe. Resuelva los
ejercicios usando R siempre que sea necesario, es importante mostrar cada uno de los pasos
realizados para llegar al resultado final. Indique en cada caso qué instrucciones de R ha
usado y las salidas que se obtienen.
El informe final se entregará a través del moodle en un archivo con formato
“pdf” o “html”.
Los datos del archive LasVegas.csv, obtenidas del repositorio UCI (https://archive-beta.ics.
uci.edu/ml/datasets) contienen información sobre las reseñas redactadas en TripAdvisor por
clientes de 21 hoteles de Las Vegas. Importe los datos al programa R y observe los nombres
de las variables.

#Cargar datos
data<-read.table("LasVegas.csv", header=TRUE, sep=";", dec=",")

1
Problema 1
(4 puntos) Los datos del archive LasVegas.csv, obtenidas del repositorio UCI (https://
archive-beta.ics.uci.edu/ml/datasets) contienen información sobre las reseñas redactadas en
TripAdvisor por clientes de 21 hoteles de Las Vegas. Importe los datos al programa R y
observe los nombres de las variables.

a) La variable Traveler.type indica el tipo de viajero clasificado en Business, Couples,


Families, Friends, Solo (según si se han hospedado en el hotel por negocios, en pareja,
en familia, con amigos o solos). La variable Hotel.stars indica el número de estrellas
del hotel que pueden ser 3, 3.5, 4, 4.5 o 5. Elabore una tabla de contingencia entre las
variables Traveler.type y Hotel.stars:

#Con la función table creamos la tabla de contingencia:


tabla_cont<-table(data$Traveler.type, data$Hotel.stars)
#Con la función addmargins añadimos las probabilidades marginales en la
#última fila y última columna:
tabla_cont_mod<-addmargins(tabla_cont)
tabla_cont_mod

##
## 3 3.5 4 4.5 5 Sum
## Business 15 11 14 4 30 74
## Couples 36 25 58 10 85 214
## Families 22 25 17 4 42 110
## Friends 19 9 21 5 28 82
## Solo 4 2 10 1 7 24
## Sum 96 72 120 24 192 504

Tabla 1. Tabla de contingencia que relaciona el tipo de viajero (solitario, pareja, familia. . . )
y el número de estrellas del hotel donde se quedó (3,3.5,4,4.5 o 5). Los tipos de viajeros
están separados por filas y las estrellas de los hoteles están separadas por columnas. Se
puede observar que hay un total de 504 viajeros, de los cuales la mayoría eran parejas (204),
y la mayoría se quedaron en hoteles de 5 estrellas (192). Por otro lado, muy pocos viajeros
fueron solos (24) y los hoteles con 4.5 estrellas fueron los menos escogidos (24).

b) Si escogemos un individuo de la base de datos al azar ¿cuál es la probabilidad que


corresponda a un cliente que se ha hospedado con amigos y en un hotel de 5 estrellas?

#Me están pidiendo la siguiente probabilidad: P(amigos Y 5estrellas).


#Aplicando la Regla de Laplace: P(suceso)=(casos favorables/casos totales):
#P(amigos Y 5estrellas)=28/504=0.056; 0.056*100=5.56%
p_amigosY5estrellas<-tabla_cont_mod["Friends", "5"]/tabla_cont_mod["Sum", "Sum"]
p_amigosY5estrellas*100

2
## [1] 5.555556

Respuesta: La probabilidad de que el individuo al azar sea un viajero con amigos y se haya
quedado en un hotel de 5 estrellas es del 5.56%.

c) ¿Cuál es la probabilidad que un cliente que viaja por negocios se haya hospedado en
un hotel de 3 estrellas?

#Me están pidiendo la siguiente probabilidad: P(3estrellas|negocios).


#Aplicando probabilidad condicionada: P(3estrellas|negocios)=
#P(3estrellsas Y negocios)/P(negocios):
#P(3estrellas|negocios)=(15/504)/(74/504)=0.2027; 0.2027*100=20.27%
p_3estrellas_SE_negocios<-(tabla_cont_mod["Business", "3"]/tabla_cont_mod["Sum", "Sum"])
p_3estrellas_SE_negocios*100

## [1] 20.27027

#Otra manera mucho más "directa" sería utilizar la Regla de Laplace sabiendo que
#como hablamos de viajeros de negocios, los casos totales serán 74, y, que tengan
#3 estrellas son 15, por lo que:
#P(3estrellas|negocios)=(15/74)*100=20.27%
p_3estrellas_se_negocios<-tabla_cont_mod["Business", "3"]/tabla_cont_mod["Business", "Su
p_3estrellas_se_negocios*100

## [1] 20.27027

Respuesta: La probabilidad de que el cliente que viaja por negocios se haya hospedado en
un hotel de 3 estrellas es del 20.27%.
Línea de código del bloque anterior que se corta en el PDF:
p_3estrellas_SE_negocios<-(tabla_cont_mod[“Business”, “3”]/tabla_cont_mod[“Sum”,
“Sum”])/ (tabla_cont_mod[“Business”,“Sum”]/tabla_cont_mod[“Sum”, “Sum”])

d) ¿Cuál es la probabilidad que un cliente que se ha hospedado en un hotel de 4 estrellas


viaje en pareja?

#Me están pidiendo la siguiente probabilidad: P(pareja|4estrellas).


#Siguiendo la misma lógica de probabilidad condicionada del apartado anterior (c):
#P(pareja|4estrellas)=(58/120)*100=48.33%
p_pareja_SE_4estrellas<-tabla_cont_mod["Couples", "4"]/tabla_cont_mod["Sum", "4"]
p_pareja_SE_4estrellas*100

## [1] 48.33333

Respuesta: La probabilidad de que el cliente que se ha hospedado en un hotel de 4 estrellas


viaje en pareja es del 48.33%.

3
Problema 2
(3 puntos) Continuamos con los datos del problema anterior.

a) Si escogemos un cliente de la base de datos al azar. ¿Cuál es la probabilidad que se


hospede en un hotel de 5 estrellas?

#Me están pidiendo la siguiente probabilidad: P(5estrellas).


#P(5estrellas)=(192/504)*100=38.1%
p_5estrellas<-tabla_cont_mod["Sum", "5"]/tabla_cont_mod["Sum", "Sum"]
p_5estrellas*100

## [1] 38.09524

Respuesta: La probabilidad de que un cliente al azar se hospede en un hotel de 5 estrellas


es del 38.1%.

b) Escogemos al azar 10 clientes de la base de datos, con reposición. Consideramos la


variable que nos indica el número de clientes, entre los 10, que se hospedan en un hotel
de 5 estrellas.
i.) ¿Qué distribución sigue esta variable? ¿De qué parámetros?

Consideramos la variable aleatoria Y que nos dice cuántos clientes se hospedan en un


hotel de 5 estrellas de entre los 10 escogidos al azar. Esta variable aleatoria Y se dis-
tribuye según una binomial de parámetros n y p –> Y~B(n,p). n=10; éxito= 5 estrellas;
p(5estrellas)=(192/504)=0.38; p=0.38 Por lo tanto, estamos ante una distribución binomial
B(10,0.38).
¿Por qué? Pues estamos ante una distribución de Bernoulli: experimento dicotómico (éx-
ito=5estrellas, fracaso=todas las estrellas menos 5) que se repite 10 veces (se escoge al azar
10 clientes con reposición). En definitiva, tengo un resultado que me va produciendo éxitos
(Bernoulli) cuya suma es una distrbución binomial.

ii.) ¿Cuál es la probabilidad que exactamente 3 de los 10 se hospeden en un hotel de


5 estrellas?

#La probabilidad de que 3 de los 10 se hospeden en un hotel de 5 estrellas sería:


#P(Y=3)
#Mediante la función de densidad incorporada en R: dbinom(y, size, prob, log=FALSE):
#y=K=3; size=n=10; prob=p=0.38
p_binom<-dbinom(3,10,0.38)
p_binom*100

4
## [1] 23.18856

Respuesta: La probabilidad de que exactamente 3 de los 10 se hospeden en un hotel de 5


estrellas es del 23.19%.

c) Supongamos ahora que sabemos que entre los que se hospedan en un hotel de 5 estrellas
el 25% usa el pàrquing del hotel. Sabemos también que un 30% de los clientes de la
base de datos que han usado el pàrquing de su hotel se han hospedado en un hotel de
5 estrellas. ¿Cuál es la probabilidad que un cliente use el pàrquing del hotel?

#P(parquing|5estrellas)=0.25 (ec.1)
#P(5estrellas|parquing)=0.3 (ec.2)
#P(parquing)?

#De la ec.1:
#(P(parquing Y 5estrellas))/(P(5estrellas))=0.25 (ec.3)
#P(5estrellas)=192/504

#Despejamos de la ec.3 P(parquing Y 5estrellas)=0.25*(192/504)=0.0952

#Sustituimos en ec.2 ((P(parquing Y 5estrellas))/(P(parquing))) y despejamos


#P(parquing):
#(0.0952/P(parquing)=0.3); P(parquing)=(0.0952/0.3)*100=31.73%

#p_5estrellas calculado en apartado a)


p_parquingY5estrellas<-0.25*p_5estrellas
p_parquing<-p_parquingY5estrellas/0.3
p_parquing*100

## [1] 31.74603

Respuesta: La probabilidad de que un cliente use el párquing del hotel es del 31.75%

5
Problema 3
(3 puntos) Supongamos ahora que sabemos que la edad de los clientes de uno de estos
hoteles se distribuye siguiendo una distribución normal de media 52 y desviación típica 11.
Escogemos un cliente al azar:

a) ¿Cuál es la probabilidad que tenga más de 60 años?

#N~(52,11)
#P(X>60)=1-P(X<60)
#Utilizando la función pnorm(q, mean, sd, lower.tail=TRUE, log.p=FALSE) obtendremos
#la función de distribución
resultado<-1-pnorm(60,52,11, lower.tail=TRUE, log.p=FALSE)
resultado*100

## [1] 23.35295

Respuesta: La probabilidad de que tenga más de 60 años es del 23.35%.

b) ¿Cuál es la probabilidad que tenga menos de 40 años?

resultado<-pnorm(40,52,11,lower.tail=TRUE, log.p=FALSE)
resultado*100

## [1] 13.76564

Respuesta: La probabilidad de que tenga menos de 40 años es del 13.77%.

c) Encuentre una edad de forma que el 75% de los clientes de este hotel sean menores que
ese valor y el 25% de los clientes sean mayores.

#Para calcular esta edad utilizaremos la función qnorm(p, mean, sd, lower.tail=FALSE, l
resultado1<-qnorm(0.25,52,11,lower.tail=FALSE, log.p=FALSE)
resultado1

## [1] 59.41939

#Otra manera de calcularlo:


resultado2<-qnorm(0.75,52,11,lower.tail=TRUE,log.p=FALSE)
resultado2

## [1] 59.41939

6
#P(X>59.41939)=0.25
#P(X<59.41939)=0.75

Respuesta: El 25% de los clientes serán mayores de 59 años, y el 75% de los clientes menores.

También podría gustarte