Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Taller 2
Taller 2
2022
Taller2
23/04/2022
PRIMERA PARTE
library("readxl")
library(sqldf)
summary(SectorA)
1
## Inmueble tipo estrato numero_habitantes
## Min. : 1.00 Length:100 Length:100 Min. :0.00
## 1st Qu.: 25.75 Class :character Class :character 1st Qu.:2.00
## Median : 50.50 Mode :character Mode :character Median :3.00
## Mean : 50.50 Mean :3.13
## 3rd Qu.: 75.25 3rd Qu.:4.00
## Max. :100.00 Max. :7.00
## metros_cuadrados
## Min. :59.40
## 1st Qu.:67.80
## Median :70.75
## Mean :71.74
## 3rd Qu.:74.68
## Max. :85.85
Para la información relacioada con el sector A, se cuenta como 100 observaciones y para el sector B de 71
observaciones. No hay diferencias muy significativas en cuanto al resumen estadístico de los metros cuadrados
por sector y el número de habitaciones.
Ejercicio uno
1) Con respecto a los inmuebles del sector B, estimar el porcentaje (proporción) y error estándar de
inmuebles residenciales que hace parte del estrato bajo entre de 60 y 80 (inclusive) metros cuadrados
construidos.
library("readxl")
library(sqldf)
setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")
SectorB<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorB")
FiltroUno <- sqldf("SELECT * FROM SectorB
WHERE estrato=='Bajo' and metros_cuadrados>=60 and metros_cuadrados<=80")
CasosF avorables
pb =
CasosT otales
Pexito<-nrow(FiltroUno)/nrow(SectorB)
2
Errorestandar<-sqrt(Pexito*(1-Pexito))/sqrt(nrow(SectorB))
cat("El error estandar es: ",Errorestandar)
Ejercicio dos
2) Proponga un intervalo de confianza del 97,39%, para establecer la proporción de inmuebles de tipo
residencial y que al mismo tiempo sea de estrato medio para el sector A.
library("readxl")
SectorA<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorA")
FiltroDos <- sqldf("SELECT * FROM SectorA
WHERE tipo=='Residencial' and estrato=='Medio'")
Pexitodos<-nrow(FiltroDos)/nrow(SectorA)
alpha=1-0.9739
Zc=qnorm(1 - alpha/2)
LimiInferior<-Pexitodos-(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
LimiSuperior<-Pexitodos+(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
cat("El límite inferior es: ",LimiInferior)
Se puede decir con un 97.39 % de confianza que la proporción de la muestra de los inmuebles del sector A
sean tipo residencial y que al mismo tiempo sea de estrato medio está entre (0.04039077- 0.1796092)
Ejercicio tres
3)¿Es posible inferir que más del 75% de los inmuebles del sector A tienen menos de 70 metros cuadrados?
library(sqldf)
Filtrotres <- sqldf("SELECT * FROM SectorA
WHERE metros_cuadrados<70")
cat(nrow(Filtrotres))
3
## 46
Pexitres<-nrow(Filtrotres)/nrow(SectorA)
Errorestandartres<-sqrt(Pexitres*(1-Pexitres))/sqrt(nrow(SectorA))
ztres=(Pexitres-0.75)/Errorestandartres
cat(ztres)
## -5.81865
cat("El Zc o Z crítico es de
", Critico)
## El Zc o Z crítico es de
## 1.644854
Como la hipótesis es a dos colas, se rechaza la hipótesis nula, por lo tanto la proporción de inmuebles del
sector A que tienen más de 70 m2 es menor a 0,75, con una significancia del 5%.
Ejercicio cuatro
4) Usando una prueba de hipótesis con el 98,93% de confianza e indicar si hay diferencias significativas
entre los metros cuadrados de los inmuebles de sector A y del sector B. (suponer normalidad) (Sug-
erencia: No olvide estudiar la varianza de los metros cuadrados de cada sector para decidir que prueba
usar )
var.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados,conf.level=0.95)
##
## F test to compare two variances
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## F = 0.68977, num df = 99, denom df = 70, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4423786 1.0579068
## sample estimates:
## ratio of variances
## 0.6897661
var.test(SectorB$metros_cuadrados,SectorA$metros_cuadrados,conf.level=0.95)
4
##
## F test to compare two variances
##
## data: SectorB$metros_cuadrados and SectorA$metros_cuadrados
## F = 1.4498, num df = 70, denom df = 99, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.9452629 2.2605070
## sample estimates:
## ratio of variances
## 1.449767
Mediastres=t.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados)
Mediastres
##
## Welch Two Sample t-test
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## t = 0.50945, df = 132.83, p-value = 0.6113
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.594189 2.700279
## sample estimates:
## mean of x mean of y
## 71.74220 71.18915
El estadístico de prueba es 0.50945, los grados de libertad son 132.83, el p_value es de 0.3056, por lo tanto se
acepta la hipotesis nula de igualdad de medias. También debido a que el cero se encuentra en el intervalo de
confianza, hay evidencia estadística Para decir que no hay diferencia de medias ya que 0 está en el intervalo.
Por lo tanto se concluye que el promedio de metros cuadrados de los inmuebles del sector A y B con una
significancia del 98.93% son iguales.
Ejercicio cinco
5. Pensando en un modelo de Poisson, ¿cuántos habitantes por inmueble se estima para el sector B? (No
olvide calcular el error estandar).
Vesperado=mean(SectorB$numero_habitantes)
cat("Se espera que por cada imueble exista",Vesperado,"numero de habitantes")
5
Estime la probabilidad de que las personas tengan entre 3 y 5 habitantes por inmuebles en el sector B
result<-sum(dpois(3:5,Vesperado))
cat("La probabilidad de que las personas tengan entre 3 y 5
habitaciones por inmueble es : ",result)
Ejercicio seis
6. Encontrar evidencia estadística para decidir si la proporción de inmuebles residenciales del Sector B,
es 3 veces la proporción de inmuebles no residenciales.
## [1] 0.8028169
Propnoresidencia<-nrow(NoResidencialB)/nrow(SectorB)
print(Propnoresidencia)
## [1] 0.1971831
Pconjunta<-(nrow(ResidencialB)+nrow(NoResidencialB))/(nrow(SectorB)+nrow(SectorB))
print(Pconjunta)
## [1] 0.5
Zest<-(Propresidencia-3*Propnoresidencia)/(sqrt(Pconjunta*(1-Pconjunta)*(1/nrow(SectorB) + 1/nrow(Sector
print(Zest)
## [1] 2.517544
Zc=qnorm(1-0.05)
print(Zc)
## [1] 1.644854
Como Z estadístico es 2.517544 mayor a Z crítico 1.644854, y evaluando a dos colas, se rechaza la hipotesis
nula y se acepta de que la proporción de inmuebles residenciales no es 3 veces la proporción de inmuebles no
residenciales
6
Ejercicio siete
7) ¿Hay evidencia estadistica para decir que la proporción de inmnuebles NO residenciales del sector A
es igual a la proporción de inmnuebles NO residenciales del sector B?
## [1] 0.2816901
PropnoresidenciaB<-nrow(NoResidencialB)/nrow(SectorB)
print(PropnoresidenciaB)
## [1] 0.1971831
Pconjunta7<-(nrow(NoresidencialA)+nrow(NoResidencialB))/(nrow(SectorA)+nrow(SectorB))
print(Pconjunta7)
## [1] 0.1988304
Zest7<-(PropnoresidenciaA-PropnoresidenciaB)/(sqrt(Pconjunta7*(1-Pconjunta7)*(1/nrow(SectorA) + 1/nrow(S
print(Zest7)
## [1] 1.364333
print(Zc)
## [1] 1.644854
Como Z estadístico es 1.364333 y está entre el +/− Z crítico 1.644854, se acepta la hipotesis nula que la
proporción de inmuebles no residenciales de A es igual a la proporción de inmuebles no residenciales de B
Segunda Parte
1) Pensando en normalidad, si se sabe con anterioridad que un intervalo de confianza del 95% para estimar
una proporción es (0.834 , 0.921), se puede deducir del intervalo que la proporción estimada es y su
variabilidad es:
√
p(1−bp)
Sabemos que el límite inferior es: LimiteInf = pb − λ α
2
b √
n
√
p(1−bp)
y el límite superior es: LimiteSup = pb + λ α2 b √
n
7
p
pb(1 − pb)
p = 0.921 − λ α2 √
n
Donde λ α2 es 1.96.
√
p(1−bp)
Suponiendo a b √
n
= Y para facilitar los cálculos se obtiene que:
Despejando y
0.087
y= = 0.02219
2(1.96)
Se reemplaza y en cualquiera de dos ecuaciones planteadas y se obtiene:
pb = 0.921 − 1.96(0.02219) = 0.8775
la proporción estimada 0.8775 y variabilidad 0.02219
VecPois<-c(3,3,4,3,2,3,5,3,3,2,2,3,4,5)
cat("El parámetro del modelo Poisson estimado es", mean(VecPois) )
3) Recordando que el sesgo de un estimador es el resultante del valor esperado del estimador menos la
estimación, entonces si H representa el estimador definido a partir de una muestra probabilística de
tamaño n y B es el sesgo del estimador H , un estimador insesgado que se puede definir a partir de H
y B es:
Decimos que:
b(Y ) = E(Y ) − Yb
b − E(H)
B=H
Entonces
E(H) = H − B
b. H - B
4) Consultar que son los estadísticos de orden y úselos para estimar el verdadero máximo de una población,
a partir de la muestra 2,3,3,2,3,4,3,2,3,4,5 y la muestra aleatoria de donde proviene la muestra es
Uniforme Continua con parámetro mínimo 1 y parámetro máximo
Partimos de tener una muestra X1 , X2 , X3....,Xn que se comporta de forma aleatoria, y su distribución es
continua F_{x}X uniforme
La función de distribución uniforme es:
1 1
f (x) = = = 0.125
b−a 9−1
La función k-ésima estadística de orden n, es decir k = 1, 2, 3, 4..., n:
8
n!
f xk,n (y) = [FX ](Y )k−1 [1 − FX (Y )n−k )fx (y)]
(k − 1)!(n − k)!
Donde Fx es la integral de: Z x Z x
f (x)dx = 0.125dx = 0.125(x − 1)
−inf 1
El valor verdadero máximo decimos que es de orden k=11, debido a que es el tamño de nuestra muestra:
Z 9
11 ∗ 0.125 ∗ x ∗ (0.125[x − 1]))11−1 dx
1
Resolviendo la integral, el valor máximo es 8.333 con varianza de 0.89 y error estadar de 0.28