Taller 2

Herramientas de la Matemática para el Análisis de la Información
2022
Taller2
Jason Mauricio Romer Ríos: 20221395009 – Gonzalo Cabezas Martin: 20221395002
23/04/2022
PRIMERA PARTE
library("readxl")
library(sqldf)
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")

SectorB<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorB")
SectorA<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorA")
summary(SectorB)
## Inmueble tipo estrato numero_habitantes

## Min. : 1.0 Length:71 Length:71 Min. :2.000
## 1st Qu.:18.5 Class :character Class :character 1st Qu.:3.000
## Median :36.0 Mode :character Mode :character Median :5.000
## Mean :36.0 Mean :4.831
## 3rd Qu.:53.5 3rd Qu.:6.000
## Max. :71.0 Max. :8.000
## metros_cuadrados
## Min. :46.22
## 1st Qu.:67.11
## Median :69.24
## Mean :71.19
## 3rd Qu.:74.64
## Max. :93.28
summary(SectorA)
1
## Inmueble tipo estrato numero_habitantes
## Min. : 1.00 Length:100 Length:100 Min. :0.00
## 1st Qu.: 25.75 Class :character Class :character 1st Qu.:2.00
## Median : 50.50 Mode :character Mode :character Median :3.00
## Mean : 50.50 Mean :3.13
## 3rd Qu.: 75.25 3rd Qu.:4.00
## Max. :100.00 Max. :7.00
## metros_cuadrados
## Min. :59.40
## 1st Qu.:67.80
## Median :70.75
## Mean :71.74
## 3rd Qu.:74.68
## Max. :85.85
Para la información relacioada con el sector A, se cuenta como 100 observaciones y para el sector B de 71
observaciones. No hay diferencias muy significativas en cuanto al resumen estadístico de los metros cuadrados
por sector y el número de habitaciones.
Ejercicio uno
1) Con respecto a los inmuebles del sector B, estimar el porcentaje (proporción) y error estándar de
inmuebles residenciales que hace parte del estrato bajo entre de 60 y 80 (inclusive) metros cuadrados
construidos.
library("readxl")
library(sqldf)
setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")
SectorB<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorB")
FiltroUno <- sqldf("SELECT * FROM SectorB
WHERE estrato=='Bajo' and metros_cuadrados>=60 and metros_cuadrados<=80")
Se determina la proporción de exito, que es equivalente a
CasosF avorables
pb =
CasosT otales
Pexito<-nrow(FiltroUno)/nrow(SectorB)
cat("La proporción de que los inmuebles del sector B

que hacen parte del estrato bajo entre de 60 y 80 es: ",Pexito)
## La proporción de que los inmuebles del sector B

## que hacen parte del estrato bajo entre de 60 y 80 es: 0.5070423
El error estandar se define como: r

pe ∗ (1 − pe)
Errorestandar =
n
Donde pe es la probabilidad de exito del suceso y n es el tamaño de la muestra. Del cual se obtiene que:
2
Errorestandar<-sqrt(Pexito*(1-Pexito))/sqrt(nrow(SectorB))
cat("El error estandar es: ",Errorestandar)
## El error estandar es: 0.0593332
Ejercicio dos
2) Proponga un intervalo de confianza del 97,39%, para establecer la proporción de inmuebles de tipo
residencial y que al mismo tiempo sea de estrato medio para el sector A.
library("readxl")
SectorA<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorA")
FiltroDos <- sqldf("SELECT * FROM SectorA
WHERE tipo=='Residencial' and estrato=='Medio'")
Pexitodos<-nrow(FiltroDos)/nrow(SectorA)
cat("La proporción de que los inmuebles del sector A

sean tipo residencial y que al mismo tiempo sea de
estrato medio es.: ",Pexitodos)
## La proporción de que los inmuebles del sector A

## sean tipo residencial y que al mismo tiempo sea de
## estrato medio es.: 0.11
alpha=1-0.9739
Zc=qnorm(1 - alpha/2)
LimiInferior<-Pexitodos-(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
LimiSuperior<-Pexitodos+(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
cat("El límite inferior es: ",LimiInferior)
## El límite inferior es: 0.04039077
cat("El límite superior es: ",LimiSuperior)
## El límite superior es: 0.1796092
Se puede decir con un 97.39 % de confianza que la proporción de la muestra de los inmuebles del sector A
sean tipo residencial y que al mismo tiempo sea de estrato medio está entre (0.04039077- 0.1796092)
Ejercicio tres
3)¿Es posible inferir que más del 75% de los inmuebles del sector A tienen menos de 70 metros cuadrados?
library(sqldf)
Filtrotres <- sqldf("SELECT * FROM SectorA
WHERE metros_cuadrados<70")
cat(nrow(Filtrotres))
3
## 46
Pexitres<-nrow(Filtrotres)/nrow(SectorA)
La hipotesis que se quiere probar es: Ho : P > 0.75 Ha : P < 0.75

Para esto, se evalua el estadístico de prueba
Errorestandartres<-sqrt(Pexitres*(1-Pexitres))/sqrt(nrow(SectorA))
ztres=(Pexitres-0.75)/Errorestandartres
cat(ztres)
## -5.81865
alfa <- 0.05

Critico <- qnorm(1-alfa)
cat("El Zc o Z crítico es de
", Critico)
## El Zc o Z crítico es de
## 1.644854
Como la hipótesis es a dos colas, se rechaza la hipótesis nula, por lo tanto la proporción de inmuebles del
sector A que tienen más de 70 m2 es menor a 0,75, con una significancia del 5%.
Ejercicio cuatro
4) Usando una prueba de hipótesis con el 98,93% de confianza e indicar si hay diferencias significativas
entre los metros cuadrados de los inmuebles de sector A y del sector B. (suponer normalidad) (Sug-
erencia: No olvide estudiar la varianza de los metros cuadrados de cada sector para decidir que prueba
usar )
var.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados,conf.level=0.95)
##
## F test to compare two variances
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## F = 0.68977, num df = 99, denom df = 70, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4423786 1.0579068
## sample estimates:
## ratio of variances
## 0.6897661
var.test(SectorB$metros_cuadrados,SectorA$metros_cuadrados,conf.level=0.95)
4
##
## F test to compare two variances
##
## data: SectorB$metros_cuadrados and SectorA$metros_cuadrados
## F = 1.4498, num df = 70, denom df = 99, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 0.9452629 2.2605070
## ratio of variances
## 1.449767
El intervalo de confianza del

95% indica que la razón de varianzas se encuentra entre 0.4423786 y 1.057907. Puesto que el intervalo de
confianza incluye el 1 se concluye que las varianzas de los metros cuadrados de cada sector son iguales.
Estimación de medias:
Mediastres=t.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados)
Mediastres
##
## Welch Two Sample t-test
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## t = 0.50945, df = 132.83, p-value = 0.6113
## alternative hypothesis: true difference in means is not equal to 0
## -1.594189 2.700279
## mean of x mean of y
## 71.74220 71.18915
El estadístico de prueba es 0.50945, los grados de libertad son 132.83, el p_value es de 0.3056, por lo tanto se
acepta la hipotesis nula de igualdad de medias. También debido a que el cero se encuentra en el intervalo de
confianza, hay evidencia estadística Para decir que no hay diferencia de medias ya que 0 está en el intervalo.
Por lo tanto se concluye que el promedio de metros cuadrados de los inmuebles del sector A y B con una
significancia del 98.93% son iguales.
Ejercicio cinco
5. Pensando en un modelo de Poisson, ¿cuántos habitantes por inmueble se estima para el sector B? (No
olvide calcular el error estandar).
Vesperado=mean(SectorB$numero_habitantes)
cat("Se espera que por cada imueble exista",Vesperado,"numero de habitantes")
## Se espera que por cada imueble exista 4.830986 numero de habitantes
cat("El error estandar es: ", sqrt(Vesperado))
## El error estandar es: 2.19795
5
Estime la probabilidad de que las personas tengan entre 3 y 5 habitantes por inmuebles en el sector B
result<-sum(dpois(3:5,Vesperado))
cat("La probabilidad de que las personas tengan entre 3 y 5
habitaciones por inmueble es : ",result)
## La probabilidad de que las personas tengan entre 3 y 5

## habitaciones por inmueble es : 0.5059604
Ejercicio seis
6. Encontrar evidencia estadística para decidir si la proporción de inmuebles residenciales del Sector B,
es 3 veces la proporción de inmuebles no residenciales.
H0 : Presidencial = 3Pnor esidencial

Ha : Presidencial ̸= 3Pnor esidencial
ResidencialB <- sqldf("SELECT * FROM SectorB

WHERE tipo=='Residencial'")
Propresidencia<-nrow(ResidencialB)/nrow(SectorB)
print(Propresidencia)
## [1] 0.8028169
NoResidencialB <- sqldf("SELECT * FROM SectorB

WHERE tipo=='No Residencial'")
Propnoresidencia<-nrow(NoResidencialB)/nrow(SectorB)
print(Propnoresidencia)
## [1] 0.1971831
Pconjunta<-(nrow(ResidencialB)+nrow(NoResidencialB))/(nrow(SectorB)+nrow(SectorB))
print(Pconjunta)
## [1] 0.5
Zest<-(Propresidencia-3*Propnoresidencia)/(sqrt(Pconjunta*(1-Pconjunta)*(1/nrow(SectorB) + 1/nrow(Sector
print(Zest)
## [1] 2.517544
Zc=qnorm(1-0.05)
print(Zc)
## [1] 1.644854
Como Z estadístico es 2.517544 mayor a Z crítico 1.644854, y evaluando a dos colas, se rechaza la hipotesis
nula y se acepta de que la proporción de inmuebles residenciales no es 3 veces la proporción de inmuebles no
residenciales
6
Ejercicio siete
7) ¿Hay evidencia estadistica para decir que la proporción de inmnuebles NO residenciales del sector A
es igual a la proporción de inmnuebles NO residenciales del sector B?
NoresidencialA <- sqldf("SELECT * FROM SectorA

PropnoresidenciaA<-nrow(NoresidencialA)/nrow(SectorB)
print(PropnoresidenciaA)
## [1] 0.2816901
NoResidencialB <- sqldf("SELECT * FROM SectorB

PropnoresidenciaB<-nrow(NoResidencialB)/nrow(SectorB)
print(PropnoresidenciaB)
## [1] 0.1971831
Pconjunta7<-(nrow(NoresidencialA)+nrow(NoResidencialB))/(nrow(SectorA)+nrow(SectorB))
print(Pconjunta7)
## [1] 0.1988304
Zest7<-(PropnoresidenciaA-PropnoresidenciaB)/(sqrt(Pconjunta7*(1-Pconjunta7)*(1/nrow(SectorA) + 1/nrow(S
print(Zest7)
## [1] 1.364333
print(Zc)
## [1] 1.644854
Como Z estadístico es 1.364333 y está entre el +/− Z crítico 1.644854, se acepta la hipotesis nula que la
proporción de inmuebles no residenciales de A es igual a la proporción de inmuebles no residenciales de B
Segunda Parte
1) Pensando en normalidad, si se sabe con anterioridad que un intervalo de confianza del 95% para estimar
una proporción es (0.834 , 0.921), se puede deducir del intervalo que la proporción estimada es y su
variabilidad es:
√
p(1−bp)
Sabemos que el límite inferior es: LimiteInf = pb − λ α
2
b √
n
√
p(1−bp)
y el límite superior es: LimiteSup = pb + λ α2 b √
n
Con los límites dados, tenemos que: p

pb(1 − pb)
p = 0.834 + λ α2 √
n
7
p
pb(1 − pb)
p = 0.921 − λ α2 √
n
Donde λ α2 es 1.96.
√
p(1−bp)
Suponiendo a b √
n
= Y para facilitar los cálculos se obtiene que:
0.921 − 1.96y = 0.834 + 1.96y
Despejando y
0.087
y= = 0.02219
2(1.96)
Se reemplaza y en cualquiera de dos ecuaciones planteadas y se obtiene:
pb = 0.921 − 1.96(0.02219) = 0.8775
la proporción estimada 0.8775 y variabilidad 0.02219
2) Asumiendo que la muestra dada por 3,3,4,3,2,3,5,3,3,2,2,3,4,5 es Poisson, entonces:
VecPois<-c(3,3,4,3,2,3,5,3,3,2,2,3,4,5)
cat("El parámetro del modelo Poisson estimado es", mean(VecPois) )
## El parámetro del modelo Poisson estimado es 3.214286
3) Recordando que el sesgo de un estimador es el resultante del valor esperado del estimador menos la
estimación, entonces si H representa el estimador definido a partir de una muestra probabilística de
tamaño n y B es el sesgo del estimador H , un estimador insesgado que se puede definir a partir de H
y B es:
Decimos que:
b(Y ) = E(Y ) − Yb
b − E(H)
B=H
Entonces
E(H) = H − B
b. H - B
4) Consultar que son los estadísticos de orden y úselos para estimar el verdadero máximo de una población,
a partir de la muestra 2,3,3,2,3,4,3,2,3,4,5 y la muestra aleatoria de donde proviene la muestra es
Uniforme Continua con parámetro mínimo 1 y parámetro máximo
9. Estimación y Error Estándar.
Partimos de tener una muestra X1 , X2 , X3....,Xn que se comporta de forma aleatoria, y su distribución es
continua F_{x}X uniforme
La función de distribución uniforme es:
1 1
f (x) = = = 0.125
b−a 9−1
La función k-ésima estadística de orden n, es decir k = 1, 2, 3, 4..., n:
8
n!
f xk,n (y) = [FX ](Y )k−1 [1 − FX (Y )n−k )fx (y)]
(k − 1)!(n − k)!
Donde Fx es la integral de: Z x Z x
f (x)dx = 0.125dx = 0.125(x − 1)
−inf 1
El valor verdadero máximo decimos que es de orden k=11, debido a que es el tamño de nuestra muestra:
Z 9
11 ∗ 0.125 ∗ x ∗ (0.125[x − 1]))11−1 dx
1
Resolviendo la integral, el valor máximo es 8.333 con varianza de 0.89 y error estadar de 0.28

Taller 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller 2

Cargado por

Copyright:

Formatos disponibles

Herramientas de la Matemática para el Análisis de la Información

Jason Mauricio Romer Ríos: 20221395009 – Gonzalo Cabezas Martin: 20221395002

## Loading required package: gsubfn

## Loading required package: proto

## Loading required package: RSQLite

setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")

## Inmueble tipo estrato numero_habitantes

Se determina la proporción de exito, que es equivalente a

cat("La proporción de que los inmuebles del sector B

## La proporción de que los inmuebles del sector B

El error estandar se define como: r

## El error estandar es: 0.0593332

cat("La proporción de que los inmuebles del sector A

## La proporción de que los inmuebles del sector A

## El límite inferior es: 0.04039077

cat("El límite superior es: ",LimiSuperior)

## El límite superior es: 0.1796092

La hipotesis que se quiere probar es: Ho : P > 0.75 Ha : P < 0.75

alfa <- 0.05

El intervalo de confianza del

## Se espera que por cada imueble exista 4.830986 numero de habitantes

cat("El error estandar es: ", sqrt(Vesperado))

## El error estandar es: 2.19795

## La probabilidad de que las personas tengan entre 3 y 5

H0 : Presidencial = 3Pnor esidencial

ResidencialB <- sqldf("SELECT * FROM SectorB

NoResidencialB <- sqldf("SELECT * FROM SectorB

NoresidencialA <- sqldf("SELECT * FROM SectorA

NoResidencialB <- sqldf("SELECT * FROM SectorB

Con los límites dados, tenemos que: p

0.921 − 1.96y = 0.834 + 1.96y

2) Asumiendo que la muestra dada por 3,3,4,3,2,3,5,3,3,2,2,3,4,5 es Poisson, entonces:

## El parámetro del modelo Poisson estimado es 3.214286

9. Estimación y Error Estándar.

También podría gustarte