Está en la página 1de 9

Herramientas de la Matemática para el Análisis de la Información

2022
Taller2

Jason Mauricio Romer Ríos: 20221395009 – Gonzalo Cabezas Martin: 20221395002

23/04/2022

PRIMERA PARTE

library("readxl")
library(sqldf)

## Loading required package: gsubfn

## Loading required package: proto

## Loading required package: RSQLite

setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")


SectorB<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorB")
SectorA<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorA")
summary(SectorB)

## Inmueble tipo estrato numero_habitantes


## Min. : 1.0 Length:71 Length:71 Min. :2.000
## 1st Qu.:18.5 Class :character Class :character 1st Qu.:3.000
## Median :36.0 Mode :character Mode :character Median :5.000
## Mean :36.0 Mean :4.831
## 3rd Qu.:53.5 3rd Qu.:6.000
## Max. :71.0 Max. :8.000
## metros_cuadrados
## Min. :46.22
## 1st Qu.:67.11
## Median :69.24
## Mean :71.19
## 3rd Qu.:74.64
## Max. :93.28

summary(SectorA)

1
## Inmueble tipo estrato numero_habitantes
## Min. : 1.00 Length:100 Length:100 Min. :0.00
## 1st Qu.: 25.75 Class :character Class :character 1st Qu.:2.00
## Median : 50.50 Mode :character Mode :character Median :3.00
## Mean : 50.50 Mean :3.13
## 3rd Qu.: 75.25 3rd Qu.:4.00
## Max. :100.00 Max. :7.00
## metros_cuadrados
## Min. :59.40
## 1st Qu.:67.80
## Median :70.75
## Mean :71.74
## 3rd Qu.:74.68
## Max. :85.85

Para la información relacioada con el sector A, se cuenta como 100 observaciones y para el sector B de 71
observaciones. No hay diferencias muy significativas en cuanto al resumen estadístico de los metros cuadrados
por sector y el número de habitaciones.

Ejercicio uno

1) Con respecto a los inmuebles del sector B, estimar el porcentaje (proporción) y error estándar de
inmuebles residenciales que hace parte del estrato bajo entre de 60 y 80 (inclusive) metros cuadrados
construidos.

library("readxl")
library(sqldf)
setwd("D:/jromero/MAESTRIA_CIENCIAS DE LA INFORMACION/SEMESTRE UNO/Estadistica/Taller2")
SectorB<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorB")
FiltroUno <- sqldf("SELECT * FROM SectorB
WHERE estrato=='Bajo' and metros_cuadrados>=60 and metros_cuadrados<=80")

Se determina la proporción de exito, que es equivalente a

CasosF avorables
pb =
CasosT otales
Pexito<-nrow(FiltroUno)/nrow(SectorB)

cat("La proporción de que los inmuebles del sector B


que hacen parte del estrato bajo entre de 60 y 80 es: ",Pexito)

## La proporción de que los inmuebles del sector B


## que hacen parte del estrato bajo entre de 60 y 80 es: 0.5070423

El error estandar se define como: r


pe ∗ (1 − pe)
Errorestandar =
n
Donde pe es la probabilidad de exito del suceso y n es el tamaño de la muestra. Del cual se obtiene que:

2
Errorestandar<-sqrt(Pexito*(1-Pexito))/sqrt(nrow(SectorB))
cat("El error estandar es: ",Errorestandar)

## El error estandar es: 0.0593332

Ejercicio dos

2) Proponga un intervalo de confianza del 97,39%, para establecer la proporción de inmuebles de tipo
residencial y que al mismo tiempo sea de estrato medio para el sector A.

library("readxl")
SectorA<-read_excel("DATOS TALLER 02.xlsx", sheet = "SectorA")
FiltroDos <- sqldf("SELECT * FROM SectorA
WHERE tipo=='Residencial' and estrato=='Medio'")

Pexitodos<-nrow(FiltroDos)/nrow(SectorA)

cat("La proporción de que los inmuebles del sector A


sean tipo residencial y que al mismo tiempo sea de
estrato medio es.: ",Pexitodos)

## La proporción de que los inmuebles del sector A


## sean tipo residencial y que al mismo tiempo sea de
## estrato medio es.: 0.11

alpha=1-0.9739
Zc=qnorm(1 - alpha/2)

LimiInferior<-Pexitodos-(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
LimiSuperior<-Pexitodos+(sqrt(Pexitodos*(1-Pexitodos))/sqrt(nrow(SectorA)))*Zc
cat("El límite inferior es: ",LimiInferior)

## El límite inferior es: 0.04039077

cat("El límite superior es: ",LimiSuperior)

## El límite superior es: 0.1796092

Se puede decir con un 97.39 % de confianza que la proporción de la muestra de los inmuebles del sector A
sean tipo residencial y que al mismo tiempo sea de estrato medio está entre (0.04039077- 0.1796092)

Ejercicio tres

3)¿Es posible inferir que más del 75% de los inmuebles del sector A tienen menos de 70 metros cuadrados?

library(sqldf)
Filtrotres <- sqldf("SELECT * FROM SectorA
WHERE metros_cuadrados<70")

cat(nrow(Filtrotres))

3
## 46

Pexitres<-nrow(Filtrotres)/nrow(SectorA)

La hipotesis que se quiere probar es: Ho : P > 0.75 Ha : P < 0.75


Para esto, se evalua el estadístico de prueba

Errorestandartres<-sqrt(Pexitres*(1-Pexitres))/sqrt(nrow(SectorA))

ztres=(Pexitres-0.75)/Errorestandartres
cat(ztres)

## -5.81865

alfa <- 0.05


Critico <- qnorm(1-alfa)

cat("El Zc o Z crítico es de
", Critico)

## El Zc o Z crítico es de
## 1.644854

Como la hipótesis es a dos colas, se rechaza la hipótesis nula, por lo tanto la proporción de inmuebles del
sector A que tienen más de 70 m2 es menor a 0,75, con una significancia del 5%.

Ejercicio cuatro

4) Usando una prueba de hipótesis con el 98,93% de confianza e indicar si hay diferencias significativas
entre los metros cuadrados de los inmuebles de sector A y del sector B. (suponer normalidad) (Sug-
erencia: No olvide estudiar la varianza de los metros cuadrados de cada sector para decidir que prueba
usar )

var.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados,conf.level=0.95)

##
## F test to compare two variances
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## F = 0.68977, num df = 99, denom df = 70, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4423786 1.0579068
## sample estimates:
## ratio of variances
## 0.6897661

var.test(SectorB$metros_cuadrados,SectorA$metros_cuadrados,conf.level=0.95)

4
##
## F test to compare two variances
##
## data: SectorB$metros_cuadrados and SectorA$metros_cuadrados
## F = 1.4498, num df = 70, denom df = 99, p-value = 0.08866
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.9452629 2.2605070
## sample estimates:
## ratio of variances
## 1.449767

El intervalo de confianza del


95% indica que la razón de varianzas se encuentra entre 0.4423786 y 1.057907. Puesto que el intervalo de
confianza incluye el 1 se concluye que las varianzas de los metros cuadrados de cada sector son iguales.
Estimación de medias:

Mediastres=t.test(SectorA$metros_cuadrados,SectorB$metros_cuadrados)
Mediastres

##
## Welch Two Sample t-test
##
## data: SectorA$metros_cuadrados and SectorB$metros_cuadrados
## t = 0.50945, df = 132.83, p-value = 0.6113
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.594189 2.700279
## sample estimates:
## mean of x mean of y
## 71.74220 71.18915

El estadístico de prueba es 0.50945, los grados de libertad son 132.83, el p_value es de 0.3056, por lo tanto se
acepta la hipotesis nula de igualdad de medias. También debido a que el cero se encuentra en el intervalo de
confianza, hay evidencia estadística Para decir que no hay diferencia de medias ya que 0 está en el intervalo.
Por lo tanto se concluye que el promedio de metros cuadrados de los inmuebles del sector A y B con una
significancia del 98.93% son iguales.

Ejercicio cinco

5. Pensando en un modelo de Poisson, ¿cuántos habitantes por inmueble se estima para el sector B? (No
olvide calcular el error estandar).

Vesperado=mean(SectorB$numero_habitantes)
cat("Se espera que por cada imueble exista",Vesperado,"numero de habitantes")

## Se espera que por cada imueble exista 4.830986 numero de habitantes

cat("El error estandar es: ", sqrt(Vesperado))

## El error estandar es: 2.19795

5
Estime la probabilidad de que las personas tengan entre 3 y 5 habitantes por inmuebles en el sector B

result<-sum(dpois(3:5,Vesperado))
cat("La probabilidad de que las personas tengan entre 3 y 5
habitaciones por inmueble es : ",result)

## La probabilidad de que las personas tengan entre 3 y 5


## habitaciones por inmueble es : 0.5059604

Ejercicio seis
6. Encontrar evidencia estadística para decidir si la proporción de inmuebles residenciales del Sector B,
es 3 veces la proporción de inmuebles no residenciales.

H0 : Presidencial = 3Pnor esidencial


Ha : Presidencial ̸= 3Pnor esidencial

ResidencialB <- sqldf("SELECT * FROM SectorB


WHERE tipo=='Residencial'")
Propresidencia<-nrow(ResidencialB)/nrow(SectorB)
print(Propresidencia)

## [1] 0.8028169

NoResidencialB <- sqldf("SELECT * FROM SectorB


WHERE tipo=='No Residencial'")

Propnoresidencia<-nrow(NoResidencialB)/nrow(SectorB)
print(Propnoresidencia)

## [1] 0.1971831

Pconjunta<-(nrow(ResidencialB)+nrow(NoResidencialB))/(nrow(SectorB)+nrow(SectorB))
print(Pconjunta)

## [1] 0.5

Zest<-(Propresidencia-3*Propnoresidencia)/(sqrt(Pconjunta*(1-Pconjunta)*(1/nrow(SectorB) + 1/nrow(Sector
print(Zest)

## [1] 2.517544

Zc=qnorm(1-0.05)
print(Zc)

## [1] 1.644854

Como Z estadístico es 2.517544 mayor a Z crítico 1.644854, y evaluando a dos colas, se rechaza la hipotesis
nula y se acepta de que la proporción de inmuebles residenciales no es 3 veces la proporción de inmuebles no
residenciales

6
Ejercicio siete

7) ¿Hay evidencia estadistica para decir que la proporción de inmnuebles NO residenciales del sector A
es igual a la proporción de inmnuebles NO residenciales del sector B?

NoresidencialA <- sqldf("SELECT * FROM SectorA


WHERE tipo=='No Residencial'")
PropnoresidenciaA<-nrow(NoresidencialA)/nrow(SectorB)
print(PropnoresidenciaA)

## [1] 0.2816901

NoResidencialB <- sqldf("SELECT * FROM SectorB


WHERE tipo=='No Residencial'")

PropnoresidenciaB<-nrow(NoResidencialB)/nrow(SectorB)
print(PropnoresidenciaB)

## [1] 0.1971831

Pconjunta7<-(nrow(NoresidencialA)+nrow(NoResidencialB))/(nrow(SectorA)+nrow(SectorB))
print(Pconjunta7)

## [1] 0.1988304

Zest7<-(PropnoresidenciaA-PropnoresidenciaB)/(sqrt(Pconjunta7*(1-Pconjunta7)*(1/nrow(SectorA) + 1/nrow(S
print(Zest7)

## [1] 1.364333

print(Zc)

## [1] 1.644854

Como Z estadístico es 1.364333 y está entre el +/− Z crítico 1.644854, se acepta la hipotesis nula que la
proporción de inmuebles no residenciales de A es igual a la proporción de inmuebles no residenciales de B

Segunda Parte

1) Pensando en normalidad, si se sabe con anterioridad que un intervalo de confianza del 95% para estimar
una proporción es (0.834 , 0.921), se puede deducir del intervalo que la proporción estimada es y su
variabilidad es:

p(1−bp)
Sabemos que el límite inferior es: LimiteInf = pb − λ α
2
b √
n

p(1−bp)
y el límite superior es: LimiteSup = pb + λ α2 b √
n

Con los límites dados, tenemos que: p


pb(1 − pb)
p = 0.834 + λ α2 √
n

7
p
pb(1 − pb)
p = 0.921 − λ α2 √
n

Donde λ α2 es 1.96.

p(1−bp)
Suponiendo a b √
n
= Y para facilitar los cálculos se obtiene que:

0.921 − 1.96y = 0.834 + 1.96y

Despejando y
0.087
y= = 0.02219
2(1.96)
Se reemplaza y en cualquiera de dos ecuaciones planteadas y se obtiene:
pb = 0.921 − 1.96(0.02219) = 0.8775
la proporción estimada 0.8775 y variabilidad 0.02219

2) Asumiendo que la muestra dada por 3,3,4,3,2,3,5,3,3,2,2,3,4,5 es Poisson, entonces:

VecPois<-c(3,3,4,3,2,3,5,3,3,2,2,3,4,5)
cat("El parámetro del modelo Poisson estimado es", mean(VecPois) )

## El parámetro del modelo Poisson estimado es 3.214286

3) Recordando que el sesgo de un estimador es el resultante del valor esperado del estimador menos la
estimación, entonces si H representa el estimador definido a partir de una muestra probabilística de
tamaño n y B es el sesgo del estimador H , un estimador insesgado que se puede definir a partir de H
y B es:

Decimos que:
b(Y ) = E(Y ) − Yb
b − E(H)
B=H
Entonces
E(H) = H − B
b. H - B

4) Consultar que son los estadísticos de orden y úselos para estimar el verdadero máximo de una población,
a partir de la muestra 2,3,3,2,3,4,3,2,3,4,5 y la muestra aleatoria de donde proviene la muestra es
Uniforme Continua con parámetro mínimo 1 y parámetro máximo

9. Estimación y Error Estándar.

Partimos de tener una muestra X1 , X2 , X3....,Xn que se comporta de forma aleatoria, y su distribución es
continua F_{x}X uniforme
La función de distribución uniforme es:

1 1
f (x) = = = 0.125
b−a 9−1
La función k-ésima estadística de orden n, es decir k = 1, 2, 3, 4..., n:

8
n!
f xk,n (y) = [FX ](Y )k−1 [1 − FX (Y )n−k )fx (y)]
(k − 1)!(n − k)!
Donde Fx es la integral de: Z x Z x
f (x)dx = 0.125dx = 0.125(x − 1)
−inf 1

El valor verdadero máximo decimos que es de orden k=11, debido a que es el tamño de nuestra muestra:

Z 9
11 ∗ 0.125 ∗ x ∗ (0.125[x − 1]))11−1 dx
1
Resolviendo la integral, el valor máximo es 8.333 con varianza de 0.89 y error estadar de 0.28

También podría gustarte