Está en la página 1de 8

BILOGIA 1

EDGAR
13 de septiembre de 2018

Cargamos la base de datos:


suppressMessages(suppressWarnings(library(MASS)))
data("UScrime")
head(UScrime)

## M So Ed Po1 Po2 LF M.F Pop NW U1 U2 GDP Ineq Prob Time


## 1 151 1 91 58 56 510 950 33 301 108 41 394 261 0.084602 26.2011
## 2 143 0 113 103 95 583 1012 13 102 96 36 557 194 0.029599 25.2999
## 3 142 1 89 45 44 533 969 18 219 94 33 318 250 0.083401 24.3006
## 4 136 0 121 149 141 577 994 157 80 102 39 673 167 0.015801 29.9012
## 5 141 0 121 109 101 591 985 18 30 91 20 578 174 0.041399 21.2998
## 6 121 0 110 118 115 547 964 25 44 84 29 689 126 0.034201 20.9995
## y
## 1 791
## 2 1635
## 3 578
## 4 1969
## 5 1234
## 6 682
La informacion de la base de datos obtenia mediante “help(”UScrime“)” es la siguiente:

El efecto de los regímenes de castigo en las tasas de delincuencia

Los criminólogos están interesados en el efecto de los regímenes de castigo sobre las tasas de criminalidad.
Esto se ha estudiado utilizando datos agregados en 47 estados de EE. UU. Para 1960 en este marco de datos.
Las variables parecen haber sido reescaladas a números convenientes.
Este marco de datos contiene las siguientes columnas:
M : porcentaje de hombres de 14-24 años.
SO: variable indicadora para un estado sureño.
Ed: significa años de escolaridad.
Po1: gasto de la policía en 1960.
Po2: gasto policial en 1959.
LF: tasa de participación en la fuerza de trabajo.
M.F.: número de hombres por cada 1000 mujeres.
Pop: población del estado
NW: número de no blancos por cada 1000 personas
U1: tasa de desempleo de los hombres urbanos 14-24.
U2: tasa de desempleo de los hombres urbanos 35-39.
PIB: Producto interno bruto por cabeza.

1
Ineq: la desigualdad de ingresos.
Prob: probabilidad de encarcelamiento.
Time: tiempo promedio servido en las cárceles estatales.
y: tasa de delitos en una categoría particular por cabeza de población.
Ahora se realizara la extracion de las variables X= años de escolaridad y Y =tasa de delitos en una categoría
particular por cabeza de población de la base de datos
X=UScrime$Ed
Y=UScrime$y
datos<-data.frame(Y,X)
head(datos)

## Y X
## 1 791 91
## 2 1635 113
## 3 578 89
## 4 1969 121
## 5 1234 121
## 6 682 110

1
Realizaremos un analisis descriptivo y grafico de las variables en estudio, así
• (Ed) Ed: significa años de escolaridad
para estos datos se tiene la siguiente tabla de frecuencias
suppressWarnings(suppressMessages(library(agricolae)))
tbFreqanos=table.freq(hist(X,plot=FALSE))
tbFreqanos

## Lower Upper Main Frequency Percentage CF CPF


## 1 85 90 87.5 9 19.1 9 19.1
## 2 90 95 92.5 2 4.3 11 23.4
## 3 95 100 97.5 3 6.4 14 29.8
## 4 100 105 102.5 7 14.9 21 44.7
## 5 105 110 107.5 10 21.3 31 66.0
## 6 110 115 112.5 4 8.5 35 74.5
## 7 115 120 117.5 6 12.8 41 87.2
## 8 120 125 122.5 6 12.8 47 100.0
Así, se tiene el siguiente histograma con poligono de frecuencias para los datos
histo1<-hist(X,plot=F)
hist(X,axes=F)
axis(1, histo1$mids)
axis(2,seq(0,50,10))
lines (histo1$mids,histo1$counts)

2
Histogram of X
10
Frequency

87.5 92.5 97.5 102.5 107.5 112.5 117.5 122.5

Luego se obtienen las medidas de tendencia central, de disperción y de simetria:


suppressMessages(suppressWarnings(library(e1071)))
esta = data.frame(
Media=mean(X),
Mediana=median(X),
Varianza=var(X),
Desviacion_es=sd(X),
CV=sd(X)/mean(X),
Curtosis=kurtosis(X),
Coef.asi=skewness(X)
)
esta

## Media Mediana Varianza Desviacion_es CV Curtosis Coef.asi


## 1 105.6383 108 125.1489 11.187 0.1058991 -1.149253 -0.3189873
Ahora las medidas no centrales, los percentiles 25, 50 y 75 o los cuartiles 1,2 y 3 para esta variable son:
quantile(X)

## 0% 25% 50% 75% 100%


## 87.0 97.5 108.0 114.5 122.0
Asi, el diagrama de cajas queda dado de la sigueinte manera:
boxplot(X)

3
115
105
90 95

• (y) tasa de delitos en una categoría particular por cabeza de población.


para estos datos se tiene la siguiente tabla de frecuencias
suppressWarnings(suppressMessages(library(agricolae)))
tbFreqanos=table.freq(hist(Y,plot=FALSE))
tbFreqanos

## Lower Upper Main Frequency Percentage CF CPF


## 1 200 400 300 2 4.3 2 4.3
## 2 400 600 500 9 19.1 11 23.4
## 3 600 800 700 10 21.3 21 44.7
## 4 800 1000 900 12 25.5 33 70.2
## 5 1000 1200 1100 4 8.5 37 78.7
## 6 1200 1400 1300 5 10.6 42 89.4
## 7 1400 1600 1500 1 2.1 43 91.5
## 8 1600 1800 1700 2 4.3 45 95.7
## 9 1800 2000 1900 2 4.3 47 100.0
Así, se tiene el siguiente histograma con poligono de frecuencias para los datos
histo1<-hist(Y,plot=F)
hist(Y,axes=F)
axis(1, histo1$mids)
axis(2,seq(0,50,10))
lines (histo1$mids,histo1$counts)

4
Histogram of Y
10
Frequency

300 500 700 900 1100 1300 1500 1700 1900

Luego se obtienen las medidas de tendencia central, de disperción y de simetria:


suppressMessages(suppressWarnings(library(e1071)))
esta = data.frame(
Media=mean(Y),
Mediana=median(Y),
Varianza=var(Y),
Desviacion_es=sd(Y),
CV=sd(Y)/mean(Y),
Curtosis=kurtosis(Y),
Coef.asi=skewness(Y)
)
esta

## Media Mediana Varianza Desviacion_es CV Curtosis Coef.asi


## 1 905.0851 831 149585.4 386.7627 0.4273219 0.7776277 1.053927
Ahora las medidas no centrales, los percentiles 25, 50 y 75 o los cuartiles 1,2 y 3 para esta variable son:
quantile(Y)

## 0% 25% 50% 75% 100%


## 342.0 658.5 831.0 1057.5 1993.0
Asi, el diagrama de cajas queda dado de la sigueinte manera:
boxplot(Y)

5
2000
1500
1000
500

2
Primero ajustamos el modelo de regresión donde la variable explicativa o independiente es (Ed) y la variable
dependiente es (y), así
mod<-lm(Y~X);mod

##
## Call:
## lm(formula = Y ~ X)
##
## Coefficients:
## (Intercept) X
## -273.97 11.16
Así, el modelo estimado para nuestros datos es:

ŷ = −273.97 + 11.16X
Ahora, un intervalo de confianza para los parametros estimados β0 y β1 es:
confint(mod,level=0.95)

## 2.5 % 97.5 %
## (Intercept) -1317.480910 769.54782
## X 1.336801 20.98563

6
Luego, se realizara el contraste o prueba de hipotesis sobre los parametros del modelo, así, se tiene los
siguientes juego de hipótesis

H0 : β0 = 0 contra H1 : β0 6= 0
H0 : β1 = 0 contra H1 : β1 6= 0

summary(mod)

##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## Min 1Q Median 3Q Max
## -600.61 -271.25 -46.54 171.33 916.46
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -273.967 518.104 -0.529 0.5996
## X 11.161 4.878 2.288 0.0269 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 370.1 on 45 degrees of freedom
## Multiple R-squared: 0.1042, Adjusted R-squared: 0.08432
## F-statistic: 5.236 on 1 and 45 DF, p-value: 0.02688
Por ultimo se realizara la prueba de los supuestos de los residuales del modelo de regresión ajustado, entonces,
los residuos del modelo son:
r<-resid(mod);r

## 1 2 3 4 5 6
## 49.296069 647.749361 -141.381503 892.459648 157.459648 -271.766997
## 7 8 9 10 11 12
## -1.928211 612.394217 125.457283 -338.056709 776.039073 -82.444569
## 13 14 15 16 17 18
## -476.250639 -367.895495 100.940925 237.779711 -414.766997 42.200287
## 19 20 21 22 23 24
## -270.734281 293.555431 -189.444569 -280.381503 418.489999 -52.734281
## 25 26 27 28 29 30
## -497.734281 916.459648 -600.605783 239.910575 122.716645 -23.381503
## 31 32 33 34 35 36
## -391.026359 -188.605783 185.200287 -120.056709 -211.477285 429.845143
## 37 38 39 40 41 42
## 133.940925 -320.799713 117.779711 264.200287 -207.701566 -400.605783
## 43 44 45 46 47
## -7.993643 -46.540352 -253.220289 -378.799713 -227.540352
así, las pruebas son las siguientes:
• Normalidad
Primero se realiza el siguinete análisis gráfico

7
qqnorm(r, pch = 19, col = "gray50")
qqline(r)

Normal Q−Q Plot


500
Sample Quantiles

0
−500

−2 −1 0 1 2

Theoretical Quantiles

Donde se observa que los datos de los extremos estan un poco separados de la recta de normalidad, ahora
realizaremos el test de Shapiro-Wilk para resolver la siguinete prueba de hipótesis

H0 : Los residuos son normales contra H1 : Los residuos no son normales

shapiro.test(r)

##
## Shapiro-Wilk normality test
##
## data: r
## W = 0.94361, p-value = 0.02447
• Independencia
Se utilizara el test de rechas para probar el siguinete juego de hipótesis

H0 : Los residuos son independientes contra H1 : Los residuos no son independientes