Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Caso High School and Survey
Caso High School and Survey
survey
true
abril 28, 2018
Abstract
En este documento se pretended analizar las variables del estudio Hihs School and
Beyond survey, y desarrollar un modelo de regreción líneal para identificar correlaciones
entre sus diferentes variables en razón de la variable raza (race).
I. Introducción
El presente estudio de caso se basa en los datos obtenidos de muestras al azar de doscientas
observaciones realizadas a través de una encuesta aplicada a estudiantes de último año del
National Center of Education Statistics. Se analizaran las variables lectura y escritura, y su
relación con la variable raza, en específico la categoria de hispanos.
Primero se realizará un análisis general del la base de datos hsb2 y sus variables
1
Se abre la base de datos con la que se trabajará, en este caso con la libreria openintro y la
base de datos del estudio hsb2
library(openintro)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library (ggplot2)
2
## private: 32 academic :105 1st Qu.:44.00 1st Qu.:45.75
## vocational: 50 Median :50.00 Median :54.00
## Mean :52.23 Mean :52.77
## 3rd Qu.:60.00 3rd Qu.:60.00
## Max. :76.00 Max. :67.00
## math science socst
## Min. :33.00 Min. :26.00 Min. :26.00
## 1st Qu.:45.00 1st Qu.:44.00 1st Qu.:46.00
## Median :52.00 Median :53.00 Median :52.00
## Mean :52.65 Mean :51.85 Mean :52.41
## 3rd Qu.:59.00 3rd Qu.:58.00 3rd Qu.:61.00
## Max. :75.00 Max. :74.00 Max. :71.00
#Observamos la estructura de la base de datos, existen 200 observaciones y 11 variables
str(hsb2)
Se analiza la relación entre las variables escritura (write) y lectura (read) a través de la
creación de un modelo lineal de regresión
Se establece el modelo de regresión lineal, entre las variables de escritura y lectura donde la
asociación lineal nos dice que es moderada de r=0.5967765, lo cual no es lo suficientemente
fuerte.
library(openintro)
library(dplyr)
hsb2 %>%
summarize (N = n(), r = cor(write, read))
3
Esta es una línea de “mejor ajuste” que corta los datos de una manera que minimiza la
distancia entre la línea y los puntos de datos. Es el modelo que se propone
library(ggplot2)
ggplot(hsb2, aes(x=write, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Escritura") +
scale_y_continuous("Variable Lectura")
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Escritura
modelo_lineal<-lm(write~read,hsb2)
summary(modelo_lineal)
##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
4
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16
La primera columna (Estimate), nos dice el valor estimado de los dos parametros de la
ecuación del modelo lienal, que equivalen a la ordenada en el origen y la pendiente. Se
muestran los valores estándar, el valor del estádistico t y el p-value (dos colas) de cada uno
de los parámetros. Esto permite determinar si los parámetros son significativamente distintos
de 0, es decir, que tienen importancia en el modelo. Para el modelo generado , tanto la
ordenada en el origen como la pendiente son significativas (p-value <0.05) El valor de Rˆ2
indica que el modelo calculado explica el 35.61% de la variabilidad presente en la variable
respuesta (escritura) mediante la variable independiente (lectura) El p-value obtenido en
el test F(0.00000000000000022) determina que sí es significativamente superior la varianza
explicada por el modelo en comporación a la varianza total. Es el parámetro que determina si
el modelo es significativo y por lo tanto se puede aceptar. El modelo lineal sigue la ecuación
write=23.95944+0.55171read. Por cada unidad que se incrementa el puntaje de lectura,
el número de puntación en escritura aumenta en promedio .55171 unidades.
5
## SSE SSE_also
## 1 11511.45 11511.45
Podemos observar que el modelo es y=23.95944+0.55171x1+ error Indicando que la correlación
entre escritura y lectura es débil por ser r=0.3529
summary(mphsb2)
##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16
Para comprobar lo anterior se realiza un análisis de idoneidad del modelo. observamos que
los residuos del modelo, no indican que la regresión lineal
Prueba de normalidad de los residuos
plot(residuals(mphsb2),
main="Gráfica de residuos del modelo", col="#228cdb",lty=4,ylab="Residuales", xlab
6
Gráfica de residuos del modelo
10 15
5
Residuales
0
−10
−20
Secuencia
7
Gráfica Estándar r
10 15
5
Estándar r
0
−10
−20
Secuencia
8
Gráfica Q
2
1
Cuantiles
0
−1
−2
−3 −2 −1 0 1 2 3
Cuantiles Teóricos
##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16
Se analizan las variables read y race para determinar si existe alguna relación entre la raza
y la capacidad de lectura.
library(tidyr)
## # A tibble: 57 x 3
## race read n
## <chr> <int> <int>
## 1 african american 34 2
## 2 african american 41 1
## 3 african american 42 2
## 4 african american 44 1
## 5 african american 45 2
## 6 african american 46 1
## 7 african american 47 4
## 8 african american 50 4
## 9 african american 52 1
## 10 african american 57 1
## # ... with 47 more rows
per_read<-hsb_counts %>%
spread(race, n)
print(per_read)
## # A tibble: 30 x 5
## read `african american` asian hispanic white
## <int> <int> <int> <int> <int>
## 1 28 NA NA 1 NA
## 2 31 NA NA NA 1
## 3 34 2 NA 2 2
## 4 35 NA NA NA 1
## 5 36 NA NA NA 3
## 6 37 NA NA 1 1
10
## 7 39 NA 1 3 4
## 8 41 1 1 NA NA
## 9 42 2 NA 1 10
## 10 43 NA NA NA 2
## # ... with 20 more rows
A partir del orden que se le dieron a los anteriores datos y la gráfica siguiente, en un primer
momento se podría determinar que los caucásicos son las personas que obtienen una mejor
calificación en la lectura, sin embargo se tendría que analizar también en razón del número
de personas que pertenencen a cada raza, pues tanto asiáticos, afroamericanos e hispanos son
minoria en los Estados Unidos.
library(ggplot2)
ggplot(data = hsb2, aes(x=race, y=read, color=race, group=race)) + geom_point() + xlab("
ylab("Lectura")+ scale_colour_discrete(name ="Raza", breaks=c("african american","asian"
70
60
Raza
Afroamericano
Lectura
Asiático
50 Hispano
Caucásico
40
30
11
3.2. Análisis de correlación entre las variables lectura (read) y
escritura (write) en función de la categoría hispanos (hispanic)
De la base de datos general, se filtrará la variable que nos interesa, en este caso race y en
particular hispanic para analizar su correlación con las variables lectura (read) y escritura
(write)
Se filtra la variable que nos interesa.
library(openintro)
data(hsb2)
hispanos<- filter(hsb2, race=="hispanic")
hispanos
12
## 7 42
## 8 46
## 9 51
## 10 36
## 11 31
## 12 56
## 13 56
## 14 48
## 15 41
## 16 51
## 17 66
## 18 51
## 19 41
## 20 51
## 21 41
## 22 41
## 23 61
## 24 61
Analizamos la correlación. Es importante mencionar que el sector hispanos sigue un patron
general en comparación con otras “razas”. El valor de la la correlación es de r=0.5701098,
vuelve a generar una fuerza de asociación moderada
library(openintro)
library(dplyr)
hispanos %>%
summarize (N = n(), r = cor(write, read))
## N r
## 1 24 0.5701098
Analizamos el gráfico
El gráfico de dispersión nos indica una posible relación lineal positiva en ambas variables. Al
realizar el ajuste del modelo
library(ggplot2)
ggplot(hispanos, aes(x=write, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Escritura") +
scale_y_continuous("Variable Lectura")
13
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Escritura
Análisis del modelo líneal con la función broom Los datos no se ajustan a la red. No sea tan
buena la prediccción, no se ajustan tan bien como se espera.
library(broom)
mphispanos <- lm(write ~ read, data = hispanos)
mphispanos %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))
## SSE SSE_also
## 1 1062.382 1062.382
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanos)
##
## Call:
## lm(formula = write ~ read, data = hispanos)
##
## Residuals:
14
## Min 1Q Median 3Q Max
## -15.612 -4.272 1.237 3.724 11.018
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.9635 6.7546 3.696 0.00126 **
## read 0.4606 0.1415 3.255 0.00363 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.949 on 22 degrees of freedom
## Multiple R-squared: 0.325, Adjusted R-squared: 0.2943
## F-statistic: 10.59 on 1 and 22 DF, p-value: 0.003631
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.57, y
una p-value =0.003631. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 32.50% de la
variabilidad presenta en la varaible de respuesta (escritura) mediante la variables independiete
(lectura). El modelo lineal sigue la ecuación *escritura=24.9635 + 0.4606 read**. Por cada
unidad de puntuación que se incrementa el puntaje de lectura , el puntaje en escritura
aumenta un promedo de 0.4606 unidades. Considerando el modelo anterior la relación es
mucho menor.
## N r
## 1 24 0.5498393
Analizamos el gráfico y se puede ver una mayor dispersión en los en la variable de matemáticas
en relación a la lectura.Realizamos el ajuste al modelo lineal
ggplot(hispanos, aes(x=math, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
15
scale_x_continuous("Variable Matemáticas") +
scale_y_continuous("Variable Lectura")
70
60
Variable Lectura
50
40
30
40 50 60
Variable Matemáticas
Análisis del modelo líneal con la función broom de las variables matemáticas y lectura
library(broom)
mphispanosmr <- lm(math ~ read, data = hispanos)
mphispanosmr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))
## SSE SSE_also
## 1 782.6771 782.6771
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanosmr)
##
## Call:
## lm(formula = math ~ read, data = hispanos)
16
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.5414 -3.7917 0.0203 2.9588 14.5834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.9151 5.7977 5.160 3.58e-05 ***
## read 0.3750 0.1215 3.088 0.00538 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.965 on 22 degrees of freedom
## Multiple R-squared: 0.3023, Adjusted R-squared: 0.2706
## F-statistic: 9.533 on 1 and 22 DF, p-value: 0.005379
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.55, y
una p-value =0.005379. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 30.23%
de la variabilidad presenta en la variable de respuesta (matemáticas) mediante la variables
independiente (lectura). El modelo lineal sigue la ecuación *matemáticas=29.9151 + 0.3750
read**. Por cada unidad de puntuación que se incrementa el puntaje de lectura , el puntaje
en matemáticas aumenta un promedio de 0.3750 unidades. Considerando el modelo anterior
la relación o la fuerza de relación de las variables sigue disminuyendo.
## N r
## 1 24 0.6235992
Analizamos el gráfico y podemos observar que la dispersión es menor, tenemos desviaciones
mucho más pequeñas. Al ajustar el modelo vamos a obser que:
ggplot(hispanos, aes(x=science, y=read))+
geom_point(color='#228cdb') +
17
geom_smooth(method = "lm")+
scale_x_continuous("Variable Ciencia") +
scale_y_continuous("Variable Lectura")
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Ciencia
Análisis del modelo líneal con la función broom de las variables ciencia y lectura
library(broom)
mphispanossr <- lm(science ~ read, data = hispanos)
mphispanossr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))
## SSE SSE_also
## 1 949.4576 949.4576
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanossr)
##
## Call:
18
## lm(formula = science ~ read, data = hispanos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.537 -3.543 -1.039 3.337 12.961
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.0159 6.3856 3.448 0.00229 **
## read 0.5006 0.1338 3.742 0.00113 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.569 on 22 degrees of freedom
## Multiple R-squared: 0.3889, Adjusted R-squared: 0.3611
## F-statistic: 14 on 1 and 22 DF, p-value: 0.00113
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.62, y
una p-value =0.00113. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 38.89%,
hasta el momento es el más alto de los analizados de la variabilidad presenta en la
variable de respuesta (ciencia) mediante la variables independiente (lectura). El modelo lineal
sigue la ecuación ciencias=22.0159 + 0.5006 read. Por cada unidad de puntuación que
se incrementa el puntaje de lectura , el puntaje en ciencias aumenta un promedio de 0.5006
unidades. Considerando el modelo anterior la relación o la fuerza de relación de las variables
aumento.
## N r
## 1 24 0.5142931
Analizamos el gráfico y observamos que hay una dispersión mayor.Al realizar el ajuste las
desviaciones son mayores.
19
ggplot(hispanos, aes(x=socst, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Ciencias sociales") +
scale_y_continuous("Variable Lectura")
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Ciencias sociales
Análisis del modelo líneal con la función broom de las variables ciencias sociales y lectura
library(broom)
mphispanosstr <- lm(socst ~ read, data = hispanos)
mphispanosstr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))
## SSE SSE_also
## 1 1447.439 1447.439
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanosstr)
20
##
## Call:
## lm(formula = socst ~ read, data = hispanos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.9465 -3.8989 -0.0881 4.8289 13.0535
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.1098 7.8843 3.312 0.00317 **
## read 0.4646 0.1652 2.813 0.01014 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.111 on 22 degrees of freedom
## Multiple R-squared: 0.2645, Adjusted R-squared: 0.2311
## F-statistic: 7.912 on 1 and 22 DF, p-value: 0.01014
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.51, y una
p-value =0.010. Generando un modelo que tanto la pendiente como la ordenada al origen
son menos significativas. El valor de Rˆ2 indica que el modelo calculado explica el 26.45%,
hasta el momento es el más bajo de las relaciones analizadass de la variabilidad
presenta en la variable de respuesta (sociales) mediante la variable independiente (lectura).
El modelo lineal sigue la ecuación *sociales =26.1098+0.4646 read**. Por cada unidad de
puntuación que se incrementa el puntaje de lectura , el puntaje en ciencias sociales aumenta
un promedio de 0.4646 unidades. Considerando el modelo anterior la relación o la fuerza de
relación de las variables disminuyo.
21
Los datos nos muestran a la vez que la raza no es un factor determinante para determinar
la capacidad de las personas en algún campo como la lectura y la escritura, sin embargo es
necesario realizar un estudio más a fondo para comprobar esta hipótesis. Si bien hispanos
mostraron habilidades de lectura, la relación no están visible con otras áreas como las
mátematicas, pero si existe una relación interesante entre la lectura y la ciencias, por lo que
podemos que la lectura ayuda a poder tener mejor puntuación en ciencias.
22