Está en la página 1de 22

Estudio de Caso: High School and Beyond

survey
true
abril 28, 2018

Abstract

En este documento se pretended analizar las variables del estudio Hihs School and
Beyond survey, y desarrollar un modelo de regreción líneal para identificar correlaciones
entre sus diferentes variables en razón de la variable raza (race).

I. Introducción
El presente estudio de caso se basa en los datos obtenidos de muestras al azar de doscientas
observaciones realizadas a través de una encuesta aplicada a estudiantes de último año del
National Center of Education Statistics. Se analizaran las variables lectura y escritura, y su
relación con la variable raza, en específico la categoria de hispanos.

II. Objetivo del Estudio de caso


El presente estudio de caso buscaremos la correlación existente entre las variables lectura
(read), escritura (write), matemáticas (math), ciencias (science) y ciencias sociales (socst)
en razón de la variable raza (race), en específico la categoría de hispanos (hispanic). Por lo
que nuestra pregunta de investigación es ¿Existe correlación entre estas varibles?, en este
sentido el objetivo se centra en analizar la correlación de estás variables através de la creación
de un modelo de regresión líneal.

III. Estudio de Caso: Análisis de variables

3.1. Análisis General

Primero se realizará un análisis general del la base de datos hsb2 y sus variables

1
Se abre la base de datos con la que se trabajará, en este caso con la libreria openintro y la
base de datos del estudio hsb2
library(openintro)

## Please visit openintro.org for free statistics materials


##
## Attaching package: 'openintro'
## The following objects are masked from 'package:datasets':
##
## cars, trees
library(dplyr)

##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library (ggplot2)

## Warning: package 'ggplot2' was built under R version 3.4.4


##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:openintro':
##
## diamonds
data(hsb2)
#obtenemos un resumen de las estadisticas básicas de nuestra base de datos, para obtene
summary(hsb2)

## id gender race ses


## Min. : 1.00 Length:200 Length:200 low :47
## 1st Qu.: 50.75 Class :character Class :character middle:95
## Median :100.50 Mode :character Mode :character high :58
## Mean :100.50
## 3rd Qu.:150.25
## Max. :200.00
## schtyp prog read write
## public :168 general : 45 Min. :28.00 Min. :31.00

2
## private: 32 academic :105 1st Qu.:44.00 1st Qu.:45.75
## vocational: 50 Median :50.00 Median :54.00
## Mean :52.23 Mean :52.77
## 3rd Qu.:60.00 3rd Qu.:60.00
## Max. :76.00 Max. :67.00
## math science socst
## Min. :33.00 Min. :26.00 Min. :26.00
## 1st Qu.:45.00 1st Qu.:44.00 1st Qu.:46.00
## Median :52.00 Median :53.00 Median :52.00
## Mean :52.65 Mean :51.85 Mean :52.41
## 3rd Qu.:59.00 3rd Qu.:58.00 3rd Qu.:61.00
## Max. :75.00 Max. :74.00 Max. :71.00
#Observamos la estructura de la base de datos, existen 200 observaciones y 11 variables
str(hsb2)

## 'data.frame': 200 obs. of 11 variables:


## $ id : int 70 121 86 141 172 113 50 11 84 48 ...
## $ gender : chr "male" "female" "male" "male" ...
## $ race : chr "white" "white" "white" "white" ...
## $ ses : Factor w/ 3 levels "low","middle",..: 1 2 3 3 2 2 2 2 2 2 ...
## $ schtyp : Factor w/ 2 levels "public","private": 1 1 1 1 1 1 1 1 1 1 ...
## $ prog : Factor w/ 3 levels "general","academic",..: 1 3 1 3 2 2 1 2 1 2 ...
## $ read : int 57 68 44 63 47 44 50 34 63 57 ...
## $ write : int 52 59 33 44 52 52 59 46 57 55 ...
## $ math : int 41 53 54 47 57 51 42 45 54 52 ...
## $ science: int 47 63 58 53 53 63 53 39 58 50 ...
## $ socst : int 57 61 31 56 61 61 61 36 51 51 ...

Se analiza la relación entre las variables escritura (write) y lectura (read) a través de la
creación de un modelo lineal de regresión
Se establece el modelo de regresión lineal, entre las variables de escritura y lectura donde la
asociación lineal nos dice que es moderada de r=0.5967765, lo cual no es lo suficientemente
fuerte.
library(openintro)
library(dplyr)
hsb2 %>%
summarize (N = n(), r = cor(write, read))

## Warning: package 'bindrcpp' was built under R version 3.4.4


## N r
## 1 200 0.5967765

3
Esta es una línea de “mejor ajuste” que corta los datos de una manera que minimiza la
distancia entre la línea y los puntos de datos. Es el modelo que se propone
library(ggplot2)
ggplot(hsb2, aes(x=write, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Escritura") +
scale_y_continuous("Variable Lectura")

70

60
Variable Lectura

50

40

30

30 40 50 60
Variable Escritura

3.1.1. Cálculo del modelo de regresión lineal simple

modelo_lineal<-lm(write~read,hsb2)
summary(modelo_lineal)

##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max

4
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16
La primera columna (Estimate), nos dice el valor estimado de los dos parametros de la
ecuación del modelo lienal, que equivalen a la ordenada en el origen y la pendiente. Se
muestran los valores estándar, el valor del estádistico t y el p-value (dos colas) de cada uno
de los parámetros. Esto permite determinar si los parámetros son significativamente distintos
de 0, es decir, que tienen importancia en el modelo. Para el modelo generado , tanto la
ordenada en el origen como la pendiente son significativas (p-value <0.05) El valor de Rˆ2
indica que el modelo calculado explica el 35.61% de la variabilidad presente en la variable
respuesta (escritura) mediante la variable independiente (lectura) El p-value obtenido en
el test F(0.00000000000000022) determina que sí es significativamente superior la varianza
explicada por el modelo en comporación a la varianza total. Es el parámetro que determina si
el modelo es significativo y por lo tanto se puede aceptar. El modelo lineal sigue la ecuación
write=23.95944+0.55171read. Por cada unidad que se incrementa el puntaje de lectura,
el número de puntación en escritura aumenta en promedio .55171 unidades.

Podemos observar el siguiente análisis


hsb2 %>%
summarize(N = n(), mean(write), sd(write), mean(read), sd(read), cor(write,read))

## N mean(write) sd(write) mean(read) sd(read) cor(write, read)


## 1 200 52.775 9.478586 52.23 10.25294 0.5967765
Análisis del modelo líneal con la función broom Los datos no se ajustan a la red. No sea tan
buena la prediccción, no se ajustan tan bien como se espera.
library(broom)

## Warning: package 'broom' was built under R version 3.4.4


mphsb2 <- lm(write ~ read, data = hsb2)
mphsb2 %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))

5
## SSE SSE_also
## 1 11511.45 11511.45
Podemos observar que el modelo es y=23.95944+0.55171x1+ error Indicando que la correlación
entre escritura y lectura es débil por ser r=0.3529
summary(mphsb2)

##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16

3.1.2. Pruebas de idoneidad del modelo

Para comprobar lo anterior se realiza un análisis de idoneidad del modelo. observamos que
los residuos del modelo, no indican que la regresión lineal
Prueba de normalidad de los residuos
plot(residuals(mphsb2),
main="Gráfica de residuos del modelo", col="#228cdb",lty=4,ylab="Residuales", xlab

6
Gráfica de residuos del modelo
10 15
5
Residuales

0
−10
−20

0 50 100 150 200

Secuencia

Estandarizamos los residuos


plot(rstandard(mphsb2), ylim=c(-20,15),main = "Gráfica Estándar r", col="#228cdb",lty=4,
abline(h=0, col=2)

7
Gráfica Estándar r
10 15
5
Estándar r

0
−10
−20

0 50 100 150 200

Secuencia

qqnorm(rstandard(mphsb2), main = "Gráfica Q", col="#228cdb",lty=4,ylab="Cuantiles", xlab


qqline(rstandard(mphsb2),col=2)

8
Gráfica Q
2
1
Cuantiles

0
−1
−2

−3 −2 −1 0 1 2 3

Cuantiles Teóricos

El análisis gráfico y el contraste de normalidad muestra que para la variable de lectura no


se puede asumir una normalidad.Aunque dado que la distribucción no se aleja mucho de la
normalidad. Indicando una distribución de colas cortas
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphsb2)

##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

9
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16

3.1.3. Paradoja de Simpson

Se analizan las variables read y race para determinar si existe alguna relación entre la raza
y la capacidad de lectura.
library(tidyr)

## Warning: package 'tidyr' was built under R version 3.4.4


hsb_counts <- hsb2 %>%
count(race, read)
print(hsb_counts)

## # A tibble: 57 x 3
## race read n
## <chr> <int> <int>
## 1 african american 34 2
## 2 african american 41 1
## 3 african american 42 2
## 4 african american 44 1
## 5 african american 45 2
## 6 african american 46 1
## 7 african american 47 4
## 8 african american 50 4
## 9 african american 52 1
## 10 african american 57 1
## # ... with 47 more rows
per_read<-hsb_counts %>%
spread(race, n)
print(per_read)

## # A tibble: 30 x 5
## read `african american` asian hispanic white
## <int> <int> <int> <int> <int>
## 1 28 NA NA 1 NA
## 2 31 NA NA NA 1
## 3 34 2 NA 2 2
## 4 35 NA NA NA 1
## 5 36 NA NA NA 3
## 6 37 NA NA 1 1

10
## 7 39 NA 1 3 4
## 8 41 1 1 NA NA
## 9 42 2 NA 1 10
## 10 43 NA NA NA 2
## # ... with 20 more rows
A partir del orden que se le dieron a los anteriores datos y la gráfica siguiente, en un primer
momento se podría determinar que los caucásicos son las personas que obtienen una mejor
calificación en la lectura, sin embargo se tendría que analizar también en razón del número
de personas que pertenencen a cada raza, pues tanto asiáticos, afroamericanos e hispanos son
minoria en los Estados Unidos.
library(ggplot2)
ggplot(data = hsb2, aes(x=race, y=read, color=race, group=race)) + geom_point() + xlab("
ylab("Lectura")+ scale_colour_discrete(name ="Raza", breaks=c("african american","asian"

70

60
Raza
Afroamericano
Lectura

Asiático
50 Hispano
Caucásico

40

30

african american asian hispanic white


Raza

11
3.2. Análisis de correlación entre las variables lectura (read) y
escritura (write) en función de la categoría hispanos (hispanic)

De la base de datos general, se filtrará la variable que nos interesa, en este caso race y en
particular hispanic para analizar su correlación con las variables lectura (read) y escritura
(write)
Se filtra la variable que nos interesa.
library(openintro)
data(hsb2)
hispanos<- filter(hsb2, race=="hispanic")
hispanos

## id gender race ses schtyp prog read write math science


## 1 11 male hispanic middle public academic 34 46 45 39
## 2 20 male hispanic high public academic 60 52 57 61
## 3 12 male hispanic middle public vocational 37 44 45 39
## 4 16 male hispanic low public vocational 47 31 44 36
## 5 7 male hispanic middle public academic 57 54 59 47
## 6 21 male hispanic middle public general 44 44 61 50
## 7 15 male hispanic high public vocational 39 39 44 26
## 8 22 male hispanic middle public vocational 42 39 39 56
## 9 9 male hispanic middle public vocational 48 49 52 44
## 10 18 male hispanic middle public vocational 50 33 49 44
## 11 5 male hispanic low public academic 47 40 43 45
## 12 14 male hispanic high public academic 47 41 54 42
## 13 3 male hispanic low public academic 63 65 48 63
## 14 8 female hispanic low public academic 39 44 52 44
## 15 1 female hispanic low public vocational 34 44 40 39
## 16 4 female hispanic low public academic 44 50 41 39
## 17 34 female hispanic high private academic 73 61 57 55
## 18 35 female hispanic low private general 60 54 50 50
## 19 2 female hispanic middle public vocational 39 41 33 42
## 20 19 female hispanic low public general 28 46 43 44
## 21 17 female hispanic middle public academic 47 57 48 44
## 22 6 female hispanic low public academic 47 41 46 40
## 23 10 female hispanic middle public general 47 54 49 53
## 24 13 female hispanic middle public vocational 47 46 39 47
## socst
## 1 36
## 2 61
## 3 46
## 4 36
## 5 51
## 6 46

12
## 7 42
## 8 46
## 9 51
## 10 36
## 11 31
## 12 56
## 13 56
## 14 48
## 15 41
## 16 51
## 17 66
## 18 51
## 19 41
## 20 51
## 21 41
## 22 41
## 23 61
## 24 61
Analizamos la correlación. Es importante mencionar que el sector hispanos sigue un patron
general en comparación con otras “razas”. El valor de la la correlación es de r=0.5701098,
vuelve a generar una fuerza de asociación moderada
library(openintro)
library(dplyr)
hispanos %>%
summarize (N = n(), r = cor(write, read))

## N r
## 1 24 0.5701098
Analizamos el gráfico
El gráfico de dispersión nos indica una posible relación lineal positiva en ambas variables. Al
realizar el ajuste del modelo
library(ggplot2)
ggplot(hispanos, aes(x=write, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Escritura") +
scale_y_continuous("Variable Lectura")

13
70

60
Variable Lectura

50

40

30

30 40 50 60
Variable Escritura

Análisis del modelo líneal con la función broom Los datos no se ajustan a la red. No sea tan
buena la prediccción, no se ajustan tan bien como se espera.
library(broom)
mphispanos <- lm(write ~ read, data = hispanos)
mphispanos %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))

## SSE SSE_also
## 1 1062.382 1062.382
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanos)

##
## Call:
## lm(formula = write ~ read, data = hispanos)
##
## Residuals:

14
## Min 1Q Median 3Q Max
## -15.612 -4.272 1.237 3.724 11.018
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 24.9635 6.7546 3.696 0.00126 **
## read 0.4606 0.1415 3.255 0.00363 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.949 on 22 degrees of freedom
## Multiple R-squared: 0.325, Adjusted R-squared: 0.2943
## F-statistic: 10.59 on 1 and 22 DF, p-value: 0.003631
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.57, y
una p-value =0.003631. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 32.50% de la
variabilidad presenta en la varaible de respuesta (escritura) mediante la variables independiete
(lectura). El modelo lineal sigue la ecuación *escritura=24.9635 + 0.4606 read**. Por cada
unidad de puntuación que se incrementa el puntaje de lectura , el puntaje en escritura
aumenta un promedo de 0.4606 unidades. Considerando el modelo anterior la relación es
mucho menor.

3.3. Análisis de correlación entre las variables lectura (read) y


matemáticas (math) en función de la categoría hispanos (hispanic)

Se analizará la coorrelación de las variables lectura (write) y matemáticas (math) en función


de la categoría hispanos (hispanic)
Analizamos la correlación. La correlación se mantiene también en esta categoría de forma
moderada porque el valor de r=0.55
hispanos %>%
summarize (N = n(), r = cor(read, math))

## N r
## 1 24 0.5498393
Analizamos el gráfico y se puede ver una mayor dispersión en los en la variable de matemáticas
en relación a la lectura.Realizamos el ajuste al modelo lineal
ggplot(hispanos, aes(x=math, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+

15
scale_x_continuous("Variable Matemáticas") +
scale_y_continuous("Variable Lectura")

70

60
Variable Lectura

50

40

30

40 50 60
Variable Matemáticas

Análisis del modelo líneal con la función broom de las variables matemáticas y lectura
library(broom)
mphispanosmr <- lm(math ~ read, data = hispanos)
mphispanosmr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))

## SSE SSE_also
## 1 782.6771 782.6771
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanosmr)

##
## Call:
## lm(formula = math ~ read, data = hispanos)

16
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.5414 -3.7917 0.0203 2.9588 14.5834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.9151 5.7977 5.160 3.58e-05 ***
## read 0.3750 0.1215 3.088 0.00538 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.965 on 22 degrees of freedom
## Multiple R-squared: 0.3023, Adjusted R-squared: 0.2706
## F-statistic: 9.533 on 1 and 22 DF, p-value: 0.005379
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.55, y
una p-value =0.005379. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 30.23%
de la variabilidad presenta en la variable de respuesta (matemáticas) mediante la variables
independiente (lectura). El modelo lineal sigue la ecuación *matemáticas=29.9151 + 0.3750
read**. Por cada unidad de puntuación que se incrementa el puntaje de lectura , el puntaje
en matemáticas aumenta un promedio de 0.3750 unidades. Considerando el modelo anterior
la relación o la fuerza de relación de las variables sigue disminuyendo.

3.4. Análisis de correlación entre las variables lectura (read) y


ciencias (science) en función de la categoría hispanos (hispanic)

Se analizará la coorrelación de las variables lectura (read) y matemáticas (math) en función


de la categoría hispanos (hispanic)
Analizamos la correlación. La correlación entre estas variables es de r=(0.62), sigue siendo
moderada pero mayor que las variables analizadas anteriomente, para los hispanos
hispanos %>%
summarize (N = n(), r = cor(read, science))

## N r
## 1 24 0.6235992
Analizamos el gráfico y podemos observar que la dispersión es menor, tenemos desviaciones
mucho más pequeñas. Al ajustar el modelo vamos a obser que:
ggplot(hispanos, aes(x=science, y=read))+
geom_point(color='#228cdb') +

17
geom_smooth(method = "lm")+
scale_x_continuous("Variable Ciencia") +
scale_y_continuous("Variable Lectura")

70

60
Variable Lectura

50

40

30

30 40 50 60
Variable Ciencia

Análisis del modelo líneal con la función broom de las variables ciencia y lectura
library(broom)
mphispanossr <- lm(science ~ read, data = hispanos)
mphispanossr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))

## SSE SSE_also
## 1 949.4576 949.4576
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanossr)

##
## Call:

18
## lm(formula = science ~ read, data = hispanos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.537 -3.543 -1.039 3.337 12.961
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.0159 6.3856 3.448 0.00229 **
## read 0.5006 0.1338 3.742 0.00113 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.569 on 22 degrees of freedom
## Multiple R-squared: 0.3889, Adjusted R-squared: 0.3611
## F-statistic: 14 on 1 and 22 DF, p-value: 0.00113
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.62, y
una p-value =0.00113. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 38.89%,
hasta el momento es el más alto de los analizados de la variabilidad presenta en la
variable de respuesta (ciencia) mediante la variables independiente (lectura). El modelo lineal
sigue la ecuación ciencias=22.0159 + 0.5006 read. Por cada unidad de puntuación que
se incrementa el puntaje de lectura , el puntaje en ciencias aumenta un promedio de 0.5006
unidades. Considerando el modelo anterior la relación o la fuerza de relación de las variables
aumento.

3.5. Análisis de correlación entre las variables lectura (read) y cien-


cias sociales (socst) en función de la categoría hispanos (hispanic)

Se analizará la coorrelación de las variables lectura (read) y ciencias sociales (socst) en


función de la categoría hispanos (hispanic)
Analizamos la correlación. La relación de las fuerza de ambas variables es de r=0.51, se
mantiene moderada.
hispanos %>%
summarize (N = n(), r = cor(read, socst))

## N r
## 1 24 0.5142931
Analizamos el gráfico y observamos que hay una dispersión mayor.Al realizar el ajuste las
desviaciones son mayores.

19
ggplot(hispanos, aes(x=socst, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Ciencias sociales") +
scale_y_continuous("Variable Lectura")

70

60
Variable Lectura

50

40

30

30 40 50 60
Variable Ciencias sociales

Análisis del modelo líneal con la función broom de las variables ciencias sociales y lectura
library(broom)
mphispanosstr <- lm(socst ~ read, data = hispanos)
mphispanosstr %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))

## SSE SSE_also
## 1 1447.439 1447.439
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphispanosstr)

20
##
## Call:
## lm(formula = socst ~ read, data = hispanos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.9465 -3.8989 -0.0881 4.8289 13.0535
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.1098 7.8843 3.312 0.00317 **
## read 0.4646 0.1652 2.813 0.01014 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.111 on 22 degrees of freedom
## Multiple R-squared: 0.2645, Adjusted R-squared: 0.2311
## F-statistic: 7.912 on 1 and 22 DF, p-value: 0.01014
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.51, y una
p-value =0.010. Generando un modelo que tanto la pendiente como la ordenada al origen
son menos significativas. El valor de Rˆ2 indica que el modelo calculado explica el 26.45%,
hasta el momento es el más bajo de las relaciones analizadass de la variabilidad
presenta en la variable de respuesta (sociales) mediante la variable independiente (lectura).
El modelo lineal sigue la ecuación *sociales =26.1098+0.4646 read**. Por cada unidad de
puntuación que se incrementa el puntaje de lectura , el puntaje en ciencias sociales aumenta
un promedio de 0.4646 unidades. Considerando el modelo anterior la relación o la fuerza de
relación de las variables disminuyo.

IV. Conclusiones finales


Mayra Gpe. Vargas López Se analizó la fuerza de relación de las 200 observaciones, para
las variables de ciencias sociales,lectura, escritura, matemáticas y ciencia,primero en forma
general y despues en la categoria de los hispanos. Se encontró el modelo lineal que explicará
la relación entre las variables en la población de hispanos.
Los gráficos y los tests de correlación mostraron una relación lineal, moderada porque los
valores fluctuaron de r= 0.59 para todas las observaciones y en la categoría de hispanos fue de
0.57 (escritura, lectura), 0.54 (lectura, matemáticas), 0.62(lectura, ciencia) y de 0.51 (lectura
y ciencias sociales). El mejor ajuste fue para el modelo de lectura y ciencia, lo cual sígnifica
que se puede predecir a traves del modelo ciencias=22.0159 + 0.5006 read , el aumento
en la puntuación, alrededor de medio punto. Por lo cual se espera que los alumnos hispanos
que tiene una puntuación alta en ciencia, también la tengan en lectura.

21
Los datos nos muestran a la vez que la raza no es un factor determinante para determinar
la capacidad de las personas en algún campo como la lectura y la escritura, sin embargo es
necesario realizar un estudio más a fondo para comprobar esta hipótesis. Si bien hispanos
mostraron habilidades de lectura, la relación no están visible con otras áreas como las
mátematicas, pero si existe una relación interesante entre la lectura y la ciencias, por lo que
podemos que la lectura ayuda a poder tener mejor puntuación en ciencias.

22

También podría gustarte