Caso High School and Survey

Estudio de Caso: High School and Beyond
survey
true
abril 28, 2018
Abstract
En este documento se pretended analizar las variables del estudio Hihs School and
Beyond survey, y desarrollar un modelo de regreción líneal para identificar correlaciones
entre sus diferentes variables en razón de la variable raza (race).
I. Introducción
El presente estudio de caso se basa en los datos obtenidos de muestras al azar de doscientas
observaciones realizadas a través de una encuesta aplicada a estudiantes de último año del
National Center of Education Statistics. Se analizaran las variables lectura y escritura, y su
relación con la variable raza, en específico la categoria de hispanos.
II. Objetivo del Estudio de caso

El presente estudio de caso buscaremos la correlación existente entre las variables lectura
(read), escritura (write), matemáticas (math), ciencias (science) y ciencias sociales (socst)
en razón de la variable raza (race), en específico la categoría de hispanos (hispanic). Por lo
que nuestra pregunta de investigación es ¿Existe correlación entre estas varibles?, en este
sentido el objetivo se centra en analizar la correlación de estás variables através de la creación
de un modelo de regresión líneal.
III. Estudio de Caso: Análisis de variables
3.1. Análisis General
Primero se realizará un análisis general del la base de datos hsb2 y sus variables
1
Se abre la base de datos con la que se trabajará, en este caso con la libreria openintro y la
base de datos del estudio hsb2
library(openintro)
## Please visit openintro.org for free statistics materials

##
## Attaching package: 'openintro'
## The following objects are masked from 'package:datasets':
##
## cars, trees
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library (ggplot2)
## Warning: package 'ggplot2' was built under R version 3.4.4

##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:openintro':
##
## diamonds
data(hsb2)
#obtenemos un resumen de las estadisticas básicas de nuestra base de datos, para obtene
summary(hsb2)
## id gender race ses

## Min. : 1.00 Length:200 Length:200 low :47
## 1st Qu.: 50.75 Class :character Class :character middle:95
## Median :100.50 Mode :character Mode :character high :58
## Mean :100.50
## 3rd Qu.:150.25
## Max. :200.00
## schtyp prog read write
## public :168 general : 45 Min. :28.00 Min. :31.00
2
## private: 32 academic :105 1st Qu.:44.00 1st Qu.:45.75
## vocational: 50 Median :50.00 Median :54.00
## Mean :52.23 Mean :52.77
## 3rd Qu.:60.00 3rd Qu.:60.00
## Max. :76.00 Max. :67.00
## math science socst
## Min. :33.00 Min. :26.00 Min. :26.00
## 1st Qu.:45.00 1st Qu.:44.00 1st Qu.:46.00
## Median :52.00 Median :53.00 Median :52.00
## Mean :52.65 Mean :51.85 Mean :52.41
## 3rd Qu.:59.00 3rd Qu.:58.00 3rd Qu.:61.00
## Max. :75.00 Max. :74.00 Max. :71.00
#Observamos la estructura de la base de datos, existen 200 observaciones y 11 variables
str(hsb2)
## 'data.frame': 200 obs. of 11 variables:

## $ id : int 70 121 86 141 172 113 50 11 84 48 ...
## $ gender : chr "male" "female" "male" "male" ...
## $ race : chr "white" "white" "white" "white" ...
## $ ses : Factor w/ 3 levels "low","middle",..: 1 2 3 3 2 2 2 2 2 2 ...
## $ schtyp : Factor w/ 2 levels "public","private": 1 1 1 1 1 1 1 1 1 1 ...
## $ prog : Factor w/ 3 levels "general","academic",..: 1 3 1 3 2 2 1 2 1 2 ...
## $ read : int 57 68 44 63 47 44 50 34 63 57 ...
## $ write : int 52 59 33 44 52 52 59 46 57 55 ...
## $ math : int 41 53 54 47 57 51 42 45 54 52 ...
## $ science: int 47 63 58 53 53 63 53 39 58 50 ...
## $ socst : int 57 61 31 56 61 61 61 36 51 51 ...
Se analiza la relación entre las variables escritura (write) y lectura (read) a través de la
creación de un modelo lineal de regresión
Se establece el modelo de regresión lineal, entre las variables de escritura y lectura donde la
asociación lineal nos dice que es moderada de r=0.5967765, lo cual no es lo suficientemente
fuerte.
library(openintro)
library(dplyr)
hsb2 %>%
summarize (N = n(), r = cor(write, read))
## Warning: package 'bindrcpp' was built under R version 3.4.4

## N r
## 1 200 0.5967765
3
Esta es una línea de “mejor ajuste” que corta los datos de una manera que minimiza la
distancia entre la línea y los puntos de datos. Es el modelo que se propone
library(ggplot2)
ggplot(hsb2, aes(x=write, y=read))+
geom_point(color='#228cdb') +
geom_smooth(method = "lm")+
scale_x_continuous("Variable Escritura") +
scale_y_continuous("Variable Lectura")
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Escritura
3.1.1. Cálculo del modelo de regresión lineal simple
modelo_lineal<-lm(write~read,hsb2)
summary(modelo_lineal)
##
## Call:
## lm(formula = write ~ read, data = hsb2)
##
## Residuals:
## Min 1Q Median 3Q Max
4
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.625 on 198 degrees of freedom
## Multiple R-squared: 0.3561, Adjusted R-squared: 0.3529
## F-statistic: 109.5 on 1 and 198 DF, p-value: < 2.2e-16
La primera columna (Estimate), nos dice el valor estimado de los dos parametros de la
ecuación del modelo lienal, que equivalen a la ordenada en el origen y la pendiente. Se
muestran los valores estándar, el valor del estádistico t y el p-value (dos colas) de cada uno
de los parámetros. Esto permite determinar si los parámetros son significativamente distintos
de 0, es decir, que tienen importancia en el modelo. Para el modelo generado , tanto la
ordenada en el origen como la pendiente son significativas (p-value <0.05) El valor de Rˆ2
indica que el modelo calculado explica el 35.61% de la variabilidad presente en la variable
respuesta (escritura) mediante la variable independiente (lectura) El p-value obtenido en
el test F(0.00000000000000022) determina que sí es significativamente superior la varianza
explicada por el modelo en comporación a la varianza total. Es el parámetro que determina si
el modelo es significativo y por lo tanto se puede aceptar. El modelo lineal sigue la ecuación
write=23.95944+0.55171read. Por cada unidad que se incrementa el puntaje de lectura,
el número de puntación en escritura aumenta en promedio .55171 unidades.
Podemos observar el siguiente análisis

hsb2 %>%
summarize(N = n(), mean(write), sd(write), mean(read), sd(read), cor(write,read))
## N mean(write) sd(write) mean(read) sd(read) cor(write, read)

## 1 200 52.775 9.478586 52.23 10.25294 0.5967765
Análisis del modelo líneal con la función broom Los datos no se ajustan a la red. No sea tan
buena la prediccción, no se ajustan tan bien como se espera.
library(broom)
## Warning: package 'broom' was built under R version 3.4.4

mphsb2 <- lm(write ~ read, data = hsb2)
mphsb2 %>%
augment() %>%
summarize(SSE = sum(.resid^2),
SSE_also = (n()-1)* var(.resid))
5
## SSE SSE_also
## 1 11511.45 11511.45
Podemos observar que el modelo es y=23.95944+0.55171x1+ error Indicando que la correlación
entre escritura y lectura es débil por ser r=0.3529
summary(mphsb2)
##
## Call:
##
## Residuals:
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
3.1.2. Pruebas de idoneidad del modelo
Para comprobar lo anterior se realiza un análisis de idoneidad del modelo. observamos que
los residuos del modelo, no indican que la regresión lineal
Prueba de normalidad de los residuos
plot(residuals(mphsb2),
main="Gráfica de residuos del modelo", col="#228cdb",lty=4,ylab="Residuales", xlab
6
Gráfica de residuos del modelo
10 15
5
Residuales
0
−10
−20
0 50 100 150 200
Secuencia
Estandarizamos los residuos

plot(rstandard(mphsb2), ylim=c(-20,15),main = "Gráfica Estándar r", col="#228cdb",lty=4,
abline(h=0, col=2)
7
Gráfica Estándar r
10 15
5
Estándar r
0
−10
−20
0 50 100 150 200
Secuencia
qqnorm(rstandard(mphsb2), main = "Gráfica Q", col="#228cdb",lty=4,ylab="Cuantiles", xlab

qqline(rstandard(mphsb2),col=2)
8
Gráfica Q
2
1
Cuantiles
0
−1
−2
−3 −2 −1 0 1 2 3
Cuantiles Teóricos
El análisis gráfico y el contraste de normalidad muestra que para la variable de lectura no

se puede asumir una normalidad.Aunque dado que la distribucción no se aleja mucho de la
normalidad. Indicando una distribución de colas cortas
A continuación se muestra el valor del error estándar asociado y el valor p para cada coeficiente,
el R2, el R2 ajustado y el error estándar residual.
summary(mphsb2)
##
## Call:
##
## Residuals:
## -20.5447 -5.1225 0.6451 6.3259 15.4553
##
## Coefficients:
## (Intercept) 23.95944 2.80574 8.539 3.55e-15 ***
## read 0.55171 0.05272 10.465 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9
##
3.1.3. Paradoja de Simpson
Se analizan las variables read y race para determinar si existe alguna relación entre la raza
y la capacidad de lectura.
library(tidyr)
## Warning: package 'tidyr' was built under R version 3.4.4

hsb_counts <- hsb2 %>%
count(race, read)
print(hsb_counts)
## # A tibble: 57 x 3
## race read n
## <chr> <int> <int>
## 1 african american 34 2
## # ... with 47 more rows
per_read<-hsb_counts %>%
spread(race, n)
print(per_read)
## # A tibble: 30 x 5
## read `african american` asian hispanic white
## <int> <int> <int> <int> <int>
## 1 28 NA NA 1 NA
## 2 31 NA NA NA 1
## 3 34 2 NA 2 2
## 4 35 NA NA NA 1
## 5 36 NA NA NA 3
## 6 37 NA NA 1 1
10
## 7 39 NA 1 3 4
## 8 41 1 1 NA NA
## 9 42 2 NA 1 10
## 10 43 NA NA NA 2
## # ... with 20 more rows
A partir del orden que se le dieron a los anteriores datos y la gráfica siguiente, en un primer
momento se podría determinar que los caucásicos son las personas que obtienen una mejor
calificación en la lectura, sin embargo se tendría que analizar también en razón del número
de personas que pertenencen a cada raza, pues tanto asiáticos, afroamericanos e hispanos son
minoria en los Estados Unidos.
library(ggplot2)
ggplot(data = hsb2, aes(x=race, y=read, color=race, group=race)) + geom_point() + xlab("
ylab("Lectura")+ scale_colour_discrete(name ="Raza", breaks=c("african american","asian"
70
60
Raza
Afroamericano
Lectura
Asiático
50 Hispano
Caucásico
40
30
african american asian hispanic white

Raza
11
3.2. Análisis de correlación entre las variables lectura (read) y
escritura (write) en función de la categoría hispanos (hispanic)
De la base de datos general, se filtrará la variable que nos interesa, en este caso race y en
particular hispanic para analizar su correlación con las variables lectura (read) y escritura
(write)
Se filtra la variable que nos interesa.
library(openintro)
data(hsb2)
hispanos<- filter(hsb2, race=="hispanic")
hispanos
## id gender race ses schtyp prog read write math science

## 1 11 male hispanic middle public academic 34 46 45 39
## 2 20 male hispanic high public academic 60 52 57 61
## 3 12 male hispanic middle public vocational 37 44 45 39
## 4 16 male hispanic low public vocational 47 31 44 36
## 5 7 male hispanic middle public academic 57 54 59 47
## 6 21 male hispanic middle public general 44 44 61 50
## 7 15 male hispanic high public vocational 39 39 44 26
## 11 5 male hispanic low public academic 47 40 43 45
## 12 14 male hispanic high public academic 47 41 54 42
## 13 3 male hispanic low public academic 63 65 48 63
## 14 8 female hispanic low public academic 39 44 52 44
## 15 1 female hispanic low public vocational 34 44 40 39
## 17 34 female hispanic high private academic 73 61 57 55
## 18 35 female hispanic low private general 60 54 50 50
## 19 2 female hispanic middle public vocational 39 41 33 42
## 20 19 female hispanic low public general 28 46 43 44
## 21 17 female hispanic middle public academic 47 57 48 44
## 23 10 female hispanic middle public general 47 54 49 53
## 24 13 female hispanic middle public vocational 47 46 39 47
## socst
## 1 36
## 2 61
## 3 46
## 4 36
## 5 51
## 6 46
12
## 7 42
## 8 46
## 9 51
## 10 36
## 11 31
## 12 56
## 13 56
## 14 48
## 15 41
## 16 51
## 17 66
## 18 51
## 19 41
## 20 51
## 21 41
## 22 41
## 23 61
## 24 61
Analizamos la correlación. Es importante mencionar que el sector hispanos sigue un patron
general en comparación con otras “razas”. El valor de la la correlación es de r=0.5701098,
vuelve a generar una fuerza de asociación moderada
library(openintro)
library(dplyr)
hispanos %>%
summarize (N = n(), r = cor(write, read))
## N r
## 1 24 0.5701098
Analizamos el gráfico
El gráfico de dispersión nos indica una posible relación lineal positiva en ambas variables. Al
realizar el ajuste del modelo
library(ggplot2)
ggplot(hispanos, aes(x=write, y=read))+
scale_x_continuous("Variable Escritura") +
13
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Escritura
Análisis del modelo líneal con la función broom Los datos no se ajustan a la red. No sea tan
buena la prediccción, no se ajustan tan bien como se espera.
library(broom)
mphispanos <- lm(write ~ read, data = hispanos)
mphispanos %>%
augment() %>%
## SSE SSE_also
## 1 1062.382 1062.382
summary(mphispanos)
##
## Call:
## lm(formula = write ~ read, data = hispanos)
##
## Residuals:
14
## -15.612 -4.272 1.237 3.724 11.018
##
## Coefficients:
## (Intercept) 24.9635 6.7546 3.696 0.00126 **
## read 0.4606 0.1415 3.255 0.00363 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## F-statistic: 10.59 on 1 and 22 DF, p-value: 0.003631
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.57, y
una p-value =0.003631. Generando un modelo que tanto la pendiente como la ordenada al
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 32.50% de la
variabilidad presenta en la varaible de respuesta (escritura) mediante la variables independiete
(lectura). El modelo lineal sigue la ecuación *escritura=24.9635 + 0.4606 read**. Por cada
unidad de puntuación que se incrementa el puntaje de lectura , el puntaje en escritura
aumenta un promedo de 0.4606 unidades. Considerando el modelo anterior la relación es
mucho menor.

matemáticas (math) en función de la categoría hispanos (hispanic)
Se analizará la coorrelación de las variables lectura (write) y matemáticas (math) en función

de la categoría hispanos (hispanic)
Analizamos la correlación. La correlación se mantiene también en esta categoría de forma
moderada porque el valor de r=0.55
hispanos %>%
summarize (N = n(), r = cor(read, math))
## N r
## 1 24 0.5498393
Analizamos el gráfico y se puede ver una mayor dispersión en los en la variable de matemáticas
en relación a la lectura.Realizamos el ajuste al modelo lineal
ggplot(hispanos, aes(x=math, y=read))+
15
scale_x_continuous("Variable Matemáticas") +
70
60
Variable Lectura
50
40
30
40 50 60
Variable Matemáticas
Análisis del modelo líneal con la función broom de las variables matemáticas y lectura
library(broom)
mphispanosmr <- lm(math ~ read, data = hispanos)
mphispanosmr %>%
augment() %>%
## SSE SSE_also
## 1 782.6771 782.6771
summary(mphispanosmr)
##
## Call:
## lm(formula = math ~ read, data = hispanos)
16
##
## Residuals:
## -11.5414 -3.7917 0.0203 2.9588 14.5834
##
## Coefficients:
## (Intercept) 29.9151 5.7977 5.160 3.58e-05 ***
## read 0.3750 0.1215 3.088 0.00538 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 30.23%
de la variabilidad presenta en la variable de respuesta (matemáticas) mediante la variables
independiente (lectura). El modelo lineal sigue la ecuación *matemáticas=29.9151 + 0.3750
read**. Por cada unidad de puntuación que se incrementa el puntaje de lectura , el puntaje
en matemáticas aumenta un promedio de 0.3750 unidades. Considerando el modelo anterior
la relación o la fuerza de relación de las variables sigue disminuyendo.

ciencias (science) en función de la categoría hispanos (hispanic)
Se analizará la coorrelación de las variables lectura (read) y matemáticas (math) en función

de la categoría hispanos (hispanic)
Analizamos la correlación. La correlación entre estas variables es de r=(0.62), sigue siendo
moderada pero mayor que las variables analizadas anteriomente, para los hispanos
hispanos %>%
summarize (N = n(), r = cor(read, science))
## N r
## 1 24 0.6235992
Analizamos el gráfico y podemos observar que la dispersión es menor, tenemos desviaciones
mucho más pequeñas. Al ajustar el modelo vamos a obser que:
ggplot(hispanos, aes(x=science, y=read))+
17
scale_x_continuous("Variable Ciencia") +
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Ciencia
Análisis del modelo líneal con la función broom de las variables ciencia y lectura
library(broom)
mphispanossr <- lm(science ~ read, data = hispanos)
mphispanossr %>%
augment() %>%
## SSE SSE_also
## 1 949.4576 949.4576
summary(mphispanossr)
##
## Call:
18
## lm(formula = science ~ read, data = hispanos)
##
## Residuals:
## -15.537 -3.543 -1.039 3.337 12.961
##
## Coefficients:
## (Intercept) 22.0159 6.3856 3.448 0.00229 **
## read 0.5006 0.1338 3.742 0.00113 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## F-statistic: 14 on 1 and 22 DF, p-value: 0.00113
origen son significativa. El valor de Rˆ2 indica que el modelo calculado explica el 38.89%,
hasta el momento es el más alto de los analizados de la variabilidad presenta en la
variable de respuesta (ciencia) mediante la variables independiente (lectura). El modelo lineal
sigue la ecuación ciencias=22.0159 + 0.5006 read. Por cada unidad de puntuación que
se incrementa el puntaje de lectura , el puntaje en ciencias aumenta un promedio de 0.5006
unidades. Considerando el modelo anterior la relación o la fuerza de relación de las variables
aumento.
3.5. Análisis de correlación entre las variables lectura (read) y cien-

cias sociales (socst) en función de la categoría hispanos (hispanic)
Se analizará la coorrelación de las variables lectura (read) y ciencias sociales (socst) en

función de la categoría hispanos (hispanic)
Analizamos la correlación. La relación de las fuerza de ambas variables es de r=0.51, se
mantiene moderada.
hispanos %>%
summarize (N = n(), r = cor(read, socst))
## N r
## 1 24 0.5142931
Analizamos el gráfico y observamos que hay una dispersión mayor.Al realizar el ajuste las
desviaciones son mayores.
19
ggplot(hispanos, aes(x=socst, y=read))+
scale_x_continuous("Variable Ciencias sociales") +
70
60
Variable Lectura
50
40
30
30 40 50 60
Variable Ciencias sociales
Análisis del modelo líneal con la función broom de las variables ciencias sociales y lectura
library(broom)
mphispanosstr <- lm(socst ~ read, data = hispanos)
mphispanosstr %>%
augment() %>%
## SSE SSE_also
## 1 1447.439 1447.439
summary(mphispanosstr)
20
##
## Call:
## lm(formula = socst ~ read, data = hispanos)
##
## Residuals:
## -16.9465 -3.8989 -0.0881 4.8289 13.0535
##
## Coefficients:
## (Intercept) 26.1098 7.8843 3.312 0.00317 **
## read 0.4646 0.1652 2.813 0.01014 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
El test de correlación anterior y el gráfico muestran una relación lineal de una r=0.51, y una
p-value =0.010. Generando un modelo que tanto la pendiente como la ordenada al origen
son menos significativas. El valor de Rˆ2 indica que el modelo calculado explica el 26.45%,
hasta el momento es el más bajo de las relaciones analizadass de la variabilidad
presenta en la variable de respuesta (sociales) mediante la variable independiente (lectura).
El modelo lineal sigue la ecuación *sociales =26.1098+0.4646 read**. Por cada unidad de
puntuación que se incrementa el puntaje de lectura , el puntaje en ciencias sociales aumenta
un promedio de 0.4646 unidades. Considerando el modelo anterior la relación o la fuerza de
relación de las variables disminuyo.
IV. Conclusiones finales

Mayra Gpe. Vargas López Se analizó la fuerza de relación de las 200 observaciones, para
las variables de ciencias sociales,lectura, escritura, matemáticas y ciencia,primero en forma
general y despues en la categoria de los hispanos. Se encontró el modelo lineal que explicará
la relación entre las variables en la población de hispanos.
Los gráficos y los tests de correlación mostraron una relación lineal, moderada porque los
valores fluctuaron de r= 0.59 para todas las observaciones y en la categoría de hispanos fue de
0.57 (escritura, lectura), 0.54 (lectura, matemáticas), 0.62(lectura, ciencia) y de 0.51 (lectura
y ciencias sociales). El mejor ajuste fue para el modelo de lectura y ciencia, lo cual sígnifica
que se puede predecir a traves del modelo ciencias=22.0159 + 0.5006 read , el aumento
en la puntuación, alrededor de medio punto. Por lo cual se espera que los alumnos hispanos
que tiene una puntuación alta en ciencia, también la tengan en lectura.
21
Los datos nos muestran a la vez que la raza no es un factor determinante para determinar
la capacidad de las personas en algún campo como la lectura y la escritura, sin embargo es
necesario realizar un estudio más a fondo para comprobar esta hipótesis. Si bien hispanos
mostraron habilidades de lectura, la relación no están visible con otras áreas como las
mátematicas, pero si existe una relación interesante entre la lectura y la ciencias, por lo que
podemos que la lectura ayuda a poder tener mejor puntuación en ciencias.
22

Caso High School and Survey

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Caso High School and Survey

Cargado por

Copyright:

Formatos disponibles

Estudio de Caso: High School and Beyond

II. Objetivo del Estudio de caso

III. Estudio de Caso: Análisis de variables

3.1. Análisis General

## Please visit openintro.org for free statistics materials

## Warning: package 'ggplot2' was built under R version 3.4.4

## id gender race ses

## 'data.frame': 200 obs. of 11 variables:

## Warning: package 'bindrcpp' was built under R version 3.4.4

3.1.1. Cálculo del modelo de regresión lineal simple

Podemos observar el siguiente análisis

## N mean(write) sd(write) mean(read) sd(read) cor(write, read)

## Warning: package 'broom' was built under R version 3.4.4

3.1.2. Pruebas de idoneidad del modelo

0 50 100 150 200

Estandarizamos los residuos

0 50 100 150 200

qqnorm(rstandard(mphsb2), main = "Gráfica Q", col="#228cdb",lty=4,ylab="Cuantiles", xlab

El análisis gráfico y el contraste de normalidad muestra que para la variable de lectura no

3.1.3. Paradoja de Simpson

## Warning: package 'tidyr' was built under R version 3.4.4

african american asian hispanic white

## id gender race ses schtyp prog read write math science

3.3. Análisis de correlación entre las variables lectura (read) y

Se analizará la coorrelación de las variables lectura (write) y matemáticas (math) en función

3.4. Análisis de correlación entre las variables lectura (read) y

Se analizará la coorrelación de las variables lectura (read) y matemáticas (math) en función

3.5. Análisis de correlación entre las variables lectura (read) y cien-

Se analizará la coorrelación de las variables lectura (read) y ciencias sociales (socst) en

IV. Conclusiones finales

También podría gustarte