Está en la página 1de 69

Practica Final

3 Integrantes(nombres en hoja4)

30/6/2021

Índice
Paquete necesarios 5

Ejercicio 1 7
Importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Gráfico de mosaico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Ejercicio 2 12
Importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Gráfico de mosaico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Ejercicio 3 16
Importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Gráfico de mosaico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Ejercicio 4 22
Importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Gráfico de mosaico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1
Ejercicio 5 27
Histogama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Gráfica de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Gráfica de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Prueba de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Prueba de Levenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Análisis de varianza (DatosP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Análisis de comparaciones múltiples 33


Prueb de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Análisis de comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Ejercicio 6 35
Histogama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Gráfica de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Gráfica de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Prueba de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Prueba de Levenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Análisis de varianza (DatosP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Análisis de comparaciones múltiples 40


Prueb de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Análisis de comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Ejercicio 7 42
Gráfico de disperión de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Hipótesis acerca de la correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Estimar la recta de regresión e interpretar la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . 44

Ejercicio 8 46
Gráfico de disperión de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Hipótesis acerca de la correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Estimar la recta de regresión e interpretar la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . 48

2
Ejercicio 9 49
Gráfico de disperión de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Hipótesis acerca de la correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Estimar la recta de regresión e interpretar la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . 51

Ejercicio 10 53
Gráfico de disperión de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Matriz de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Matriz de crrelaciones: Otra forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Análisis de varianza (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Validación de supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Homocedastecidad (Test de Breusch-Pagan) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Ejercicio 11 61
Matriz de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Homocedastecidad (Test de Breusch-Pagan) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3
Integrantes:
-Chiroque Anccasi, Lizeth
-Navarro Ramirez, Karen
-Urpeque Chepe, Sandra

4
Paquete necesarios
library(readxl)
library(ggplot2)
library(tinytex)
library(apaTables)
library(stargazer) library(lmtest)
library(car)
library(dplyr)
library(psych)
library(sjPlot)
library(GGally)
library(corrplot)
library(nortest)
library(mctest)
library(haven)
library(tseries)

library(readxl)

Warning: package ’readxl’ was built under R version 4.0.5

library(ggplot2)

Warning: package ’ggplot2’ was built under R version 4.0.5

library(tinytex)

Warning: package ’tinytex’ was built under R version 4.0.5

library(apaTables)

Warning: package ’apaTables’ was built under R version 4.0.5

library(lmtest)

Warning: package ’lmtest’ was built under R version 4.0.5

Warning: package ’zoo’ was built under R version 4.0.5

library(stargazer)
library(car)

Warning: package ’car’ was built under R version 4.0.5

library(dplyr)
library(psych)

Warning: package ’psych’ was built under R version 4.0.5

5
library(sjPlot)

Warning: package ’sjPlot’ was built under R version 4.0.5

library(GGally)

Warning: package ’GGally’ was built under R version 4.0.5

library(corrplot)

Warning: package ’corrplot’ was built under R version 4.0.5

library(nortest)
library(mctest)
library(haven)
library(tseries)

Warning: package ’tseries’ was built under R version 4.0.5

library(readxl)
library(TeachingDemos)

Warning: package ’TeachingDemos’ was built under R version 4.0.5

library(gmodels)

Warning: package ’gmodels’ was built under R version 4.0.5

library(psych)
library(plyr)

Warning: package ’plyr’ was built under R version 4.0.5

library(car)
library(apaTables)
library(stargazer)
library(FSA)

Warning: package ’FSA’ was built under R version 4.0.5

library(pgirmess)

Warning: package ’pgirmess’ was built under R version 4.0.5

6
library(nortest)
library(lsr)
library(MBESS)

Warning: package ’MBESS’ was built under R version 4.0.5

library(plyr)
library(agricolae)

Warning: package ’agricolae’ was built under R version 4.0.5

library(dunn.test)

options(scipen=999)

Ejercicio 1

Realizar lo siguiente:
a) Hacer un gráfico de barras, luego hacer un comentario acerca de dicho gráfico.

Importar datos

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


View(DatosP)

7
Gráfico de barras

Tabla<-table(DatosP$Género, DatosP$Preferencia)
Tabla

Clara Ligera Oscura


Hombre 40 20 20
Mujer 30 30 10

barplot(Tabla,beside = T,axis.lty = 2,
col = c("skyblue","red"),xlab = "Preferencia",
main = "Preferencia de cerveza según género",
cex.main=1)
legend("topright",title = "Género",rownames(Tabla),
fill = c("skyblue","red"))

Preferencia de cerveza según género


40

Género
Hombre
Mujer
30
20
10
0

Clara Ligera Oscura

Preferencia

Comentario: Mediante el gráfico de barras se puede apreciar con mayor facilidad la diferencia que existe
entre hombres y mujeres con respecto a la cerveza. En el caso de la cerveza clara, se observa que su demanda
es mayor por parte de los hombres (40) y las mujeres es menor (30); con respecto a la cerveza ligera, el
producto es más consumido por las mujeres (30) que por los hombres (20) y finalmente, en relación a la
cerveza oscura la prefieren más los hombres (20) y en menor cantidad las mujeres (10). Por otro lado, se
puede analizar que en cuanto a las mujeres la cerveza clara y ligera tienden a un consumo igualitario; patrón
que se repite en el caso de los hombres con la cerveza ligera y oscura.

b) Hacer un gráfico de mosaico, luego hacer un comentario acerca de dicho gráfico.

8
Gráfico de mosaico

mosaicplot(Tabla,color = rainbow(5),main = "Gráfico de mosaico")

Gráfico de mosaico

Hombre Mujer
Clara
Ligera
Oscura

Comentario: En este tipo de grafico podemos apreciar de major manera cuál es la preferencia tanto de
hombres como de mujeres a simple vista. Los hombres prefieren la cerveza clara y las mujeres la ligera.

c) Generar una tabla de contingencia (CrossTable), luego analice por lo menos dos cantidades porcentua-
les.

Tabla de contingencia

Ho : El género es independiente (no esta relacionado) con la preferencia de la cerveza.


Ha : El género esta relacionado con la preferencia de la cerveza.
1ra. forma de contraste de independencia

9
Tabla<-table(DatosP$`Género`,DatosP$`Preferencia`)
addmargins(Tabla)

Clara Ligera Oscura Sum


Hombre 40 20 20 80
Mujer 30 30 10 70
Sum 70 50 30 150

summary(Tabla)

Number of cases in table: 150


Number of factors: 2
Test for independence of all factors:
Chisq = 6.122, df = 2, p-value = 0.04683

2da. forma de contraste de independencia

CrossTable(DatosP$`Género`, DatosP$`Preferencia`,
digits = 2,expected = T ,chisq = T,prop.r = F,
prop.c = F,prop.t = T,prop.chisq = F,
dnn = c("Género","Preferencia"))

Cell Contents
|-------------------------|
| N |
| Expected N |
| N / Table Total |
|-------------------------|

Total Observations in Table: 150

| Preferencia
Género | Clara | Ligera | Oscura | Row Total |
-------------|-----------|-----------|-----------|-----------|
Hombre | 40 | 20 | 20 | 80 |
| 37.33 | 26.67 | 16.00 | |
| 0.27 | 0.13 | 0.13 | |
-------------|-----------|-----------|-----------|-----------|
Mujer | 30 | 30 | 10 | 70 |
| 32.67 | 23.33 | 14.00 | |
| 0.20 | 0.20 | 0.07 | |
-------------|-----------|-----------|-----------|-----------|
Column Total | 70 | 50 | 30 | 150 |
-------------|-----------|-----------|-----------|-----------|

Statistics for All Table Factors

10
Pearson’s Chi-squared test
------------------------------------------------------------
Chi^2 = 6.122449 d.f. = 2 p = 0.04683032

¿Qué porcentaje de mujeres consumen cerveza clara?


Respuesta
El 20 %
¿Qué proporción de hombres consumen cerveza oscura?
Respuesta
Una proporción de 0.13
¿Se rechaza o no la hipótesis nula?, por qué Respuesta
Sí, porque el p-value<0.05
¿Cuál es la conclusión?
Respuesta
El género esta relacionado (p<0.05) con la preferencia de la cerveza.

d) ¿La preferencia por un tipo de cerveza es independiente del género del consumidor? Use α = 0.05

3era. Forma de contraste de independencia

Tabla<-table(DatosP$`Género`,DatosP$`Preferencia`)
C<-chisq.test(Tabla)
C

Pearson’s Chi-squared test

data: Tabla
X-squared = 6.1224, df = 2, p-value = 0.04683

cat(paste('Con el 95 % de confianza se concluye de que el género',


'esta relacionado (p-value=',round(C$p.value),'<0.05) con la preferencia de',
'cerveza.'))

Con el 95% de confianza se concluye de que el género esta relacionado (p-value= 0 <0.05) con la preferen

Valores esperados

E<-chisq.test(Tabla)$expected
E

Clara Ligera Oscura


Hombre 37.33333 26.66667 16
Mujer 32.66667 23.33333 14

11
Ejercicio 2

Realizar lo siguiente:
a) Hacer un gráfico de barras, luego hacer un comentario acerca de dicho gráfico.

Importar datos

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E2")
View(DatosP)

Gráfico de barras

Tabla<-table(DatosP$Opinión, DatosP$Semestre)
Tabla

Primer Segundo Tercer


A favor 12 5 13
En contra 13 15 17

barplot(Tabla,beside = T,axis.lty = 2,
col = c("skyblue","red"),xlab = "Semestre",
main = "Opinión de los estudiantes relacionado con el semestre",
cex.main=1)
legend("topright",title = "opinión",rownames(Tabla),
fill = c("skyblue","red"))

12
Opinión de los estudiantes relacionado con el semestre

opinión
15

A favor
En contra
10
5
0

Primer Segundo Tercer

Semestre

Comentario: El gráfico de barra nos muestra que la mayoría de los estudiantes se encuentran en contra de
que se presente un nuevo requisito para la graducaión.

b) Hacer un gráfico de mosaico, luego hacer un comentario acerca de dicho gráfico.

Gráfico de mosaico

mosaicplot(Tabla,color = rainbow(5),main = "Gráfico de mosaico")

13
Gráfico de mosaico

Primer
Segundo
Tercer A favor En contra

Comentario: En este tipo de gráfico se aprecia que la mayoría de los estudiantes del tercer semestre está
en contra del implemento del nuesvo requisito de graduación.

c) Generar una tabla de contingencia (CrossTable), luego analice por lo menos dos cantidades porcentua-
les.

Tabla de contingencia

Ho : La opinión es independiente (no esta relacionado) con el semestre.


Ha : La opinión esta relacionado con el semestre.
1ra. forma de contraste de independencia

Tabla<-table(DatosP$`Opinión`,DatosP$`Semestre`)
addmargins(Tabla)

Primer Segundo Tercer Sum

14
A favor 12 5 13 30
En contra 13 15 17 45
Sum 25 20 30 75

summary(Tabla)

Number of cases in table: 75


Number of factors: 2
Test for independence of all factors:
Chisq = 2.6806, df = 2, p-value = 0.2618

2da. forma de contraste de independencia

CrossTable(DatosP$`Opinión`, DatosP$`Semestre`,
digits = 2,expected = T ,chisq = T,prop.r = F,
prop.c = F,prop.t = T,prop.chisq = F,
dnn = c("Opinión","Semestre"))

Cell Contents
|-------------------------|
| N |
| Expected N |
| N / Table Total |
|-------------------------|

Total Observations in Table: 75

| Semestre
Opinión | Primer | Segundo | Tercer | Row Total |
-------------|-----------|-----------|-----------|-----------|
A favor | 12 | 5 | 13 | 30 |
| 10.00 | 8.00 | 12.00 | |
| 0.16 | 0.07 | 0.17 | |
-------------|-----------|-----------|-----------|-----------|
En contra | 13 | 15 | 17 | 45 |
| 15.00 | 12.00 | 18.00 | |
| 0.17 | 0.20 | 0.23 | |
-------------|-----------|-----------|-----------|-----------|
Column Total | 25 | 20 | 30 | 75 |
-------------|-----------|-----------|-----------|-----------|

Statistics for All Table Factors

Pearson’s Chi-squared test


------------------------------------------------------------
Chi^2 = 2.680556 d.f. = 2 p = 0.2617729

15
¿Qué porcentaje de estudiantes del primer semestres están a favor del implemento de un nuevo requisito
de graduación?
Respuesta
El 16 %
¿Qué proporción de estudiantes del segundo semestres están en contra del implemento de un nuevo
requisito de graduación?
Respuesta
Una proporción de 0.20
¿Se rechaza o no la hipótesis nula?, por qué Respuesta
No, porque el p-value>0.10

d) ¿La opinión de los estudiantes está relacionada con el semestre académico? α = 0.10

3era. Forma de contraste de independencia

Tabla<-table(DatosP$`Opinión`,DatosP$`Semestre`)
C<-chisq.test(Tabla)
C

Pearson’s Chi-squared test

data: Tabla
X-squared = 2.6806, df = 2, p-value = 0.2618

cat(paste('Con el 90 % de confianza se concluye de que la opinión',


'no esta relacionado (p-value=',round(C$p.value),'>0.10) con el semestre académico'))

Con el 90% de confianza se concluye de que la opinión no esta relacionado (p-value= 0 >0.10) con el seme

Valores esperados

E<-chisq.test(Tabla)$expected
E

Primer Segundo Tercer


A favor 10 8 12
En contra 15 12 18

Ejercicio 3

Importar datos

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E3")
View(DatosP)

16
Realizar lo siguiente:
a) Hacer un gráfico de barras, luego hacer un comentario acerca de dicho gráfico.

Gráfico de barras

Tabla<-table(DatosP$`Sexo`,DatosP$`Técnica`)
Tabla

No Si
Femenino 40 10
Masculino 30 40

barplot(Tabla,beside = T,axis.lty = 2,
col = c("skyblue","red"),xlab = "Técnica",
main = "Relación entre el sexo y el propósito de elegir una carrera técnica",
cex.main=0.9)
legend("topright",title = "Sexo",rownames(Tabla),
fill = c("skyblue","red"))

17
Relación entre el sexo y el propósito de elegir una carrera técnica
40

Sexo
Femenino
Masculino
30
20
10
0

No Si

Técnica

Comentario: Se observa como el sexo masculino tiende a elegir más las carreras técnicas que el sexo
femenino.

b) Hacer un gráfico de mosaico, luego hacer un comentario acerca de dicho gráfico.

Gráfico de mosaico

mosaicplot(Tabla,color = rainbow(5),main = "Gráfico de mosaico")

18
Gráfico de mosaico

No
Si Femenino Masculino

Comentario: El sexo femenino prefiere optar por otro tipo de estudios acádemicos que no sean carreras
técnicas.

c) Generar una tabla de contingencia (CrossTable), luego analice por lo menos dos cantidades porcentua-
les.

Tabla de contingencia

Ho : El sexo es independiente (no esta relacionado) con la aspiración a carreras técnicas.


Ha : El sexo está relacionado con la aspiración a carreras técnicas.
1ra. forma de contraste de independencia

Tabla<-table(DatosP$`Sexo`,DatosP$`Técnica`)
addmargins(Tabla)

No Si Sum

19
Femenino 40 10 50
Masculino 30 40 70
Sum 70 50 120

summary(Tabla)

Number of cases in table: 120


Number of factors: 2
Test for independence of all factors:
Chisq = 16.555, df = 1, p-value = 4.726e-05

2da. forma de contraste de independencia

CrossTable(DatosP$`Sexo`,DatosP$`Técnica`,
digits = 2,expected = T,chisq = T,prop.r = F,
prop.c = F,prop.t = T,prop.chisq = F,
dnn = c("Sexo","Técnica"))

Cell Contents
|-------------------------|
| N |
| Expected N |
| N / Table Total |
|-------------------------|

Total Observations in Table: 120

| Técnica
Sexo | No | Si | Row Total |
-------------|-----------|-----------|-----------|
Femenino | 40 | 10 | 50 |
| 29.17 | 20.83 | |
| 0.33 | 0.08 | |
-------------|-----------|-----------|-----------|
Masculino | 30 | 40 | 70 |
| 40.83 | 29.17 | |
| 0.25 | 0.33 | |
-------------|-----------|-----------|-----------|
Column Total | 70 | 50 | 120 |
-------------|-----------|-----------|-----------|

Statistics for All Table Factors

Pearson’s Chi-squared test


------------------------------------------------------------
Chi^2 = 16.5551 d.f. = 1 p = 4.725667e-05

20
Pearson’s Chi-squared test with Yates’ continuity correction
------------------------------------------------------------
Chi^2 = 15.0622 d.f. = 1 p = 0.0001040255

¿Qué porcentaje de mujeres obtan por carreras técnicas?


Respuesta
El 8 %
¿Qué proporción hombres prefieren las carreras técnicas?
Respuesta
Una proporción de 0.33
¿Se rechaza o no la hipótesis nula?, por qué Respuesta
Sí, porque el p-value<0.01

d) ¿La preferencia por un tipo de cerveza es independiente del género del consumidor? Use α = 0.01

Tabla<-table(DatosP$`Sexo`,DatosP$`Técnica`)
C<-chisq.test(Tabla)
C

Pearson’s Chi-squared test with Yates’ continuity correction

data: Tabla
X-squared = 15.062, df = 1, p-value = 0.000104

cat(paste('Con el 99 % de confianza se concluye de que el sexo',


'esta relacionado (p-value=',round(C$p.value),'<0.01) con la aspiración de',
'carreras técnicas.'))

Con el 99% de confianza se concluye de que el sexo esta relacionado (p-value= 0 <0.01) con la aspiración

Valores esperados

E<-chisq.test(Tabla)$expected
E

No Si
Femenino 29.16667 20.83333
Masculino 40.83333 29.16667

21
Ejercicio 4

Importar datos

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E4")
View(DatosP)

Realizar lo siguiente:
a) Hacer un gráfico de barras, luego hacer un comentario acerca de dicho gráfico.

Gráfico de barras

Tabla<-table(DatosP$`Trabaja`,DatosP$`Efecto`)
Tabla

Negativo Ninguno Positivo


A 14 50 26
B 17 27 16
C 20 19 11

barplot(Tabla,beside = T,axis.lty = 2,
col = c("skyblue","red","blue"),xlab = "Efecto",
main = "Efecto de las calificaciones por el trabajo",
cex.main=0.9)
legend("topright",title = "Trabaja",rownames(Tabla),
fill = c("skyblue","red","blue"))

22
Efecto de las calificaciones por el trabajo
50

Trabaja
A
40

B
C
30
20
10
0

Negativo Ninguno Positivo

Efecto

Comentario: Se puede afirmar que trabajando entre 1 a 15 horas (A), las calificaciones del estudiante no
tiene ningún efecto.

b) Hacer un gráfico de mosaico, luego hacer un comentario acerca de dicho gráfico.

Gráfico de mosaico

mosaicplot(Tabla,color = rainbow(5),main = "Gráfico de mosaico")

23
Gráfico de mosaico

Negativo
Ninguno
Positivo A B C

Comentario: Los estudiantes que estudian entre 25 - 35 horas a la semana (C), muestras un efecto negativo
en sus calificaciones.

c) Generar una tabla de contingencia (CrossTable), luego analice por lo menos dos cantidades porcentua-
les.

Tabla de contingencia

Ho : Las horas de trabajo semanal es independiente (no esta relacionado) con el efecto sobre las calificaciones
de los estudiantes.
Ha : Las horas de trabajo semanal está relacionado con el efecto sobre las calificaciones de lo estudiantes.
1ra. forma de contraste de independencia

Tabla<-table(DatosP$`Trabaja`,DatosP$`Efecto`)
addmargins(Tabla)

24
Negativo Ninguno Positivo Sum
A 14 50 26 90
B 17 27 16 60
C 20 19 11 50
Sum 51 96 53 200

summary(Tabla)

Number of cases in table: 200


Number of factors: 2
Test for independence of all factors:
Chisq = 10.603, df = 4, p-value = 0.03141

2da. forma de contraste de independencia

CrossTable(DatosP$`Trabaja`,DatosP$`Efecto`,
digits = 2,expected = T,chisq = T,prop.r = F,
prop.c = F,prop.t = T,prop.chisq = F,
dnn = c("Trabaja","Efecto"))

Cell Contents
|-------------------------|
| N |
| Expected N |
| N / Table Total |
|-------------------------|

Total Observations in Table: 200

| Efecto
Trabaja | Negativo | Ninguno | Positivo | Row Total |
-------------|-----------|-----------|-----------|-----------|
A | 14 | 50 | 26 | 90 |
| 22.95 | 43.20 | 23.85 | |
| 0.07 | 0.25 | 0.13 | |
-------------|-----------|-----------|-----------|-----------|
B | 17 | 27 | 16 | 60 |
| 15.30 | 28.80 | 15.90 | |
| 0.08 | 0.14 | 0.08 | |
-------------|-----------|-----------|-----------|-----------|
C | 20 | 19 | 11 | 50 |
| 12.75 | 24.00 | 13.25 | |
| 0.10 | 0.10 | 0.06 | |
-------------|-----------|-----------|-----------|-----------|
Column Total | 51 | 96 | 53 | 200 |
-------------|-----------|-----------|-----------|-----------|

Statistics for All Table Factors

25
Pearson’s Chi-squared test
------------------------------------------------------------
Chi^2 = 10.6028 d.f. = 4 p = 0.03141003

¿Qué porcentaje de estudiantes que trabajan de 25-34 horas (C), ve efectos positivos sobre sus califi-
caciones?
Respuesta
El 6 %
¿Qué proporción de estudiantes que trabajan de 16-24 (B) horas, ve efectos negativos sobre sus califi-
caciones?
Respuesta
Una proporción de 0.08
¿Se rechaza o no la hipótesis nula?, por qué Respuesta
Sí, porque el p-value<0.05

d) ¿Está relacionada las horas de trabajo semanal con el efecto sobre las calificaciones? Use α = 0.05

Tabla<-table(DatosP$`Trabaja`,DatosP$`Efecto`)
C<-chisq.test(Tabla)
C

Pearson’s Chi-squared test

data: Tabla
X-squared = 10.603, df = 4, p-value = 0.03141

cat(paste('Con el 95 % de confianza se concluye de que las horas de trabajo',


'esta relacionado (p-value=',round(C$p.value),'<0.05) con un efecto sobre las calificaciones',
'los estudiantes.'))

Con el 95% de confianza se concluye de que las horas de trabajo esta relacionado (p-value= 0 <0.05) con

Valores esperados

E<-chisq.test(Tabla)$expected
E

Negativo Ninguno Positivo


A 22.95 43.2 23.85
B 15.30 28.8 15.90
C 12.75 24.0 13.25

26
Ejercicio 5

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E5")
View(DatosP)

Realizar el siguiente análisis con α = 0.05


a) Graficar a través de un histograma, el peso de los tomates en cada uno de los cinco tipos de terreno. Hacer
un comentario de dicho gráfico.

Histogama

hist(DatosP$Peso~DatosP$Terreno,xlab = "Peso",
ylab = "Cantidad de Tomates",
col = rainbow(5))

27
8
A B C

8
6

6
Cantidad de Tomates

Cantidad de Tomates

Cantidad de Tomates
4

4
2

2
0

0
160 180 200 220 160 180 200 220 160 180 200 220

Peso Peso Peso

D E
8

8
6

6
Cantidad de Tomates

Cantidad de Tomates
4

4
2

2
0

160 180 200 220 160 180 200 220

Peso Peso

Comentario: Con respecto al gráfico se aprecia que en el terreno D, la mayoría de los tomates tienden a
tener un mayor peso rondando entre los 170-180 gramos.

b) Hacer un boxplot para el peso de los tomates en cada uno de los cinco tipos de terreno. Hacer un
comentario de dicho gráfico.

Boxplot

boxplot(DatosP$Peso~DatosP$Terreno,col=rainbow(4),
xlab = "Terreno",
ylab = "Gramos",horizontal = F)

28
230
220
210
200
Gramos

190
180
170

A B C D E

Terreno

Comentario: El gráfico nos muestra que en el terreno C, existe un promedio más alto que los demás sobre
los gramos de tomates, rondando entre 200 a 230.

c) Hacer un gráfico de medias para el peso de los tomates en cada uno de los cinco tipos de terreno. Luego
un comentario de dicho gráfico.

Gráfica de medias

mediasPeso<-aggregate(DatosP$Peso~DatosP$Terreno, FUN=mean)
sdPeso<-aggregate(DatosP$Peso~DatosP$Terreno, FUN=sd)
sdPeso

DatosP$Terreno DatosP$Peso
1 A 4.909175
2 B 5.621388
3 C 11.954079
4 D 4.242641

29
5 E 5.375872

medPeso<-ddply(DatosP,.(Terreno), summarize, mean=mean(Peso))


sdPeso<-ddply(DatosP,.(Terreno), summarize, sd=sd(Peso))

BARRAS<-barplot(medPeso$mean, axes=FALSE,axisname=FALSE, ylim=c(0,230),


col=rainbow(5),
xlab="Terreno", ylab="Peso de tomates",
border =rainbow(5),
main = "",
cex.main=0.9)
axis(1,labels=c("A","B","C","D", "E"), at=BARRAS)
axis(2,at=seq(0,230,by=10),cex=3)
text(BARRAS,medPeso$mean,labels=round(medPeso$mean,2),pos= 4 ,cex=1)
segments(BARRAS-0.1,medPeso$mean-sdPeso$sd,
BARRAS+0.1,medPeso$mean-sdPeso$sd,lwd=2)
segments(BARRAS-0.1,medPeso$mean+sdPeso$sd,
BARRAS+0.1,medPeso$mean+sdPeso$sd,lwd=2)
segments(BARRAS,medPeso$mean-sdPeso$sd,
BARRAS,medPeso$mean+sdPeso$sd,lwd=2)
210

210.3
192.3
177.9 174.6 174
Peso de tomates

160
70 110
0 30

A B C D E

Terreno

Comentario: Con este gráfico se observa que en el terreno D, el peeso de los tomates en gramos es menor
en comparación con los otros terrenos.

d) Hacer un gráfico de normalidad para el peso de los tomates. Hacer un comentario sobre dicho gráfico.

Gráfica de normalidad

qqPlot(DatosP$Peso,ylab = "Valores estandarizados")

30
230

29
24
Valores estandarizados

210
190
170

−2 −1 0 1 2

norm quantiles

[1] 29 24

Comentario: Se puede ver como el peso de los tomates no se encuentran en un rango tan específico, ya que
hay valores que traspasan los intervalos de confianza.

e) ¿El peso de los tomates se aproxima a una distribución normal? Justificar su respuesta.

Prueba de normalidad

Ho : Los datos proceden de una distribución normal


Ha : Los datos no proceden de una distribución normal

Shapiro-Wilk

shapiro.test(DatosP$Peso)

Shapiro-Wilk normality test

data: DatosP$Peso
W = 0.88036, p-value = 0.0001148

Comentario: Los datos no proceden de una distrbución normal porque (p<0.05).

f) ¿El peso de los tomates tienen la misma varianza en cada uno de los distintos tipos de terreno? Justificar
su respuesta.

31
Prueba de Levenne

Ho : Las varianzas son iguales en todos los grupos.


Ha : Las varianzas no son iguales en todos los grupos.

Terreno<-factor(DatosP$Terreno)
leveneTest(DatosP$Peso~Terreno,center="mean")

Levene’s Test for Homogeneity of Variance (center = "mean")


Df F value Pr(>F)
group 4 5.9102 0.0006548 ***
45
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Comentario: Las varianzas no son iguales en todos los grupos porque (p<0.05)

g) ¿El peso promedio de los tomates es igual en los cinco tipos de terreno?

Análisis de varianza (DatosP)

attach(DatosP)

Peso<-as.numeric(DatosP$Peso)
Terreno<-as.factor(DatosP$Terreno)

Planteamiento de hipótesis para el Anova


y: Peso x: Terreno
H: El peso es igual en los 5 terrenos. Ha : El peso es diferente en al menos uno de los cinco terrenos.

KT<-kruskal.test(Peso~Terreno)
KT

Kruskal-Wallis rank sum test

data: Peso by Terreno


Kruskal-Wallis chi-squared = 38.437, df = 4, p-value = 9.105e-08

Comentario: Se concluye que el peso promedio son diferentes en al menos uno de los cinco terrenos (p<0.05).

h) Muestre la tabla ANOVA en formato APA (use apa.aov.table). Hacer un comentario sobre los resultados
en dicha tabla.
i) En caso se rechace Ho del ANOVA, realizar el análisis de comparaciones múltiples.

32
Análisis de comparaciones múltiples

Prueb de Dunnett

D<-(dunn.test(Peso,g = Terreno,method = "hs",alpha = 0.05,kw = TRUE))

Kruskal-Wallis rank sum test

data: Peso and Terreno


Kruskal-Wallis chi-squared = 38.4368, df = 4, p-value = 0

Comparison of Peso by Terreno


(Holm-Šidák)
Col Mean-|
Row Mean | A B C D
---------+--------------------------------------------
B | 0.893484
| 0.3371
|
C | -3.905143 -4.798628
| 0.0004* 0.0000*
|
D | 1.001318 0.107834 4.906462
| 0.4038 0.4571 0.0000*
|
E | -2.495594 -3.389079 1.409548 -3.496913
| 0.0310 0.0021* 0.2815 0.0016*

alpha = 0.05
Reject Ho if p <= alpha/2

$chi2
[1] 38.43681

$Z
[1] 0.8934845 -3.9051436 -4.7986281 1.0013189 0.1078343 4.9064625
[7] -2.4955947 -3.3890793 1.4095489 -3.4969136

$P
[1] 1.857989e-01 4.708473e-05 7.987805e-07 1.583363e-01 4.570636e-01
[6] 4.636686e-07 6.287309e-03 3.506387e-04 7.933647e-02 2.353371e-04

$P.adjusted

33
[1] 3.370765e-01 3.766157e-04 7.189001e-06 4.037674e-01 4.570636e-01
[6] 4.636677e-06 3.104372e-02 2.101989e-03 2.815381e-01 1.646197e-03

$comparisons
[1] "A - B" "A - C" "B - C" "A - D" "B - D" "C - D" "A - E" "B - E" "C - E"
[10] "D - E"

Comentario: Se observa que peso de los tomates es diferente (p<0.05) entre de los terrenos A-C, B-C, C-D,
B-E Y D-E.

Análisis de comparaciones múltiples

Tukey<-kruskalmc(DatosP$Peso,DatosP$Terreno,probs = 0.05)
Tukey

Multiple comparison test after Kruskal-Wallis


p.value: 0.05
Comparisons
obs.dif critical.dif difference
A-B 5.80 18.29962 FALSE
A-C 25.35 18.29962 TRUE
A-D 6.50 18.29962 FALSE
A-E 16.20 18.29962 FALSE
B-C 31.15 18.29962 TRUE
B-D 0.70 18.29962 FALSE
B-E 22.00 18.29962 TRUE
C-D 31.85 18.29962 TRUE
C-E 9.15 18.29962 FALSE
D-E 22.70 18.29962 TRUE

34
Ejercicio 6

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E6")
View(DatosP)

Realizar el siguiente análisis con α = 0.10

a) Graficar a través de un histograma, el precio de las habitaciones en cada una de las cuatro ciudades.
Hacer un comentario de dicho gráfico.

Histogama

hist(DatosP$Precio~DatosP$Ciudad,xlab = "Precio",
ylab = "Ciudad",
col = rainbow(5))

35
6
A B

6
5

5
4

4
Ciudad

Ciudad
3

3
2

2
1

1
0

0
130 135 140 145 150 155 130 135 140 145 150 155

Precio Precio

C D
6

6
5

5
4

4
Ciudad

Ciudad
3

3
2

2
1

1
0

130 135 140 145 150 155 130 135 140 145 150 155

Precio Precio

Comentario: POdemos ver que en comparación con las otras Ciudades, la D resulta ser la Ciudad donde
el precio por habitación doble es más alto, rondando los 145-155 soles.

b) Hacer un boxplot para el precio de las habitaciones en cada una de las cuatro ciudades. Luego un
comentario de dicho gráfico.

Boxplot

boxplot(DatosP$Precio~DatosP$Ciudad,col=rainbow(4),
xlab = "Ciudad",
ylab = "Precio",horizontal = F)

36
150
145
Precio

140
135

A B C D

Ciudad

Comentario: Como se refleja en el gráfico, la ciudad C es la que menor precio cobra por habitaciones dobles
en comparación con las demás ciudades, es la única que marca un precio mínimo de 134 soles.

c) Hacer un gráfico de medias para el precio de las habitaciones en cada una de las cuatro ciudades. Luego
un comentario de dicho gráfico.

Gráfica de medias

mediasPrecio<-aggregate(DatosP$Precio~DatosP$Ciudad, FUN=mean)
sdPrecio<-aggregate(DatosP$Precio~DatosP$Ciudad, FUN=sd)
sdPrecio

DatosP$Ciudad DatosP$Precio
1 A 2.445842
2 B 2.492847
3 C 2.267787
4 D 1.632993

37
medPrecio<-ddply(DatosP,.(Ciudad), summarize, mean=mean(Precio))
sdPrecio<-ddply(DatosP,.(Ciudad), summarize, sd=sd(Precio))

BARRAS<-barplot(medPrecio$mean, axes=FALSE,axisname=FALSE, ylim=c(0,170),


col=rainbow(5),
xlab="Ciudad", ylab="Precio de habitaciones",
border =rainbow(5),
main = "Gráfica de medias",
cex.main=0.9)
axis(1,labels=c("A","B","C","D"), at=BARRAS)
axis(2,at=seq(0,170,by=20),cex=3)
text(BARRAS,medPrecio$mean,labels=round(medPrecio$mean,2),pos= 4 ,cex=1)
segments(BARRAS-0.1,medPrecio$mean-sdPrecio$sd,
BARRAS+0.1,medPrecio$mean-sdPrecio$sd,lwd=2)
segments(BARRAS-0.1,medPrecio$mean+sdPrecio$sd,
BARRAS+0.1,medPrecio$mean+sdPrecio$sd,lwd=2)
segments(BARRAS,medPrecio$mean-sdPrecio$sd,
BARRAS,medPrecio$mean+sdPrecio$sd,lwd=2)

Gráfica de medias
160

149
Precio de habitaciones

141.38 140.75 137


120
80
40
0

A B C D

Ciudad

Comentario: Con respecto a la ciudad D, se observa que tiene una media baja, expresando que el rango
de sus precio tiende a menos en comparación con las otras ciudades.

d) Hacer un gráfico de normalidad para el precio de las habitaciones. Luego un comentario sobre dicho
gráfico.

Gráfica de normalidad

qqPlot(DatosP$Precio,ylab = "Valores estandarizados")

38
30
150

26
Valores estandarizados

145
140
135

−2 −1 0 1 2

norm quantiles

[1] 30 26

Comentario: Se puede observar que el precio de las habitaciones dobles en lasa cuidades son mayormente
constanste, no varian mucho el precio entre las cuidades, solo en excepción de un par que sobre sale los
intervalos de confianza.

e) ¿El precio de las habitacione se aproxima a una distribución normal? Justificar su respuesta.

Prueba de normalidad
Ho : Los datos proceden de una distribución normal
Ha : Los datos no proceden de una distribución normal

Shapiro-Wilk

shapiro.test(DatosP$Precio)

Shapiro-Wilk normality test

data: DatosP$Precio
W = 0.94689, p-value = 0.1281

Comentario: Los datos proceden de una distrbución normal porque (p>0.10).

f) ¿El precio de las habitaciones tiene la misma varianza en cada una de las cuatro ciudades? Justificar
su respuesta.

Prueba de Levenne

39
Ciudad<-factor(DatosP$Ciudad)
leveneTest(DatosP$Precio~Ciudad,center="mean")

Levene’s Test for Homogeneity of Variance (center = "mean")


Df F value Pr(>F)
group 3 1.0539 0.3849
27

Comentario: Las varianzas son iguales en todos los grupos porque (p>0.10)

g) ¿El precio promedio de las habitaciones es igual en cada una de las cuatro ciudades?

Análisis de varianza (DatosP)

attach(DatosP)

y: Precio x: Ciudades

Ciudad<-as.factor(Ciudad)
Precio<-as.numeric(Precio)

Planteamiento de hipótesis para el Anova


y: Precio x: Ciudad
H: El precio es igual en las 4 ciudades. Ha : El precio es diferente en al menos una de las 4 ciudades.

KT<-kruskal.test(DatosP$Precio~Ciudad)
KT

Kruskal-Wallis rank sum test

data: DatosP$Precio by Ciudad


Kruskal-Wallis chi-squared = 21.556, df = 3, p-value = 8.069e-05

Comentario: Se concluye que el peso promedio son diferentes en al menos una de los cuatro ciudades
(p<0.10).

h) Muestre la tabla ANOVA en formato APA (use apa.aov.table). Hacer un comentario obre los resultados
en dicha tabla.

Tabla APA

i) En caso se rechace Ho del ANOVA, realizar el análisis de comparaciones múltiples.

Análisis de comparaciones múltiples

40
Prueb de Dunnett

D<-(dunn.test(DatosP$Precio,g = DatosP$Ciudad,method = "hs",alpha = 0.10,kw = TRUE))

Kruskal-Wallis rank sum test

data: x and group


Kruskal-Wallis chi-squared = 21.556, df = 3, p-value = 0

Comparison of x by group
(Holm-Šidák)
Col Mean-|
Row Mean | A B C
---------+---------------------------------
B | 0.344748
| 0.3651
|
C | 2.220179 1.875430
| 0.0391* 0.0598
|
D | -2.477955 -2.811014 -4.622852
| 0.0262* 0.0123* 0.0000*

alpha = 0.1
Reject Ho if p <= alpha/2

$chi2
[1] 21.55603

$Z
[1] 0.3447483 2.2201793 1.8754310 -2.4779555 -2.8110141 -4.6228526

$P
[1] 3.651418e-01 1.320330e-02 3.036673e-02 6.606880e-03 2.469281e-03
[6] 1.892494e-06

$P.adjusted
[1] 3.651418e-01 3.908922e-02 5.981132e-02 2.616677e-02 1.228558e-02
[6] 1.135491e-05

$comparisons
[1] "A - B" "A - C" "B - C" "A - D" "B - D" "C - D"

Análisis de comparaciones múltiples

Tukey<-kruskalmc(DatosP$Precio,Ciudad,probs = 0.10)
Tukey

41
Multiple comparison test after Kruskal-Wallis
p.value: 0.1
Comparisons
obs.dif critical.dif difference
A-B 1.5625 10.88318 FALSE
A-C 10.0625 10.88318 FALSE
A-D 11.6250 11.26516 TRUE
B-C 8.5000 10.88318 FALSE
B-D 13.1875 11.26516 TRUE
C-D 21.6875 11.26516 TRUE

Ejercicio 7

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E7")
View(DatosP)

Realizar:
a) Una gráfica de dispersión de puntos, comentar acerca de dicha gráfica.
Los datos son los siguientes:
x: Capitalización y: Salario

Empresa<-c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20)
Capitalización<-c(32977.4,162365.1,31363.8,56849.0,68848.0,507216.8,44180.1,194455.9,143131.0,35377.5,31

42
Salario<-c(1130,1400,800,1350,1000,3325,978,2000,1365,950,700,1275,1625,1318.3,773,1200,116,950,897,750)
DatosP<-data.frame(Empresa,Capitalización,Salario)
View(DatosP)

Gráfico de disperión de puntos

ggplot(data =DatosP, mapping = aes(x = Capitalización, y = Salario)) +


geom_point(color = "firebrick", size = 2) +
labs(title = "Figura 1\n Diagrama de dispersión", x = "Capitalización",
y = "Salarios") +
theme_bw() +
geom_smooth(method = "lm", se = FALSE)+
theme(plot.title = element_text(hjust = 0.5))

Figura 1
Diagrama de dispersión

3000

2000
Salarios

1000

0
1e+05 2e+05 3e+05 4e+05 5e+05
Capitalización

Comentario: Según la figura 1, se aprecia que a mayor Capitalización, mayores son los salarios.

b) Calcular e interpretar la correlación.

Coeficiente de correlación

cor(x = Capitalización,y = Salario,method ="pearson")

[1] 0.8147593

43
Comentario: Existe una correlación lineal significativa (r=0.8148) entre capitalización y los salarios.

c) ¿La correlación es significativa?, justifique su respuesta. Use α = 0.05

Hipótesis acerca de la correlación

Hipótesis bilateral
H0 : ρ = 0 (No existe correlación entre X e Y)
Ha : ρ ̸= 0 (Existe correlación significativa entre X e Y)

cor.test(x = Capitalización,y = Salario,alternative = "two.sided",method = "pearson",conf.level = 0.95)

Pearson’s product-moment correlation

data: Capitalización and Salario


t = 5.9619, df = 18, p-value = 1.218e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5821210 0.9240983
sample estimates:
cor
0.8147593

Comentario: La correlación es significativa ya que es p-value<0.05

d) Obtenga la recta de regresión estimada e interprete la pendiente.

Estimar la recta de regresión e interpretar la pendiente

Ho : β0 = 0 | Ho : β1 = 0
Ha : β0 ̸= 0 | Ha : β1 ̸= 0

DatosP<-lm(Salario~Capitalización) # y~x
summary(DatosP)

Call:
lm(formula = Salario ~ Capitalización)

Residuals:
Min 1Q Median 3Q Max
-1173.53 -84.38 36.32 179.97 655.90

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.070e+02 1.180e+02 5.994 1.14e-05 ***
Capitalización 4.815e-03 8.077e-04 5.962 1.22e-05 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

44
Residual standard error: 379.9 on 18 degrees of freedom
Multiple R-squared: 0.6638, Adjusted R-squared: 0.6452
F-statistic: 35.54 on 1 and 18 DF, p-value: 1.218e-05

Comentario: La recta de regresión estimada es:


\ = 707.0492680 + 0.0048152 ∗ Capitalización
Salario
Las empresas, se incrementa en 0.0048 el salario, cuando la capitalización aumenta un millón de dólares.

e) ¿La pendiente de la recta es significativa?, justifique su respuesta. Use α = 0.05

Existe una recta de regresión lineal positiva significativa (p<0.05), los salarios son explicado por la capitali-
zación de dichas empresas.

f) Si la capitalización de una empresa es 200 000.0 millones de dólares, ¿Cuánto es el salario del CEO?

\ = 707.0492680 + 0.0048152 ∗ Capitalización Capitalización = 200 000 Salario


Salario \ = 707.0492680 +
0.0048152 ∗ 200000 = 1670

g) A través de un intervalo de confianza del 95 %, responda e interprete ¿Entre cuánto se encuentra la


pendiente?

Con el 95 % de confianza la pendiente se encuentra entre : -1173.53 y 655.90

45
Ejercicio 8

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E8")
View(DatosP)

Realizar:
a) Una gráfica de dispersión de puntos, comentar acerca de dicha gráfica.
X= Volumen Y= Precio

Modelo<-c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26)
Volumen<-c(20,20,20,20,24,20,20,20,40,64,96,20,28,40,40,32,4,4,4,4,20,230,20,40,64,64)
Precio<-c(10,12,12,20,25,25,35,35,45,40,60,30,40,60,65,65,20,7,10,10,30,40,35,55,50,60)
DatosP<-data.frame(Modelo,Volumen,Precio)
View(DatosP)

Gráfico de disperión de puntos

ggplot(data =DatosP, mapping = aes(x = Volumen, y = Precio)) +


geom_point(color = "firebrick", size = 2) +
labs(title = "Figura 1\n Diagrama de dispersión", x = "Volumen",

46
y = "Precio") +
theme_bw() +
geom_smooth(method = "lm", se = FALSE)+
theme(plot.title = element_text(hjust = 0.5))

Figura 1
Diagrama de dispersión

60
Precio

40

20

0 50 100 150 200


Volumen

Comentario: En la gráfica se aprecia que no hay una relación estrecha entre el volumen (oz fl) y el precio
del modelo.

b) Calcular e interpretar la correlación.

Coeficiente de correlación

cor(x = Volumen,y = Precio,method ="pearson")

[1] 0.4120399

Comentario: Existe una correlación lineal es directamente proporcional y debil (r=0.4120399) entre el
volumen (oz) y el precio del modelo.

c) ¿La correlación es significativa?, justifique su respuesta. Use α = 0.10

Hipótesis acerca de la correlación


Hipótesis bilateral
H0 : ρ = 0 (No existe correlación entre X e Y)
Ha : ρ ̸= 0 (Existe correlación significativa entre X e Y)

47
cor.test(x = Volumen,y = Precio,alternative = "two.sided",method = "pearson",conf.level = 0.90)

Pearson’s product-moment correlation

data: Volumen and Precio


t = 2.2154, df = 24, p-value = 0.03647
alternative hypothesis: true correlation is not equal to 0
90 percent confidence interval:
0.09480449 0.65330406
sample estimates:
cor
0.4120399

Comentario: La correlación es significativa ya que es p-value<0.10

d) Obtenga la recta de regresión estimada e interprete la pendiente.

Estimar la recta de regresión e interpretar la pendiente

Ho : β0 = 0 | Ho : β1 = 0
Ha : β0 ̸= 0 | Ha : β1 ̸= 0

DatosP<-lm(Precio~Volumen) # y~x
summary(DatosP)

Call:
lm(formula = Precio ~ Volumen)

Residuals:
Min 1Q Median 3Q Max
-27.7224 -16.8414 -0.2196 10.7642 31.5093

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.95831 4.52082 6.184 2.17e-06 ***
Volumen 0.17289 0.07804 2.215 0.0365 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 17.53 on 24 degrees of freedom


Multiple R-squared: 0.1698, Adjusted R-squared: 0.1352
F-statistic: 4.908 on 1 and 24 DF, p-value: 0.03647

Comentario: La recta de regresión estimada es:


P\recio = 27.95831 + 0.17289 ∗ V olumen El precio del modelo, se incrementa en 0.17289, cuando el volumen
aumenta en una oz fl.

e) ¿La pendiente de la recta es significativa?, justifique su respuesta. Use α = 0.10

48
Existe una recta de regresión lineal positiva significativa (p<0.10), los precios son explicado por el volumén
de dichos modelos.

f) Si el volumen de un modelo de hidratación es 50 oz fl, ¿Cuánto es el precio?

recio = 27.95831 + 0.17289 ∗ V olumen


P\
Capitalización = 50 oz fl
recio = 27.95831 + 0.17289 ∗ 50 = 30.60281
P\

g) A través de un intervalo de confianza del 90 %, responda e interprete ¿Entre cuánto se encuentra la


pendiente?

Comentario: Se encuentra entre -27.7224 y 31.5093.

Ejercicio 9

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E9")
View(DatosP)

49
Realizar:
a) Una gráfica de dispersión de puntos, comentar acerca de dicha gráfica.

Año<-c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
Rendimiento<-c(1.312,1.204,1.319,1.193,1.144,1.382,1.200,1.375,1.337,1.316,1.253,1.288,1.382,1.512,1.494
Producción<-c(34.36,29.58,29.85,25.69,28.80,38.66,28.08,34.95,33.93,32.92,30.94,32.74,35.13,36.11,37.92,
DatosP<-data.frame(Año,Rendimiento,Producción)
View(DatosP)

Gráfico de disperión de puntos

ggplot(data =DatosP, mapping = aes(x = Rendimiento, y = Producción)) +


geom_point(color = "firebrick", size = 2) +
labs(title = "Figura 1\n Diagrama de dispersión", x = "Rendimiento",
y = "Producción") +
theme_bw() +
geom_smooth(method = "lm", se = FALSE)+
theme(plot.title = element_text(hjust = 0.5))

Figura 1
Diagrama de dispersión

35
Producción

30

1.2 1.3 1.4 1.5


Rendimiento

Comentario: En el gráfico se puede apreciar que existe una relación del Rendimiento del trigo con respecto
a su producción; ya que, los valores no se encuentran tan dispersos.

b) Calcular e interpretar la correlación

50
Coeficiente de correlación

cor(x = Rendimiento,y = Producción,method ="pearson")

[1] 0.8776262

Comentario: Existe una correlación lineal directamente proporcional y fuerte (r=0.8776262) entre el ren-
dimiento y la producción.

c) ¿La correlación es significativa?, justifique su respuesta. Use α = 0.01

Hipótesis acerca de la correlación

Hipótesis bilateral
H0 : ρ = 0 (No existe correlación entre X e Y)
Ha : ρ ̸= 0 (Existe correlación significativa entre X e Y)

cor.test(x = Rendimiento,y = Producción,alternative = "two.sided",method = "pearson",conf.level = 0.99)

Pearson’s product-moment correlation

data: Rendimiento and Producción


t = 6.8505, df = 14, p-value = 7.927e-06
alternative hypothesis: true correlation is not equal to 0
99 percent confidence interval:
0.5722993 0.9692494
sample estimates:
cor
0.8776262

Comentario: La correlación es significativa ya que es p-value<0.01

d) Obtenga la recta de regresión estimada e interprete la pendiente.

Estimar la recta de regresión e interpretar la pendiente

Ho : β0 = 0 | Ho : β1 = 0
Ha : β0 ̸= 0 | Ha : β1 ̸= 0

DatosP<-lm(Producción~Rendimiento) # y~x
summary(DatosP)

Call:
lm(formula = Producción ~ Rendimiento)

Residuals:

51
Min 1Q Median 3Q Max
-3.2713 -0.4024 0.2563 0.6746 3.9654

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7.228 5.880 -1.229 0.239
Rendimiento 30.335 4.428 6.851 7.93e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 1.878 on 14 degrees of freedom


Multiple R-squared: 0.7702, Adjusted R-squared: 0.7538
F-statistic: 46.93 on 1 and 14 DF, p-value: 7.927e-06

Comentario: La recta de regresión estimada es:


\
P roducción = −7.228 + 30.335 ∗ Rendimiento
Al año, se incrementa en 30.335 toneladas en la producción, cuando el rendimiento aumenta un millón de
ton.

e) ¿La pendiente de la recta es significativa?, justifique su respuesta. Use α = 0.01

Existe una recta de regresión lineal positiva significativa (p<0.01), los precios son explicado por el volumén
de dichos modelos.

f) Si el rendimiento anual de trigo es 1.125 ton/ha, ¿Cuánto es la producción anual?

\
P roducción = −7.228 + 30.335 ∗ Rendimiento
Rendimiento= 1.125
\
P roducción = −7.228 + 30.335 ∗ 1.125 = 26.898875
Comentario:La producción anual de trigo, con un rendimiento anual de 1.125 ton es de 26.898875 millones
de toneladas.

g) A través de un intervalo de confianza del 99 %, responda e interprete ¿Entre cuánto se encuentra la


pendiente?

Se encuentra entre: -3.2713 y 3.9654

52
Ejercicio 10

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E10")
View(DatosP)

Analizar con el 95 % de confianza.


a) Gráfico de dispersión conjunto (use ggpairs), realizar un comentario acerca de dicho gráfico.

Gráfico de disperión de puntos

ggpairs(DatosP[,1:3], lower = list(continuous = "smooth"),


diag = list(continuous = "barDiag"), axisLabels = "none")

53
Tiempo (min) Casos Distancia (km)

Tiempo (min)
Corr: Corr:
0.725** 0.127

Casos
Corr:
−0.405

Distancia (km)
Comentario:

b) Obtener una matriz de correlaciones (use sjp.corr), realizar un comentario acerca de dicha matriz.

Matriz de correlaciones

sjp.corr(data = DatosP[,1:3],show.p = 0.05,corr.method = "pearson",decimals = 4,p.numeric = T)

Warning: ’sjp.corr’ is deprecated. Please use ’correlation::correlation()’ and


its related plot()-method.

Warning: Removed 6 rows containing missing values (geom_text).

54
0.1269 0.7246
Tiempo (min)
(.6522) (.0022)

−0.4053
Casos
(.1339)

Distancia (km)

Distancia (km) Casos Tiempo (min)

Matriz de crrelaciones: Otra forma

correlaciones<-cor(DatosP[,1:3],method = "pearson")
corrplot(correlaciones, method = "number",number.digits = 4,sig.level = 0.05)

55
Distancia (km)
Tiempo (min)

Casos
1

0.8
Tiempo (min) 1.0000 0.7246 0.1269
0.6

0.4

0.2

Casos 0.7246 1.0000 −0.4053 0

−0.2

−0.4

−0.6
Distancia (km) 0.1269 −0.4053 1.0000
−0.8

−1

Comentario:

c) Obtenga una tabla en formato APA de las correlaciones y sus respectivos intervalos de confianza (use
apa.cor.table), realizar un comentario acerca de dicha tabla.

Tabla APA

apa.cor.table(data = DatosP[,1:3],filename = "Tabla de correlaciones",table.number = 1,show.conf.interva

Table 1

Means, standard deviations, and correlations with confidence intervals

Variable M SD 1 2
1. Tiempo (min) 30.87 5.67

2. Casos 18.00 6.00 .72**


[.34, .90]

3. Distancia (km) 28.00 6.26 .13 -.41


[-.41, .60] [-.76, .13]

56
Note. M and SD are used to represent mean and standard deviation, respectively.
Values in square brackets indicate the 95% confidence interval.
The confidence interval is a plausible range of population correlations
that could have caused the sample correlation (Cumming, 2014).
* indicates p < .05. ** indicates p < .01.

Comentario:

d) Obtenga una gráfica de cada variable (use multi.hist), realizar un comentario acerca de dicha gráfica.

Histograma

multi.hist(x = DatosP[,1:3], dcol = c("blue", "red"), dlty = c("dotted", "solid"),main = c("Tiempo(min)"

Tiempo(min) Casos
0.15
0.20

0.10
Density
0.10

0.05
0.00

0.00

25 30 35 40 10 15 20 25 30
Distancia(km)
0.15

Tiempo (min) Casos


0.10
0.05
0.00

20 25 30 35 40
Comentario:

e) Genere un modelo de regresión múltiple. Indique el modelo lineal.


yb = b0 + b1 x1 + b2 x2

Análisis de varianza (ANOVA)


El análisis de varianza sirve para contrastar medidas de tendencia central, tales como la media y mediana; de
más de dos grupos. En el caso de regresión se utiliza, principalmente para regresión múltiple. El planteamiento

57
general es el siguiente:
H0 : β1 = β2 = ... = βp = 0 vs H1 : Al menos un βj ̸= 0
Modelo inicial

M<-lm(DatosP$`Tiempo (min)`~DatosP$Casos+DatosP$`Distancia (km)`)


summary(M)

Call:
lm(formula = DatosP$‘Tiempo (min)‘ ~ DatosP$Casos + DatosP$‘Distancia (km)‘)

Residuals:
Min 1Q Median 3Q Max
-9.2716 -0.5405 0.5212 1.4051 2.9381

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.3112 5.8573 0.395 0.70007
DatosP$Casos 0.8772 0.1530 5.732 9.43e-05 ***
DatosP$‘Distancia (km)‘ 0.4559 0.1468 3.107 0.00908 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 3.141 on 12 degrees of freedom


Multiple R-squared: 0.7368, Adjusted R-squared: 0.6929
F-statistic: 16.8 on 2 and 12 DF, p-value: 0.0003325

Coeficientes:
b0 = 2.3112
b1 = 0.8772
b2 = 0.4559
Modelo inicial estimado
\
T iempo(min) = 2.3112 + 0.8772 ∗ Casos + 0.4559 ∗ Distancia(km)
Según el contraste de hipótesis, el índice dado por un sisteam de reparto, indica que es no significativo
(p>0.05); por lo tanto, se va a estimar otro modelo sin la variable relevante.
Modelo estimado es:
\
T iempo(min) = 2.3112 + 0.8772 ∗ Casos + 0.4559 ∗ Distancia(km)

f) Genere una tabla en formato APA del modelo de regresión.

Tabla ANOVA en formato APA

M1<-lm( DatosP$`Tiempo (min)`~DatosP$Casos+DatosP$`Distancia (km)`)


apa.aov.table(lm_output = M1,filename = "Tabla ANOVA",table.number = 2,conf.level = 0.95,type = 2)

Table 2

ANOVA results using DatosP$‘Tiempo (min)‘ as the dependent variable

58
Predictor SS df MS F p partial_eta2
DatosP$Casos 324.12 1 324.12 32.86 .000 .73
DatosP$‘Distancia (km)‘ 95.20 1 95.20 9.65 .009 .45
Error 118.37 12 9.86
CI_95_partial_eta2

[.04, .67]

Note: Values in square brackets indicate the bounds of the 95% confidence interval for partial eta-squar

g) Indique los coeficientes que son significativos al modelo de regresión lineal múltiple. También interprete
el coeficiente de determinación (r2)

stargazer(M1,type = "text",title = "modelo estimado")

modelo estimado
===============================================
Dependent variable:
---------------------------
‘Tiempo (min)‘
-----------------------------------------------
Casos 0.877***
(0.153)

‘Distancia (km)‘ 0.456***


(0.147)

Constant 2.311
(5.857)

-----------------------------------------------
Observations 15
R2 0.737
Adjusted R2 0.693
Residual Std. Error 3.141 (df = 12)
F Statistic 16.795*** (df = 2; 12)
===============================================
Note: *p<0.1; **p<0.05; ***p<0.01

Coeficientes:
b0 = 2.3112
b1 = 0.8772
b2 = 0.4559

h) Realice la validación de los supuestos de normalidad y de homogeneidad de varianzas, respectivamente.

Validación de supuestos

Homocedastecidad (Test de Breusch-Pagan)


Hipótesis

59
Ho : σ12 = σ22 = σ32 = ... = σk2 Las varianzas son iguales
Ha : σi2 ̸= 0 Las varinzas son diferentes

bptest(M1)

studentized Breusch-Pagan test

data: M1
BP = 2.6416, df = 2, p-value = 0.2669

Las varianzas son iguales (p>0.05); es decir, se cumple el supuesto de homocedastecidad (varianzas iguale)

Normalidad

H0 : Los residuos se aproximan a una distribución normal


Ha : Los residuos no se aproximan a una distribución normal
" #
s2 (k − 3)2
JB = n ∗ + ∼ X22
6 24

qqnorm(M1$residuals)
qqline(M1$residuals)

Normal Q−Q Plot


2
0
Sample Quantiles

−2
−4
−6
−8

−1 0 1

Theoretical Quantiles

60
jarque.bera.test(M1$residuals)

Jarque Bera Test

data: M1$residuals
X-squared = 28.863, df = 2, p-value = 5.4e-07

Con el 95 % de confianza se concluye que los residuos no se aproximan a una distribución normal, p-value<0.05

Ejercicio 11

DatosP <- read_excel("C:/Users/user/OneDrive - ucss.pe/Escritorio/estadistica aplicada/parcial Final/Dat


sheet = "E11")
View(DatosP)

Analizar con el 90 % de confianza.

a) Gráfico de dispersión conjunto (use ggpairs), realizar un comentario acerca de dicho gráfico.

61
summary(DatosP)

Case clot prog enz


Min. : 1.00 Min. : 2.600 Min. : 8.00 Min. : 23.00
1st Qu.:14.25 1st Qu.: 5.025 1st Qu.:52.50 1st Qu.: 67.25
Median :27.50 Median : 5.800 Median :63.00 Median : 79.00
Mean :27.50 Mean : 5.783 Mean :63.24 Mean : 77.11
3rd Qu.:40.75 3rd Qu.: 6.500 3rd Qu.:76.00 3rd Qu.: 89.50
Max. :54.00 Max. :11.200 Max. :96.00 Max. :119.00
liv time
Min. :0.740 Min. : 34.0
1st Qu.:2.020 1st Qu.:110.5
Median :2.595 Median :155.5
Mean :2.744 Mean :197.2
3rd Qu.:3.275 3rd Qu.:216.5
Max. :6.400 Max. :830.0

ggpairs(DatosP[,2:6], lower = list(continuous = "smooth"),


diag = list(continuous = "barDiag"), axisLabels = "none")

clot prog enz liv time

Corr: Corr: Corr: Corr:

clot
0.090 −0.150 0.502*** 0.373**

Corr: Corr: Corr:

prog
−0.024 0.369** 0.554***

Corr: Corr:

enz
0.416** 0.580***

Corr:
liv

0.722***
time

Comentario: Mediante este gráfico se observa que existen correlaciones significativas y insignificativas,
correlaciones que son cero.

b) Obtener uma matriz de correlaciones (use sjp.corr), realizar un comentario acerca de dicha matriz.

62
Matriz de correlaciones

sjp.corr(data = DatosP[,2:6],show.p = 0.05,corr.method = "pearson",decimals = 4,p.numeric = T)

Warning: ’sjp.corr’ is deprecated. Please use ’correlation::correlation()’ and


its related plot()-method.

Warning: Removed 15 rows containing missing values (geom_text).

−0.1496 0.0901 0.3725 0.5024


clot
(.2802) (.5169) (.0055) (< .001)

0.4164 0.3690 0.7223


liv
(.0017) (.0060) (< .001)

0.5802 0.5540
time
(< .001) (< .001)

−0.0236
prog
(.8655)

enz

enz prog time liv clot

Comentario:

c) Obtenga una tabla en formato APA de las correlaciones y sus respectivos intervalos de confianza (use
apa.cor.table), realizar un comentario acerca de dicha tabla.

Tabla APA

apa.cor.table(data = DatosP[,2:6],filename = "Tabla de correlaciones",table.number = 1,show.conf.interva

Table 1

Means, standard deviations, and correlations with confidence intervals

63
Variable M SD 1 2 3 4
1. clot 5.78 1.60

2. prog 63.24 16.90 .09


[-.18, .35]

3. enz 77.11 21.25 -.15 -.02


[-.40, .12] [-.29, .25]

4. liv 2.74 1.07 .50** .37** .42**


[.27, .68] [.11, .58] [.17, .62]

5. time 197.17 145.30 .37** .55** .58** .72**


[.12, .58] [.34, .72] [.37, .73] [.56, .83]

Note. M and SD are used to represent mean and standard deviation, respectively.
Values in square brackets indicate the 95% confidence interval.
The confidence interval is a plausible range of population correlations
that could have caused the sample correlation (Cumming, 2014).
* indicates p < .05. ** indicates p < .01.

Comentario:

d) Obtenga una gráfica de cada variable (use multi.hist), realizar un comentario acerca de dicha gráfica.

multi.hist(x = DatosP[,2:6], dcol = c("blue", "red"), dlty = c("dotted", "solid"),main = c("clot","prog"

64
clot prog

0.030
0.4

Density

0.015
0.2

0.000
0.0

4 6 8 10 20 40 60 80 100
enz liv
clot prog
0.030

0.8
Density
0.015

0.4
0.000

0.0
20 40 60 80 100 120 1 2 3 4 5 6
time
0.006

enz liv
0.003
0.000

0 200 400 600 800

Comentario:

e) Genere un modelo de regresión múltiple. Indique el modelo lineal.


yb = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4

El planteamiento general es el siguiente:


H0 : β1 = β2 = ... = βp = 0 vs H1 : Al menos un βj ̸= 0
Modelo inicial

M<-lm(DatosP$time~DatosP$clot+DatosP$prog+DatosP$enz+DatosP$liv)
summary(M)

Call:
lm(formula = DatosP$time ~ DatosP$clot + DatosP$prog + DatosP$enz +
DatosP$liv)

Residuals:
Min 1Q Median 3Q Max
-80.52 -34.68 -15.15 20.59 323.15

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -621.5976 64.8004 -9.592 7.86e-13 ***
DatosP$clot 33.1638 7.0173 4.726 1.97e-05 ***
DatosP$prog 4.2719 0.5634 7.582 8.35e-10 ***

65
DatosP$enz 4.1257 0.5112 8.071 1.49e-10 ***
DatosP$liv 14.0916 12.5253 1.125 0.266
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 61.06 on 49 degrees of freedom


Multiple R-squared: 0.8367, Adjusted R-squared: 0.8234
F-statistic: 62.79 on 4 and 49 DF, p-value: < 2.2e-16

Coeficientes:
b0 = −621.5976
b1 = 33.1638
b2 = 4.2719
b3 = 4.1257
b4 = 14.0916
Modelo inicial estimado
ime = −621.5976 + 33.1638 ∗ clot + 4.2719 ∗ prog + 4.1257 ∗ enz + 14.5253 ∗ liv
t[
Según el contraste de hipótesis, el índice dado por un examen de funcionamiento del hígado (liv), indica que
es no significativo (p>0.10); por lo tanto, se va a estimar otro modelo sin la variable (liv) relevante.
Modelo estimado es:
ime = −621.5976 + 33.1638 ∗ clot + 4.2719 ∗ prog + 4.1257 ∗ enz + 14.5253 ∗ liv
t[

f) Genere una tabla en formato APA del modelo de regresión.

Tabla ANOVA en formato APA

M1<-lm(DatosP$time~DatosP$clot+DatosP$prog+DatosP$enz+DatosP$liv)
apa.aov.table(lm_output = M1,filename = "Tabla ANOVA",table.number = 2,conf.level = 0.90,type = 2)

Table 2

ANOVA results using DatosP$time as the dependent variable

Predictor SS df MS F p partial_eta2 CI_90_partial_eta2


DatosP$clot 83263.81 1 83263.81 22.34 .000 .31
DatosP$prog 214332.51 1 214332.51 57.49 .000 .54 [.37, .64]
DatosP$enz 242857.75 1 242857.75 65.15 .000 .57 [.41, .67]
DatosP$liv 4718.50 1 4718.50 1.27 .266 .03 [.00, .13]
Error 182666.96 49 3727.90

Note: Values in square brackets indicate the bounds of the 90% confidence interval for partial eta-squar

g) Indique los coeficientes que son significativos al modelo de regresión lineal múltiple. También interprete
el coeficiente de determinación (r2)

stargazer(M1,type = "text",title = "modelo estimado")

66
modelo estimado
===============================================
Dependent variable:
---------------------------
time
-----------------------------------------------
clot 33.164***
(7.017)

prog 4.272***
(0.563)

enz 4.126***
(0.511)

liv 14.092
(12.525)

Constant -621.598***
(64.800)

-----------------------------------------------
Observations 54
R2 0.837
Adjusted R2 0.823
Residual Std. Error 61.057 (df = 49)
F Statistic 62.788*** (df = 4; 49)
===============================================
Note: *p<0.1; **p<0.05; ***p<0.01

Coeficientes:
b0 = −621.5976
b1 = 33.1638
b2 = 4.2719
b3 = 4.1257
b4 = 14.0916
Interpretación: Los coeficientes de la recta de regresión estimada, al menos uno de ellos es estadísticamente
significativo (p<0.10). Es decir, el índice de coagulación de la sangre (clot), un índice de pronóstico que
incluye la edad del paciente (prog), un índice dado por un examen de la función enzimática (enz); explican
significativamente la sobrevida (time) de los pacientes después de una intervención quirúrgica en el hígado

h) Realice la validación de los supuestos de normalidad y de homogeneidad de varianzas, respectivamente.

Normalidad

H0 : Los residuos se aproximan a una distribución normal


Ha : Los residuos no se aproximan a una distribución normal
" #
s2 (k − 3)2
JB = n ∗ + ∼ X22
6 24

67
qqnorm(M1$residuals)
qqline(M1$residuals)

Normal Q−Q Plot


300
Sample Quantiles

200
100
0

−2 −1 0 1 2

Theoretical Quantiles

jarque.bera.test(M1$residuals)

Jarque Bera Test

data: M1$residuals
X-squared = 623.89, df = 2, p-value < 2.2e-16

Con el 90 % de confianza se concluye que los residuos no se aproximan a una distribución normal, p-value<0.10

Homocedastecidad (Test de Breusch-Pagan)


Hipótesis
Ho : σ12 = σ22 = σ32 = ... = σk2 Las varianzas son iguales
Ha : σi2 ̸= 0 Las varinzas son diferentes

bptest(M1)

studentized Breusch-Pagan test

data: M1
BP = 5.9858, df = 4, p-value = 0.2002

68
Con el 90 % de confianza se concluye que las varianzas son iguales, p-value>0.10

69

También podría gustarte