Morales Vanesa Taller

Probabilidad y Estadística
Taller de Estadística Descriptiva en R

Integrantes: Cristian Alexander Gualacata Cusin, Shirley Vanessa Morales Bonilla
Tercer semestre ZA39
Resumen
En el presente proyecto se va a tratar sobre la obtenció n de datos tanto cuantitativos y
cualitativos con el fin de obtener resultados que plasmen la mortalidad del coronavirus
en Norteamérica. También el rendimiento de los estudiantes de acuerdo al trabajo de
sus padres. Por tal motivo se usó Kaggle de la cual se obtuvo los datos para así
posteriormente hacer uso del programa R.
Entonces tuvimos que exportar los datos ya que con eso podemos obtener los
resultados estadísticos necesarios en el proyecto. Ademá s, con eso se logró obtener
cada una de nuestras graficas estadísticas ya sea barras, diagrama de pie, etc.
Introducción
Primeramente, la estadística descriptiva es una gran herramienta para compendiar y
mostrar los datos má s importantes que existen en una muestra. Los cuales son la
mediana, media, moda, varianza, desviació n está ndar, etc. También se puede basar con
grá ficos estadísticos los cuales ayudaron a dar una alta visió n al respecto de la muestra
que se está analizando.
Kaggle es una gran base de datos que nos sirve para descargar cualquier dato que
deseemos usar. Posteriormente usamos el programa Rstudio cabe recalcar que es de
vital importancia debido a que agiliza el proceso de obtenció n de datos estadísticos y
graficas en base a los datos descargados anteriormente.
Descripción de las variables

Las variables usadas fueron en el primer caso que es con una variable cuantitativa
tome total cases que hace menció n al nú mero total de personas que se contagiaron con
el coronavirus en Norteamérica. Y en el segundo caso que es con variables cualitativas
se usaron como variables el sexo y la ocupació n de la madre tomando en cuenta que el
padre trabaja simultá neamente con el fin de analizar el rendimiento del estudiante.
a) Aná lisis de los datos
Morales_Vanessa_taller.R
DESKTOP-JLNDBD2
2022-06-23
# Universidad Yachay Tech
# Gualacata_Cristian,Morales_Vanessa_TallerR
#Probabilidad y Estadistica
#install.packages("readr")
#install.packages("Rcpp")
# Cuantitativo
library(readr)
covid_north_america <- read_csv("~/Universidad/Tercer semestre/Proyecto
R/Data/covid_north_america.csv")
## Rows: 39 Columns: 10
## ── Column specification
────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Country/Other
## dbl (9): Total Cases, Total Deaths, Total Recovered, Active Cases, Tot
Cases...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this
message.
View(covid_north_america)
Muertes <-covid_north_america$`Total Deaths` #variable a usar
n <- nclass.Sturges(Muertes) #tipos
#Literal a)
summary(Muertes) #Resumen estad?stico.
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 1 63 277 37936 4049 1035847
#Literal b)
stem(Muertes) #Diagrama de tallos y hojas.
##
## The decimal point is 5 digit(s) to the right of the |
##
## 0 | 0000000000000000000000000000000111124
## 2 | 3
## 4 |
## 6 |
## 8 |
## 10 | 4
#Literal c)
hist(Muertes, breaks = n, col = "green", main = "Muertes",
xlab = "Cantidad de muertes", ylab = "N?mero de infectados") #Histograma
A <- hist(Muertes, breaks = 9, col = "yellow", main = "Muertes",

xlab = "Cantidad de muertes", ylab = "N?mero de infectados") #
Poligono de frecuencia
lines(c(min(A$breaks), A$mids, max(A$breaks)),

c(0, A$counts, 0), type = "l", col = "red", lwd = 5) #L?neas de
frecuencia
# Boxplot
boxplot(Muertes, col = "blue", main = "Muertes",
ylab = "Conteo de muertes")
# Analisis de datos -------------------------------------------------------
summary(Muertes) # Resumen estadistico
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 1 63 277 37936 4049 1035847
mean(Muertes) # Media aritmetica
## [1] 37936.44
median(Muertes) # Mediana
## [1] 277
#install.packages("modeest") # Moda
library(modeest)
mlv(covid_north_america$`Total Deaths`, method = "mfv") # O
mlv(covid_north_america$Muertes, method = "discrete")
## [1] 63
mlv(covid_north_america$`Total Deaths`, method = "mfv")[1]
## [1] 63
#Bickel's modal skewness:

#modeest(Total_cases)
data("iris")
datos<-iris$Sepal.Width
#library(modeest)
moda<-mfv(Muertes)
moda
## [1] 63
sd(Muertes) # Desviacion tipica
## [1] 172066.4
var(Muertes) # Varianza
## [1] 29606830027
sort(Muertes, decreasing = TRUE) # Ordenar
## [1] 1035847 325194 41519 18287 10902 8529 8525 8299

4380
## [10] 4135 3963 3083 949 943 837 812 678
467
## [19] 371 277 231 225 216 140 138 108
86
## [28] 67 63 63 43 36 35 28 21
9
## [37] 8 6 1
table(Muertes) # Tabla de frecuencias absolutas
## Muertes
## 1 6 8 9 21 28 35 36 43
63
## 1 1 1 1 1 1 1 1 1
2
## 67 86 108 138 140 216 225 231 277
371
## 1 1 1 1 1 1 1 1 1
1
## 467 678 812 837 943 949 3083 3963 4135
4380
## 1 1 1 1 1 1 1 1 1
1
## 8299 8525 8529 10902 18287 41519 325194 1035847
## 1 1 1 1 1 1 1 1
sort(Muertes, decreasing = TRUE) # Ordenar
## [1] 1035847 325194 41519 18287 10902 8529 8525 8299

4380
## [10] 4135 3963 3083 949 943 837 812 678
467
## [19] 371 277 231 225 216 140 138 108
86
## [28] 67 63 63 43 36 35 28 21
9
## [37] 8 6 1
table(Muertes) # Tabla de frecuencias absolutas
## Muertes
## 1 6 8 9 21 28 35 36 43
63
## 1 1 1 1 1 1 1 1 1
2
## 67 86 108 138 140 216 225 231 277
371
## 1 1 1 1 1 1 1 1 1
1
## 467 678 812 837 943 949 3083 3963 4135
4380
## 1 1 1 1 1 1 1 1 1
1
## 8299 8525 8529 10902 18287 41519 325194 1035847
## 1 1 1 1 1 1 1 1
transform(table(Muertes))
## Muertes Freq
## 1 1 1
## 2 6 1
## 3 8 1
## 4 9 1
## 5 21 1
## 6 28 1
## 7 35 1
## 8 36 1
## 9 43 1
## 10 63 2
## 11 67 1
## 12 86 1
## 13 108 1
## 14 138 1
## 15 140 1
## 16 216 1
## 17 225 1
## 18 231 1
## 19 277 1
## 20 371 1
## 21 467 1
## 22 678 1
## 23 812 1
## 24 837 1
## 25 943 1
## 26 949 1
## 27 3083 1
## 28 3963 1
## 29 4135 1
## 30 4380 1
## 31 8299 1
## 32 8525 1
## 33 8529 1
## 34 10902 1
## 35 18287 1
## 36 41519 1
## 37 325194 1
## 38 1035847 1
# Tabla de frecuencias ----------------------------------------------------

# frecuencias absolutas
nclass.Sturges(Muertes)
## [1] 7
fabs <- table(cut(Muertes, breaks = 7))

fabs
##
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]
## 37 0 1
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0 0 0
## (8.88e+05,1.04e+06]
## 1
transform(fabs)
## Var1 Freq
## 1 (-1.03e+03,1.48e+05] 37
## 2 (1.48e+05,2.96e+05] 0
## 3 (2.96e+05,4.44e+05] 1
## 4 (4.44e+05,5.92e+05] 0
## 5 (5.92e+05,7.4e+05] 0
## 6 (7.4e+05,8.88e+05] 0
## 7 (8.88e+05,1.04e+06] 1
# frecuencias relativas
frel <- table(cut(Muertes, breaks = 7))/length(Muertes)
frel
##
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]
## 0.94871795 0.00000000 0.02564103
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0.00000000 0.00000000 0.00000000
## (8.88e+05,1.04e+06]
## 0.02564103
transform(frel)
## Var1 Freq
## 1 (-1.03e+03,1.48e+05] 0.94871795
## 2 (1.48e+05,2.96e+05] 0.00000000
## 3 (2.96e+05,4.44e+05] 0.02564103
## 4 (4.44e+05,5.92e+05] 0.00000000
## 5 (5.92e+05,7.4e+05] 0.00000000
## 6 (7.4e+05,8.88e+05] 0.00000000
## 7 (8.88e+05,1.04e+06] 0.02564103
# Tabla de frecuencias acumuladas

# frecuencias acumuladas
fabsacum <- cumsum(fabs)
fabsacum
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]

## 37 37 38
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 38 38 38
## (8.88e+05,1.04e+06]
## 39
# frecuencias relativas acumuladas
frelacum <- round(cumsum(frel), 2) # round permite redondear
frelacum
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]

## 0.95 0.95 0.97
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0.97 0.97 0.97
## (8.88e+05,1.04e+06]
## 1.00
mean(Muertes) # Media aritmetica
## [1] 37936.44
summary(table(Muertes)) # Resumen estadistico
## Number of cases in table: 39

## Number of factors: 1
mean(table(Muertes)) # Media aritmetica
## [1] 1.026316
median(Muertes) # Mediana
## [1] 277
moda<-mfv(Muertes)
moda
## [1] 63
sd(table(Muertes)) # Desviacion tipica
## [1] 0.1622214
var(Muertes) # Varianza
## [1] 29606830027
quantile(Muertes, 0.25) # Cuantil Q1
## 25%
## 63
quantile(Muertes, 0.75) # Cuantil Q3
## 75%
## 4049
CV <- 100*sd(Muertes)/mean(Muertes)
CV
## [1] 453.5649
#install.packages("moments")
library (moments)
##
## Attaching package: 'moments'
##
## The following object is masked from 'package:modeest':
##
## skewness
skewness(Muertes)
## [1] 5.315598
kurtosis(Muertes)
## [1] 30.76658
# Cualitativo
library(readr)
student_data <- read_csv(""~/Universidad/Tercer semestre/Proyecto
R/Data/student_data.csv"")
## Rows: 395 Columns: 33

## ── Column specification
────────────────────────────────────────────────────────
## Delimiter: ","
## chr (17): school, sex, address, famsize, Pstatus, Mjob, Fjob, reason,
guardi...
## dbl (16): age, Medu, Fedu, traveltime, studytime, failures, famrel,
freetime...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this
message.
View(student_data)
genero <- student_data$sex
n <- nclass.Sturges(genero)
table(genero) # tabla de frecuencia
## genero
## F M
## 208 187
prop.table(table(genero)) # tabla de frecuencias relativas

## genero
## F M
## 0.5265823 0.4734177
# Diagrama de barras
par(mfrow = c(1,2))
barplot(table(genero), col = "blue", main = "rendimiento academico",
ylab = "genero del estudiante")
barplot(table(genero)/length(genero), col = "green", main = "rendimiento

academico",
ylab = "genero del estudiante")
dev.off()
## null device
## 1
# Diagrama de Pie
sector <- table(genero)
etiquetas <- names(sector)
prop <- prop.table(table(genero))
pie(sector, clockwise = TRUE, main = "Rendimiento academico", col =
c(2,3,4,5),
labels = paste(etiquetas,':',prop))
Variables cuantitativas
a) Tallo y hoja de estos datos, interprete el gr´afico.
Se menciona que existe una gran cantidad de hojas en el numero 0 ya que se
evidencia que hay má s similitud con este debido a que tiene datos de muestra
estudiada.
b) Elabore un histograma, y el pol´ıgono de frecuencia, interprete el gr´afico.
Se evidencia mirando tanto histograma como polígono que existe una gran
incidencia por casos de contagio por el corona virus, ademá s en el polígono nos da la
visualizació n de las frecuencias de estos casos.
Elabore un boxplot, interprete la grá fica, ¿hay valores atípicos? interprete el grá fico.
De acuerdo a la grá fica presentada anteriormente si existe 2 valores atípico debido a
que este esta lejos de los demá s pues la gran parte está en 0e+00. Mientras que el uno
esta en 3e+05 y el otro esta en 11e+05.
¿Son los datos aproximadamente normales?
De acuerdo a la regresió n lineal se puede afirmar que los datos son normales ya que
siguen una linea constante y es importante recalcar que tres datos rebotan.
¿Qué porcentaje de los datos está dentro de ¯x ± 1,5σ?
¯x 37936.44
σ 172066.4
37936.44+ (1.5) (172066.4)= 296036.04
37936.44-(1.5) (172066.4)= -220163.16
(1-1/1.5)*100%= 55.5%
A raíz de estos cálculos se puede concluir que el 55.5% de los datos de

la muestra estudiada van entre 296036.04 a -220163.16
Variables cualitativas
¿Cuál de los dos métodos resulta mejor gráfica descriptiva? y ¿por qué?
El que resulta mejor es la grá fica de diagrama de pie porque se mira bien
diferenciado ambos géneros que existe en la variable. Con esto nos previene de
fututos errores y malentendidos.
¿Qué se puede decir acerca de las similitudes o diferencias en los patrones de las
dos variables cualitativas?
Se puede mencionar que existe una diferencia entre si debido a que la primera
variable es el sexo ya sea F o M mientras que la segunda variable es la ocupació n de
la madre tomando en cuenta que el padre trabaja al mismo tiempo por lo que no
hay relació n.
Conclusiones
 Dependiendo de si es una variable cuantitativa o cualitativa las grá ficas pueden
variar.
 Cada una de las variables nos permiten obtener una nueva visualizació n de las
muestras obtenidas en sí.
 Importante diferenciar entre datos agrupados y no agrupados ya que influyen
de una gran manera en los resultados.
Referencias
Anandhu, H. (2022). Covid in North America - latest data [Data set].

Ansodariya, D. (2022). Student Performance Dataset [Data set].
Gomilla, J. G. (2019, April 20). RPubs - Aná lisis de datos cuantitativos agrupados.
Rpubs.com. https://rpubs.com/JoanClaverol/488759
W
‌ ackerly, D., Mendenhall, W. and L, S., 2009. Estadística matemá tica con aplicaciones.
7e. Mexico, México: Cengage Learning Editores S.A. de C.V.

Morales Vanesa Taller

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Morales Vanesa Taller

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística

Taller de Estadística Descriptiva en R

Tercer semestre ZA39

Descripción de las variables

## Min. 1st Qu. Median Mean 3rd Qu. Max.

A <- hist(Muertes, breaks = 9, col = "yellow", main = "Muertes",

lines(c(min(A$breaks), A$mids, max(A$breaks)),

## Min. 1st Qu. Median Mean 3rd Qu. Max.

mean(Muertes) # Media aritmetica

mlv(covid_north_america$`Total Deaths`, method = "mfv")[1]

#Bickel's modal skewness:

sd(Muertes) # Desviacion tipica

sort(Muertes, decreasing = TRUE) # Ordenar

## [1] 1035847 325194 41519 18287 10902 8529 8525 8299

sort(Muertes, decreasing = TRUE) # Ordenar

## [1] 1035847 325194 41519 18287 10902 8529 8525 8299

table(Muertes) # Tabla de frecuencias absolutas

# Tabla de frecuencias ----------------------------------------------------

fabs <- table(cut(Muertes, breaks = 7))

# Tabla de frecuencias acumuladas

## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]

## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]

mean(Muertes) # Media aritmetica

summary(table(Muertes)) # Resumen estadistico

## Number of cases in table: 39

mean(table(Muertes)) # Media aritmetica

sd(table(Muertes)) # Desviacion tipica

quantile(Muertes, 0.25) # Cuantil Q1

quantile(Muertes, 0.75) # Cuantil Q3

## Rows: 395 Columns: 33

table(genero) # tabla de frecuencia

prop.table(table(genero)) # tabla de frecuencias relativas

barplot(table(genero)/length(genero), col = "green", main = "rendimiento

¿Qué porcentaje de los datos está dentro de ¯x ± 1,5σ?

37936.44-(1.5) (172066.4)= -220163.16

A raíz de estos cálculos se puede concluir que el 55.5% de los datos de

Anandhu, H. (2022). Covid in North America - latest data [Data set].

También podría gustarte