Está en la página 1de 14

Probabilidad y Estadística

Taller de Estadística Descriptiva en R


Integrantes: Cristian Alexander Gualacata Cusin, Shirley Vanessa Morales Bonilla

Tercer semestre ZA39

Resumen
En el presente proyecto se va a tratar sobre la obtenció n de datos tanto cuantitativos y
cualitativos con el fin de obtener resultados que plasmen la mortalidad del coronavirus
en Norteamérica. También el rendimiento de los estudiantes de acuerdo al trabajo de
sus padres. Por tal motivo se usó Kaggle de la cual se obtuvo los datos para así
posteriormente hacer uso del programa R.
Entonces tuvimos que exportar los datos ya que con eso podemos obtener los
resultados estadísticos necesarios en el proyecto. Ademá s, con eso se logró obtener
cada una de nuestras graficas estadísticas ya sea barras, diagrama de pie, etc.

Introducción
Primeramente, la estadística descriptiva es una gran herramienta para compendiar y
mostrar los datos má s importantes que existen en una muestra. Los cuales son la
mediana, media, moda, varianza, desviació n está ndar, etc. También se puede basar con
grá ficos estadísticos los cuales ayudaron a dar una alta visió n al respecto de la muestra
que se está analizando.
Kaggle es una gran base de datos que nos sirve para descargar cualquier dato que
deseemos usar. Posteriormente usamos el programa Rstudio cabe recalcar que es de
vital importancia debido a que agiliza el proceso de obtenció n de datos estadísticos y
graficas en base a los datos descargados anteriormente.

Descripción de las variables


Las variables usadas fueron en el primer caso que es con una variable cuantitativa
tome total cases que hace menció n al nú mero total de personas que se contagiaron con
el coronavirus en Norteamérica. Y en el segundo caso que es con variables cualitativas
se usaron como variables el sexo y la ocupació n de la madre tomando en cuenta que el
padre trabaja simultá neamente con el fin de analizar el rendimiento del estudiante.
a) Aná lisis de los datos

Morales_Vanessa_taller.R
DESKTOP-JLNDBD2

2022-06-23
# Universidad Yachay Tech
# Gualacata_Cristian,Morales_Vanessa_TallerR
#Probabilidad y Estadistica
#install.packages("readr")
#install.packages("Rcpp")
# Cuantitativo

library(readr)
covid_north_america <- read_csv("~/Universidad/Tercer semestre/Proyecto
R/Data/covid_north_america.csv")

## Rows: 39 Columns: 10
## ── Column specification
────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Country/Other
## dbl (9): Total Cases, Total Deaths, Total Recovered, Active Cases, Tot
Cases...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this
message.

View(covid_north_america)
Muertes <-covid_north_america$`Total Deaths` #variable a usar
n <- nclass.Sturges(Muertes) #tipos
#Literal a)
summary(Muertes) #Resumen estad?stico.

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 1 63 277 37936 4049 1035847

#Literal b)
stem(Muertes) #Diagrama de tallos y hojas.
##
## The decimal point is 5 digit(s) to the right of the |
##
## 0 | 0000000000000000000000000000000111124
## 2 | 3
## 4 |
## 6 |
## 8 |
## 10 | 4

#Literal c)
hist(Muertes, breaks = n, col = "green", main = "Muertes",
xlab = "Cantidad de muertes", ylab = "N?mero de infectados") #Histograma

A <- hist(Muertes, breaks = 9, col = "yellow", main = "Muertes",


xlab = "Cantidad de muertes", ylab = "N?mero de infectados") #
Poligono de frecuencia

lines(c(min(A$breaks), A$mids, max(A$breaks)),


c(0, A$counts, 0), type = "l", col = "red", lwd = 5) #L?neas de
frecuencia
# Boxplot
boxplot(Muertes, col = "blue", main = "Muertes",
ylab = "Conteo de muertes")
# Analisis de datos -------------------------------------------------------
summary(Muertes) # Resumen estadistico

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 1 63 277 37936 4049 1035847

mean(Muertes) # Media aritmetica

## [1] 37936.44

median(Muertes) # Mediana

## [1] 277

#install.packages("modeest") # Moda
library(modeest)
mlv(covid_north_america$`Total Deaths`, method = "mfv") # O
mlv(covid_north_america$Muertes, method = "discrete")

## [1] 63

mlv(covid_north_america$`Total Deaths`, method = "mfv")[1]

## [1] 63

#Bickel's modal skewness:


#modeest(Total_cases)
data("iris")
datos<-iris$Sepal.Width
#library(modeest)
moda<-mfv(Muertes)
moda

## [1] 63

sd(Muertes) # Desviacion tipica

## [1] 172066.4

var(Muertes) # Varianza

## [1] 29606830027

sort(Muertes, decreasing = TRUE) # Ordenar

## [1] 1035847 325194 41519 18287 10902 8529 8525 8299


4380
## [10] 4135 3963 3083 949 943 837 812 678
467
## [19] 371 277 231 225 216 140 138 108
86
## [28] 67 63 63 43 36 35 28 21
9
## [37] 8 6 1
table(Muertes) # Tabla de frecuencias absolutas

## Muertes
## 1 6 8 9 21 28 35 36 43
63
## 1 1 1 1 1 1 1 1 1
2
## 67 86 108 138 140 216 225 231 277
371
## 1 1 1 1 1 1 1 1 1
1
## 467 678 812 837 943 949 3083 3963 4135
4380
## 1 1 1 1 1 1 1 1 1
1
## 8299 8525 8529 10902 18287 41519 325194 1035847
## 1 1 1 1 1 1 1 1

sort(Muertes, decreasing = TRUE) # Ordenar

## [1] 1035847 325194 41519 18287 10902 8529 8525 8299


4380
## [10] 4135 3963 3083 949 943 837 812 678
467
## [19] 371 277 231 225 216 140 138 108
86
## [28] 67 63 63 43 36 35 28 21
9
## [37] 8 6 1

table(Muertes) # Tabla de frecuencias absolutas

## Muertes
## 1 6 8 9 21 28 35 36 43
63
## 1 1 1 1 1 1 1 1 1
2
## 67 86 108 138 140 216 225 231 277
371
## 1 1 1 1 1 1 1 1 1
1
## 467 678 812 837 943 949 3083 3963 4135
4380
## 1 1 1 1 1 1 1 1 1
1
## 8299 8525 8529 10902 18287 41519 325194 1035847
## 1 1 1 1 1 1 1 1

transform(table(Muertes))
## Muertes Freq
## 1 1 1
## 2 6 1
## 3 8 1
## 4 9 1
## 5 21 1
## 6 28 1
## 7 35 1
## 8 36 1
## 9 43 1
## 10 63 2
## 11 67 1
## 12 86 1
## 13 108 1
## 14 138 1
## 15 140 1
## 16 216 1
## 17 225 1
## 18 231 1
## 19 277 1
## 20 371 1
## 21 467 1
## 22 678 1
## 23 812 1
## 24 837 1
## 25 943 1
## 26 949 1
## 27 3083 1
## 28 3963 1
## 29 4135 1
## 30 4380 1
## 31 8299 1
## 32 8525 1
## 33 8529 1
## 34 10902 1
## 35 18287 1
## 36 41519 1
## 37 325194 1
## 38 1035847 1

# Tabla de frecuencias ----------------------------------------------------


# frecuencias absolutas
nclass.Sturges(Muertes)

## [1] 7

fabs <- table(cut(Muertes, breaks = 7))


fabs

##
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]
## 37 0 1
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0 0 0
## (8.88e+05,1.04e+06]
## 1

transform(fabs)

## Var1 Freq
## 1 (-1.03e+03,1.48e+05] 37
## 2 (1.48e+05,2.96e+05] 0
## 3 (2.96e+05,4.44e+05] 1
## 4 (4.44e+05,5.92e+05] 0
## 5 (5.92e+05,7.4e+05] 0
## 6 (7.4e+05,8.88e+05] 0
## 7 (8.88e+05,1.04e+06] 1

# frecuencias relativas
frel <- table(cut(Muertes, breaks = 7))/length(Muertes)
frel

##
## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]
## 0.94871795 0.00000000 0.02564103
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0.00000000 0.00000000 0.00000000
## (8.88e+05,1.04e+06]
## 0.02564103

transform(frel)

## Var1 Freq
## 1 (-1.03e+03,1.48e+05] 0.94871795
## 2 (1.48e+05,2.96e+05] 0.00000000
## 3 (2.96e+05,4.44e+05] 0.02564103
## 4 (4.44e+05,5.92e+05] 0.00000000
## 5 (5.92e+05,7.4e+05] 0.00000000
## 6 (7.4e+05,8.88e+05] 0.00000000
## 7 (8.88e+05,1.04e+06] 0.02564103

# Tabla de frecuencias acumuladas


# frecuencias acumuladas
fabsacum <- cumsum(fabs)
fabsacum

## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]


## 37 37 38
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 38 38 38
## (8.88e+05,1.04e+06]
## 39
# frecuencias relativas acumuladas
frelacum <- round(cumsum(frel), 2) # round permite redondear
frelacum

## (-1.03e+03,1.48e+05] (1.48e+05,2.96e+05] (2.96e+05,4.44e+05]


## 0.95 0.95 0.97
## (4.44e+05,5.92e+05] (5.92e+05,7.4e+05] (7.4e+05,8.88e+05]
## 0.97 0.97 0.97
## (8.88e+05,1.04e+06]
## 1.00

mean(Muertes) # Media aritmetica

## [1] 37936.44

summary(table(Muertes)) # Resumen estadistico

## Number of cases in table: 39


## Number of factors: 1

mean(table(Muertes)) # Media aritmetica

## [1] 1.026316

median(Muertes) # Mediana

## [1] 277

moda<-mfv(Muertes)
moda

## [1] 63

sd(table(Muertes)) # Desviacion tipica

## [1] 0.1622214

var(Muertes) # Varianza

## [1] 29606830027

quantile(Muertes, 0.25) # Cuantil Q1

## 25%
## 63

quantile(Muertes, 0.75) # Cuantil Q3

## 75%
## 4049

CV <- 100*sd(Muertes)/mean(Muertes)
CV
## [1] 453.5649

#install.packages("moments")
library (moments)

##
## Attaching package: 'moments'
##
## The following object is masked from 'package:modeest':
##
## skewness

skewness(Muertes)

## [1] 5.315598

kurtosis(Muertes)

## [1] 30.76658

# Cualitativo

library(readr)
student_data <- read_csv(""~/Universidad/Tercer semestre/Proyecto
R/Data/student_data.csv"")

## Rows: 395 Columns: 33


## ── Column specification
────────────────────────────────────────────────────────
## Delimiter: ","
## chr (17): school, sex, address, famsize, Pstatus, Mjob, Fjob, reason,
guardi...
## dbl (16): age, Medu, Fedu, traveltime, studytime, failures, famrel,
freetime...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this
message.

View(student_data)
genero <- student_data$sex
n <- nclass.Sturges(genero)

table(genero) # tabla de frecuencia

## genero
## F M
## 208 187

prop.table(table(genero)) # tabla de frecuencias relativas


## genero
## F M
## 0.5265823 0.4734177

# Diagrama de barras
par(mfrow = c(1,2))
barplot(table(genero), col = "blue", main = "rendimiento academico",
ylab = "genero del estudiante")

barplot(table(genero)/length(genero), col = "green", main = "rendimiento


academico",
ylab = "genero del estudiante")

dev.off()

## null device
## 1

# Diagrama de Pie
sector <- table(genero)
etiquetas <- names(sector)
prop <- prop.table(table(genero))
pie(sector, clockwise = TRUE, main = "Rendimiento academico", col =
c(2,3,4,5),
labels = paste(etiquetas,':',prop))

Variables cuantitativas
a) Tallo y hoja de estos datos, interprete el gr´afico.
Se menciona que existe una gran cantidad de hojas en el numero 0 ya que se
evidencia que hay má s similitud con este debido a que tiene datos de muestra
estudiada.
b) Elabore un histograma, y el pol´ıgono de frecuencia, interprete el gr´afico.
Se evidencia mirando tanto histograma como polígono que existe una gran
incidencia por casos de contagio por el corona virus, ademá s en el polígono nos da la
visualizació n de las frecuencias de estos casos.

Elabore un boxplot, interprete la grá fica, ¿hay valores atípicos? interprete el grá fico.
De acuerdo a la grá fica presentada anteriormente si existe 2 valores atípico debido a
que este esta lejos de los demá s pues la gran parte está en 0e+00. Mientras que el uno
esta en 3e+05 y el otro esta en 11e+05.
¿Son los datos aproximadamente normales?

De acuerdo a la regresió n lineal se puede afirmar que los datos son normales ya que
siguen una linea constante y es importante recalcar que tres datos rebotan.

¿Qué porcentaje de los datos está dentro de ¯x ± 1,5σ?

¯x 37936.44

σ 172066.4
37936.44+ (1.5) (172066.4)= 296036.04

37936.44-(1.5) (172066.4)= -220163.16

(1-1/1.5)*100%= 55.5%

A raíz de estos cálculos se puede concluir que el 55.5% de los datos de


la muestra estudiada van entre 296036.04 a -220163.16

Variables cualitativas

¿Cuál de los dos métodos resulta mejor gráfica descriptiva? y ¿por qué?

El que resulta mejor es la grá fica de diagrama de pie porque se mira bien
diferenciado ambos géneros que existe en la variable. Con esto nos previene de
fututos errores y malentendidos.

¿Qué se puede decir acerca de las similitudes o diferencias en los patrones de las
dos variables cualitativas?

Se puede mencionar que existe una diferencia entre si debido a que la primera
variable es el sexo ya sea F o M mientras que la segunda variable es la ocupació n de
la madre tomando en cuenta que el padre trabaja al mismo tiempo por lo que no
hay relació n.

Conclusiones
 Dependiendo de si es una variable cuantitativa o cualitativa las grá ficas pueden
variar.
 Cada una de las variables nos permiten obtener una nueva visualizació n de las
muestras obtenidas en sí.
 Importante diferenciar entre datos agrupados y no agrupados ya que influyen
de una gran manera en los resultados.
Referencias

Anandhu, H. (2022). Covid in North America - latest data [Data set].


Ansodariya, D. (2022). Student Performance Dataset [Data set].
Gomilla, J. G. (2019, April 20). RPubs - Aná lisis de datos cuantitativos agrupados.
Rpubs.com. https://rpubs.com/JoanClaverol/488759
W
‌ ackerly, D., Mendenhall, W. and L, S., 2009. Estadística matemá tica con aplicaciones.
7e. Mexico, México: Cengage Learning Editores S.A. de C.V.

También podría gustarte