Está en la página 1de 52

Instituto Tecnológico Superior de

Misantla

Asignatura: Taller de Ciencia de Datos

Carrera: Ing. En Sistemas Computacionales


Actividad: Practica Data
Alumno:
• Jesús Alberto Romero Zavaleta

Núm. Control: 182t0452

Semestre: 7 Grupo: 703

Unidad:4

Fecha de Entrega: 19 de enero del 2022


Contenido
Práctica Data.csv .................................................................................................... 6
Objetivo................................................................................................................ 6
Material y equipo ................................................................................................. 6
Procedimiento ...................................................................................................... 6
Script ................................................................................................................ 6
Resultados ....................................................................................................... 6
Script ................................................................................................................ 6
Resultados ....................................................................................................... 7
Mean .................................................................................................................... 8
Script .............................................................................................................. 10
Script .............................................................................................................. 11
Resultados ..................................................................................................... 11
Script .............................................................................................................. 12
Script .............................................................................................................. 13
Script .............................................................................................................. 14
Resultados ..................................................................................................... 14
Script .............................................................................................................. 16
Resultados ..................................................................................................... 16
Se ...................................................................................................................... 18
Script .............................................................................................................. 18
Resultados ..................................................................................................... 18
Worst ................................................................................................................. 24
Script .............................................................................................................. 24
Histogramas ................................................................................................... 25
Se calculan los diagramas de dispersión ........................................................... 30
Script .............................................................................................................. 30
Resultados ..................................................................................................... 30
Diagramas de caja de bigotes de Mean, Se, y Worst ............................................ 33
Mean .................................................................................................................. 33
Script .............................................................................................................. 33
Resultados ..................................................................................................... 34
Se ...................................................................................................................... 39
Script .............................................................................................................. 39
Resultados ..................................................................................................... 40
Worst ................................................................................................................. 45
Script .............................................................................................................. 45
Resultados ..................................................................................................... 46
Realizamos PCA................................................................................................ 51
Script .............................................................................................................. 51
Resultados ..................................................................................................... 51
Script .............................................................................................................. 52
Resultados ..................................................................................................... 52

Ilustraciones
Ilustración 1 librerías ............................................................................................... 6
Ilustración 2 Se carga el dataset ............................................................................. 7
Ilustración 3 Elimina columna ID ............................................................................. 7
Ilustración 4 Histograma radius comando ............................................................... 8
Ilustración 5 Histograma radius ............................................................................... 8
Ilustración 6 Comando histograma textura .............................................................. 9
Ilustración 7 Histograma textura .............................................................................. 9
Ilustración 8 Comando Histograma Perimeter ....................................................... 10
Ilustración 9 Histograma perímeter ....................................................................... 10
Ilustración 10 Comando Histograma Area ............................................................. 11
Ilustración 11 Histograma área.............................................................................. 11
Ilustración 12 Comando Histograma Smoothness ................................................ 12
Ilustración 13 Histograma Smoothness ................................................................. 12
Ilustración 14 Comando histograma compactness ................................................ 13
Ilustración 15Histograma Compactness ............................................................... 13
Ilustración 16 Comando hist concavity_mean ....................................................... 14
Ilustración 17 Histograma concavity ...................................................................... 14
Ilustración 18 Comando Histograma Points .......................................................... 15
Ilustración 19 Histograma Points ........................................................................... 15
Ilustración 20 Comando Histograma symmetry ..................................................... 16
Ilustración 21 Histograma symmetry ..................................................................... 16
Ilustración 22 Comando histograma fractial .......................................................... 17
Ilustración 23Histograma fractial _dimension ........................................................ 17
Ilustración 24 Histograma radius_se ..................................................................... 19
Ilustración 25 Histograma texture_se .................................................................... 19
Ilustración 26Histograma perimeter_Se ................................................................ 20
Ilustración 27 Histograma area_se ........................................................................ 20
Ilustración 28 Histograma smoothness_se ............................................................ 21
Ilustración 29 Histograma compactness_se .......................................................... 21
Ilustración 30 Histograma concavity ...................................................................... 22
Ilustración 31Histograma concave _points ............................................................ 22
Ilustración 32 Histograma symmetry_Se ............................................................... 23
Ilustración 33 Histograma fractial_dimension_se .................................................. 23
Ilustración 34 Histograma radius ........................................................................... 25
Ilustración 35 Histograma textura .......................................................................... 25
Ilustración 36 Histograma perimeter ...................................................................... 26
Ilustración 37 Histograma área.............................................................................. 26
Ilustración 38 Histograma smoothness ................................................................. 27
Ilustración 39 Histograma compactness ................................................................ 27
Ilustración 40 Histograma concavity ...................................................................... 28
Ilustración 41 Histograma concave ....................................................................... 28
Ilustración 42 Histograma symmetry ..................................................................... 29
Ilustración 43 Histograma fractial_dimension ........................................................ 29
Ilustración 44 Diagrama de Dispersión Mean ........................................................ 30
Ilustración 45 Diagrama de dispersión Se ............................................................. 31
Ilustración 46 Diagrama de Dispersión Worst ....................................................... 32
Ilustración 47 Box plot radius ................................................................................ 34
Ilustración 48 Box plot tecture ............................................................................... 34
Ilustración 49 Box plot perimeter ........................................................................... 35
Ilustración 50 Box plot área ................................................................................... 35
Ilustración 51 Box plot smoothness ....................................................................... 36
Ilustración 52 Box plot compactness ..................................................................... 36
Ilustración 53 Box plot concavity ........................................................................... 37
Ilustración 54 Concave .......................................................................................... 37
Ilustración 55 Box plot symmetry........................................................................... 38
Ilustración 56 Box plot fractial................................................................................ 38
Ilustración 57 Box plot radius ................................................................................ 40
Ilustración 58 Box plot textura ............................................................................... 40
Ilustración 59 Box plot perimeter ........................................................................... 41
Ilustración 60 Box plot área ................................................................................... 41
Ilustración 61 Box plot smoothness ....................................................................... 42
Ilustración 62 Box plot compactness ..................................................................... 42
Ilustración 63 Box plot concavity ........................................................................... 43
Ilustración 64 Box plot concave ............................................................................. 43
Ilustración 65 Symmetry ........................................................................................ 44
Ilustración 66 Box plot fractial................................................................................ 44
Ilustración 67 Box plot radius ................................................................................ 46
Ilustración 68 Box plot textura ............................................................................... 46
Ilustración 69 Box plot perimeter ........................................................................... 47
Ilustración 70 Box plot área ................................................................................... 47
Ilustración 71 Box plot smoothness ....................................................................... 48
Ilustración 72 Box plot compactness ..................................................................... 48
Ilustración 73 Box plot concavity ........................................................................... 49
Ilustración 74 Box plot concave ............................................................................. 49
Ilustración 75 Box plot symmetry........................................................................... 50
Ilustración 76 Box plot fractial................................................................................ 50
Ilustración 77 PCA................................................................................................. 51
Ilustración 78 Guardar Csv .................................................................................... 52
Ilustración 79 Archivo Generado ........................................................................... 52
Práctica Data.csv
Objetivo
Analizar y deducir información de un dataset data.csv

Material y equipo
• R lenguaje de programación
• Computadora de escritorio o Laptop

Procedimiento
Al archivo data.csv se le debe de aplicarle EDA y también reducir la cantidad de
variables por medio del método PCA, con al menos el 90% de la información del
dataset, para posteriormente obtener el archivo “.csv” en donde se guardaron todos
los datos del método PCA.

Se cargan las librerías junto con el dataset


Script
#Cargamos las librerías necesarias
library(readr)
library(dplyr)
library(ggplot2)

Resultados

Ilustración 1 librerías

Ahora se carga el dataset


Script
# Cargamos el dataset data.csv
url <- "C:/Users/jesus/Documents/DataScience/data.csv"
data <- as.data.frame(unclass(read_csv(url)), stringsAsFactors=TRUE)
Resultados

Ilustración 2 Se carga el dataset

Ahora quitamos la columna ID


Script
# Seleccionamos las columnas numéricas
data.num <- data %>% select_if(is.numeric)
# Eliminamos la columna id
data.new <- data.num[,2:31]
# Juntamos los datos numéricos con el diagnóstico
data.new <- cbind(data.new, diagnosis=data$diagnosis)

Resultados

Ilustración 3 Elimina columna ID

Ahora sacaremos los histogramas de todos los atributos


Mean

Atributo radius_mean
Script

Resultados

Ilustración 4 Histograma radius comando

Ilustración 5 Histograma radius


Atributo texture_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = texture_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 6 Comando histograma textura

Ilustración 7 Histograma textura


Perimeter_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = perimeter_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 8 Comando Histograma Perimeter

Ilustración 9 Histograma perímeter


Atributo área_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = area_mean),
bins=10, fill="lightgreen", col="black"

Resultados

Ilustración 10 Comando Histograma Area

Ilustración 11 Histograma área


Smoothness_mean
Script

Ilustración 12 Comando Histograma Smoothness

Ilustración 13 Histograma Smoothness


Compactness_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = compactness_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 14 Comando histograma compactness

Ilustración 15Histograma Compactness


Concavity_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = concavity_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 16 Comando hist concavity_mean

Ilustración 17 Histograma concavity


Points_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = concave.points_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 18 Comando Histograma Points

Ilustración 19 Histograma Points


Symmetry_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = symmetry_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 20 Comando Histograma symmetry

Ilustración 21 Histograma symmetry


Fractial_dimension_mean
Script
ggplot(data = data.new) + geom_histogram(aes(x = fractal_dimension_mean),
bins=10, fill="lightgreen", col="black")

Resultados

Ilustración 22 Comando histograma fractial

Ilustración 23Histograma fractial _dimension


Se
Script
#radius_se
ggplot(data = data.new) + geom_histogram(aes(x = radius_se),
bins=10, fill="lightgreen", col="black")
# texture_se
ggplot(data = data.new) + geom_histogram(aes(x = texture_se),
bins=10, fill="lightgreen", col="black")
# perimeter_se
ggplot(data = data.new) + geom_histogram(aes(x = perimeter_se),
bins=10, fill="lightgreen", col="black")
# area_se
ggplot(data = data.new) + geom_histogram(aes(x = area_se),
bins=10, fill="lightgreen", col="black")
#smoothness_se
ggplot(data = data.new) + geom_histogram(aes(x = smoothness_se),
bins=10, fill="lightgreen", col="black")
#compactness_se
ggplot(data = data.new) + geom_histogram(aes(x = compactness_se),
bins=10, fill="lightgreen", col="black")
#concavity_se
ggplot(data = data.new) + geom_histogram(aes(x = concavity_se),
bins=10, fill="lightgreen", col="black")
#concave.points_se
ggplot(data = data.new) + geom_histogram(aes(x = concave.points_se),
bins=10, fill="lightgreen", col="black")
#symmetry_se
ggplot(data = data.new) + geom_histogram(aes(x = symmetry_se),
bins=10, fill="lightgreen", col="black")
#fractal_dimension_se
ggplot(data = data.new) + geom_histogram(aes(x = fractal_dimension_se),
bins=10, fill="lightgreen", col="black")

Resultados
Ilustración 24 Histograma radius_se

Ilustración 25 Histograma texture_se


Ilustración 26Histograma perimeter_Se

Ilustración 27 Histograma area_se


Ilustración 28 Histograma smoothness_se

Ilustración 29 Histograma compactness_se


Ilustración 30 Histograma concavity

Ilustración 31Histograma concave _points


Ilustración 32 Histograma symmetry_Se

Ilustración 33 Histograma fractial_dimension_se


Worst

Script
# radius_worst
ggplot(data = data.new) + geom_histogram(aes(x = radius_worst),
bins=10, fill="lightgreen", col="black")
# texture_worst
ggplot(data = data.new) + geom_histogram(aes(x = texture_worst),
bins=10, fill="lightgreen", col="black")
# perimeter_worst
ggplot(data = data.new) + geom_histogram(aes(x = perimeter_worst),
bins=10, fill="lightgreen", col="black")
# area_worst
ggplot(data = data.new) + geom_histogram(aes(x = area_worst),
bins=10, fill="lightgreen", col="black")
# smoothness_worst
ggplot(data = data.new) + geom_histogram(aes(x = smoothness_worst),
bins=10, fill="lightgreen", col="black")
# compactness_worst
ggplot(data = data.new) + geom_histogram(aes(x = compactness_worst),
bins=10, fill="lightgreen", col="black")
# concavity_worst
ggplot(data = data.new) + geom_histogram(aes(x = concavity_worst),
bins=10, fill="lightgreen", col="black")
# concave.points_worst
ggplot(data = data.new) + geom_histogram(aes(x = concave.points_worst),
bins=10, fill="lightgreen", col="black")
# symmetry_worst
ggplot(data = data.new) + geom_histogram(aes(x = symmetry_worst),
bins=10, fill="lightgreen", col="black")
# fractal_dimension_worst
ggplot(data = data.new) + geom_histogram(aes(x = fractal_dimension_worst),
bins=10, fill="lightgreen", col="black")
Histogramas

Ilustración 34 Histograma radius

Ilustración 35 Histograma textura


Ilustración 36 Histograma perimeter

Ilustración 37 Histograma área


Ilustración 38 Histograma smoothness

Ilustración 39 Histograma compactness


Ilustración 40 Histograma concavity

Ilustración 41 Histograma concave


Ilustración 42 Histograma symmetry

Ilustración 43 Histograma fractial_dimension


Se calculan los diagramas de dispersión

Script
# Calculando los diagramas de dispersión Mean
pairs(data.new[1:10], main="Data-Mean Dataset", pch=21,
bg=c("red","green")[unclass(data.new$diagnosis)])
# Calculando los diagramas de dispersión Se
pairs(data.new[11:20], main="Data-Se Dataset", pch=21,
bg=c("red","green")[unclass(data.new$diagnosis)])
# Calculando los diagramas de dispersión Worst
pairs(data.new[21:30], main="Data-Worst Dataset", pch=21,
bg=c("red","green")[unclass(data.new$diagnosis)])

Resultados

Ilustración 44 Diagrama de Dispersión Mean


Ilustración 45 Diagrama de dispersión Se
Ilustración 46 Diagrama de Dispersión Worst
Diagramas de caja de bigotes de Mean, Se, y Worst

Mean
Script
# Atributo radius_mean de cada diagnóstico
boxplot(radius_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="radius_mean")
# Atributo texture_mean de cada diagnóstico
boxplot(texture_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="texture_mean")
# Atributo perimeter_mean de cada diagnóstico
boxplot(perimeter_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="perimeter_mean")
# Atributo area_mean de cada diagnóstico
boxplot(area_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="area_mean")
# Atributo smoothness_mean de cada diagnóstico
boxplot(smoothness_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="smoothness_mean")
# Atributo compactness_mean de cada diagnóstico
boxplot(compactness_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="compactness_mean")
# Atributo concavity_mean de cada diagnóstico
boxplot(concavity_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concavity_mean")
# Atributo concave.points_mean de cada diagnóstico
boxplot(concave.points_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concave.points_mean")
# Atributo symmetry_mean de cada diagnóstico
boxplot(symmetry_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="symmetry_mean")
# Atributo fractal_dimension_mean de cada diagnóstico
boxplot(fractal_dimension_mean ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="fractal_dimension_mean")
Resultados

Ilustración 47 Box plot radius

Ilustración 48 Box plot tecture


Ilustración 49 Box plot perimeter

Ilustración 50 Box plot área


Ilustración 51 Box plot smoothness

Ilustración 52 Box plot compactness


Ilustración 53 Box plot concavity

Ilustración 54 Concave
Ilustración 55 Box plot symmetry

Ilustración 56 Box plot fractial


Se
Script
# Atributo radius_se de cada diagnóstico
boxplot(radius_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="radius_se")
# Atributo texture_se de cada diagnóstico
boxplot(texture_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="texture_se")
# Atributo perimeter_se de cada diagnóstico
boxplot(perimeter_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="perimeter_se")
# Atributo area_se de cada diagnóstico
boxplot(area_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="area_se")
# Atributo smoothness_se de cada diagnóstico
boxplot(smoothness_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="smoothness_se")
# Atributo compactness_se de cada diagnóstico
boxplot(compactness_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="compactness_se")
# Atributo concavity_se de cada diagnóstico
boxplot(concavity_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concavity_se")
# Atributo concave.points_se de cada diagnóstico
boxplot(concave.points_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concave.points_se")
# Atributo symmetry_se de cada diagnóstico
boxplot(symmetry_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="symmetry_se")
# Atributo fractal_dimension_se de cada diagnóstico
boxplot(fractal_dimension_se ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="fractal_dimension_se")
Resultados

Ilustración 57 Box plot radius

Ilustración 58 Box plot textura


Ilustración 59 Box plot perimeter

Ilustración 60 Box plot área


Ilustración 61 Box plot smoothness

Ilustración 62 Box plot compactness


Ilustración 63 Box plot concavity

Ilustración 64 Box plot concave


Ilustración 65 Symmetry

Ilustración 66 Box plot fractial


Worst
Script
# Atributo radius_worst de cada diagnóstico
boxplot(radius_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="radius_worst")
# Atributo texture_worst de cada diagnóstico
boxplot(texture_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="texture_worst")
# Atributo perimeter_worst de cada diagnóstico
boxplot(perimeter_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="perimeter_worst")
# Atributo area_worst de cada diagnóstico
boxplot(area_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="area_worst")
# Atributo smoothness_worst de cada diagnóstico
boxplot(smoothness_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="smoothness_worst")
# Atributo compactness_worst de cada diagnóstico
boxplot(compactness_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="compactness_worst")
# Atributo concavity_worst de cada diagnóstico
boxplot(concavity_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concavity_worst")
# Atributo concave.points_worst de cada diagnóstico
boxplot(concave.points_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="concave.points_worst")
# Atributo symmetry_worst de cada diagnóstico
boxplot(symmetry_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="symmetry_worst")
# Atributo fractal_dimension_worst de cada diagnóstico
boxplot(fractal_dimension_worst ~ diagnosis, data=data.new, main="Box plot",
xlab="diagnosis", ylab="fractal_dimension_worst"
Resultados

Ilustración 67 Box plot radius

Ilustración 68 Box plot textura


Ilustración 69 Box plot perimeter

Ilustración 70 Box plot área


Ilustración 71 Box plot smoothness

Ilustración 72 Box plot compactness


Ilustración 73 Box plot concavity

Ilustración 74 Box plot concave


Ilustración 75 Box plot symmetry

Ilustración 76 Box plot fractial


Realizamos PCA

Script
# Realizamos PCA
data.pca <- prcomp(data.new[1:30])
# Observamos los resultados
summary(data.pca)

Resultados

Ilustración 77 PCA

Al tener que retener al menos el 90% de la información, al seleccionar los primeros


6 primeros componentes se obtuvo el 100%
Script
# Proyectamos los resultados
data.proy <- as.matrix(data.new[1:30]) %*% data.pca$rotation[,1:6]
# Obtenemos el data frame final
data.final <- as.data.frame(data.proy, stringsAsFactors=TRUE)
# Guardamos el data frame final como csv
write.csv(data.final,"C:\\r_CienciaDatos\\dataJesusRomeroZavaleta.csv",
row.names=FALSE)

Resultados

Ilustración 78 Guardar Csv

Ilustración 79 Archivo Generado

También podría gustarte