Ciencia de Datos Con R

CIENCIA DE DATOS CON
LENGUAJE R
IT PhD Rocío Chávez

Objetivo de
nuestra Reunión
Dar a conocer conceptos básicos acerca de Lenguaje R
Revisar algunas técnicas útiles en el Análisis de Datos
Poner a su disposición algunos videos en los que explico la

implementación de dichas técnicas en Rstudio
Qué veremos
hoy?
Qué es Lenguaje R
Un poco de historia de R
Cómo funciona Rstudio
Etapas en el Análisis de Datos en los que se puede utilizar R
Algunas técnicas y gráficas utilizadas en la Ciencia de Datos
Ubicación de los videos explicativos en la página web

“Aprende Ciencia de Datos con Rocío Chávez”
Lenguaje R
Creado en 1993 en la Universidad de Nueva Zelanda
Desarrollado por estadísticos para llevar a cabo análisis estadístico Jhon

Chambers
Software Libre basado en otro lenguaje llamado S
Muy utilizado en la investigación científica y en el Análisis de Datos
Ross Ihaka Robert Gentleman

Empresas que
Utilizan R
Imagen tomada de http://agiltools.com/blogsp/analytics/r/

IDE
Entorno de Desarrollo Integrado

Paneles en RStudio
Funciones, Librerías y Comentarios
Creación de un Script
en RStudio
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Cursos impartidos en linea/Reportes Automaticos en R/Bases de datos")
productos <- read.csv(file="Venta de Productos.csv", header=TRUE,

sep=",", dec=".") #En éste archivo no tengo nombres en las filas
head(productos)
productos_vendidos <- table(productos) #Obtiene las veces en que fue vendido cada producto, es decir la tabla de frecuencias
productos_vendidos
library(qcc) #Instalar con install.packages("qcc") desde la consola
pareto.chart(productos_vendidos, col=rainbow(length(productos_vendidos)), main="Diagrama de Pareto")

Instalación de Librerias
Opción 1 Opción 2 Opción 3
CRAN
(Comprehensive R Archive Network)
Contiene 17,430 librerías

Archivos y
Documentación de las Librerías
Archivos y
Archivo a descargar para después

instalarlo mediante la opción 3
Archivos y
Pasos a seguir en
Ciencia de Datos
Imagen tomada de http://agiltools.com/blogsp/analytics/r/

Fases del Análisis de Datos
en las que se Utiliza R
Adquisición de los Datos
Pre-procesamiento
Análisis
Comunicación de los Resultados Obtenidos
Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/

Ejemplos de
Adquisición de Datos con R
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Videos para youtube/Bases de Datos/") Importando los datos de un archivo
#Leer el archivo de tipo csv en nuestra computadora
Tabla_Frec_Ventas <- read.csv(file="Tabla de Frecuencias de ventas.csv", header=TRUE,
sep=",", dec=".", row.names = 1)
library(RODBC)
#Accesamos a la Base de Datos

Tablas_sql <- odbcConnect("Conecta_SQL")
Importando los datos desde una
Base de Datos
#Leemos la tabla
Maraton_Mexicanos <- sqlFetch(Tablas_sql, "Tabla_Mexicanos")
#Cerramos la conexión a la Base de Datos

odbcClose(Tablas_sql)
Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/

Información disponible en
Internet
R Programming for Data Sciencie

https://bookdown.org/rdpeng/rprogdatascience/ https://bookdown.org/matiasandina/R-
intro/
R para Ciencia de Datos

https://es.r4ds.hadley.nz/
https://rociochavezml.com/
Videos en
Youtube
Archivos para
practicar https://github.com/rociochavezmx/Rocio-Chavez-youtube-Files
Lenguajes más utilizados en
Ciencia de Datos
Imagen tomada de https://www.kdnuggets.com/2019/08/new-poll-data-science-skills.html

Sitio Web
rociochavezml.com
Pestaña
BLOG
Pestaña
BLOG >Instalación de R y Python
Instalación de R y RStudio
Paneles de RStudio
Instalación de Jupyter
Pestaña
BLOG > Pre-Procesamiento de Datos
Categorización de Valores Detección de Outliers
Re-escalado de Valores
Creación de Variables Dummy

Tipos de Variables
Nominales
Cualitativas
Ordinales
Discretas
Cuantitativas
Continuas
Variables Cualitativas o Categóricas
0 = Muerto Soltero
Estado Casado Nominales
Estado No tienen un orden asociado
1 = Vivo Civil Unión Libre
Viudo
Divorciado
Primaria 0 = Leve
Severidad de Ordinales
Nivel de Secundaria Tienen un orden asociado
enfermedad 1 = Moderada
Estudio Bachillerato
Licenciatura 2 = Severa
Maestría
Variables Dummy
Se obtienen a partir de las Variables Nominales

Variables Cuantitativas
Se pueden cuantificar y realizar operaciones

sobre sus valores
Discretas Continuas
Cantidad de alumnos Peso
Edad en años Estatura
Pestaña
BLOG > Estadística en R
Histogramas Diagramas de Caja y Bigotes
Gráficos de Barras Diagramas de Rectángulos
Matriz de Correlación Diagrama de Pareto

Gráficos con Variables Cuantitativas
Diagramas de Rectángulos
Histogramas Diagramas de Caja y Bigotes
Diagramas de Dispersión Matriz de Correlación
Imagen tomada de:

https://rpubs.com/camilamila/correlaciones
Gráficos con Variables Cualitativas
Gráfico de Barras Diagrama de Pareto
Gráfico de Pie
Pestaña
BLOG > Explicaciones Matemáticas
Clustering Jerárquico Aglomerativo Clustering con K-Means
al
i ne
nL
la ció
o rre
C
Asociación de
Variables Categóricas
Pearson y Spearman Kendall
Explicación Matemática
Clustering Jerárquico Aglomerativo
Ejemplo del cálculo de la similitud entre

individuos
√
𝑛
𝑑 ( 𝑥 , 𝑦 ) =‖𝑥 − 𝑦‖= ∑ ( 𝑥𝑖 − 𝑦 𝑖 )2
𝑖 =1
Detecta a los individuos que puedan ser
considerados como similares y los asigna
a un mismo cluster, dejando a los
individuos disimilares (diferentes) en
clusters distintos.
Explicación Matemática
Clustering con K-Means
Resultado Con Resultado Sin Datos Originales
Outliers Outliers
Determinando la
cantidad de Clusters
Método no supervisado que sirve

para llevar a cabo agrupaciones
de objetos o individuos en base a
la similitud de sus características
Clusters Obtenidos
Lo que se busca es crear clusters
compactos y bien definidos
Computacionalmente es menos
costoso que el Clustering
Jerárquico
Explicación
Correlación Lineal
Pearson
- Para variables cuantitativas que tienen una distribución normal
Spearman
- Variables cuantitativas que no tienen distribución normal

- Cuando se tienen outliers
- Variables ordinales con cinco o mas niveles
Kendall
- Variables ordinales con menos de cinco niveles

Explicación
Asociación de Variables Categóricas
Medidas de Asociación
basadas en
Coeficiente Phi
- Variables dicotómicas
Coeficiente de Contingencia Su valor oscila entre 0 y 1

- Variables politómicas con igual cantidad de categorías
Un valor cercano a 0 indica que no existe asociación o que existe muy
Coeficiente V de Cramer poca asociación
- Variables politómicas con diferente cantidad de categorías
Mientras que un valor cercano a 1 indica una asociación alta
Pestaña
BLOG > Minería de Datos en R
Nubes de Palabras Algoritmo Apriori Mapas Temáticos
Análisis Exploratorio con ACP

Algoritmo Apriori
Base de Datos a Analizar Reglas Encontradas
“Porque compró XXXXX, a usted
le podría interesar YYYYYY…”
Soporte
“En el 50% de las transacciones se compraron Leche, Mantequilla y Pan juntos”
Confianza
“En el 100% de las transacciones en las que compraron Leche y Mantequilla,
también compraron Pan”
Análisis Exploratorio con ACP
Imágen obtenida de:

http://bibing.us.es/proyectos/abreproy/12277/fichero/Proyecto+Fin+de+Carrera+-+Jos%C3%A9+Pablo+Bur%C3%B3n+Gonz%C3%A1lez.pdf+
Pestaña
BLOG > Machine Learning en R
Clustering Jerárquico de
Clustering Jerárquico
Variables Cualitativas
Clustering de Series Temporales Clustering Jerárquico sobre el ACP

Clustering de Series Temporales
indices Cluster Dendrogram
5
5
160
FCHI
NDX
0
0
-5
5 10 -10
NDX
120
5 -15
GDAXI
N225
Height
0
STI
0
N225
80
-5
-10
IBEX
6
5
40
2
IBEX
-5 0
STI
FCHI
DAXI
-2
G
-6
-15
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
Dist. Euclidea
Time Time
Vs. dist(indices_transp, method = "dtw")
hclust (*, "complete")
DTW
Imágen tomada de Ratanamahatana, C. A., & Keogh, E. (2004, April). Making time-series classification more accurate using
learned constraints. In Proceedings of the 2004 SIAM international conference on data mining (pp. 11-22). Society for Industrial
and Applied Mathematics.
Clustering Jerárquico
de Variables Categóricas
Pestaña
BLOG > SQL
Por qué utilizar SQL

En Ciencia de Datos
Instalando SQL Server en Windows
Sentencias Group By
Y Having
en Ciencia de Datos
SQL
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Se ha seguido utilizando desde los
70’s
No ha sufrido muchos cambios
Valioso
Poderoso
Es un lenguaje declarative
Consta de pocas instrucciones

enfocadas en las bases de datos
en Ciencia de Datos
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Cual lenguaje es más fácil de comprender?
Categorización de Valores con R Categorización de Valores con SQL

Sentencias Group By
y Having
Cuál es la diferencia entre

la sentencia Having
y
la sentencia Where?
Pestaña
BLOG > RMarkdown
Qué es RMarkdown?
Ventajas de Utilizar RMarkdown
Partes que componen un
Script de RMarkdown
Ejemplo Página en Internet
creada con RMarkdown
Ejemplo de Publicación en internet

https://rpubs.com/rociochavezmx/653644
Menú Cursos en Línea
Enlace a los cursos con descuento
https://rociochavezml.com/cursos-en-linea/
Muchas Gracias por su Atención!!!
rociochavezmx@yahoo.com Aprende Ciencia de Datos con Rocio Chavez
@rchavez1469
Rocio Chavez Ciencia de Datos

Ciencia de Datos Con R

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ciencia de Datos Con R

Cargado por

Copyright:

Formatos disponibles

CIENCIA DE DATOS CON

IT PhD Rocío Chávez

Dar a conocer conceptos básicos acerca de Lenguaje R

Revisar algunas técnicas útiles en el Análisis de Datos

Poner a su disposición algunos videos en los que explico la

Cómo funciona Rstudio

Etapas en el Análisis de Datos en los que se puede utilizar R

Algunas técnicas y gráficas utilizadas en la Ciencia de Datos

Ubicación de los videos explicativos en la página web

Creado en 1993 en la Universidad de Nueva Zelanda

Desarrollado por estadísticos para llevar a cabo análisis estadístico Jhon

Muy utilizado en la investigación científica y en el Análisis de Datos

Ross Ihaka Robert Gentleman

Imagen tomada de http://agiltools.com/blogsp/analytics/r/

Entorno de Desarrollo Integrado

productos <- read.csv(file="Venta de Productos.csv", header=TRUE,

library(qcc) #Instalar con install.packages("qcc") desde la consola

pareto.chart(productos_vendidos, col=rainbow(length(productos_vendidos)), main="Diagrama de Pareto")

Contiene 17,430 librerías

Archivo a descargar para después

Imagen tomada de http://agiltools.com/blogsp/analytics/r/

Adquisición de los Datos

Comunicación de los Resultados Obtenidos

Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/

#Accesamos a la Base de Datos

#Cerramos la conexión a la Base de Datos

Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/

R Programming for Data Sciencie

R para Ciencia de Datos

Imagen tomada de https://www.kdnuggets.com/2019/08/new-poll-data-science-skills.html

Creación de Variables Dummy

Se obtienen a partir de las Variables Nominales

Se pueden cuantificar y realizar operaciones

Gráficos de Barras Diagramas de Rectángulos

Matriz de Correlación Diagrama de Pareto

Diagramas de Dispersión Matriz de Correlación

Imagen tomada de:

Ejemplo del cálculo de la similitud entre

Método no supervisado que sirve

- Para variables cuantitativas que tienen una distribución normal

- Variables cuantitativas que no tienen distribución normal

- Variables ordinales con menos de cinco niveles

Coeficiente de Contingencia Su valor oscila entre 0 y 1

Análisis Exploratorio con ACP

“Porque compró XXXXX, a usted

le podría interesar YYYYYY…”

Imágen obtenida de:

Clustering de Series Temporales Clustering Jerárquico sobre el ACP

Por qué utilizar SQL

Instalando SQL Server en Windows

No ha sufrido muchos cambios

Consta de pocas instrucciones

Categorización de Valores con R Categorización de Valores con SQL

Cuál es la diferencia entre

Ejemplo de Publicación en internet

Enlace a los cursos con descuento

rociochavezmx@yahoo.com Aprende Ciencia de Datos con Rocio Chavez

También podría gustarte