Está en la página 1de 54

CIENCIA DE DATOS CON

LENGUAJE R

IT PhD Rocío Chávez


Objetivo de
nuestra Reunión

Dar a conocer conceptos básicos acerca de Lenguaje R

Revisar algunas técnicas útiles en el Análisis de Datos

Poner a su disposición algunos videos en los que explico la


implementación de dichas técnicas en Rstudio
Qué veremos
hoy?

Qué es Lenguaje R

Un poco de historia de R

Cómo funciona Rstudio

Etapas en el Análisis de Datos en los que se puede utilizar R

Algunas técnicas y gráficas utilizadas en la Ciencia de Datos

Ubicación de los videos explicativos en la página web


“Aprende Ciencia de Datos con Rocío Chávez”
Lenguaje R

Creado en 1993 en la Universidad de Nueva Zelanda

Desarrollado por estadísticos para llevar a cabo análisis estadístico Jhon


Chambers
Software Libre basado en otro lenguaje llamado S

Muy utilizado en la investigación científica y en el Análisis de Datos

Ross Ihaka Robert Gentleman


Empresas que
Utilizan R

Imagen tomada de http://agiltools.com/blogsp/analytics/r/


IDE

Entorno de Desarrollo Integrado


Paneles en RStudio
Funciones, Librerías y Comentarios
Creación de un Script
en RStudio
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Cursos impartidos en linea/Reportes Automaticos en R/Bases de datos")

productos <- read.csv(file="Venta de Productos.csv", header=TRUE,


sep=",", dec=".") #En éste archivo no tengo nombres en las filas

head(productos)

productos_vendidos <- table(productos) #Obtiene las veces en que fue vendido cada producto, es decir la tabla de frecuencias

productos_vendidos

library(qcc) #Instalar con install.packages("qcc") desde la consola

pareto.chart(productos_vendidos, col=rainbow(length(productos_vendidos)), main="Diagrama de Pareto")


Instalación de Librerias
Opción 1 Opción 2 Opción 3
CRAN
(Comprehensive R Archive Network)

Contiene 17,430 librerías


Archivos y
Documentación de las Librerías
Archivos y
Documentación de las Librerías

Archivo a descargar para después


instalarlo mediante la opción 3
Archivos y
Documentación de las Librerías
Pasos a seguir en
Ciencia de Datos

Imagen tomada de http://agiltools.com/blogsp/analytics/r/


Fases del Análisis de Datos
en las que se Utiliza R

Adquisición de los Datos

Pre-procesamiento

Análisis

Comunicación de los Resultados Obtenidos

Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/


Ejemplos de
Adquisición de Datos con R
#Indicando el directorio en donde se encuentra el archivo a cargar
setwd("C:/Users/rocio/Escritorio2/Pavillion-Rocio/Videos para youtube/Bases de Datos/") Importando los datos de un archivo
#Leer el archivo de tipo csv en nuestra computadora
Tabla_Frec_Ventas <- read.csv(file="Tabla de Frecuencias de ventas.csv", header=TRUE,
sep=",", dec=".", row.names = 1)

library(RODBC)

#Accesamos a la Base de Datos


Tablas_sql <- odbcConnect("Conecta_SQL")
Importando los datos desde una
Base de Datos
#Leemos la tabla
Maraton_Mexicanos <- sqlFetch(Tablas_sql, "Tabla_Mexicanos")

#Cerramos la conexión a la Base de Datos


odbcClose(Tablas_sql)

Imagen tomada de https://richardlent.github.io/post/rstudio-as-a-research-and-writing-platform/


Información disponible en
Internet

R Programming for Data Sciencie


https://bookdown.org/rdpeng/rprogdatascience/ https://bookdown.org/matiasandina/R-
intro/

R para Ciencia de Datos


https://es.r4ds.hadley.nz/
https://rociochavezml.com/
Videos en
Youtube
Archivos para
practicar https://github.com/rociochavezmx/Rocio-Chavez-youtube-Files
Lenguajes más utilizados en
Ciencia de Datos

Imagen tomada de https://www.kdnuggets.com/2019/08/new-poll-data-science-skills.html


Sitio Web
rociochavezml.com
Pestaña
BLOG
Pestaña
BLOG >Instalación de R y Python

Instalación de R y RStudio

Paneles de RStudio

Instalación de Jupyter
Pestaña
BLOG > Pre-Procesamiento de Datos
Categorización de Valores Detección de Outliers

Re-escalado de Valores

Creación de Variables Dummy


Tipos de Variables

Nominales
Cualitativas
Ordinales

Discretas
Cuantitativas

Continuas
Variables Cualitativas o Categóricas
0 = Muerto Soltero
Estado Casado Nominales
Estado No tienen un orden asociado
1 = Vivo Civil Unión Libre
Viudo
Divorciado

Primaria 0 = Leve
Severidad de Ordinales
Nivel de Secundaria Tienen un orden asociado
enfermedad 1 = Moderada
Estudio Bachillerato
Licenciatura 2 = Severa
Maestría
Variables Dummy

Se obtienen a partir de las Variables Nominales


Variables Cuantitativas

Se pueden cuantificar y realizar operaciones


sobre sus valores

Discretas Continuas
Cantidad de alumnos Peso
Edad en años Estatura
Pestaña
BLOG > Estadística en R
Histogramas Diagramas de Caja y Bigotes

Gráficos de Barras Diagramas de Rectángulos

Matriz de Correlación Diagrama de Pareto


Gráficos con Variables Cuantitativas
Diagramas de Rectángulos
Histogramas Diagramas de Caja y Bigotes

Diagramas de Dispersión Matriz de Correlación

Imagen tomada de:


https://rpubs.com/camilamila/correlaciones
Gráficos con Variables Cualitativas
Gráfico de Barras Diagrama de Pareto

Gráfico de Pie
Pestaña
BLOG > Explicaciones Matemáticas
Clustering Jerárquico Aglomerativo Clustering con K-Means

al
i ne
nL
la ció
o rre
C

Asociación de
Variables Categóricas
Pearson y Spearman Kendall
Explicación Matemática
Clustering Jerárquico Aglomerativo

Ejemplo del cálculo de la similitud entre


individuos


𝑛
𝑑 ( 𝑥 , 𝑦 ) =‖𝑥 − 𝑦‖= ∑ ( 𝑥𝑖 − 𝑦 𝑖 )2
𝑖 =1
Detecta a los individuos que puedan ser
considerados como similares y los asigna
a un mismo cluster, dejando a los
individuos disimilares (diferentes) en
clusters distintos.
Explicación Matemática
Clustering con K-Means
Resultado Con Resultado Sin Datos Originales
Outliers Outliers
Determinando la
cantidad de Clusters

Método no supervisado que sirve


para llevar a cabo agrupaciones
de objetos o individuos en base a
la similitud de sus características
Clusters Obtenidos
Lo que se busca es crear clusters
compactos y bien definidos

Computacionalmente es menos
costoso que el Clustering
Jerárquico
Explicación
Correlación Lineal
Pearson

- Para variables cuantitativas que tienen una distribución normal

Spearman

- Variables cuantitativas que no tienen distribución normal


- Cuando se tienen outliers
- Variables ordinales con cinco o mas niveles

Kendall

- Variables ordinales con menos de cinco niveles


Explicación
Asociación de Variables Categóricas
Medidas de Asociación
basadas en

Coeficiente Phi
- Variables dicotómicas

Coeficiente de Contingencia Su valor oscila entre 0 y 1


- Variables politómicas con igual cantidad de categorías
Un valor cercano a 0 indica que no existe asociación o que existe muy
Coeficiente V de Cramer poca asociación
- Variables politómicas con diferente cantidad de categorías
Mientras que un valor cercano a 1 indica una asociación alta
Pestaña
BLOG > Minería de Datos en R
Nubes de Palabras Algoritmo Apriori Mapas Temáticos

Análisis Exploratorio con ACP


Algoritmo Apriori
Base de Datos a Analizar Reglas Encontradas

“Porque compró XXXXX, a usted

le podría interesar YYYYYY…”

Soporte
“En el 50% de las transacciones se compraron Leche, Mantequilla y Pan juntos”

Confianza
“En el 100% de las transacciones en las que compraron Leche y Mantequilla,
también compraron Pan”
Análisis Exploratorio con ACP

Imágen obtenida de:


http://bibing.us.es/proyectos/abreproy/12277/fichero/Proyecto+Fin+de+Carrera+-+Jos%C3%A9+Pablo+Bur%C3%B3n+Gonz%C3%A1lez.pdf+
Pestaña
BLOG > Machine Learning en R
Clustering Jerárquico de
Clustering Jerárquico
Variables Cualitativas

Clustering de Series Temporales Clustering Jerárquico sobre el ACP


Clustering de Series Temporales
indices Cluster Dendrogram

5
5

160
FCHI

NDX
0
0

-5
5 10 -10

NDX
120
5 -15
GDAXI

N225

Height
0

STI
0

N225
80
-5
-10

IBEX
6
5

40
2
IBEX
-5 0

STI

FCHI

DAXI
-2

G
-6
-15

0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
Dist. Euclidea
Time Time
Vs. dist(indices_transp, method = "dtw")
hclust (*, "complete")
DTW

Imágen tomada de Ratanamahatana, C. A., & Keogh, E. (2004, April). Making time-series classification more accurate using
learned constraints. In Proceedings of the 2004 SIAM international conference on data mining (pp. 11-22). Society for Industrial
and Applied Mathematics.
Clustering Jerárquico
de Variables Categóricas
Pestaña
BLOG > SQL

Por qué utilizar SQL


En Ciencia de Datos

Instalando SQL Server en Windows

Sentencias Group By
Y Having
Por qué utilizar SQL
en Ciencia de Datos
SQL
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Se ha seguido utilizando desde los
70’s

No ha sufrido muchos cambios

Valioso

Poderoso

Es un lenguaje declarative

Consta de pocas instrucciones


enfocadas en las bases de datos
Por qué utilizar SQL
en Ciencia de Datos
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Cual lenguaje es más fácil de comprender?

Categorización de Valores con R Categorización de Valores con SQL


Sentencias Group By
y Having

Cuál es la diferencia entre


la sentencia Having
y
la sentencia Where?
Pestaña
BLOG > RMarkdown
Qué es RMarkdown?
Ventajas de Utilizar RMarkdown
Partes que componen un
Script de RMarkdown
Ejemplo Página en Internet
creada con RMarkdown

Ejemplo de Publicación en internet


https://rpubs.com/rociochavezmx/653644
Menú Cursos en Línea

Enlace a los cursos con descuento

https://rociochavezml.com/cursos-en-linea/
Muchas Gracias por su Atención!!!

rociochavezmx@yahoo.com Aprende Ciencia de Datos con Rocio Chavez

@rchavez1469
Rocio Chavez Ciencia de Datos

También podría gustarte