Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LENGUAJE R
Qué es Lenguaje R
Un poco de historia de R
head(productos)
productos_vendidos <- table(productos) #Obtiene las veces en que fue vendido cada producto, es decir la tabla de frecuencias
productos_vendidos
Pre-procesamiento
Análisis
library(RODBC)
Instalación de R y RStudio
Paneles de RStudio
Instalación de Jupyter
Pestaña
BLOG > Pre-Procesamiento de Datos
Categorización de Valores Detección de Outliers
Re-escalado de Valores
Nominales
Cualitativas
Ordinales
Discretas
Cuantitativas
Continuas
Variables Cualitativas o Categóricas
0 = Muerto Soltero
Estado Casado Nominales
Estado No tienen un orden asociado
1 = Vivo Civil Unión Libre
Viudo
Divorciado
Primaria 0 = Leve
Severidad de Ordinales
Nivel de Secundaria Tienen un orden asociado
enfermedad 1 = Moderada
Estudio Bachillerato
Licenciatura 2 = Severa
Maestría
Variables Dummy
Discretas Continuas
Cantidad de alumnos Peso
Edad en años Estatura
Pestaña
BLOG > Estadística en R
Histogramas Diagramas de Caja y Bigotes
Gráfico de Pie
Pestaña
BLOG > Explicaciones Matemáticas
Clustering Jerárquico Aglomerativo Clustering con K-Means
al
i ne
nL
la ció
o rre
C
Asociación de
Variables Categóricas
Pearson y Spearman Kendall
Explicación Matemática
Clustering Jerárquico Aglomerativo
√
𝑛
𝑑 ( 𝑥 , 𝑦 ) =‖𝑥 − 𝑦‖= ∑ ( 𝑥𝑖 − 𝑦 𝑖 )2
𝑖 =1
Detecta a los individuos que puedan ser
considerados como similares y los asigna
a un mismo cluster, dejando a los
individuos disimilares (diferentes) en
clusters distintos.
Explicación Matemática
Clustering con K-Means
Resultado Con Resultado Sin Datos Originales
Outliers Outliers
Determinando la
cantidad de Clusters
Computacionalmente es menos
costoso que el Clustering
Jerárquico
Explicación
Correlación Lineal
Pearson
Spearman
Kendall
Coeficiente Phi
- Variables dicotómicas
Soporte
“En el 50% de las transacciones se compraron Leche, Mantequilla y Pan juntos”
Confianza
“En el 100% de las transacciones en las que compraron Leche y Mantequilla,
también compraron Pan”
Análisis Exploratorio con ACP
5
5
160
FCHI
NDX
0
0
-5
5 10 -10
NDX
120
5 -15
GDAXI
N225
Height
0
STI
0
N225
80
-5
-10
IBEX
6
5
40
2
IBEX
-5 0
STI
FCHI
DAXI
-2
G
-6
-15
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
Dist. Euclidea
Time Time
Vs. dist(indices_transp, method = "dtw")
hclust (*, "complete")
DTW
Imágen tomada de Ratanamahatana, C. A., & Keogh, E. (2004, April). Making time-series classification more accurate using
learned constraints. In Proceedings of the 2004 SIAM international conference on data mining (pp. 11-22). Society for Industrial
and Applied Mathematics.
Clustering Jerárquico
de Variables Categóricas
Pestaña
BLOG > SQL
Sentencias Group By
Y Having
Por qué utilizar SQL
en Ciencia de Datos
SQL
SQL es útil en la etapa de la
Extracción y Transformación de los Datos Se ha seguido utilizando desde los
70’s
Valioso
Poderoso
Es un lenguaje declarative
https://rociochavezml.com/cursos-en-linea/
Muchas Gracias por su Atención!!!
@rchavez1469
Rocio Chavez Ciencia de Datos