Está en la página 1de 30

MÓDULO III

BUSINESS ANALYTICS

Business Analytics Advanced

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
SESIÓN 1 – 5 de Enero
• Análisis de componentes principales.
• Caso Aplicativo.

SESIÓN 2 – 6 de Enero
• Control de lectura N°1: “01. EjemploACP.pdf”
• Análisis Clúster: métodos jerárquicos.
• Análisis Clúster: métodos de particionamiento.
• Caso Aplicativo.
Programa de Especialización en Business Intelligence &
y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
SESIÓN 3 – 12 de Enero
• Control de lectura N° 2: “02. Silueta.pdf”
• Modelos Supervisados I: Regresión Logística y Probit, Árboles de
decisión, KNN, Máquina de Soporte Vectorial y Redes Neuronales.
• Caso Aplicativo.
SESIÓN 4 – 13 de Enero
• Control de lectura N° 3: “03. Árboles.pdf”
• Modelos Supervisados II: Modelos Bagging, Boosting y Ensamble.
• Caso Aplicativo.
Programa de Especialización en Business Intelligence &
y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
SESIÓN 5 – 20 de Enero
• Exposición de trabajos.
• Examen Final = 20%*Caso Virtual + 30%*Lecturas + 50%*Exposición
 04. Boosting.pdf
 04. CatBoost vs. Light GBM vs. XGBoost.pdf
 04. Ensemble Learning.pdf
 04. Random Forest.pdf
 04. Xgboost vs Catboost vs Lightgbm which is best for price prediction.pdf
 04. XGBoost.pdf

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
EVALUACIONES

• Controles de lectura (CL)


• Participación individual: Asistencia (P1)
• Participación grupal (P2)
• Examen final (EF)

Nota Final = 15%*CL + 20%*P1 + 20%*P2 + 45%*EF

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Bibliografía

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Fuentes de datos
1.- Portal de datos abiertos de la Unión Europea 4.- Compilación de datos de Gapmainder

http://data.europa.eu/euodp/es/data/ http://www.gapminder.org/data/

2.- Portal de datos abiertos del Gobierno de USA 5.- Machine Learning Repository

https://www.data.gov/ https://archive.ics.uci.edu/ml/datasets.html

3.- Fuentes de datos gratuitas de Amazon 6.- KDnuggets datasets

https://aws.amazon.com/es/datasets/ https://www.kdnuggets.com/datasets/index.html

7.- Kaggle

http://www.kaggle.com/datasets

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Business Intelligence Advanced
• Análisis de Componentes Principales.
• Análisis Clúster.
• Modelos supervisados I.
• Modelos supervisados II.
• Exposición de trabajos.
• Examen Final.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
1. Pruebas preliminares
a- Pruebas de Correlación:

- Prueba de Pearson

- Prueba de Kendall

- Prueba de Spearman

b- Prueba de Eferecidad de Bartlett

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Pearson

- Toma valores entre -1 y 1


- Si toma el valor de 0 no existe
relación lineal.
- Si toma el valor de 1 si existe relación
lineal.
- Se aproxima a una distribución t- Ho: no existe correlación entre las variables
student. Ha: existe correlación entre las variables

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Pearson

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Pearson
Pearson's correlation

Caballos de fuerza vs Millas / galón


t = -6.7424, df = 30, p-value = 1.788e-07

Ha: true correlation is not equal to 0

95 percent confidence interval:


-0.8852686 -0.5860994
sample estimates:
cor
-0.7761684
Distribución t

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Kendall

- Es una prueba no paramétrica.


- Cuando los datos no proceden
necesariamente de una distribución
normal.

Ho: no existe correlación entre las variables


Ha: existe correlación entre las variables

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Kendall
Kendall's rank correlation tau

Caballos de fuerza vs Millas / galón


z = -5.871, p-value = 4.332e-09

Ha: true tau is not equal to 0


sample estimates:
tau
-0.7428125

Distribución z

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Spearman

- Toma valores entre -1 y 1


- Si toma el valor de 0 no existe
relación lineal.
- Si toma el valor de 1 si existe relación
lineal.
- Se basa en rango de valores. Ho: no existe correlación entre las variables
- Se aproxima a una distribución t- Ha: existe correlación entre las variables
student.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
a. Pruebas de correlación
Prueba de Spearman
Spearman's rank correlation rho

Caballos de fuerza vs Millas / galón


S = 10337, p-value = 5.086e-12

Ha: true rho is not equal to 0


sample estimates:
rho
-0.8946646

Distribución t

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Permite probar si existe una intercorrelación significativa entre las variables originales.

Así, para p variables se puede usar la matriz de correlación Rp cuyos elementos de


la diagonal son 1s y los que están fuera de la diagonal son coeficientes que miden la
intercorrelación entre cada par de variables. Si todos estos coeficientes son nulos (no
b. Prueba de esferecidad de Barlett
existe correlaciones entre las p variables), entonces la matriz Rp será igual a la
identidad, con lo que su determinante será igual a la unidad.

Formulación de las hipótesis: Hp : Rp  1 Las variables no están correlacionadas

Ha : R p  1 Las variables están correlacionadas

 1 
Estadística de Barlett:   n  1  (2 p  5) ln R
2
c
 6 

Decisión estadística. Se rechaza Hp, si  c2   2 (1 )( p


2
 p ) . Si se acepta Hp,
entonces las variables no están correlacionadas y por lo tanto no tiene sentido aplicar
el análisis de componentes principales.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
ntre cada par de variables. Si todos estos R coeficientes son nulos (no
s se puede usar la matriz de correlación p cuyos elementos de
yeslosentre las p fuera
que están variables), entoncesson
de la diagonal la matriz Rp será
coeficientes igual ala la
que miden
re cada
que par de variables.
su determinante Si todos
será igual estos coeficientes son nulos (no
a la unidad.
s entre las p variables), entonces la matriz Rp será igual a la
e
assuhipótesis:
determinante será igual p 1
b. Prueba de esferecidad de Barlett
Hp a: laRunidad.

s hipótesis: Ha: :RR p


Hp 11
p
t.bartlett <- function( data ){
 Ha : R1  1 
n <- dim(data)[1]

p
arlett:
2
c    n  1  ( 2 p  5 )  ln R p <- dim(data)[2]
6 R <- cor(data)
 1  chi.square <- -(n-1-(2*p+5)/6) * log(det(R))
 2
   n  1  ( 2 p  5 ) ln R
p2  p )
lett:
  
c 2 2 cat("\n","Prueba de Esferecidad de Bartlett","\n","\n")
tica. Se rechaza Hp, si c
6 (1 )( . Si se acepta Hp,
cat('chi.square = ', round(chi.square,3) ,
ables no están correlacionadas y por lo tanto no tiene sentido aplicar
ponentes principales.  2   2
', df = ', (p^2-p)/2,
ca. Se rechaza Hp, si c (1 )( p  p ) . Si se acepta ',
2
Hp,p-value = ', 1-pchisq(chi.square,(p^2-p)/2))
les no están correlacionadas y por lo tanto no tiene sentido }aplicar
onentes principales.

Crear una función en R.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Caso: Autos
Se tiene un conjunto de 32 modelos de autos, el objetivo
Realizar las pruebas preliminares para poder aplicar un
análisis de componentes principales.

N° Variable Definición

1 nombre Marca y modelo del auto


2 mpg Millas / galón
3 cyl Número de cilindros
4 disp El desplazamiento (pulgadas cúbicas)
5 hp Caballos de fuerza bruta
6 drat Relación del eje trasero
7 wt Peso (1000 lbs)
8 qsec Tiempo de 1/4 de milla

9 gear Número de engranaje de marcha hacia adelante

10 carb Número de carburadores

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
Definiciones

- Se aplica en un conjunto de datos con


variables numéricas.
X3
- Tiene como objetivo capturar tanta
información como sea posible con una
varianza explicada alta.
- Las componentes no deben estar X2
correlacionados. X1

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
- De las “d” variables iniciales se obtienen “d”
componentes.
- Una componente es una combinación lineal
de todas las variables iniciales.
- Se seleccionan las componentes principales
que maximicen la varianza.
- Para hallar los autovalores y autovectores se
utiliza el Teorema de Descomposición
Espectral sobre:
Matriz de varianza y covarianza

S  ˆ j I Lˆ j  0
Autovalor Autovector

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
1. La variancia de la j-ésima componente principal, es igual a su autovalor asociado
Propiedades
Var(Zj) = Lj’  Lj = j

2. Las variancias están en orden decrecientes.

Var(Z1) Var(Z2)  . . .  Var(Zp)  0

3. La suma de las variancias de las componentes es igual a las de las variables


originales.
p p

Var(Z )  Traza()   
j 1
j
j 1
j

p
Si las variables están tipificadas: Var(Z )  Traza(R )  p
j 1
j p

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
1. Proporción de variación de la j-ésima componente respecto a la variabilidad total,
Propiedades es dada por:

j j
PVE  p
x100 Si las variables están tipificadas: PVE  x100
p
Var(Z
j 1
j )

2. Proporción de variación explicada por las k primeras componentes principales


respecto a la variabilidad total, es dada por:

k k


j 1
j 
j 1
j

PVE k  p
x100 Si las variables están tipificadas: PVE k  x100
p
Var(Z j )
j 1

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
1) El Criterio de la media aritmética
Este criterio selecciona aquellas componentes principales cuyo autovalor o raiz
Elección del característica (variancia de la componente) h excede a la media de los autovalores:
número de p
componentes: 
j 1
j

Criterio de la Si
h    , entonces se retiene la componente principal h. Para
media aritmética p
variables tipificadas, se tiene que se retiene la componente h si: h  1 puesto
p

que: 
j 1
j p

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
4) Gráfico de Sedimentación

El gráfico de sedimentación (Scree plot), se obtiene al representar en ordenada


autovalores y en abscisas los números de los componentes princip
2. Análisis de Componentes Principales correspondientes a cada autovalor en orden decreciente. La unión de estos pu
muestra un perfil (a una montaña) con una pendiente fuerte hasta llegar a la base.

Scree Plot
4
Elección del
número de
componentes: 3

Gráfico de 2

Sedimentación
1
Eigenvalue

0
1 2 3 4 5 6 7 8 9

Component Number

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales

Correlación entre
las componentes
principales y las
variables iniciales

Ayuda a etiquetar las componentes.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
Ejemplo
PC1 PC2 PC3 PC4
V1 -0.5359 0.4182 -0.3412 0.64923
- El número de componentes principales es V2 -0.5832 0.1880 -0.2681 -0.74341
igual al número de variables. V3 -0.2782 -0.8728 -0.3780 0.13388
V4 -0.5434 -0.1673 0.8178 0.08902

Importance of components:
- La primera componente (PC1) explica el PC1 PC2 PC3 PC4
62% de la varianza, la segunda Standard deviation 1.57 0.995 0.5971 0.4164
componente (PC2) el 24.7%, la tercera Proportion of Variance 0.62 0.247 0.0891 0.0434
componente (PC3) el 8.9% y la cuarta Cumulative Proportion 0.62 0.868 0.9566 1.0000
componente (PC4) el 4.4%.

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
2. Análisis de Componentes Principales
Ejemplo
PC1 PC2
mpg -0.93499240 0.06549292
- La matriz de correlaciones entre las
cyl 0.58086422 0.02266837
variables iniciales y las componentes
disp 0.28215262 -0.06311532
principales ayudan a etiquetar las nuevas
hp 0.18897656 0.13869640
variables (componentes).
drat -0.13344822 0.14621722
N° Variable Definición wt 0.13140514 -0.06049689
1
2
nombre
mpg
Marca y modelo del auto
Millas / galón
qsec -0.07271941 -0.15689454
3 cyl Número de cilindros gear -0.05067116 0.13323220
4 disp El desplazamiento (pulgadas cúbicas)
5 hp Caballos de fuerza bruta
carb 0.03643381 0.07214539
6 drat Relación del eje trasero
7 wt Peso (1000 lbs)
8 qsec Tiempo de 1/4 de milla
9 gear Número de engranaje de marcha hacia adelante
10 carb Número de carburadores

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
M.Sc. Richard Fernández

rfernandezv@uni.edu.pe @ricfer85

Programa de Especialización en Business Intelligence &


y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández
Programa de Especialización en Business Intelligence &
y Business
BusinessAnalytics
Analytics M.Sc. Richard Fernández

También podría gustarte