Presentación de Sesiones 13-14

ATD –
ANALÍTICA
PARA LA TOMA
DE DECISIONES
Sesiones 13-14
Gary López Rojas, MBA, PMP, SSBB

Agenda de la sesión
Sesiones 13-14
• Herramientas para Aprendizaje No Supervisado:

• Market Basket Analysis
• Clustering
• Análisis de Texto
• Análisis de Sentimiento
Caso
Sustentación de solución de caso: Decision Analysis.

Paradigmas de aprendizaje
Aprendizaje Supervisado
- Descubre relaciones entre variables de

entradas y salida, sobre lo que se “aprende” y
“predice” una siguiente variable de salida.
- Ejemplos: Series, patrones, identificación de
spam, identificación de problemas
conductuales, etc.
- Mayor aplicación práctica entre los modelos de
aprendizaje.
- Se denomina supervisado porque es “guiado” o
“soportado” por el analista.
- Aprendizaje “Maestro-Alumno”.
Ejemplos de aplicación
• Predecir el % de merma que tiene una línea de producción a partir de la calidad

de tela, humedad del ambiente y viscosidad de la lubricación de los rodillos.
• Predecir la probabilidad de recuperación que tendrá una persona a partir de su
edad, género, peso (condición), y enfermedades previas.
• Predecir los ingresos para la nueva línea de cosméticos a partir de las encuestas
y pilotos realizados.
• Predecir el desempeño del personal nuevo a partir del perfil piscológico y
evaluación del CV.
• Predecir los lugares de inundación a partir del nivel del caudal de un río, el nivel
de las lluvias , densidad poblacional y geografía de las cuencas.
• Predecir la cantidad de nutrientes de un nuevo producto agrícola de campo, a
partir de las variables de producción.
Paradigmas de aprendizaje
Aprendizaje No Supervisado
- Descubre características de los datos de

entrada no organizados, con lo que se crean
modelos de asociación y se “predicen” las
salidas.
- Ejemplos: Definición de perfiles,
comportamientos, tendencias.
- Se considera que el “aprendizaje no
supervisado” es el futuro de la inteligencia
artificial.
- Se denomina no supervisado porque no es
“guiado” o “soportado” por el analista.
- Aprendizaje “Autodidacta”.
Ejemplos de aplicación
• Comprender que cierto tipo de productos se venden más cuando están

acompañados de otro tipo de productos. Por ejemplo, en verano, cada vez que
se compran libros en supermercados cercanos a la playa, se compra vino blanco.
• Analizar el sustento que se da en las sentencias judiciales por casos de derecho
corporativo y sobre ello preparar una defensa.
• Determinar el perfil de los votantes de las próximas elecciones para desarrollar
campañas específicas.
• Comprender que un estudiante de pregrado que elige cursos electivos de gestión
social en la facultad de gestión, casi siempre se inscribe en actividades de
voluntariado.
• Analizar los informes de auditoría financiera y encontrar patrones en las notas de
los auditores externos, con lo que se establece una auditoría interna previa.
• A partir de una encuesta determinar los hábitos de alimentación que tiene una
población para crear programas de acompañamiento.
El Negocio del Retail
Gran Cantidad de Productos è5.000 SKU’s

Gran Cantidad de Clientes (muchas veces no identificables)
Gran Cantidad de Datos: POS
Industria de Supermercados en fuerte competencia
Variables claves del negocio
– Retener al cliente actual
– Manejo del espacio de venta
– Control de existencias en tiendas y centros de distribución
– Generación de Promociones atractivas para los clientes
• Descuentos
• Packs de Productos
Análisis de Asociación (Basket Analysis)
Objetivo: Identificación de eventos que ocurren juntos o en secuencia
Otros Ejemplos:
• Recomendaciones de compra basado en historial de compras y navegación
• Agrupar artículos que se suelen vender juntos.
Indicador: Análisis de Compra
Importancia Relativa (Support):Indica el porcentaje de transacciones que llevan el antecedente y el
consecuente, con respecto al total de transacciones analizadas.
(𝑿 ∪ 𝒀)
𝑺= X= Antecedente , Y = Consecuente, T= # Transacciones
𝑻
T1 T2 T3
{arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}
1er vez 2da vez

El denominador son las 3 transacciones que existen en total, y el numerador es la
cantidad de veces que ocurre los productos (arroz->Cerveza) en total 2 veces .
(𝑨𝒓𝒓𝒐𝒛 ∪ 𝑪𝒆𝒓𝒗𝒆𝒛𝒂)
𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝒂𝒓𝒓𝒐𝒛 → 𝑪𝒆𝒓𝒗𝒆𝒛𝒂) = = 2/3 = 66%
#𝑻𝒓𝒂𝒏𝒔𝒂𝒄𝒄𝒊𝒐𝒏𝒆𝒔
Este indicador señala que tan frecuente es la relación entre productos con respecto al universo. Pero
no indica si existe vínculo entre ambos productos.
Confiabilidad (confidence):Supone una relación que se desea medir. Indica el porcentaje de
transacciones que llevan el antecedente y el consecuente juntos, con respecto al total de transacciones
que llevan el antecedente.
.
𝑺(𝑿 ∪ 𝒀) X= Antecedente , Y = Consecuente, T= # Transacciones
𝑪=
𝑺(𝑿)
1 Vez Consecuente
T1 T2 T3
{arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

2 veces antecedente
𝑺(𝑪𝒆𝒓𝒗𝒆𝒛𝒂 ∪ 𝑷𝒖𝒓𝒆)
𝑪𝒐𝒏𝒇𝒊𝒂𝒏𝒛𝒂(𝑪𝒆𝒓𝒗𝒆𝒛𝒂 → 𝑷𝒖𝒓𝒆) = = 1/2 = 50%
𝑺(𝑪𝒆𝒓𝒗𝒆𝒛𝒂)
En este caso el denominador indica la cantidad de veces en las cuales se ha presentado el producto
antecedente (en el ejemplo es Cerveza), en nuestro caso en 2 transacciones.
En el numerador, se coloca, en cuantas de esas veces, también se compró el producto consecuente de

la relación (en este caso en cuantas TAMBIEN hubo Puré (además de Cerveza) en esas veces). Esto
saldría 1 sola vez.
Entonces la confiabilidad es 1/2 para Cerveza=> Pure, que se leería confianza de que se compre el
producto Puré, habiéndose comprado también el producto Cerveza.
• Ganancia (Lift): Es un valor o puntaje que representa que antecedente y consecuente aparecen
muchas veces juntos mas de lo esperado; esto significa que la ocurrencia del antecedente tiene
positivo efecto sobre la ocurrencia del consecuente o que el antecedente esta positivamente
correlacionado. 𝑺𝒖𝒑𝒑𝒑𝒐𝒓𝒕 (𝑿∪ 𝒀)
𝑳𝒊𝒇𝒕 =
𝑺𝒖𝒑𝒑𝒐𝒓𝒕 𝑿 .𝑺𝒖𝒑𝒑𝒐𝒓𝒕 (𝒀)
#1 #2 #3
{Arroz, Puré, Cerveza} {Arroz, Helado, Pan} {Arroz, Bebida, Cerveza}

𝑺 (𝑪𝒆𝒓𝒗𝒆𝒛𝒂 ∪ 𝑷𝒖𝒓é) -// 𝟏/𝟑
Lift = (Cerveza, =>Puré) =
𝑺 𝑪𝒆𝒓𝒗𝒆𝒛𝒂 . 𝑺(𝑷𝒖𝒓é) = 𝟐/𝟑 𝒙 𝟏/𝟑
= 𝟐/𝟗
= 1.5
En el numerador va el # de veces que (Cerveza, Pure) se repite y observamos 1 vez, y
dividido en el # de transacciones.
En el denominador va el # de veces que (Cerveza)aparece y observamos 2 veces y
dividido en el # de transacciones.
En el denominador va el # de veces que (Pure) aparece y observamos 1 vez, y divido en el
# de Transacciones.
Se realiza los cálculos y se obtiene el puntaje de Ganancia = 1.5
Lift = 1 implica que X no tiene impacto sobre Y, mientras que Lift > 1, implica que la
relación entre X y Y es significativa.
Tres indicadores Altos:
Support Alto: Significa que debería aplica a una gran cantidad de casos de canastas.
Confidence Alto: Significa que debería ser muchas veces la canasta correcta.
Lift Alto: Significa que esto no es solo una coincidencia, que se cumple la regla de asociación de
productos con la canasta correcta.
Segmentación (Clustering)
Objetivo: Organizar en grupos homogéneos

Poco valor
Valor Medio
Alto valor
Otros Ejemplos:
• Identificar áreas de similar topografía

• Buscar tipologías de clientes
Conglomerado o Clustering
Puntos Originales Clustering

Tipos de Análisis de Conglomerados
Conglomerados Jerárquicos
Cuando aparece un grupo de elementos organizados de manera jerárquica.
p1
p3 p4
p2
p1 p2 p3 p4
Dendrograma Particional
Conglomerado Particional
p1
p3 p4
p2
p1 p2 p3 p4
Conglomerado Jerárquico Dendograma Jerárquico
Text Mining
La minería de texto también se conoce como minería de datos de texto (TDM) y

descubrimiento de conocimiento en base de datos textual (KDT).
Un proceso de identificación de información novedosa de una colección de textos (también
conocida como corpus).
Fundamentada en Inteligencia Artificial (IA) y Recuperación de Información (RI)

Data Mining vs Text Mining
• Text Mining
• Data Mining
– Procesamiento lingüístico o
– procesar directamente
procesamiento de lenguaje natural
– Identificar relacion causal (PNL)
– Datos de transacciones – Descubrir información hasta ahora
numéricas estructuradas que desconocida
residen en un almacén de
– Las aplicaciones se ocupan de
datos racional.
colecciones de sistemas y formatos
mucho más diversas.
Text Mining – Clasificación Palabras

Presentación de Sesiones 13-14

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación de Sesiones 13-14

Cargado por

Copyright:

Formatos disponibles

ATD –

Gary López Rojas, MBA, PMP, SSBB

• Herramientas para Aprendizaje No Supervisado:

Sustentación de solución de caso: Decision Analysis.

- Descubre relaciones entre variables de

• Predecir el % de merma que tiene una línea de producción a partir de la calidad

- Descubre características de los datos de

• Comprender que cierto tipo de productos se venden más cuando están

Gran Cantidad de Productos è5.000 SKU’s

Objetivo: Identificación de eventos que ocurren juntos o en secuencia

{arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

1er vez 2da vez

{arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

En el numerador, se coloca, en cuantas de esas veces, también se compró el producto consecuente de

{Arroz, Puré, Cerveza} {Arroz, Helado, Pan} {Arroz, Bebida, Cerveza}

Objetivo: Organizar en grupos homogéneos

• Identificar áreas de similar topografía

Puntos Originales Clustering

Cuando aparece un grupo de elementos organizados de manera jerárquica.

La minería de texto también se conoce como minería de datos de texto (TDM) y

Fundamentada en Inteligencia Artificial (IA) y Recuperación de Información (RI)

También podría gustarte