ClaseAD1 PDF

Introducción a la Analítica de
Datos
Jose Aguilar
Profesor: Jose Aguilar
Contacto: aguilar@ula.ve
Información del curso: lista, dropbox y

http://www.ing.ula.ve/~aguilar/actividad-docente/...
OBJETIVO
Realizar una introducción a la temática de

Analítica de Datos, y sus aplicaciones en
diferentes ámbitos de la investigación, a través
del paradigma aprender haciendo.
3
Dinámicas del Curso
Producto
Orienta Científico-Tecnológico
encamina
Plasma
conocimiento
Paradigma
Define Coadyuva
Pedagógico Apropiarse
aspectos
Posibilita de los mismo
Adquirir
Temas del curso

Sinergias
Sinergia Desarrollo de Productos (SDP)

• Se trabajará en obras/proyectos,
• Los productos (obras) irán plasmando el conocimiento adquirido
• Los productos (obras) al final deberán contener todo el contenido
adquirido en el curso inmerso en ellos
• ¿Cómo se trabaja?:
• Metodología Ágil para la gestión y construcción del proyecto
• Se debe dar cuenta del recorrido del desarrollo del producto
semanalmente (entregan informe de avance)
• Obras/Proyectos (uno científico y otro tecnológico):
• Posibles áreas pueden ser mas orientadas a aplicaciones o problemática
científica
• Aportes científicos-tecnológicos durante la realización de la misma
Conocimiento de base
1. Conceptos de base de la Analítica de Datos
2. Metodología para hacer Análisis de datos
3. Elementos Introductorios en Ciencias de los
Datos
4. Ingeniería de Descriptores/Características
5. Tareas de Analítica de Datos
6. Técnicas de Análisis de Datos
6
Recorrido Sinergia Desarrollo de Productos
• Se seguirá metodología yPBL y MIDANO
• yPBL:
– Ramas de: diseño (funcional y técnico) y desarrollo
– Iterativo (ágil)
– Fases de análisis, diseño, implementación y pruebas
• MIDANO
– Especificación de procesos de AdD
– Modelos , diagramas análisis y diseño
• Cada sesión se avanzará en diseño y desarrollo según
SCC mostrando:
• Reutilización de componentes,
• Herramientas de desarrollo, etc.
• Prototipos ,informes de Avances, informes de iteraciones
Desarrollo del curso
Producto
Esencial al curso para apropiarse del
conocimiento
• Esencia del producto vs. objetivo del curso
• Contenido del curso esencial para realizar el producto
• Cinco plantillas:
Plantillas Uso
Definición del producto Primera Sesión
Informes Técnicos Final de cada iteración
Informe Final Final del curso (formato articulo)
Informes
Definición del Producto
Rama Funcional Rama Técnica
Software Aspectos Cookbooks:
• Plataformas de
Plataformas despliegue
Software
• Plataformas de
desarrollo
• Plataforma de
Modelos diseño
Rama Desarrollo
Codigo
Informes Técnicos de
Cierre sub-producto tests
Disposición
Informe Final
Plantillas
Definición del Producto
• Objetivo
• Descripción
• Contexto
• Potencial Interés de AdD
J. Aguilar
Plantillas
• Informes Técnicos
– Objetivo de la iteración
– Caracterización en el producto
– Diseño en el producto
– Prototipo y pruebas
Plantillas
CookBook (10% extra nota final)
• Resumen (Abstract)
• Palabras Claves (Keywords)
• Contribuyentes (Contributors)
• Versiones (Releases)
• Introducción (Introduction)
• Ingredientes: Definiciones y Terminología (The ingredients: Definitions
and terminology)
– Ingrediente 1 (Ingredient 1)
• Recetas (Recipes)
– Receta 1: Una primera receta (Recipe1: A first recipe (e.g. a
HelloWorld recipe))
• Paso 1: descripción paso 1 (Step1: short description of step 1)
• Documentación Recomendada (Recommended documentation)
• Referencia 1 (Reference 1)
• Retroalimentación (Feedback)
Plantillas
Informe Final
– Introducción
– Marco Teórico específico para el Producto
– Presentación del producto
– Diseño del producto
– Desarrollo del producto
– Prototipos y pruebas
– Conclusiones
Formato IEEE
Conceptos de base de la
Analítica de Datos
Universo de la
Inteligencia Artificial
Razonamiento: Visión Artificial:

Resolución de problemas mediante inferencia: Comprender y analizar imágenes y videos
deductiva, abductiva o inductiva
Planificación:
Generar secuencias de acciones para alcanzar
Aprendizaje Automático: un objetivo
técnicas que que permitan que las
computadoras aprendan a partir de los datos, Búsqueda:
es, por lo tanto, un proceso de inducción del
Resolución de problemas mediante el
conocimiento.
recorrido de un espacio de posibles
soluciones.
Procesamiento del lenguaje natural:
procesar información expresada en lenguaje Procesamiento del Habla:
humano, Procesar y analizar las señales acústica
que se generan al hablar.
Redes Neuronales Artificiales:

emulan el comportamiento del cerebro humano Sistemas Expertos:
(muchos modelos matemáticos existen). describen el conocimiento de expertos
humanos en un dominio, que luego es
16 usado para resolver problemas
16/64 complejos.
Áreasde la
Inteligencia Artificial
Inteligencia Artificial de base

Teoría de agentes
Sistemas multiagentes (Inteligencia Artificial Distribuidas)
Técnicas Inteligentes clásicas (computación inteligente)

Redes neuronales artificiales
Lógica difusa
Usa la Analítica
Computación Evolutiva
dedeDatos
Técnicas Inteligentes distribuidas
Algoritmos inspirados en colonias insectos: PSO, ACO, etc.
Algoritmos inspirados en fenómenos físicos: Flujo de Agua, de gas, TS, etc.
Algoritmos inspirados en sistemas biológicos: Sistema Inmune Artificial, etc.
Técnicas inteligentes avanzadas autónomas:

Sistemas emergentes y auto-organizados (Inteligencia colectica)
Computación autonómica
17
ACTITUD hacia la vida
…
Actitud Preactiva
Actitud Pasiva
Actitud Reactiva
Actitud Proactiva
18
CONOCIMIENTO
“En los últimos 10 años se han

producido más conocimientos que en los
10.000 años anteriores”.
Bill Gates, 2015
Estamos en la Civilización
del Conocimiento
19
Dato, información, conocimiento e BI
inteligencia en una organización
VENTAJA COMPETITIVA
TOMA DE DECISIONES
CONOCIMIENTO
Usando AdD
INFORMACION
DATOS
Embudo del Conocimiento
21
Analítica de Datos
Con las grandes cantidades de datos disponibles, es
necesario centrarse en la explotación de los datos
disponibles.
• Las computadoras son más poderosas,

• El trabajo en red es omnipresente,
• Se han desarrollado algoritmos que pueden conectar
conjuntos de datos
La convergencia de estos fenómenos ha dado lugar a la

aplicación generalizada de los principios de la
analítica de datos. 22
Un ciego describiendo un Elefante
Es un
puente
Es una
serpiente Es una
Lanza
Es una
cobija
Es una
Es un tronco de culebra
árbol
23
Un gerente describiendo su organización
Sin AdD
Es un Es un nicho
proceso De negocio
Es Data
Warehousing
Es una BD
organizacional
Es un
departamento
Es
conocimiento
Es Modelo de la
Matemático organización
24
Analítica de Datos
Los datos son el nuevo petróleo de la

economía
Es la ciencia que examina datos en bruto con el

propósito de buscar conocimiento, sacar
conclusiones, generar información, entre otras
cosas.
Los objetivos principales de AdD son:
• Ayudar a ver los problemas desde una perspectiva de los datos,

25
• Extraer conocimiento útil a partir de los datos.
Analítica de Datos
Es la ciencia de la recogida, almacenamiento,
extracción, limpieza, transformación, agregación y
análisis de datos, con el fin de descubrir
información y conocimiento.
El alto grado de datificación incrustado en la sociedad exige

nuevas herramientas y mecanismos para la manipulación y la
representación de los datos que facilitan la extracción de
conocimiento significativo para las organizaciones.
La Ubicuidad de los Datos
• La AD se utiliza en general para analizar comportamientos, predecir

cosas, etc..
• Por ejemplo:
– La industria financiera utiliza la AD para la detección del fraude, administración
de personal, para decidir créditos, etc.
– Walmart, Amazon usan la AD en sus negocios, marketing, en la gestión de la
cadena de gestión.
Análisis Organizacional
Análisis del Entorno
…
Los objetivos principales de AD son ayudar a ver los problemas
desde una perspectiva de los datos, y comprender los principios
de extracción de conocimiento útil a partir de los datos.
Analítica de Datos
Los datos pueden "hablar“
El análisis de datos contiene aspectos del razonamiento
científico:
Define
Interpreta
Evalua
Ilustra
Discute
Explica
Clarifica
Compara
Contrasta
http://www.youtube.com/watch?v=-xR5erOhkXo
Objetivo de un análisis:
• Explicar los fenómenos de causa y efecto

• Encontrar respuestas a un problema particular
• Concluir acerca de eventos del mundo real basado en el
problema
• Aprender de un problema
• Predecir/pronosticar en el mundo real fenómenos
• Interpretar/Analizar una situación
• …
Segmentación y jerarquía de las analíticas
• Análisis histórico: construye modelos que puedan clasificar / predecir el
futuro cercano, diagnosticar situaciones, etc.
• Análisis en tiempo real: analiza los datos a medida que se crean para
proporcionar inteligencia empresarial instantánea y accionable para afectar
el cambio inmediato
Cada segmento de análisis tiene propósitos específicos
• Análisis histórico: creación de planes, perfiles, planificación, etc.

• Análisis en tiempo real: optimización, configuración de sistemas, etc
Los datos son más ricos cuando se asocian al contexto: ubicación, hora
del día, etc.
Para cada tipo de datos, hay una ventana/período de tiempo significativo
en el cual los datos son relevantes. El "momento adecuado" o la "puntualidad"
es una consideración importante
Tipos de análisis de datos que se
pueden realizar
Optimización ¿Qué es lo mejor que puede

suceder ?
Modelamiento Predictivo ¿Qué sucederá?

Táctico y
TiposAdvantage
Pronósticos y Proyecciones ¿Qué sucede si la tendencia Estratégico

continua ?
Análisis Estadístico ¿Por qué está sucediendo ?

Competitive
Alertas ¿Qué acciones son necesarias ?
Búsquedas detalladas ¿Donde está el problema

exactamente? Operativos
Reportes Específicos ¿Cuantos y qué tan frecuente?
Reportes Estándar ¿Qué sucedió?
Inteligencia
Ejemplo de Análisis de los datos
Datos disponibles para un agricultor:
1. Los patrones climáticos históricos
2. Los datos de cultivo de plantas y la productividad de cada cepa
3. Las especificaciones de los Fertilizantes
4. Las especificaciones de los Plaguicidas
5. Los datos de productividad del suelo
6. Los datos del ciclo de plagas
7. Los costos, la fiabilidad, etc., de las máquinas
8. Los datos de conducción del agua
9. Los datos históricos de oferta y demanda

32
10. Los precios del Mercado
Ejemplo de Análisis de los datos
Los datos se pueden usar para responder a:
¿Cuál es el patrón de siembra agrícola para obtener el
mejor precio?
¿cuáles son los productos agrícolas con mejor
rendimiento?
Usar Analítica Datos para obtener conocimiento, desde sus datos.
• Con los datos del tiempo y plagas, podría establecer correlaciones entre
un cierto tipo de hongo cuando el nivel de humedad alcanza un cierto
punto.
• Usando las futuras proyecciones meteorológicas para los próximos meses
que predicen un bajo nivel de humedad, podría establecer un riesgo bajo
de ese hongo.
Para el agricultor, esto podría significar ser capaz de plantar un
determinado tipo de producto agrícola no resistente a ese hongo, con
un mayor rendimiento y precio en el mercado, sin tener que comprar 33
un determinado fungicida...
Ejemplo de Uso de la AdD
• El caso de Facebook-Cambridge Analytica: datos personales de 87

millones de usuarios de Facebook que Cambridge Analytica comenzó a
recopilar en 2014.
Esta información se utilizó para influir en votos a favor de los políticos

que retuvieron los servicios de CA.
• Usaron AdD para desvirtuar la realidad.
"Tiendes a creerte una desinformación porque está muy de acuerdo con

lo que tú quieres creer"
https://goo.gl/XUWoHo
Casos:
• Estados Unidos: Elección presidencial del 2016
• Reino Unido: Referéndum sobre el Brexit del 2016
• España: Elecciones de Andalucía 2018
Ejemplo de Uso de la AdD
¿Qué hizo Cambridge Analytica?
• Obtuvieron perfiles de millones de usuarios de Facebook, y usaron un

trabajo del profesor de la Universidad de Cambridge Aleksandr Kogan,
quien desarrolló en 2013 un test de personalidad sobre Facebook.
• Cruzaron los datos del test de Kogan con la información de Facebook para
inferir perfiles psicológicos de cada usuario.
• Desarrollaron contenidos, en temas y con tonos de mensajes, para

cambiar la forma de pensar de los votantes, de forma casi
individualizada.
• No solo enviaron publicidad personalizada, sino que desarrollaron noticias

falsas que luego replicó a través de redes sociales, blogs y medios.
https://goo.gl/9jwWMA /
http://spectrum.ieee.org/tech-talk/computing/it/is-data-scientist-the-sexiest-job-of-our-time
36
MIDANO
“Metodología para el desarrollo de aplicaciones de minería de
datos basada en el análisis organizacional”
Extendida para ser usado en el análisis de

datos
Jose Aguilar
37
MIDANO
¿Conocimiento del dominio de la
aplicación y objetivos del proceso
de descubrimiento de
conocimiento ?
¿Qué hacer cuando no se conoce la organización, el

problema, o los procesos a estudiar?

datos basada en el análisis organizacional” 38
MIDANO
¿Cómo seleccionar las variables
adecuadas para aplicar AdD ?
¿Cómo realizar el procesamiento de datos?

datos basada en el análisis organizacional” 39
MIDANO-AdD
MIDANO consta de tres fases.
• Desarrollo
del ciclo
autonómico
40
Fase 1: Conocimiento de la
Organización
Esta fase tiene como finalidad

realizar un proceso de ingeniería
de conocimiento, orientado a
organizaciones/empresas/proyec
tos científicos/tecnológicos, de
las cuales no se conoce o se
tiene poca información del (de
los) problema(s), o de los
procesos a estudiar.
Caracterizar
objetivos
estratégicos
Caracterizar Caracterizar Tareas
ciclos de Análisis de
autonómicos Datos
41
Etapa 1: Conocimiento de la
Organización/Proyecto
• Conocer la organización/empresa/proyecto,
1. Objetivo
sus objetivos, procesos, objetos y actores
2. Protocolo de la Fase:
• Descripción de los elementos de la institución/empresa/proyecto y

sus características: Objetivos, Procesos , Objetos y Actores.
• Descripción de las relaciones entre estos elementos.
• Organización de estos elementos.
42
Etapa 1: Conocimiento de la
Organización/Proyecto
Preguntas y ejemplos para determinar los elementos de la
institución/empresa/proyectos
Elemento Preguntas Ejemplos
¿Cuál es la razón de ser de Conocer, determinar,
Objetivos
la institución/Proyecto? establecer, la finalidad de la
institución/empresa/proyecto
¿Cuales son las Procesos de producción o
actividades que permiten administrativos
Procesos alcanzar los objetivos de (organización).
la institución/proyecto?
¿Qué cosas o entidades se Pueden ser físicos o

manipulan en los abstractos, departamentos,
Objetos
procesos? documentos, herramientas,
plantas, datos.
¿Quiénes ejecutan los Personas, sistemas, máquinas,
Actores
procesos? etc. 43
Etapa 2: Caracterización detallada de los
procesos de la organización/proyecto
• Conocer los procesos sobre los cuales se puede
1. Objetivo
enfocar el AdD.
• Familiarización con los procesos sobre los cuales se puede realizar la

ingeniería de conocimiento
• Identificación de la fuente de conocimiento
• Familiarización con los ambientes computacionales donde se encuentran

los datos a ser utilizados en cada proceso.
44
Etapa 2: Caracterización detallada de los
procesos de la organización
1. Familiarización con los procesos sobre los cuales se puede realizar la extracción de
conocimiento
 ¿Qué productos generan esos procesos?
 ¿Qué beneficios proporcionan esos procesos a la organización/proyecto?
 ¿Qué problemas tienen actualmente?
 ¿Importancia de esos procesos para la organización/proyecto, o impacto sobre otros procesos?
 ¿Qué impacto generaría la mejora de esos procesos o el estudio de los mismos?
2. Identificar la fuente del conocimiento

 ¿Cuáles son los actores o personas que intervienen en los procesos?
 ¿Quién o quiénes son las personas expertas en los procesos?
 ¿Existen documentos que permitan conocer esos procesos?
 ¿Existen sistemas computacionales que intervengan o interactúen en el proceso?
3. Familiarización con los ambientes computacionales donde se encuentran los datos a ser
utilizados en cada proceso explicado
 ¿Dónde se encuentra los datos almacenados del proceso en cuestión?
 ¿Cómo se almacenan los datos del proceso?
 ¿Qué variables son observadas del proceso?
45
 ¿Cuáles son las variables más importancia de esos datos para la organización/proyecto?
Etapa 3: Análisis de factibilidad y selección de
los procesos
• Analizar los procesos con la información
1. Objetivo proporcionada/recogida, con la finalidad de conocer la
factibilidad de la aplicación de la AdD sobre cada uno de ellos
• Revisión de los procesos propuestos por los expertos
• Disponibilidad del experto o grupo de expertos
• Análisis de las fuentes de información sobre los procesos
46
Etapa 3: Selección de los Procesos
Ejemplo de Tabla para
selección de procesos
Peso Criterios Proceso 1 Proceso 2
Importancia para la organización
Interacciones entre procesos
Procesos dependientes
Criterios vinculados
Importancia de la calidad del producto a la importancia del proceso
Seguridad Industrial para la organización/proyecto
Proposito de la tarea de AdD
Replicabilidad de la herramienta a
desarrollar
Cantidad de Expertos
Fuentes de información Criterios vinculados
Confidencialidad de la información a la factibilidad de hacer una
¿Qué información se recoge del proceso Tarea de Análitica de Datos
para ser almacenada?
Con que frecuencia se recoge la
información almacenada
¿Qué herramientas se cuentan, para
recolectar y manipular la información?
Total sin ponderación
Total ponderado
47
Etapa 4: Análisis para caracterizar los objetivos
estratégicos a alcanzar
• Caracterizar las posibles objetivos estratégicos a alcanzar, con las
1. Objetivo
tareas de AdD, en los procesos seleccionados
• Descripción de los escenarios actuales de los procesos seleccionadas en la
institución/empresa/proyecto.
• Especificación de los objetivos estratégicos a alcanzar en esos procesos, y
posibles escenarios futuros detrás de ellos.
• Especificación de los indicadores (modelos de conocimiento, medidas
estadísticas, etc.) para el análisis e interpretación de los objetivos estratégicos
• Especificación de los requerimientos para los posibles escenarios futuros
(donde se puedan aplicar tarea(s) de AdD)
• Elaboración de los casos de uso para los requerimientos funcionales
48
Etapa 4: Análisis para caracterizar los objetivos
estratégicos a alcanzar
Para los procesos seleccionados
Descripción del escenario actual

Resultados que se obtienen Actor(es) asociado(s) Variables Asociadas Actividades que se realizan
49
Etapa 4: Análisis para caracterizar los
objetivos estratégicos a alcanzar
Para los procesos seleccionados:
todos sus posibles escenarios futuros
Escenarios futuros deben Métricas estadísticas,
estar orientados a lograrlos modelos de conocimiento,
Descripción del escenario futuro …
Objetivos Actor(es) Variables Asociadas Actividades de AdD Funcionalidades Resultados que se

Estratégicos a asociado(s) que se realizarían nuevas desean obtener
alcanzar (indicadores de
logro)
Descripción del escenario futuro: < xxx >
El conjunto de escenarios futuros define una

planificación estratégica tecnológica organizacional/proyecto
50
Etapa 4: Análisis para caracterizar los
objetivos estratégicos a alcanzar
Priorización de los escenarios futuros
Criterios Escenario 1 Escenario 2 Escenario 3
Importancia del resultado que se espera del Vinculados a los
escenario para la empresa/institución/proyecto objetivos estratégicos
Utilidad del escenario para la y su importancia
empresa/institución/proyecto
Cantidad de expertos asociados al escenario
Seguridad Industrial (si aplica)
Fuentes de información requeridas por el
escenario
Confidencialidad de la información
¿Con que frecuencia se recogen los datos Vinculados a los
almacenados asociados a la información de datos
interés?
¿Con qué herramientas se cuenta para recolectar
y manipular los datos?
Replicabilidad de la herramienta a desarrollar en
otros escenarios
51
Etapa 5: Caracterización de los ciclos
autonómicos de AdD para cada Objetivo
Estratégico
• Especificación de los Ciclos Autonómicos (CA) para cada

1. Objetivo
escenario futuro (objetivo estratégico) priorizado
• Determinación de las tareas de AdD que deben caracterizar a c/ciclo por sus
roles
Tareas de monitoreo
Tareas de análisis
Tareas de toma de decisión
• Especificación de las relaciones entre ellas
• Especificación general de las fuentes de datos requeridas por cada tarea
52
Especificación del Ciclo Autonómico
Objetivo: Definir un objetivo válido de supremo interés para el proceso a
estudiar.
Procedimiento General
Paso 1 Tareas de Monitoreo: Se identifican, capturan, pre-procesan, las

variables del proceso bajo estudio, para poder tener una observación clara
del proceso bajo estudio
Paso 2: Tareas de análisis: Se interpretan las situaciones que va

aconteciendo en el proceso que se está estudiando, para comprenderlo,
diagnosticarlo, analizarlo, entre otras cosas.
Paso 3 : Toma de decisiones: Se definen acciones a tomar sobre el proceso,

con el fin de alcanzar el objetivo definido para el ciclo. 53
Etapa 5: Caracterización de los ciclos autonómicos
de AdD para cada Objetivo Estratégico
Por cada ciclo autonómico

Objetivo estratégico a alcanzar: < … >
Nombre Fuentes generales Indicadores Efectos esperados
de datos generados sobre el objetivo
requeridas estratégico
Tareas de AdD de
Observación
Tareas de AdD de Relaciones entre las tareas
Análisis
del CA de AdD
Tareas de AdD de
Toma de decisión Tarea Tarea Tarea
AdD1 AdD2 AdD13
Tarea
Métricas estadísticas, modelos de AdD1
conocimiento, … que produce Tarea
AdD2
Usado en el futuro como métrica de 54
Tarea
calidad del CA AdD3
Etapa 6: Especificación de las tareas de AdD
• Caracterizar general de las tareas de AdD a realizar en los CA

1. Objetivo
especificados en la fase anterior (objetivos, requerimientos, etc.).
• Selección y descripción de los actores y componentes necesarios para hacer
cada tarea de AdD.
• Especificación de los requerimientos de c/tarea de AdD: tecnológicos, de datos,
organizacionales, etc.
• Especificación de las fuentes de datos requeridas por cada tarea
55
Tabla para describir tareas de AdD

Nombre de la tarea <nombre de la tarea>
Descripción <La finalidad de esta tarea>
Fuente de datos <BD, historicos>
Tipo de tarea de analítica <Asociacion, Agrupamiento, Clasificacion, Predicción, reglas de
de datos asociación, etc.>
Técnicas de analítica de <Define las posibles tecnicas a usar, por ejemplo: regresión,
datos redes neuronales artificiales, algoritmo K-NN, etc.>
Tipo de Modelo de <modelo descriptivo, modelo prescriptivo, modelo de
Conocimiento optimizacion, modelo predictivo, etc.>
Tareas relacionadas de <Con que otras tareas de AdD se relaciona>
analítica de datos
Tipo de tarea del ciclo <Pueden ser para observar, analizar/interpretar, o actuar sobre
autonómico (rol) el proceso> 56
Tabla para especificación detallada de las tareas de AdD
Macro-Algoritmo Especificar Tipo de Tarea de Minería

<paso a paso del código> < Debe indicarse de manera concreta
la tarea a realizar>
… Por ejemplo, calcular una medida de

centralidad de minería de grafo,
realizar un agrupamiento de tales
datos según tales criterios de
similitud, etc.)
…
Esta tabla es particularmente importante para las tareas de57AdDs

Fase 2: Preparación de Datos
• En esta fase se plantea

realizar la preparación de los
datos desarrollando dos Definición
del
etapas. Modelo de
• Los productos más datos
resaltantes de esta fase son
las vistas minables
(conceptual y operativa) y el
modelo de datos
multidimensional.
58
Fase 2: Preparación de Datos
Para aplicar AdD sobre un problema en específico, es
necesario contar con un historial de datos asociado al
problema en estudio.
Para realizar tareas de AdD es necesario tener los datos integrados en una sola
vista, la cual comúnmente se conoce como Vista Minable. Existen dos tipos de vista
minable:
– Vista Minable Conceptual (VMC): describe en detalle cada una de las
variables a tomar en cuenta para c/tarea de AdD, en cada CA (proveniente
de la primera fase de MIDANO).
– Vista Minable Operativa (VMO): Es el resultado de cargar los datos del
historial y de realizar la etapa de tratamiento de datos, basado en la
información de la VMC. La VMO se traduce a lo que se conoce como Vista
Minable en la literatura, para realizar tareas de MD.
Con esas vistas se construye el modelo de

datos multidimensional de c/CA 59
Etapa 1: Definición del modelo de datos
a. Objetivos
 Ubicar y comprender los datos asociados a cada tarea de
AdD
 Construir una VMC que tenga las variables de interés para el
caso de estudio
 Construir una VMO inicial
 Definir la(s) variable(s) objetivo(s) asociadas a los objetivos
estratégicos o a responder con las tareas de AdD
 Definir el modelo de datos multidimensional de cada CA
b. Protocolo de la etapa
 Comprender la fuente de datos de entrada
 Generar la VMC y la VMO inicial
 Integración de los datos de entrada
 Generar las tablas del modelo de datos multidimensional de
cada CA 60
VMC
Variable Descripción Procedencia Observaciones
modelo de datos multidimensional (tipo estrella)

Nombre Nombre de la tabla de hecho
Claves a las tablas de dimensiones Todas las claves a las tablas de dimensiones
Variables Objetivos Variables que describen o se asocian al conocimiento extraído

(predicciones, etc.)
Otras variables Variables requeridas por la tarea de AdD, por ejemplo, derivadas
de operaciones de procesamiento de las dimensiones o de OLAP
Nombre Nombre de la tabla de dimensión

Claves de la Clave de la dimensión
dimensión
Atributos de la Atributos que describen el tema asociado a esa

dimensión dimensión 61
c. Productos principales
 Documento que describe las características de los

repositorios donde se encuentran los datos
 Documento que describe la VMC, la cual es presentada en
una tabla descriptiva.
 Vista minable operativa (modelo)
 Archivo donde esta almacenada la VMO
 Documento que describe las características de la(s)
variable(s) objetivo(s )
 Modelo de datos multidimensional de cada CA
 Modelo de datos multidimensional (Constelación) del Data
Warehouse
62
Etapa 2: Caracterización de los datos
del dominio de la aplicación
a. Objetivos
 Identificación de las variables en la VMC con las operaciones
de:
 (E)xtracción, (T)ransformación y Carga (L), para el caso
de datos organizacionales
 (C)olección, (C)uración y (A)nálisis para el caso de datos
externos
 Instanciación/Alimentación de las tablas (Cargar los datos)
 Integración de los datos de entrada en el DW
 Tablas ETL y CCA
63
Etapa 2: Caracterización de los datos
del dominio de la aplicación
Tabla ETL
Variable Extracción Transformación Carga
Nombre de la De que fuente Especificación del proceso A que
variable de datos de pre-procesamiento de los dimensión del
organizacional datos (estudios de modelo de
se extraerá dependencia, limpieza, datos irá
cambio de formatos, etc.)
Tabla CCA
Variable Colección Curación Análisis
Nombre de la Identificación Preparación de las Determinación de
variable de fuentes operaciones para su criterios sobre la
externas para obtención calidad del dato
su obtención (limpieza, calculo, (verificar si mide
etc.) fenómeno deseado) y
a que dimensión irá
64
Etapa 3: Tratamiento de datos (ciencias de los datos)
a. Objetivos
Esta etapa se centra en generar datos de calidad, es decir, sin
anomalías, sin inconsistencias de formato, sin capturas
erróneas, sin campos vacíos; aplicando métodos de limpieza,
transformación y reducción sobre la vista minable operativa.
 Limpieza
 Transformación
 Reducción
 Cálculos …
 VMO depurada
 DW implementada funcionalmente
 Documento descriptivo de los tratamientos realizados
usando tablas descriptivas con información pertinente.
65
Etapa 3: Tratamiento de datos (ciencias de los datos)
Ingeniería de Descriptores/Características
Analizar los datos en la VMO, con el fin de determinar las

relaciones de dependencias entre las variables (particularmente
de las variables objetivos con el resto de variables).
• Protocolo de la etapa
 Extracción de Descriptores
 Generación de Descriptores
 Fusión de Descriptores
 Selección de Descriptores
• Productos principales
 VMO depurada
 Variables Objetivos con sus descriptores.
66
Fase 3: Desarrollo de las tareas de AdD
Especificación
tecnológica del CA
de Tareas de AdD
Desarrollo del ciclo a

autonómico de AdD
67
Etapa 1: Especificación detallada de los
requerimientos de la herramienta computacional
a. Objetivos
captar los requerimientos no funcionales.
• Requisitos de interfaz de usuario,
• Interfaces de software,
• Requerimientos de desempeño,
• Adicionalmente se pueden mencionar: de portabilidad, costos,
rendimiento, accesibilidad, entre otros.
 Informe de requerimiento no funcionales
68
Etapa 2: Especificación tecnológica del ciclo
autonómico de Tareas de AdD
a. Objetivos
Caracterización la implementación tecnológica del ciclo
autonómico de tareas de AdD.
• Escoger las técnicas de AdD para las tareas en el CA.
• Selección del Software para realizar c/tarea de AdD
• Definir cuáles son los datos de entrenamiento y de prueba
contenidos en el DW a usar
• Definir las interfaces entre las tareas del CA
• Definir una estrategia para la validación de las técnicas
seleccionada (cruzada, etc.).
 Documento con la especificación tecnológica del ciclo
69
Etapa 2: Especificación tecnológica del
ciclo autonómico de Tareas de AdD
Tabla para especificación técnica de las tareas de AdD
Macro-Algoritmo Especificar Tipo de Tarea de Minería Herramienta

<paso a paso del código> < Debe indicarse de manera concreta <Instrumento tecnológico a
la tarea a realizar> usar a utilizar para dicho
calculo >
… Por ejemplo, calcular una medida de Por ejemplo, Netgraph o
centralidad de minería de grafo, Netlogo para minería de
realizar un agrupamiento de tales grafo, o k-means para
datos según tales criterios de agrupamiento (indicando
similitud, etc.) valor de k)
…
Esta tabla es particularmente importante para las tareas de70AdDS

Etapa 3: Desarrollo del ciclo autonómico
de AdD
Desarrollo de las tareas de AdD
• Es el núcleo de cualquier actividad de analítica de

datos.
• Esto implica escribir programas de computadora o

scripts que analizan los datos para obtener
información útil de ellos. Puede utilizar lenguajes de
programación como Python, Perl, MatLab, R o
Hadoop.
Etapa 3: Desarrollo del ciclo autonómico de AdD
a. Objetivos
Realizar la herramienta de toma de decisiones usando el ciclo
autonómico de tareas de AdD.
1. Construcción del modelo de conocimiento generado por cada tarea de
AdD
2. Repetir el procedimiento de ser necesario, hasta que el modelo cumpla
los errores de entrenamiento establecidos
3. Integrar las tareas de AdD en el CA
72
 Prototipo del CA
En esta etapa, se puede usar cualquier
metodología de desarrollo de tareas de MD,
para desarrollar las tareas de AdD.
Etapa 3: Desarrollo del ciclo autonómico de AdD
Desarrollo de las tareas de AdD
SEMMA
• Orientado a la parte técnica
• Carece de un análisis del problema.
Se puede usar cualquier metodología de

desarrollo de MD para esta fase
CATALYST
de desarrollo
CRISP-DM de tareas de AdD
• Estructura en “boxes”
• Primer Modelo: Analiza el
• Proceso continuo y progresivo problema.
del proceso de creación
• Segundo Modelo: Solución en
• Más utilizado por empresas
el aspecto técnico.
que trabajan con DM
73
Etapa 4: Validación/Interpretación
a. Objetivos
Validar la herramienta de toma de decisiones.
• Validar el modelo de conocimiento generado por cada tarea de AdD
usando los datos de prueba, y siguiendo la estrategia de validación
establecida (aplicarla y observar el rendimiento).
• Realizar las correcciones necesarias
• Repetir el procedimiento de ser necesario, hasta que el modelo cumpla
los errores de prueba establecidos 74
• Validar el comportamiento del CA, usando los criterios definidos en la
etapa 1.5
• Validar el comportamiento del CA, en el sistema de toma de decisión
organizacional
Tipos de validación
• Validación interna
– Es en la que se aprende, clasifica y valida con los
datos de un mismo conjunto
• Validación externa
– Se aprende un modelo con un conjunto de datos,
y se valida con unos datos que no han sido
empleados en el aprendizaje
Hold-out
• Separar los datos disponibles en dos subconjuntos de datos:
training set (para aprender un modelo) y test set (el resto de
los datos)
• Se calcula la accuracy sobre el test set para estimar el error del
modelo obtenido con el training set
K-fold-Cross-Validation
• Se particiona aleatoriamente en k subconjuntos el conjunto de datos
disponible.
• Para cada uno de los subconjuntos obtenidos, se utilizará de test set
para evaluar el modelo obtenido con el resto de subconjuntos
• Se realiza la media de las evaluaciones realizadas para obtener el
resultado final
Leave one out
• Se deja una instancia de los datos como test set y se
aprende con el resto del conjunto
• Este proceso se repite para cada instancia
• Se obtiene el resultado final realizando la media de todas
las ejecuciones
0.632 Bootstrap
• Consiste en:
– Se aprende y se valida con el mismo conjunto de datos
– N iteraciones:
• Se seleccionan aleatoriamente con reemplazo instancias del conjunto de
datos inicial
• Se realiza el proceso de aprender y validar
• Se calcula el resultado de las N iteraciones como:

– Resultado final: E= 0.632xEN Muestras + 0.368xEglobal
Ejemplo de uso de Midano
Jose Aguilar
Jose Aguilar
Fase 1: Conocimiento de la Organización
Caso de Estudio: Empresa Petrolera
Etapa 1: Conocimiento de la organización:
Se trata de una empresa que se encarga de la exploración, extracción, producción,
mejoramiento y comercialización de crudo extrapesado.
Etapa 2: Caracterización de los procesos de la organización
La cadena de valor de la empresa se muestra en la siguiente figura, donde el proceso
principal objeto de estudio se concentra en la tercera etapa de la cadena de valor.
Para el grupo de expertos, una de las etapas más importantes para obtener el
producto deseado es la refinación, llevada a cabo en lo que se conoce como
“complejo mejorador”.
Criterios CDU DCU
Etapa 3: Selección del Importancia para la organización 5 5
Proceso Propósito de la MD 5 5
Se estudió cada uno de los Interacciones entre procesos 2 4
Procesos dependientes 5 3
subproceso (objetivos,
Importancia de la calidad del producto 4 4
actividades, productos, etc.), y Seguridad Industrial 4 5
se obtuvo la interacción entre Replicabilidad de la herramienta desarrollada 5 4
ellos. Cantidad de Expertos 5 5
Fuentes de información 5 5
Confidencialidad de la información 3 3
En la tabla se ilustra este ¿Qué información se recoge del proceso para
5 5
proceso de priorización y ser almacenada?
Con que frecuencia se recoge la información
selección, considerando sólo los almacenada
4 4
dos procesos que resultaron ¿Qué herramientas se cuentan, para
4 4
recolectar y manipular la información?
mejor ponderados en este caso Total sin ponderación 56 56
de estudio. Total ponderado 83 76
Descripción del escenario futuro

El escenario futuro seleccionado es para predecir la calidad del producto y
optimizar la cantidad de nafta a la salida de la columna destilador atmosférico.
Etapa 4: Análisis para caracterizar las posibles tareas de Minería de Datos (MD)
Descripción del escenario actual

Resultados que se obtienen Actor(es) asociado(s) Variables Asociadas Actividades que se realizan
Gasoil directo (SRGO), nafta  Expertos asociados al  Tren de precalentamiento:  Carga del crudo.
pesada y residuo proceso temperatura de la carga.  Precalentamiento del
atmosférica.  Ingenieros de Procesos  Desaladores: tiempo para el crudo diluido.
 Operadores asentamiento y separación del agua  Desalado.
 Unidad de destilación del petróleo, presión.  Precalentamiento del
atmosférica  Hornos de crudo: temperatura crudo desalado.
 Columna de crudo: presión,  Generación de cortes de
temperatura, rata de vapor de crudo en la columna.
despojamiento.

Resultados que se Actor(es) asociado(s) Variables Asociadas Actividades de MD Funcionalidades
desean obtener que se realizarían nuevas
Predicción de la  Expertos asociados Presión, temperatura de Predicción  Predicción de las características
calidad del al proceso tope y rata de vapor de del producto, según las
producto, para  Operadores despojamiento de la condiciones de funcionamiento
optimizar el proceso  Columna de crudo columna de crudo. de la torre de crudo.
 Ayudar a optimizar el proceso
de producción, generando
información para orientar a los
actores en la toma de
decisiones con la predicción (es)
resultante(s).
El escenario futuro seleccionado es para predecir la calidad del producto y

optimizar la cantidad de nafta a la salida de la columna destilador atmosférico.
Fase 2: Preparación de datos
Etapa 1. Dominio de la aplicación

• Comprensión de los datos de
entrada
A través de los diagramas de
instrumentos de la planta, se
determinaron cuáles son los datos
asociados a las variables, se
tomaron las variables más
importantes asociadas al escenario
futuro

• Construcción de la VMC Tabla 1. Muestra de la VMC del escenario
seleccionado
A partir del escenario futuro Variable Descripción Dependencia Observaciones
escogido, y con apoyo del grupo de

Flujo de nafta Identificar
expertos, se construyó una VMC 11FC900 de lavado para relación con Controlada
la preflash FY119
con las características de la Tabla 1.
Debido a que la misma cuenta con Presión de
11PI100 No es relevante
más de cien variables, sólo se 5
entrada de _
para el estudio
nafta wash
presenta una pequeña muestra.
Presión tope
11PI001
de la columna _ _
A
preflash

• Construcción de la VMO
Se carga el historial en un archivo con las variables obtenidas en la VMC.
Los datos proporcionados por la empresa fueron entregados en formato
Excel, donde todos los datos están integrados en un documento menos
una variable de laboratorio, ya que la misma, es tomada con una
frecuencia diferente a las demás variables.

• Integración de los datos de entrada
(a) Formato de la tabla de datos con las

variables asociadas a los sensores de la
planta (b) Formato de la tabla de
datos de gravedad API
(medición de laboratorio)

 Construcción de la VMO
Vista minable operativa(VMO)

• Definir las variables objetivo Tabla 2. Variables objetivos
Observar el(los) objetivo(s) de cada una de
las variables en el escenario futuro Variables
Observaciones
objetivo
seleccionado. Con el escenario futuro
seleccionado se obtiene lo siguiente: Predecir el api de la
API NAFTA
• Escenario futuro: Producir la mayor nafta
cantidad de Nafta a 46 API Maximizar el flujo de
11FC158 nafta producto a 46
• Funcionalidades nuevas: Predicción del api
API del producto, según las condiciones
de funcionamiento de la torre de
destilación.
Etapa 2. Tratamiento de Datos
• Limpieza Tabla 3. Variables con mas errores en la VMO

Se ubicaron las variables con
Ener-
más errores en la VMO. Los PERIODO
Ene-Mar Abril-Jul Jul-Sept Oct-Dic Abril-Jul
Marzo
Oct-Dic
2008 2008 2009 2010 2011 2013
resultados obtenidos son 2012
reflejados en la Tabla 3. NOMBRE DE LA
% Error % Error % Error % Error % Error % Error % Error
VARIABLE
11_FC158_MEA 0,00635 92,4336
100 100 100 100 100
S 93 1416
11_FC044_MEA 15,4276 60,7603 22,4308 0,00485
100 100 100
S 6296 7112 8159 2014
11_FC300_MEA 0,00635 18,7693 4,47872
100 100 100 100
S 93 2921 4197
11_FC119_MEA 0,00635 39,4315 4,47872
100 100 100 100
S 93 8793 4197
11_FC133_MEA 99,9936 99,7493 0,00546 14,6290 33,9155 0,00771
100
S 407 868 38 1772 7496 5454
Tabla 4. Acciones tomadas con las variables con más
• Limpieza anomalías en la VMO
La Tabla fue evaluada con los NOMBRE JUSTIFICACIÓN ACCIÓN
expertos del proceso con la finalidad Se puede eliminar porque es el
de definir acciones que se podrían 11_FC158_MEAS mismo registro que el Eliminar de la VMO
tomar. Las acciones tomadas son 11_FI158T_PNT
resumidas en la tabla 4, donde se Se puede eliminar del estudio (es
describe la justificación de cada 11_FC044_MEAS una línea de arranque o usada en Eliminar de la VMO
acción realizada. operaciones muy puntuales).
Preferiblemente incluirla, si esta

11_FC300_MEAS Estudiar
11_FT300_PNT, se puede eliminar
Preferiblemente incluirla, si esta

11_FC119_MEAS Estudiar
FC119, se puede eliminar
11_FC133_MEAS Se puede eliminar Eliminar de la VMO

• Limpieza
Para las variables que tienen dependencias con otras variables, se
construyeron modelos lineales para sustituir los datos dañados
por el resultado de estas relaciones.
Dichas dependencias pueden ser apoyadas y justificadas usando
un gráfico de dispersión. En este caso, se seleccionó un diagrama
de dispersión con las siguientes características:
– El histograma y nombre de cada variable (ver la
diagonal de la Figura).
– La distribución de los puntos entre las dos variables y la
curva regresada (parte inferior izquierda de la Figura).
– El coeficiente de correlación entre parejas de variables
(parte superior derecha de la Figura).
• Transformación
En este estudio no aplica el proceso de transformación, debido a que toda la data se encuentra
en un formato consistente de unidades y magnitudes en las variables.
• Reducción
Se realizaron análisis estadísticos entre variables que el experto identificó con dependencias
en la VMC y además se construyó una matriz con la correlación entre todas las variables, con
la finalidad de identificar las variables altamente correlacionadas.
Se realizó la reducción de la VMO sobre las variables con alta correlación. La VMO inicial
contaba con 97 variables, después de realizar la limpieza y reducción de datos la VMO final
cuenta con 33 variables.
• Reducción
Tabla 5. Reducción de Variables
Nombre Resultado Acción Justificación
Correlación alta
Variable altamente
con
11_PI1001B_PNT ELIMINAR correlacionada, donde ambas
11_PI1001A_PN
aportan la misma información
T
Correlación alta Variable altamente
11_PI157A_PNT/
con ELIMINAR correlacionada, donde las tres
11_PI157B_PNT
11_PI149_PNT aportan la misma información
Correlación alta Variable altamente
11_PI156_PNT con ELIMINAR correlacionada, donde ambas
11_PI155_PNT aportan la misma información
.
.
.
Se realizó la reducción de la VMO sobre las variables con alta correlación. La VMO inicial
contaba con 97 variables, después de realizar la limpieza y reducción de datos la VMO final
cuenta con 33 variables.
Fase 3: Desarrollo de herramientas de MD
Etapa 1: Especificación detallada de los
requerimientos de la herramienta computacional
Entre los requisitos no funcionales:
 Requisitos de interfaz de usuario.
 Interfaces de software.
 Requerimientos de desempeño.
 Otros: de portabilidad, costos, accesibilidad, etc.
Caso de uso para la predicción del caso de estudio
Diagrama de actividades de la herramienta computacional

para la predicción del API
Etapa 2: Desarrollar el modelo de MD
Predicción del API de nafta:
1. Selección del Software para realizar las tareas de MD: Weka.
2. Escoger la tarea de MD para el escenario futuro: predicción.
3. Definir cuáles son los datos de entrenamiento y de prueba dispuestos en la vista minable: Los datos de entrenamiento son el
70% de los registros de la VMO y el resto será utilizado para realizar una validación cruzada2 con Weka
4. Selección del algoritmo de MD: Los algoritmos considerados a evaluar son en general algoritmos basados en regresión lineal y
redes neuronales.
Tabla 6. Algoritmos evaluados para la predicción del API de nafta
7. Modelo de MD: modelo que expresa las relaciones, a
Algoritmo Mean Root mean
través de fórmulas y reglas, entre las variables del proceso.
absolute squared error
error La ecuación obtenida para la predicción del API obtenida
LinearRegression 0.3546 0.503
con LinearRegression viene dada por
RBFNetwork 0.4964 0.6953
SimpleLinearRegress 0.4422 0.6198
ion
API = 0.0032 * 11_FI158T_PNT + 0.0006 * 11_FIC011_PNT - 0.004*
PaceRegression 0.3562 0.5028
IsotonicRegression 0.4293 0.5923 11_FC010_MEAS -0.1673 * 11SC01_BSW_NUM +2.8329 *
11_PI149_PNT -0.1857 * 11_FC114_MEAS +0.0481 * 11_TI206_PNT -
Validar 0.0027 * 11_LC016_MEAS -0.0087 * 11_FC148_MEAS + 0.0042 * ….

Etapa 3: Implementación usando el modelo de MD
o Formato de la entrada
o Salida

ClaseAD1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ClaseAD1 PDF

Cargado por

Copyright:

Formatos disponibles

Introducción a la Analítica de

Información del curso: lista, dropbox y

Realizar una introducción a la temática de

Temas del curso

Sinergia Desarrollo de Productos (SDP)

Definición del Producto

Razonamiento: Visión Artificial:

Redes Neuronales Artificiales:

Inteligencia Artificial de base

Técnicas Inteligentes clásicas (computación inteligente)

Técnicas inteligentes avanzadas autónomas:

“En los últimos 10 años se han

• Las computadoras son más poderosas,

La convergencia de estos fenómenos ha dado lugar a la

Los datos son el nuevo petróleo de la

Es la ciencia que examina datos en bruto con el

Los objetivos principales de AdD son:

• Ayudar a ver los problemas desde una perspectiva de los datos,

El alto grado de datificación incrustado en la sociedad exige

• La AD se utiliza en general para analizar comportamientos, predecir

• Explicar los fenómenos de causa y efecto

Cada segmento de análisis tiene propósitos específicos

• Análisis histórico: creación de planes, perfiles, planificación, etc.

Optimización ¿Qué es lo mejor que puede

Modelamiento Predictivo ¿Qué sucederá?

Pronósticos y Proyecciones ¿Qué sucede si la tendencia Estratégico

Análisis Estadístico ¿Por qué está sucediendo ?

Alertas ¿Qué acciones son necesarias ?

Búsquedas detalladas ¿Donde está el problema

Reportes Específicos ¿Cuantos y qué tan frecuente?

Reportes Estándar ¿Qué sucedió?

1. Los patrones climáticos históricos

2. Los datos de cultivo de plantas y la productividad de cada cepa

3. Las especificaciones de los Fertilizantes

4. Las especificaciones de los Plaguicidas

5. Los datos de productividad del suelo

6. Los datos del ciclo de plagas

7. Los costos, la fiabilidad, etc., de las máquinas

8. Los datos de conducción del agua

9. Los datos históricos de oferta y demanda

Usar Analítica Datos para obtener conocimiento, desde sus datos.

• El caso de Facebook-Cambridge Analytica: datos personales de 87

Esta información se utilizó para influir en votos a favor de los políticos

• Usaron AdD para desvirtuar la realidad.

"Tiendes a creerte una desinformación porque está muy de acuerdo con

¿Qué hizo Cambridge Analytica?

• Obtuvieron perfiles de millones de usuarios de Facebook, y usaron un

• Desarrollaron contenidos, en temas y con tonos de mensajes, para

• No solo enviaron publicidad personalizada, sino que desarrollaron noticias

Extendida para ser usado en el análisis de

¿Qué hacer cuando no se conoce la organización, el

“Metodología para el desarrollo de aplicaciones de minería de

¿Cómo realizar el procesamiento de datos?

“Metodología para el desarrollo de aplicaciones de minería de

Esta fase tiene como finalidad

• Descripción de los elementos de la institución/empresa/proyecto y

• Descripción de las relaciones entre estos elementos.

• Organización de estos elementos.

¿Qué cosas o entidades se Pueden ser físicos o

• Familiarización con los procesos sobre los cuales se puede realizar la

• Identificación de la fuente de conocimiento

• Familiarización con los ambientes computacionales donde se encuentran

2. Identificar la fuente del conocimiento