Está en la página 1de 78

Introducción al

pensamiento analítico de datos


Las tecnologías en el contexto actual: crecimiento de la
información digital
La omnipresencia de los datos
¿Cómo pueden usarse los datos de eventos pasados?
Datos, información y conocimiento
Tecnologías que apoyan a los datos
Problemas con el procesamiento de datos masivos
Toma de decisiones basada en datos
Las tecnologías en el contexto actual: crecimiento
de la información digital

El éxito de Internet
¤ ¿Qué tiempo han demorado los inventos en ser
utilizados por 50 millones de personas?

Imagen tomada de la Revista Veja, 29/07/98


Las tecnologías en el contexto actual: crecimiento
de la información digital

Crecimiento del número de páginas Web

Imagen tomada de la
URL http://www.isc.org/
Las tecnologías en el contexto actual: crecimiento
de la información digital

La cantidad de información digital creada y


compartida en el mundo ha crecido
exponencialmente

Imagen tomada de la URL http://


dailyreckoning.com/the-six-most-
fascinating-technology-statistics-today/
La omnipresencia de los datos
Debido a las grandes cantidades de datos
disponibles, las empresas se están centrando en la
explotación de datos para obtener ventaja
competitiva
¤ En el pasado, se empleaban equipos de estadísticos,
modeladores y analistas para explorar conjuntos de
datos de forma manual
¤ Pero el volumen y la variedad de datos han superado
con creces la capacidad de análisis manual
¤ Al mismo tiempo, las computadoras se han convertido en
un instrumento poderoso para el análisis de datos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
La convergencia de estos fenómenos ha dado lugar a la
aplicación de los principios de la ciencia de datos y de la
minería de datos
¤ Probablemente las aplicaciones más se han realizado en los
campos de marketing dirigido, publicidad en línea, y las
recomendaciones para venta cruzada
¤ La minería de datos se utiliza en general para la gestión de
relaciones con los clientes para analizar el comportamiento
del cliente con el fin de gestionar el desgaste y maximizar el
valor esperado
¤ La industria financiera se utiliza la minería de datos para la
evaluación de crédito y la detección del fraude

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
Es curso busca ayudar a visualizar los problemas
de negocio desde la perspectiva de los datos y
entender los principios de extracción de
conocimiento útil a partir de éstos
¤ Existe una estructura fundamental para el pensamiento
analítico de datos y los principios básicos que deben ser
entendidos
¤ También existen áreas particulares donde la intuición,
la creatividad, el sentido común y el dominio del
conocimiento debe ponerse en juego

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
La ciencia de datos puede definirse un conjunto de
principios fundamentales que guían la extracción de
conocimiento a partir de datos
La minería de datos es la extracción de
conocimiento a partir de datos, a través de
tecnologías que incorporan los principios de la
ciencia de datos
Entender la ciencia de datos le permitirá evaluar
propuestas de minería de datos, incluso si es que ud
no es experto en la aplicación de los algoritmos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Cómo pueden usarse los datos de eventos
pasados?

Ejercicio: Caso de Estudio “Huracán Frances”

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“Huracán Frances”

Imagen tomada de la URL https://es.wikipedia.org/wiki/Hurac%C3%A1n_Frances

Imagen tomada de la URL http://www.2004hurricanes.com/misc-frances-photos.html


Ejercicio: Caso de Estudio
“Huracán Frances”

Imagen tomada de la URL http://www.nytimes.com/2004/11/14/business/yourmoney/what-


walmart-knows-about-customers-habits.html
Ejercicio: Caso de Estudio
“Huracán Frances”
El huracán Frances estaba en camino y se disparaba a través del Caribe,
amenazando con un impacto directo en la costa atlántica de la Florida.
Los residentes colocaron barreras, pero muy lejos, en Bentonville, Ark.,
los ejecutivos de Wal-Mart pensaban que la situación ofrecía una gran
oportunidad para una de sus armas basadas en los datos más
recientes ... tecnología predictiva.
Una semana antes que la tormenta toque tierra, Linda M. Dillman,
directora de información de Wal-Mart, presionó a su personal para
llegar a predicciones basadas en lo que había pasado cuando el
huracán Charley golpeó varias semanas antes.
Con el respaldo de los trillones de bytes de la base de datos de Wal-
Mart, ella sentía que la compañía podría empezar a predecir lo que va
a pasar, en lugar de esperar a que ocurra, según sus propias palabras.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.
1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“Huracán Frances”

Discusión:
¤ ¿Qué tipo de información esperaría encontrar del
huracán pasado Charley?
¤ ¿Por qué la predicción basada en los datos podría ser
útil en este escenario?

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio "Huracán Frances”

Podría ser útil predecir que la gente en el camino


del huracán iba a comprar más agua embotellada
¤ Tal vez, pero este punto parece un poco obvio, y por
qué necesitamos la ciencia de datos para descubrirlo?
¤ Podría ser útil para proyectar la cantidad de aumento
en las ventas debido al huracán, para asegurarse los
locales están adecuadamente abastecido
¤ Tal vez la minería de los datos podría revelar que un
DVD particular, esté agotado, pero tal vez se agotó en
tiendas de todo el país, no sólo en los locales cercanos
al huracán

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio "Huracán Frances”

Sería más valioso descubrir patrones debido al


huracán que no fueran obvios
¤ Para ello, los analistas podrían examinar el enorme
volumen de datos de las situaciones anteriores, (como el
huracán Charley) para identificar la demanda local de
productos inusuales
¤ A partir de estos patrones, la compañía podría ser
capaz de anticipar la demanda inusual y ejecutar las
medidas correspondientes antes que el huracán toque
tierra.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
"Huracán Frances”

De hecho, se informó que:


¤ Los expertos que minaron los datos encontraron que las
tiendas necesitaban ciertos productos y no sólo las
linternas habituales
¤ No sabían que en el pasado hubo un aumento en las
ventas de siete veces del volumen de ventas normal de
strawberry Pop-Tarts
¤ Por otro, lado el elemento pre-huracán de mayor venta
fue la cerveza

PROVOST, Foster y FAWCETT, Tom (2013) Data


Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking.
1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio "Huracán Frances”

Conclusión: ¿Cómo pueden usarse los datos de


eventos pasados?
1. Debe conocerse el tipo de problema a realizar. En
este caso fue un problema de predicción
2. Debe saberse de antemano qué se quiere predecir. En
esta caso demanda de productos inusuales
3. Se deben tener datos para poder extraer el
conocimiento. En este caso eran datos de las ventas
pre y post huracán Charley

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Cómo pueden usarse los datos de eventos
pasados?

Ejercicio: Caso de Estudio “La predicción de pérdida


de clientes”

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”
Suponga que usted acaba de ser contratado como analista de datos por
MegaTelCo, una de las mayores empresas de telecomunicaciones en USA
Están teniendo un gran problema con la retención de clientes en su negocio de
telefonía móvil
¤ En la región del Atlántico medio, el 20% de los clientes de teléfonos celulares
se van cuando expiran sus contratos, y se está haciendo cada vez más difícil
adquirir nuevos clientes
¤ Dado que el mercado de la telefonía celular está saturado, el crecimiento del
mercado ha disminuido
¤ Las compañías ahora se encuentran en una batalla: intentar atraer nuevos
clientes de las otras compañías pero conservando a los suyos
¤ Al proceso de traslado de cliente de una compañía a otra se le conoce como
rotación. Esta es muy costosa: una empresa debe gastar en incentivos para
atraer nuevos cliente mientras que la otra pierde los ingresos cuando el cliente
sale.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”

Se le ha llamado para ayudar a entender el problema y


elaborar una solución.
¤ La captación de nuevos clientes es mucho más cara que la
retención de los ya existentes, por lo que una buena parte
del presupuesto se asigna para evitar pérdida de clientes
¤ El área de comercialización ya ha diseñado una oferta
especial de retención
¤ Su tarea consiste en idear un plan preciso de cómo el equipo
científico de datos debe utilizar los enormes recursos de
datos de MegaTelCo decidir a qué clientes se les debe
ofrecer el trato especial de retención antes de la expiración
de sus contratos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”

Discusión:
¤ ¿Cómo debe MegaTelCo elegir un conjunto de clientes
para recibir la oferta con el fin de reducir la rotación?
¤ ¿Qué tipo de problema es? ¿Cómo se podría
caracterizar?
¤ En el caso anterior, en el ejemplo de Wal-Mart: ¿Qué
tipo de problema es? ¿Cómo se podría caracterizar?
¤ ¿Qué tipos de problemas podemos solucionar usando
los datos?

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Datos, información y conocimiento
¿Qué es dato, información o conocimiento?
Datos, información y conocimiento

¿En qué se diferencian los


conceptos de dato, información
y conocimiento?
La producción de
manzanas fue 2 de
toneladas este año
La producción de
manzana creció 10%
en la región XYZ en el
último año

Productores y distribuidores de manzana deciden invertir


en marketing de exportación para colocar el crecimiento de
la oferta del producto en el último año
conexionistas
Definiciones de conocimiento
cognitivistas

Taxonomía del
conocimiento
Tecnologías que apoyan a los datos
Extracción de conocimiento
Recuperación de Información
Reconocimiento de patrones
Explotación del conocimiento
TIC
DSS
apoyando al 94-today Internet, GIS
conocimiento Intranet, EIS
Extranet

90’s Web
TIC ofreciendo Data Marts
Sistemas de
apoyo estratégico Información
Data Warehouse
80’s

TIC en apoyo a la área táctica

TIC en transacciones operacionales 60’s - 70’s

Base de datos OLTP


Problemas con el procesamiento de datos masivos

Con la llegada de la Web, especialmente los sitios Web


2.0, donde millones de usuarios pueden leer y escribir
datos, la escalabilidad de las “operaciones de bases de
datos simples” se ha convertido en una de las operaciones
más importantes
¤ Por ejemplo, las aplicaciones pueden buscar y actualizar
bases de datos de varios servidores de correo electrónico,
perfiles personales, publicaciones Web, wikis, registros de
clientes, registros de citas en línea, anuncios clasificados y
muchos otros tipos de datos
¤ Todo esto generalmente se ajustan a la definición de
“operación simple”: leer o escribir un pequeño número de
registros relacionados en cada operación

CATTELL, R. Scalable SQL and NoSQL data stores. SIGMOD Rec., v. 39, n. 4, p. 12-27, 2011.
ISSN 0163-5808
Escalabilidad

Scoeld, Ben: NoSQL - Death to Relational Databases, Presentation at the CodeMash conference in Sandusky, 2010, (Ohio)
Scoeld, Ben: NoSQL - Death to Relational Databases, Presentation at the CodeMash conference in Sandusky, 2010, (Ohio)
Problemas con el procesamiento de datos masivos

El término “escalabilidad horizontal” se refiere a la


capacidad de distribuir los datos y la carga de operaciones
sencillas a través de muchos servidores, sin memoria RAM o
disco compartido entre los servidores
¤ El escalado horizontal difiere del vertical, donde un sistema de
base de datos utiliza muchos núcleos y/o CPU que comparten la
memoria RAM y los discos
¤ Se entiende por “operaciones sencillas” a las búsquedas de
llaves, lectura y escritura de i) un registro o ii) un pequeño número
de registros. Esto se contrapone a los complejos querys o joins
¤ Las bases de datos que implementan la escalabilidad horizontal
se denominan bases de datos NoSQL. Estás además se
caracterizan por poseer procesos de replicación de datos.

CATTELL, R. Scalable SQL and NoSQL data stores. SIGMOD Rec., v. 39, n. 4, p. 12-27, 2011.
ISSN 0163-5808
Problemas con el procesamiento de datos masivos

Twitter
¤ Con el crecimiento exponencial del uso de Twitter,
resolver el problema el acceso a grandes volúmenes de
datos en tiempo real se ha convertido en un reto
importante
¤ En febrero de 2010, el número de tweets por mes fue
de 1,2 billones
¤ La preocupación por el problema de disponibilidad
hizo que la empresa sustituyera a la base de datos
MySQL por Cassandra, una solución NoSQL

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de


aplicações Web colaborativas
Problemas con el procesamiento de datos
masivos
Twitter
¤ La compañía utiliza Cassandra para almacenar los
resultados de minería de datos llevado a cabo sobre la
base de usuarios, los resultados de los temas de tendencias,
@toptweets y análisis en tiempo real a gran escala
¤ El uso de Cassandra trajo ventajas, tanto en la
implementación del modelado de datos relacionados a los
tweets, timeline, entre otros, así como el desempeño en
relación a las búsquedas por usuario o palabras llaves
¤ Por otra parte, aumentó la disponibilidad de sus servicios. En
2010, la firma Pingdom informó que Twitter estaba en el
aire de 99,72% del tiempo (el tiempo de inactividad fue de
23 horas y 45 minutos). En 2008, el sitio había estado
inactivo durante 84 horas.

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de


aplicações Web colaborativas
Problemas con el procesamiento de datos
masivos
Facebook
¤ Facebook cuenta actualmente con más de 3,5 billones de
contenidos (enlaces, posts, etc) compartidos cada semana
¤ Para evitar problemas con la disponibilidad de datos y la
escalabilidad, la compañía desarrolló la solución NoSQL
Casandra
¤ Inicialmente creado para la optimización del motor de
búsqueda de Facebook, Cassandra se utiliza actualmente
para apoyar la replicación, la detección de fallas, el
almacenamiento en caché, entre otras características
¤ Posteriormente, Casandra se convirtió en un proyecto de
Apache Incubator, ha sido utilizada por otras compañías
como Cisco, Digg y Twitter

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de aplicações Web colaborativas


Problemas con el procesamiento de datos
masivos
Google
¤ Google también ha desarrollado su propia solución NoSQL,
denominada BigTable, que es un sistema de almacenamiento
distribuido para la gestión de datos estructurados en gran
escala
¤ Más de 60 productos (como Gmail, Google Docs, Google
Analytics, Orkut, Búsqueda personalizada, Google Earth,
etc) utilizan el BigTable
¤ Esta solución se utiliza en conjunción con otros paquetes como
Google GFS (Sistema de archivo de Google) para la
gestión de la información y el map/reduce para la
distribución de datos
¤ Esta solución proporciona la escalabilidad de los recursos,
así como de alto rendimiento de procesamiento de consultas,
procesos y servicios.

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de aplicações Web


colaborativas
Problemas con el procesamiento de datos
masivos
Amazon
¤ Un desafío importante enfrentado por Amazon.com se refiere a la
fiabilidad del gran volumen de datos manejados por las
aplicaciones, no sólo por razones financieras y debido a los gastos
en las soluciones convencionales, sino también por el impacto de su
confianza del cliente en sus productos
¤ En 2007, con el fin de garantizar la alta disponibilidad de datos
de sus servicios “always-on”, Amazon desarrolló la solución NoSQL
denominada Dynamo
¤ Como resultado de la adopción de esta nueva tecnología, los
diversos servicios de Amazon se ha mantenido disponible en
99,9995% de las requesiciones presentadas

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de aplicações Web


colaborativas
Problemas con el procesamiento de datos
masivos
LinkedIn
¤ LinkedIn es una red de negocios, fundada en 2002, que se centra
principalmente en el establecimiento de relaciones entre los
profesionales
¤ En marzo de 2011, alcanzó los 100 millones de usuarios
¤ Al igual que otras redes sociales, el rendimiento en el procesamiento
de consultas se vio afectada por el crecimiento en la cantidad de
datos
¤ Para satisfacer la demanda de las aplicaciones de Linkedin,
diferentes soluciones relacionales fueron utilizadas, pero con poco
éxito
¤ Como resultado, la compañía desarrolló su propia solución NoSQL,
llamado Voldemort que ha traído grandes resultados de rendimiento
¤ Voldemort admite una escalabilidad horizontal, la replicación, la
partición, la transparencia a fallas entre otras características

Lóscio, Oliveira, Pontes. NoSQL no desenvolvimento de aplicações Web


colaborativas
Toma de decisiones basada en datos

La ciencia de datos requiere de principios, procesos y


técnicas para la comprensión de los fenómenos a través
del análisis (automatizado) de los datos
¤ En este curso veremos como objetivo final de la ciencia de
datos a la mejora de la toma de decisiones, ya que por lo
general es de interés directo para los negocios
¤ Hay que diferenciar a la ciencia de datos del
procesamiento de datos que está ganando cada vez más
atención en los negocios, pero que tienen otros objetivos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos

La toma de decisiones basada en datos se refiere a


la práctica de basar las decisiones en el análisis de
los datos, en lugar de únicamente en la intuición
¤ Los beneficios de la toma de decisiones basada en
datos han demostrado de manera concluyente. Estudios
muestran que las organizaciones que deciden más
basado en datos, se tornan más productivas

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos

El tipo de decisiones que interesan a las organizaciones los


podemos clasificar en dos grupos:
1. Las decisiones para las que los “descubrimientos” deben
hacerse dentro de los datos
■ Por ejemplo la predicción de WalMart para el huracán Frances
2. Las decisiones que se repiten, sobre todo a escala masiva,
y por lo tanto la decisión puede beneficiarse de incluso
pequeños aumentos en la precisión de la toma de
decisiones
■ Por ejemplo la predicción de pérdida de clientes

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Problemas de negocio y soluciones de data
science
El conocimiento y los procesos ligados al
conocimiento
La minería de datos
Tareas comunes en la minería de datos
Aprendizaje supervisado y no supervisado
Los resultados de data mining
El proceso de data mining
El conocimiento y los procesos ligados al
conocimiento

Las organizaciones vista como sistemas de


conocimiento están formada por cuatro conjuntos de
procesos
¤ Procesos de descubierta y creación de conocimiento
(incluyendo mantenimiento, validación y actualización);
¤ Procesos de almacenamiento, organización y
recuperación de conocimiento;
¤ Procesos de transferencia de conocimiento (incluyendo
presentación y distribución);

M Alavi and DE Leidner. Review: Knowledge management and knowledge management


systems: Conceptual foundations and research issues. MIS Quarterly, 25(1):107-136, 2001.
El conocimiento y los procesos ligados al
conocimiento
62

Descubrimiento
• Combinación
• Socialización

Compartición Aplicación
• Socialización • Dirección
• Intercambio • Rutinas

Captura
• Exteriorización
• Interiorización

Becerra-Fernández, I. y Sabherwal, R. Knowledge Management. Systems and Processes. M.E.


Sharpe. USA, 2010.
El conocimiento y los procesos ligados al
conocimiento
63

El proceso de descubierta de conocimiento

Usama M. Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. 1996. From data mining
to knowledge discovery: an overview. In Advances in knowledge discovery and data mining.
American Association for Artificial Intelligence, Menlo Park, CA, USA 1-34.
El conocimiento y los procesos ligados al
conocimiento
64

KDD vs KDT
• Descubierta de conocimiento en bases de datos
• Descubierta de conocimiento en textos

seleción pre-procesamento transformación mineración interpretación

KDD

(a.1) Bases de datos

KDT (b) Prepación (c) Adecuación (d) Selección (e) Validación


de los datos de los datos para del algoritmo de la
(a.2) Documentos disponibles ser usados por de mineración información
textuales los algoritmos de datos

La minería de datos
Taxomomía de los algoritmos en la minería de datos

O. Z. Maimon y L. Rokach, Data mining and knowledge discovery handbook vol. 1: Springer, 2005
La minería de datos
Un principio importante dentro la ciencia de datos
es que la minería de datos es parte un proceso con
etapas bien definidas
¤ Algunos implican la aplicación de tecnología de
información, tales como el descubrimiento
automatizado y evaluación de los patrones de los datos
¤ Otras requieren de conocimiento del negocio, y el
sentido común
La comprensión de todo el proceso ayuda a
estructurar los proyectos de minería de datos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
Cada toma de decisiones impulsada por datos es
única
¤ Comprende su propia combinación de objetivos, deseos,
limitaciones, e incluso personalidades
¤ Sin embargo, hay un conjunto de tareas comunes que
subyacen a los problemas de negocio.
Los científicos de datos descomponen un problema
de negocio en sub-tareas
¤ Algunas de estas sub-tareas son única al problema de
negocio en particular, pero otras son tareas comunes

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
Una habilidad crítica en la ciencia de datos es la
capacidad de descomponer un problema en sub-
problemas de forma tal que cada sub-problema coincida
con una tarea conocida para las que existen herramientas
disponibles
¤ Reconociendo los problemas conocidos y sus soluciones se
evita pérdidas de tiempo y recursos intentando reinventar
la rueda
¤ También permite que la gente centre la atención en las
partes más interesantes del proceso que requieren la
participación de partes humanas que no han sido
automatizadas

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
A pesar de la existencia de un gran número de
algoritmos de minería de datos desarrollados en los
últimos años, hay sólo un puñado de diferentes tipos
de tareas se ocupan de estos algoritmos
Conviene definir claramente estas tareas.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Tareas comunes en la minería de datos

La clasificación intenta predecir, para cada


individuo en una población, a qué conjunto de clases
pertenece. Por lo general, las clases son mutuamente
excluyentes
Para la tarea de clasificación, el algoritmo de
minería de datos produce un modelo que, dado un
nuevo individuo, permite determinar a qué clase
pertenece

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de clasificación Cigarras

Se tiene una colección de datos de


10 insectos. En este caso 5 datos de
cigarras y 5 de saltamontes.

En base a la información de esta Saltamonte


colección de datos ¿A qué tipo de
insecto corresponde la siguiente
imagen?

¿Cigarra or Saltamontes?
Para cualquier dominio de interés, debemos de medir
sus características (features)
Color {Verde, Marrón, Gris, Otro} ¿Tiene alas?

Longitud del Longitud


abdomen del Tórax Longitud de las
antenas

Tamaño de la
mandíbula

Diámetro del
espiráculo
Longitud de las piernas
Mi_Colección
Podemos almacenar
estas características en Id. del Longitud Longitud Clase de
Insecto de de la insecto
una base de datos Abdomen Antena
1 2.7 5.5 Saltamonte
2 8.0 9.1 Cigarra
El problema puede ser
3 0.9 4.7 Saltamonte
expresado como:
4 1.1 3.1 Saltamonte
• Dada la base de 5 5.4 8.5 Cigarra
entrenamiento 6 2.9 1.9 Saltamonte
(Mi_Colección), predecir la 7 6.1 6.6 Cigarra
clase de una instancia no
conocida previamente 8 0.5 1.0 Saltamonte
9 8.3 6.6 Cigarra
10 8.1 4.7 Cigarra

instancia no conocida previamente = 11 5.1 7.0 ???????


Saltamontes Cigarras

10
9
8
Longitud dela antena

7
6
5
4
3
2
1

1 2 3 4 5 6 7 8 9 10
Longitud del abdomen
Saltamontes Cigarras
Mientras más datos se tenga más precisión se
tendrá en la respuesta

10
9
8
Longitud dela antena

7 Cada uno de estos


objetos son
6 llamados de
5 • ejemplos
• ejemplos de
4 entrenamiento
• instancias
3 • tuplas
2
1

1 2 3 4 5 6 7 8 9 10
Longitud del abdomen
Tareas comunes en la minería de datos

La regresión trata de estimar o predecir, para cada


individuo, el valor numérico de una variable para
ese individuo
La regresión está relacionada con la clasificación,
pero los dos son diferentes. De manera informal, la
clasificación predice si algo va a pasar, mientras
que la regresión predice la cantidad de algo que
va a pasar

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de regresión
Tareas comunes en la minería de datos

La similaridad busca identificar individuos


semejantes basados en los datos conocidos sobre
ellos.
Se puede utilizar directamente para encontrar
entidades similares.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Qué es similaridad?
The quality or state of being similar; likeness; resemblance; as, a similarity of features.
Webster's Dictionary

La similaridad es
dificil de definir,
pero…
“Nosotro sabemos
distingirla cuando
la vemos”
Tareas comunes en la minería de datos

El agrupamiento o clustering trata de agrupar a


individuos de una población en conjunto por su
similitud, pero que no se rige por ningún propósito
específico
La agrupación es útil en la exploración preliminar
de dominio para ver si existen grupos naturales ya
que estos grupos a su vez pueden sugerir otras
tareas de minería de datos o enfoques

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de clustering
¿Cómo está estructurada la
literatura biomédica?

Imagen tomada de la URL http://www.arbesman.net/blog/2011/03/24/


clustering-map-of-biomedical-articles/

ABU-MOSTAFA, Y. S.; MAGDON-ISMAIL, M.; LIN, H.-T. Learning


from data. AMLBook, 2012. ISBN 978-1-60049-006-4.
Tareas comunes en la minería de datos

Las reglas de asociación intenta encontrar


asociaciones entre las entidades basadas en
transacciones relacionadas con ellos
Mientras que la agrupación trata la similitud
basadoen los atributos de los objetos, las reglas de
asociación considera la similitud de los objetos en
función de su aparición juntos en las transacciones

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de reglas de asociación

Imagen tomada de http://www.mathworks.com/matlabcentral/fileexchange/42541-association-


rules
Tareas comunes en la minería de datos

La descripción de comportamiento intenta


caracterizar el comportamiento típico de un
individuo, grupo o población
La descripción de comportamiento se utiliza a
menudo para establecer normas de comportamiento
para las aplicaciones de detección de anomalías,
tales como la detección del fraude y el seguimiento
de las intrusiones en los sistemas informáticos

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Descripción de comportamiento

Imagen tomada de http://decisionstats.com/tag/charlie-berger/


Tareas comunes en la minería de datos

El enlace predictivo intenta predecir las conexiones


entre elementos de datos, por lo general por lo que
sugiere que debe existir un enlace, y posiblemente
también la estimación de la fuerza del enlace

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de enlace predictivo
Tareas comunes en la minería de datos

La reducción de datos intenta tomar una gran


cantidad de datos y reemplazarlo con un pequeño
conjunto de datos que contiene la mayor parte de la
información importante en el conjunto más amplio
El pequeño conjunto de datos puede ser más fácil
de tratar o procesar. Por otra parte, el conjunto de
datos más pequeño puede revelar mejor la
información.

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Aprendizaje supervisado y no supervisado

Estos términos vienen del aprendizaje de máquina.


¤ El aprendizaje de máquina, también conocido como
aprendizaje automático, es una rama de la inteligencia
artificial que se encarga del estudio de modelos
algorítmicos capaces de generalizar comportamiento
a partir de un conjunto de información

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Aprendizaje inductivo
Dado que el aprendizaje se origina a partir de
ejemplos, se dice que este tipo de aprendizaje es
inductivo
Aprendizaje inductivo
¿Qué diferencia existe entre un proceso deductivo e
inductivo? Proceso
deductivo Descripción
Teoría

Confirmación
Hipótesis
/Patrones

Observación/
Datos
Proceso
inductivo
Paradigmas de aprendizaje
La premisa básica del aprendizaje a partir de
datos es la es el uso de un conjunto de
observaciones para descubrir conocimiento
Es una premisa muy amplia y difícil de encajar en un
marco único. Como resultado, han surgido diferentes
paradigmas de aprendizaje para hacer frente a
diferentes situaciones y diferentes supuestos

ABU-MOSTAFA, Y. S.; MAGDON-ISMAIL, M.; LIN, H.-T. Learning from data.


AMLBook, 2012. ISBN 978-1-60049-006-4.
Paradigmas de aprendizaje
Entre los paradigmas más conocidos podemos
mencionar:
¤ Aprendizaje supervisado
¤ Aprendizaje no supervisado
Paradigmas de aprendizaje: Aprendizaje
supervisado

El aprendizaje supervisado se da cuando los datos de


entrenamiento contienen ejemplos explícitos indicando la
salida correcta
Considere el problema de reconocer dígitos escritos a mano:
¤ Un conjunto de datos razonable para entrenar un modelo
algorítmico es una colección de imágenes de dígitos escritos a
mano, indicando que dígito representa
¤ Tenemos así un conjunto de ejemplos (llamado también corpus)
de la forma (imagen, dígitos)
¤ El aprendizaje es supervisado en el sentido de que alguien se
ha tomado la molestia de supervisar el corpus para que exista
una salida correcta para determinadas entradas

ABU-MOSTAFA, Y. S.; MAGDON-ISMAIL, M.; LIN, H.-T. Learning from data.


AMLBook, 2012. ISBN 978-1-60049-006-4.
Paradigmas de aprendizaje: Aprendizaje no
supervisado

En este paradigma, los datos de entrenamiento no


contiene ninguna información de salida.
¤ Son simplemente datos de la forma xi, · · ·, Xn.
Considere el problema de clasificar monedas
¤ No se conoce la denominación de
la moneda en el conjunto de
datos

ABU-MOSTAFA, Y. S.; MAGDON-ISMAIL, M.; LIN, H.-T. Learning


from data. AMLBook, 2012. ISBN 978-1-60049-006-4.
Paradigmas de aprendizaje: Aprendizaje no
supervisado

Los algoritmos de aprendizaje no supervisado van a


intentar agrupan las instancias más similares

ABU-MOSTAFA, Y. S.; MAGDON-ISMAIL, M.; LIN, H.-T. Learning


from data. AMLBook, 2012. ISBN 978-1-60049-006-4.
Los resultados de data mining

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
El proceso de data mining

PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.

También podría gustarte