Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El éxito de Internet
¤ ¿Qué tiempo han demorado los inventos en ser
utilizados por 50 millones de personas?
Imagen tomada de la
URL http://www.isc.org/
Las tecnologías en el contexto actual: crecimiento
de la información digital
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
La convergencia de estos fenómenos ha dado lugar a la
aplicación de los principios de la ciencia de datos y de la
minería de datos
¤ Probablemente las aplicaciones más se han realizado en los
campos de marketing dirigido, publicidad en línea, y las
recomendaciones para venta cruzada
¤ La minería de datos se utiliza en general para la gestión de
relaciones con los clientes para analizar el comportamiento
del cliente con el fin de gestionar el desgaste y maximizar el
valor esperado
¤ La industria financiera se utiliza la minería de datos para la
evaluación de crédito y la detección del fraude
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
Es curso busca ayudar a visualizar los problemas
de negocio desde la perspectiva de los datos y
entender los principios de extracción de
conocimiento útil a partir de éstos
¤ Existe una estructura fundamental para el pensamiento
analítico de datos y los principios básicos que deben ser
entendidos
¤ También existen áreas particulares donde la intuición,
la creatividad, el sentido común y el dominio del
conocimiento debe ponerse en juego
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La omnipresencia de los datos
La ciencia de datos puede definirse un conjunto de
principios fundamentales que guían la extracción de
conocimiento a partir de datos
La minería de datos es la extracción de
conocimiento a partir de datos, a través de
tecnologías que incorporan los principios de la
ciencia de datos
Entender la ciencia de datos le permitirá evaluar
propuestas de minería de datos, incluso si es que ud
no es experto en la aplicación de los algoritmos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Cómo pueden usarse los datos de eventos
pasados?
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“Huracán Frances”
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking.
1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“Huracán Frances”
Discusión:
¤ ¿Qué tipo de información esperaría encontrar del
huracán pasado Charley?
¤ ¿Por qué la predicción basada en los datos podría ser
útil en este escenario?
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio "Huracán Frances”
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio "Huracán Frances”
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
"Huracán Frances”
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Cómo pueden usarse los datos de eventos
pasados?
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”
Suponga que usted acaba de ser contratado como analista de datos por
MegaTelCo, una de las mayores empresas de telecomunicaciones en USA
Están teniendo un gran problema con la retención de clientes en su negocio de
telefonía móvil
¤ En la región del Atlántico medio, el 20% de los clientes de teléfonos celulares
se van cuando expiran sus contratos, y se está haciendo cada vez más difícil
adquirir nuevos clientes
¤ Dado que el mercado de la telefonía celular está saturado, el crecimiento del
mercado ha disminuido
¤ Las compañías ahora se encuentran en una batalla: intentar atraer nuevos
clientes de las otras compañías pero conservando a los suyos
¤ Al proceso de traslado de cliente de una compañía a otra se le conoce como
rotación. Esta es muy costosa: una empresa debe gastar en incentivos para
atraer nuevos cliente mientras que la otra pierde los ingresos cuando el cliente
sale.
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejercicio: Caso de Estudio
“La predicción de pérdida de clientes”
Discusión:
¤ ¿Cómo debe MegaTelCo elegir un conjunto de clientes
para recibir la oferta con el fin de reducir la rotación?
¤ ¿Qué tipo de problema es? ¿Cómo se podría
caracterizar?
¤ En el caso anterior, en el ejemplo de Wal-Mart: ¿Qué
tipo de problema es? ¿Cómo se podría caracterizar?
¤ ¿Qué tipos de problemas podemos solucionar usando
los datos?
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Datos, información y conocimiento
¿Qué es dato, información o conocimiento?
Datos, información y conocimiento
Taxonomía del
conocimiento
Tecnologías que apoyan a los datos
Extracción de conocimiento
Recuperación de Información
Reconocimiento de patrones
Explotación del conocimiento
TIC
DSS
apoyando al 94-today Internet, GIS
conocimiento Intranet, EIS
Extranet
90’s Web
TIC ofreciendo Data Marts
Sistemas de
apoyo estratégico Información
Data Warehouse
80’s
CATTELL, R. Scalable SQL and NoSQL data stores. SIGMOD Rec., v. 39, n. 4, p. 12-27, 2011.
ISSN 0163-5808
Escalabilidad
Scoeld, Ben: NoSQL - Death to Relational Databases, Presentation at the CodeMash conference in Sandusky, 2010, (Ohio)
Scoeld, Ben: NoSQL - Death to Relational Databases, Presentation at the CodeMash conference in Sandusky, 2010, (Ohio)
Problemas con el procesamiento de datos masivos
CATTELL, R. Scalable SQL and NoSQL data stores. SIGMOD Rec., v. 39, n. 4, p. 12-27, 2011.
ISSN 0163-5808
Problemas con el procesamiento de datos masivos
Twitter
¤ Con el crecimiento exponencial del uso de Twitter,
resolver el problema el acceso a grandes volúmenes de
datos en tiempo real se ha convertido en un reto
importante
¤ En febrero de 2010, el número de tweets por mes fue
de 1,2 billones
¤ La preocupación por el problema de disponibilidad
hizo que la empresa sustituyera a la base de datos
MySQL por Cassandra, una solución NoSQL
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Toma de decisiones basada en datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Problemas de negocio y soluciones de data
science
El conocimiento y los procesos ligados al
conocimiento
La minería de datos
Tareas comunes en la minería de datos
Aprendizaje supervisado y no supervisado
Los resultados de data mining
El proceso de data mining
El conocimiento y los procesos ligados al
conocimiento
Descubrimiento
• Combinación
• Socialización
Compartición Aplicación
• Socialización • Dirección
• Intercambio • Rutinas
Captura
• Exteriorización
• Interiorización
Usama M. Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. 1996. From data mining
to knowledge discovery: an overview. In Advances in knowledge discovery and data mining.
American Association for Artificial Intelligence, Menlo Park, CA, USA 1-34.
El conocimiento y los procesos ligados al
conocimiento
64
KDD vs KDT
• Descubierta de conocimiento en bases de datos
• Descubierta de conocimiento en textos
KDD
O. Z. Maimon y L. Rokach, Data mining and knowledge discovery handbook vol. 1: Springer, 2005
La minería de datos
Un principio importante dentro la ciencia de datos
es que la minería de datos es parte un proceso con
etapas bien definidas
¤ Algunos implican la aplicación de tecnología de
información, tales como el descubrimiento
automatizado y evaluación de los patrones de los datos
¤ Otras requieren de conocimiento del negocio, y el
sentido común
La comprensión de todo el proceso ayuda a
estructurar los proyectos de minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
Cada toma de decisiones impulsada por datos es
única
¤ Comprende su propia combinación de objetivos, deseos,
limitaciones, e incluso personalidades
¤ Sin embargo, hay un conjunto de tareas comunes que
subyacen a los problemas de negocio.
Los científicos de datos descomponen un problema
de negocio en sub-tareas
¤ Algunas de estas sub-tareas son única al problema de
negocio en particular, pero otras son tareas comunes
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
Una habilidad crítica en la ciencia de datos es la
capacidad de descomponer un problema en sub-
problemas de forma tal que cada sub-problema coincida
con una tarea conocida para las que existen herramientas
disponibles
¤ Reconociendo los problemas conocidos y sus soluciones se
evita pérdidas de tiempo y recursos intentando reinventar
la rueda
¤ También permite que la gente centre la atención en las
partes más interesantes del proceso que requieren la
participación de partes humanas que no han sido
automatizadas
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
La minería de datos
A pesar de la existencia de un gran número de
algoritmos de minería de datos desarrollados en los
últimos años, hay sólo un puñado de diferentes tipos
de tareas se ocupan de estos algoritmos
Conviene definir claramente estas tareas.
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Tareas comunes en la minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de clasificación Cigarras
¿Cigarra or Saltamontes?
Para cualquier dominio de interés, debemos de medir
sus características (features)
Color {Verde, Marrón, Gris, Otro} ¿Tiene alas?
Tamaño de la
mandíbula
Diámetro del
espiráculo
Longitud de las piernas
Mi_Colección
Podemos almacenar
estas características en Id. del Longitud Longitud Clase de
Insecto de de la insecto
una base de datos Abdomen Antena
1 2.7 5.5 Saltamonte
2 8.0 9.1 Cigarra
El problema puede ser
3 0.9 4.7 Saltamonte
expresado como:
4 1.1 3.1 Saltamonte
• Dada la base de 5 5.4 8.5 Cigarra
entrenamiento 6 2.9 1.9 Saltamonte
(Mi_Colección), predecir la 7 6.1 6.6 Cigarra
clase de una instancia no
conocida previamente 8 0.5 1.0 Saltamonte
9 8.3 6.6 Cigarra
10 8.1 4.7 Cigarra
10
9
8
Longitud dela antena
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9 10
Longitud del abdomen
Saltamontes Cigarras
Mientras más datos se tenga más precisión se
tendrá en la respuesta
10
9
8
Longitud dela antena
1 2 3 4 5 6 7 8 9 10
Longitud del abdomen
Tareas comunes en la minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de regresión
Tareas comunes en la minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
¿Qué es similaridad?
The quality or state of being similar; likeness; resemblance; as, a similarity of features.
Webster's Dictionary
La similaridad es
dificil de definir,
pero…
“Nosotro sabemos
distingirla cuando
la vemos”
Tareas comunes en la minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de clustering
¿Cómo está estructurada la
literatura biomédica?
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de reglas de asociación
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Descripción de comportamiento
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Ejemplo de enlace predictivo
Tareas comunes en la minería de datos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Aprendizaje supervisado y no supervisado
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
Aprendizaje inductivo
Dado que el aprendizaje se origina a partir de
ejemplos, se dice que este tipo de aprendizaje es
inductivo
Aprendizaje inductivo
¿Qué diferencia existe entre un proceso deductivo e
inductivo? Proceso
deductivo Descripción
Teoría
Confirmación
Hipótesis
/Patrones
Observación/
Datos
Proceso
inductivo
Paradigmas de aprendizaje
La premisa básica del aprendizaje a partir de
datos es la es el uso de un conjunto de
observaciones para descubrir conocimiento
Es una premisa muy amplia y difícil de encajar en un
marco único. Como resultado, han surgido diferentes
paradigmas de aprendizaje para hacer frente a
diferentes situaciones y diferentes supuestos
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.
El proceso de data mining
PROVOST, Foster y FAWCETT, Tom (2013) Data Science for Business: What You Need to Know
about Data Mining and Data-Analytic Thinking. 1ra. ed. USA: O’Reilly Media, Inc.