Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción a la • Equipo/Alumnos
Metodología Evaluación
• Hay Nota Proyecto y Nota Laboratorios (No hay Controles)
1. Clases de cátedra
• Nota Final = NP*0,4 + NL*0,6
una página Web • No se tolerarán copias en Laboratorios ni Proyectos, es causal de Nota Final = 1.0 (R)
• Introduction to
Para la próxima clase traer leídos (en u-cursos)
Data Mining
• Curso introductorio
• WEKA
• Aprender a aplicar el proceso de DM a datos reales
• R (R Studio)
• Conocer, seleccionar y utilizar las técnicas básicas de DM
• Python
• Aprender a interpretar los resultados de estos procesos
¿Qué es la ¿Qué es la
Minería de Datos? Minería de Datos?
• Descubrir automáticamente información útil en grandes • Descubrir automáticamente información útil en grandes
repositorios de datos repositorios de datos
!10
¿Qué es la ¿Qué es la
Minería de Datos? Minería de Datos?
• Descubrir automáticamente información útil en grandes • Descubrir automáticamente información útil en grandes
repositorios de datos repositorios de datos
¿Cuál es la diferencia entre Data Science,
Orígenes de la MD Machine Learning e Inteligencia Artificial?
• Une ideas de ML/AI, • Están de moda, pero no son lo mismo, ni son intercambiables
reconocimiento de
patrones, estadística y • Data Science es el nombre reciente para algo mucho más
antiguo: Data Mining (90's)
BD
• Definición (sobre) simplista:
• Enfoques tradicionales
fallan con datos • Data mining genera entendimiento.
datos heterogéneos y
distribuidos) • Artificial intelligence genera acciones.
!14
http://varianceexplained.org/r/ds-ml-ai/
!16
BIG BANG
• 2006 Hadoop
• Análisis de datos
masivos al alcance de
todos (cientos de
Knowledge Discovery start-ups)
in Databases (KDD)
¿Por qué hacer
minería de datos?
Noticia en Businessweek
• Aspecto comercial
• Aspecto científico
• Recolección de
MUCHOS datos
comerciales:
• Compras en tiendas
• Transacciones en
Bancos/ Tarjetas de
Crédito
¿Por qué hacer
minería de datos?
¿Motivación Científica?
• Datos (observaciones)
recolectadas a gran
velocidad (GB/hr, Tb/
día)
• Telescopios, Satélites,
Requerimientos Web,
ADN, etc (Google Flu
Trends)
Métodos utilizados en DM
• Métodos predictivos:
Usar variables para
predecir variables
desconocidas o valores
futuros de otras variables
• Métodos descriptivos:
Encontrar patrones
interpretables por
humanos que permitan
describir los datos
(Descriptivo)
• Regresión (Predictivo)
• Set de Evaluación
• Marketing directo
• ¿Cómo?
Clasificación: Clasificación:
Aplicación 2 Aplicación 3
• Detección de Fraude
• Fidelidad de Clientes
• Meta: Predecir transacciones fraudulentas en el uso de • Meta: Predecir si es posible perder a un cliente a la
tarjetas de crédito
competencia
• ¿Cómo? • ¿Cómo?
• Distancia intra-cluster
• Puntos en un cluster sean más similares entre sí
es minimizada
• Segmentación de mercado
• Clustering de documentos
• Meta: Subdividir un mercado en subconjuntos de • Meta: Encontrar grupos de documentos que son
clientes en donde cualquier conjunto es un potencial similares entre sí, basándose en las palabras más
objetivo de marketing (ej: Netflix, Amazon)
importantes que contienen. (Directorios, Wikipedia)
• ¿Cómo? • ¿Cómo?
Reglas de Asociación
Reglas de Asociación Aplicación 1
TID Items
Detección de
desviación/anomalía
Desafíos de DM
• Escalabilidad
• Dimensionalidad
normales
• Distribución de los datos y propiedad
• Privacidad
• Streaming
Próxima Clase