Contribucion Estadistica A Data MiningBahia Blanca

CONTRIBUCIÓN
ESTADÍSTICA A
DATA MINING
Maestría Minería de datos
Ana Silvia Haedo
anasicorreo@outlook.com
Bahía Blanca , Junio 2019
Antecedentes
 El análisis de datos existe desde que
el Rey David numeró a su pueblo y los
egipcios midieron sus campos.
 Quetelet analizó datos sociales y
Galton datos biológicos hacia el 1800.
 Fisher y Snedecor datos agronómicos
en los comienzos de 1900.
 Fisher introdujo la matemática en el
análisis de datos y el diseño experimental.
 Neyman y Pearson introdujeron la
inferencia estadística .
y
 Wald el análisis secuencial y la teoría de
la decisión.
 La teoría estadística floreció después de la
II guerra mundial y su metodología ocupó
un lugar de relevancia en la evaluación de
resultados.
 El análisis de datos se ha tornado
dominante en el siglo 21.
 Es un Problema y una Solución

Análisis de datos en el Siglo 21
 Hasta ahora se empleaba la metodología
estadística para extraer información útil.
 Hoy Data Mining recurre al poder de la
tecnología informática para analizar
gigantescas bases.
 Problemas multidisciplinarios acompañados de
bases masivas.
ESTADÍSTICA
y
DATA MINING
¿ Cuál es la relación?
7
ESTADÍSTICA
 Crea y desarrolla métodos que
permiten:
 El diseño eficiente de las investigaciones.

 La organización y análisis de la información.
 Reconocer y explorar similitudes entre los
problemas planteados.
 Optimizar el análisis de los resultados.
 Determinar la confiabilidad de los
resultados.
Estadística
 Le da sentido a los datos

 Tiene problemas en el manejo
de grandes volúmenes de datos
SITUACIÓN
 Más datos colectados

 Más datos almacenados
 Más datos accesibles
 Más datos distribuidos
Datos y más datos
 Transacciones bancarias
 Reservas de aerolíneas
 Operaciones con tarjetas de crédito
 Llamadas y mensajes por celulares
 Registros de atención de pacientes
 Compras en supermercados
 Datos obtenidos por sensores remotos
 Etc, etc,…
 Problema: grandes volúmenes
de datos
 Ventajas : La posibilidad de
describir la realidad y formular
teorías .
MOTIVACIÓN
 Malas noticias. La Estadística se
demora en adaptarse al cambio
 En actitud hacia los datos
 En tecnología
 Buenas noticias: La comunidad de
Data Mining recibe a los estadísticos
con los brazos abiertos
ESTADÍSTICA
EVOLUCIÓN HISTÓRICA
 Estadística Paramétrica
 No - Paramétrica
 Multivariada.
 Exploratoria.
Data Mining y Análisis estadístico
 En nuestro país las técnicas de Data

Mining han adquirido gran difusión
entre los especialistas en
Informática, no así en el ambiente
estadístico.
 La idea de esta presentación es
motivarlos a incursionar en este
dominio.
¿Qué es Data Mining ?
 Proceso de extracción de información

de una gran base de datos sin
conocimiento previo para obtener
patrones y/o relaciones sistemáticas
entre variables.
(patrones y/o relaciones “valiosas”,claro)
¿Qué es Data Mining ?
Campo interdisciplinario que reune
técnicas de Aprendizaje Automático
Reconocimiento de Patrones,
Estadística , Bases de Datos,
Intelligencia Artificial y Visualización
•para el análisis de los datos
orientado al descubrimiento
 Surge hacia fines de los 80s
 Florece hacia 1990
Disponibilidad de grandes bases
de datos
Data Mining
parte de un proceso conocido como
"descubrimiento de conocimiento a partir
de los datos" (KDD: Knowledge Discovery
in Databases).
DATA MINING
Las soluciones que aporta Data Mining están
basadas en la implementación, mediante
programación, de interfases de uso general y
algoritmos propios y disponibles para todos,
que permiten una exploración y organización
eficiente de los datos. Estos algoritmos apoyan
la identificación de patrones, relaciones y
anomalías de interés potencial para quienes
deben tomar decisiones.
 ¿Por qué Data Mining?
 ¿Que es Data Mining?
 Aplicaciones de Data Mining
 Perspectivas de Data Mining

DATA MINING
 Mayor dimensionalidad del problema.

 Las técnicas de data mining
permiten encontrar relaciones
inéditas y continuar el análisis sobre
las variables más interesantes.
Para resolver un problema se
necesita:
1. Comprender el problema.
2. Concebir un plan.
3. Ejecutar un plan.
4. Examinar la solución obtenida.
 How to solve it. G. Polya Double day Anchor. N.Y.

 Asegurar la planificación eficiente.
 Disminuir costos provocados por mal

dimensionamiento.
 Controlar la existencia y disponibilidad de

medios para resolver el problema.
 Investigar qué problemas requieren

investigación ESTADÍSTICA
 Aprender algo del tema en cuestión.
 Comprender el problema desde el

punto de vista del cliente.
 Diseñar un plan de acción

• SENCILLO,
• FACTIBLE,
• ECONÓMICO.
DECISIÓN: ¿Cuándo y cómo elijo
cada método de evaluación?
 El mismo conjunto de datos puede necesitar
diferentes herramientas y análisis cuando los
analistas tienen diferentes objetivos.
 Un enfoque puede interesar a unos y no a otros.
 La misma herramienta puede jugar diferentes roles
con distintos propósitos.
Fundamentals of exploratory analysis of variance. J.W. Tukey Ed. Wiley
Interscience. London1991.
¿Qué disciplinas aportan a
Data Mining ?
 Base de datos
 Inteligencia Artificial
 Reconocimiento de patrones
 Visualización
 Procesamiento de Imágenes
 Inteligencia Artificial
 Aprendizaje de Máquina incluyendo Redes
Neuronales
 Computación de alta performance
 La relación entre aprendizaje de
máquina, estadística y data mining
es un poco obvia, las tres áreas
apuntan a localizar regularidades
importantes, patrones o conceptos
de datos empíricos
Hoy hay disponibilidad de
tres tecnologías:
•Recolección masiva de datos.

•Potentes computadoras con
multiprocesadores.
•Algoritmos de Data Mining.
 Técnicas de Data Mining.
 Técnicas de visualización.
 Métodos estadísticos
 CONTRIBUCIÓN
 ESTADÍSTICA
 A
 DATA MINING
Oportunidades para la
Estadística
 Premisa: ESTADÍSTICA está siempre
relacionada con datos
 Necesitamos una visión más amplia
 Aprender de los Datos
 Integrar los datos.
 Textos y voz
 Imágenes y Videos
Identificación del problema
ESTADÍSTICO
 ¿Qué problema estadístico se presenta?
 ¿Es un problema de ESTIMACIÓN?

 de SELECCIÓN?
 de DISCRIMINACIÓN?
 de CLASIFICACIÓN?
 de otro tipo?
PERSPECTIVA ESTADÍSTICA
 Análisis exploratorio
computarizado de grandes bases
de datos que actualmente tiene
gran impacto en comercio ,
industria y ciencia
ESTILOS DEL ANÁLISIS
 Preparación de los DATOS
 Análisis de los DATOS
 Interpretación y análisis de
RESULTADOS
 PLANIFICAR
 Colectar datos.
 Organizar la explotación de los mismos.
 EJECUTAR
 Analizar e interpretar.
 Formular modelos.
 Hacer inferencias.
 EVALUAR
 Formular nuevos conceptos.
Preparación de datos y Data
Mining
 Preparación de los datos de acuerdo al
problema en estudio
 Combinación de datos de diversas fuentes,

limpieza, selección de subconjuntos de
registros, selección de variables,
recodificación, transformación, etc.
PROCESAMIENTO
 Asegurar la calidad de los datos
seleccionados.
 Realizar estudios preliminares según los

métodos estadísticos a aplicar a
posteriori.
 Selección de una muestra representiva

Problemas que se pueden resolver:
 Datos con errores o datos faltantes
PROCESAMIENTO
Resumir información aportada por los
datos mediante
Transformaciones
Discretización
Reducción de la dimensión.
Agrupamiento.
Medidas estadísticas de centralidad y
dispersión moda, desvio estándar, etc)
Descubrimiento de información
a partir de un conjunto de datos
 Utilizar métodos estadísticos y técnicas de

visualización de datos
 Preparación de los datos estudio:

Métodos gráficos; Análisis exploratorio de
datos (EDA)
Adecuación de los métodos
estadísticos
 Control de la formulación del problema.
 Control de la estructura de los datos.
 Control de la escala.
 Control de las interpretaciones.

Preguntas del Analista
Estadístico
 Identificación del problema.

 ¿Qué se busca? ¿ Cómo?
 ¿Por qué? ¿Para qué?
 ¿Para qué población?
 ¿Cuáles son las variables
explicativas?
 ¿Cuáles son las estables?
 ¿Cuáles son las respuestas?
 ¿Cuáles son las variables perturbadoras?
 ¿Cuáles son circunstancias importantes

no controladas?
 ¿Qué efectos laterales tienen?
 ¿Qué posibilidades existen de

incorporarlas a la investigación?
ERRORES
Uso inadecuado de técnicas estadísticas
 No respetar los supuestos del modelo.
 Diseño incorrecto.
 Manejo inadecuado de datos.
 Falta de tablas y gráficos.
 Uso inadecuado de pruebas.
 EXPERIMENTOS
 ESTUDIOS
OBSERVACIONALES
 RELEVAMIENTOS MUESTRALES
Métodos Factoriales.
 Jean Pierre Benzécri, 1960-1970- Francia
Analyse des données
........El Modelo debe seguir a los datos y no a la
inversa.....
Edward Tukey
Exploratory Data Analysis E.D.A
… el análisis de datos precedía a la teoría
Los pasos para un proceso de KDD
. Base de datos.
. Procesamiento.
. Transformación.
. Análisis, Asimilación, Interpretaciones.

Data Mining
 . Base de datos.
 Inteligencia artificial
 Aprendizaje de máquina
 Reconocimiento de patrones
 Visualización
DATA MINING
 Ajuste de modelos y determinación de
características de los datos aplicando
técnicas y algoritmos de Data Mining.
 Búsqueda de un modelo, según un criterio de
preferencia o un algoritmo de búsqueda.
 Medir asociaciones y/o relaciones entre
variables
 Desarrollo informático
NUEVOS PRODUCTOS
 SOFTWARE
Ventajas
Desventajas
Sistemas expertos
SOFTWARE
 Análisis y consolidación dinámica de
grandes bases de datos
multidimensionales.
Software adecuado para analizar bases
de datos de grandes dimensiones.
SOFTWARE
 SAS
 SPSS
 SPAD N (Numérico)
 SPAD T (Textual )
 SODAS Datos Simbólicos
R
 Python
Más SOFTWARE
 WEKA es un Software libre en Java
 Es una colección de algoritmos de
aprendizaje de máquina para tareas de
Data Mining.
 Contiene herramientas para pre-
procesamiento, clasificación, regresión,
agrupamiento, asociación y visualización
de datos.
MÁS SOFTWARE
 IBM Intelligent Miner.
 ISL Decision Systems, INC
 Silicon Graphics: “MineSet”.
 Salford Systems.
 Statistica Miner.
Características
 Fácil consulta de las Bases de datos.
 Secuencia de procedimientos de análisis.
 Estilo de la interfaz windows :
 Entrada flexible en íconos y menúes.
 Ventanas de diálogo
 Diagramas, Gráficos variados, tanto
simples como sofisticados.
 Conveniente manejo de resultados
NUEVOS DOMINIOS DE
APLICACIÓN
 Análisis de Imágenes
 Análisis de Señales
 Análisis de Procesos
 Análisis de datos textuales
Análisis de datos de redes sociales
NUEVOS DESAFÍOS
 La tecnología avanza y posibilita

analizar más datos y más rápido
entonces , los estadísticos
debemos pensar cómo analizarlos.
 Hay además una cuestión
comercial, se trata de vender
software y hardware.
HARDWARE
 Las bases deben almacenarse y ser

fácilmente accesibles para su
explotación.
Eso requiere mucho espacio en disco y

memoria RAM
LOS DATOS,
SU REGISTRO,
PROCESAMIENTO
Y VISUALIZACIÓN
CONJUNTOS DE DATOS
MULTIVARIADOS
 ¿Cómo están almacenados los datos?

Formato de la Matriz de
Datos
variable1 variable2 variable3 ... variablep
caso1 valor11 valor12 valor13 ... valor1p
...
cason valorn1 valorn2 valorn3 ... valornp

MATRIZ DE DATOS
 Los ítems individuales se llaman casos
 Sobre los casos se miden variables.
A menudo se transforman los datos para
trabajarlos mejor, o para satisfacer
supuestos de los modelos.
EST. y DM -¿relación
¿Cómo se generan los datos?
Estadística Data Mining

 Propósito Investigación Operacional
 Tamaño Pequeño Muy grande
 Higiene Limpios Sucios
 Situación Estáticos Dinámicos
TIPOS DE VARIABLES
Nominales.
Cualitativas o Atributos: género,
estado, educación.
Ordinales: nivel educativo, orden de
nacimiento.
Cuantitativas o numéricas:
Discretas: número de libros, número de
tarjetas de crédito.
Continuas: peso, edad, ingreso ($),
horas de lectura, velocidad.
¿CUÁNTAS VARIABLES?
 Número de variables por caso:
 1 Datos Univariados.
 2 Datos Bivariados.
 3 Datos Trivariados.
 4 Datos Multivariados.
 ¿Cuáles son las respuestas?
 ¿Cuáles son las variables

perturbadoras?
 ¿Cuáles son circunstancias importantes

no controladas?
 ¿Qué efectos laterales tienen?
 ¿Qué posibilidades existen de

incorporarlas a la investigación?
DATOS MULTIVARIADOS
 Existen numerosas técnicas de visualización
para conjuntos de datos de 1-3
dimensiones.
 Gráficos de líneas, de barras, nubes de
puntos.
 Podemos ver hasta 3 dimensiones (4
dimensiones con el tiempo).
 ¿Qué hacer con conjuntos de datos de más
de 3 variables?
ESTILOS DEL ANÁLISIS
 Métodos descriptivos.
 Tablas, Gráficos
 Univariados - multivariados.
 Métodos Factoriales.
 Agrupamiento – Clasificación
 Métodos probabilísticos.
Despapelización
 Data Mining es despapelización

y
 Despapelización es Data Miming
 GRÁFICOS
 TABLAS
 CÁLCULOS
GRÁFICOS
 En Data mining Gráfico se refiere a
la estructura de los datos y a las r
 relaciones entre ellos.
 Exploratorios
DATOS UNIVARIADOS
Box plot
7 Cuenta mínimo 50% máximo
5
Mediana
3
1 0 20
DATOS BIVARIADOS
Nube de puntos
costo
kilometraje
DATOS TRIVARIADOS
Nube de puntos 3D
costo
potencia
kilometraje
Visualización
Es la representación de grandes volúmenes de datos
para su comprensión y presentar lo que los datos
presentan
Las representaciones son vitales para comprender las
estructuras de los datos y las decisiones tomadas
Técnicas De Visualización
 Técnicas "de visualización" : Facilitan la

extracción de respuestas de interés,
patrones, tendencias, estructuras y
relaciones.
Ejemplos: mapas, diagramas de
asociación, basados en coordenadas,
proporciones, híbridos, diagramas de
íconos y árboles jerárquicos.
Técnicas De Visualización
 Para datos Multivariados
Matriz de correlaciones
GRÁFICOS DE ESTRELLAS
Var 1
Las n variables tienen
Var 2 ángulos iguales sobre la
circunferencia
Value
La distancia al centro
representa el valor de cada
Var 4 Var 3
variable
Técnicas de visualización
Gráfico de estrellas
4
3
1 2
Caras de Chernoff (1)
http://www.math.yorku.ca/SCS/sasmac/faces.html
Técnicas de visualización
Gráficos históricos
Campaña de Napoleón
 Los estadísticos debemos
involucranos.
¿CÓMO?
 Publicando trabajos en revistas
estadísticas.
 Impartiendo curso a estudiantes de
grado.
 Incluyendo nuevos temas en cursos y
seminarios.
 Incorporando tópicos de Informática y
computación.
Métodos Estadísticos
 Componentes principales
Análisis de Agrupamiento
Análisis de Correspondencias
Análisis discriminante
 Regresión Logística
 Análisis de datos simbólicos
Componentes principales
En el caso de variables continuas, esta
metodología permite sintetizar la mayor
parte de la información contenida en los
datos mediante combinaciones lineales de
las variables originales.
Componentes principales
Los objetivos son:
a) Generar nuevas variables que puedan
expresar la información contenida en el
conjunto original de datos.
b) Reducir la dimensión del problema
c) Eliminar algunas de las variables originales
si ellas aportan poca información.
ANÁLISIS EN COMPONENTES
PRINCIPALES
Análisis de Correspondencias
Análisis de Agrupamiento (Cluster)
Agrupamiento de objetos en clases sobre

la base de atributos y/o sus relaciones que
poseen en común. Permite agrupar los
individuos o las variables, en clases
homogéneas. Los grupos (clusters) constituyen
una partición de los datos que se puede utilizar
con propósitos estadísticos.
Análisis de Agrupamiento
Se puede utilizar para:

Agrupar especies naturales.
Clasificar consumidores en estudios de marketing.
Clasificar sujetos con los mismos síntomas y
características patológicas en estudios médicos.
Reconocer patrones.
Clasificar imágenes digitalizadas
ANÁLISIS DE AGRUPAMIENTO
En todo análisis cluster existen dos fases:

 a partir de los datos se construye una
 matriz de similaridades
 matriz de distancias
y se realiza el proceso de agrupación de

individuos
ANÁLISIS DE AGRUPAMIENTO
Se utilizan diferentes distancias y

medidas de semejanza en métodos
jerárquicos (árboles de clasificación
jerárquica) y no jerárquicos (K-medias).
Análisis de
Agrupamiento
El propósito del análisis de agrupamientos (cluster)

es agrupar las observaciones de forma que los
grupos sean:
 muy homogéneos (mínima varianza)
 y que lo más heterogéneos entre sí (máxima
varianza)
AGRUPAMIENTO (Cluster)
Agrupamiento Jerárquico
 Su objetivo es producir una regla de

clasificación tal que permita predecir
la pertenencia a una clase de una
observación particular, en base a un
conjunto de variables predictoras.

Predecir la pertenencia a una clase de una
observación particular, con base en un
conjunto de variables predictoras.
El objetivo básico es producir una regla de
clasificación tal que permita predecir a qué
población es más probable que pertenezca
una observación.
Métodos Estadísticos
Regresión Logística
Este modelo establece una relación entre la
probabilidad de ocurrencia de una variable de
respuesta dicotómica, y las variables
explicativas categóricas o continuas.
En Data Mining es de interés saber cuál es la
probabilidad de que un individuo pertenezca a
un determinado grupo.
DATOS SIMBÓLICOS
Esta nueva metodología se basa en el Análisis de
Datos, grupo de técnicas que tomando distancia de la
estadística clásica, se proponen ayudar a descubrir
regularidades o estructuras de respuestas de
grandes conjuntos multidimensionales de unidades
En ellas no son necesarios supuestos ni modelos a
priori, con el Análisis de Datos Simbólicos es posible
otra vuelta de tuerca hacia conocimiento de una
realidad que en la mayoría de los casos se nos
presenta difusa
DATOS SIMBÓLICOS
Los datos simbólicos, introducidos por Edwin Diday en
los ochenta, se ocupan del análisis de datos con
variabilidad intrínseca .
El análisis de datos simbólicos permite representar

datos con variabilidad, usando nuevos tipos de
variables. Los datos simbólicos se pueden representar
usando los arreglos usuales en forma de matrices,
pero en los cuales los elementos de cada celda no son
valores numéricos reales individuales, sino conjuntos
finitos de valores, intervalos o, de forma mías
general, distribuciones.
DATOS SIMBÓLICOS
Los primeros documentos presentando los principales principios
del Análisis de Datos Simbólicos fueron publicados por Edwin
Diday a finales de los años 80
El Prof.Edwin Diday expuso en dos conferencias en
Rosariolos principios fundamentales de sus últimos
desarrollos en Análisis de Datos Simbólicos. El tema,
presentado por primera vez en español en 1997 , es
de interés para investigadores de distintas áreas del
conocimiento por el enfoque multidisciplinario de la
exposición,
DATOS SIMBÓLICOS
[Bock y Diday - 2000]: Hans Herman Bock y Edwin Diday.
“Analysis of Simbolic Data – Exploratory Methods for
Extracting Statistical Information from Complex Data”
(Studies in Classification, Data Analysis, and Knowledge
Organization). Springer – Verlag Berlin – Heidelberg.
OTROS MÉTODOS
 Redes neuronales.
 Árboles de decisión.
 Reglas de Asociación.
 Modelos Gráficos.
 Algoritmos genéticos.
 Mapas.
 Sistemas de lógica difusa.
 Máquinas de Soporte vectorial
REDES NEURONALES
 Comprenden procedimientos computacionales
que involucran el uso de estructuras
matemáticas con habilidad de aprendizaje.
 Identifican patrones en un conjunto de
datos.
 Requieren una muestra aleatoria de los datos
como conjunto de entrenamiento.
 A partir de la estimación de los parámetros
obtenida con la muestra de entrenamiento,
se ajusta el modelo con los datos completos.
REDES NEURONALES
Se utilizan
distintos
modelos con
distinto número
de capas ocultas
y funciones de
activación (back
propagation, etc)
REDES NEURONALES
Capaz de
aproximar cualquier
función continua.
No es necesario
contar con un
modelo subyacente
Es difícil interpretar
la solución, pero
brinda buenas
estimaciones.
Otros Métodos
Árboles de decisión
• Estructuras de forma de árbol que
representan conjuntos de decisiones.
• Generan reglas para la clasificación de un
conjunto de datos de modo descendente.
• Selecciona la prueba que mejor discrimina
las clases de una variable de respuesta.
Arboles de decisión
En cada nodo del árbol podemos medir:

• El número de registros en el nodo.
• El modo en que esos registros fueron
clasificados si se trata de un nodo hoja
• El porcentaje de registros correctamente
clasificados en este nodo.
• En cada nodo se aplica una regla, se
descompone el árbol, que sigue creciendo
hasta que ya no es posible encontrar una
descomposición que mejore la existente.
• Para relajar el super ajustamiento se utiliza
el recurso de poda.
• Incluyen Arboles de Clasificación y Regresión
(CART) y Detección de Interacción
Automática de Chi Cuadrado (CHAID) C4.5
Método no
paramétrico y
no lineal
Exploratorio
Revela
relaciones
simples entre
unas pocas
variables
Características
 Vecino más cercano (razonamiento basado en

casos).
 Reglas de asociación. (análisis de la canasta
de mercado)
 Visualización.
Actualizar
 Nuevas Herramientas
 Nuevos Productos
 Nuevos Dominios de Aplicación
 Mejorar Herramientas Existentes
RECORDAR
 Reconocimiento de formas..
 Manejo de bases de datos
 Redes neuronales.
 Aprendizaje de máquina
 Modelos gráficos.
 Programación genética
 Visualización.
APLICACIONES
 Text Mining
 Web Mining
 Detección de fraudes
 Bioinformática
Las soluciones que aporta Data Mining están
basadas en la implementación, mediante la
programación, de interfases de uso general y
algoritmos propios y disponibles para todos,
que permiten una exploración y organización
eficiente de los datos. Estos algoritmos apoyan
la identificación de patrones, relaciones y
anomalías de interés potencial para quienes
deben tomar decisiones.
 Análisis estadístico: procedimiento
hipotético-deductivo, técnicas
confirmatorias.
 DM es un proceso inductivo, que utiliza
técnicas generalmente exploratorias.
 DM se utilizará cuando no tenemos
supuestos de partida y pretendemos buscar
algún conocimiento nuevo.
Data Mining vs Estadística
 Gregory Piatetsky-Shapiro:
 Statistics is at the core of data mining -
helping to distinguish between random noise and
significant findings, and providing a theory for
estimating probabilities of predictions, etc.
 However Data Mining is more than Statistics.
DM covers the entire process of data analysis,
including data cleaning and preparation and
visualization of the results, and how to produce
predictions in real-time, etc.
 Las técnicas estadísticas son
Confirmatorias
 Las de DM son exploratorias
 Para refutar hipótesis estadistica
 Para mayor dimensionalidad DM
 DM y Estadística son técnicas
complementarias
Conclusiones

Mayor dimensionalidad del problema
Las técnicas de data mining permiten encontrar
relaciones inéditas y continuar el análisis sobre
las variables más interesantes.
Menos restrictivas que las estadísticas
(exploratorias)
En nuestro país las técnicas de Data

Mining han adquirido gran difusión entre
los especialistas en Informática, no así
en el ambiente estadístico. La idea de
esta presentación es motivarlos a
incursionar en este dominio.
¿HACIA DÓNDE VA DM?
 Automatización
Muchos de los datos colectados no
serán nunca vistos
 Métodos
Series temporales
Datos espaciales
Otros Métodos
Text Mining
Identificar los términos y conceptos más
frecuentemente usados en una base de
datos de textos (documentos), descubrir
asociaciones entre ellos. Extraer
información relevante y descubrir
características ocultas en bases de datos de
documentos de textos.
Otros Métodos
Text Mining
• Extraer información relevante y

descubrir características ocultas en
bases de datos de documentos de
textos.
• Características como el idioma en el
cual el texto fue escrito, nombres de
empresas, de personas, de lugares,
datos mencionados o abreviaciones.
Oportunidades para la Estadística
 Premisa: ESTADÍSTICA está siempre
relacionada con los datos
 Necesitamos una visión más amplia
 Aprender de los Datos
 Preparación de los datos
 Integración de los datos.
 Textos y voz
 Imágenes y Videos
LECTURAS
RECOMENDADAS
 Principles of Data Mining.
David Hand, Heikki Mannila, Padrhaic Smyth
MIT Press, 2001.Masschusetts.
 Data Mining. Ian H. Witten, Eibe Frank.
Morgan Kaufman Publishers.2000.
 Machine Learning
Tom Michell. Mac Graw Hill.1997
SITIOS DE INTERÉS
Kddnuggest: http://www.kdnuggets.com/
Sociedad de Data Mining: http://www.acm.org/sigkdd/
National Center for Data Mining: http://www.ncdm.uic.edu/
Data Mining en IBM: http://www.almaden.ibm.com/cs/quest/
Data Mining en Finlandia:
http://www.cs.helsinki.fi/research/pmdm/datamining/
Data Mining en Stanford: http://www-db.stanford.edu/~ullman/mining/
Otros sitios relevantes:
http://www.andypryke.com/university/sites.html#general
Grupos y Proyectos de Investigación:
http://www.andypryke.com/university/sites.html#research
SITIOS DE INTERÉS
Estándares: http://www.crisp-dm.org/
Glosario(en Inglés):
http://www.twocrows.com/glossary.htm
Software para Data Mining:
http://www.kdnuggets.com/software/
Productos comerciales:
http://www.andypryke.com/university/sites.html#comme
rcial
http://www-2.cs.cmu.edu/~awm/tutorials/

Contribucion Estadistica A Data MiningBahia Blanca

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Contribucion Estadistica A Data MiningBahia Blanca

Cargado por

Copyright:

Formatos disponibles

CONTRIBUCIÓN

 Es un Problema y una Solución

 El diseño eficiente de las investigaciones.

 Le da sentido a los datos

 Más datos colectados

 En nuestro país las técnicas de Data

 Proceso de extracción de información

 ¿Que es Data Mining?

 Aplicaciones de Data Mining

 Perspectivas de Data Mining

 Mayor dimensionalidad del problema.

4. Examinar la solución obtenida.

 How to solve it. G. Polya Double day Anchor. N.Y.

 Disminuir costos provocados por mal

 Controlar la existencia y disponibilidad de

 Investigar qué problemas requieren

 Comprender el problema desde el

 Diseñar un plan de acción

•Recolección masiva de datos.

 ¿Es un problema de ESTIMACIÓN?

 Preparación de los DATOS

 Análisis de los DATOS

 Combinación de datos de diversas fuentes,

 Realizar estudios preliminares según los

 Selección de una muestra representiva

 Utilizar métodos estadísticos y técnicas de

 Preparación de los datos estudio:

 Control de la estructura de los datos.

 Control de las interpretaciones.

 Identificación del problema.

 ¿Cuáles son las variables perturbadoras?

 ¿Cuáles son circunstancias importantes

 ¿Qué efectos laterales tienen?

 ¿Qué posibilidades existen de

. Análisis, Asimilación, Interpretaciones.

 La tecnología avanza y posibilita

 Las bases deben almacenarse y ser

Eso requiere mucho espacio en disco y

 ¿Cómo están almacenados los datos?

caso1 valor11 valor12 valor13 ... valor1p

caso2 valor21 valor22 valor23 ... valor2p

caso3 valor31 valor32 valor33 ... valor3p

cason valorn1 valorn2 valorn3 ... valornp

Estadística Data Mining

 ¿Cuáles son las variables

 ¿Cuáles son circunstancias importantes

 ¿Qué efectos laterales tienen?

 ¿Qué posibilidades existen de

 Data Mining es despapelización

7 Cuenta mínimo 50% máximo

 Técnicas "de visualización" : Facilitan la

Agrupamiento de objetos en clases sobre

Se puede utilizar para:

En todo análisis cluster existen dos fases:

y se realiza el proceso de agrupación de

Se utilizan diferentes distancias y

El propósito del análisis de agrupamientos (cluster)

 Su objetivo es producir una regla de

El análisis de datos simbólicos permite representar

En cada nodo del árbol podemos medir:

 Vecino más cercano (razonamiento basado en

Data Mining y Análisis estadístico

En nuestro país las técnicas de Data