Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contribucion Estadistica A Data MiningBahia Blanca
Contribucion Estadistica A Data MiningBahia Blanca
ESTADÍSTICA A
DATA MINING
Maestría Minería de datos
Ana Silvia Haedo
anasicorreo@outlook.com
Bahía Blanca , Junio 2019
Antecedentes
El análisis de datos existe desde que
el Rey David numeró a su pueblo y los
egipcios midieron sus campos.
Quetelet analizó datos sociales y
Galton datos biológicos hacia el 1800.
Fisher y Snedecor datos agronómicos
en los comienzos de 1900.
Fisher introdujo la matemática en el
análisis de datos y el diseño
experimental.
Neyman y Pearson introdujeron la
inferencia estadística .
y
Wald el análisis secuencial y la teoría de
la decisión.
La teoría estadística floreció después de la
II guerra mundial y su metodología ocupó
un lugar de relevancia en la evaluación de
resultados.
El análisis de datos se ha tornado
dominante en el siglo 21.
¿ Cuál es la relación?
7
ESTADÍSTICA
Crea y desarrolla métodos que
permiten:
Ventajas : La posibilidad de
describir la realidad y formular
teorías .
MOTIVACIÓN
Malas noticias. La Estadística se
demora en adaptarse al cambio
En actitud hacia los datos
En tecnología
Buenas noticias: La comunidad de
Data Mining recibe a los estadísticos
con los brazos abiertos
ESTADÍSTICA
EVOLUCIÓN HISTÓRICA
Estadística Paramétrica
No - Paramétrica
Multivariada.
Exploratoria.
Data Mining y Análisis estadístico
Data Mining
parte de un proceso conocido como
"descubrimiento de conocimiento a partir
de los datos" (KDD: Knowledge Discovery
in Databases).
DATA MINING
Las soluciones que aporta Data Mining están
basadas en la implementación, mediante
programación, de interfases de uso general y
algoritmos propios y disponibles para todos,
que permiten una exploración y organización
eficiente de los datos. Estos algoritmos apoyan
la identificación de patrones, relaciones y
anomalías de interés potencial para quienes
deben tomar decisiones.
¿Por qué Data Mining?
2. Concebir un plan.
3. Ejecutar un plan.
• FACTIBLE,
• ECONÓMICO.
DECISIÓN: ¿Cuándo y cómo elijo
cada método de evaluación?
El mismo conjunto de datos puede necesitar
diferentes herramientas y análisis cuando los
analistas tienen diferentes objetivos.
Un enfoque puede interesar a unos y no a otros.
La misma herramienta puede jugar diferentes roles
con distintos propósitos.
Fundamentals of exploratory analysis of variance. J.W. Tukey Ed. Wiley
Interscience. London1991.
¿Qué disciplinas aportan a
Data Mining ?
Base de datos
Inteligencia Artificial
Reconocimiento de patrones
Visualización
Procesamiento de Imágenes
Inteligencia Artificial
Aprendizaje de Máquina incluyendo Redes
Neuronales
Computación de alta performance
La relación entre aprendizaje de
máquina, estadística y data mining
es un poco obvia, las tres áreas
apuntan a localizar regularidades
importantes, patrones o conceptos
de datos empíricos
Hoy hay disponibilidad de
tres tecnologías:
Técnicas de visualización.
Métodos estadísticos
CONTRIBUCIÓN
ESTADÍSTICA
A
DATA MINING
Oportunidades para la
Estadística
Premisa: ESTADÍSTICA está siempre
relacionada con datos
Necesitamos una visión más amplia
Aprender de los Datos
Integrar los datos.
Textos y voz
Imágenes y Videos
Identificación del problema
ESTADÍSTICO
¿Qué problema estadístico se presenta?
Análisis exploratorio
computarizado de grandes bases
de datos que actualmente tiene
gran impacto en comercio ,
industria y ciencia
ESTILOS DEL ANÁLISIS
Interpretación y análisis de
RESULTADOS
PLANIFICAR
Colectar datos.
Organizar la explotación de los mismos.
EJECUTAR
Analizar e interpretar.
Formular modelos.
Hacer inferencias.
EVALUAR
Formular nuevos conceptos.
Preparación de datos y Data
Mining
Preparación de los datos de acuerdo al
problema en estudio
Control de la escala.
ESTUDIOS
OBSERVACIONALES
RELEVAMIENTOS MUESTRALES
Métodos Factoriales.
Jean Pierre Benzécri, 1960-1970- Francia
Analyse des données
........El Modelo debe seguir a los datos y no a la
inversa.....
Edward Tukey
Exploratory Data Analysis E.D.A
… el análisis de datos precedía a la teoría
Los pasos para un proceso de KDD
. Base de datos.
. Procesamiento.
. Transformación.
Sistemas expertos
SOFTWARE
Análisis y consolidación dinámica de
grandes bases de datos
multidimensionales.
Software adecuado para analizar bases
de datos de grandes dimensiones.
SOFTWARE
SAS
SPSS
SPAD N (Numérico)
SPAD T (Textual )
SODAS Datos Simbólicos
R
Python
Más SOFTWARE
WEKA es un Software libre en Java
Es una colección de algoritmos de
aprendizaje de máquina para tareas de
Data Mining.
Contiene herramientas para pre-
procesamiento, clasificación, regresión,
agrupamiento, asociación y visualización
de datos.
MÁS SOFTWARE
IBM Intelligent Miner.
ISL Decision Systems, INC
Silicon Graphics: “MineSet”.
Salford Systems.
Statistica Miner.
Características
Fácil consulta de las Bases de datos.
Secuencia de procedimientos de análisis.
Estilo de la interfaz windows :
Entrada flexible en íconos y menúes.
Ventanas de diálogo
Diagramas, Gráficos variados, tanto
simples como sofisticados.
Conveniente manejo de resultados
NUEVOS DOMINIOS DE
APLICACIÓN
Análisis de Imágenes
Análisis de Señales
Análisis de Procesos
Análisis de datos textuales
Análisis de datos de redes sociales
NUEVOS DESAFÍOS
SU REGISTRO,
PROCESAMIENTO
Y VISUALIZACIÓN
CONJUNTOS DE DATOS
MULTIVARIADOS
...
1 Datos Univariados.
2 Datos Bivariados.
3 Datos Trivariados.
4 Datos Multivariados.
¿Cuáles son las respuestas?
Métodos Factoriales.
Agrupamiento – Clasificación
Métodos probabilísticos.
Despapelización
TABLAS
CÁLCULOS
GRÁFICOS
En Data mining Gráfico se refiere a
la estructura de los datos y a las r
relaciones entre ellos.
Exploratorios
DATOS UNIVARIADOS
Box plot
5
Mediana
3
1 0 20
DATOS BIVARIADOS
Nube de puntos
costo
kilometraje
DATOS TRIVARIADOS
Nube de puntos 3D
costo
potencia
kilometraje
Visualización
Es la representación de grandes volúmenes de datos
para su comprensión y presentar lo que los datos
presentan
Las representaciones son vitales para comprender las
estructuras de los datos y las decisiones tomadas
Técnicas De Visualización
Var 1
Las n variables tienen
Var 2 ángulos iguales sobre la
circunferencia
Value
La distancia al centro
representa el valor de cada
Var 4 Var 3
variable
Técnicas de visualización
Gráfico de estrellas
4
3
1 2
Caras de Chernoff (1)
http://www.math.yorku.ca/SCS/sasmac/faces.html
Técnicas de visualización
Gráficos históricos
Campaña de Napoleón
Los estadísticos debemos
involucranos.
¿CÓMO?
Publicando trabajos en revistas
estadísticas.
Impartiendo curso a estudiantes de grado.
Incluyendo nuevos temas en cursos y
seminarios.
Incorporando tópicos de Informática y
computación.
Métodos Estadísticos
Componentes principales
Análisis de Agrupamiento
Análisis de Correspondencias
Análisis discriminante
Regresión Logística
Análisis de datos simbólicos
Componentes principales
En el caso de variables continuas, esta
metodología permite sintetizar la mayor
parte de la información contenida en los
datos mediante combinaciones lineales de
las variables originales.
Componentes principales
Los objetivos son:
a) Generar nuevas variables que puedan
expresar la información contenida en el
conjunto original de datos.
b) Reducir la dimensión del problema
c) Eliminar algunas de las variables originales
si ellas aportan poca información.
ANÁLISIS EN COMPONENTES
PRINCIPALES
Análisis de Correspondencias
Análisis de Agrupamiento (Cluster)
Predecir la pertenencia a una clase de una
observación particular, con base en un
conjunto de variables predictoras.
El objetivo básico es producir una regla de
clasificación tal que permita predecir a qué
población es más probable que pertenezca
una observación.
Análisis discriminante
Métodos Estadísticos
Regresión Logística
Este modelo establece una relación entre la
probabilidad de ocurrencia de una variable de
respuesta dicotómica, y las variables
explicativas categóricas o continuas.
En Data Mining es de interés saber cuál es la
probabilidad de que un individuo pertenezca a
un determinado grupo.
DATOS SIMBÓLICOS
Esta nueva metodología se basa en el Análisis de
Datos, grupo de técnicas que tomando distancia de la
estadística clásica, se proponen ayudar a descubrir
regularidades o estructuras de respuestas de grandes
conjuntos multidimensionales de unidades
En ellas no son necesarios supuestos ni modelos a
priori, con el Análisis de Datos Simbólicos es posible
otra vuelta de tuerca hacia conocimiento de una
realidad que en la mayoría de los casos se nos
presenta difusa
DATOS SIMBÓLICOS
Los datos simbólicos, introducidos por Edwin Diday en
los ochenta, se ocupan del análisis de datos con
variabilidad intrínseca .
Kddnuggest: http://www.kdnuggets.com/
Sociedad de Data Mining: http://www.acm.org/sigkdd/
National Center for Data Mining: http://www.ncdm.uic.edu/
Data Mining en IBM: http://www.almaden.ibm.com/cs/quest/
Data Mining en Finlandia:
http://www.cs.helsinki.fi/research/pmdm/datamining/
Data Mining en Stanford: http://www-db.stanford.edu/~ullman/mining/
Otros sitios relevantes:
http://www.andypryke.com/university/sites.html#general
Grupos y Proyectos de Investigación:
http://www.andypryke.com/university/sites.html#research
SITIOS DE INTERÉS
Estándares: http://www.crisp-dm.org/
Glosario(en Inglés):
http://www.twocrows.com/glossary.htm
Software para Data Mining:
http://www.kdnuggets.com/software/
Productos comerciales:
http://www.andypryke.com/university/sites.html#comme
rcial
http://www-2.cs.cmu.edu/~awm/tutorials/