10 Preguntas Data Mining Unidad 1

10 PREGUNTAS CAPÍTULO 1
Ana Caren Ticante Hernández
1. ¿Qué es la minería de datos? En su respuesta, aborde lo siguiente:
(a) ¿Es otra exageración?
La minería de datos es el descubrimiento de conocimiento a partir de los datos, no es un concepto

exagerado ya que ha surgido como resultado de la evolución natural de la información donde se
ha buscado convertir la gran cantidad de datos existentes en conocimiento que pueda dar solución
a distintos problemas de la sociedad y que en un principio eran sólo datos que no se estaban
aprovechando.
(b) ¿Es una simple transformación o aplicación de tecnología desarrollada a partir de bases de datos,
estadísticas, aprendizaje automático y reconocimiento de patrones?
La minería de datos no es una simple transformación o aplicación de tecnología desarrollada a

partir de bases de datos, estadísticas, aprendizaje automático y reconocimiento de patrones, si no
que se basa en la integración de estos y en el surgimiento de nuevas disciplinas y técnicas.
(c) Hemos presentado una visión de que la minería de datos es el resultado de la evolución de la
tecnología de bases de datos. ¿Crees que la minería de datos también es el resultado de la evolución
de la investigación del aprendizaje automático? ¿Puede presentar tales puntos de vista basados en
el progreso histórico de esta disciplina? Abordar lo mismo para los campos de estadísticas y
reconocimiento de patrones.
Después de la creación de las bases de datos se condujo al desarrollo de mecanismos efectivos para
la gestión, almacenamiento y recuperación de datos, después hubo una necesidad de analizar
grandes cantidades de datos, para obtener información útil de estos datos.
(d) Describa los pasos involucrados en la minería de datos cuando se ve como un proceso de
descubrimiento de conocimiento.
Los pasos son:
I. Limpieza de datos, un proceso que elimina o transforma el ruido y los datos inconsistentes.
II. Integración de datos, donde se pueden combinar múltiples fuentes de datos.
III. Selección de datos, donde los datos relevantes para la tarea de análisis se recuperan de la base
de datos.
IV. Transformación de datos, donde los datos se transforman o consolidan en formas apropiadas
para la minería.
V. Minería de datos, un proceso esencial donde se aplican métodos inteligentes y eficientes para
extraer patrones.
VI. Evaluación de patrones, un proceso que identifica los patrones verdaderamente interesantes
que representan el conocimiento basado en algunas medidas de interés.
VII. Presentación del conocimiento, donde se utilizan técnicas de visualización y representación del
conocimiento para presentar el conocimiento extraído al usuario.
2. ¿En qué se diferencia un almacén de datos de una base de datos? ¿En qué se parecen?
Las diferencias son que un almacén de datos es un contenedor de información recopilada de

diversas fuentes en un lapso de tiempo determinado y utilizado para análisis de datos mientras
que una base de datos es una colección de datos que representa el estado actual de los datos
almacenados.
Los almacenes de datos y las bases de datos coinciden en que ambos son contenedores de grandes
cantidades de información.
3. Defina cada una de las siguientes funcionalidades de minería de datos: caracterización,

discriminación, asociación y análisis de correlación, clasificación, regresión, agrupación y análisis de
valores atípicos. Dé ejemplos de cada funcionalidad de minería de datos, utilizando una base de datos
de la vida real con la que esté familiarizado.
Caracterización, resumen de las características generales de una clase de datos, por ejemplo, en base
a los datos recolectados en el ITSM, una caracterización serían las características obtenidas de los
alumnos de Ingeniería ambiental, por ejemplo, sus promedios.
Discriminación, es una comparación de las características generales de los objetos de datos de la
clase objetivo con las características generales de los objetos de una o un conjunto de clases
contrastantes. Por ejemplo, la comparación de las características de los estudiantes de ingeniera
ambiental con los estudiantes de ingeniería industrial de los alumnos del ITSM.
Asociación, es el descubrimiento de reglas de asociación que muestran condiciones de valor de
atributo que ocurren frecuentemente juntas en un conjunto de datos dado.
Clasificación, esta busca predecir algunos valores de datos faltantes o no disponibles, y a menudo
numéricos, se usa para predecir la etiqueta de clase de los objetos de datos.
Agrupamiento, analiza objetos de datos sin consultar una etiqueta de clase conocida. Los objetos se
agrupan o agrupan según el principio de maximizar la similitud intraclase y minimizar la similitud
entre clases.
Análisis de evolución de datos, describe y modela las regularidades o tendencias de los objetos cuyo
comportamiento cambia con el tiempo.
4. Presente un ejemplo donde la minería de datos es crucial para el éxito de una empresa. ¿Qué
funcionalidades de minería de datos necesita esta empresa (por ejemplo, piense en los tipos de
patrones que podrían extraerse)? ¿Se pueden generar tales patrones alternativamente mediante el
procesamiento de consultas de datos o un análisis estadístico simple?
El ejemplo mas usado, es el de las cadenas departamentales, ya que aquí se manejan grandes
cantidades de datos de los compradores y se pueden encontrar patrones de acuerdo con los
productos que consumen. Esta información puede ser utilizada para publicidad o servicio al cliente.
5. Explique la diferencia y similitud entre discriminación y clasificación, entre caracterización y

agrupamiento, y entre clasificación y regresión.
La discriminación es diferente de la clasificación en que la primera se refiere a una comparación de

las características generales de los objetos de datos de la clase objetivo con las características
generales de los objetos de una o un conjunto de clases contrastantes, mientras que la segunda es
el proceso de encontrar un conjunto de modelos que describen y distinguen clases de datos o
conceptos con el fin de poder usar el modelo para predecir la clase de objetos cuya etiqueta de
clase es desconocida. La discriminación y la clasificación son similares en que ambas tratan el
análisis de objetos de datos de clase.
La caracterización es diferente de la agrupación en que la primera se refiere a un resumen de las

características o características generales de una clase de datos objetivo, mientras que la segunda
se ocupa del análisis de objetos de datos sin consultar una etiqueta de clase conocida. Este par de
tareas es similar en el sentido de que ambas se ocupan de agrupar objetos o datos relacionados o
que tienen una gran similitud entre sí.
La clasificación es diferente de la predicción en que la primera es el proceso de encontrar un

conjunto de modelos que describen y distinguen la clase de datos o conceptos, mientras que la
segunda predice valores de datos faltantes o no disponibles, y a menudo numéricos. Este par de
tareas es similar en que ambas son herramientas para la predicción: la clasificación se usa para
predecir la etiqueta de clase de los objetos de datos y la predicción se usa generalmente para
predecir valores de datos numéricos faltantes.
6. Con base en sus observaciones, describa otro posible tipo de conocimiento que necesita ser
descubierto por los métodos de minería de datos pero que no se ha enumerado en este capítulo.
¿Requiere una metodología de minería que sea bastante diferente de las descritas en este capítulo?
Probablemente si surjan nuevos tipos de conocimiento, sin embargo, en este momento no se me

ocurre ninguno.
7. Los valores atípicos a menudo se descartan como ruido. Sin embargo, la basura de una persona
podría ser el tesoro de otra. Por ejemplo, las excepciones en las transacciones con tarjeta de crédito
pueden ayudarnos a detectar el uso fraudulento de las tarjetas de crédito. Utilizando la detección de
fraudulencia como ejemplo, proponga dos métodos que se puedan usar para detectar valores
atípicos y discutir cuál es más confiable.
Uso de técnicas de agrupación y de predicción o regresión. Los de agrupación representan los

diferentes tipos de datos, los que se basan en densidad son una buena opción. Los de predicción
necesitan de la distribución de los datos.
8. Describa tres desafíos para la minería de datos con respecto a la metodología de minería de datos y
los problemas de interacción del usuario.
Primero, los datos de muestra a menudo son escasos en el sentido multidimensional. Cuando un
usuario profundiza en los datos, es fácil llegar a un punto con muy pocas o ninguna muestra, incluso
cuando el tamaño total de la muestra es grande. En segundo lugar, con datos de muestra, se utilizan
métodos estadísticos para proporcionar una medida de fiabilidad para indicar la calidad de la
respuesta de la consulta en lo que respecta a la población.
9. ¿Cuáles son los principales desafíos de extraer una gran cantidad de datos (por ejemplo, miles de
millones de tuplas) en comparación con la extracción de una pequeña cantidad de datos (por
ejemplo, un conjunto de datos de unos pocos cientos de tuplas)?
La construcción de herramientas de minería de datos eficaces y eficientes para diversas

aplicaciones sigue siendo un área de investigación desafiante y activa. El descubrimiento de
conocimiento de diferentes fuentes de datos estructurados, semiestructurados o no estructurados
pero interconectados con una semántica de datos diversa plantea grandes desafíos para la minería
de datos. La extracción de redes de información tan gigantescas e interconectadas puede ayudar a
revelar muchos más patrones y conocimientos en conjuntos de datos heterogéneos que los que se
pueden descubrir en un pequeño conjunto de repositorios de datos aislados. La minería web, la
minería de datos de múltiples fuentes y la minería de redes de información se han convertido en
campos de minería de datos desafiantes y en rápida evolución.
10. Resuma los principales desafíos de investigación de la minería de datos en un dominio de aplicación
específico, como el análisis de datos de flujo / sensor, análisis de datos espacio-temporales o
bioinformática.
A medida que continúan surgiendo nuevos tipos de datos, nuevas aplicaciones y nuevas demandas
de análisis, no hay duda de que veremos más y más nuevas tareas de minería de datos en el futuro.
Hay muchos problemas desafiantes en la investigación de minería de datos. Las áreas incluyen
metodología de minería, interacción del usuario, eficiencia y escalabilidad, y manejo de diversos
tipos de datos. La investigación de minería de datos ha impactado fuertemente a la sociedad y
continuará haciéndolo en el futuro.

10 Preguntas Data Mining Unidad 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

10 Preguntas Data Mining Unidad 1

Cargado por

Copyright:

Formatos disponibles

10 PREGUNTAS CAPÍTULO 1

Ana Caren Ticante Hernández

1. ¿Qué es la minería de datos? En su respuesta, aborde lo siguiente:

(a) ¿Es otra exageración?

La minería de datos es el descubrimiento de conocimiento a partir de los datos, no es un concepto

La minería de datos no es una simple transformación o aplicación de tecnología desarrollada a

Los pasos son:

Las diferencias son que un almacén de datos es un contenedor de información recopilada de

3. Defina cada una de las siguientes funcionalidades de minería de datos: caracterización,

5. Explique la diferencia y similitud entre discriminación y clasificación, entre caracterización y

La discriminación es diferente de la clasificación en que la primera se refiere a una comparación de

La caracterización es diferente de la agrupación en que la primera se refiere a un resumen de las

La clasificación es diferente de la predicción en que la primera es el proceso de encontrar un

Probablemente si surjan nuevos tipos de conocimiento, sin embargo, en este momento no se me

Uso de técnicas de agrupación y de predicción o regresión. Los de agrupación representan los

La construcción de herramientas de minería de datos eficaces y eficientes para diversas

También podría gustarte