Está en la página 1de 6

1.

Define cada una de las siguientes funcionalidades de minería de datos:


a. Caracterización
La caracterización de datos es un resumen de las características o características generales de una
clase de datos objetivo. Los datos correspondientes a la clase especificada por el usuario
generalmente son recopilados por una consulta.
El resultado de la caracterización de datos se puede presentar en varias formas. Los ejemplos
incluyen gráficos circulares, gráficos de barras, curvas, cubos de datos multidimensionales y tablas
multidimensionales, incluidas las tablas cruzadas.

b. Discriminación
La discriminación de datos es una comparación de las características generales de los objetos de
datos de la clase objetivo con las características generales de los objetos de una o múltiples clases
de contraste. El usuario puede especificar las clases de destino y de contraste, y los objetos de datos
correspondientes se pueden recuperar a través de consultas de la base de datos.
Las formas de presentación de la salida son similares a las de las descripciones características,
aunque las descripciones de discriminación deben incluir medidas comparativas que ayuden a
distinguir entre el objetivo y las clases contrastantes. Las descripciones de discriminación expresadas
en forma de reglas se denominan reglas discriminantes.

c. Asociación
El objetivo de la asociación es encontrar elementos que implican la preencia de otros elementos
dentro de una misma transacción. El resultado de esta técnica son reglas tel tipo “if X -then Y”. En
las reglas, X se denomina cabeza de la rega, e Y se denomina cuerpo. Uno de los algoritmos de
asociación más utilizados es A priori a elementos. Lo que hace es contar las ocurrencias de todos
los elementos presentes en las transacciones de la base de datos y crear un vector donde cada uno
de sus elementos lleva una cuenta de un elemento de la base de datos. Aquéllas celdas del vector
cuyo valor esté por debajo del nivel de soporte (umbral) se ignoran.

d. Clasificación
La clasificación es el
proceso de encontrar un
modelo (o función) que
describe y distingue clases
o conceptos de datos.
Los modelos se
derivan del análisis de un
conjunto de datos de
entrenamiento (es decir,
objetos de datos para
los que se conocen las
etiquetas de clase). El
modelo se usa para
predecir la etiqueta de
clase de los objetos para
los que se desconoce la etiqueta de clase.
Un modelo de clasificación puede ser representado en varias formas: reglas IF – THEN; Árboldes de
desición; Redes Neuronales.

e. Predicción
El término predicción se refiere tanto a la predicción numérica como a la predicción de etiqueta de
clase. El análisis de regresión es una metodología estadística que se usa con mayor frecuencia para
la predicción numérica, aunque también existen otros métodos. La regresión también abarca la
identificación de tendencias de distribución basadas en los datos disponibles.
Data mining automatiza el proceso de obtención de información predictiva en bases de datos muy
grandes. Algunas cuestiones que han requerido tradicionalmente complejos cálculos manuales
pueden responderse directa y rápidamente a partir de los datos. Data mining utiliza los datos
procedentes de pasadas campañas promocionales para identificar los objetivos que con mayor
probabilidad harán rentables futuras campañas.

f. Agrupamiento
La agrupación analiza objetos de datos sin consultar las etiquetas de clase. En muchos casos, los
datos etiquetados por clase pueden simplemente no existir al principio. La agrupación se puede
utilizar para generar etiquetas de clase para un grupo de datos. Los objetos se agrupan según el
principio de maximizar la similitud intraclase y minimizar la similitud interclase. Es decir, los grupos
de objetos se forman de manera que los objetos dentro de un grupo tienen una gran similitud en
comparación entre sí, pero son bastante diferentes a los objetos en otros grupos. Cada grupo así
formado puede verse como una clase de objetos, de los cuales se pueden derivar reglas. La
agrupación también puede facilitar la formación de taxonomías, es decir, la organización de
observaciones en una jerarquía de clases que agrupan eventos similares.

2. Da ejemplos de cada una de las funcionalidades mencionadas anteriormente.

a. Caracterización
En la tienda AllElectronics, las clases de artículos a la venta incluyen computadoras e impresoras, y
los conceptos de clientes incluyen bigSpenders y budgetSpenders. Puede ser útil describir clases y
conceptos individuales en términos resumidos, concisos y precisos. Dichas descripciones de una
clase o un concepto se denominan descripciones de clase / concepto. Estas descripciones pueden
derivarse usando (1) caracterización de datos, resumiendo los datos de la clase en estudio (a
menudo llamada la clase objetivo) en términos generales, o (2) discriminación de datos, en
comparación de la clase objetivo con uno o un conjunto de clases comparativas (a menudo llamadas
clases contrastantes) o (3) caracterización y discriminación de datos.
Un administrador de relaciones con el cliente en AllElectronics puede realizar la siguiente tarea de
minería de datos: Resumir las características de los clientes que gastan más de $ 5000 al año en
AllElectronics. El resultado es un perfil general de estos clientes, como que tienen entre 40 y 50
años, están empleados y tienen excelentes calificaciones crediticias. El sistema de minería de datos
debe permitir al gerente de relaciones con el cliente profundizar en cualquier dimensión, como la
ocupación, para ver a estos clientes de acuerdo con su tipo de empleo.

b. Discriminación
Un gerente de relaciones con clientes de AllElectronics puede querer comparar dos grupos de
clientes: aquellos que compran productos informáticos regularmente (por ejemplo, más de dos veces
al mes) y aquellos que rara vez compran dichos productos (por ejemplo, menos de tres veces al
año). La descripción resultante proporciona un perfil comparativo general de estos clientes, como
que el 80% de los clientes que compran productos informáticos con frecuencia tienen entre 20 y 40
años y tienen educación universitaria, mientras que el 60% de los clientes que compran dichos
productos con poca frecuencia ya sean personas mayores o jóvenes, y no tienen título universitario.
Profundizar en una dimensión como la ocupación, o agregar una nueva dimensión como el nivel de
ingresos, puede ayudar a encontrar características aún más discriminatorias entre las dos clases.

c. Asociación
Suponga que, como gerente de marketing de AllElectronics, desea saber qué artículos se compran
frecuentemente juntos (es decir, dentro de la misma transacción). Un ejemplo de dicha regla,
extraída de la base de datos transaccional de AllElectronics, es
compra (X, "computadora") ⇒ compra (X, "software") [soporte = 1%, confianza = 50%],
donde X es una variable que representa a un cliente. Una confianza o certeza del 50% significa que
si un cliente compra una computadora, existe una probabilidad del 50% de que también compre
software. Un soporte del 1% significa que el 1% de todas las transacciones bajo análisis muestran
que la computadora y el software se compran juntos. Esta regla de asociación implica un solo
atributo o predicado (es decir, compra) que se repite. Las reglas de asociación que contienen un
predicado único se denominan reglas de asociación unidimensionales.

d. Clasificación y Predicción
Supongamos que, como gerente de ventas de AllElectronics, desea clasificar un gran conjunto de
artículos en la tienda, en función de tres tipos de respuestas a una campaña de ventas: buena
respuesta, respuesta moderada y sin respuesta. Desea obtener un modelo para cada una de estas
tres clases en función de las características descriptivas de los artículos, como el precio, la marca,
el lugar, el tipo y la categoría. La clasificación resultante debe distinguir al máximo cada clase de las
demás, presentando una imagen organizada del conjunto de datos.
Suponga que la clasificación resultante se expresa como un árbol de decisión. El árbol de decisión,
por ejemplo, puede identificar el precio como el factor único que mejor distingue las tres clases. El
árbol puede revelar que, además del precio, otras características que ayudan a distinguir aún más
los objetos de cada clase incluyen la marca y el lugar. Tal árbol de decisión puede ayudarlo a
comprender el impacto de la campaña de ventas dada y diseñar una campaña más efectiva en el
futuro.
Supongamos, en cambio, que en lugar de predecir etiquetas de respuesta categóricas para cada
artículo de la tienda, le gustaría predecir la cantidad de ingresos que generará cada artículo durante
una próxima venta en AllElectronics, en función de los datos de ventas anteriores.

e. Agrupamiento
El análisis de conglomerados se puede realizar en los datos de clientes de AllElectronics para
identificar subpoblaciones homogéneas de clientes. Estos grupos pueden representar grupos
objetivo individuales para el marketing.

3. Especifica claramente cuál es la diferencia entre discriminación y clasificación.


Discriminación se refiere a la comparación de las características generales de los objetos de datos,
mientras que la clasificación se refiere a encontrar un modelo (o función) que describe y distingue
clases o conceptos de datos.

4. Especifica claramente cuál es la diferencia entre caracterización y agrupamiento.


Caracterización se refiere a un resumen de las características o características generales de una
clase de datos objetivo, mientras que agrupamiento se refiere al análisis de objetos de datos sin
consultar las etiquetas de clase

5. ¿Cuál es la diferencia entre clasificación y predicción?


La clasificación se refiere a encontrar un modelo (o función) que describe y distingue clases o
conceptos de datos, mientras que la predicción abarca la identificación de tendencias de
distribución basadas en los datos disponibles.

Bibliografía
Han, J. (2012). Data Mining Concepts and Techniques. Walthman, MA.: Morgan Kaufmann.
Pérez, C. (2006). Data Mining: Soluciones con Enterprise Miner. Madrid: Alfaomega.
SECCIÓN B

• Libros especializados. Incluir su referencia en APA y/o link en Amazon, indicar si el ebook en PDF
estuviese disponible o descargable.

Data Mining for Scientific and Engineering Applications


DOIhttps://doi.org/10.1007/978-1-4615-1733-7

Copyright InformationSpringer Science+Business Media Dordrecht 2001


Publisher NameSpringer, Boston, MA
eBook PackagesSpringer Book Archive
Print ISBN978-1-4020-0114-7
Online ISBN978-1-4615-1733-7
Series Print ISSN1569-2698
Series Online ISSN2468-8738

TY - JOUR
AU - Bharati, M.
AU - Ramageri
PY - 2010/12/01
SP -
T1 - DATA MINING TECHNIQUES AND APPLICATIONS
VL -1
JO - Indian Journal of Computer Science and Engineering
ER -

Scientific Data Mining: A practical perspective


Chandrika Kamath
Lawrence Livermore National Laboratory Livermore, California
Society for Industrial an Applied Mathematics Philadelphia @ 2009
Link de descarga:
https://pdfs.semanticscholar.org/c985/8dd5a6768661346c7d6321d9d750c4f0e46c.pdf

• Cursos en línea (p. e. en coursera, datacamp, Udemy, platzi, etc). Incluir breve descripción, costo,
idioma, etc. y link al recurso.
La Especialización en minería de datos enseña técnicas de minería de datos tanto para datos
estructurados que se ajustan a un esquema claramente definido como para datos no estructurados
que existen en forma de texto en lenguaje natural. Los temas específicos del curso incluyen
descubrimiento de patrones, agrupamiento, recuperación de texto, minería de texto y análisis y
visualización de datos. La tarea del proyecto Capstone es resolver los desafíos de minería de datos
del mundo real utilizando un conjunto de datos de revisión de restaurantes de Yelp.

Los cursos 2 - 5 de esta especialización forman el componente de clase de los cursos en el Máster
en línea de informática en ciencias de datos. Puede postularse al programa de grado antes o después
de comenzar la Especialización.

En este curso, aprenderás de manera gradual y práctica los conceptos básicos de Minería de Datos,
junto a los algoritmos más utilizados hoy en día. Al finalizar el curso, serás capaz de entender la
importancia de manejar la información y de explorar por ti mismo distintas bases de datos reales.
Este curso es el primer paso para convertirte en un/a profesional con habilidades básicas de un
científico de datos o Data Scientist, de manera tal que puedas abrirle la puerta al futuro.

Descubra los conceptos básicos del análisis de conglomerados y luego estudie un conjunto de
metodologías, algoritmos y aplicaciones de conglomerados típicos. Esto incluye métodos de partición
como k-means, métodos jerárquicos como BIRCH y métodos basados en la densidad como DBSCAN
/ OPTICS. Además, aprenda métodos para la validación y evaluación de la calidad de la agrupación.
Finalmente, vea ejemplos de análisis de clúster en aplicaciones.

También podría gustarte