Carta de Postulación Dad

PART I.
Teoría (40 puntos)
Responda las siguientes preguntas:
1. Identifique tres casos de éxito reales de áreas de aplicación y los problemas que
se han resuelto con Minería de Datos. Indique empresa, problema a resolver,
software, modelo o algoritmo, problema, resultados obtenidos, etc. (10 puntos).
A) Hospital Universitario de San Juan de Alicante
Objetivo: Reducción de costes al permitir un óptimo consumo de recursos.
Problema planteado: Las pruebas preparatorias que se llevan a cabo antes de

cualquier intervención suelen ser excesivas, invasivas, caras y generan listas
de espera para la intervención.
Solución: Analizando los datos del histórico de operaciones y aplicando

técnicas de Minería de Datos se descubren aquellos casos en que dichas
pruebas son prescindibles. El sistema de calidad proporciona información
detallada del resultado de la operación, de forma que aquellos casos en los
que no se han realizado las pruebas y sí hubiesen sido necesarias permiten al
sistema seguir aprendiendo y mejorar la identificación de los patrones
adecuados.
B) Portal B2B Neumáticos Soledad
Objetivo: Aumentar las ventas a través del portal.
Problema planteado: Cómo modificar el portal de compra online que usan los
talleres asociados para aumentar las ventas por este canal.
Solución: Extraer patrones de comportamiento de los usuarios sobre el motor

de búsquedas del portal, analizando aquellas búsquedas que terminan en
pedido y las que no.
C) Goldcar
Objetivo: Reducción de gastos anticipándose a problemas derivados de la

demanda.
Problema planteado: Las reservas a través de su portal online que no terminan

en alquiler generan grandes gastos. Como no se requiere pago previo para
realizar una reserva, muchos usuarios no se presentar a recoger el coche
reservado. Esto genera grandes gastos por los coches que quedan esperando
a esos usuarios que nunca llegan.
Solución: Por medio del análisis de los datos de las reservan se identifican
perfiles concretos que terminan en casos de reservas canceladas o clientes no
presentados, en función de la la procedencia, la temporada, antelación y otros
factores clave.
2. Explique 5 técnicas de minería de datos y en qué casos prácticos se puede aplicar
cada una de ellas (10 puntos).
Las técnicas de la minería de datos provienen de la inteligencia artificial y de la

estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
A) Redes neuronales: Son un paradigma de aprendizaje y procesamiento

automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red
neuronal son:
A) Perceptron
Es un modelo concebido como un sistema capaz de realizar tareas de
clasificación de forma automática, a partir de un conjunto de ejemplo con
clases diferentes.
B) Perceptrón multicapa
Es una red neuronal artificial (RNA) formada por múltiples capas, de tal
manera que tiene capacidad para resolver problemas que no son
linealmente separables, lo cual es la principal limitación del perceptrón
(también llamado perceptrón simple). El perceptrón multicapa puede estar
totalmente o localmente conectado. En el primer caso cada salida de una
neurona de la capa "i" es entrada de todas las neuronas de la capa "i+1",
mientras que en el segundo cada neurona de la capa "i" es entrada de una
serie de neuronas (región) de la capa "i+1".
C) Mapa autoorganizado
Un mapa auto-organizado (SOM por sus siglas en inglés) o un mapa auto-

organizado de características (SOFM por sus siglas en inglés) es un tipo de
red neuronal artificial (ANN por sus siglas en inglés), que es entrenada
usando aprendizaje no supervisado para producir una representación
discreta del espacio de las muestras de entrada, llamado mapa. Los mapas
auto-organizados son diferentes de otras redes neuronales artificiales, en
el sentido que estos usan una función de vecindad para preservar las
propiedades topológicas del espacio de entrada.
B) Regresión lineal
Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero
insuficiente en espacios multidimensionales donde puedan relacionarse más
de 2 variables.
C) Árboles de decisión
Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la

inteligencia artificial y el análisis predictivo, dada una base de datos se
construyen estos diagramas de construcciones lógicas, muy similares a los
sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos:
A) Algoritmo ID3
El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su

uso se engloba en la búsqueda de hipótesis o reglas en él, dado un
conjunto de ejemplos.
El conjunto de ejemplos deberá estar conformado por una serie de tuplas

de valores, cada uno de ellos denominados atributos, en el que uno de
ellos, ( el atributo a clasificar ) es el objetivo, el cual es de tipo binario (
positivo o negativo, sí o no, válido o inválido, etc. ).
De esta forma el algoritmo trata de obtener las hipótesis que clasifiquen

ante nuevas instancias, si dicho ejemplo va a ser positivo o negativo.
ID3 realiza esta labor mediante la construcción de un árbol de decisión.
Los elementos son:
 Nodos: Los cuales contendrán atributos.

 Arcos: Los cuales contienen valores posibles del nodo padre.
 Hojas: Nodos que clasifican el ejemplo como positivo o negativo.
B) Algoritmo C4.5
C4.5 es un algoritmo usado para generar un árbol de decision desarrollado

por Ross Quinlan.
C4.5 es una extensión del algoritmo ID3 desarrollado anteriormente por

Quinlan. Los árboles de decisión generados por C4.5 pueden ser usados
para clasificación, y por esta razón, C4.5 está casi siempre referido como
un clasificador estadístico.
D) Modelos estadísticos
Es una expresión simbólica en forma de igualdad o ecuación que se emplea en

todos los diseños experimentales y en la regresión para indicar los diferentes
factores que modifican la variable de respuesta.
E) Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de vectores según criterios

habitualmente de distancia; se tratará de disponer los vectores de entrada de
forma que estén más cercanos aquellos que tengan características comunes.
Ejemplos:
A) Algoritmo K-means
K-means (medias) es un método de agrupamiento, que tiene como objetivo
la partición de un conjunto de n observaciones en k grupos en el que cada
observación pertenece al grupo cuyo valor medio es más cercano. Es un
método utilizado en minería de datos.
La agrupación del conjunto de datos puede ilustrarse en una partición del

espacio de datos en celdas de Voronoi.
El problema es computacionalmente difícil (NP-hard). Sin embargo, hay

eficientes heurísticas que se emplean comúnmente y convergen
rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos
expectation-maximization de mezclas de distribuciones gausianas por
medio de un enfoque de refinamiento iterativo empleado por ambos
algoritmos. Además, los dos algoritmos usan los centros que los grupos
utilizan para modelar los datos, sin embargo k-medias tiende a encontrar
grupos de extensión espacial comparable, mientras que el mecanismo
expectation-maximization permite que los grupos tengan formas diferentes.
B) Algoritmo K-medoids
k-medoids es un algoritmo de agrupamiento (del inglés clustering)

relacionado con los algoritmos k-means y medoidshift.
Tanto el k-medoids como el k-means son algoritmos que trabajan con
particiones (dividiendo el conjunto de datos en grupos) y ambos intentan
minimizar la distancia entre puntos que se añadirían a un grupo y otro
punto designado como el centro de ese grupo. En contraste con el
algoritmo k-means, k-medoids escoge datapoints como centros y trabaja
con una métrica arbitraria de distancias entre datapoints en vez de usar la
norma l2. En 1987 se propuso este método para el trabajo con la norma l1 y
otras distancias.
K-medoid es una técnica clásica de particionado de grupos que divide los
datos conformados por n objetos en k grupos (con k conocido de
antemano).
Es más robusto ante el ruido y a partes aisladas que k-means porque

minimiza una suma de disimilaridades (entre pares de puntos) en vez de
una suma de distancias euclidianas cuadradas.
3. Explique la importancia del proceso KDD y sus principales etapas en el uso de

minería de datos (10 puntos).
etapas en el proceso:
A) Selección de datos:
Consiste en buscar el objetivo y las herramientas del proceso de minería,
identificando los datos que han ser extraídos, buscando los atributos
apropiados de entrada y la información de salida para representar la tarea.
Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que se
quiere obtener y cuáles son los datos que nos facilitarán esa información para
poder llegar a nuestra meta, antes de comenzar el proceso en tal.
B) Limpieza de datos.
En este paso se limpian los datos sucios, incluyendo los datos incompletos
(donde hay atributos o valores de atributos perdidos), el ruido (valores
incorrectos o inesperados) y datos inconsistentes (conteniendo valores y
atributos con nombres diferentes). Los datos sucios en algunos casos deben
ser eliminados ya que pueden contribuir a un análisis inexacto y resultados
incorrectos.
C) Integración de datos
Combina datos de múltiples procedencias incluyendo múltiples bases de datos,

que podrían tener diferentes contenidos y formatos.
D) Transformación de datos
Consisten principalmente en modificaciones sintácticas llevadas a cabo sobre

datos sin que supongan un cambio para la técnica de minería aplicada. Las
transformaciones discretas de los datos[HLT99] tienen la ventaja de que
mejoran la comprensión de las reglas descubiertasal transformar los datos de
bajo nivel en datos de alto nivel y también reduceSignificativamente el tiempo
de ejecución del algoritmo de búsqueda. Su principal Desventaja es que se
puede reducir la exactitud del conocimiento descubierto, debido a que puede
causar la perdida de alguna información. Existen diferentes métodos de
transformación de variables continuas a discretas que se pueden agrupar
según distintas aproximaciones: métodos locales (realizan la transformación
discreta en una región del espacio de las instancias, por ejemplo, utilizando un
subconjunto de las instancias), métodos globales (utilizan el espacio de las
instancias), métodos supervisados (utilizan la información de la clave (valor del
atributo objetivo).
E) Reducción de datos.
Reducir el tamaño de los datos, encontrando las características más

significativas dependiendo del objetivo del proceso.
Se pueden utilizar métodos de transformación para reducir el número efectivo

de variables a ser consideradas, o para encontrar otras representaciones de
los datos.
I) Reducción de dimensiones (la extracción irrelevante y débil de

atributo), compresión de datos (reemplazando valores de datos con
datos alternativos codificados)
II) Reducción de tamaño (reemplazando valores de datos con
representación alternativa más pequeña)
III) Una generalización de datos (reemplazando valores de datos de

niveles conceptuales bajos con niveles conceptuales más altos), etc.
F) Minería de Datos.
Consiste en la búsqueda de los patrones de interés que pueden expresarse como

un modelo o simplemente que expresen dependencia de los datos.
Se tiene que especificar un criterio de preferencia para seleccionar un modelo de

un conjunto de posibles modelos. También se tiene que especificar la estrategia
de búsqueda a utilizar (normalmente está determinado en el algoritmo de minería).
G) Evaluación de los patrones
Se identifican verdaderamente patrones interesantes que representan

conocimiento usando diferentes técnicas incluyendo análisis estadísticos y
lenguajes de consultas.
H) Interpretación de resultados
Consiste en entender los resultados del análisis y sus implicaciones y puede llevar
a regresar a algunos de los pasos anteriores.
4. Desarrolle un cuadro comparativo con 5 ventajas y 5 desventajas de cuatro

herramientas de software de minería de datos. Señale para cada herramienta
información de fabricante, sitio web, sistema operativo, precio licencia, etc. (10
puntos).
Sitio Web Sistemas Operativos Precio

Licencia
http://www.ailab.si/orange Libre
PARTE II. Aplicación práctica (60 puntos)
Usted es un empleado de Adventure Works Cycles a quien se le ha asignado la tarea de

aprender más sobre los clientes de la compañía basándose en compras históricas y luego
usar esos datos históricos para hacer predicciones que se pueden usar en marketing. La
compañía nunca ha hecho minería de datos antes, por lo que debe crear un nuevo
proyecto de datos específicamente para la minería de datos y configurar varios modelos
de minería de datos. Para ello, usted deberá:
a) Crear un proyecto multidimensional y de minería de datos usando el

datawarehouse AdventureWorks seleccionando dos modelos de minería de datos
diferentes y distintos al de árbol de decisión visto en clases (20 ptos)
b) Analizar e interpretar cada uno los resultados para cada uno dos modelos de minería
de datos (20 ptos).
c) Proponga una recomendación, para la campaña de marketing a implementar, en base a

los resultados obtenidos a la empresa (10 ptos)
d) Entregue un informe del procedimiento que se siguió explicando cada paso (5 ptos) y el
código fuente del proyecto generado (5 ptos).

Carta de Postulación Dad

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Carta de Postulación Dad

Cargado por

Copyright:

Formatos disponibles

PART I.

Teoría (40 puntos)

Responda las siguientes preguntas:

A) Hospital Universitario de San Juan de Alicante

Objetivo: Reducción de costes al permitir un óptimo consumo de recursos.

Problema planteado: Las pruebas preparatorias que se llevan a cabo antes de

Solución: Analizando los datos del histórico de operaciones y aplicando

B) Portal B2B Neumáticos Soledad

Objetivo: Aumentar las ventas a través del portal.

Solución: Extraer patrones de comportamiento de los usuarios sobre el motor

Objetivo: Reducción de gastos anticipándose a problemas derivados de la

Problema planteado: Las reservas a través de su portal online que no terminan

Las técnicas de la minería de datos provienen de la inteligencia artificial y de la

Las técnicas más representativas son:

A) Redes neuronales: Son un paradigma de aprendizaje y procesamiento

Un mapa auto-organizado (SOM por sus siglas en inglés) o un mapa auto-

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la

El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su

El conjunto de ejemplos deberá estar conformado por una serie de tuplas

De esta forma el algoritmo trata de obtener las hipótesis que clasifiquen

ID3 realiza esta labor mediante la construcción de un árbol de decisión.

Los elementos son:

 Nodos: Los cuales contendrán atributos.

C4.5 es un algoritmo usado para generar un árbol de decision desarrollado

C4.5 es una extensión del algoritmo ID3 desarrollado anteriormente por

Es una expresión simbólica en forma de igualdad o ecuación que se emplea en

Es un procedimiento de agrupación de una serie de vectores según criterios

La agrupación del conjunto de datos puede ilustrarse en una partición del

El problema es computacionalmente difícil (NP-hard). Sin embargo, hay

k-medoids es un algoritmo de agrupamiento (del inglés clustering)

Es más robusto ante el ruido y a partes aisladas que k-means porque

3. Explique la importancia del proceso KDD y sus principales etapas en el uso de

Combina datos de múltiples procedencias incluyendo múltiples bases de datos,

Consisten principalmente en modificaciones sintácticas llevadas a cabo sobre

Reducir el tamaño de los datos, encontrando las características más

Se pueden utilizar métodos de transformación para reducir el número efectivo

I) Reducción de dimensiones (la extracción irrelevante y débil de

III) Una generalización de datos (reemplazando valores de datos de

Consiste en la búsqueda de los patrones de interés que pueden expresarse como

Se tiene que especificar un criterio de preferencia para seleccionar un modelo de

G) Evaluación de los patrones

Se identifican verdaderamente patrones interesantes que representan

4. Desarrolle un cuadro comparativo con 5 ventajas y 5 desventajas de cuatro

Sitio Web Sistemas Operativos Precio

Usted es un empleado de Adventure Works Cycles a quien se le ha asignado la tarea de

a) Crear un proyecto multidimensional y de minería de datos usando el

c) Proponga una recomendación, para la campaña de marketing a implementar, en base a

También podría gustarte