Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de valores singulares
Brayan Llanos Hoyos1 , Leonardo Martes Garcia2 , and Jeffreey Taylor Maza3
1
Corporación Universitaria Americana
ABSTRACT. Car Evaluation Dataset evaluate the target con- INTRODUCCIÓN. En el presente escrito analizaremos por
cept (CAR) with 3 other intermediate concept. PRICE (over- medio de minería de datos un conjunto de datos multivari-
all price),TECH (technical characteristic) and COMFORT able el cual se derivó por Marko Bohanec y Blaz Zupan de
(comfort). Now totally we have 6 attribute, each attribute un modelo de decisión jerárquico simple desarrollado origi-
is a part of one of the intermediate concept as described nalmente para la demostración de DEX haciendo uso del Car
above.These attributes are: Evaluation Data Set. Este conjunto de datos contiene 1728
números de instancias, 6 números de atributos y 4 números
1. Buying (buying price) de clases. Los atributos de entrada se imprimen en minús-
culas. Además del concepto objetivo (CAR), el modelo in-
2. Maint (price of maintenance) cluye tres conceptos intermedios: PRECIO, TECHO, CON-
FORT. Cada concepto está en el modelo original relacionado
3. Doors (number of doors) con sus descendientes de nivel inferior mediante un con-
junto de ejemplos (para estos conjuntos de conjuntos, con-
4. Persons (capacity in terms of persons to carry) sulte https://archive.ics.uci.edu/ml/datasets/Car+Evaluation).
La base de datos de evaluación de automóviles contiene
5. Lug Boot (the size of luggage bot) ejemplos con la información estructural eliminada, es decir,
relaciona directamente a CAR con los seis atributos de en-
trada: compra, mantenimiento, puertas, personas, lug boot,
6. Safety (estimated safety of he car)
seguridad. Debido a la estructura de concepto subyacente
conocida, esta base de datos puede ser particularmente útil
The number of the instances in the training data are 1728 ,
para probar la inducción constructiva y los métodos de de-
and there are 6 number of attributes as mentioned above. This
scubrimiento de estructuras, derivado de un modelo de de-
is basically a multi-class classification problem. we will clas-
cisión jerárquico simple, esta base de datos puede ser útil para
sify the instance into 4 classes: Here are the attribute values:
probar la inducción constructiva y los métodos de descubrim-
Table 1: Attribute values
iento de estructuras. Como entorno de desarrollo, utilizare-
mos el IDE de Matlab en su versión R2017b para programar
• buying (v-high, high, med, low)
las distintas graficas en 2D y 3D implementando clúster por
medio de KMEANS.
• maint (v-high, high, med, low)
Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | bioRχiv | June 28, 2019 | 1–8
muy importante si se quieren obtener unos resultados
exitosos.
• Implementar y actualizar los modelos: en esta fase MDD. La mayoría de las técnicas y algoritmos de minería de
se hace la implementación de los modelos creados datos para BDD que se han definido, constituyen extensiones
para lograr los resultados deseados y hacer el posterior de técnicas clásicas de minería de datos para bases de datos
análisis de la información relacionales. A continuación, se comentan algunas propues-
tas. La MDD desde fuentes homogéneas, conlleva la inte-
gración o combinación de diferentes modelos de minería de
datos extraídos desde cada repositorio (modelos parciales),
como si fueran modelos correspondientes a muestras difer-
entes o poblaciones diferentes de los mismos “tipos” de indi-
viduos. Entre las alternativas que existen para minar BDD
homogéneas se encuentran: el meta-aprendizaje, que con-
siste en usar inicialmente técnicas de aprendizaje supervisado
para detectar conceptos en las bases de datos locales, y luego,
aprender meta-conceptos desde un conjunto de datos gener-
ados usando los conceptos localmente aprendidos, y las téc-
nicas basadas en el aprendizaje bayesiano, que consisten en
considerar agentes bayesianos que estiman los parámetros de
la distribución objetivo y una población de sistemas de apren-
dizaje que combinan las salidas de los modelos bayesianos
producidos.
Fig. 1. Fases de la minería de datos
2 | bioRχiv Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4
• Interfaces y APIs para garantizar el enlace necesario
entre diferentes lenguajes y sistemas.
TECNICA UTILIZADA SVD. Es una factorización matricial, KMEANS. K-means es un algoritmo de clasificación no su-
de manera informal se puede decir que la SVD diagonaliza pervisada (clusterización) que agrupa objetos en k grupos
una matriz por medio de dos bases ortonormales de vectores basándose en sus características. El agrupamiento se real-
propios. Esta descomposición extrae información sobre la iza minimizando la suma de distancias entre cada objeto y
matriz, como su rango, la proyección ortogonal sobre su im- el centroide de su grupo o cluster. Se suele usar la distancia
agen, etc. En otras palabras, es una técnica de factorización cuadrática. El algoritmo consta de tres pasos:
de matrices que permite descomponer una matriz A en otras
tres matrices U, S, y V de la siguiente manera: • Inicialización: una vez escogido el número de grupos,
Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4 bioRχiv | 3
k, se establecen k centroides en el espacio de los datos,
por ejemplo, escogiéndolos aleatoriamente.
• Asignación objetos a los centroides: cada objeto de los
datos es asignado a su centroide más cercano.
• Actualización centroides: se actualiza la posición
del centroide de cada grupo tomando como nuevo
centroide la posición del promedio de los objetos
pertenecientes a dicho grupo.
En el IDE de Matlab en su versión R2017b, implementamos
KMEANS de la siguiente forma: kmeans(U.2), indicando en Fig. 4. Grafico obtenido en 3D
el segundo parámetro cuantos cluster queremos ver. PROYECCION DE LOS DATOS EN 2D Y 3D KMEANS.
A continuación, mostramos las graficas resultantes con la in-
DESCRIPCION DEL PROBLEMA Y DEL DATASET. Se strucción kmeans:
tiene en un Dataset un conjunto de datos que contiene 4
clases, 6 atributos y 1728 instancias cada una, donde cada
clase se refiere a un tipo de auto. Una clase es linealmente
separable de la otras 2; estos últimos no son linealmente sep-
arables entre sí. Información de las clases: unacc acc, good,
vgood Información de los atributos:
• Compra: vhigh, high, med, low.
• Maint: vhigh, high, med, low.
• Puertas: 2, 3, 4, 5más.
• Personas: 2, 4, más.
Fig. 5. Grafico obtenido en 2D con kmeans
• Lug_boot: pequeño, med, grande.
• Seguridad: baja, media, alta.
4 | bioRχiv Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4
Bibliography
[1]C. computing, "Los datos marcan la diferencia en
la capacitación", Ibm.com, 2019. [Online]. Avail-
able: https://www.ibm.com/developerworks/ssa/library/cc-
cognitive-big-brained-data-pt1/index.html.
[2]"Conceptos de minería de datos", Docs.microsoft.com,
2019. [Online]. Available: https://docs.microsoft.com/es-
es/sql/analysis-services/data-mining/data-mining-
concepts?view=sql-server-2017.
[3]"UCI Machine Learning Repository: Car Evaluation
Data Set", Archive.ics.uci.edu, 2019. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/Car+Evaluation.
[4]"Car Evaluation Data Set", Kaggle.com, 2019. [Online].
Available: https://www.kaggle.com/elikplim/car-evaluation-
data-set.
[5]"RPubs - Multinomial classification project - Car Eval-
uation data set", Rpubs.com, 2019. [Online]. Available:
https://rpubs.com/chitrav/118220.
[6]"KEEL: A software tool to assess evolutionary algorithms
for Data Mining problems (regression, classification, cluster-
ing, pattern mining and so on)", Sci2s.ugr.es, 2019. [Online].
Available: https://sci2s.ugr.es/keel/dataset.php?cod=56.
Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4 bioRχiv | 5