Está en la página 1de 5

Análisis datamining a través de descomposición

de valores singulares
Brayan Llanos Hoyos1 , Leonardo Martes Garcia2 , and Jeffreey Taylor Maza3

1
Corporación Universitaria Americana

ABSTRACT. Car Evaluation Dataset evaluate the target con- INTRODUCCIÓN. En el presente escrito analizaremos por
cept (CAR) with 3 other intermediate concept. PRICE (over- medio de minería de datos un conjunto de datos multivari-
all price),TECH (technical characteristic) and COMFORT able el cual se derivó por Marko Bohanec y Blaz Zupan de
(comfort). Now totally we have 6 attribute, each attribute un modelo de decisión jerárquico simple desarrollado origi-
is a part of one of the intermediate concept as described nalmente para la demostración de DEX haciendo uso del Car
above.These attributes are: Evaluation Data Set. Este conjunto de datos contiene 1728
números de instancias, 6 números de atributos y 4 números
1. Buying (buying price) de clases. Los atributos de entrada se imprimen en minús-
culas. Además del concepto objetivo (CAR), el modelo in-
2. Maint (price of maintenance) cluye tres conceptos intermedios: PRECIO, TECHO, CON-
FORT. Cada concepto está en el modelo original relacionado
3. Doors (number of doors) con sus descendientes de nivel inferior mediante un con-
junto de ejemplos (para estos conjuntos de conjuntos, con-
4. Persons (capacity in terms of persons to carry) sulte https://archive.ics.uci.edu/ml/datasets/Car+Evaluation).
La base de datos de evaluación de automóviles contiene
5. Lug Boot (the size of luggage bot) ejemplos con la información estructural eliminada, es decir,
relaciona directamente a CAR con los seis atributos de en-
trada: compra, mantenimiento, puertas, personas, lug boot,
6. Safety (estimated safety of he car)
seguridad. Debido a la estructura de concepto subyacente
conocida, esta base de datos puede ser particularmente útil
The number of the instances in the training data are 1728 ,
para probar la inducción constructiva y los métodos de de-
and there are 6 number of attributes as mentioned above. This
scubrimiento de estructuras, derivado de un modelo de de-
is basically a multi-class classification problem. we will clas-
cisión jerárquico simple, esta base de datos puede ser útil para
sify the instance into 4 classes: Here are the attribute values:
probar la inducción constructiva y los métodos de descubrim-
Table 1: Attribute values
iento de estructuras. Como entorno de desarrollo, utilizare-
mos el IDE de Matlab en su versión R2017b para programar
• buying (v-high, high, med, low)
las distintas graficas en 2D y 3D implementando clúster por
medio de KMEANS.
• maint (v-high, high, med, low)

ESTADO DEL ARTE. Es un conjunto de técnicas que per-


• doors (2, 3, 4, 5- more)
miten explorar grandes bases de datos con el objetivo de
hallar patrones que nos permitan tomar decisiones sobre ac-
• persons (2, 4, more)
ciones futuras. Normalmente, estos patrones no son detecta-
bles con las técnicas tradicionales de exploración de datos ya
• lug boot (small, med, big) que sus relaciones pueden ser complejas o porque hay de-
masiada cantidad de información.
• safety (low, med, high) La generación de un modelo de minería de datos es un pro-
ceso extenso, el cual se puede resumir en las siguientes fases:
Table 2: Class Distribution (number of instance per class)
• Definir el problema: consiste en definir claramente el
• unacc:1210 problema y considerar formas de usar los datos para
proporcionar una respuesta para el mismo.
• acc:384
• Preparar los datos: En este fase se hace una limpieza
• good:69 de los datos, se detectan valores anómalos, valores fal-
tantes y registros de baja calidad. También se hace una
• v-good:65 transformación y reducción de los datos ya que esto es

Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | bioRχiv | June 28, 2019 | 1–8
muy importante si se quieren obtener unos resultados
exitosos.

• Explorar los datos: Dentro de esta fase se utilizan téc-


nicas para explorar la información, entre las que cabe
destacar el cálculo de los valores mínimos y máximos,
calcular la media y la desviación estándar, y examinar
la distribución de los datos.

• Generar los modelos: En esta fase se define el mejor


algoritmo a usar para procesar la información. Esto va
a depender mucho del problema que se vaya a resolver.
Entre los algoritmos más utilizados se encuentran los
de asociación, los clústeres, los de árbol de decisión,
los de regresión lineal, entre otros.

• Explorar y validar los modelos: Consiste en explorar


los modelos de minería de datos que ha generado y
comprobar su eficacia. Fig. 2. Procesamiento de BigData

• Implementar y actualizar los modelos: en esta fase MDD. La mayoría de las técnicas y algoritmos de minería de
se hace la implementación de los modelos creados datos para BDD que se han definido, constituyen extensiones
para lograr los resultados deseados y hacer el posterior de técnicas clásicas de minería de datos para bases de datos
análisis de la información relacionales. A continuación, se comentan algunas propues-
tas. La MDD desde fuentes homogéneas, conlleva la inte-
gración o combinación de diferentes modelos de minería de
datos extraídos desde cada repositorio (modelos parciales),
como si fueran modelos correspondientes a muestras difer-
entes o poblaciones diferentes de los mismos “tipos” de indi-
viduos. Entre las alternativas que existen para minar BDD
homogéneas se encuentran: el meta-aprendizaje, que con-
siste en usar inicialmente técnicas de aprendizaje supervisado
para detectar conceptos en las bases de datos locales, y luego,
aprender meta-conceptos desde un conjunto de datos gener-
ados usando los conceptos localmente aprendidos, y las téc-
nicas basadas en el aprendizaje bayesiano, que consisten en
considerar agentes bayesianos que estiman los parámetros de
la distribución objetivo y una población de sistemas de apren-
dizaje que combinan las salidas de los modelos bayesianos
producidos.
Fig. 1. Fases de la minería de datos

ESTÁNDARES EN MINERÍA DE DATOS. Emplear están-


TÉCNICAS Y ALGORITMOS DE MINERÍA DE DATOS dares en minería de datos simplifica la integración, actual-
DISTRIBUIDA. Las técnicas y algoritmos de MDD que se ización y mantenimiento de las aplicaciones y los sistemas
han diseñado se benefician, en general, del potencial par- que soportan tareas de minería de datos. Los estándares en
alelismo que pueden aplicar sobre las fuentes de datos dis- minería de datos establecidos y los que están en definición
tribuidos. Típicamente el mismo algoritmo opera simultánea- actualmente, se ocupan de varios elementos, entre estos:
mente sobre cada nodo de datos distribuido, produciendo un • Representación e intercambio de modelos estadísticos
modelo local por cada nodo. Por lo tanto, todos estos mod- y de minería de datos.
elos parciales deben ser posteriormente integrados para pro-
ducir el modelo final. El éxito de los algoritmos de MDD • Representación y especificación de tareas de limpieza,
radica, esencialmente, en la calidad de la integración de los transformación y agregación de los atributos usados
modelos parciales. Cada uno de estos modelos representa como entradas en la creación de los modelos.
patrones coherentes localmente, pero pueden carecer de de-
• Representación de parámetros internos requeridos para
talles necesarios para la obtención del modelo global. Para
la construcción y uso de los modelos.
compensar esta carencia, es posible, como hacen algunos al-
goritmos de MDD, centralizar un subconjunto de los datos • Metodologías para el desarrollo de aplicaciones de
distribuidos. Sin embargo, minimizar la transferencia de minería de datos: creación de modelos, despliegue y
datos es otra de las claves para el éxito de un algoritmo de uso de los mismos.

2 | bioRχiv Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4
• Interfaces y APIs para garantizar el enlace necesario
entre diferentes lenguajes y sistemas.

• Análisis de datos remotos y distribuidos.


Es decir, que el producto matricial de la matriz U por S por
V da como resultado la matriz inicial A.
INTELIGENCIA DE NEGOCIOS BI. La Inteligencia de Ne-
Respecto a las dimensiones de las matrices tenemos que la
gocios BI (Business Intelligence) es una herramienta bajo la
matriz A va a tener unas dimensiones de (n × m) es decir n
cual diferentes tipos de organizaciones, pueden soportar la
filas y m columnas. La matriz U va a tener dimensión (n × n),
toma de decisiones basadas en información precisa y opor-
la matriz S tendrá dimensión (n × m) y por último la matriz V
tuna; garantizando la generación del conocimiento necesario
tendrá dimensión (m × m). Al ser V una matriz cuadrada las
que permita escoger la alternativa que sea más conveniente
dimensiones de la matriz traspuesta serán las mismas que la
para el éxito de la empresa. La investigación comienza con
matriz original. A continuación mostramos como serían las
la denición y aplicaciones de BI; además se muestran tra-
dimensiones de las matrices para esta descomposición:
bajos relevantes en algunas de las herramientas para hacer
BI, como son Data Warehouse (Bodega de Datos), Olap (Cu-
bos Procesamiento Analítico en Línea), Balance Scorecard
(Cuadro de Mando) y Data Mining (Minería de Datos).

CLUSTERING ANALYSIS PARA IDENTIFICAR GRU-


POS OBJETIVO. El análisis cluster permite identificar den-
tro de un archivo un determinado grupo de usuarios según
características comunes. Estas características pueden ser la
edad, la procedencia geográfica, el título de estudio, etc. Se
trata de una técnica de data mining que en el marketing es Las matrices U y V han de cumplir las siguientes propiedades
útil para segmentar la base de datos y enviar, por ejemplo, respectivamente: Es decir, dada una matriz real A, encontrar
una cierta promoción al objetivo apropiado para ese producto una "diagonal" positiva S y matrices ortogonales U y V tales
o servicio (jóvenes, madres, jubilados, etc.). Las combina- que A = USV T. Este problema aparece en distintas áreas
ciones de variables son infinitas y hacen que el análisis cluster como el procesamiento de señales, la minería de datos, la
sea más o menos selectivo según las exigencias de búsqueda. compresión de imágenes digitales, entre otras.
CLASSIFICATION ANALYSIS PARA IDENTIFICAR DESCOMPOSICION ESPECTRAL SVD. En matemáticas,
SPAM Y MÁS. Análisis clasificatorio, la técnica de data y más especialmente en álgebra lineal y análisis funcional,
mining que permite reconocer los llamados pattern (es- el teorema de descomposición espectral, o más brevemente
quemas que se repiten) dentro de una base de datos. Una teorema espectral, expresa las condiciones bajo las cuales un
solución eficaz para que rinda más tu estrategia de marketing, operador o una matriz pueden ser diagonalizados (es decir,
eliminar lo superfluo y crear sub-archivos optimizados. representadas como una matriz diagonal en alguna base). Se
idéntica así, un tipo de operadores lineales que pueden rep-
ASSOCIATION RULE LEARNING PARA DESCUBRIR resentarse como una multiplicación de operadores. Ejemplos
LA RELACIÓN ENTRE DATOS. La utilización común del de los operadores a los que se aplica este teorema son los op-
association rule learning concierne a las actividades de venta eradores auto adjuntos, o más en general, los operadores nor-
de productos, en especial para grandes volúmenes. Tanto si es males en espacios de Hilbert. El Teorema Espectral, propor-
online a través de un e-commerce o en persona en una tienda ciona, además, una descomposición canónica (llamada de-
(o un centro comercial), se crean relaciones interesantes en- scomposición espectral) del espacio vectorial sobre el cual
tre los datos que posees. Relaciones que no sospechabas o actúa el operador. El teorema espectral es también válido
que ni siquiera te imaginabas. ¿Un ejemplo? El 90% de para operadores simétricos en espacios de dimensión nita con
los clientes que compran online un producto también com- producto interior real. La descomposición espectral de un op-
pran otro, siempre lo mismo. Detalles que nos permiten crear erador A que tiene una base ortonormal de vectores propios,
ofertas de marketing específicas, promociones especiales y se obtiene agrupando todos los vectores que corresponden al
fórmulas exitosas. mismo valor propio.

TECNICA UTILIZADA SVD. Es una factorización matricial, KMEANS. K-means es un algoritmo de clasificación no su-
de manera informal se puede decir que la SVD diagonaliza pervisada (clusterización) que agrupa objetos en k grupos
una matriz por medio de dos bases ortonormales de vectores basándose en sus características. El agrupamiento se real-
propios. Esta descomposición extrae información sobre la iza minimizando la suma de distancias entre cada objeto y
matriz, como su rango, la proyección ortogonal sobre su im- el centroide de su grupo o cluster. Se suele usar la distancia
agen, etc. En otras palabras, es una técnica de factorización cuadrática. El algoritmo consta de tres pasos:
de matrices que permite descomponer una matriz A en otras
tres matrices U, S, y V de la siguiente manera: • Inicialización: una vez escogido el número de grupos,

Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4 bioRχiv | 3
k, se establecen k centroides en el espacio de los datos,
por ejemplo, escogiéndolos aleatoriamente.
• Asignación objetos a los centroides: cada objeto de los
datos es asignado a su centroide más cercano.
• Actualización centroides: se actualiza la posición
del centroide de cada grupo tomando como nuevo
centroide la posición del promedio de los objetos
pertenecientes a dicho grupo.
En el IDE de Matlab en su versión R2017b, implementamos
KMEANS de la siguiente forma: kmeans(U.2), indicando en Fig. 4. Grafico obtenido en 3D

el segundo parámetro cuantos cluster queremos ver. PROYECCION DE LOS DATOS EN 2D Y 3D KMEANS.
A continuación, mostramos las graficas resultantes con la in-
DESCRIPCION DEL PROBLEMA Y DEL DATASET. Se strucción kmeans:
tiene en un Dataset un conjunto de datos que contiene 4
clases, 6 atributos y 1728 instancias cada una, donde cada
clase se refiere a un tipo de auto. Una clase es linealmente
separable de la otras 2; estos últimos no son linealmente sep-
arables entre sí. Información de las clases: unacc acc, good,
vgood Información de los atributos:
• Compra: vhigh, high, med, low.
• Maint: vhigh, high, med, low.
• Puertas: 2, 3, 4, 5más.
• Personas: 2, 4, más.
Fig. 5. Grafico obtenido en 2D con kmeans
• Lug_boot: pequeño, med, grande.
• Seguridad: baja, media, alta.

TECNICA UTILIZADA PARA DESAROLLAR EL PROB-


LEMA. Para solucionar esta actividad teniendo en cuenta que
ya poseemos un dataset se implementó el meto de Singular
Value Decomposition (SVD), con este método se podrá cal-
cular la descomposición de valor singular de una matriz, us-
ando SVD. Esta función le permite calcular valores singu-
lares de una matriz por separado o tanto valores singulares
como vectores singulares en una llamada de función. Para
calcular solo valores singulares, use SVD sin argumentos de
salida. A continuación, mostramos los resultados de la solu- Fig. 6. Grafico obtenido en 3D con kmeans
ción del problema.
Conclusión
PROYECCION DE LOS DATOS EN 2D Y 3D. A contin-
Las técnicas de minería de datos se pueden clasificar amplia-
uación, mostramos las graficas resultantes:
mente en clasificación, regresión y agrupamiento. Hay varias
aplicaciones de cada uno de estos. También hay muchas her-
ramientas disponibles que proporciona métodos para hacer
diferentes operaciones. Como WEKA, Matlab Shogun, Or-
ange, Scikit-learn, etc. En resumen, el datamining se pre-
senta como una tecnología emergente, con varias ventajas:
por un lado, resulta un buen punto de encuentro entre los
investigadores y las personas de negocios; por otro, ahorra
grandes cantidades de dinero a una empresa y abre nuevas
oportunidades de negocios. Además, no hay duda de que
trabajar con esta tecnología implica cuidar un sinnúmero de
detalles debido a que el producto final involucra la toma de
decisiones.
Fig. 3. Grafico obtenido en 2D

4 | bioRχiv Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4
Bibliography
[1]C. computing, "Los datos marcan la diferencia en
la capacitación", Ibm.com, 2019. [Online]. Avail-
able: https://www.ibm.com/developerworks/ssa/library/cc-
cognitive-big-brained-data-pt1/index.html.
[2]"Conceptos de minería de datos", Docs.microsoft.com,
2019. [Online]. Available: https://docs.microsoft.com/es-
es/sql/analysis-services/data-mining/data-mining-
concepts?view=sql-server-2017.
[3]"UCI Machine Learning Repository: Car Evaluation
Data Set", Archive.ics.uci.edu, 2019. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/Car+Evaluation.
[4]"Car Evaluation Data Set", Kaggle.com, 2019. [Online].
Available: https://www.kaggle.com/elikplim/car-evaluation-
data-set.
[5]"RPubs - Multinomial classification project - Car Eval-
uation data set", Rpubs.com, 2019. [Online]. Available:
https://rpubs.com/chitrav/118220.
[6]"KEEL: A software tool to assess evolutionary algorithms
for Data Mining problems (regression, classification, cluster-
ing, pattern mining and so on)", Sci2s.ugr.es, 2019. [Online].
Available: https://sci2s.ugr.es/keel/dataset.php?cod=56.

Brayan Llanos , Leonardo Martes , Jeffreey Taylor et al. | Electiva de Profundización 4 bioRχiv | 5

También podría gustarte