Está en la página 1de 5

2.

4 Reducción de Datos
Incluye la búsqueda de características útiles de los datos según sea el objetivo final,
la reducción del número de variables y la proyección de los datos sobre espacios
de búsqueda en los que sea más fácil encontrar una solución. Este es un paso
crítico dentro del proceso global, que requiere un buen conocimiento del problema
y una buena intuición, y que, con frecuencia, marca la diferencia entre el éxito o
fracaso de la minería de datos.

2.4.1 Cubo de Datos


Contiene datos de primer interés para los usuarios Es un subconjunto de los datos
que están en la bodega. Contiene valores agregados a todos los niveles de las
dimensiones Usados para organizar los datos en dimensiones y medidas Mejoran
la velocidad de consulta.
Es una base de datos multidimensional, en la cual el almacenamiento físico de los
datos se realiza en un vector multidimensional. Los cubos OLAP se pueden
considerar como una ampliación de las dos dimensiones de una hoja de cálculo.
Ejemplo:

El cubo puede responder preguntas que incluyan tres dimensiones y una medida
– Dimensión producto: contiene categorías del producto
– Dimensión almacén: contiene almacenes
– Dimensión tiempo: contiene periodos del año
– Medida ventas: cantidad numérica que puede ser sumarizada

Un cubo puede tener hasta 64 dimensiones


– Cada celda del cubo tiene un valor
– El valor de cada celda es la intersección de las dimensiones
– El dato en la celda es una agregación Para obtener las ventas totales anuales por
producto y localización: seleccionar el producto y la localización y suma por las
cuatro celdas de tiempo.
2.4.2 Subconjunto de atributos
La selección de atributos consiste en elegir un subconjunto de los atributos más
apropiados, mientras que la generación consiste en generar (y seleccionar entre
ellos) nuevos atributos a partir de los ya existentes.
SELECCIÓN DE ATRIBUTOS
Se tratan los siguientes temas:
 ¿Por qué hacer selección de atributos? Principalmente por tres razones: la
existencia de atributos irrelevantes, la existencia de atributos redundantes y la
maldición de la dimensionalidad. La primera puede producir problemas de sobre
aprendizaje además de hacer más confusos los modelos resultantes. La segunda
es nociva para ciertos algoritmos de aprendizaje. La tercera es una cuestión a tener
en cuenta cuando hay pocos datos en relación a la presencia de muchos atributos.
 Una cuestión importante en selección de atributos es que en algunos problemas
puede ocurrir que algunos atributos no estén correlacionados con la clase por
separado, pero si cuando actúan juntos, por lo que el objetivo último de la selección
es encontrar el subconjunto de atributos más apropiado.
 Para definir un método de selección de atributos es necesario definir un espacio
de búsqueda y un método de evaluación de la calidad de los subconjuntos.
 Se clasifican los métodos de selección en dos tipos principales: ranking y selección
de subconjuntos (subsets)
GENERACIÓN DE ATRIBUTOS:
Se tratan los siguientes temas:
 Construcción de nuevos atributos mediante Principal Component Analysis o PCA.
Se trata de identificar un primer componente que explique la mayor cantidad posible
de varianza, un segundo componente que explique la siguiente mayor cantidad de
varianza y así sucesivamente. Dado que este método ordena los atributos, también
se puede utilizar como método de selección.
 Se intenta transmitir la idea de que PCA consiste en intentar determinar si un
conjunto de datos se puede expresar mediante una dimensionalidad inferior al
número real de atributos en el problema. Se pone como ejemplo un conjunto de
datos en un plano, pero que dicho plano está “embebido” en un espacio de muchas
más dimensiones.
2.4.3 Reducción de Dimensiones
En aprendizaje automático y estadísticas 'reducción de
dimensionalidad' o 'reducción de la dimensión' es el proceso de reducción del
número de variables aleatorias que se trate, y se puede dividir en selección de
función y extracción de función.
Los métodos de reducción de dimensionalidad son técnicas algorítmicas que se
basan en el mapeado de un conjunto de datos dado en n dimensiones en un
subespacio derivado del espacio original de m dimensiones siendo m>n, lo que nos
permite encontrar una descripción de los datos a un coste menor. Son básicos y por
tanto ampliamente utilizados en procesos de aprendizaje automático
Principal Components Analysis
Es la técnica más conocida para la reducción de dimensionalidad lineal. El método
PSA trata de representar un conjunto de datos en un sub-espacio lineal de
dimensionalidad reducida de forma que este aún describe de forma aceptable la
varianza de los datos, es decir, que tratamos de encontrar una base lineal que
reduzca la dimensionalidad de los datos donde la cantidad de la varianza sea
máxima. En términos matemáticos, podemos decir que PCA, intenta encontrar un
mapeado lineal M entre dos espacios de coordenadas tal que se maximice la función
de coste. PCA es por tanto muy parecida a la técnica tradicional para escalado
multidimensional conocida como escalado clásico. El escalado clásico encuentra el
mapeado lineal M que minimiza la función de coste. La función de coste es dada
por la descomposición propia de la matriz de Gram K==XXT de los datos de alta
dimensión. Las entradas de la matriz de Gram se pueden obtener con la distancia
euclídea al cuadrado de las parejas de puntos. PCA y escalado clásico han tenido
éxito en un gran número de campos como son reconocimiento de caras,
reconocimiento de monedas y análisis de series sísmicas. Aunque tienen dos
inconvenientes. Primero, en PCA el tamaño de la matriz de covarianza es
proporcional a la dimensión de los puntos de datos. Como resultado, el cómputo de
los vectores propios puede ser irrealizable para datos de muy alta dimensión.
Segundo, la función de coste revela que PCA y escalado clásico se centran en
retener las distancias de parejas grandes, en lugar de centrarse en retener las
distancias de parejas pequeñas, las cuales son más importantes.
Local Linear Embedding (LLE)
Cuando nos enfrentamos a datos de alto volumen y alta dimensionalidad el principal
reto es poder manejar los datos para poder analizarlos. Como hemos visto, los
métodos lineales como PCA no son capaces de lidiar con datos de muy alta
dimensión. Los mecanismos de reducción de la dimensionalidad pretenden
conseguir representaciones más compactas y fácil de manejar reteniendo en lo
posible la mayor cantidad de información capturada del conjunto original [Shalizi
2009]. El método LLE (acrónimo del inglés Locally linear embedding) es un algoritmo
de aprendizaje no supervisado que fue propuesto por [Roweis et al. 2002]. Este
algoritmo es capaz de calcular una representación de baja dimensión manteniendo,
en la representación de vecindad, suficiente información de cómo estaban los nodos
distribuidos en el espacio de entrada. El método LLE es capaz de descubrir
automáticamente la representación en un espacio de pocas dimensiones que mejor
representa a la estructura no lineal original en el espacio de alta dimensión y
además mantener la propiedad de que si dos puntos estaban cercanos en el espacio
origen lo seguirán estando en el nuevo espacio. Los autores también destacan que
LLE es capaz de retener la configuración local de los datos y es invariante ante
rotaciones, rescaldados, o traslaciones en los datos lo que lo convierte en un
método especialmente versátil en el tratamiento de datos de carácter experimental.
Diffusion Maps (DM)
Los mapas de difusión (abreviados DM, del inglés Diffusion Maps) se basan en la
definición de Markov de camino aleatorio en el grafo de los datos. Realizando el
camino aleatorio para el número de iteraciones, se mide la proximidad de los puntos
de datos obtenidos. En la representación de baja dimensión de los datos las
distancias de difusión de las parejas se retienen tan bien como es posible. La idea
clave detrás de la difusión de distancias es que se basa en integrar sobre todos los
caminos a través del grafo. Los mapas de difusión preservan la proximidad local
entre puntos de datos construyendo una representación en forma de grafo de la
estructura subyacente. Los vértices o nodos de este gráfico representan los puntos
de datos, y los bordes conectando los vértices, representan similitudes entre nodos
adyacentes. Si es normalizado adecuadamente, estos pesos de las aristas pueden
ser interpretados como la probabilidad de un recorrido concreto sobre el grafo.
Después representa el gráfico como una matriz, donde las propiedades espectrales
de esta matriz se utilizan para embeber los puntos de datos en un espacio de menor
dimensionalidad, habitualmente un espacio tridimensional. [Xu et al. 2007]. Los
métodos que utilizan mapas de difusión son por tanto especialmente interesantes
cuando nos interesa realizar un estudio profundo de la topología de los datos, para
descubrir interrelaciones ocultas o inferir reglas sobre el conjunto a partir del estudio
del subespacio reducido.

También podría gustarte