Está en la página 1de 3

5.

12 The sampling cube was proposed for multidimensional analysis of sampling


data (e.g., survey data). In many real applications, sampling data can be of high
dimensionality (e.g., it is not unusual to have more than 50 dimensions in a
survey data set).

a) How can we construct an efficient and scalable high-dimensional sampling


cube in large sampling data sets?

Se propone un marco de cubo de muestreo, que calcula científicamente los intervalos de confianza
para cualquier consulta multidimensional y utiliza la estructura OLAP que agrupa segmentos
similares para aumentar el tamaño de muestreo cuando sea necesario. Además, para manejar datos
de alta dimensión, se propone el método “Sampling Cube Shell” para reducir de manera efectiva el
requisito de almacenamiento mientras se conserva la calidad de los resultados de la consulta.

Resumiendo:

1) Se realizan cálculos de estimaciones puntuales y se proporcionan intervalos de confianza


para todas las consultas. las propiedades algebraicas de las medidas se explotan para hacer
los cálculos eficientes
2) Cuando una consulta llega a una celda con muy pocas muestras, la consulta se "expande"
para reunir más muestras para mejorar la calidad de la respuesta. La expansión aprovecha
la estructura OLAP mirando segmentos semánticamente similares dentro del cuboide
consultado y también cuboides cercanos.
3) Por último, para manejar el problema de alta dimensionalidad, Se propone el método”
Sampling Shell cube”. En lugar de materializarse el cubo de muestreo completo, solo una
pequeña porción está construida. Pero a diferencia de otros esquemas de compresión de
cubos, La selección se basa en la calidad de las estimaciones de muestreo.

Información adicional del algoritmo y de la importancia del muestreo:

La construcción comienza en el ápice del cuboide y continúa por la red cúbica hacia la base del
cuboide. La búsqueda en este espacio es iterativa y codiciosa: en cada iteración, se elige el mejor
cuboide candidato y se agrega al Shell S. Este proceso se detiene hasta que se cumple la condición.
La condición podría ser una restricción de espacio, por ejemplo: el número de cuboides construidos
no puede exceder algún valor ó como veremos en el algoritmo cuando el número de candidatos se
haya acabado.

Específicamente hablando, inicialmente, solo existe el cuboide todo o ápice. Por definición, contiene
exactamente una celda y su desviación estándar es la desviación estándar de todas las muestras
juntas. Luego se agregan los cuboides secundarios del ápice cuboide en un conjunto candidato. Se
calcula el mejor cuboide. En el documento, la medida es la reducción en la cantidad de varianza con
respecto al valor del cubo en sus celdas de uno de los padres del cuboide. Entonces este candidato
cuboide se elige y se agrega a la cáscara. Sus hijos en la red cúbica se agregan al conjunto de
candidatos. Este proceso itera hasta que se cumpla un criterio de detención.
El muestreo es un método popular de recolección de datos cuando es imposible o demasiado
costoso llegar a toda la población. Por ejemplo, las calificaciones de programas de televisión en los
Estados Unidos son recolectado de una muestra de aproximadamente 5,000 hogares. Usar los
resultados de manera efectiva, las muestras se dividen aún más en Un espacio multidimensional
basado en múltiples valores de atributos.

Esto naturalmente conduce a la conveniencia de OLAP (en línea Procesamiento analítico) sobre
datos de muestreo. Sin embargo, a diferencia de datos tradicionales, los datos de muestreo son
inherentemente inciertos, es decir, no representa los datos completos en la población. Por lo tanto,
es deseable devolver no solo los resultados de la consulta sino también intervalos de confianza que
indican la fiabilidad de los resultados.

Además, un cierto segmento en un espacio multidimensional puede contener ninguna o muy pocas
muestras. Esto requiere algo de Análisis adicional para obtener resultados confiables.

b) Design an efficient incremental update algorithm for such a high-


dimensional sampling cube.

1.- el Sampling Cube Shell se recalcula primero con los datos actualizados.

2.- Calculamos los nuevos cuboides en Shell y actualizamos los fragmentos de Shell existentes, en
este caso se propone una Union del S principal y el S’

3.- La tabla_R debe estar actualizada previamente, La actualización es eficiente ya que todas las
medidas de intervalo medio y de confianza del cubo de datos son algebraicas.

Cube Shell Algorithm aplied to the initial data


Input: (1) Input table R; (2) minsup; (3) minsd
Output: Sampling cube shell
Candidates = {apex cuboid of R}
S={}
while Candidates = ∅ or halting criteria not met
B = cuboid in Candidates with largest CSDR
remove B from Candidates
add B to S
add B’s descendant cuboids to Candidates
update CSD values in Candidates
return S
Cube Shell Algorithm aplied to the update data
Input: (1) Input update R ; (2) minsup; (3) minsd
Output: Sampling update cube shell S’
Candidates = {apex cuboid of R}
S’={}
while S = ∅ or halting criteria not met
A = cuboid in Candidates with largest CSDR
remove A from Candidates
add A to S
add A’s descendant cuboids to Candidates
update CSD values in Candidates
return S’
Update S= S U S’

Donde:
𝐶𝑆𝐷𝑅(𝐵) = min 𝐶𝐷𝑆(𝐵′) − 𝐶𝑆𝐷(𝐵)
( )

𝐶𝑆𝐷𝑅(𝐴) = min 𝐶𝐷𝑆(𝐴′) − 𝐶𝑆𝐷(𝐴)


( )

c) Discuss how to support quality drill-down although some low-


level cells may contain empty or too few data for reliable
analysis.

La mejor manera de resolver este pequeño problema de tamaño de muestra es simplemente


obtener más datos. Hay dos posibles métodos para expandir la consulta y obtener más datos para
aumentar la confianza. Ambos expanda la consulta original en el cubo de datos, solo en diferentes
direcciones. El primero es la expansión de consultas intracuboides.

En el caso intra-cuboide, la expansión se produce al observar las células cercanas en el mismo


cuboide que la célula consultada. Las dimensiones que no están correlacionadas o débilmente
correlacionadas con el valor de la medida (es decir, el valor a predecir) son los mejores candidatos
para la expansión. A continuación, debemos seleccionar valores semánticamente similares dentro
de esas dimensiones para minimizar el riesgo de alterar el resultado final.

El segundo es la expansión de consultas intercuboides. Aquí la expansión se produce al buscar un


Celda general. Y la estrategia es similar: no se permiten dimensiones correlacionadas en
expansiones intercuboides.

También podría gustarte