Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5.12 Exercise
5.12 Exercise
Se propone un marco de cubo de muestreo, que calcula científicamente los intervalos de confianza
para cualquier consulta multidimensional y utiliza la estructura OLAP que agrupa segmentos
similares para aumentar el tamaño de muestreo cuando sea necesario. Además, para manejar datos
de alta dimensión, se propone el método “Sampling Cube Shell” para reducir de manera efectiva el
requisito de almacenamiento mientras se conserva la calidad de los resultados de la consulta.
Resumiendo:
La construcción comienza en el ápice del cuboide y continúa por la red cúbica hacia la base del
cuboide. La búsqueda en este espacio es iterativa y codiciosa: en cada iteración, se elige el mejor
cuboide candidato y se agrega al Shell S. Este proceso se detiene hasta que se cumple la condición.
La condición podría ser una restricción de espacio, por ejemplo: el número de cuboides construidos
no puede exceder algún valor ó como veremos en el algoritmo cuando el número de candidatos se
haya acabado.
Específicamente hablando, inicialmente, solo existe el cuboide todo o ápice. Por definición, contiene
exactamente una celda y su desviación estándar es la desviación estándar de todas las muestras
juntas. Luego se agregan los cuboides secundarios del ápice cuboide en un conjunto candidato. Se
calcula el mejor cuboide. En el documento, la medida es la reducción en la cantidad de varianza con
respecto al valor del cubo en sus celdas de uno de los padres del cuboide. Entonces este candidato
cuboide se elige y se agrega a la cáscara. Sus hijos en la red cúbica se agregan al conjunto de
candidatos. Este proceso itera hasta que se cumpla un criterio de detención.
El muestreo es un método popular de recolección de datos cuando es imposible o demasiado
costoso llegar a toda la población. Por ejemplo, las calificaciones de programas de televisión en los
Estados Unidos son recolectado de una muestra de aproximadamente 5,000 hogares. Usar los
resultados de manera efectiva, las muestras se dividen aún más en Un espacio multidimensional
basado en múltiples valores de atributos.
Esto naturalmente conduce a la conveniencia de OLAP (en línea Procesamiento analítico) sobre
datos de muestreo. Sin embargo, a diferencia de datos tradicionales, los datos de muestreo son
inherentemente inciertos, es decir, no representa los datos completos en la población. Por lo tanto,
es deseable devolver no solo los resultados de la consulta sino también intervalos de confianza que
indican la fiabilidad de los resultados.
Además, un cierto segmento en un espacio multidimensional puede contener ninguna o muy pocas
muestras. Esto requiere algo de Análisis adicional para obtener resultados confiables.
1.- el Sampling Cube Shell se recalcula primero con los datos actualizados.
2.- Calculamos los nuevos cuboides en Shell y actualizamos los fragmentos de Shell existentes, en
este caso se propone una Union del S principal y el S’
3.- La tabla_R debe estar actualizada previamente, La actualización es eficiente ya que todas las
medidas de intervalo medio y de confianza del cubo de datos son algebraicas.
Donde:
𝐶𝑆𝐷𝑅(𝐵) = min 𝐶𝐷𝑆(𝐵′) − 𝐶𝑆𝐷(𝐵)
( )