Está en la página 1de 11

DATAWAREHOUSE (BASE DE DATOS APLICADA I)

1)Los Data marts son subconjuntos de datos de un data warehouse para reas especificas.Entre las caractersticas de un data mart destacan: Usuarios limitados. rea especifica. Tiene un propsito especifico. Tiene una funcin de apoyo.

2) Funciones ETL (extraccin, transformacin y carga)Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones: Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas. Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal

3) Los Servicios OLAP ofrecen tres modos distintos de almacenamiento para el sistema: MOLAP (OLAP multidimensional) Los datos subyacentes de un cubo se almacenan con los datos de agregados en una estructura multidimensional de alto rendimiento. El sistema de almacenamiento MOLAP proporciona un rendimiento y compresin de datos excelentes. ROLAP (OLAP relacional) Los datos subyacentes de un cubo se almacenan en una base de datos relacional con los datos de agregados. El sistema de almacenamiento ROLAP le permitir sacar el mximo partido de la inversin que ha realizado en tecnologa relacional y en herramientas de administracin de datos empresariales. HOLAP (OLAP hbrido) Los datos subyacentes de un cubo se almacenan en una base de datos relacional y los datos de agregados se almacenan en una estructura multidimensional de alto rendimiento. El sistema de almacenamiento HOLAP ofrece las ventajas de MOLAP para los agregados sin necesidad de duplicar los datos de detalle subyacentes. Los cubos virtuales y particiones son otras formas de OLAP hbrido que le permitirn personalizar las alternativas de almacenamiento de los cubos para adaptarlas a sus necesidades. 4) Modos de almacenamiento(MOLAP, ROLAP, HOLAP) MOLAP utiliza una estructura multidimensional para contener agregados y una copia de los datos base. tiempos de respuesta a consultas ms rpidos, que dependen nicamente del porcentaje y del diseo de los agregados del cubo. ROLAP utiliza tablas en las bases de datos relacionales del almacn de datos para almacenar los agregados de un cubo. Respuestas a consultas ROLAP suelen ser ms lentas que aquellas que se realizan con otras dos estrategias de almacenamiento. HOLAP combina atributos de MOLAP y ROLAP. Los datos de los agregados se almacenan en estructuras MOLAP mientras que los datos base se mantienen en la base de datos relacional del almacn de datos. 5) Las Dimensiones
Estructura Relacional Mnima redundancia Se registran datos actuales o transaciones Mnimo espacio de almacenamiento Estructura Multidimensional Redundancia por agregacin Se agregan datos histricos El almacenamiento crece rpidamente a medida que se crean nuevos agregados

Consultas ms lentas Las consultas se ejecutan cada vez que se realizan

Consultas ms rpidas Las consultas ya estn ejecutadas y sus resultados almacenados Se puede navegar por los niveles de datos en cada dimensin

6) Particiones Los cubos se pueden dividir en particiones, cada una de las cuales se puede almacenar mediante un modo distinto. Ejemplo, puede crear un cubo de los ltimos aos y dividir el cubo en particiones que comprenden un determinado ao. Puede almacenar la particin de los datos de la siguiente manera: ao actual en una estructura MOLAP con un alto porcentaje de agregados para obtener una respuesta rpida a las consultas de los usuarios. ao anterior utilizar HOLAP lo que permitir buenos tiempos de respuesta para consultas de resumen con un espacio de almacenamiento mnimo. aos anteriores se pueden almacenar en una o ms particiones ROLAP con un pequeo porcentaje de agregados, lo que ahorrar espacio de almacenamiento pero aumentar el tiempo de respuesta. Las particiones de un cubo son invisibles para el usuario 7) Agregados Los agregados son resmenes de datos precalculados que mejoran el tiempo de respuesta a las consultas por el simple hecho de tener preparadas las respuestas antes de que se planteen las preguntas. Los agregados se almacenan en la estructura multidimensional en celdas que tienen las coordenadas especificadas por las dimensiones. Por ejemplo (producto X, 1998, Noroeste) El Asistente para almacenamiento y agregado de datos proporciona opciones con las que puede especificar restricciones de almacenamiento y de porcentaje para el algoritmo con el fin de lograr una buena solucin de compromiso entre el tiempo de respuesta a las consultas y los requisitos de almacenamiento. 8) OLTP vs OLAP Base Datos Operacional Data Warehouse Datos del negocio para Informacin Orientado al sujeto Actual + histrico Detallada + ms resumida Estable

Datos Operacionales Orientado a la aplicacin Actual Cambia continuamente

9)Data Warehousing: Almacenamiento, transformacin y distribucin de datos tiles para los responsables de tomar decisiones. 10) CARACTERISTICAS DE UN DATA WAREHOUSE Orientado al tema Integrado De tiempo variante No voltil 11) ESTRUCTURA DEL DATA WAREHOUSE A)Detalle de datos actuales: Refleja las ocurrencias ms recientes, las cuales son de gran inters. Es voluminoso, ya que se almacena al ms bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fcil acceso, aunque su administracin sea costosa y compleja.

B)Detalle de datos antiguos : La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en

un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.

C)Datos ligeramente resumidos: La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseador para construirlo son:Que la unidad de tiempo se encuentre sobre la esquematizacin hecha. Qu contenidos (atributos) tendr la data ligeramente resumida. D)Datos completamente resumidos: El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fcilmente accesibles. E)Meta data:

12) OPERACIONES

Pivoting: Rotar el cubo para ver una cara en particular.Ej: Analizar informacion referida a
proveedores

Slicing dicing (incluye slice y dice):Seleccionar algn subconjunto de ese cubo.Ej: Analizar el
cubo de datos restringiendolo para algunos proveedores, productos y fechas

Roll up: Agrupamiento por alguna dimensin determinada.Ej: Analizar las ventas de producto a
las ventas por tipo de producto

Drill down: Operacin inversa: muestra informacin detallada de cada agrupamiento. Ej:
Analizar las ventas de tipo de producto a las ventas por producto Select (dice afirmativo)

13)DIMENSIONES Las dimensiones determinan cmo las instancias de los hechos pueden ser agregadas para el proceso de la toma de decisiones. Ejemplo:Fecha, Producto, Almacen 14) JERARQUIAS La jerarquas especifican distintos niveles de agrupamiento. El rbol ya muestra una organizacin jerrquica MEDIDAS: son datos numeicos de interes primario para los usuarios del cubo.algunas medidas comunes son: ventas en unidades , venta en $, costo de ventas. CUBO VIRTUAL:Provee acceso a los datos en los cubos combinados, sin la necesidad de construir uno nuevos, mientras que se permite que se mantenga en mejor diseo en cada cubo individual.Son otras formas de olap hibridos que le permitiran personalizar las alternativas de almacenamiento de los cubos para adaptarlas a sus necesidades. ESTRELLA: Esta compuesta por una tabla central, tabla de hechos y un conjunto de tablas mostradas en forma radial alrededor de esta, tablas de dimension. Se pueden ver todas las dimensiones sin tanto nivel de detalle .Ocupa mas espacio COPO DE NIEVE:extencion del esquema estrella, donde cada una de las tablas del esquema se divide en mas tablas tablas mas normalizadas. Ocupa menos espacio y se permite visualizar mejor los niveles, no se pueden ver todas las dimensiones ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

DATAMINING (BASE DE DATOS APLICADA II) 15) QUE ES LA MINERIA DE DATOS? E s el proceso de extraer conocimiento util y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Y como resultados se obtienen un conjunto de patrones de comportamiento que pueden expresarse por medio de reglas, ecuaciones, arboles de decision, redes neuronales, grafos probabilisticos y muchas otras tecnicas que se van descubriendo e incorporandose al data mining 16) QUE ES WEBMINING? Son productos especializados de data mining aplicados a la explotacion de datos que pueden obtenerse en un sitio web 17) PARA HACER MINERIA DE DATOS SE NECESITAN BD MULTIDIMENSIONALES? La mineria de datos puede aplicarse a cualquier tipo de informacin, siendo las tecnicas de mineria diferentes para cada una de ellas. A partir de esto podemos decir que los datos minados provienen de BD relacionales o de otro tipo de BD estructurados, ademas de esto se pueden minar datos no estructurados provenientes de la webo de otro repositor de documentos. 18)QUE NO ES DATA MINING? No es un producto que se compra enlatado, sino una disciplina que debe ser dominada. No es una solucion instantanea a los problemas de negocio. No es un fin en si mismo, sino un proceso que ayuda a encontrar soluciones a problemas de negocio. 19)ETAPAS EN EL PROCESO DE DATA MINING? Identificar el problema de negocio Transformar los datos en informacin. Actuar a partir de los resultados. Medir los resultados de las acciones. 20) FUENTES DE DATOS TRANSACCIONALES: EJ: los tickets de un supermercado RELACIONALES: EJ: la estructura del stock de productos. DEMOGRAFICOS: EJ: caracteristicas del grupo familiar 21)FORMAS DE DATOS PARA DATA MINING? Se organizan en forma de una tabla plana compuesta por filas y columnas. Las filas: unidad de analisis Ej: una cuenta, un ticket Las columnas; los atributos de cada unidad de analisis EJ: frecuencia de uso de la tarjeta de credito 22) ARBOLES DE DICISION Son tecnicas que se utilizan con finalidad predictiva y de clasificacion. Se obtiene como resultado reglas que explican el comportamiento de una variable (target) con relacion a otras(predictorias) 23) MODELO DE DATA MINING Modelo descriptivo: identifican patrones que explican o resumen los datos, sirven para explorar las propiedades de los datos examinados.Arbol de decision Modelo predictivo: Pretenden estimar valores futuros o desconocidos de variables de interes. modelo neuronal 24) REGLAS DE ASOCIACION MULTINIVEL Las reglas de asociacin que utilizan varios niveles de conceptos para expresar las relaciones se denominan reglas multinivel. Cuando se deser utilizar reglas multinivel, se debe proporcionar, ademas de los datos , una jerarquia de conceptos que contiene un arbol de relaciones entre los atributos. 25) REGLAS DE ASOCIACION SECUENCIALES

Este tipo de reglas expresan patrones de comportamiento secuenciales, es decir, que se dan en instantes distintos (pero cercano) en el tiempo.Este tipo de informacin es de importancia crucial en areas de aplicacin tales como el analisis de navegacin sobre paginas web. 26) PARA QUE TAREAS SE USAN LOS METODOS BASADOS EN CASOS DE VECINDAD? El metodo de vecindad sirve para 2 tareas, agrupamiento y clasificacion 27)EXPLIQUE QUE PAPEL JUEGA LA DISTANCIA EN ESTE METODO Y NOMBRE 3 CONCEPTOS DIFERENTES DE DISTANCIA? La distancia sirve para determinar la similitud de los datos Distancia Euclidia: es la distancia clasica, como la longitud de la recta que une 2 puntos en el espacio Distancia Chevy Chev: simplemente calcula la discrepancia mas grande en alguna de las dimensiones. Distancia Manhatan: Hace referencia a recorrer un camino no en diagonal, sino zigzagueando como haria en Manhatan. 28) TECNICAS USADA PARA APLICAR EL METODO DE CASO Y VECINDAD Tecnicas para el agrupamiento: mapas de Kohonen, k-medias, agrupamiento jerarquico. Tecnicas de clasificacion; estimacion bayesiana, k-vecinos, lvq 29) Explique cuando el modelo es una caja negra? Cuando las tecnicas producen modelos cuya complejidad es tan alta, se interpretan como cajas negras, dado que es prcticamente imposible conocer su comportamiento interno. Por ej: diagnosticar la enfermedad de un paciente a partir de datos del resultado de su analisis de sangre, utilizando para ello la experiencia de otros resultados 30) RED BAYESIANA Representa el conocimiento cualitativo mediante un grafo. El grafo expresa las relaciones de dependencia / independencia entre los diferentes atributos de un problema. 31) DISCIPLINAS QUE TIENEN RELACION CON LA MENERIA DE DATOS BD, Recuperacion de informacin, estadisticas, los sistemas para la toma de decisiones, la visualizacion de los datos 32) TIPOS DE BASES DE DATOS Relacionales: Es una coleccin de relaciones que constan de atributos y pueden contener un gran numero de tuplas donde cada una de ellas representa un objeto. La principal caracteristica de esta BD es la existencia de un esquema asociado o sea datos que deben seguir una estructura. Espaciales: Contienen informacin relacionada con el espacio fisico, los datos pueden ser geograficos, imgenes medicas, redes de transporte, donde las relaciones espaciales son muy relevantes Temporales: Almacenan datos que incluyen muchos atributos relacionados con el tiempo o en el que este es muy relevante. Estos atributos pueden referirse a distintos instantes o intervalos de temporales. Documentales: contienen descripciones para los objetos que pueden ir desde simples palabras claves a los resumenes. Estas bases de datos pueden pueden contener documentos no estructurados, semiestructurados y estructurados Multimedia: almacenan imgenes, audio y video Multidimensionales: molap 33)FASES DEL KDD Fase de integracin y recopilacin de datos: se determinan las fuentes de informacin que pueden ser utiles y donde conseguirlas. Acontinuacion se transforman todos los datos a un formato comun frecuentemente mediante un almacen de datos que consiga unificar de manera operativa toda la informacin recogida, detectando y resolviendo las inconsistencias. Fase de seleccin, limpieza y transformacin: en esta fase se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos incompletos. Ademas se proyectan los datos para considerar unicamente aquellas variables o atributos que van a ser relevantes. Fase de mineria de datos: se decide cual es la tarea a realizar y se decide cual es el metodo que se va a utilizar. Fase de evaluacion: se evaluan los patrones y se analizan por los expertos y si es necesario se vuelve a las fases anteriores para una nueva iteracion Fase de difusin: se hace uso del nuevo conocimiento y se hace participe a todos los posibles usuarios

34)FASE DE LIMPIEZA Y TRANSFORMACION- DATOS IRRELEVANTES, OUTLIERS, PERDIDOS O FALTANTES Datos irrelevantes: datos extraidos en la fase de integracin y recopilacin que no son necesaios para la tarea de mineria que se desea realizar. Outliers: son valores que no se ajustan al comportamiento general de los datos, estos pueden representar errores o pueden ser valores correctos que son diferentes a los demas. Datos faltantes: estos pueden deberseo producirse por el mal funcionamiento del dispositivo que hizo la lectura del valor o tambien a cambios de procedimientos en la recopilacin de datos desde fuentes diversas. 35) Fases de Seleccin, Limpieza y Transformacin NUMERIZACION Y DISCRETIZACION Discretizacion: es la conversin de un valor numrico en un valor nominal ordenado.se realiza cuando el error en la medida puede ser grande o existan ciertos umbrales significativos, cuando se necesita la integracin de escalas diferentes, cuando la interpretacin de la medida no sea lineal. Numerizacion: es el proceso inverso a la descretizacion y se puede usar cuando el metodo de mineria que vamos a usar no admite datos nominales, tambien es preciso par muchos de los metodos de modelizacin estadistica 36) QUE TAREAS DE MINERIA SON DESCRIPTIVAS Y PREDICTIVAS? PREDICTIVAS: clasificacion y regresion DESCRIPTIVAS: agrupamiento(clustering), reglas de asociacin, reglas de asociacin secuenciales Minera de Datos. Tipos de Tareas o Modelos. Los modelos pueden ser de dos tipos: Predictivos: Pretenden estimar valores futuros o desconocidos de variables de inters, llamadas variables objetivos o dependientes, usando otras variables o campos de la base de datos, llamadas variables independientes o predictivas. Ejemplo: Un modelo predictivo sera aquel que permite estimar la demanda de un nuevo producto en funcin del gasto en publicidad. Prediccin de Tendencias y comportamientos. Descriptivos: Identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Ejemplo: Una agencia de viajes desea identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder as remitirles esta informacin; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos. 37) Tcnicas de validacin: Explique validacin simple, cruzada y Bootstraping. Validacin simple: Reserva un porcentaje de la base de datos como conjunto de prueba, y no lo usa para construir el modelo. Este porcentaje suele variar entre el 5 y el 50 por ciento. La decisin de los datos en estos dos grupos debe ser aleatoria para que la estimacin sea correcta. Validacin Cruzada: En este mtodo los datos se dividen aleatoriamente en n grupos. Un grupo se reserva para el conjunto de prueba y con los otros n-1 restantes se construye un modelo y se usa para predecir el resultado de los datos del grupo reservado. Este proceso se repite n veces, dejando cada vez un grupo diferente para la prueba. Bootstraping: Consiste en construir primero un modelo con todos los datos iniciales. Entonces se crean numerosos conjuntos de datos llamados bootstrap samples, haciendo un muestreo de los datos originales con reemplazo, es decir, se van seleccionando instancias del conjunto inicial pudiendo seleccionar la misma instancia varias veces. 38) Limpieza y transformacin: Tipos de datos que se deben limpiar.

Datos Numricos: Se utilizan, generalmente, operaciones matemticas bsicas de uno o mas argumentos donde todas ellas retornan un valor numrico, Tambin se pueden generar valores nominales a partir de valores numricos. Datos nominales sin orden. Datos nominales con orden.

39)Resumidamente explique que se hace en la integracin, que se hace con los valores faltantes y que se hace con los valores errneos. Integracin: Lo que se hace en la integracin es tomar los datos de diferentes fuentes para identificar los objetos, es decir, conseguir que los datos sobre el mismo objeto se unifiquen y que datos de diferentes objetos permanezcan separados. Lo que se hace con los datos faltantes en primer lugar es detectarlos y saber el porque de los mismos, para esto se estudia lo siguiente: Si algunos valores faltantes expresan caractersticas relevantes. Valores no existentes o nulos. Datos incompletos. Una vez encontrados se realizan las siguientes actividades: Se los ignora. Eliminacin de toda la columna. Filtrar la fila. Reemplazar el valor. Segmentar. Modificar la poltica de calidad de datos y esperara hasta que los datos faltantes estn disponibles. Con los valores errneos al igual que con los datos faltantes se realiza su deteccin y tratamiento. Donde la deteccin se puede realizar de maneras muy diversas, dependiendo del formato y del origen de los campos. Los datos errneos sern del tipo: Anmalos o aislados Atpicos o exteriores Externos o perifricos. Una vez detectados se los trata de la siguiente manera: Se ignoran. Se filtra la columna. Se filtra la fila. Se reemplaza el valor. Se discretiza. 40) Qu es Reduccin de Dimensionalidad y Aumento de Dimensionalidad? Reduccin de dimensionalidad: La alta dimensionalidad es, muchas veces, un gran problema a la hora de aprender de los datos. Si se tienen muchas dimensiones (atributos) respecto a la cantidad de instancias o ejemplos, nos encontraremos con una situacin poco deseable al existir tantos grados de libertad, los patrones extrados pueden ser caprichosos y poco robustos. La reduccin de dimensionalidad se puede realizar por seleccin de un subconjunto de atributos, o bien se puede realizar por transformacin, sustituyendo el conjunto de atributos iniciales por otros diferentes, que, geomtricamente, se denomina proyeccin. Existen muchas tcnicas para realizar este tipo de proyeccin: - Anlisis de componentes principales. - Algunas tcnicas de anlisis factorial. - Uso de mapas auto-organizativos. Aumento de dimensionalidad: Al aumentar la dimensionalidad, se consigue, que los datos se separen en el espacio, facilitando, por ejemplo, fronteras lineales donde antes no las haba. Esto quiere decir que, si realizamos un aumento de dimensionalidad adecuado, podemos convertir algunos problemas no lineales o incluso irresolubles en problemas lineales, al aclararse el espacio. El concepto fundamental en este tipo de aumento de dimensionalidad es la utilizacin de funciones de ncleo, que permiten realizar estas proyecciones de manera adecuada. Existe la posibilidad de utilizar un mtodo de aprendizaje automtico, por ejemplo, un agrupamiento, para generar un nuevo atributo, en este caso, el grupo al que pertenece el atributo. sta es la base del anlisis discriminante lineal y de los ncleos utilizados para aadir o transformar atributos.

Uno de los problemas de la transformacin de unos atributos en otros para aumentar la dimensionalidad, y al igual que ocurre para la disminucin de dimensionalidad, es que el nuevo conjunto de atributos no es comprensible. 41) Exploracin y Seleccin.Qu preguntas me debo plantear antes de encarar un trabajo de minera de datos? Qu significa que debemos orientar a la herramienta? Las preguntas a realizarnos son: - Qu parte de los datos es pertinente analizar? - Qu tipo de conocimiento se desea extraer y cmo se debe presentar? - Qu conocimiento puede ser vlido, novedoso e interesante? - Qu conocimiento previo me hace falta para realizar esta tarea? Si no se responde a dichas preguntas no podr ser posible extraer conocimiento. Del mismo modo, una herramienta de minera de datos, no puede digerir un conjunto de datos y producir algo razonable, si no se la orienta, esto se debe a que la extraccin de conocimiento viene a cubrir unas necesidades y expectativas, que deben indicarse, en cierto modo, de forma interactiva. Ejemplo: Se puede realizar una compra por Internet o se la puede realizar un mayordomo, pero de ninguna manera se podr llevar a cabo la compra si no se indica lo que se quiere comprar. 42)Explique los dos tipos de reconocimiento que deben hacerse antes de emprender un trabajo de minera de datos. Reconocimiento del dominio y de los usuarios: Debemos reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes, ya sea para utilizarlas como conocimiento previo como para reemplazarlas por reglas y modelos mejores obtenidas por tcnicas de minera de datos. Es importante determinar las decisiones que se toman frecuentemente y a partir de qu modelos se toman, si stos tienen una base slida o son simples reglas de negocio en la cabeza de uno o ms directivos. Es importante determinar quin usar el conocimiento obtenido y qu tipo de presentacin puede ser ms aconsejable. Reconocimiento y exploracin de datos: De los datos seguimos transformando y seleccionando con el objetivo de obtener una vista minable, lista ya para ser tratada por las herramientas de minera de datos. Las herramientas de exploracin y seleccin requieren saber las expectativas y necesidades del dominio o, de una forma mas concreta, la tarea y el conocimiento previo pueden influir ms en estas transformaciones y selecciones. 43Con que objetivos se utilizan tcnicas de visualizacin de datos? Las tcnicas de visualizacin de datos se utilizan fundamentalmente con dos objetivos: - Aprovechar la gran capacidad humana para ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. - Ayudar al usuario a comprender ms rpidamente patrones descubiertos automticamente por un sistema de KDD. 44)Qu significa sumarizacin, generalizacin y pivotamiento de los datos? Ejemplificar. Sumarizacin: Muestra los datos de una manera mas resumida, permitiendo, precisamente, calcular valores agregados, que no son los datos directos registrados, sino datos derivados de ellos. Por ejemplo: en los fenmenos meteorolgicos, no se puede establecer un patrn de si har sol el da 31 de diciembre de 2015 en Valparaso, pero s se puede afirmar que en mes de diciembre del 2015 la temperatura media ser ms alta que la temperatura media de julio. Generalizacin: La generalizacin se puede realizar fundamentalmente mediante agregacin por dimensiones, o mediante lo que a veces se llama induccin orientada al atributo. Este tipo de generalizacin se denomina a veces descripcin de conceptos e incluye: generalizacin multinivel, sumarizacin, caracterizacin y comparacin. Ejemplo: Se puede tener el atributo para la fecha, el mes, el ao, etc. dentro de una jerarqua de una dimensin y moverse dentro de la misma, pero es posible realizar una generalizacin conceptual cuando se distingue entre martes y jueves o se distinguen entre das laborales y das festivos, para ello se utiliza jerarquas de valor.

Pivotamiento: Esta operacin cambia filas por columnas y, por lo tanto, realiza un cambio verdaderamente radical para una representacin basada en pares atributo-valor. 45) Cul es el objetivo de las tcnicas de muestreo? Explicar muestreo simple y muestreo estratificado. El muestreo es la manera ms directa de reducir el tamao de una poblacin o conjunto de individuos. La gran mayora de medidas y tcnicas estadsticas y de sus aplicaciones, se basan en el concepto de muestra, es decir, no se trabaja sobre toda la poblacin sino sobre un subconjunto de la misma. Ejemplo: La realizacin de encuestas, con unos cientos o miles de llamadas se puede extrapolar a una poblacin total de millones de personas. Muestreo Aleatorio Simple: La premisa de este muestreo es que cualquier instancia tiene la misma probabilidad de ser extrada de la muestra. Puede ser con o sin reemplazamiento. Muestreo Aleatorio Estratificado: El objetivo de este muestreo es obtener una muestra balanceada con suficientes elementos de todos los estratos, o grupos. Lgicamente, para poder hacer es necesario conocer los estratos o grupos de inters. Esto generalmente ocurre con problemas de clasificacin, donde estos estratos son precisamente las clases existentes, y puede ser que se tengan pocas instancias de unas clases o muchas instancias de otras. No obstante, se puede plantear realizar un agrupamiento previo al muestreo para descubrir los estratos. 46) Para qu trata de reducirse la dimensionabilidad en la vista minable? Porqu se eliminan las claves candidatas? Por qu se eliminan o seleccionan los atributos dependientes? Se reduce la dimensionabilidad en vistas minables para: - Permitir reducir el tamao de los datos, eliminando datos irrelevantes o redundantes. - Mejorar la calidad del modelo, al permitir al mtodo de minera de datos centrarse en las caractersticas relevantes. - Permitir expresar el modelo resultante en funcin de menos variables; esto es especialmente importante cuando se desean modelos comprensibles. - Se puede requerir una reduccin de dimensionabilidad a dos o tres caractersticas exclusivamente, con el propsito de representar los datos visualmente. Eliminacin de claves candidatas: La regla general es eliminar cualquier atributo que pueda ser clave primera de la tabla (o que sea clave candidata o incluso parte de la clave candidata, parcial o totalmente). Estos valores que son claves candidatas o pueden serlo, se eliminan ya que todos son distintos, y de no hacerlo, se deformaran los datos. Eliminacin de atributos dependientes: Se eliminan los atributos dependientes, ya que muchos de ellos son redundantes. De no hacerlo, se dificultar establecer reglas de asociacin o realizar tareas de agrupamiento. 47)Estadstica General. Significado de la curva normal. Su significado se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenmenos naturales y cotidianos siguen, aproximadamente, esta distribucin (Distribucin Normal). El rea bajo la curva delimitada indica la probabilidad de que la variable de inters, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintticamente hacia los ejes, cuando una variable siga una distribucin normal, ser mucho ms probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de ste. 48) De qu manera se puede obtener una muestra de una poblacin de datos? Para obtener una muestra de una poblacin de datos se debe establecer lo siguiente: Si se dispone de la poblacin: se determina que cantidad de datos son necesarios y como hacer el muestreo. Si los datos son ya una muestra de la realidad.

Una vez definido esto se pueden aplicar diferentes tcnicas de muestreo como ser: Muestreo aleatorio simple: Cualquier instancia tiene la misma probabilidad de ser extrada de la muestra. Muestreo aleatorio estratificado: se obtiene una muestra balanceada con suficientes elementos de todos los estratos o grupos. Muestreo de grupo: Consiste en elegir solo elementos de unos grupos. Muestreo exhaustivo: se trata de una exageracin del muestreo estratificado con motivaciones similares. 49)Para que sirven las regresiones? Se usa para predecir el valor de las variables dependientes basndonos en las variables independientes. Para esto lo que se hace es seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin; determinar la ecuacin de regresin. 50)Qu es una correlacin? En la Correlacin se usa un grupo de tcnicas estadsticas para medir la fuerza de la relacin (correlacin) entre dos variables. El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables). Puede tomar valores entre -1.00 y 1.00. Es decir que es el grado en que la curva de regresin se ajusta a la relacin que existe entre la variable dependiente y la independiente. Cuando el valor ms se acerque a 1, las variables varan en el mismo sentido, es decir mejor ser el ajuste de la recta a la nube de puntos. Cuando el valor mas se acerque a 0, la recta de regresin no es buena o bien los valores de las variables son independientes. Cuando el valor ms se acerque a -1, la recta de regresin es decreciente y las variables varan en sentidos opuestos. 51)Reglas de Asociacin y Dependencia.Qu utilidad tienen las reglas de asociacin y dependencia? Las reglas de asociacin tienen importantes aplicaciones prcticas: anlisis de la canasta de compra en un supermercado, estudio de textos, bsqueda de patrones en pginas Web, etc. Estas aplicaciones normalmente llevan asociadas gran volumen de datos, por lo que la eficiencia es un factor clave en el aprendizaje de reglas de asociacin. Las dependencias funcionales establecen relaciones entre varios atributos discretos, para todos sus valores. 52) Qu es la cobertura? Es una medida para conocer la calidad de una regla de asociacin. La cobertura de una regla se define como el nmero de instancias que la regla predice correctamente 53)Qu es la confianza? Es una medida para conocer la calidad de una regla de asociacin. La confianza mide el porcentaje de veces que la regla se cumple cuando se puede aplicar. 54)Clasifique las reglas de asociacin segn el tipo de valores utilizados, segn la dimensionalidad que manejan, segn en el nivel de abstraccin y segn la secuencialidad. Segn tipos de valores utilizados en las reglas: - Atributos binarios, que indican la presencia o ausencia de un tem. - Atributos con ms de dos valores.

Atributos numricos.

Segn dimensiones de los datos: - nica dimensin. - Dimensin tiempo. - Dimensin Cliente. Segn Niveles de abstraccin: - Algunos sistemas o algoritmos permiten incorporar a las reglas diferentes niveles de abstraccin representados por conceptos que aglutinan otros conceptos o tems. Este tipo de reglas se conocen como reglas multi-nivel. Segn Secuencialidad: - Instantneas. Se consideran relaciones en un instante de tiempo. Por ejemplo una compra determinada. - Secuenciales. Se consideran una secuencia o serie de hechos. Por ejemplo varias compras o visitas a una pgina Web. 55)Cmo se puede aplicar reglas de asociacin a los datos numricos continuos? Utilizando rangos. 56)Minera de Datos Temporales. Explicar los 4 elementos principales que se estudian. Una serie temporal se descompone en 4 elementos o movimientos principales: - Movimiento a largo trmino o tendencia: Estos movimientos indican el comportamiento general de la serie en un perodo largo de tiempo. Ayudan a identificar cul es la tendencia que sigue o ha seguido la serie. Por ejemplo, se puede observar que en tiempos de economa estable existe una tendencia al alza en el nmero de ventas de coches. - Variaciones Cclicas: Representan ciclos que presentan las series. Estas variaciones cclicas pueden o no ser peridicas. Es decir, los ciclos pueden no ser completamente iguales despus de perodos idnticos. Ejemplo: Las oscilaciones que presentan las cotizaciones en la bolsa - Movimientos estacionales: Estos movimientos se deben a eventos que ocurren con una frecuencia establecida y constante. Por ejemplo, el nmero de juguetes vendidos se incrementa considerablemente en navidad. - Movimientos aleatorios o irregulares: Estos movimientos representan el comportamiento de la serie debido a eventos aleatorios o semi-aleatorios. Por ejemplo: Tormentas/Huracanes o desastres climticos imprevistos, actos de ataques terroristas, etc.

También podría gustarte