Está en la página 1de 58

ADMINISTRACION DE LA INFORMACION

ORTIZ MARTINEZ ROBERTO CARLOS

1..-INFORMACIN Y SU ROL EN LOS SISTEMAS Hoy en da la informacin se ha convertido en el arma ms poderosa que cualquier pas desea tener. La informacin se encuentra en todas partes y crece a cada momento. Dato: Una representacin fsica de la realidad Ejemplos: nmeros, letras, diagramas, sonidos, videos Informacin: Datos a los que se ha asociado un significado Ejemplos: Estados financieros, interpretacin musical, conferencia, presentacin grfica

1.1.-DATOS VS INFORMACIN
Administracin de Datos Definicin Mecanismos para el almacenamiento, recuperacin oportuna y mantenimiento de datos Recuperacin de Datos Consiste en determinar que documentos contienen las llaves del query en el documento No resuelve algunos problemas ej. el problema de recuperar informacin acerca de un tema Caractersticas Almacenamiento
Indexamiento Bases de datos

Recuperacin
Consultas estructuradas Resultados exactos Formateo

Administracin de informacin Definicin Dada una consulta, la meta es recuperar la informacin relevante para el usuario. Recuperacin de Informacin Analizar el contenido de una coleccin de documentos a travs de trminos Sinnimos, trminos con significado cercano (serpiente y reptil) Polisemia, trminos con significado dependiente del contexto (inters, banco) Refinar consultas para precisar el contexto de referencia La representacin y organizacin de la informacin deben proveer al usuario un fcil acceso a sus interes personales

Caractersticas Almacenamiento Bases de datos Indices Listas invertidas Colecciones de archivos Recuperacin Consultas imprecisas Leguajes basados en palabras clave Resultados aproximados (evaluacin de pertinencia) Algoritmos de recuperacin

1.2.-TIPOS DE DATOS RESPECTO A SU ESTRUCTURA.

En la seccin anterior se hizo una distincin entre datos e informacin, la cual ha surgido ms bien sobre la marcha, cuando las personas se dieron cuenta de la dificultad de contestar a determinados cuestionamientos, por ejemplo por el contenido de documentos. Pero existe una clasificacin cientfica ms precisa que nos ayuda a definir los distintos tipos de datos.

1.2.1 DATOS ESTRUCTURADOS

Son aquellos atributos o variables fuertemente tipados (int, float, string) Cada atributo en una relacin est definido para todos los registros Estn organizados de alguna manera Ejemplos: registros, base de datos relacional

1.2.1.1.-Modelado de Datos Definicin Es el proceso de analizar los aspectos de inters para una organizacin y la relacin que tienen unos con otros. Resulta en el descubrimiento y documentacin de los recursos de datos del negocio. El modelado hace la pregunta " Qu ? " en lugar de " Cmo ? ", esta ltima orientada al procesamiento de los datos. Es una tarea difcil, bastante difcil, pero es una actividad necesaria cuya habilidad solo se adquiere con la experiencia

Tipos de modelos de datos Basicamente son 3: Conceptual: muy general y abstracto, visin general del negocio/institucin. Lgico: versin completa que incluye todos los detalles acerca de los datos. Fsico: esquema que se implementara en un manejador de bases de datos (DBMS).

Generalmente todo modelo tiene una representacin grfica, para el caso de datos el modelo mas popular es el modelo entidad-relacin o digrama E/R. Se denomina asi debido a que precisamente permite representar relaciones entre entidades (objetivo del modelado de datos).

El modelo debe estar compuesto por: Entidades: todo lo que existe y es capaz de ser descrito (sustantivo). Atributos: es una caracterstica (adjetivo) de una entidad que puede hacer 1 de tres cosas: Identificar Relacionar Describir Relaciones: la conexin que existe entre 2 entidades (verbo). Cardinalidad: nmero de ocurrencias que pueden existir entre un par de entidades. Super llave: conjunto de uno o ms atributos que "juntos" identifican de manera nica a una entidad Llave candidata: es una super llave mnima Llave primaria: la seleccionada para identificar a los elementos de un conjunto de entidades.

El paso de un modelo lgico a uno fsico requiere un profundo entendimiento del manejador de bases de datos que se desea emplear, incluyendo caractersticas como: Conocimiento a fondo de los tipos de objetos (elementos) soportados Detalles acerca del indexamiento, integridad referencial, restricciones, tipos de datos, etc Detalles y variaciones de las versiones

Parmetros de configuracin Data Definition Language (DDL) Como se coment en el modelado lgico el paso de convertir el modelo a tablas hace que las entidades pase a ser tablas (ms las derivadas de las relaciones) y los atributos se convierten en las columnas de dichas tablas. Fsicamente esta metfora de una tabla se mapea al medio fsico, con algunas consideraciones como se menciona en las siguientes secciones.

1.2.1.2 .-SISTEMA MANEJADOR DE BASE DE DATOS(SMBD) (DBMS):


Es un software de sistemas que tiene como propsito general facilitar el proceso de definir, construir y manipular bases de datos que se utilizan para diferentes tipos de aplicaciones. Componentes de software principales asociados a un SMDB : Generadores de aplicacin. Lenguajes de cuarta generacin (4GL). Software de consulta a la base de datos. Generadores de reportes y pantallas. Ejemplos de software: Informix 4GL, Oracle, SQL server...

Procesos relacionados con los SMBD:


*Definir la base de datos significa la declaracin de: Los tipos de datos La estructura Las restricciones de los datos a ser almacenados en la base de datos. * Crear o construir la base de datos: es el proceso de almacenar los datos en algn medio de almacenamiento, esto es controlado por el SMBD. * Manipular una base de datos incluye funciones como:

Consultar la base de datos para obtener algunos datos especficos. Actualizar la base de datos para reflejar cambios en el minimundo. Generar reportes de los datos. Eliminar algunos datos

Componentes de un SMBD

DDL: Utilizado para definir el esquema conceptual y proporciona detalles acerca de cmo implementar este esquema en los dispositivos fsicos utilizados para el almacenamiento de datos. DML: Lenguaje utilizado para manipular los datos, la primera de estas implementaciones es llamada Query.

Estructura de un SMBD Data Manager: Es el software central del DBMS, convierte las operaciones en las consultas de los usuarios, via procesador query o indirectamente via programa de la aplicacin, es responsable de la interfaz con el sistema de archivos. File Manager: Responsable de la estructura de los archivos y administra el espacio restante, tambin es responsable de localizar el bloque que contiene los registros requeridos, solicitndolo al disk manager. Disk Manager: Es parte del sistema operativo del host y realiza todas las operaciones fsicas de entradas y salidas, el disk manager transfiere el block o pgina requerido por el file manager.

Estructura de un SMBD Data Manager: Es el software central del DBMS, convierte las operaciones en las consultas de los usuarios, via procesador query o indirectamente via programa de la aplicacin, es responsable de la interfaz con el sistema de archivos. File Manager: Responsable de la estructura de los archivos y administra el espacio restante, tambin es responsable de localizar el bloque que contiene los registros requeridos, solicitndolo al disk manager. Disk Manager: Es parte del sistema operativo del host y realiza todas las operaciones fsicas de entradas y salidas, el disk manager transfiere el block o pgina requerido por el file manager.

1.2.1.3.-ADMINISTRACION DE BASE DE DATOS

Un Administrador de Base de Datos Es la persona encargada de definir y controlar las bases de datos corporativas, adems proporciona asesora a los desarrolladores, usuarios y ejecutivos que la requieran. Es la persona o equipo de personas profesionales responsables del control y manejo del sistema de base de datos, generalmente tiene(n) experiencia en DBMS, diseo de bases de datos, Sistemas operativos, comunicacin de datos, hardware y programacin

Funciones bsicas del administrador de la bases de datos. Creacin de Bases de Datos y Tablas. Creando Bases de Datos: Localizacin de las bases de datos. Tipo de base de datos (modo de direccionamiento). Creando Tablas: Seleccionando tipos de datos. Tablas fragmentadas o no fragmentadas. Localizacin de la tabla. Determinacin del espacio en disco. Modo de aseguramiento de candados.

Objetivos del Administrador de la Base de Datos. Mantener la Integridad de los Datos. Una base de datos debe protegerse de accidentes tales como los errores en la entrada de los datos o en la programacin, del uso mal intencionado de la base de datos y de los fallos del hardware o del software que corrompen los datos. La proteccin contra accidentes, que ocasiona inexactitudes en los datos, es parte del objetivo de garantizar la integridad de los datos Mantener la Seguridad de los Datos. La proteccin de la base de datos de usos mal intencionados o no autorizados se denomina seguridad de los datos Mantener la Disponibilidad de los Datos. La posibilidad de fallos de hardware o de software requiere procedimientos de recuperacin de la base de datos.

1.2.2.-DATOS SEMIESTRUCTURADOS
Lo que sea entre estructurado y no estructurado Variables pobremente tipadas (x=1 es vlido y x= hola tambin es vlido) Un registro no necesariamente tiene que tener todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo. Un atributo de un registro puede ser otro registro No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este. Ejemplos: documentos SGML y XML

1.2.2.1.-MODELADO XML
El modelo de contenido determina el orden y anidacin de los elementos Es posible establecer los tipos de datos del documento (slo en el caso del XML-Schema) Formas de modelar datos en XML: DTD y XML-Schema

Diferencias principales entre las DTD y los Schema: DTD tienen una sintaxis especfica mientras que Schema utiliza sintaxis XML Un Schema se puede manipular como cualquier otro documento XML Hay muchas ms herramientas para trabajar con DTD que con Schema Un Schema soporta tipos de datos (int, float, boolean, date, ...) las DTD tratan todos los datos como cadenas Un Schema soporta la integracin de los espacios de nombres permitiendo asociar nodos de un documento con declaraciones de tipo de un esquema La DTD slo permite una asociacin entre un documento y su DTD

Document Type Definition (DTD) Es la formalizacin de la nocin de esquema, tipo o clase de documento Una DTD consistir en una serie de definiciones de tipos de elementos, atributos, entidades y notaciones Declara cuales de ellos son legales dentro de un documento y en qu lugar pueden ubicarse Las DTD son importantes para permitir un procesamiento robusto de los documentos Un documento se relaciona con su DTD en la declaracin de tipo de documento (DOCTYPE)

Document Type Definition (DTD)

Puede haber cuatro tipos de declaraciones en una DTD: Declaracin de tipo de elemento Declaracin de atributos Declaracin de notacin Declaracin de entidades

XML Schema Es un lenguaje mucho ms sofisticado que pretende solventar muchos de los problemas presentados por los DTDs Tipeo de valores Ej. integer, string, etc Restricciones de valores min/max Tipos definidos por el usuario La definicin por si misma se realiza en XML Integra namespaces Desgraciadamente tiene un "pero..." es significativamente ms complicado que los DTDs, de ah que no hayan sido ampliamente aceptados

XML Schema Los componentes de un schema son: (global) element declaration que asocia el nombre de un elemento con un tipo complex type definition define requerimientos para atributos y subelementos attribute declarations: describen los atributos que podran y/o deben aparecer element references: describen cuales subelementos podran y/o deberan aparece a simple type definition definen un conjunto de strings a ser usadas como valores de atributos datos de caracteres

1.2.2.2.-LENGUAJE DE INTERROGACION
XML Path Language (XPath) es un lenguaje declarativo para localizar nodos y fragmentos (texto, elementos, atributos ...) en el rbol de un documento XML. Es utilizado por otras normas para Direccionamiento (XLink, XPointer y XSLT) Pattern matching (XSLT y XQuery)

Se basa en el XPath Data Model: Un documento XML se representa como un rbol jerrquico con siete tipos de nodos (raz, elemento, texto, atributo, espacio de nombres, instruccin de procesamiento y comentario). Conceptos importantes: Caminos de localizacin / libro / capitulo / parrafo Predicados

XQuery Lenguaje de consulta diseado para escribir consultas sobre colecciones de datos expresadas en XML. Una consulta en XQuery es una expresin que lee una secuencia de datos en XML y devuelve como resultado otra secuencia de datos en XML l Ha sido construido sobre la base de XPath y se fundamenta en l para realizar la seleccin de informacin y la iteracin a travs del conjunto de datos

XQuery Sus principales aplicaciones se resumen en tres:


Recuperar informacin a partir de conjuntos de datos XML. Permite filtrar los nodos que interesan de un documento XML y transformarlospara mostrar la informacin deseada con la estructura adecuada. Transformar unas estructuras de datos XML en otras estructuras que organizan la informacin de forma diferente. Ofrecer una alternativa a XSLT para realizar transformaciones de datos en XML a otro tipo de representaciones, como HTML o PDF

1.2.2.3.-BASES DE DATOS XML

Un documento XML es una BD porque Almacena informacin (documentos). Responde a un esquema (DTD, XML Schema) Tiene lenguajes de consulta (XPah, XQuery) y API s de Programacin (SAX, DOM, JDOM )

Ejemplos de posibles BD XML: Fichero de configuracin de una aplicacin Plantilla de un fax Formulario para solicitar dietas de viajes Temario de una asignatura Todos los informes de un departamento En general, una BD XML es una BD almacenada o gestionada en forma de documentos XML.

Existen varias aproximaciones para organizar y almacenar documentos XML de cara a su consulta y recuperacin: Usar un SGBD para almacenar los documentos XML como texto. Se almacenan documentos XML completos como textos muy largos en columnas de tipos carcter largo (SGBD objetorelacional) o en objetos de clase texto (SGBD-OO). Usar un SGBD para almacenar los elementos XML de los u OO)

Usar un SGBD para almacenar los elementos XML de los documentos como elementos de datos. Si todos los documentos XML tienen una estructura basada en un DTD/Schema, es posible volcar sus partes a estructuras relacionales o a objetos de un SGBD. Disear un nuevo Sistema de BD para almacenar documentos XML de forma directa (BD XML nativa). Generar los documentos XML como capa de interfaz de datos almacenados en BD tradicionales (relacionales

1.2.2.4.- ADMINISTRACION DE DATOS XML


Qu es XSL? Es 2 cosas: Transformation Language (XSLT) Formatting Language (XSL Formatting Objects) XSLT transforma un documento XML en otro documento XML XSLFO da formato y estilo a un documento de diversas maneras

A travs de XSL se pueden obtener documentos mucho ms llamativos y adecuados para formatos de impresin de alta calidad, como por ejemplo PDF XFO Todas las propiedades de CSS1/CSS2 sorn utilizables Pensado para formatos de impresin Nueva funcionalidad = CSS3? Con XFO es posible exportar a formatos como PDF Se debe apoyar en XSL

1.2.3.-DATOS NO ESTRUCTURADOS
Datos sin tipos pre-definidos Se almacenan como documentos u objetos sin estructura uniforme Se recuperan con apoyo de ndices y modelos de RI para determinar su relevancia respecto a consultas del usuario No organizados de acuerdo a ningn patrn No existe el concepto de variables o atributos Ejemplos: Correspondencia, diarios, novelas, blogs Como se puede observar no existe una manera automtica de poder analizar este dato para hacer cuestionamientos, a esto nos referamos en la seccin anterior como informacin.

1.2.31.-MODELOS DE RECUPERACION
Modelos clsicos de RI Booleano, vectorial y probabilstico Diseados para colecciones de texto El modelo lgico de los documentos consiste de trminos o palabras que se refieren (indexan) al tema principal tratado

Algunas propiedades tiles: Los trminos que aparecen en casi todos los documentos no son tiles Algunos trminos pueden tener mayor relevancia con respecto a un documento dado, lo que se puede denotar por un peso del trmino Para un trmino ki y un documento dj, wi,j >=0 denota la importancia del trmino para describir el contenido del documento Para una coleccin con t trminos, puede definirse el vector Dj = (w1,j, w2,j, wt,j) .

Modelo Booleano El modelo Boleano, es un modelo de recuperacin simple basado en la teora fija y lgebra de Boolean, este modelo proporciona un grupo de trabajo que es fcil de usar por un usuario comn de un sistema de IR. Adems, las llamadas se especifican como expresiones de Boolean que tienen la semntica precisa. Dado su simplicidad inherente y formalismo, el modelo de Boolean recibi la gran atencin y se adopt por muchos de los sistemas bibliogrficos comerciales

Modelo Booleano De este modelo se pueden destacar los siguientes puntos: La relevancia es binaria: un documento es relevante o no lo es. Consultas de una palabra: un documento es relevante si contiene la palabra. Consultas AND: Los documentos deben contener todas las palabras. Consultas OR: Los documentos deben contener alguna palabra. Consultas A BUTNOT B: Los documentos los documentos deben ser relevantes para A pero no para B.

Modelo Vectorial Propuesto en 1975, hoy el ms popular (con variantes) Tambin llamado solamente modelo vectorial Generaliza el modelo booleano al manejar pesos no binarios para los trminos de cada documento y de la consulta (query) Determina la similitud entre la consulta y cada documento calculando el ngulo entre sus vectores La idea principal es que dos documentos son similares si sus vectores apuntan hacia la misma direccin Un aspecto importante es la determinacin del peso de cada trmino, tpicamente basado en su frecuencia:

Modelo LSI (Latent Semantic Indexing) La meta es calcular la similitud query-documento haciendo matching entre conteptos en vez de trminos La manipulacin de matrices es empleada para identificar los "key concepts" Singular value decomposition (SVD) es usada para reordenar el espacio de trminos-documentos para reflejar los patrones asociacitivos ms importantes e ignorar las pequeas y menos importantes diferencias (Deerwester, JASIS, 1990).

1.2.3.2 MOTORES Y META MOTORES DE BUSQUEDA


Los motores de bsqueda son la forma principal que permite a los usuarios de Internet encontrar sitios con informacin. Esa es la razn por la cual los sitios publicados en los listados de los motores de bsqueda incrementan dramticamente su trfico. Todos quieren aparecer en los listados, desafortunadamente muchos no lo logran por desconocer el modo en el cual trabajan los motores de bsqueda. Existen tres tipos de motores de bsqueda, los basados en crawlers, los basados en ndices o directorios, y los meta motores de bsqueda. Estos se diferencian por la forma como organizan la informacin y los enlaces a las pginas que se encuentran en Internet

La eleccin del tipo de motor de bsqueda depende, principalmente, de la necesidad de informacin, el nmero de pginas que tienen indexadas, el nivel de actualizacin y un tanto de la experiencia y gusto que se tenga sobre alguna herramienta de bsqueda en especial. Las capacidades de bsqueda pueden construir o dividir la usabilidad de un sitio. Las herramientas de bsqueda efectivas destacan el poder de un sitio para transportar informacin.

Meta Motores De Busqueda La red de Internet es muy amplia y cambia constantemente, un solo motor de bsqueda no puede cubrirla y mantenerse actualizado al mismo tiempo. Al usar muchos motores, el poder en la bsqueda de la informacin es ms grande. Los meta motores de bsqueda no contienen URL y descripciones en su base de datos, en lugar de eso contienen registros de motores de bsqueda e informacin sobre ellos. Envan la peticin del usuario a todos los motores de bsqueda (basados en directorios y crawlers) que tienen registrados y obtienen los resultados que les devuelven. Algunos ms sofisticados detectan las URL duplicadas provenientes de varios motores de bsqueda y eliminan la redundancia, es decir solo presentan una al usuario.

1.2.3.3.-ARQUITECTURA GENERAL
La mayora de los motores de bsqueda emplean una arquitectura de robot-indexador centralizada (que muestra la ilustracin 1). Aunque puede parecer obvio recordarlo, a pesar de lo que puede inducir su nombre y de una amplia serie de definiciones incorrectas, el robot no es un programa que se mueve por la red ni se ejecuta sobre las mquinas remotas que visita; realmente es un programa informtico que funciona sobre el sistema local del motor de bsqueda y enva una serie de peticiones a los servidores web remotos (donde se alojan las pginas a analizar).

Este modelo presenta algunos problemas para gestionar adecuadamente en el entorno local la ingente cantidad de datos: La actualizacin de los ndices es complicada y lenta. No sigue el ritmo de crecimiento de la web, indexando nuevos documentos en un nivel menor. El trasiego de pginas por la red consume muchos recursos y produce una sobrecarga de trfico. Suelen ignorarse los contenidos dinmicos de la red, creacin de pginas de consulta, ficheros en otros formatos, etc.

En esta arquitectura distribuida, los servidores web reciben las peticiones de distintos robots (analizadores) de forma simultnea, aumentndose as la capacidad de carga de nuevas pginas del motor. Esta arquitectura solventa el problema de la carga de trfico en las conexiones con el motor, porque aumenta la velocidad de conexin con los robots en tanto que estos descartan gran cantidad de contenidos de las pginas que analizan y no las transfieren al entorno local, aliviando considerablemente la carga de trfico. En ltimo lugar, la informacin es recopilada de forma independiente por cada robot, sin tener que realizar una gestin sincronizada

También podría gustarte