Está en la página 1de 18

S.E.P.

S.N.E.S.T.

D.G.E.S.T.

INSTITUTO TECNOLGICO DEL ISTMO

MATERIA: ADMINISTRACIN Y ORGANIZACIN DE DATOS CATEDRATICO: LOPEZ ESTEVA MARENA ALUMNA: MENDOZA LOPEZ MAYRA

TRABAJO:
INVESTIGACIN ORGANIZACIN DE ARCHIVOS ACTUALES ESPECIALIDAD: ING. INFORMATICA GRUPO:

4T

ADMINISTRACIN Y ORGANIZACIN DE DATOS

NDICE GENERAL

ORGANIZACIN DE ARCHIVOS ACTUALES

1.1.- PROCESAMIENTO DE ARCHIVOS CSV. 4 1.2.- PROCESAMIENTO DE ARCHIVOS XML. 5 1.3.- ORGANIZACIONES DE ARCHIVOS NO ESTRUCTURADOS. 6 1.4.- VISUALIZACIN DE LA INFORMACIN..... 7 - REPRESENTACIN TABULAR 8 - REPRESENTACIN GRFICA. 8 - REPRESENTACIN JERRQUICA11

Organizacin de Archivos Actuales

Pgina 2

ADMINISTRACIN Y ORGANIZACIN DE DATOS

INTRODUCCIN
Dentro de los sistemas de informacin se puede ver un factor muy importante que contribuye con la conservacin de la informacin, denominado Archivos que es el conjunto de todas las presencias de un registro diseado. Por medio de la elaboracin de sta investigacin se pretende profundizar sobre el anlisis de los archivos y ms que nada sus formas de procesamiento, conocer su clasificacin y mtodos para poder acceder a ellos.

Organizacin de Archivos Actuales

Pgina 3

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Un archivo es el conjunto de todas las presencias de un registro diseado. Los archivos manejan una serie de conceptos cuya comprensin es necesaria para comenzar a aproximarnos a la gestin de datos y al diseo de archivos. Adems representan aquellas acciones que integran el contenido fundamental de la gestin de documentos electrnicos de archivo.

PROCESAMIENTO DE ARCHIVOS CSV

CSV (Comma-Separated Values) son un tipo de archivo en formato abierto, que se pueden representar los datos en una tabla, donde las columnas son separadas por comas y las filas por saltos de lnea. El formato de archivo CSV (*.csv) guarda nicamente el texto y los valores como aparezcan en las celdas de la hoja de clculo activa. Todas las filas y todos los caracteres en cada celda se guardarn. Las columnas de datos se separan mediante comas y cada fila termina en un retorno de carro. Si una celda contiene una coma, el contenido de la celda se escribir entre comillas dobles. Si las celdas presentan frmulas en vez de valores, stas se convertirn como texto. Todo el formato, grficos, objetos y cualquier otro contenido de la hoja de clculo se perdern. El smbolo del euro se convertir en signo de interrogacin. Previo a la creacin del archivo CSV en Microsoft Excel, se requiere definir realizar la configuracin regional del sistema operativo en los siguientes parmetros: Separador de decimales: punto Separador de miles: coma Separador de lista: coma

Organizacin de Archivos Actuales

Pgina 4

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Ejemplo 987,juan,87345,10 876,pedro,43649,8 123,jorge,03342,av. 69,vicente,61560,valencia 18,lorenzo,06490,sol 19,luca,06480,luna n8 norte oriente libertad 342 342 23 n183 n18

PROCESAMIENTO DE ARCHIVO XML

XML es un lenguaje de meta marcado que ofrece un formato para la descripcin de datos estructurados. Esto facilita unas declaraciones de contenido ms precisas y unos resultados de bsquedas ms significativos en varias plataformas. Adems, XML habilitar una nueva generacin de aplicaciones para ver y manipular datos basadas en el Web. XML ofrece una representacin estructural de los datos que se puede implementar ampliamente y es fcil de distribuir. XML es un subconjunto de SGML optimizado para el Web. Definido por el World Wide Web Consortium (W3C) (en ingls), XML garantiza que los datos estructurados sean uniformes e independientes de aplicaciones o fabricantes. La interoperabilidad resultante est creando rpidamente una nueva generacin de aplicaciones de comercio electrnico en la Web. La tecnologa XML busca dar solucin al problema de expresar informacin estructurada de la manera ms prctica y reutilizable posible. Que la informacin sea estructurada quiere decir que se compone de partes bien definidas, y que esas partes se componen a su vez de otras partes. DE manera que sea simple el anlisis e identificacin de cada una de esas partes que conforman la estructura. En este tipo de archivo se aplican las reglas establecidas por la tecnologa XML. XML, que proporciona un estndar de datos que puede codificar el contenido, la semntica y los esquemas de una gran variedad de casos, desde los ms simples a los ms complejos, sirve para marcar lo siguiente:
Organizacin de Archivos Actuales Pgina 5

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Un documento normal. Un registro estructurado, como un registro de citas o un pedido de compra. Un objeto con datos y mtodos, como el formulario permanente de un objeto Java o de un control ActiveX. Un registro de datos, como el conjunto de resultados de una consulta. Meta contenido sobre un sitio Web, como el formato de definicin de canal (CDF). Representaciones grficas, como la interfaz de usuario de una aplicacin. Entidades y tipos de esquema estndar. Todos los vnculos entre datos y personas que hay en el Web.

ORGANIZACIONES DE ARCHIVOS NO ESTRUCTURADOS

El hecho de que no tengan una estructura denida, obl iga a que con cada dato se deba almacenar informacin a cerca de su contenido. Cada registro est compuesto por el par identicador/valor con separadores entre ambos y a su vez con separadores entre diferentes parejas. Por su propia naturaleza autodescriptiva el espacio que ocupan con respecto a la informacin verdaderamente til es excesivamente elevado. La insercin tiene un coste computacional bajo ya que siempre se insertaran los nuevos registros al nal del ltimo bloque en disco. Por tanto, el orden de eciencia es O(1). Insercin: incluir un nuevo registro en el archivo de datos. Lectura: localizar un registro a partir de algn valor de clave primaria secundaria. Lectura consecutiva: tras haber realizado una lectura, consiste en leer el siguiente registro segn el criterio de bsqueda establecido, de forma ordenada. Lectura exhaustiva: Listar todos los registros desde el principio hasta el nal, sin ordenar. Lectura ordenada: Listar todos los registros desde el principio hasta el nal, ordenados por clave.
Organizacin de Archivos Actuales Pgina 6

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Borrado: Eliminar el registro del archivo. Actualizacin: Modicar los valores de un registro. Reorganizacin: Compactar el archivo eliminando los huecos dejados por los registros borrados o actualizados.

La lectura es totalmente secuencial desde el comienzo y puede suponer la lectura del archivo completo. Para cada registro accedido, antes de comparar con su valor hay que localizar el identicador deseado segn el criterio de bsqueda establecido. Es por tanto, una operacin costosa de eciencia O(N). La lectura consecutiva del registro siguiente (en orden) dado su anterior es costosa ya que el archivo no mantiene orden alguno. Supondr la lectura de todo el archivo desde su inicio, y el orden de eciencia es O(N). La lectura exhaustiva es una operacin poco costosa de eciencia O(N). La lectura ordenada, por el contrario, es una operacin muy costosa de eciencia O(N2). Para cada dato hay que leer de nuevo el archivo completo. El borrado consiste en marcar el registro con un carcter especial. No requiere ninguna otra accin especial. Su eciencia es O (1). La actualizacin. Si el registro no cambia de tamao, se actualiza directamente. En cambio, si la longitud vara habr que marcar el registro como borrado y realizar la posterior insercin como si de uno nuevo se tratara. En cualquier caso, la eciencia es O(1). La reorganizacin, o compactacin requerir de un archivo auxiliar donde ir copiando los registros vlidos, comenzando por el primero hasta el nal del archivo.

VISUALIZACIN DE LA INFORMACIN

Visualizacin es la formacin en la mente de una imagen de un concepto. En este contexto, se entiende visualizacin como la representacin grfica de variables asociadas al concepto que se quiere visualizar. Visualizacin de la Informacin es el proceso de interiorizacin del conocimiento mediante la percepcin de informacin.

Organizacin de Archivos Actuales

Pgina 7

ADMINISTRACIN Y ORGANIZACIN DE DATOS

La Visualizacin de la Informacin se beneficia bsicamente de que: Los seres humanos reciben informacin de forma eminentemente visual ya que es el sentido con mayor ancho de banda, es decir, que proporciona mayor cantidad de informacin. La capacidad simblica del cerebro humano.

METFORAS PARA LA VISUALIZACIN DE LA INFORMACIN Una metfora visual es la representacin de un sistema mediante atributos visuales propios de un sistema diferente que ya es familiar a los usuarios y que se comporta de una manera anloga. Ejemplos: - Metfora del escritorio del S. O. Windows (archivadores y carpetas) - Metfora del rbol - Metfora de la red - Metfora del paisaje - etc. La metfora del paisaje es muy til para representar gran cantidad de datos de forma muy intuitiva. Las nociones de distancia y altura son fcilmente comprensibles para la mayora de la gente. Los mapas que utilizan esta metfora, denominados mapas topogrficos o cartogrficos codifican varias variables: similitud, densidad, centralidad, etc.

REPRESENTACIN TABULAR Y GRFICA DE LA INFORMACIN

Es llevar los resultados a cuadros para facilitar su proceso y es llevar los cuadros a grafico para hacer las primeras interpretaciones. Cada pregunta lleva asociado un cuadro y una grfica, y para relacionar una o ms variables se pueden hacer un cruce de variable o tabla de contingencia.

Organizacin de Archivos Actuales

Pgina 8

ADMINISTRACIN Y ORGANIZACIN DE DATOS

La tabulacin se hace dependiendo el tipo de variables 1. Tabulacin para variables cualitativas Pregunta (1) y (4) Se lleva la informacin o un cuadro as:

Xi X1 X2 X3 : : : Xk

ni n1 n2 n3 : : : nk N

hi h1 h2 h3 : : : hk 100%

Significado de cada variable n= Tamao de la muestra xi= Se llama variable de inters ni= Se llama frecuencia absoluta. Es el nmero de veces que se repite cada opcin de la variable de inters. hi= Se llama frecuencia relativa, contiene el porcentaje de participacin de cada una delas opciones de la variable de inters. Y se halla por la formula hi=nin*100% Ejemplo: Tomemos los datos de la encuesta realizada. Para encontrar la relacin entre el hbito al cigarrillo y los problemas de hipertensin.
Organizacin de Archivos Actuales Pgina 9

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Esta encuesta se le ha realizado a un grupo de 20 personas es decir la muestra(n) son 20 personas. Cmo vamos a tabular slo variables cualitativas vamos a escoger los resultados obtenidos para la siguiente pregunta. 1) Usted Fuma Si__ No___ Con los resultados se elabora una tabla de la siguiente manera:

Observemos: Xi Si No Ni 13 7 20 Hi 0,65 0,35 100%

En la columna de xi tabulamos las posibles puestas obtenidas es decir si o no. En la columna de ni contamos la veces que respondieron los encuestados si y no. En la columna de h: Se us la formula hi=nin para hallar el valor porcentual para cada ni.

Grfica. Una grfica es una ayuda visual a la interpretacin de unos resultados. Cada tipo de variable tiene una grfica ideal. Para las variables cualitativas las grficas son: Grafica de barras Grafica circular 2. Tabulacin tipo II, frecuencial o en forma compuesta.

Organizacin de Archivos Actuales

Pgina 10

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Se utiliza para la variable discreta llevando la informacin en un cuadro as:

Xi X1 X2

ni n1 n2

Ni N1 N2 N3 : : :

hi h1 h2 h3 : : :

Hi H1 H2 H3 : : : Hk

X3 n3 : : : : : :

Xk nk Nk hk n 100%

Significado de cada variable n= Tamao de la muestra. xi= variable de inters contiene los diferentes resultados de la variable discreta. Se coloca de menor a mayor. Y aunque este se repita se coloca una solo vez. Ni = Frecuencia absoluta acumulada contiene el nmero de veces que se repite la variable de inters desde la primera hasta la respectiva esto quiere decir que va acumulando la absoluta. Hi=Frecuencia relativa acumulada. Lleva la frecuencia absoluta acumulada a porcentaje se puede hallar de dos formas. 1) Utilizando la formula Hi =Nin. 2) Acumulando la frecuencia relativa.

Organizacin de Archivos Actuales

Pgina 11

ADMINISTRACIN Y ORGANIZACIN DE DATOS

REPRESENTACIN JERARQUICA

Este tipo de representacin visual donde los elementos se presentan en diferentes niveles, ramas o agrupaciones, que descienden de un nodo raz es la ms comn cuando la propia naturaleza del conjunto de datos a visualizar es jerrquica, como por ejemplo en la visualizacin de estructuras complejas de directorios y ficheros de sistemas informticos. En el caso de la visualizacin de estructuras de datos multidimensionales, donde no estn definidas de forma explcita las relaciones jerrquicas entre estos, este tipo de visualizacin es consecuencia de la aplicacin de tcnicas de clasificacin o agrupacin. Este es el caso de las tcnicas estadsticas de clustering o anlisis de conglomerados, que a travs de un proceso iterativo van agrupando los diferentes elementos en funcin de su similaridad, as como agrupando los diferentes grupos en ramas o niveles jerrquicos. Entre las tcnicas de clustering podemos diferenciar alrededor de 150 tipos diferentes en base a las reglas de aglomeracin utilizadas. Dentro de las reglas de aglomeracin ms comunes encontramos: encadenamiento simple ( single link), tambin denominado mtodo del vecino ms cercano; encadenamiento completo (complete link), o mtodo del vecino ms lejano; encadenamiento promedio; y el mtodo de Ward o mtodo de la suma de cuadrados (Herrero-Solana 2000).

Figura 4: Dendrograma basado en el mtodo de Ward (Herrero-Solana, MoyaAnegn 1999)


Organizacin de Archivos Actuales Pgina 12

ADMINISTRACIN Y ORGANIZACIN DE DATOS

El resultado grfico de la aplicacin de estas tcnicas suele ser en forma de dendograma, donde se pueden apreciar visualmente los diferentes grupos y subgrupos generados. Para su uso en la produccin de 'Visual Interfaces for Information Retrieval' se podran representar mediante metforas jerrquicas alternativas como las jerarquas hiperblicas (Lamping, et al. 1995), o como los treemaps representacin plana de una jerarqua en un espacio bi-dimensional (Shneiderman 1992; Kobourov & Yusufov 2005). El mayor problema que presentan las tcnicas de clustering es que no posibilitan el etiquetado o rotulado automtico de cada uno de los grupos y subgrupos creados, por lo que el usuario slo podra identificar la clase o grupo a travs de la exploracin de sus elementos contenidos. Este trabajo se ha estructurado en tres secciones correspondientes a las tres etapas o fases principales que conforman la mayora de esquemas metodolgicos propuestos para la produccin automatizada de 'Visual Interfaces for Information Retrieval' (Chung, et al. 2003;Polanco & Zartl 2002; Turetken & Sharda 2003 y Brner et al. 2003):

Anlisis y transformacin de los datos Aplicacin de los algoritmos de clasificacin y distribucin visual Aplicacin de tcnicas de transformacin visual

Anlisis y transformacin de los datos El primer paso para visualizar espacios complejos de informacin es la indizacin automtica del conjunto de documentos electrnicos, que al igual que en sistemas basados en querying normalmente se realiza en base al modelo de espacio vectorial originalmente propuesto por Salton (1989). Si por un lado el objetivo de este modelo de representacin de datos en sistemas basados en querying consiste en posibilitar la equiparacin parcial entre consulta y conjunto documental; en los sistemas basados en browsing grfico el objetivo es posibilitar tanto la clasificacin automtica del conjunto documental como el descubrimiento de relaciones estructurales subyacentes. Cuando los documentos electrnicos a indizar contienen informacin complementaria, como hiperenlaces o etiquetas de marcado que estructuren su contenido, sta tambin puede ser vectorizada para su posterior aprovechamiento. Una vez vectorizado el conjunto documental, sobre este espacio vectorial se pueden llevar a cabo una serie de anlisis con el objetivo de descubrir relaciones
Organizacin de Archivos Actuales Pgina 13

ADMINISTRACIN Y ORGANIZACIN DE DATOS

semnticas entre documentos, as como entre trminos. Se obtiene de esta forma una matriz de distancias N x N, siendo N el nmero de documentos o de trminos. Estas tcnicas pueden ser englobadas bajo la categora de Minera de Datos, que es definido como un proceso de descubrimiento de conocimiento (a priori desconocido) sobre repositorios de datos complejos, mediante la extraccin de informacin 'oculta' y potencialmente til en forma de patrones globales y relaciones estructurales implcitas entre datos (Kopanakis & Theodoulidis 2003). Dentro de las tcnicas de Minera de Datos encontramos tres tipos distintos: minera de contenido, minera de estructura y minera de uso (Berendt et al. 2002; Baeza-Yates 2004). Minera de contenido Si partimos de la premisa de que los trminos de un documento representan su contenido, la co-ocurrencia de un mismo trmino en dos documentos diferentes establecera una relacin semntica entre stos. Si asumimos este hecho es posible calcular la similaridad entre dos documentos comparando los vectores de cada documento mediante funciones de similaridad. Igualmente es posible calcular la similaridad entre trminos, teniendo en cuenta que la aparicin de dos trminos en un mismo documento implicara una relacin semntica entre stos. Para asegurar la fiabilidad y consistencia de la indizacin automtica de textos en lenguaje natural y reducir el nmero de trminos diferentes, antes de contabilizar frecuencias de co-ocurrencia, en muchas ocasiones es prerrequisito llevar a cabo un control terminolgico. Entre las tcnicas a aplicar podemos sealar:

Eliminacin sobre el conjunto de trminos a indizar de aquellos de uso comn, mediante su comparacin con una lista de palabras vacas previamente definida. Uso de procedimientos de stemming para reducir el conjunto de trminos a indizar a su raz, eliminando de esta forma tambin duplicados, variantes de gnero, nmero, etc. Eliminacin sobre el conjunto de trminos a indizar de aquellos con frecuencias muy altas o excesivamente bajas.

Minera de estructura La minera de estructura no se refiere a la estructura del espacio documental definida por los hiperenlaces entre sus documentos.

Organizacin de Archivos Actuales

Pgina 14

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Cuando un documento hipervincula a otro documento, este enlace expresa una relacin estructural explcita entre los dos documentos. Pero a travs del anlisis de estos hiperenlaces, tambin es posible descubrir estructuras implcitas y subyacentes de relacin semntica entre documentos. Este es el caso del anlisis de la co-sitacin, trmino que se refiere a la co-citacin aplicada a los hiperenlaces o 'sitas' entre web sites. En este anlisis que desde un mismo documento se enlace una pareja de documentos conjuntamente establece una relacin semntica entre los documentos co-citados.

Figura 1: Esquema cositacin entre documentos Igualmente, se podra aplicar el anlisis de los enlaces comunes para descubrir estructuras de similaridad subyacentes, en el que el hecho de que dos documentos enlacen a un mismo tercer documento establece una relacin semntica implcita entre los documentos sitantes.

Organizacin de Archivos Actuales

Pgina 15

ADMINISTRACIN Y ORGANIZACIN DE DATOS

Figura 2: Esquema enlaces comunes (bibliographic coupling) entre documentos Minera de uso Cuando el espacio documental se encuentra accesible al pblico y visitado diariamente, la informacin recogida por el servidor en forma de ficheros de sesin (log files) puede aportarnos informacin adicional acerca de las relaciones semnticas entre el conjunto de documentos. Por ejemplo, que un mismo usuario co-visite o co-acceda a dos documentos diferentes, establece una relacin semntica entre los documentos, mayor cuanto mayor sea la frecuencia de este patrn de uso. As mismo se podran llevar a cabo anlisis ms complejos, teniendo en cuenta en qu orden secuencial son visitados los documentos.

Figura 3: Esquema co-acceso entre documentos Este anlisis nos puede ofrecer informacin imposible de descubrir a travs de la minera de contenido y de estructura, ya que dos documentos frecuentemente covisitados puede que no se enlacen entre ellos, que no co-siten ni sean co-sitados, e incluso que no presenten co-ocurrencias de trminos con una frecuencia relevante. Comparacin de los mtodos Los diferentes tipos de anlisis indicados nos ofrecen una herramienta para revelar las relaciones semnticas de similaridad entre documentos, incluso entre trminos, en base a nuestro espacio documental vectorizado. La informacin que
Organizacin de Archivos Actuales Pgina 16

ADMINISTRACIN Y ORGANIZACIN DE DATOS

ofrecen es complementaria, ya que como indicbamos, con un tipo de anlisis es posible revelar informacin semntica que no hubiera podido ser descubierta mediante la nica utilizacin del resto. Chen (1997, 1998) propone un modelo genrico para estructurar y visualizar espacios de informacin hipertextuales, denominado GSA (Generalised Similarity Anlisis). Este modelo ofrece un esquema metodolgico para la extraccin de las relaciones semnticas entre documentos en base a tres tipos de medidas de similaridad - enlaces hipertextuales, similaridad de contenido y patrones de uso unificado bajo una nica funcin, que el autor denomina de meta-similaridad.

Organizacin de Archivos Actuales

Pgina 17

ADMINISTRACIN Y ORGANIZACIN DE DATOS

BIBLIOGRAFA

http://casidiablo.net/procesamiento-xml-java-xerces/ http://www.leobaraldi.com.ar/2008/03/que-es-un-archivo-xml-y-escribir-archivosxml/ http://informationr.net/ir/11-3/paper258.html http://www.scribd.com/doc/67194253/Visualizacion-de-la-informacion www.genesdigitales.com curso clase .pdf es.wikipedia.org/wiki/CSV sistemas.uniandes.edu.co/~isis2701/.../fetch.php?...xml www.escet.urjc.es smontalvo de teoria Tema .pdf

Organizacin de Archivos Actuales

Pgina 18

También podría gustarte