Está en la página 1de 28

UNIVERSIDAD TECNOLÓGICA DE MÉXICO

30/06/2022 1
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz

30/06/2022 2
Capitulo 5
Tipos de información

5.1 Datos estructurados


5.2 Datos Semi estructurados
5.3 Datos No estructurados

30/06/2022 3
Tipos de información
Cuando no se administran, los datos pueden volverse abrumadores, lo
cual dificulta obtener la información que se necesita en el momento en
que se necesita.

Afortunadamente, tenemos herramientas de software que, aunque se


diseñen para abordar eficazmente el almacenamiento de datos,
descubrimiento, cumplimiento, etc., tienen como objetivo general hacer
que la gestión y el mantenimiento de los datos sea fácil. Pero,

¿Son todos los datos igualmente sencillos de gestionar?

Vamos a ver tres tipos de datos con los que estás acostumbrado a
trabajar, prestando especial atención a sus diferencias.

Son los datos estructurados, semi estructurados y no


estructurados.
30/06/2022 4
Conocer qué tipo de datos se necesitan para tener un adecuado análisis de
la situación y tomar decisiones acertadas podríamos decir que es el primer
paso para generar valor y obtener la mayor productividad posible en las
estrategias de Big Data.

Para ello, conviene saber, primero, cuáles son los tipos de datos más
habituales a las que las compañías deben enfrentarse.

Estos se dividen en tres grandes grupos:


los estructurados,
semi estructurados
y los no estructurados,

siendo los terceros los más comunes, pero a la vez más complejos de
manejar, aunque no imposibles de controlar, ya que el desarrollo
tecnológico ha hecho más fácil su tratamiento.

30/06/2022 5
El 80 por ciento de la información relevante en las
compañías se origina en los datos semiestructurados
y sin estructurar, siendo lo ideal combinar la
información existente en ambas tipologías de datos

Las compañías fallarán en sus análisis y en


consecuencia no entenderán por completo su
negocio, si no contemplan o ignoran los datos No
estructurados.

30/06/2022 6
¿Qué son datos estructurados?

Son aquellos que tienen campos fijos y por tanto, se especifican al detalle conformando las
llamadas bases de datos relacionales.

Poseen un modelo predefinido y están claramente organizados.

Un ejemplo de ello, es una base de datos de clientes estándar, en ella se incluyen el


nombre, la dirección de correo electrónico, el número de teléfono… Es decir, dan nombre a
cada campo de la base de datos y como consecuencia, este tipo de datos son fáciles de
introducir, analizar y almacenar.
30/06/2022 7
Normalmente se gestionan utilizando el
lenguaje de programación SQL creado por IBM.

Estos en realidad aportan conocimiento a la


organización y son muy útiles, pero por decirlo de
alguna forma carecen de contexto y profundidad.

Cuando hablamos de datos estructurados nos


referimos a la información que se suele encontrar en
la mayoría de bases de datos.

30/06/2022 8
Son archivos de tipo texto que se suelen mostrar en
filas y columnas con títulos. Son datos que pueden ser
ordenados y procesados fácilmente por todas
las herramientas de minería de datos.

Lo podríamos ver como si fuese un archivador perfectamente


organizado donde todo está identificado, etiquetado y es de
fácil acceso.

Es probable que la mayoría de las organizaciones estén


familiarizadas con este tipo de datos y ya los estén utilizando
con eficacia.

30/06/2022 9
Los datos estructurados tienen perfectamente definido la longitud, el formato y el
tamaño de sus datos.

Se almacenan en formato tabla hojas de cálculo o en bases de datos


relacionales.

30/06/2022 10
UNIVERSIDAD TECNOLÓGICA DE MÉXICO

Datos semiestructurados (Semistructured Data)

Lo que sea entre estructurado y no estructurado

➢ Variables pobremente tipadas (x=1 es válido y x=”hola” también es válido)


➢ Un registro no necesariamente tiene que tener todos sus atributos definidos.
Mientras por ejemplo en una base de datos relacional un campo debe establecerse
como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con
omitir dicho atributo.
➢ Un atributo de un registro puede ser otro registro
➢ No existe necesariamente una diferencia entre un identificador de un campo y el valor
mismo de este.
➢ Ejemplos: documentos SGML y XML
A pesar de poder representarse de distintas maneras,
actualmente la mejor manera de hacerlo es a través del
lenguaje XML.

Son aquellos que no se incluyen tan fácilmente ni en filas,


columnas, ni campos y se podría decir que no tienen una
estructura rígida.

Los primeros, los semiestructurados, suelen tener un formato


que puede ser definido pero no es fácil su comprensión por el
usuario y requiere habitualmente el uso de reglas complejas
que ayuden a determinar cómo leer cada pieza de la
información.

30/06/2022 12
Un ejemplo son los registros Web logs, ejemplos típicos son
el texto de las etiquetas de lenguajes XML y XTML

Los datos semi estructurados son una mezcla de los dos


anteriores no presenta una estructura perfectamente
definida como los datos estructurados pero si presentan
una organización definida en sus metadatos
donde describen los objetos y sus relaciones, y que en
algunos casos están aceptados por convención, como por
ejemplo los formatos HTML, XML o JSON.

30/06/2022 13
30/06/2022 14
30/06/2022 15
VIDEO

30/06/2022 16
¿Qué son datos no estructurados?

En el otro lado, están los datos no estructurados o


desestructurados que identifican a aquellos que no tienen
ningún tipo predefinido.

Normalmente su estructura no es uniforme y se tiene


habitualmente poco y nulo control sobre ellos.
30/06/2022 17
La información no está representada por datos elementales y su
interpretación y manipulación es mucho más compleja. Ejemplos: audios,
vídeos, fotografías, documentos impresos, mensajes de correo
electrónico, Twitter…

¿Cómo tratarlos? Herramientas como Hadoop o bases de datos NoSQL


ayudan notablemente a su manipulación.

Precisamente son muchas las voces cualificadas del sector que apuntan a
que es la información no estructurada la que ofrece un mayor
conocimiento.

En cualquier caso, el análisis de datos de distinto tipo es


imprescindible para mejorar tanto la productividad como la toma de
decisiones en cualquier compañía.

30/06/2022 18
Las organizaciones necesitan una estrategia de gobierno de la información
que le permita acceder a toda el abanico de datos que puedan aportar
valor a la gestión de la información y esto se consigue a través de un
enfoque global de la gestión de la información, que comprende tanto la:

➢ Calidad de la información
➢ La protección
➢ Gestión del ciclo de vida de la información.

Se trata de las tres disciplinas fundamentales que contribuyen al buen


gobierno de la información y que son básicas para un buen desarrollo de
cualquier estrategia de Big Data.

30/06/2022 19
Aunque parezca increíble, la base de datos con información estructurada
de una empresa, ni siquiera contiene la mitad de la información que hay
disponible en la empresa lista para ser usada.

El 80 % de la información relevante para un negocio se origina en forma


no estructurada, principalmente en formato texto.

Los datos no estructurados, generalmente son datos binarios que no


tienen estructura interna identificable.

Es un conglomerado masivo y desorganizado de varios objetos que no


tienen valor hasta que se identifican y almacenan de manera organizada.

30/06/2022 20
Una vez que se organizan, los elementos que conforman su contenido
pueden ser buscados y categorizados (al menos hasta cierto punto) para
obtener información.

Por ejemplo, aunque la mayoría de herramientas de minería de datos no


son capaces de analizar la información contenida en los mensajes de
correo electrónico (por muy organizados que estén), es posible que
recopilar y clasificar los datos contenidos en ellos nos pueda mostrar
información relevante para nuestra organización.

Se trata de un ejemplo que ilustra la importancia y la envergadura que


pueden llegar a tener los datos no estructurados.

Pero el correo electrónico ¿no tiene estructura?

30/06/2022 21
El término no estructurado se enfrenta a diferentes opiniones por
diversas razones.

Hay quien dice que aunque no se pueda identificar una estructura formal
en ellos, es posible que pueda estar implícita y, en ese caso, no debería
ser categorizado como no estructurado.

Sin embargo, por otro lado, si los datos tienen alguna forma de
estructura, pero ésta no es útil y no puede se utiliza para procesarlos,
estos deberían ser categorizados como no estructurados.

30/06/2022 22
Aunque los mensajes de correo electrónico pueden contener información
con alguna estructura implícita, es lógico pensar en ellos como
información no estructurada, ya que las herramientas normales de
minería de datos no están preparadas para procesarlos y analizarlos.

Los datos no estructurados son datos en bruto y no organizados.

Idealmente, toda esta información podría ser convertida en datos


estructurados.

Sin embargo, sería algo costoso y requeriría mucho tiempo.

Además, no todos los tipos de datos no estructurados se pueden


convertir fácilmente en un modelo estructurado.

30/06/2022 23
Por ejemplo, siguiendo con el ejemplo del correo electrónico, un e-mail
contiene información como la hora de envío, la persona a quien se envía,
el remitente, etc.

Sin embargo, el contenido del mensaje no se divide ni categoriza


fácilmente y esto puede ser un problema de compatibilidad con la
estructura de un sistema de base de datos relacional.

Esta es una lista limitada de tipos de datos no estructurados:


➢ Correos electrónicos.
➢ Archivos de procesador de texto.
➢ Archivos PDF.
➢ Hojas de cálculo.
➢ Imágenes digitales.
➢ Vídeo.
➢ Audio.
➢ Publicaciones en medios sociales.
30/06/2022 24
Mirando esa lista, te podrías preguntar qué tienen en común estos archivos.

Se trata de archivos que pueden ser almacenados y administrados sin que el


sistema tenga necesidad de entender el formato del archivo.

Al no estar organizado el contenido de estos archivos, estos pueden ser


almacenados de manera no estructurada.

La industria del Big Data sigue creciendo, pero existe un problema con los datos
no estructurados que todavía no están siendo utilizados.

No obstante, las empresa ya tienen identificado el problema y ya se están


desarrollando tecnologías y servicios para ayudar a solventarlo.

Los datos no estructurados se caracterizan por no tener un formato específico.

Se almacenan en múltiples formatos como documentos PDF o Word, correos


electrónicos, ficheros multimedia de imagen, audio o video,…

30/06/2022 25
30/06/2022 26
VIDEO

30/06/2022 27
30/06/2022 28

También podría gustarte