Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Verificar los datos estadísticos de internet en tiempo real ingresemos a la dirección web:
https://www.internetlivestats.com/
Ingeniería de Sistemas e Informática
Adrian Merv, vicepresidente de la consultora Gartner, que en la revista Teradata Magazine, del
primer trimestre de 2011, define este término como: “Big Data excede el alcance de los
entornos de hardware de uso común y herramientas de software para capturar, gestionar y
procesar los datos dentro de un tiempo transcurrido tolerable para su población de usuarios”
La consultora tecnológica IDC, considera que: “Big Data es una nueva generación de
tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes
volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con
el objeto de extraer valor económico de ellos”.
Ingeniería de Sistemas e Informática
Tipos de datos
Los datos procesados por las soluciones Big Data pueden ser generados por humanos o por
máquinas, aunque en última instancia es responsabilidad de las máquinas generar los
resultados analíticos. Los datos generados por humanos son el resultado de la interacción
humana con los sistemas, como los servicios en línea y los dispositivos digitales
Ejemplos de datos generados por humanos incluyen redes sociales, publicaciones de blog,
correos electrónicos, intercambio de fotos y mensajes.
Ingeniería de Sistemas e Informática
Tipos de datos
Los datos generados por la máquina son generados por programas de software y dispositivos
de hardware en respuesta a eventos del mundo real. Por ejemplo, un archivo de registro
captura una decisión de autorización tomada por un servicio de seguridad, y un sistema de
punto de venta genera una transacción sobre el inventario para reflejar los artículos
comprados por un cliente. Desde una perspectiva de hardware, un ejemplo de datos
generados por la máquina sería la información transmitida desde los numerosos sensores en
un teléfono celular que pueden estar informando datos, incluyendo la posición y la intensidad
de la señal de la torre celular.
Ejemplos de datos generados por humanos incluyen redes sociales, publicaciones de blog,
correos electrónicos, intercambio de fotos y mensajes.
Ingeniería de Sistemas e Informática
Consulta el móvil
cada 10 minutos
Cada vez es mayor el número de
Prefiere perder la conexiones m2m.
cartera antes que el
móvil
Datos estructurados
Los datos estructurados se ajustan a un modelo o esquema de datos y a menudo se almacenan
en forma tabular. Se utiliza para capturar relaciones entre diferentes entidades y, por lo tanto,
se almacena con mayor frecuencia en una base de datos relacional. Los datos estructurados
son generados frecuentemente por aplicaciones empresariales y sistemas de información
como los sistemas ERP y CRM.
Debido a la abundancia de herramientas y bases de datos que admiten de forma nativa los
datos estructurados, rara vez requiere una consideración especial con respecto al
procesamiento o almacenamiento. Ejemplos de este tipo de datos incluyen transacciones
bancarias, facturas y registros de clientes.
Ingeniería de Sistemas e Informática
Datos no estructurados
Los datos que no se ajustan a un modelo o esquema de datos se
conocen como datos no estructurados. Se estima que los datos no
estructurados constituyen el 80% de los datos dentro de una
empresa determinada. Los datos no estructurados tienen una tasa
de crecimiento más rápida que los datos estructurados.
Esta forma de datos es textual o binaria a menudo se transmite a
través de archivos que son independientes y no relacionales. El
primero es el que se generan en mensajes de correo electrónico,
presentaciones, documentos de texto y mensajes instantáneos..
Los archivos binarios son a menudo archivos multimedia que
contienen datos de imagen, audio o video. Técnicamente, tanto los Los archivos de video, imagen y
audio son todos tipos de datos no
archivos de texto como los binarios tienen una estructura definida estructurados
por el formato del archivo en sí, pero este aspecto no se tiene en
cuenta, y la noción de no estructurarse está en relación con el
formato de los datos contenidos en el archivo.
Ingeniería de Sistemas e Informática
Datos semiestructurados
Los datos semiestructurados tienen un flujo lógico y un formato que
puede ser definido, pero no es fácil su comprensión por el usuario.
Datos que no tienen formatos fijos, pero contienen etiquetas y otros
marcadores que permiten separar los elementos dato. La lectura de
datos semiestructurados requiere el uso de reglas complejas que
determinan cómo proceder después de la lectura de cada pieza de
información. Un ejemplo típico de datos semiestructurados son los
registros Web logs de las conexiones a Internet. Un Web log se
compone de diferentes piezas de información, cada una de las
cuales sirve para un propósito específico. Ejemplos típicos son el
texto de etiquetas de lenguajes XML y HTML.
Los datos semiestructurados a menudo tienen requisitos XML, JSON y los datos del
sensor están
especiales de preprocesamiento y almacenamiento, especialmente semiestructurados.
si el formato no está basado en texto. Un ejemplo de
preprocesamiento de datos semiestructurados sería la validación
de un archivo XML para garantizar que se ajusta a su definición de
esquema.
Ingeniería de Sistemas e Informática
Fuentes y tipos de datos que pueden con formar los Big Data.
Ingeniería de Sistemas e Informática
Pregunta
¿Cuales son los datos internos y externos de una organización?
Ingeniería de Sistemas e Informática
Datos externos: Los datos externos son la variedad infinita de información que existe fuera de
su negocio. Los datos externos son públicos o privados. Los datos públicos son datos que
cualquiera puede obtener, ya sea recopilándolos de forma gratuita, pagándoles a un tercero o
haciendo que un tercero los recopile por usted. Los datos privados generalmente son algo que
necesitaría obtener y pagar de otra empresa o proveedor de datos externo
Ingeniería de Sistemas e Informática
Fuentes
• Web y Social Media: Incluye contenido web e información
(LinkedIn, blogs, etc.).
• Máquina a Máquina (M2M): Utiliza dispositivos como
sensores o medidores que capturan algún evento en
particular.
• Big Data transaccional: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas,
etc. Estos datos transaccionales están disponibles en
formatos tanto semiestructurados como no estructurados.
• Biométrica: Incluye huellas digitales, escaneo de la retina,
reconocimiento facial, genética, etc.
• Generación Humana: Las personas generamos diversas
cantidades de datos como la información que guarda un call
center al establecer una llamada telefónica,
Ingeniería de Sistemas e Informática