Está en la página 1de 24

BIG DATA

DEFINICIÓN Y TIPOS DE DATOS

Docente: José Carlos Navarro Vega


E-mail: jcnavarro@unamad.edu.pe
Ingeniería de Sistemas e Informática

¿De dónde provienen los datos?


En las últimas dos décadas, la velocidad y el
acceso a Internet han aumentado
considerablemente en todo el mundo,
causando una explosión en la cantidad de
datos que se producen y recopilan. Las
principales empresas están luchando para
dar sentido a estos conjuntos de datos tan
grandes y todos están de acuerdo en que las
luchas y oportunidades de BIG DATA.

¿De dónde vienen todos estos datos?

Cada segundo creamos nuevos datos a través


de computadoras, dispositivos móviles y
dispositivos de Internet de las cosas,
wearables, beacon y más.
Ingeniería de Sistemas e Informática

¿De dónde provienen los datos?

La población mundial de internet está


creciendo significativamente año tras año.
Hasta junio del 2019, Internet llega a 58.8% de
la población mundial y ahora representa a
4.53 billones de personas.

Verificar los datos estadísticos de internet en tiempo real ingresemos a la dirección web:
https://www.internetlivestats.com/
Ingeniería de Sistemas e Informática

¿De dónde provienen los datos?


Ingeniería de Sistemas e Informática

¿Qué es Big Data?


Big Data (grandes datos, grandes volúmenes de datos o macrodatos como recomienda utilizar
la Fundación Fundéu BBVA) supone la confluencia de una multitud de tendencias tecnológicas
que venían madurando desde la primera década del siglo XXI, y que se han consolidado
durante los años 2011 a 2013, cuando han explosionado e irrumpido con gran fuerza en
organizaciones y empresas, en particular, en la sociedad, en general: movilidad, redes
sociales, aumento de la banda ancha y reducción de su coste de conexión a Internet, medios
sociales (en particular las redes sociales), Internet de las cosas, geolocalización, y de modo
muy significativo la computación en la nube (cloud computing).
Los Big Data están brotando por todas partes y utilizándolos adecuadamente proporcionarán
una gran ventaja competitiva a las organizaciones y empresas. En cambio, su ignorancia
producirá grandes riesgos en las organizaciones y no las hará competitivas. Para ser
competitivas en el siglo actual, como señala Franks (2012): “Es imperativo que las
organizaciones persigan agresivamente la captura y análisis de estas nuevas fuentes de datos
para alcanzar los conocimientos y oportunidades que ellas ofrecen”.
Ingeniería de Sistemas e Informática

Definición de Big Data


Los Macrodatos o Big Data, hasta ahora no tiene una definición muy precisa, pero hay cierta
coincidencia:

Adrian Merv, vicepresidente de la consultora Gartner, que en la revista Teradata Magazine, del
primer trimestre de 2011, define este término como: “Big Data excede el alcance de los
entornos de hardware de uso común y herramientas de software para capturar, gestionar y
procesar los datos dentro de un tiempo transcurrido tolerable para su población de usuarios”

McKinsey Global Institute en un informe muy reconocido y referenciado, de mayo de 2011,


define el término del siguiente modo: “Big Data se refiere a los conjuntos de datos cuyo tamaño
está más allá de las capacidades de las herramientas típicas de software de bases de datos
para capturar, almacenar, gestionar y analizar”.

La consultora tecnológica IDC, considera que: “Big Data es una nueva generación de
tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes
volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con
el objeto de extraer valor económico de ellos”.
Ingeniería de Sistemas e Informática

Definición de Big Data


La consultora Gartner es: “Big Data son los grandes conjuntos de datos que tiene tres
características principales: volumen (cantidad), velocidad (velocidad de creación y utilización)
y variedad (tipos de fuentes de datos no estructurados, tales como la interacción social, video,
audio, cualquier cosa que se pueda clasificar en una base de datos)”. Estos factores,
naturalmente, conducen a una complejidad extra de los Big Data; en síntesis “‘Big Data’ es un
conjunto de datos tan grandes como diversos que rompen las infraestructuras de TI
tradicionales”
Ingeniería de Sistemas e Informática

¿Cuál es la importancia del Big Data en el mundo?


Desde carros auto-manejados hasta drones que entregan paquetes a la puerta de nuestra
casa, son solo el comienzo de las aplicaciones de Big Data (Rijmenam, 2013a). La revolución de
Big Data no solo se refiere al exponencial crecimiento del crecimiento de los datos, también
recae en el mejoramiento de los métodos estadísticos y computacionales. La capacidad de
cómputo se dobla cada 18 meses según la Ley de Moore, pero eso es nada a comparación de un
algoritmo con una serie de reglas que puede ser usado para resolver un problema miles de
veces más rápido que un método computacional convencional (Shaw,2014). He aquí la
importancia en el mundo académico.
En marketing algunos usos familiares son “sistemas de recomendación” que compañías como
Facebook, Amazon, Netflix usan para recomendarnos o sugerirnos algún producto basado en
intereses anteriores propios y de otros millones o billones de clientes.
El Institute for Quantitative Social Science de Harvard tiene por propósito ayudar a resolver
problemas sociales a través de datos, de los que existen muchos ejemplos Uno muy
interesante que se aplicó en México, donde se detectó que 4 millones de familias se arruinaron
al año por no tener un seguro de médico. Así surgió el Seguro Popular (Harvard, 2014). Con
más datos podemos hacer más cosas y las posibilidades son ilimitadas.
Ingeniería de Sistemas e Informática

¿Cuál es la importancia del Big Data en el mundo?


Big Data ayudará a tomar las decisiones del futuro basadas en datos, ayudará a predecir el
futuro basado en el poder de los algoritmos pero lo más importante nos ayudará a comprender
mejor nuestro mundo como un todo y quedará en nosotros aplicarlo de forma correcta
Una frase que resume todo lo anterior es: “Big Data nos ayuda a ver de nuevas formas, nos
ayuda a ver mejor, nos ayuda a ver diferente” (Cukier, 2014). Big Data jugará un rol de gran
importancia en la sociedad, en el sector empresarial y en los gobiernos.
Ingeniería de Sistemas e Informática

Tipos de datos
Los datos procesados por las soluciones Big Data pueden ser generados por humanos o por
máquinas, aunque en última instancia es responsabilidad de las máquinas generar los
resultados analíticos. Los datos generados por humanos son el resultado de la interacción
humana con los sistemas, como los servicios en línea y los dispositivos digitales

Ejemplos de datos generados por humanos incluyen redes sociales, publicaciones de blog,
correos electrónicos, intercambio de fotos y mensajes.
Ingeniería de Sistemas e Informática

Tipos de datos
Los datos generados por la máquina son generados por programas de software y dispositivos
de hardware en respuesta a eventos del mundo real. Por ejemplo, un archivo de registro
captura una decisión de autorización tomada por un servicio de seguridad, y un sistema de
punto de venta genera una transacción sobre el inventario para reflejar los artículos
comprados por un cliente. Desde una perspectiva de hardware, un ejemplo de datos
generados por la máquina sería la información transmitida desde los numerosos sensores en
un teléfono celular que pueden estar informando datos, incluyendo la posición y la intensidad
de la señal de la torre celular.

Ejemplos de datos generados por humanos incluyen redes sociales, publicaciones de blog,
correos electrónicos, intercambio de fotos y mensajes.
Ingeniería de Sistemas e Informática

Internet de las personas Internet de las maquinas (cosas)


Digitalización de la vida de las personas Digitalización de los objetos físicos
“Siempre conectados”->Los millenials son Cada vez es mayor el número de
heavyusers de los dispositivos móviles conexiones m2m.

Consulta el móvil
cada 10 minutos
Cada vez es mayor el número de
Prefiere perder la conexiones m2m.
cartera antes que el
móvil

Cada vez es mayor el número de


conexiones m2m.
Ingeniería de Sistemas e Informática

Datos estructurados
Los datos estructurados se ajustan a un modelo o esquema de datos y a menudo se almacenan
en forma tabular. Se utiliza para capturar relaciones entre diferentes entidades y, por lo tanto,
se almacena con mayor frecuencia en una base de datos relacional. Los datos estructurados
son generados frecuentemente por aplicaciones empresariales y sistemas de información
como los sistemas ERP y CRM.
Debido a la abundancia de herramientas y bases de datos que admiten de forma nativa los
datos estructurados, rara vez requiere una consideración especial con respecto al
procesamiento o almacenamiento. Ejemplos de este tipo de datos incluyen transacciones
bancarias, facturas y registros de clientes.
Ingeniería de Sistemas e Informática

Datos no estructurados
Los datos que no se ajustan a un modelo o esquema de datos se
conocen como datos no estructurados. Se estima que los datos no
estructurados constituyen el 80% de los datos dentro de una
empresa determinada. Los datos no estructurados tienen una tasa
de crecimiento más rápida que los datos estructurados.
Esta forma de datos es textual o binaria a menudo se transmite a
través de archivos que son independientes y no relacionales. El
primero es el que se generan en mensajes de correo electrónico,
presentaciones, documentos de texto y mensajes instantáneos..
Los archivos binarios son a menudo archivos multimedia que
contienen datos de imagen, audio o video. Técnicamente, tanto los Los archivos de video, imagen y
audio son todos tipos de datos no
archivos de texto como los binarios tienen una estructura definida estructurados
por el formato del archivo en sí, pero este aspecto no se tiene en
cuenta, y la noción de no estructurarse está en relación con el
formato de los datos contenidos en el archivo.
Ingeniería de Sistemas e Informática

Datos semiestructurados
Los datos semiestructurados tienen un flujo lógico y un formato que
puede ser definido, pero no es fácil su comprensión por el usuario.
Datos que no tienen formatos fijos, pero contienen etiquetas y otros
marcadores que permiten separar los elementos dato. La lectura de
datos semiestructurados requiere el uso de reglas complejas que
determinan cómo proceder después de la lectura de cada pieza de
información. Un ejemplo típico de datos semiestructurados son los
registros Web logs de las conexiones a Internet. Un Web log se
compone de diferentes piezas de información, cada una de las
cuales sirve para un propósito específico. Ejemplos típicos son el
texto de etiquetas de lenguajes XML y HTML.
Los datos semiestructurados a menudo tienen requisitos XML, JSON y los datos del
sensor están
especiales de preprocesamiento y almacenamiento, especialmente semiestructurados.
si el formato no está basado en texto. Un ejemplo de
preprocesamiento de datos semiestructurados sería la validación
de un archivo XML para garantizar que se ajusta a su definición de
esquema.
Ingeniería de Sistemas e Informática

Ejemplo de estructura: Los Big Data en la pediatria

Fuentes y tipos de datos que pueden con formar los Big Data.
Ingeniería de Sistemas e Informática

Ejemplo fuentes de información en una organización


Ingeniería de Sistemas e Informática

Pregunta
¿Cuales son los datos internos y externos de una organización?
Ingeniería de Sistemas e Informática

Datos internos y externos


Datos internos: Los datos internos representan todo lo que su negocio actualmente tiene o
puede acceder. Esto incluye datos privados o de propiedad que se recopilan, y que son
propiedad de la empresa donde controla el acceso.

Datos externos: Los datos externos son la variedad infinita de información que existe fuera de
su negocio. Los datos externos son públicos o privados. Los datos públicos son datos que
cualquiera puede obtener, ya sea recopilándolos de forma gratuita, pagándoles a un tercero o
haciendo que un tercero los recopile por usted. Los datos privados generalmente son algo que
necesitaría obtener y pagar de otra empresa o proveedor de datos externo
Ingeniería de Sistemas e Informática

Fuentes
• Web y Social Media: Incluye contenido web e información
(LinkedIn, blogs, etc.).
• Máquina a Máquina (M2M): Utiliza dispositivos como
sensores o medidores que capturan algún evento en
particular.
• Big Data transaccional: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas,
etc. Estos datos transaccionales están disponibles en
formatos tanto semiestructurados como no estructurados.
• Biométrica: Incluye huellas digitales, escaneo de la retina,
reconocimiento facial, genética, etc.
• Generación Humana: Las personas generamos diversas
cantidades de datos como la información que guarda un call
center al establecer una llamada telefónica,
Ingeniería de Sistemas e Informática

Formas de recolectar datos


1. Datos creados: Para obtener los datos de esta categoría necesitas realizar encuestas a
personas y establecer un mecanismo de captura y análisis de esta información. Generalmente
este tipo de datos implica que una persona voluntariamente participe en el proceso de
crearlos.
Los datos creados son por lo general datos estructurados y semi-estructurados y pueden ser
tanto internos como externos a la organización.
2. Datos provocados: Los datos provocados de alguna manera son también datos creados.
Pero estos datos son obtenidos de una forma pasiva. Por lo general se espera a que las
personas expresen una opinión sobre la experiencia que han tenido a cerca de un producto o
servicio pero sin pedirles que lo hagan. Un buen ejemplo de todo esto serían los sistemas de
evaluación o de “reviews” tipo Amazon. Donde puedes valorar el producto en base a un número
determinado de estrellas.
Esto datos son por lo general datos estructurados o semiestructurados y también pueden ser
tanto internos como externos.
Ingeniería de Sistemas e Informática

Formas de recolectar datos


3. Datos transaccionales: Son los datos que se generan cada vez que un cliente hace una
compra. Esta manera de recolectar datos es muy popular entre las empresas de gran
consumo y retail. Y permiten obtener información acerca de qué se ha comprado, cuándo se ha
comprado, dónde se ha comprado y quién ha comprado algo. Tienen mucho sentido para
empresas donde se producen un gran volumen de transacciones de un gran número de
clientes. Combinadas con otras informaciones permite mejorar ofertas y desarrollar
estrategias de marketing específicas.
Estos son datos internos y totalmente estructurados.
4. Datos compilados: Son los datos previamente recopilados por empresas que después se
encargan de venderlos o comercializarlos a terceros. Se trata de compañías cuya actividad se
basa en crear grandes bases de datos con información sobre personas o empresas para
después vender estos datos para que sean explotados por terceros.
Por lo general los datos compilados son estructurados y externos.
Ingeniería de Sistemas e Informática

Formas de recolectar datos


5. Datos experimentales: Estos datos son un híbrido entre los datos creados y los datos
transaccionales. En cualquier caso implica diseñar experimentos en los que los consumidores
de nuestra empresa reciben diferentes tratamiento de marketing (datos creados) para ver
cuál es su respuesta a estos estímulos (transacciones).
Estos datos por lo general son datos semiestructurados o estructurados y pueden ser tanto
internos como externos.
6. Datos generados por usuarios: Son los datos que tanto personas como empresas generan
de forma consciente. Incluye tanto comentarios en foros, redes sociales como blogs a cambios
en páginas web etc. Todo lo relacionado a la actividad de las personas en internet.
Se trata de datos desestructurados y generalmente externos a la empresa.
Ingeniería de Sistemas e Informática

Formas de recolectar datos


7. Datos capturados: Estos datos tienen mucho que ver con los datos recogidos de forma
pasiva sobre el comportamiento de las personas y máquinas, generados a través del uso de
dispositivos y aplicaciones web pero de los que como usuarios no somos cocientes de que los
creamos. Ejemplos de este tipo de datos son los datos del GPS del móvil aprovechados para
desarrollar aplicaciones sobre tráfico o los datos sobre búsquedas que realizamos en Google
o sensores que miden nuestro comportamiento como las pulseras inteligentes.
Estos datos que generamos son generalmente desestructurados y generados interna o
externamente a la empresa.

También podría gustarte