4 Disciplinas Asociadas A Big Data

4.
Disciplinas asociadas a Big Data
Big data como centro de los datos
Si seleccionas líneas de la transcripción en esta sección, irás a la marca de

tiempo en el vídeo
Algunos aspectos importantes de Big Data para la organización empresarial de
datos son: en primer lugar, el volumen. Manejamos una gran cantidad de datos
que hay que gestionar su almacenamiento, probablemente utilizando una
nube. Luego, la variedad. Trataremos datos estructurados, los de siempre, y
datos no estructurados. Ante estos últimos, hay que definir cómo se va a
gestionar. Además, la velocidad. Se reciben cada vez más cantidad de datos en
menos tiempo. Hay que prepararse para manejarlos. Un aspecto importante es
la variabilidad, que trata de las muy diversas fuentes de datos que existen
actualmente y que cambian y se incorporan otras nuevas. Es trabajo del
ingeniero de datos encontrar los datos que complementen sus otros
datos, como pueden ser datos de clima o demográficos. Las fuentes son
diversas y la estructura de los datos también. Para finalizar, la veracidad. En
primer lugar de los datos propios, comprobar la calidad de datos. Si están
definidos los estándares de gobernabilidad de datos, excelente. Pero si está
mezclando datos de su compañía con fuentes externas, habrá que comprobar si
tienen o no definidos los estándares, y qué es lo que significan, para ver cómo
se corresponden con los propios.
Ingeniería de datos
Para garantizar la organización empresarial de los datos es muy importante

tener en cuenta la ingeniería de datos porque aplicar la ingeniería de datos trata
de cómo construir tuberías de datos rápidamente como prueba de concepto, o
también conocido por sus siglas en ingles POC, Proof of Concept, que casi
siempre son temporales. Y luego, el POC se pone en producción.
A veces, eso sucede con una tecnología o un lenguaje diferente. Solo significa
tomar una prueba de concepto y hacerla resistente y escalable para que pueda
colocarse en un entorno de producción.
Sin embargo, antes de que eso suceda, querrás probar algo rápidamente y tal
vez sea para responder una pregunta en los datos o construir un modelo a
POC. Por ejemplo, es posible que tengas que probar cierta lógica para combinar
algunos datos y si tienes éxito, es posible que desees realizar la producción en
una herramienta ETL empleando tecnologías y patrones de modelado. Una
herramienta ETL, cuyo nombre se deriva de las siglas en inglés: Extract,
Transform and Load, y que significa: Extracción, Transformación y Carga, se
dedica a realizar labores de conexión a datos externos, transformación, limpieza
y carga en el repositorio destino. Los desarrolladores de integración de
datos utilizan herramientas ETL casi exclusivamente, mientras los ingenieros de
datos utilizan una serie de lenguajes de programación y herramientas.
Las herramientas ETL son excelentes para mover grandes cantidades de
datos, como es el caso de Big Data al que nos dedicamos en esta ocasión. Su
funcionalidad integrada es bastante básica. Los lenguajes de programación, por
otro lado, son más robustos por lo que se puede obtener una lógica de
negocios complicada, escrita y probada rápidamente.
Podemos obtener datos desde muchas fuentes diferentes. Por supuesto, existen
las fuentes habituales, como las bases de datos relacionales, los Data
Warehouse, Data Lakes, Cubos OLAP, pero también podemos obtener datos de
los archivos de registros, las Bases de datos NoSQL, las API REST, y en la nube
Internet, sensores de muchos tipos y otros dispositivos inteligentes. se trata de
reconocer que tenemos Big Data como origen de datos. Los distintos
subconjuntos de datos se limpian, transforman y combinan según sean las
necesidades, y generan el conjunto de datos resultante en una base de datos
analítica, como SQL Server o un entorno analítico, como SAS. Los datos ya
combinados se vuelven a limpiar hasta que queden listos para realizar el
análisis. En este caso, se trata de eliminar duplicados innecesarios, rellenar
valores nulos o cadenas vacías a partir de respuestas a reglas de lógica de
negocio, como pueden ser usar ceros, valores extremos o el promedio de todos
los valores para campos numéricos nulos.
La idea es limpiar los datos para que puedas realizar un análisis estadístico sin
perder los valores por culpa de alguna columna con elementos vacíos, lo que
pudiera afectar mucho el resultado.
Es imprescindible aplicar controles de calidad de datos antes de pasar a la fase
de análisis. Hay que tener en cuenta que no se trata solo de la herramienta que
se va a utilizar, sino de la definición de tareas en este proceso, ya que el uso de
una herramienta ETL depende de algunos factores, como la cantidad de datos
que está moviendo, lo que está tratando de hacer con los datos, la disparidad
de las fuentes, el acceso y la transformación de datos que se alojan en ciertos
orígenes.
Inteligencia de negocios
En la tecnología Big Data, el acceso a los datos está directamente vinculado a

los procesos de inteligencia empresarial o inteligencia de negocios.
El desarrollador de inteligencia de negocios o business intelligence junto con el
actor de negocios será responsable de definir el diseño del informe y establecer
conexiones con las fuentes de datos, aplicando algún tipo de consulta.
De esta forma, se obtiene el conjunto de datos resultante que se podría refinar
aún más antes de utilizarlo en un cuadro de mandos para análisis final. Puedes
crear informes interactivos que te permitirán profundizar en un conjunto de
datos más preciso para una métrica en particular. Incluso, puedes filtrar o
segmentar los datos por un determinado atributo, como agrupar los datos por
ciudad, estado o año. Este grupo que representa el código podría ser
personalizado o, simplemente, el código generado automáticamente desde la
herramienta de BI. El desarrollador de business intelligence no es un
programador típico.
De hecho, es posible que algunos nunca hayan escrito una línea de
código, aunque muchos de los paquetes de software de business intelligence
más populares como SQL Server Reporting Services de Microsoft, Microsoft
Power BI, la familia Qlik o Tableau tienen cierta capacidad para desarrollar
informes personalizados que podrían ser un poco más complejos de lo que
puede hacer con sus herramientas integradas de arrastrar y soltar.
El sistema de business intelligence con el que estás trabajando, probablemente
determinará qué lenguaje de programación utilizarás para escribir codigo
personalizado para informes complejos.
Es posible crear informes muy vistosos y prácticos con acciones de arrastrar y
soltar y las conexiones a orígenes de datos. Luego publicaremos nuestro
informe o panel de control en un servidor de administración de contenido, de
contenido empresarial, o una de las soluciones wiki que existen.
Análisis exploratorio y estadístico
Realizar análisis predictivos como parte del manejo empresarial de los datos, en
esencia, es estimar un resultado al observar patrones en los datos existentes. Se
puede hacer al elegir ciertas variables de un conjunto de datos, como
predictores. Se trata de definir los modelos para el análisis. Los datos para estos
predictores se ejecutan a través de un algoritmo estadístico de aprendizaje
automático, o Machine Learning, que evaluará, calificará y clasificará esas
variables para determinar la precisión de la salida.
Es posible que tengas que modificar tu modelo varias veces, y probar algunas
estrategias diferentes para aumentar la precisión. Pero afortunadamente, hay
muchas formas de hacerlo. El uso de Big Data como origen de datos, tanto para
el entrenamiento como para la validación de estos modelos, es altamente
recomendable.
Una de las formas que existen para realizar análisis exploratorio y estadístico, es
mediante Aprendizaje supervisado, donde se dividen los datos de muestra en
un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
El conjunto de datos de entrenamiento se utiliza mientras se desarrolla el
modelo y el conjunto de datos de prueba se utiliza posteriormente para validar
la efectividad del modelo. Algunos ejemplos de algoritmos de aprendizaje
automático supervisado son: árboles de decisión, clasificación Naive
Bayes, regresión lineal o logística, máquinas de vectores de soporte o SVM. Otra
de las formas existentes es el Aprendizaje no supervisado, en el que no existe
un conjunto de datos de entrenamiento o prueba. Este modo de aprendizaje
será el más adecuado en escenarios de detección de anomalías o algún tipo de
agrupamiento. Algunos algoritmos comunes de agrupamiento son: Clustering,
K-means y KNN, también conocidos como vecinos más cercanos.
De esta forma, se obtienen los resultados del análisis exploratorio de datos para
descubrir valor, y el análisis estadístico de datos para comprender y mostrar la
evidencia del valor. Además, los modelos predictivos para ver cómo usar ese
valor para tomar decisiones empresariales informadas.
Es posible sacar buenas conclusiones a partir de modelos que
analizan conjuntos de datos tradicionales. Sin embargo, dado el caso, si
complementamos la información que tenemos con datos útiles, empleando
tecnología Big Data, será el mayor beneficio que podamos extraer a nuestros
modelos.
La ciencia de los datos
La ciencia de los datos es un campo interdisciplinario compuestos por ciencias

de la computación o informática, matemáticas y estadísticas. Es la intersección
de estas disciplinas. Se necesita, además, conocimiento del negocio, que busca
obtener una visión de los datos.
El objetivo de la ciencia de datos es transformar los datos en
conocimiento, conocimiento que puede usarse para tomar decisiones
racionales. Un científico de datos es más que un simple científico, más que un
simple analista de datos y más que un desarrollador. Poseen los tres conjuntos
de habilidades. Las personas con los tres conjuntos de habilidades y
credenciales adecuadas son actualmente muy escasas y su demanda está
creciendo rápidamente. Además, parece no haber ningún final a la vista para el
crecimiento de esta demanda. La escasez de científicos de datos combinada con
su alta demanda lleva a salarios mucho más altos para científicos de datos y
profesionales con habilidades similares, como pueden ser trabajadores de
tecnologías de la información y las comunicaciones o como se le suele llamar,
IT, por las siglas en inglés de Information Technology.
Las habilidades comúnmente asociadas con la ciencia de datos son la
programación de código, que utilizan lenguajes como SQL, Python y R, que
trabajan con datos, recopilan, limpian y transforman datos. Además, y es muy
importante, crean e interpretan estadísticas descriptivas que analizan datos
numéricamente, crean e interpretan visualizaciones de datos que analizan los
datos visualmente, crean modelos estadísticos y los utilizan para pruebas de
hipótesis y predicción, manejo de Big Data, automatización de toma de
decisiones y predicción mediante algoritmos de aprendizaje automático y
despliegue de soluciones de ciencia de datos en producción para comunicar los
resultados a un público más amplio.
Para realizar la ciencia de datos, los científicos cuentan con muchas
herramientas que van desde lenguajes de programación, plataformas de
datos o herramientas de análisis.
La herramienta más popular es el lenguaje de consultas estructurado o SQL, que
es un lenguaje de programación utilizado para consultar tablas de datos en una
base de datos relacional. SQL es un lenguaje muy importante en la ciencia de
datos debido a la cantidad de tiempo que los científicos dedican a la
exploración y limpieza de datos.
Otra herramienta muy utilizada es Excel, porque es muy fácil de usar y bastante
potente. Como resultado, gran parte del mundo de los negocios de hoy todavía
se ejecuta en hojas de cálculo de Excel. Después de esto, tenemos Python y
R. Estos dos idiomas son hoy en día los preferidos del mundo de la ciencia de
datos. Microsoft Power BI es una herramienta que puede integrar ventajas de
SQL y Excel y se puede combinar con R y Python, por lo que está creciendo
grandemente su uso dentro de la comunidad de científicos de datos.
El proceso general de la ciencia de datos funciona así: primero, encontramos
una pregunta que queremos contestar. Esto puede ser una hipótesis que
queremos probar, una decisión que queremos tomar o algo que queremos
intentar predecir. En segundo lugar, recopilamos datos para nuestro análisis. A
veces, esto significa diseñar un experimento para crear nuevos datos. Otras
veces, los datos ya existen y solo necesitamos encontrarlos.
En tercer lugar, preparamos los datos para el análisis, un proceso que se
denomina intercambio de datos o discusión de datos. Necesitamos limpiar y
transformar estos datos para convertirlos en una forma adecuada para el
análisis. En cuarto lugar, creamos un modelo para nuestros datos en el sentido
más genérico. Este puede ser un modelo numérico, un modelo visual, un
modelo estadístico o un modelo de aprendizaje automático. Utilizamos este
modelo para proporcionar evidencia a favor o en contra de nuestra
hipótesis para ayudarnos a tomar una decisión o para predecir un resultado. En
quinto lugar, evaluamos el modelo. Necesitamos determinar si nuestro modelo
responde a nuestra pregunta, nos ayuda a tomar una decisión o crea una
predicción precisa. Además, debemos asegurarnos de que nuestro modelo sea
apropiado para nuestros datos. ¿Por qué la ciencia de la información se ha
vuelto tan importante de repente?
Existen cuatro tendencias que convergen para crear sistemas completamente
autónomos e inteligentes, máquinas capaces de actuar racionalmente en su
entorno y aprender cómo optimizar su desempeño a lo largo del tiempo sin
ninguna intervención humana. Estos son: Análisis de datos: la tendencia de
aplicar las prácticas y herramientas de data science en el mundo de los
negocios. Internet de las cosas: la tendencia de conectar dispositivos y sensores
a través de la nube, que está generando flujos masivos de datos para
analizar. Big Data: una tendencia a crear herramientas y sistemas capaces de
almacenar y procesar estos enormes conjuntos de datos a escala.
Aprendizaje automático: 1 una tendencia en la inteligencia artificial 1 de las
máquinas de enseñanza 1 para resolver problemas 1 sin estar programado
explícitamente para ello. 1 Máquinas capaces de tomar decisiones al identificar
patrones estadísticos 1 en estos conjuntos de datos masivos. 1 En resumen, la
importancia de la ciencia de datos 1 se reduce a dos cosas: 1 está impulsada por
la economía y es posible gracias a la tecnología.
Inteligencia artificial
En el pasado teníamos inteligencia artificial, sin embargo, no era tan

inteligente. Teníamos algunas máquinas que eran capaces de tomar decisiones
racionales, sin embargo, tenían que ser programadas explícitamente para tomar
esas decisiones, y solo podían operar con éxito en entornos muy restringidos.
Así que la mayoría de las decisiones fueron tomadas por los humanos.
Podíamos utilizar máquinas para ayudarnos a recopilar, almacenar y analizar
datos, pero en última instancia, eran los seres humanos quienes tomaban las
decisiones. Hubo un gran despliegue publicitario sobre lo que la inteligencia
artificial podría hacer. Los expertos predijeron que las máquinas pronto
reemplazarían el trabajo humano, pero nunca sucedió.
Desafortunadamente, a finales de los años 90, las máquinas ni siquiera eran
capaces, aun con toda la tecnología de inteligencia artificial que era posible en
la época, de resolver tareas básicas de propósito general que incluso un niño
pequeño podía resolver. Y no fue un problema de concepto, la idea inicial y la
que se tiene ahora de la inteligencia artificial, no ha cambiado. Una máquina
inteligente ideal es flexible, percibe su entorno mediante los datos que
recibe, por sensores o procesos de datos, y lleva a cabo acciones que maximicen
sus posibilidades de éxito. La exageración sobre el potencial de la inteligencia
artificial y su posterior desilusión, cuando nunca sucedió, llevó a lo que ahora se
conoce como el "Invierno de la inteligencia artificial".
El mundo de la inteligencia artificial se quedó helado. Fue un periodo de tiempo
entre finales de los años y principios del 2000. La financiación para la
investigación y las nuevas empresas que implicaban la inteligencia artificial se
había secado casi por completo. Sin embargo, a mediados de la década del
2000, el invierno de la inteligencia artificial, terminó, y las cosas se están
calentando de nuevo con el surgimiento del aprendizaje automático moderno.
Hoy en día, la mayor parte de la investigación en inteligencia artificial se centra

en el aprendizaje automático.
Aprendizaje automático
El aprendizaje automático es un subcampo de inteligencia artificial basado en

estadísticas. Implica que las máquinas aprendan cómo completar tareas sin
estar programadas explícitamente para hacerlo.
Esencialmente, con el aprendizaje automático, utilizamos los datos existentes
para aprender una función que puede hacer una predicción con nuevos
datos. Un primer ejemplo de tarea que se puede realizar con los algoritmos de
aprendizaje automático es la clasificación que se utiliza para tomar una
decisión o una predicción que involucra dos o más categorías o resultados. Por
ejemplo, decidir si aceptar o rechazar un préstamo según los datos del historial
financiero de un cliente. Otro ejemplo es la regresión, donde intentamos
predecir un resultado numérico basado en una o más variables de entrada. Por
ejemplo, cuánto se venderá un producto según las características del
producto en comparación con productos similares.
Comparando específicamente valores numéricos cómo puede ser el precio de
venta. Como tercer ejemplo, podemos citar la agrupación. En cada grupo
tenemos objetos similares según sea su comportamiento. Es un tipo de análisis
muy frecuente, cuando se trata de segmentar clientes según su patrón de
conducta y análisis de variables, como ingreso, edad, género, número de hijos,
etc. Y como cuarto y último ejemplo, tenemos la detección de anomalías, donde
encontramos observaciones en los datos que se comportan diferente a la
mayoría de la muestra, lo que llamaríamos los datos normales.
Por ejemplo, la detección de un aumento inusual del acceso a un sitio
web, cambios en los patrones de compras o búsqueda, o un aumento en la
cantidad de comentarios negativos sobre un nuevo producto que acaba de ser
lanzado. Las máquinas pueden realizar la clasificación, regresión, agrupación y
detección de anomalías en una variedad de fuentes de datos. Incluidas las
imágenes, texto, audio y vídeo.
Con el aprendizaje automático, ahora se puede enseñar a las
computadoras cómo realizar todas estas tareas y más. Big Data juega un papel
relevante en el desarrollo de proyectos de aprendizaje automático o Machine
Learning, por el volumen y la variedad de datos que es capaz de
manejar. Además, con Big Data se gestionan los datos que experimentan gran
velocidad de cambio y gran variabilidad en su formato.
De hecho, los algoritmos de aprendizaje automático son ahora mejores que los
humanos en muchas tareas. Por ejemplo, los algoritmos modernos de
aprendizaje automático, ahora superan a los humanos en la mayoría de los
juegos, como el ajedrez. Además, en reconocimiento de caracteres
manuscritos, prediciendo la edad de una persona a partir de una foto, lectura de
labios, y mucho más.
En la próxima generación de aprendizaje automático podremos completar
tareas aún más complejas, lo que nos llevará al aprendizaje profundo.
El siguiente paso tras combinar las ventajas y oportunidades que ofrecen la
inteligencia artificial y el aprendizaje automático.
Aprendizaje profundo o deep learning
En los últimos años hemos visto una serie de grandes avances en el aprendizaje
automático o Machine Learning. Esto ha llevado a un nuevo tipo de aprendizaje
automático llamado aprendizaje profundo o Deep Learning, que ya es un hecho
en el presente y se prevé que sea el futuro de la inteligencia artificial.
El aprendizaje profundo es una forma de aprendizaje automático que acumula
múltiples capas de modelos de aprendizaje automático, uno encima del otro
para formar una jerarquía.
Las redes neuronales profundas son, significativamente, más potentes y
precisas en su detección de patrones, toma de decisiones y precisión de
predicción que la generación anterior de algoritmos de aprendizaje automático.
De hecho, estos algoritmos de aprendizaje profundo se están comportando con
mejores resultados que cualquier humano en el planeta en una variedad de
tareas mentales y físicas complejas. Como resultado de estos nuevos algoritmos
de aprendizaje profundo, probablemente reemplazarán a los
humanos encargados de tomar decisiones en una variedad de tareas en las
próximas décadas. Los avances recientes en el aprendizaje profundo han llevado
a la especulación de que podemos estar al borde de un gran avance en
informática, estadística y ciencia neuronal.
Ya sea que esto ocurra o no, las maquinas están a punto de volverse mucho
más inteligentes y cambiar nuestro mundo de muchas maneras. Veamos
algunos ejemplos de aplicaciones modernas de aprendizaje automático que
cada vez se superan más y más mejorando la capacidad de los humanos para
ciertas tareas. Primero, se han producido grandes avances en reconocimiento de
voz.
Los teléfonos inteligentes han mejorado notablemente su capacidad relativa al
reconocimiento de voz. Esto es posible gracias a algoritmos de aprendizaje
profundo que se aplican al reconocimiento de voz. Por otra parte, las
computadoras ahora pueden realizar la lectura de labios mejor que los
humanos. Y cuando se combinan con el reconocimiento de voz, mejora su
capacidad para reconocer con precisión los comandos especialmente en
entornos ruidosos, como los automóviles.
Esto se puede combinar con el procesamiento del lenguaje natural que
comprende la estructura de las oraciones, la gramática y el contexto para
permitir conversaciones similares a las de los seres humanos con las
computadoras. Y al aplicar la detección de sentimiento a las palabras que estás
diciendo combinadas con la detección de emociones en tu rostro, mientras las
pronuncias, la máquina puede, incluso, comprender el estado emocional en el
que te encuentras y responder de la forma más apropiada.
Como resultado, interactuar con las computadoras en un futuro
cercano probablemente se volverá mucho más fácil y más natural. Otro caso
muy interesante es sobre la generación de imágenes. Podemos usar los
algoritmos de aprendizaje automático para realizar la clasificación y regresión
de las imágenes, por ejemplo, al intentar predecir el género, la edad y el estado
emocional de una persona.
Sin embargo, lo que quizás no sepas es que las máquinas, ahora también son
excepcionalmente buenas para generar imágenes. Se entrenan al ver una gran
cantidad de imágenes de personas que envejecen a lo largo de los años. Como
resultado, aprenden cómo predecir los cambios en las características faciales
que se producen a medida que envejecemos, de modo que pueda aplicarlas a
nuevas imágenes que nunca han visto antes. Los resultados son mejores de lo
que la mayoría de los humanos podrían producir con el software de edición de
imágenes y probablemente mejores que la mayoría de los artistas de bocetos
de la policía.
Finalmente, la medicina; una de las áreas donde se prevé que el aprendizaje
profundo tendrá un impacto considerable es el mundo de la medicina. En el
pasado, el diagnóstico de afecciones médicas y las recomendaciones para los
tratamientos han sido responsabilidad de los médicos.
Los seres humanos únicamente. Sin embargo, en los últimos años los algoritmos
de aprendizaje profundo han asistido, incluso, a los mejores médicos del
mundo en una gran variedad de tareas médicas. Las máquinas ahora pueden
superar a los facultativos en varias áreas de diagnóstico, por ejemplo,
prediciendo la insuficiencia cardíaca hasta nueve meses antes que los médicos
que utilizan los medios tradicionales.
Ocurre lo mismo en la detección de lesiones cerebrales traumáticas, cáncer,
fracturas, sufrimiento fetal y otras afecciones médicas que se encuentran
utilizando diversas técnicas de imagen médica.
Además, estas máquinas ahora también superan a los médicos humanos en
varias áreas del tratamiento, por ejemplo, adaptando los planes de tratamiento
del cáncer basados en la genética individual para maximizar la probabilidad de
éxito en los efectos secundarios minimizados y las recomendaciones de
prescripción 1 para evitar los efectos secundarios potenciales y otras reacciones
adversas de usar combinaciones de drogas.
Todos estos ejemplos tienen un punto en común. Los datos necesarios para
todos estos procesos tienen estructuras y orígenes muy diversos, son muy
variables, crecen a gran velocidad y tienen gran volumen.
Se trata, sin dudas, de escenarios de uso de tecnologías Big Data, como base
para otras disciplinas tecnológicas del mundo de hoy.
El internet de las cosas
Empecemos por recordar cómo era internet en sus inicios. Hace unas décadas,
teníamos internet en su versión más simple. Internet fue originalmente diseñado
para personas, fue diseñado para permitir a los humanos
comunicarse, colaborar e intercambiar información.
El coste para conectarse a internet fue relativamente alto. La velocidad de
nuestras conexiones a internet era lenta, el ancho de banda era bajo y se
conectaba a internet a través de cables físicos. Además, la web fue utilizada, en
gran medida, para consumir información. Producir nueva información para
internet era bastante difícil y requería bastante conocimiento técnico para crear
incluso una página web simple. La mayoría de los datos generados por
internet se recopilaron a través de formularios web básicos. Estos formularios
permitieron a las personas rellenar información básica como nombre, dirección,
número de teléfono y dirección de correo electrónico. Internet, realmente, no
generaba tantos datos.
Resumiendo, en el pasado, internet era caro, lento y no generaba tanta
información.
Pero esta situación afortunadamente cambió y ya tenemos lo que se conoce
como el internet de las cosas, IOT por sus siglas en inglés, que significa Internet
of Things. Hoy en día, internet ya no solo es para personas. El internet de las
cosas es la tendencia emergente de conectar todos los dispositivos, que son
cosas, a través de internet. También es una tendencia de conectar sensores que
monitorean objetos físicos, que también son cosas. Internet de las cosas está
siendo impulsado por la economía.
El costo de conectar un dispositivo a internet está disminuyendo, las
velocidades de conexión aumentan y el ancho de banda también aumenta; y las
conexiones inalámbricas ahora son abundantes y baratas. Esto significa que
ahora es rentable conectar dispositivos y sensores a internet para permitirles
recopilar y transmitir sus datos a la nube. Estos datos, cuando se analizan,
pueden crear un valor adicional que justifica el costo de internet al habilitar
estos dispositivos. Por ejemplo, conectar tu rastreador de ejercicios a internet te
permite realizar un seguimiento de tu ejercicio físico, patrones de sueño, ritmo
cardíaco y otra información vital.
Como resultado de la economía que impulsa al internet de las cosas, hemos
visto una explosión en el crecimiento de los dispositivos de IOT en la última
década. De hecho, se prevé que la cantidad total de dispositivos habilitados
para internet alcanzará los 50.000 millones de dispositivos para 2020, lo que
representa más de seis dispositivos conectados a internet para cada persona en
el planeta. Los dispositivos son muy variados.
A día de hoy, relojes, teléfonos y televisores inteligentes son algunos de los
ejemplos del internet de las cosas que están al alcance de la sociedad. Además
de los datos generados por los nuevos dispositivos y sensores de IOT, internet
de hoy también está obteniendo un valor adicional de la extracción de los
datos. Con el internet de las cosas, los datos que se generan a través de internet
ya no se limitan a simples formularios basados en la web. En cambio, las fuentes
de datos, ahora son dispositivos, sensores, actividades, audio, video, texto y
más. Enjambres de personas, dispositivos y sensores ahora generan un flujo
continuo de datos en la nube.
En resumen, hoy en día, el internet de las cosas es barato, rápido y genera
toneladas de datos. Generan Big Data, datos que pueden analizarse
utilizando las prácticas de la ciencia de datos para extraer nuevos valores y
perspectivas. Algunos expertos predicen que, en el futuro, internet se
convertirá en el internet de todo. La economía continuará impulsando
internet para convertirse en el internet de todo.
El costo de conectar a las personas, los dispositivos y los sensores continuará
disminuyendo, la velocidad seguirá aumentando, el ancho de banda se
ampliará y todo se volverá inalámbrico.
Como resultado, siempre que el valor derivado de los datos de un
dispositivo sea mayor que el costo para conectar el dispositivo a internet, habrá
un caso de negocio para habilitar internet en el dispositivo. Así que la mayoría,
si no todos los dispositivos, probablemente se conviertan en parte del internet
de las cosas. De hecho, en el futuro, es probable que una conexión a
internet sea tan común en los dispositivos como lo es la electricidad en la
actualidad. En este punto, es probable que todos los artefactos humanos estén
conectados a internet.
Esto significa que las fuentes de datos son esencialmente algo importante en
nuestro mundo.
Todas las personas, dispositivos, edificios, ciudades, etcétera., esencialmente se
convierten en una fuente de datos para ser analizados, lo que significa que
habrá más y más Big Data.
Más allá del big data
Tal y como vemos la tendencia del incremento de volumen, velocidad y

variedad de datos, probablemente en el futuro, apenas tengamos
escenarios que no traten con Big Data.
La arquitectura de las computadoras y el diseño de software están cambiando
fundamentalmente para admitir Big Data de forma predeterminada.
Primero, el costo de almacenamiento va a seguir cayendo; como resultado, el
almacenamiento de datos será tan bajo que, en esencia, será gratis. De hecho,
muchos proveedores de servicios en la nube, simplemente están regalando
almacenamiento gratuito para incitarte a almacenar tus datos con ellos, para
que puedan cobrarte por el procesamiento de servicios adicionales. Además, la
tecnología de computación distribuida, está cambiando la forma en que
almacenamos nuestros datos.
Estamos llegando a un punto en el tiempo cuando el almacenamiento se vuelve
completamente elástico.
No habrá necesidad de pensar en cuánto espacio de disco necesitas para
almacenar todos tus datos; simplemente almacenarás tus datos en la nube, y la
nube continuará asignando automáticamente más espacio para satisfacer todas
tus necesidades de almacenamiento.
Por otra parte, la computadora, tal y como la conocemos, está pasando por una
transformación. La tecnología de computación distribuida está cambiando la
forma en que procesamos los datos.
Los algoritmos se están volviendo altamente paralelos, y la potencia de
procesamiento también es casi completamente elástica.
No habrá necesidad de comprar una computadora potente para manejar una
tarea de procesamiento de datos, la nube distribuirá automáticamente su carga
de trabajo y aumentará la capacidad de procesamiento según sea necesario.
Dejaremos de programar la computadora y comenzaremos a programar la
nube. En esencia, el centro de datos se convertirá en la computadora.
Finalmente, nuestra capacidad para manejar una amplia variedad de datos
continúa mejorando.
Estamos viendo la aparición de herramientas automatizadas de integración de
datos que pueden eliminar gran parte del trabajo de integración de varios
conjuntos de datos.
También estamos viendo el surgimiento de nuevas herramientas de
extracción de características automatizadas que pueden extraer
automáticamente características aun más complejas de conjuntos de datos no
estructurados.
Esto nos proporcionará nuevos datos, a los que nunca antes habíamos tenido
acceso rentable. Estamos creando herramientas para automatizar la
extracción de información de Big Data.

4 Disciplinas Asociadas A Big Data

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4 Disciplinas Asociadas A Big Data

Cargado por

Copyright:

Formatos disponibles

4.

Disciplinas asociadas a Big Data

Big data como centro de los datos

Si seleccionas líneas de la transcripción en esta sección, irás a la marca de

Para garantizar la organización empresarial de los datos es muy importante

En la tecnología Big Data, el acceso a los datos está directamente vinculado a

Análisis exploratorio y estadístico

La ciencia de los datos

La ciencia de los datos es un campo interdisciplinario compuestos por ciencias

En el pasado teníamos inteligencia artificial, sin embargo, no era tan

Hoy en día, la mayor parte de la investigación en inteligencia artificial se centra

El aprendizaje automático es un subcampo de inteligencia artificial basado en

Aprendizaje profundo o deep learning

El internet de las cosas

Más allá del big data

Tal y como vemos la tendencia del incremento de volumen, velocidad y

También podría gustarte