Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MAZATENANGO, SUCH.
CATEDRA: COMPUTACION
CATEDRATICO: EDDY CHOJOLAN
En pleno desarrollo de las bases de datos, IBM creaba un lenguaje con el que
gestionar los datos almacenados en el nuevo software System R. Era el SEQUEL,
que más tarde pasaría a llamarse SQL Se trata de un lenguaje muy similar al
humano, por lo que su manejo no resulta complicado.
En esta página, enumeramos la sintaxis SQL para cada uno de los comandos SQL
en esta guía de referencia. Para obtener explicaciones detalladas para cada
sintaxis SQL, por favor diríjase a la sección individual haciendo clic en la palabra
clave.
Big data
Big data (en español, grandes datos o grandes volúmenes de datos) es un término
evolutivo que describe cualquier cantidad voluminosa de datos estructurados,
semiestructurados y no estructurados que tienen el potencial de ser extraídos para
obtener información.
Los datos grandes se caracterizan a menudo por tres Vs: el Volumen extremo de
datos, la gran Variedad de tipos de datos y la Velocidad a la que se deben
procesar los datos. Aunque los grandes datos no equivalen a ningún volumen
específico de datos, el término se utiliza a menudo para describir terabytes,
petabytes e incluso exabytes de datos capturados con el tiempo.
Desglosando las 3 Vs de big data
Volumen: Tales datos voluminosos pueden provenir de innumerables fuentes
diferentes, como registros de ventas comerciales, los resultados recogidos de
experimentos científicos o sensores en tiempo real utilizados en la internet de las
cosas (IoT). Los datos pueden estar en bruto o ser preprocesados utilizando
herramientas de software independientes antes de que se apliquen los análisis.
Variedad: Los datos también pueden existir en una amplia variedad de tipos de
archivo, incluyendo datos estructurados, como almacenes de bases de datos SQL;
datos no estructurados, como archivos de documentos; o transmisión de datos
desde sensores. Además, big data puede incluir múltiples fuentes de datos
simultáneas, que de otro modo no podrían ser integradas. Por ejemplo, un gran
proyecto de análisis de datos puede intentar medir el éxito de un producto y las
ventas futuras correlacionando datos de ventas pasadas, datos de devolución y
datos de revisión de compradores en línea para ese producto.
Por último, la velocidad se refiere al lapso de tiempo en el que se deben analizar
grandes volúmenes de datos. Cada gran proyecto de análisis de datos va a ingerir,
correlacionar y analizar las fuentes de datos, y luego proveer una respuesta o
resultado basado en una consulta general. Esto significa que los analistas
humanos deben tener una comprensión detallada de los datos disponibles y tener
cierto sentido de qué respuesta están buscando. La velocidad también es
significativa, ya que el análisis de datos se expande en campos como el
aprendizaje automático y la inteligencia artificial, donde los procesos
analíticos imitan la percepción mediante la búsqueda y el uso de patrones en los
datos recopilados.
Big data en las demandas de infraestructura
La necesidad de grandes velocidades de datos impone demandas únicas en la
infraestructura de computación subyacente. La potencia de cálculo necesaria para
procesar rápidamente grandes volúmenes y variedades de datos puede
sobrecargar un solo servidor o un clúster de servidores. Las organizaciones deben
aplicar el poder de cálculo adecuado a las tareas de big data para lograr la
velocidad deseada. Esto puede potencialmente demandar cientos o miles de
servidores que pueden distribuir el trabajo y operar de manera colaborativa.
Alcanzar esa velocidad de una manera rentable es también un dolor de cabeza.
Muchos líderes empresariales son reticentes a invertir en un servidor extenso y
una infraestructura de almacenamiento que sólo se puede utilizar ocasionalmente
para completar tareas de big data. Como resultado, la computación en la nube
pública ha surgido como un vehículo primario para alojar grandes proyectos de
análisis de datos. Un proveedor de nube pública puede almacenar petabytes de
datos y escalar miles de servidores el tiempo suficiente para realizar el proyecto
de big data. El negocio sólo paga por el tiempo de almacenamiento y cálculo
realmente utilizado, y las instancias de nube se pueden desactivar hasta que se
necesiten de nuevo.
Para mejorar aún más los niveles de servicio, algunos proveedores de nube
pública ofrecen grandes capacidades de datos, como instancias de computación
altamente distribuidas de Hadoop, almacenes de datos, bases de datos y otros
servicios relacionados con la nube. Amazon Web Services Elastic MapReduce
(Amazon EMR) es un ejemplo de servicios de big data en una nube pública.
El lado humano de la analítica de big data
En última instancia, el valor y la eficacia de los grandes datos depende de los
operadores humanos encargados de comprender los datos y formular las
consultas adecuadas para dirigir proyectos de big data. Algunas grandes
herramientas de datos se encuentran con nichos especializados y permiten a los
usuarios menos técnicos hacer varias predicciones a partir de datos de negocios
cotidianos. Sin embargo, otras herramientas están apareciendo, como los
dispositivos Hadoop, para ayudar a las empresas a implementar una
infraestructura de computación adecuada para abordar grandes proyectos de
datos, minimizando la necesidad de hardware y conocimientos de software de
computación distribuida.
Pero estas herramientas sólo abordan casos de uso limitados. Muchas otras
grandes tareas de datos, como la determinación de la efectividad de un nuevo
fármaco, pueden requerir una gran experiencia científica y computacional del
personal analítico. Actualmente hay una escasez de científicos de datos y otros
analistas que tengan experiencia trabajando con grandes datos en un entorno de
código abierto distribuido.
Los datos grandes se pueden contrastar con los datos pequeños (small data), otro
término que se utiliza a menudo para describir los datos cuyo volumen y formato
se puede utilizar fácilmente para el análisis de autoservicio. Un axioma
comúnmente citado es que "los grandes datos son para las máquinas, los
pequeños datos son para las personas".
CONCLUSIONES.
E llegado a mi conclusión que los datos grandes se pueden contrastar con los
datos pequeños (small data), otro término que se utiliza a menudo para describir
los datos cuyo volumen y formato se puede utilizar fácilmente para el análisis de
autoservicio.