Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bryan Francisco
Apellidos
Piñeyro santana
Matricula
21-EISM-6-026
Sección
110
Materia
Profesor
Weny Morales
Tema
Big Data
Fecha
20/03/2023
1
➢ Etapas de los procesos de big data
Generación
Obviamente, lo primero que tiene que pasar para que comience el ciclo de vida del Big Data es
la generación de los datos.
Esto se produce de forma inconsciente. Tanto los individuos como las empresas y los gobiernos
generan datos de forma constante. Cada interacción en Internet, cada compra, cada venta, todo
deja un rastro de datos.
Aquí es donde da comienzo la magia del Big Data. Con la debida atención y tratamiento, estos
datos pueden generar información muy valiosa para quien sepa usarla e interpretarla.
Recopilación
No todos los datos valen para su posterior análisis en Big Data. Por ese motivo, no se recopilan
ni utilizan todos los datos que se generan todos los días.
Depende de los especialistas en Big Data identificar qué información se debe capturar y cuáles
son los mejores medios para hacerlo. Existen formas de hacer esta recopilación:
Formularios: Los formularios en los que se introducen datos relevantes son una buena fuente de
información para el Big Data.
Encuestas: las encuestas pueden ser una forma eficaz de recopilar una gran cantidad de
información de un gran número de personas.
Entrevistas: Las entrevistas ofrecen oportunidades para recopilar datos cualitativos y subjetivos
que pueden ser difíciles de capturar por otros medios.
Como puedes ver, esta es una de las fases de Big Data más importantes. EN ella se hace el
primer cribado de la información que va a ser necesaria.
Procesamiento
2
Una vez que se han recopilado los datos, se deben procesar. El procesamiento en Big Data se
lleva a cabo de la siguiente manera:
Disputa de datos: En este caso se limpia el conjunto de datos y se transforma de a algo más
accesible y utilizable.
Compresión de datos: En este momento, en esta de las fases de Big Data, los datos se
transforman a un formato que se puede almacenar de manera más eficiente.
Cifrado de datos: En es te punto, los datos se traducen a otro código para poder protegerlos de
problemas de privacidad.
Almacenamiento
Otra de las fases de Big Data más importantes es el almacenamiento de los datos previamente
recopilados y procesados.
Lo más habitual en Big Data es crear bases de datos o conjuntos de datos. Después se
almacenan en la nube o en servidores de almacenamiento físico. Esto depende da cada empresa
y organización.
Gestión
Una vez almacenados los datos, llegamos a la gestión de los mismos para Big Data. ¿Qué
implica esto? Pues básicamente, la gestión de las bases de datos o los conjuntos de datos
previamente almacenados.
Esto supone que los profesionales del Big Data deben organizar, almacenar y recuperar datos
según sea necesario durante todo el ciclo de un proyecto de datos.
Se trata, por tanto, de un proceso continuo. Un proceso que tiene lugar desde el principio hasta
el final del proyecto. Es, en conclusión, una de las fases de Big Data que se intercalan con el
resto.
Análisis
3
Esta es la fase de Big Data clave. Una vez procesados, almacenados y hecha la gestión de las
bases de datos, llega el momento de analizarlos.
No obstante, el análisis de Big Data se puede hacer sobre datos no procesados. Para ello, los
analistas emplean diferentes herramientas y estrategias como, por ejemplo:
• Modelado estadístico
• Algoritmos
• Inteligencia artificial
• Minería de datos
• Aprendizaje automático.
Cada una de estas estrategias es válida para un tipo de desafío específico. Algo que aprenderás
si te decides a especializarte como analista de Big Data.
Visualización
Una vez analizados los datos, otra de las fases de Big Data es la visualización de los mismos.
Gracias a esto, la posterior interpretación del análisis Big Data es más sencillo. Y es que, la
visualización facilita la comunicación rápida de su análisis a una audiencia más amplia.
Interpretación
Y llegamos a la última de las fases de Big Data. Aunque, como te decíamos al comienzo, se
trata de un ciclo de vida continuo que hace que los distintos proyectos de Big Data se
retroalimenten entre ellos.
El proceso de interpretación puede incluir una descripción o explicación de lo que muestran los
datos.
Además, en esta parte del análisis Big Data también se hace algo todavía más importante cuáles
pueden ser las implicaciones de los datos analizados.
4
➢ Tipos de hipervisores
Este tipo de hipervisor es el que se suele desplegar para necesidades de computación de centros
de datos. Por lo general ofrecen un rendimiento mejor y más eficiente que los hipervisores
alojados. Del mismo modo que ofrecen mayor seguridad, al estar aislados del OS, que suele ser
más propenso a sufrir ataques.
Los hipervisores de tipo 2 o hipervisores alojados se ejecutan como una capa de software por
encima del sistema operativo de la host machine; y también se pueden instalar sistemas
operativos adicionales por encima. Se usan para abstraer los sistemas operativos invitados del
OS principal. Algunos ejemplos de hipervisores de tipo 2 son:
5
➢ En los desarrollos de los Tipos de datos
Un tipo de datos es un medio para clasificar el tipo de datos que una variable u objeto puede
contener en informática. Los tipos de datos son un factor importante en todos los lenguajes de
programación de computadoras, por ejemplo, C#, JavaScript, SQL, Visual Basic, etc.
En informática, los tipos de datos se refieren a las diferentes categorías o clases de información
que se pueden almacenar y procesar en un programa de computadora. Estos tipos de datos
proporcionan una forma de clasificar y organizar la información, lo que permite que los
programas procesen y manipulen la información de manera efectiva.
Los tipos de datos pueden incluir diferentes tipos de información, como números enteros,
números con decimales, caracteres individuales, cadenas de caracteres (texto), valores
booleanos (verdadero o falso), fechas y horas, y estructuras de datos complejas como matrices o
tablas.
En muchos lenguajes de programación, se deben especificar los tipos de datos de las variables y
los parámetros de la función antes de utilizarlos en un programa. Por ejemplo, si se desea
utilizar un número entero en un programa, se debe declarar como un tipo de datos "entero" antes
de poder realizar cualquier operación con él.
2. Recopilación de datos: Se recolectan los datos necesarios para el análisis. Estos pueden
provenir de diversas fuentes, como bases de datos internas, archivos CSV, API, registros
de transacciones, encuestas, etc.
6
3. Exploración y limpieza de datos: Antes de realizar el análisis, es crucial explorar los
datos para comprender su estructura y calidad. Esto implica identificar y manejar valores
atípicos, datos faltantes, inconsistencias y errores en los datos.
4. Preparación de datos: En esta etapa, se preparan los datos para el análisis mediante la
transformación, la normalización y la ingeniería de características. Esto puede incluir la
selección de variables relevantes, la codificación de variables categóricas, la
normalización de datos numéricos, etc.
7
➢ La minería de datos web
El web mining o minería web es el proceso de utilizar técnicas de minería de datos y algoritmos
para extraer información directamente desde la Web ya sea a través de documentos Web y
servicios Web, hipervínculos y registros del servidor. El objetivo de la minería Web es buscar
patrones en los datos de la Web mediante la recopilación y análisis de información a fin de
obtener información sobre las tendencias, la industria y los usuarios en general.
La minería de datos es una disciplina interdisciplinaria con una amplia gama de aplicaciones en
diversas áreas y disciplinas. Originada en la informática y la ciencia de la computación, utiliza
algoritmos y técnicas derivados de la inteligencia artificial y el aprendizaje automático para
analizar grandes conjuntos de datos. Además, se basa en principios estadísticos y matemáticos
para modelar y extraer información significativa de los datos.
En medicina y ciencias de la salud, la minería de datos se emplea para analizar datos médicos y
de salud, lo que ayuda a identificar patrones de enfermedades, predecir diagnósticos y mejorar
la atención al paciente. En el ámbito financiero y económico, se utiliza para analizar datos
financieros, prever tendencias del mercado y detectar fraudes. En educación, se aplica para
mejorar los procesos de enseñanza y aprendizaje mediante el análisis de datos de estudiantes, lo
que permite identificar patrones de rendimiento académico y personalizar la enseñanza.
Además, en ciencias sociales y psicología, la minería de datos se utiliza para analizar datos de
encuestas y redes sociales, lo que ayuda a comprender tendencias sociales y comportamientos
humanos. En marketing y publicidad, se emplea para analizar datos de clientes, segmentar
mercados y personalizar campañas publicitarias. En ingeniería, se aplica para analizar datos de
sensores y procesos industriales, lo que contribuye a mejorar la eficiencia y prever posibles
fallas en sistemas complejos. En resumen, la minería de datos es una herramienta fundamental
en la generación de conocimientos y la toma de decisiones en una variedad de áreas y
disciplinas.