Tarea 4

Nombres
Bryan Francisco
Apellidos
Piñeyro santana
Matricula
21-EISM-6-026
Sección
110
Materia
Diseño de centro de datos
Profesor
Weny Morales
Tema
Big Data
Fecha
20/03/2023
1
➢ Etapas de los procesos de big data
Generación
Obviamente, lo primero que tiene que pasar para que comience el ciclo de vida del Big Data es
la generación de los datos.
Esto se produce de forma inconsciente. Tanto los individuos como las empresas y los gobiernos
generan datos de forma constante. Cada interacción en Internet, cada compra, cada venta, todo
deja un rastro de datos.
Aquí es donde da comienzo la magia del Big Data. Con la debida atención y tratamiento, estos
datos pueden generar información muy valiosa para quien sepa usarla e interpretarla.
Recopilación
No todos los datos valen para su posterior análisis en Big Data. Por ese motivo, no se recopilan
ni utilizan todos los datos que se generan todos los días.
Depende de los especialistas en Big Data identificar qué información se debe capturar y cuáles
son los mejores medios para hacerlo. Existen formas de hacer esta recopilación:
Formularios: Los formularios en los que se introducen datos relevantes son una buena fuente de
información para el Big Data.
Encuestas: las encuestas pueden ser una forma eficaz de recopilar una gran cantidad de
información de un gran número de personas.
Entrevistas: Las entrevistas ofrecen oportunidades para recopilar datos cualitativos y subjetivos
que pueden ser difíciles de capturar por otros medios.
Observación directa: observar y monitorizar cómo se comportan las personas cuando

interactúan con una web o una aplicación es otra de las formas de recopilar datos.
Como puedes ver, esta es una de las fases de Big Data más importantes. EN ella se hace el
primer cribado de la información que va a ser necesaria.
Procesamiento
2
Una vez que se han recopilado los datos, se deben procesar. El procesamiento en Big Data se
lleva a cabo de la siguiente manera:
Disputa de datos: En este caso se limpia el conjunto de datos y se transforma de a algo más
accesible y utilizable.
Compresión de datos: En este momento, en esta de las fases de Big Data, los datos se
transforman a un formato que se puede almacenar de manera más eficiente.
Cifrado de datos: En es te punto, los datos se traducen a otro código para poder protegerlos de
problemas de privacidad.
Principales áreas o sectores empresariales donde se puede aplicar la minería de datos
Almacenamiento
Otra de las fases de Big Data más importantes es el almacenamiento de los datos previamente
recopilados y procesados.
Lo más habitual en Big Data es crear bases de datos o conjuntos de datos. Después se
almacenan en la nube o en servidores de almacenamiento físico. Esto depende da cada empresa
y organización.
Lo importante en esta fase es establecer protocolos de seguridad y hacer copias de seguridad de

todos los datos que se vayan a almacenar. Se trata de una medida preventiva en caso de que la
fuente original se corrompe o se ve comprometida.
Gestión
Una vez almacenados los datos, llegamos a la gestión de los mismos para Big Data. ¿Qué
implica esto? Pues básicamente, la gestión de las bases de datos o los conjuntos de datos
previamente almacenados.
Esto supone que los profesionales del Big Data deben organizar, almacenar y recuperar datos
según sea necesario durante todo el ciclo de un proyecto de datos.
Se trata, por tanto, de un proceso continuo. Un proceso que tiene lugar desde el principio hasta
el final del proyecto. Es, en conclusión, una de las fases de Big Data que se intercalan con el
resto.
Análisis
3
Esta es la fase de Big Data clave. Una vez procesados, almacenados y hecha la gestión de las
bases de datos, llega el momento de analizarlos.
No obstante, el análisis de Big Data se puede hacer sobre datos no procesados. Para ello, los
analistas emplean diferentes herramientas y estrategias como, por ejemplo:
• Modelado estadístico
• Algoritmos
• Inteligencia artificial
• Minería de datos
• Aprendizaje automático.
Cada una de estas estrategias es válida para un tipo de desafío específico. Algo que aprenderás
si te decides a especializarte como analista de Big Data.
Visualización
Una vez analizados los datos, otra de las fases de Big Data es la visualización de los mismos.
Esta fase se refiere al proceso de creación de representaciones gráficas de información,

generalmente mediante el uso de una o más herramientas de visualización.
Gracias a esto, la posterior interpretación del análisis Big Data es más sencillo. Y es que, la
visualización facilita la comunicación rápida de su análisis a una audiencia más amplia.
Interpretación
Y llegamos a la última de las fases de Big Data. Aunque, como te decíamos al comienzo, se
trata de un ciclo de vida continuo que hace que los distintos proyectos de Big Data se
retroalimenten entre ellos.
El proceso de interpretación puede incluir una descripción o explicación de lo que muestran los
datos.
Además, en esta parte del análisis Big Data también se hace algo todavía más importante cuáles
pueden ser las implicaciones de los datos analizados.
4
➢ Tipos de hipervisores
Hipervisores de tipo 1 o hipervisores bare-metal
Los hipervisores de tipo 1 o bare-metal, también conocidos como hipervisores nativos, se

ejecutan directamente en el servidor y gestionan el sistema o sistemas operativos invitados. El
software de virtualización se instala directamente en el hardware. Algunos ejemplos de
hipervisores de tipo 1 son:
• Hipervisores bare-metal de código abierto: KVM, Proxmox y Xen.

• Hipervisores bare-metal comerciales: Citrix Hypervisor, Hyper-V y VMware ESXi.
Este tipo de hipervisor es el que se suele desplegar para necesidades de computación de centros
de datos. Por lo general ofrecen un rendimiento mejor y más eficiente que los hipervisores
alojados. Del mismo modo que ofrecen mayor seguridad, al estar aislados del OS, que suele ser
más propenso a sufrir ataques.
Hipervisores de tipo 2 o hipervisores alojados
Los hipervisores de tipo 2 o hipervisores alojados se ejecutan como una capa de software por
encima del sistema operativo de la host machine; y también se pueden instalar sistemas
operativos adicionales por encima. Se usan para abstraer los sistemas operativos invitados del
OS principal. Algunos ejemplos de hipervisores de tipo 2 son:
Hipervisores alojados de código abierto: QEMU y VirtualBox.
Hipervisores alojados comerciales: Parallels Desktop, VMware Workstation Player y VMware

Fusion.
5
➢ En los desarrollos de los Tipos de datos
Un tipo de datos es un medio para clasificar el tipo de datos que una variable u objeto puede
contener en informática. Los tipos de datos son un factor importante en todos los lenguajes de
programación de computadoras, por ejemplo, C#, JavaScript, SQL, Visual Basic, etc.
En informática, los tipos de datos se refieren a las diferentes categorías o clases de información
que se pueden almacenar y procesar en un programa de computadora. Estos tipos de datos
proporcionan una forma de clasificar y organizar la información, lo que permite que los
programas procesen y manipulen la información de manera efectiva.
Los tipos de datos pueden incluir diferentes tipos de información, como números enteros,
números con decimales, caracteres individuales, cadenas de caracteres (texto), valores
booleanos (verdadero o falso), fechas y horas, y estructuras de datos complejas como matrices o
tablas.
En muchos lenguajes de programación, se deben especificar los tipos de datos de las variables y
los parámetros de la función antes de utilizarlos en un programa. Por ejemplo, si se desea
utilizar un número entero en un programa, se debe declarar como un tipo de datos "entero" antes
de poder realizar cualquier operación con él.
➢ Estructura de un proyecto de análisis de datos
1. Definición del problema y los objetivos: En esta etapa se identifica el problema o la

pregunta de investigación que se desea abordar. Es importante definir claramente los
objetivos del análisis de datos para guiar todas las etapas subsiguientes del proyecto.
2. Recopilación de datos: Se recolectan los datos necesarios para el análisis. Estos pueden
provenir de diversas fuentes, como bases de datos internas, archivos CSV, API, registros
de transacciones, encuestas, etc.
6
3. Exploración y limpieza de datos: Antes de realizar el análisis, es crucial explorar los
datos para comprender su estructura y calidad. Esto implica identificar y manejar valores
atípicos, datos faltantes, inconsistencias y errores en los datos.
4. Preparación de datos: En esta etapa, se preparan los datos para el análisis mediante la
transformación, la normalización y la ingeniería de características. Esto puede incluir la
selección de variables relevantes, la codificación de variables categóricas, la
normalización de datos numéricos, etc.
5. Análisis exploratorio de datos (EDA): Se realiza un análisis exploratorio de los datos

para identificar patrones, relaciones y tendencias significativas. Esto puede incluir la
visualización de datos mediante gráficos y tablas descriptivas, así como el cálculo de
estadísticas descriptivas.
6. Modelado de datos: En esta etapa, se aplican técnicas de modelado para construir

modelos predictivos o descriptivos. Esto puede incluir la selección de algoritmos de
aprendizaje automático adecuados, la construcción de modelos predictivos y la
evaluación del rendimiento del modelo.
7. Validación y evaluación: Se evalúan los modelos desarrollados para determinar su

precisión y fiabilidad. Esto puede implicar la división del conjunto de datos en conjuntos
de entrenamiento y prueba, la validación cruzada, la evaluación de métricas de
rendimiento y la comparación de diferentes modelos.
8. Interpretación y comunicación de resultados: se interpretan los resultados del análisis

y se comunican de manera efectiva a las partes interesadas. Esto puede implicar la
presentación de hallazgos clave, conclusiones y recomendaciones en informes,
presentaciones u otros formatos adecuados.
7
➢ La minería de datos web
El web mining o minería web es el proceso de utilizar técnicas de minería de datos y algoritmos
para extraer información directamente desde la Web ya sea a través de documentos Web y
servicios Web, hipervínculos y registros del servidor. El objetivo de la minería Web es buscar
patrones en los datos de la Web mediante la recopilación y análisis de información a fin de
obtener información sobre las tendencias, la industria y los usuarios en general.
➢ Relación que tiene la mineria de datos en otras áreas o disciplinas
La minería de datos es una disciplina interdisciplinaria con una amplia gama de aplicaciones en
diversas áreas y disciplinas. Originada en la informática y la ciencia de la computación, utiliza
algoritmos y técnicas derivados de la inteligencia artificial y el aprendizaje automático para
analizar grandes conjuntos de datos. Además, se basa en principios estadísticos y matemáticos
para modelar y extraer información significativa de los datos.
En medicina y ciencias de la salud, la minería de datos se emplea para analizar datos médicos y
de salud, lo que ayuda a identificar patrones de enfermedades, predecir diagnósticos y mejorar
la atención al paciente. En el ámbito financiero y económico, se utiliza para analizar datos
financieros, prever tendencias del mercado y detectar fraudes. En educación, se aplica para
mejorar los procesos de enseñanza y aprendizaje mediante el análisis de datos de estudiantes, lo
que permite identificar patrones de rendimiento académico y personalizar la enseñanza.
Además, en ciencias sociales y psicología, la minería de datos se utiliza para analizar datos de
encuestas y redes sociales, lo que ayuda a comprender tendencias sociales y comportamientos
humanos. En marketing y publicidad, se emplea para analizar datos de clientes, segmentar
mercados y personalizar campañas publicitarias. En ingeniería, se aplica para analizar datos de
sensores y procesos industriales, lo que contribuye a mejorar la eficiencia y prever posibles
fallas en sistemas complejos. En resumen, la minería de datos es una herramienta fundamental
en la generación de conocimientos y la toma de decisiones en una variedad de áreas y
disciplinas.

Tarea 4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 4

Cargado por

Copyright:

Formatos disponibles

Nombres

Diseño de centro de datos

Observación directa: observar y monitorizar cómo se comportan las personas cuando

Principales áreas o sectores empresariales donde se puede aplicar la minería de datos

Lo importante en esta fase es establecer protocolos de seguridad y hacer copias de seguridad de

Esta fase se refiere al proceso de creación de representaciones gráficas de información,

Hipervisores de tipo 1 o hipervisores bare-metal

Los hipervisores de tipo 1 o bare-metal, también conocidos como hipervisores nativos, se

• Hipervisores bare-metal de código abierto: KVM, Proxmox y Xen.

Hipervisores de tipo 2 o hipervisores alojados

Hipervisores alojados de código abierto: QEMU y VirtualBox.

Hipervisores alojados comerciales: Parallels Desktop, VMware Workstation Player y VMware

➢ Estructura de un proyecto de análisis de datos

1. Definición del problema y los objetivos: En esta etapa se identifica el problema o la

5. Análisis exploratorio de datos (EDA): Se realiza un análisis exploratorio de los datos

6. Modelado de datos: En esta etapa, se aplican técnicas de modelado para construir

7. Validación y evaluación: Se evalúan los modelos desarrollados para determinar su

8. Interpretación y comunicación de resultados: se interpretan los resultados del análisis

➢ Relación que tiene la mineria de datos en otras áreas o disciplinas

También podría gustarte