Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nombres:
Wilkin
Apellidos:
Ortiz encarnación
Matricula:
2021-0657
Profesor:
Amaurys Vargas
Materia:
Introducción a Big Data
Tema:
Ciclo de Vida de Proyectos de Big Data
2021-0657
Desarrollo
• Regresiones y Extensiones lineales y no lineales clásicas:
- Lineales: Para el análisis y procesamiento de datos de indoles
predictivos, se utiliza la regresión lineal como modelo eficiente para hacer
estas tareas. Mas si estas tareas implican un flujo masivo de datos
constantes y casi infinito. Razón por la cual, se necesita un método
eficiente capaz de interpretar dichos datos y procesarlos en un lapso de
tiempo corto.
- Regresión lineal simple: Para simplificar la complejidad del
procesamiento de Big Data, la regresión lineal simple se utiliza para
conformar solo 2 variables de estudio. De tal forma que estas variables
que se toman estén relacionadas mediante relaciones funcionales.
- Regresión lineal múltiple: Consiste en analizar Big Data entre 2 o más
variables a través de modelos matemáticos, formulas y ecuaciones. En el
campo del tratamiento de datos masivos, se estudian variables que están
relacionadas entre sí. De tal forma que es probable que una variable esté
relacionada con otras de forma matemática.
- Regresión no lineal: Es un método para encontrar un modelo no lineal
para la relación entre la variable dependiente y un conjunto de variables
independientes. A diferencia de la regresión lineal tradicional, que está
restringida a la estimación de modelos lineales, la regresión lineal puede
estimar modelos con relaciones arbitrarias entre las variables
independientes y las dependientes. Esto se lleva a cabo usando
algoritmos de estimación iterativos.
2021-0657
- Recogida y filtrado de datos: Esta parte del Ciclo de Vida del Big
Data se dedica a identificar aquellos datos relevantes para el análisis,
identificando las fuentes para encontrar patrones y correlaciones.
La selección de datos depende de la naturaleza del problema y de los
objetivos que se hayan establecido en la primera parte del ciclo. Los
datos son recogidos y sometidos a un filtrado de datos corruptos o datos
que no responden con los objetivos establecidos.
- Extracción de datos: El objetivo principal de los datos es transformar
éstos en información. En esta etapa se lleva a cabo la extracción de datos
y su transformación en un formato comprensible para poder hacer un
análisis de datos.
- Validación y limpieza de los datos: Los datos erróneos o inválidos
pueden dar lugar a resultados falsos que perjudiquen al análisis. La
naturaleza no estructurada del Big Data dificulta la validación de los
mismo. Por ello, esta etapa del Ciclo de Vida del Big Data es fundamental,
ya que permite llegar a los datos más relevantes para los objetivos
marcados.
Además, este análisis no sólo permite desechar aquellos datos inválidos,
sino que el análisis y observación de dichos datos permiten establecer
patrones y tendencias que contribuyan a mejorar la comprensión sobre
los datos a analizar.
- Análisis de datos: En esta etapa se desarrolla la integración de
conjuntos de datos con el fin de dar una visión unificada de la información.
A lo largo de esta etapa del ciclo se pueden presentar varios problemas
de estructura de los datos y etiquetas.
- Visualización de los datos: Una vez organizados los datos, es
necesario transformarlos en información que aporte valor. Toda la
información útil extraída ha de “traducirse” en forma de informes que
permitan la correcta interpretación de estos.
2021-0657
la transformación, el método sugiere que reduzcamos dimensiones
con técnicas estadísticas para manejar la menor cantidad de
variables necesarias. En minería de datos buscamos patrones de
interés o representativos en relación al objetivo de la minería de
datos. Finalmente, para colarnos al conocimiento pasamos por el
proceso de interpretación y evaluación de modelo. Al final de la
iteración se le otorga una calificación al modelo y si no se
cumplieron satisfactoriamente los objetivos se repite hasta que
sean logrados.
2021-0657
recursos, realizamos un análisis de costo-beneficio, determinamos
objetivos y producimos un plan de proyecto.
En «Data Understanding» es donde recolectamos los datos
iniciales, describimos cada uno de estos datos, exploramos y
verificamos la calidad de la información.
En «Data preparation» seleccionamos la información más
razonable, la limpiamos, construimos variables de ser necesario,
integramos datos y finalmente formateamos. El entregable de esta
etapa sería un dataset listo para trabajar.
Para la etapa de «Modeling», similar a los otros modelos,
experimentamos con distintas técnicas, consideramos
supuestos, hacemos pruebas, definimos parámetros y revisamos
funcionalidad general de los modelos.
En «Evaluación» es donde considerando los criterios de éxito
definidos consideramos como positiva y/o negativa la evaluación.
Aquí mismo definimos los siguientes pasos y tomamos las
decisiones necesarias.
Finalmente, en «Deployment», esta etapa sólo se activa si el
proyecto tuvo evaluación positiva. Se genera entonces un plan
de desarrollo, un plan de mantenimiento, se genera un
reporte final y presentación para socializar el caso de estudio.
2021-0657