Está en la página 1de 5

Presentación

Nombres:
Wilkin

Apellidos:
Ortiz encarnación

Matricula:
2021-0657

Profesor:
Amaurys Vargas

Materia:
Introducción a Big Data

Tema:
Ciclo de Vida de Proyectos de Big Data

2021-0657
Desarrollo
• Regresiones y Extensiones lineales y no lineales clásicas:
- Lineales: Para el análisis y procesamiento de datos de indoles
predictivos, se utiliza la regresión lineal como modelo eficiente para hacer
estas tareas. Mas si estas tareas implican un flujo masivo de datos
constantes y casi infinito. Razón por la cual, se necesita un método
eficiente capaz de interpretar dichos datos y procesarlos en un lapso de
tiempo corto.
- Regresión lineal simple: Para simplificar la complejidad del
procesamiento de Big Data, la regresión lineal simple se utiliza para
conformar solo 2 variables de estudio. De tal forma que estas variables
que se toman estén relacionadas mediante relaciones funcionales.
- Regresión lineal múltiple: Consiste en analizar Big Data entre 2 o más
variables a través de modelos matemáticos, formulas y ecuaciones. En el
campo del tratamiento de datos masivos, se estudian variables que están
relacionadas entre sí. De tal forma que es probable que una variable esté
relacionada con otras de forma matemática.
- Regresión no lineal: Es un método para encontrar un modelo no lineal
para la relación entre la variable dependiente y un conjunto de variables
independientes. A diferencia de la regresión lineal tradicional, que está
restringida a la estimación de modelos lineales, la regresión lineal puede
estimar modelos con relaciones arbitrarias entre las variables
independientes y las dependientes. Esto se lleva a cabo usando
algoritmos de estimación iterativos.

• Ciclo de Vida de Big Data:


- Análisis Interno: El Ciclo de vida del Big Dara debe comenzar con la
comprensión del negocio y una justificación de la necesidad de llevar a
cabo un análisis de este tipo, así como el establecimiento de los objetivos
que se desean alcanzar. Esta etapa de análisis permite comprender la
situación actual de la empresa y qué recursos serán requeridos a lo largo
del análisis.

2021-0657
- Recogida y filtrado de datos: Esta parte del Ciclo de Vida del Big
Data se dedica a identificar aquellos datos relevantes para el análisis,
identificando las fuentes para encontrar patrones y correlaciones.
La selección de datos depende de la naturaleza del problema y de los
objetivos que se hayan establecido en la primera parte del ciclo. Los
datos son recogidos y sometidos a un filtrado de datos corruptos o datos
que no responden con los objetivos establecidos.
- Extracción de datos: El objetivo principal de los datos es transformar
éstos en información. En esta etapa se lleva a cabo la extracción de datos
y su transformación en un formato comprensible para poder hacer un
análisis de datos.
- Validación y limpieza de los datos: Los datos erróneos o inválidos
pueden dar lugar a resultados falsos que perjudiquen al análisis. La
naturaleza no estructurada del Big Data dificulta la validación de los
mismo. Por ello, esta etapa del Ciclo de Vida del Big Data es fundamental,
ya que permite llegar a los datos más relevantes para los objetivos
marcados.
Además, este análisis no sólo permite desechar aquellos datos inválidos,
sino que el análisis y observación de dichos datos permiten establecer
patrones y tendencias que contribuyan a mejorar la comprensión sobre
los datos a analizar.
- Análisis de datos: En esta etapa se desarrolla la integración de
conjuntos de datos con el fin de dar una visión unificada de la información.
A lo largo de esta etapa del ciclo se pueden presentar varios problemas
de estructura de los datos y etiquetas.
- Visualización de los datos: Una vez organizados los datos, es
necesario transformarlos en información que aporte valor. Toda la
información útil extraída ha de “traducirse” en forma de informes que
permitan la correcta interpretación de estos.

• Metodologías para proyectos de Ciencia de Datos:

1. KDD (Knowledge Discovery in Databases): Metodología de 5


pasos. Inicia con la selección donde de un data set principal hay
que seleccionar un subconjunto de variables que nos pueden
apoyar en la exploración del fenómeno que estamos estudiando. En
el preprocesamiento realizamos la limpieza y balanceo de datos. En

2021-0657
la transformación, el método sugiere que reduzcamos dimensiones
con técnicas estadísticas para manejar la menor cantidad de
variables necesarias. En minería de datos buscamos patrones de
interés o representativos en relación al objetivo de la minería de
datos. Finalmente, para colarnos al conocimiento pasamos por el
proceso de interpretación y evaluación de modelo. Al final de la
iteración se le otorga una calificación al modelo y si no se
cumplieron satisfactoriamente los objetivos se repite hasta que
sean logrados.

2. SEMMA (Sampel, Explore, Modify, Model and Access): En esta


metodología iniciamos con «sample» o un muestro de la base de
datos principal (que asumimos que es muy pesada y lenta de
procesar) para poder hacer manipulaciones sobre este pequeño set
de una manera ágil. Después exploramos los datos para ganar
entendimiento e ideas, así como refinar nuestro proceso de
búsqueda de anomalías, patrones y tendencias. Llegamos
entonces al paso de modificar donde nos enfocamos en crear,
seleccionar y transformar variables para enfocarnos en un proceso
de selección. En esta etapa también se buscan anomalías y reducir
el número de variables. Luego sigue la etapa de modelaje en donde
debemos aplicar distintos métodos estadísticos evaluando sus
fortalezas y cumplimiento de objetivos. Finalmente, la etapa de
«Access» que significa evaluar la confiabilidad y utilidad de los
hallazgos. Se evalúa particularmente el «performance". De la
misma manera del modelo anterior, si no se logran los objetivos en
una primera iteración tendremos que repetir el proceso.

3. CRIPS-DM (Cross-Industry Standard Process for Data Mining):


CRIPS-DM, el método más usado en la industria y es que IBM, la
compañía dueña de Watson que antes desarrollaba poderosas
computadoras, es quien desarrolló este modelo. La diferencia clave
es que cualquier etapa del modele puede tener retorno o iniciar una
reversa al método. Si durante la etapa en particular el especialista
encontró que los datos no son suficientes para resolver su objetivo,
puede regresar a cualquiera de las otras etapas.
En la etapa de «Entendimiento de negocio» primero se determinan los
objetivos de negocio: Antecedentes, objetivos estratégicos de impacto y
criterios de éxito. Después revisamos la situación, inventariamos

2021-0657
recursos, realizamos un análisis de costo-beneficio, determinamos
objetivos y producimos un plan de proyecto.
En «Data Understanding» es donde recolectamos los datos
iniciales, describimos cada uno de estos datos, exploramos y
verificamos la calidad de la información.
En «Data preparation» seleccionamos la información más
razonable, la limpiamos, construimos variables de ser necesario,
integramos datos y finalmente formateamos. El entregable de esta
etapa sería un dataset listo para trabajar.
Para la etapa de «Modeling», similar a los otros modelos,
experimentamos con distintas técnicas, consideramos
supuestos, hacemos pruebas, definimos parámetros y revisamos
funcionalidad general de los modelos.
En «Evaluación» es donde considerando los criterios de éxito
definidos consideramos como positiva y/o negativa la evaluación.
Aquí mismo definimos los siguientes pasos y tomamos las
decisiones necesarias.
Finalmente, en «Deployment», esta etapa sólo se activa si el
proyecto tuvo evaluación positiva. Se genera entonces un plan
de desarrollo, un plan de mantenimiento, se genera un
reporte final y presentación para socializar el caso de estudio.

• Evaluación de Big Data


El análisis de grandes datos es muy útil para las organizaciones
en la calidad de su toma de decisiones y, por tanto, también son
útiles en la evaluación. El cambio de paradigma está
arrastrando los modelos tradicionales de análisis de datos hacia el
Big Data de manera rápida y se podría decir que
descontrolada. En primer lugar, se crea un nuevo software que
tenga la capacidad de sustentar esa cantidad de información, se
establecen nuevos modelos de análisis de la misma y se avanza
considerablemente en el análisis semántico. Se fomenta el uso de
aplicaciones como Hadoop, Apache Hadoop, Apache Spark
semejante a Excel pero que permite utilizar miles de nodos
distribuidos y con pentabytes de información.

2021-0657

También podría gustarte