Repaso Examen

Las 5 “v” de big data
• Big data
• Velocidad
• Volumen
• Variedad
• Valor
• Veracidad
Volumen
El volumen anticipado de los datos que son procesados por las soluciones de Big Data es
importante y cada vez mayor.
Un gran volumen de datos implica demandas específicas de almacenamiento y procesamiento,
al igual que procesos de gestión de acceso
Fuentes de grandes volúmenes de datos

 Transacciones online (Puntos de venta, bancos, tiendas etc.)
 Redes sociales y mensajería instantánea (Facebook, Twitter, Instagram)
 Datos de sensores(RFID, Medidores Inteligentes, GPS)
Velocidad
• Los datos de Big Data son recibidos con tal velocidad que se pueden acumular
enormes conjuntos de datos en periodos de tiempos cortos.
• Lidiar con el veloz flujo de entrada de datos requiere que las empresas diseñen
soluciones altamente flexibles y disponibles de procesamiento.
• Debe de tener la capacidad de almacenamiento de datos.
Variedad
• Se hace referencias a los múltiples formatos y tipos de datos que deben ser
compatibles con Big data.
• La variedad representa un desafío para las organizaciones en diferentes aspectos ya
que tienen que velar la debida integración, transformación, procesamiento y
almacenamiento de los datos.
Veracidad
• Se refiere a la fidelidad o calidad de los datos.
• Cuando se evalúan en función de su veracidad, los datos pueden ser de dos tipos:
• Ruido: Datos que no tienen valor alguno.
• Señal: Datos que tienen valor que conduce a información importante.
• Los datos adquiridos de forma controlada contienen menos ruido que los datos
adquiridos mediante fuentes no controladas, como las publicaciones en blog.
• La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que
está a la orden del día.
Valor
• Se define como la utilidad de los datos tienen para una empresa.
• La característica de valor está directamente relacionada con las características de
veracidad, en la medida en que, entre más alta sea la fidelidad de los datos, mayor
será el valor de los mismos para la empresa.
• Cuanto más tiempo se tarden los datos en ser convertidos en información significativa,
menor será el valor que tengan para la empresa, ya que afecta la velocidad con la cual
se pueden tomar las decisiones informadas.
Tipos de Datos
Datos Estructurados
• Cumplen un modelo de datos o esquema.
• Son almacenados de forma tabular.
• Pueden ser relacionales.
• Por lo general, los datos estructurados son almacenados en bases de datos
relacionales.
• Estos datos normalmente no tienen ningún requisito especial de preprocesamiento o
almacenamiento.
Datos semiestructurados
• Los datos semiestructurados tienen un nivel definido de estructura y consistencia,
pero no son relacionales.
• En su mayoría se encuentran en formatos textuales, como archivos XML o JSON.
• Su procesamiento es más sencillo que el de los datos sin estructurar.
Datos no estructurados
• No cumplen un modelo de datos o esquema.
• Generalmente no son consistentes ni relacionales.
• Los datos sin estructurar se encuentran en forma textural o binaria.
• Los datos sin estructurar normalmente requieren una lógica especial o personalizada al
momento de ser preprocesados y almacenados.
Tipos de Análisis
Análisis Cuantitativo
• Es una técnica de análisis de datos orientada a cuantificar patrones y correlaciones
hallados en los datos.
• Esta técnica implica el análisis de un gran número de observaciones de un conjunto de
datos con base a técnicas estadísticas.
• Debido al amplio tamaño de las muestras, los resultados pueden aplicarse de manera
general a todo el conjunto de datos.
Análisis cualitativo
• Es una técnica de análisis de datos orientada a describir cualidades de varios datos por
medio de palabras.
• En contraste con el análisis de datos cuantitativo, esto implica analizar una pequeña
muestra con mayor profundidad.
• Los resultados de este análisis no se pueden aplicar de forma general a todo un
conjunto de datos debido al pequeño tamaño de las muestras.
Análisis vs analítica
• El análisis: es el examen detallado de una cosa para conocer sus características o
cualidades, o su estado, y extraer conclusiones, que se realiza separando o
considerando por separado las partes que la constituyen.
• La analítica: es el análisis computacional sistemático de datos o estadísticas. Se utiliza
para el descubrimiento, interpretación y comunicación de patrones significativos en
los datos. También implica aplicar patrones de datos hacia una toma de decisiones
efectiva.
Minería de datos
• Conocida también como exploración de datos, es una forma especializada de análisis
de datos dedicada a los datasets grandes.
• En relación con el análisis de Big Data o Macrodatos, la minería de datos por lo general
se refiere a técnicas automáticas basadas en software que filtran los datasets masivos
para identificar patrones y tendencias.
• Específicamente, implica extraer patrones ocultos o desconocidos en los datos con la
intención de identificarlos
Herramientas de minería de datos

• Existen muchos ejemplos de herramientas de minería de datos entre estos están:
• SQL SERVER DATA TOOLS (SSDT)
• SISENSE
• TERADATA
• RAPID MINER
• DUNDAS BI
• SPARK
• IBM SPSS
• ORACLE DATA MINING
Tipos de Analítica
• Analítica descriptiva: tiene un grado de complejidad menor y nos da una perspectiva
de eventos que ya ocurrieron.
• Analítica Diagnostica: tiene una complejidad media busca dar un valor de tipo
revelación.
• Analítica Predicativa: tiene complejidad media alta y predecir qué sucederá.
• Analítica Prescriptiva: tiene complejidad alta y busca la previsión de hechos.
Analítica descriptiva
• Busca responder preguntas sobre hechos que ya ocurrieron.
• Alrededor del 80% de la analítica es descriptiva. En términos de valor la analítica
proporciona un valor mínimo para las organizaciones.
• La analítica descriptiva se ejecuta mediante reportes o tableros de control
especializados.
Analítica diagnostica
• Tiene como objetivo determinar la causa de un fenómeno que ocurrió en el pasado,
usando preguntas que se enfocan en la razón del evento.
• Proporciona más valor que la analítica descriptiva, y que requiere un conjunto de
habilidades más avanzadas.
• Los resultados de esta analítica pueden ser observados por medio de herramientas
interactivas de visualización, que permiten que los usuarios identifiquen tendencias y
patrones.
Analítica predictiva
• Intenta predecir el resultado de un evento. Las predicciones se hacen con base en
patrones, tendencias, y excepciones encontradas en datos históricos y actuales.
• Este análisis identifica riesgos y oportunidades.
• Se considera que este tipo de analítica proporciona más valor y requiere un conjunto
de habilidades más avanzadas que las analíticas descriptivas y diagnosticas.
Prescriptiva
• Esta basada en los resultados de la analítica predictiva, indica las acciones que se
deberían tomar o realizar.
• La analítica prescriptiva es la de mayor valor por lo que se considera la más compleja
de todas.
• Se calculan varios resultados y se sugiere el mejor plan de acción.
Machine Learning
• El machine learning o aprendizaje automático, es el proceso de enseñar a las
computadoras a aprender a partir de los datos existentes y aplicar el conocimiento
adquirido para formular predicciones sobre datos desconocidos.
• Esto implica identificar patrones en los datos de entrenamiento y clasificar datos
nuevos y no mostrados con base en patrones conocidos.
• Los algoritmos de ML también permiten ajustar los comportamientos utilizando un
ciclo de retroalimentación a la vez que funcionan con data sets nuevos.
Tipos de Machine learning

• Aprendizaje supervisado. Los datos de muestra son enviados al algoritmo, donde ya se
conocen las categorías de los datos. Con base en los datos introducidos, el algortitmo
comprende que datos corresponden a que categoría. Posteriormente, el algoritomo
puede aplicar el comportamiento que aprendio para categorizar los datos
desconocidos.
• Aprendizaje No supervisado. No se conocen las categorías de los datos y no se envia
ningún dato de muestra. En vez de eso, el algoritmo intente categorizar los datos
agrupándolos según atributos similares.
Data mining vs machine learning

• La minería de datos encuentra patrones ocultos y relaciones basadas en atributos de
datos antes desconocidos, el aprendizaje automatico o ML hace predicciones
categorizando datos basados en patrones conocidos.

Repaso Examen

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Repaso Examen

Cargado por

Copyright:

Formatos disponibles

Las 5 “v” de big data

Fuentes de grandes volúmenes de datos

Herramientas de minería de datos

Tipos de Machine learning

Data mining vs machine learning

También podría gustarte