Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTEGRANTES:
Huachaca Cáceres Estefanny
Lizana de la Cruz, Xiomara
Llashag Sarmiento Adriana
Quispe Yupanqui Eduardo
Ventura Chozo Mayte
Vidaurre Valdera Edith
FECHA:
2023
3
INDICE
INTRODUCCION........................................................................4
5. MARCO TEORICO..................................................................5
5.A. INTERPRETACIÓN DE DATOS:.............................................6
5.B. DESCRIPCIÓN DE MANERA GENERAL DE LAS
HERRAMIENTAS O TECNOLOGÍAS ANALÍTICA............................6
6. DESCRIPCIÓN DE HERRAMIENTAS.........................................6
7. USOS DE LAS HERRAMIENTAS DE BIG DATA..........................7
8. COMPARATIVO DE HERRAMIENTAS BIG DATA......................8
9. VENTAJAS DE LAS HERRAMIENTAS DE BIG DATA...................9
10. BENEFICIOS DE LAS HERRAMIENTAS DE BIG DATA.............11
11. CONCLUSIONES.................................................................13
12. REFERENCIAS BIBLIOGRAFICAS..........................................14
4
4. INTRODUCCION
5. MARCO TEORICO
El procesamiento de los datos se refiere a todo el proceso que sigue un investigador
desde la recolección de datos, hasta la presentación de los mismos en forma resumida.
A continuación, la explicación de los pasos de la metodología de procesamiento de
datos:
Recopilación de datos:
La recolección de datos es el proceso de recopilación y medición de información sobre
variables establecidas de una manera sistemática, que permita obtener respuestas
relevantes, probar hipótesis y evaluar resultados. La recolección de datos en el proceso
de investigación es común a todos los campos de estudio.
Preparación de datos:
La preparación de datos, también conocida como “preprocesamiento”, es el acto de
limpiar y consolidar los datos sin procesar antes de utilizarlos para realizar un análisis
de negocio.
Procesamiento y limpieza de datos:
El proceso de limpieza de datos consiste en varios pasos para identificar y corregir
entradas de problemas. El primer paso es analizar los datos para identificar errores.
Esto puede suponer el uso de herramientas de análisis cualitativo que usen reglas,
patrones y límites para identificar valores no válidos.
Cuando se habla del Big data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis
mediante tecnologías tales como Data Mining, Artificial Intelligence, Machine Learning
o Deep Learning y herramientas convencionales, Python, R, Hadoop, Apache Spark,
Apache Storm o Elasticsearch, entre otros, que se usan para tratar Big data y gestionar
las grandes cantidades de información que se generan en tu compañía y para tomar
decisiones en torno a estos datos.
6
6. Descripción de herramientas
Las herramientas big data son todos los software y aplicaciones que permiten a las
empresas maximizar el valor de sus grandes datos y que permiten extraer valor de los
datos es contar con el talento de profesionales capacitados para aprovechar todas las
oportunidades que brindan a la organización. Existen muchos tipos de herramientas
big data y cada uno de ellos da cobertura a una necesidad diferente del negocio en
relación con la gestión, el análisis o el gobierno de sus activos informacionales.
PODEMOS ENCONTRAR:
Apache Hadoop: Es el software para Big Data más usado. De hecho, lo usan
grandes empresas como Facebook o The New York Times. Este framework
permite el procesamiento de grandes volúmenes de datos en lote empleando
modelos de programación simples. Además, es escalable, así que es posible
pasar de operar en un único servidor a hacerlo en muchos.
Apache Spark: es hasta cien veces más veloz que Apache Hadoop. Así, este
software permite analizar datos por lotes en tiempo real, además de crear
aplicaciones en diversos lenguajes como Java, Python, R o Scala, entre otros.
Apache Storm: es una herramienta open Source que se puede emplear con
cualquier lenguaje de programación y que procesa fácilmente y en tiempo real
un sinfín de datos. Además, el sistema crea topologías de los macro datos para
convertirlos y analizarlos continuamente a la vez que los flujos de información
entran al sistema constantemente.
LENGUAJE R: es un entorno y lenguaje de programación dirigido al análisis
estadístico muy similar al lenguaje matemático. Sin embargo, también se usa
para análisis de grandes cantidades de datos. Puesto que hay una amplia
comunidad de usuarios, existen numerosas librerías. Muchos estadistas y data
miners lo utilizan
APACHE HADOOP:
Hadoop tiene una alta confiabilidad de almacenamiento de bits y
capacidades de procesamiento de datos.
Hadoop distribuye datos a través de los clústeres de computadoras
disponibles para completar las tareas de almacenamiento y cálculo.
La velocidad de procesamiento es muy rápida y altamente eficiente.
10
APACHE SPARK:
Consulta de datos en tiempo real.
Gran escalabilidad del sistema
Emplea estructura de datos Inverted Índex lo que ofrece mayor
rapidez en las consultas.
Ofrece distribución de los datos en diferentes servidores y No
requiere un esquema predefinido de datos
APACHE STORM:
Crea topologías de los macro datos para transformarlos y analizarlos
de manera continua, sin dejar de recibir información
continuamente.
Fácil de usar: las configuraciones estándar sirven para la producción
desde el primer momento.
LENGUAJE R:
Acumula, en un único programa, todo lo necesario para analizar los
datos con eficacia.
Incluye modelos lineales y no lineales usados en el sector de la
estadística.
Los diversos operadores permiten realizar cálculos con matrices
más rápidamente.
El formato LaTeX se amolda a la documentación virtual y física con
enorme facilidad.
Funciona con sistemas UNIX, Windows y MacOS.
Fue creado por el R Development Team, pero admite la
colaboración altruista de cualquier usuario que quiera ir mejorando
el lenguaje con aportaciones.
Su uso es gratuito. Solo el programa en su web oficial.
PYTHON:
LENGUAJE SENCILLO Y DE GRAN POTENCIAL: Es mucho más
parecido a hablar con otro ser humano, por lo que su aprendizaje es
11
ELASTICSEARCH:
Los datos se almacenan en diferentes sistemas que colaboran entre
sí y nos muestran los resultados que les demandamos en cada
momento en una sola petición.
Implementan una gran cantidad de funciones, tales como la división
personalizada de texto en palabras, derivación personalizada,
búsqueda personalizada, etc.
Autocompletado y búsqueda instantánea, tiene una poderosa DSL
basada en JSON, que permite a los equipos de desarrollo construir
consultas complejas y afinarlas para recibir los resultados más
precisos de una búsqueda.
Ahorro tiempo de análisis y mayor velocidad, acepta documentos
JSON e intenta detectar la estructura de datos, indexar los datos y
hacer que se pueda buscar.
12
11. CONCLUSIONES
https://www.powerdata.es/big-data
https://www.crehana.com/blog/transformacion-digital/herramientas-de-big-data/
https://phoenixnap.com/kb/apache-storm-vs-spark