Está en la página 1de 6

Titulo Review of Leading Data Analytics Tools

Autor Sridevi Bonthu, K Hima Bindu


Año 2018
Fuente International Journal of Engineering & Technology

Problema a Resolver.

El problema que quieren resolver los autores en este articulo es de mencionar cuales son
las herramientas que las organizaciones puede optar para data analytics, y que encajen
con los objetivos que tenga la organización. Mostrando las herramientas mas populares
para el análisis de datos que existen actualmente en el mercado. Para ayudar a los
profesionales de la analítica a elegir la herramienta adecuada para el requisito que estos
requieran.

Antecedentes

Los autores mencionan que los datos son el bloque de construcción básico sobre el que
cualquier organización funcional y prospera. No es posible imaginar el mundo sin datos.
A través de los avances en las tecnologías y, por lo tanto, en Internet, los datos y la
información aumentan cada segundo. Durante las últimas décadas han surgido nuevos
modelos de negocio basados en datos como Facebook, Yahoo, Microsoft, Google,
Linkedln, youtube, Twitter, etc. En los últimos tiempos, el término "Data Analytics" o
“Big Data” se ha aplicado a los datos que crecen tanto y se vuelven incómodos para
trabajar y administrar con sistemas tradicionales de administración de bases de datos. El
tamaño de estos conjuntos de datos está más allá de la capacidad de las herramientas y
los sistemas de almacenamiento de uso frecuente para recuperar, almacenar y
administrar, así como procesar los datos dentro de un tiempo transcurrido promedio.
Todos estamos hambrientos de información, a pesar de que la información se está
ahogando. El análisis de datos es el proceso de analizar datos, que convierte la
información en conocimiento útil. Este conocimiento ayuda a comprender mejor el
mundo y, en muchos contextos, nos permite tomar mejores decisiones. El análisis de big
data está aplicando técnicas analíticas avanzadas en grandes conjuntos de datos. Los
macrodatos y la analítica avanzada ahora están activamente ocupados en la
transformación de la empresa.

Aporte
Según los autores para brindar información clara a los clientes a partir de los datos, se
necesita un marco que permita pensar en ellos como un ciclo con diferentes etapas. Este
marco implica diversas acciones a realizar en el análisis de los datos. La Figura 1
muestra las diferentes fases del ciclo de vida de Data Analytics junto con el flujo de
datos en el medio , están identificando el problema, preparando los datos, planeando el
modelo y construyendo, comunicando los resultados obtenidos con una
operacionalización del producto.

 Discovery: Es muy importante comprender el problema e identificar si hay


suficiente información disponible o no para preparar un plan analítico y
compartirlo para otro estudio. En esta fase, la organización empresarial desea
realizar predicciones sobre los datos para tomar las decisiones necesarias. Por
esta razón, los análisis se transfieren a los conjuntos de datos. El equipo evalúa
los recursos como personas, tecnología, tiempo e información. Otras actividades
en esta fase comprenden enmarcar el problema y formular hipótesis tempranas.
 Data preparation: También es importante comprobar si los datos disponibles son
de buena calidad o no para empezar a construir el modelo. Esta fase incluye
pasos para explorar, preprocesar y ordenar los datos. Esta fase requiere la
ejecución de extracción, carga y transformación (ELT). En esta etapa, el equipo
también debe familiarizarse o familiarizarse con los datos de forma sistemática
para poner los datos en un formato bien ordenado.
 Model planning: Es crucial encontrar si una idea que está disponible es buena
para probar como modelo. En esta fase, el equipo descubre el proceso, los
métodos y el orden que debe seguir para la construcción del modelo. El grupo
determina la información a conocer sobre las variables, cómo se relacionan y en
consecuencia selecciona las variables clave y sugiere modelos adecuados.
 Model building: Para continuar, el modelo que se planea es robusto o no tiene
que ser verificado. En esta etapa, los miembros del equipo compilan conjuntos
de datos para las funciones de entrenamiento, producción y prueba. En esta fase,
el modelo construido se ejecuta para probar que el trabajo realizado en la fase de
planificación sea compatible o no. El equipo también prueba la idoneidad de las
herramientas existentes para ejecutar los modelos preparados.
 Operationalize: En esta fase, el equipo entrega una documentación final,
resúmenes, código del proyecto y documentación técnica.
 Communicate results: Esta parte del ciclo de vida determina si los resultados son
un éxito o un fracaso según el plan analítico realizado en la etapa de
descubrimiento.

Para analizar datos y extraer información procesable comercialmente relevante, se debe


depender de un buen software. Hay una gran cantidad de herramientas; tanto
comerciales como de código abierto están disponibles para el análisis de datos en el
mercado actual. Hay que invertir en las herramientas y habilidades adecuadas para
descubrir nuevas oportunidades. Las herramientas de software de análisis de datos
emplean varios tipos de métodos de investigación para almacenar, manipular y
encontrar implicaciones sugerentes de los conjuntos de datos dados. Algunas de las
herramientas incluso funcionan bien en la producción de informes de resumen y una
mejor visualización, lo que nos ayuda a obtener resultados precisos con un esfuerzo
insignificante.

 R: es un programa de software de código abierto y un servicio desarrollado por


voluntarios para la comunidad de científicos, investigadores y analistas de datos
y es mantenido por la fundación R para la computación estadística. R está
disponible gratuitamente bajo la Licencia Pública General GNU. Es
ampliamente utilizado por los estadísticos y hay muchas orientaciones
disponibles en línea.
 Python: Python es un lenguaje de programación amigable, fácil de aprender,
poderoso y rápido. Este lenguaje está desarrollado bajo una licencia de código
abierto que está aprobado por OSI, por lo que se puede utilizar y distribuir
libremente, incluso para la base de usuarios comerciales. Python Software
Foundation administra la licencia de Python. Muchos módulos de terceros para
Python están alojados en Python Package Index. La biblioteca estándar de
Python y los módulos aportados por su comunidad brindan infinitas
posibilidades. Python está atrayendo enormemente a los analistas de datos. Los
lectores interesados pueden consultar datacamp, datasciencecentral,
byteacademy como referencia en línea.
 RapidMiner: una de las herramientas de análisis de datos comerciales de la
actualidad, que ofrece medidas de aprendizaje automático y medidas de minería
de datos que incluyen modelado estadístico, procesamiento, visualización,
implementación del producto, evaluación y análisis predictivo. Este software
está codificado mediante el lenguaje de programación Java. Es compatible con la
mayoría de los pasos del proceso de aprendizaje automático. RapidMiner ofrece
una plataforma de ciencia de datos basada en GUI, que se adapta mejor a los
analistas de datos principiantes y expertos. Todos estos permiten al analista de
datos implementar nuevos procesos de minería de datos, configurar análisis
predictivos y mucho más. Sus características clave incluyen interfaz gráfica de
usuario, toma de datos de archivos, base de datos, web y a través de servicios en
la nube, análisis en memoria, base de datos y Hadoop.
 Hadoop: es un proyecto de la Fundación Apache de alto nivel que es un sistema
de archivos distribuido, funciona en cualquier plataforma. Hadoop se ha
convertido en un estándar de facto y las empresas que utilizan grandes conjuntos
de datos y análisis lo utilizan. Es una arquitectura elástica para el cálculo y el
procesamiento de datos a escala gigantesca en una red de hardware de servicio.
Puede escalar de un servidor a cualquier número de máquinas; cada máquina
tiene su propio almacenamiento y procesamiento. Hadoop se puede usar para
muchos propósitos, uno de ellos es el análisis.
 Spark: es un mecanismo rápido y general para el procesamiento de datos a gran
escala. Fue desarrollado para responder a las limitaciones del paradigma de
computación MapReduce. Spark analiza datos en tiempo real y demostró ser una
excelente herramienta para cálculos en memoria. Spark está completamente
construido alrededor de computación rápida, análisis sofisticado, facilidad de
uso al convertirlo en un motor de procesamiento de código abierto muy
dominante.
 Tableau: una herramienta elegante, simple y perceptiva. Se ha vuelto poderoso
en los negocios ya que comunica los conocimientos de los datos a través de la
visualización. A pesar de los cientos de alternativas, Tableau ofrece un gran
patio de juegos para las personas debido a su límite de millones de filas. Sus
imágenes le permiten investigar la hipótesis rápidamente, explorar los datos
antes de embarcarse en un traicionero viaje estadístico en el proceso de análisis.
 KNIME: es una plataforma de código abierto que nos permite realizar análisis,
informes e integración de datos. Esta herramienta se recomienda especialmente
para aquellos que son principiantes en el análisis de datos y también para
aquellos que son altamente calificados. Esta herramienta es una integración de
varios componentes del aprendizaje automático y de la minería de datos. Una
GUI fácil de entender permite ensamblar nodos para preprocesamiento,
modelado, análisis y visualización de datos. KNIME.com AG es su
desarrollador y funciona bien en varios sistemas operativos como Windows,
Linux, OS X, etc.

Resultados y/o conclusiones

La descripción general de las herramientas proporcionó una idea de cómo se pueden


diferenciar todas estas herramientas de análisis de datos. La Tabla 2 ofrece una imagen
clara de los desarrolladores y su página de inicio.

La mayoría de los analistas se sienten cómodos con la interfaz de línea de comandos,


que es proporcionada por la mayoría de las herramientas líderes.

El análisis de datos se puede realizar en varias plataformas como web, Iphones, a través
de las aplicaciones móviles de Android y Windows Phone. La Tabla 3 ofrece una
imagen clara de qué herramienta se puede utilizar en qué plataforma. Python se puede
utilizar con todo tipo de plataformas en las que R, Spark, Tableau y KNIME no se
pueden utilizar en la aplicación de Windows Phone. Como Hadoop es un entorno
distribuido, no se puede utilizar con todas las plataformas.

Aporte al trabajo del curso

Este articulo los autores presentaron herramientas de análisis de datos populares y sus
características. Se discuten las fortalezas y limitaciones de cada herramienta. Este
documento destacó claramente qué herramienta es más adecuada para qué tarea de
análisis de datos. A partir de las discusiones, los investigadores / analistas de datos
pueden verificar fácilmente la idoneidad de la herramienta para sus requisitos.

También podría gustarte