El Big Data en nuestro ambiente a. ¿Cuántos tipos de datos existen? Los tipos de datos que podemos manejar en Big Data son:
Datos estructurados: Los datos estructurados son información
que ha sido formateada y transformada en un modelo de datos bien definido, se suelen encontrar en la mayoría de bases de datos relacionales (RDBMS). Suelen ser archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales con títulos para cada categoría que permite identificarlos.
Dada su estructura ordenada, son los más fáciles de gestionar,
tanto digital como manualmente. También, dada su alto grado de organización, permiten una mayor predictibilidad que otros tipos.
Datos semiestructurados: Son aquellos con un nivel medio de
estructuración y rigidez organizativa. Se encuentran a medio camino entre los estructurados y los no estructurados. Tienen un cierto nivel de estructura, jerarquía y organización, aunque carecen de un esquema fijo. En lugar de estructuras esquemáticas, como en el caso de los estructurados, se podría decir que lo son en forma de árbol, con etiquetas para facilitarte el manejo. Además, contienen metadatos (etiquetas y elementos) que se utilizan para agruparlos y describir cómo se almacenan.
Entre sus principales características está, también, que tienen
algunas propiedades organizativas que facilitan su análisis. De hecho, si los procesas puedes conseguir su almacenamiento en la base de datos relacional y también en filas y columnas. Sin embargo, no todos los que se colocan en un grupo tienen siempre las mismas propiedades. A veces difieren en tipo y tamaño.
Datos no estructurados: La característica principal de este tipo
de datos, generalmente binarios, es que no poseen una estructura interna identificable. Se trata de un cúmulo de información que deben identificarse y almacenarse de forma organizada a través de una base de datos no relacional (NoSQL). La gestión de datos no estructurados puede tomar datos de muchas formas, incluidas publicaciones en redes sociales, chats, imágenes satelitales, datos de sensores de IoT, correos electrónicos y presentaciones, para organizarlos de una manera lógica y predefinida.
Los datos no estructurados son cualitativos, no cuantitativos, por
lo que en su mayoría son de naturaleza categórica y característica.
b. ¿Qué es Big Data?
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.
El objetivo de trabajar con Big Data es extraer información
valiosa, patrones, tendencias y conocimientos que puedan utilizarse para tomar decisiones informadas, mejorar los negocios, optimizar procesos y realizar investigaciones científicas, entre otros usos.
c. ¿Cuál es el objetivo principal de la analítica de datos?
La analítica de datos permite a las organizaciones analizar todos sus datos (en tiempo real, históricos, no estructurados, estructurados, cualitativos) para identificar patrones y generar conocimientos para informar y, en algunos casos, automatizar decisiones, conectando la inteligencia y la acción.
El objetivo principal de la analítica de datos se basa en sacar
conclusiones sobre la información para poder tomar decisiones, o simplemente ampliar los conocimientos sobre diversos temas.
d. Etapas en donde la ética puede ayudar a la Ciencia de Datos.
La ética desempeña un papel fundamental en la Ciencia de Datos en todas las etapas del proceso, desde la recopilación de datos hasta la toma de decisiones basadas en datos. En la etapa de recopilación de datos la ética puede ayudar al garantizar que las personas cuyos datos se recopilan comprendan cómo se utilizarán sus datos y otorguen su consentimiento de manera informada, y protegiendo la privacidad de las personas al recopilar datos. En la etapa de preprocesamiento de datos, la ética puede ayudar al garantizar que los datos estén limpios y libres de sesgos para evitar que los algoritmos aprendan y perpetúen sesgos injustos, y al ocultar información que pueda identificar a individuos en los datos para proteger su privacidad. En la etapa de modelado y entrenamiento, la ética puede ayudar al asegurarse de que los modelos sean comprensibles y explicables para que las decisiones basadas en ellos sean transparentes. En la etapa de evaluación de modelos, la ética puede ayudar al utilizar métricas que reflejen preocupaciones éticas, como la equidad y la justicia, además de métricas de rendimiento tradicionales. En la etapa de implementación de resultados, la ética puede ayudar al utilizar los resultados de la Ciencia de Datos de manera ética y considerar las implicaciones sociales y éticas de las decisiones que se tomen. En la etapa de monitoreo continuo, la ética puede ayudar al continuar monitoreando y evaluando las decisiones y resultados para ajustar las prácticas de Ciencia de Datos según sea necesario para mantener la ética en el centro.