GLOSARIO

Glosario de la ciencia de los datos
Presentado por:
Kely Jhojana Hincapie Zapata – ID 809379 – NRC 6041
Fecha de entrega:
07 de febrero del 2022
Profesor(a):
Doriela Noreyda Flórez Mena
Asignatura:
Informática empresarial
Corporación Universitaria Minuto de Dios

Uniminuto – Seccional Bello
Facultad de Ciencias Económicas
Administración financiera
Bello, Colombia
2022
1. ¿Qué tan relevante es la información para las empresas?
R/ es de suma importancia, en la información esta guardada con hechos y datos los procesos,
bases de datos de clientes, estadísticas, crecimiento etc.
2. ¿Cómo se interpreta el procesamiento de la información para lograr la

productividad y competitividad en las empresas?
R/ El procesamiento de la información, ayuda a que la empresa tenga información en tiempo

real de cada uno de los procesos desarrollados internamente, a su vez se puede determinar
por medio de una matriz DOFA con los resultados obtenidos, las fortaleza y oportunidades
para mejorar la competitividad, los datos nos dan con exactitud la información requerida
para ejecutar todos los procesos de óptimos y beneficioso para la compañía
Definición
Dato: Un dato es la representación de una variable que puede ser cuantitativa o cualitativa
que indica un valor que se le asigna a las cosas y permite analizarlo, se representa a través de
una secuencia de símbolos, números o letras. Los datos describen hechos empíricos.
Ciencia de los datos: La ciencia de datos combina múltiples campos, como las estadísticas,
los métodos científicos, la inteligencia artificial (IA) y el análisis de datos para extraer el
valor de estos. Los practicantes de la ciencia de datos se llaman científicos de datos y
combinan una variedad de conocimientos para analizar los datos recopilados de la web,
teléfonos inteligentes, clientes, sensores y otras fuentes para obtener información útil.
La ciencia de datos abarca la preparación de los datos para el análisis, incluida la limpieza,
la agregación y la manipulación de los datos para realizar análisis avanzados. Las
aplicaciones analíticas y los científicos de datos pueden revisar los resultados para descubrir
patrones y permitir que los líderes empresariales obtengan información fundamentada.
Información: La información está constituida por un grupo de datos ya supervisados y

ordenados, que sirven para construir un mensaje basado en un cierto fenómeno o ente. La
información permite resolver problemas y tomar decisiones, ya que su aprovechamiento
racional es la base del conocimiento.
Informática: La informática, también llamada computación, es el área de la ciencia que se

encarga de estudiar la administración de métodos, técnicas y procesos con el fin de
almacenar, procesar y transmitir información y datos en formato digital.
Empresa: es una organización de personas y recursos que buscan la consecución de un

beneficio económico con el desarrollo de una actividad en particular.
Sistemas de información: conjunto ordenado de mecanismos que tienen como fin la

administración de datos y de información, de manera que puedan ser recuperados y
procesados fácil y rápidamente
Análisis: es el proceso de examinar conjuntos de datos para encontrar tendencias y sacar

conclusiones sobre la información que contienen.
Toma de decisiones: es el proceso en el cual un individuo o grupo de individuos deben

elegir entre varias opciones.
Procesamiento: Es el ordenamiento o tratamiento de datos, de los elementos básicos de

información, que se ejecutan para lograr en ellos una transformación.
Conocimiento: El conocimiento es un conjunto de representaciones abstractas que se

almacenan mediante la experiencia, la adquisición de conocimientos o a través de la
observación. En el sentido más extenso, se trata de la tenencia de variados datos
interrelacionados que, al ser tomados por sí solos, poseen un menor valor cualitativo. Puede
decirse cuando se habla sobre qué es el conocimiento, que es la sumatoria de todos esos
datos sobre algún tema en general o específico y la debida aplicación de estos.
Glosario
1. Big data: se refiere a los datos que son tan grandes, rápidos o complejos que es difícil o
imposible procesarlos con los métodos tradicionales
2. Volumen: Las organizaciones recopilan datos de diversas fuentes, como transacciones
comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos, medios sociales y
más. En el pasado, su almacenamiento habría sido un problema - pero el almacenamiento
más barato en plataformas como los data lakes y el Hadoop han aliviado la carga.
3. Algoritmo: En informática y matemáticas, un algoritmo es una especificación categórica
y efectiva de cómo resolver un problema complejo y cómo realizar un análisis de datos.
Consiste en múltiples pasos para aplicar operaciones sobre los datos con el fin de resolver
un problema particular.
4. Inteligencia artificial: El popular término Big Data, Inteligencia Artificial es la
inteligencia demostrada por las máquinas. La IA es el desarrollo de sistemas informáticos
para realizar tareas que normalmente tienen inteligencia humana como el reconocimiento
de voz, la percepción visual, la toma de decisiones y los traductores de idiomas
5. Identificación automática y captura de datos: La identificación automática y la captura
de datos (AIDC) es el gran término de datos que se refiere a un método de identificación
y recolección automática de objetos de datos a través de un algoritmo de computación y
su posterior almacenamiento en la computadora. Por ejemplo, la identificación por
radiofrecuencia, los códigos de barras, la biometría, el reconocimiento óptico de
caracteres y las bandas magnéticas incluyen algoritmos para la identificación de los
objetos de datos capturados.
6. Avro: Avro es un marco de serialización de datos y una llamada de procedimiento
remoto desarrollado para el proyecto de Hadoop. Utiliza JSON para definir protocolos y
tipos de datos y luego serializa los datos en forma binaria. Avro proporciona ambos:
 Formato de serialización para datos persistentes.
 Formato de cable para la comunicación entre los nodos Hadoop y de los
programas de clientes a los servicios Hadoop.
7. Covariance (Covarianza): La covarianza es una medida de cómo los cambios en una

variable se asocian con los cambios en una segunda variable.
8. Correlation (Correlación): Cuando dos conjuntos de datos están fuertemente vinculados
entre sí, decimos que tienen una alta correlación. La palabra Correlación está hecha de
Co- (que significa "juntos"), y Relación. La Correlación es Positiva cuando los valores
aumentan juntos, y es Negativa cuando un valor disminuye a medida que el otro aumenta.
9. Clustering (Agrupación): Las técnicas de agrupación tratan de reunir y clasificar
conjuntos de puntos en grupos que son "suficientemente similares" o "cercanos" entre sí.
"La cercanía" varía dependiendo de cómo se elija medir la distancia. La complejidad
aumenta a medida que se añaden más características al espacio del problema.
10. Data Analysis (Análisis de datos): Esta disciplina es el hermano pequeño de la ciencia
de los datos. El análisis de datos se centra más en responder preguntas sobre el presente y
el pasado. Utiliza estadísticas menos complejas y generalmente trata sólo de identificar
patrones. Se trata más de procedimientos hechos con datos como la limpieza, la
transformación y el modelado. La ciencia de los datos es más amplia que eso, porque se
trata de hacer predicciones, extraer conocimientos y otras cosas.
11. Data Engineering (Ingeniería de datos): "Un científico puede descubrir una nueva
estrella, pero no puede hacer una. Tendría que pedirle a un ingeniero que lo haga por él".
12. Biometrics: La biometría es la tecnología de James Bondish unida a la analítica para
identificar a las personas por uno o más rasgos físicos. Por ejemplo, la tecnología
biométrica se utiliza en el reconocimiento facial, el reconocimiento de huellas dactilares,
el reconocimiento del iris, etc.
13. Cascading: La cascada es la capa para la abstracción de software que proporciona el
mayor nivel de abstracción para Apache Hadoop y Apache Flink. Es un marco de trabajo
de código abierto que está disponible bajo la licencia de Apache. Se utiliza para permitir
a los desarrolladores realizar el procesamiento de datos complejos de forma fácil y rápida
en lenguajes basados en JVM como Java, Clojure, Scala, Rubi, etc.
14. Call Detail Record (CDR) Analysis: El CDR contiene metadatos, es decir, datos sobre
los datos que una empresa de telecomunicaciones recoge sobre las llamadas telefónicas,
como la duración y la hora de la llamada. El análisis del CDR proporciona a las empresas
los detalles exactos sobre cuándo, dónde y cómo se realizan las llamadas con fines de
facturación y presentación de informes. Los metadatos del CDR dan información sobre
 Cuando se hacen las llamadas (fecha y hora)

 Cuánto tiempo duró la llamada (en minutos)
 Quién llamó a quién (Número de contacto de la fuente y el destino)
 Tipo de llamada (entrante, saliente o gratuita)
 Cuánto cuesta la llamada (en base a la tarifa por minuto)
15. Cassandra: Es un sistema de gestión de bases de datos NoSQL de código abierto y

distribuido. Está diseñado para gestionar una gran cantidad de datos distribuidos en
servidores de productos básicos, ya que proporciona una alta disponibilidad de servicios
sin punto de fallo. Fue desarrollado inicialmente por Facebook y luego estructurado en
forma de valor clave bajo la fundación Apache
16. Cell Phone Data: Los datos de los teléfonos móviles han surgido como una de las
grandes fuentes de datos, ya que generan una enorme cantidad de datos y gran parte de
ellos están disponibles para su uso con aplicaciones analíticas.
17. Cloud Computing: La computación en la nube es uno de los grandes términos de datos
más conocidos. Es un nuevo paradigma de sistema de computación que ofrece la
visualización de los recursos de computación para ejecutar sobre el servidor remoto
estándar para el almacenamiento de datos y proporciona IaaS, PaaS y SaaS. La
computación en nube proporciona recursos de TI como infraestructura, software,
plataforma, base de datos, almacenamiento y así sucesivamente como servicios.
Escalamiento flexible, rápida elasticidad, puesta en común de recursos, autoservicio bajo
demanda son algunos de sus servicios.
18. Cluster Analysis: El análisis de clusters es el gran término de datos relacionado con el
proceso de agrupación de objetos similares entre sí en el grupo común (cluster). Se hace
para entender las similitudes y diferencias entre ellos. Es la importante tarea de la minería
de datos exploratoria, y las estrategias comunes para analizar los datos estadísticos en
varios campos como el análisis de imágenes, el reconocimiento de patrones, el
aprendizaje automático, los gráficos por ordenador, la compresión de datos y así
sucesivamente.
19. Chukwa: Apache Chukwa es un sistema de código abierto de recogida de registros a

gran escala para la supervisión de grandes sistemas distribuidos. Es uno de los grandes
términos comunes de datos relacionados con el Hadoop. Está construido sobre el Sistema
de Archivos Distribuidos Hadoop (HDFS) y el marco de trabajo Map/Reduce. Hereda la
robustez y escalabilidad de Hadoop. Chukwa contiene una poderosa y flexible base de
datos de herramientas para monitorear, mostrar y analizar los resultados, de manera que
los datos recolectados puedan ser utilizados de la mejor manera posible.
20. Columnar Database / Column-Oriented Database. Una base de datos que almacena
los datos columna por columna en lugar de la fila se conoce como la base de datos
orientada a la columna.
21. Comparative Analytic-oriented Database: El análisis comparativo es un tipo especial
de tecnología de minería de datos que compara grandes conjuntos de datos, procesos
múltiples u otros objetos utilizando estrategias estadísticas como el filtrado, el análisis de
árboles de decisión, el análisis de patrones, etc.
22. Complex Event Processing (CEP): El procesamiento de eventos complejos (CEP) es el
proceso de analizar e identificar datos y luego combinarlos para inferir eventos que
puedan sugerir soluciones a las complejas circunstancias. La principal tarea del CEP es
identificar/rastrear eventos significativos y reaccionar ante ellos lo antes posible.
23. Dashboard: Es una representación gráfica del análisis realizado por los algoritmos. Este
informe gráfico muestra alertas de diferentes colores para mostrar el estado de la
actividad. Una luz verde es para las operaciones normales, una luz amarilla muestra que
hay algún impacto debido a la operación y una luz roja significa que la operación ha sido
detenida. Esta alerta con diferentes luces ayuda a seguir el estado de las operaciones y a
conocer los detalles siempre que sea necesario.
24. Data Architecture and Design: En la industria de la tecnología de la información, la
arquitectura de los datos consiste en modelos, políticas, normas o reglas que controlan
qué datos se agregan y cómo se organizan, almacenan, integran y utilizan en los sistemas
de datos. Tiene tres fases
Representación conceptual de las entidades comerciales
La representación lógica de las relaciones entre entidades comerciales
La construcción física del sistema de apoyo funcional
25. Database administrator (DBA): DBA es el gran término de datos relacionado con una
función que incluye la planificación de la capacidad, la configuración, el diseño de la
base de datos, la supervisión del rendimiento, la migración, la solución de problemas, la
seguridad, las copias de seguridad y la recuperación de datos. DBA es responsable de
mantener y apoyar la rectitud del contenido y la estructura de una base de datos.
26. Database administrator (DBA): DBA es el gran término de datos relacionado con una
función que incluye la planificación de la capacidad, la configuración, el diseño de la
base de datos, la supervisión del rendimiento, la migración, la solución de problemas, la
seguridad, las copias de seguridad y la recuperación de datos. DBA es responsable de
mantener y apoyar la rectitud del contenido y la estructura de una base de datos.
27. Database Management System (DBMS): El Sistema de Gestión de Bases de Datos es
un programa informático que recoge datos y proporciona acceso a ellos de forma
organizada. Crea y administra la base de datos. El DBMS proporciona a los
programadores y usuarios un proceso bien organizado para crear, actualizar, recuperar y
gestionar los datos.
28. Data Model and Data Modelling: El modelo de datos es una fase inicial del diseño de
una base de datos y suele consistir en atributos, tipos de entidades, reglas de integridad,
relaciones y definiciones de objetos. El modelado de datos es el proceso de creación de
un modelo de datos para un sistema de información mediante el uso de ciertas técnicas
formales. El modelado de datos se utiliza para definir y analizar los requisitos de datos
para apoyar los procesos empresariales.
29. Data Warehouse: El almacén de datos es un sistema de almacenamiento de datos con
fines de análisis y presentación de informes. Se cree que es el principal componente de la
inteligencia comercial. Los datos almacenados en el almacén se cargan desde el sistema
operativo como ventas o marketing
30. Data Science (Ciencia de los datos): Bueno, aquí está lo principal que hizo tanto ruido.
Predicciones, insights, manipulaciones con datos, convertir datos desordenados y dispares
en material comprensible.
31. Drill: El drill es un motor de consulta SQL de código abierto, distribuido y de baja
latencia para Hadoop. Está construido para datos semi-estructurados o anidados y puede
manejar esquemas fijos. El simulacro es similar en algunos aspectos al Dremel de Google

y es manejado por Apache
32. Extract: Es el proceso de lectura de datos de una base de datos.
33. Transform: Es el proceso de conversión de los datos extraídos en la forma deseada para
que puedan ser puestos en otra base de datos.
34. Flume: se define como un servicio fiable, distribuido y disponible para agregar, recoger
y transferir una gran cantidad de datos en el HDFS. Es robusto por naturaleza. La
arquitectura del canal es de naturaleza flexible, basada en el flujo de datos.
35. Gamification: La gamificación se refiere a los principios utilizados en el diseño del
juego para mejorar la participación de los clientes en negocios no relacionados con el
juego. Diferentes empresas utilizan diferentes principios de juego para mejorar el interés
en un servicio o producto o simplemente podemos decir que la gamificación se utiliza
para profundizar la relación de su cliente con la marca.
¿De qué forma estos términos se relacionan con los sistemas de información y cómo
contribuyen a la toma de decisiones en las empresas?
R/ Ayudará a la empresa o institución a alcanzar sus objetivos estratégicos. Los sistemas de

información modifican profundamente la manera en que una empresa, una industria, un
negocio deba ajustarse al impacto digitalizado y los nuevos flujos de información. Los
sistemas de información basados en computadoras, son indispensables para realizar las
actividades planificadas en cualquier organización.
Lista de Referencias
https://topbigdata.es/todos-los-terminos-del-big-data/
https://www.datasource.ai/es/data-science-articles/el-glosario-definitivo-de-la-ciencia-de-los-
datos

GLOSARIO

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GLOSARIO

Cargado por

Copyright:

Formatos disponibles

Glosario de la ciencia de los datos

Glosario de la ciencia de los datos

Corporación Universitaria Minuto de Dios

1. ¿Qué tan relevante es la información para las empresas?

2. ¿Cómo se interpreta el procesamiento de la información para lograr la

R/ El procesamiento de la información, ayuda a que la empresa tenga información en tiempo

Información: La información está constituida por un grupo de datos ya supervisados y

Informática: La informática, también llamada computación, es el área de la ciencia que se

Empresa: es una organización de personas y recursos que buscan la consecución de un

Sistemas de información: conjunto ordenado de mecanismos que tienen como fin la

Análisis: es el proceso de examinar conjuntos de datos para encontrar tendencias y sacar

Toma de decisiones: es el proceso en el cual un individuo o grupo de individuos deben

Procesamiento: Es el ordenamiento o tratamiento de datos, de los elementos básicos de

Conocimiento: El conocimiento es un conjunto de representaciones abstractas que se

7. Covariance (Covarianza): La covarianza es una medida de cómo los cambios en una

 Cuando se hacen las llamadas (fecha y hora)

15. Cassandra: Es un sistema de gestión de bases de datos NoSQL de código abierto y

19. Chukwa: Apache Chukwa es un sistema de código abierto de recogida de registros a

manejar esquemas fijos. El simulacro es similar en algunos aspectos al Dremel de Google

R/ Ayudará a la empresa o institución a alcanzar sus objetivos estratégicos. Los sistemas de

También podría gustarte