Está en la página 1de 31

Unidad I: Conceptos

básicos de Sistemas de
Información y Bases de
Datos
Paula Andrea Forero Delgadillo
Jerarquía del conocimiento

Conocimiento

Información

Dato
Dato-Concepto
Conjunto de hechos discretos y objetivos sobre un evento.
Semánticamente es la unidad mínima que puede comunicarse o
almacenarse.
Representación: Símbolo o conjunto de símbolos (alfabéticos,
numéricos, gráficos, etc) utilizados para describir un valor.

Ejemplos:
-2007 “El 90% de los datos generados históricamente, se
crearon en los últimos dos años.”
-443
-DE
Tipos de datos
• Caracteres: Dígitos individuales que se pueden representar mediante
datos numéricos (0-9), letras (a-z) u otros símbolos.
Ejemplo: Nombres de ciudades

• Numéricos: Se expresan en una escala numérica. Pueden ser:


✓continuos (pueden adoptar cualquier valor dentro de un intervalo).
Ejemplo: calificaciones
✓discretos (solo pueden adoptar valor completos). Ejemplo: hijos
• Categóricos: Solo pueden adoptar un conjunto específico de valores.
Ejemplo: Alto, medio y bajo

• Binarios: (dicotómico, Booleanos, lógico, indicador). Son un caso


especial de los categóricos con solo dos categoría de valores, por
Ejemplo: valores lógicos (True, False)

• Ordinales: Datos categóricos que tienen un orden explicito. Ejemplo:


Mal, regular, bien.
Información
Un mensaje formado por la composición de varios datos. A diferencia
del dato, la información si posee un significado para un receptor u
observador.

Ejemplo:
-El año del establecimiento de la empresa fue 2007
-La altura del edificio Empire State es 443 metros
-DE es el código ISO que identifica al idioma alemán.
Transformación de datos a información:
• Contextualización: Conocer el propósito del dato obtenido.
• Categorización: Conocer la unidad de medida y los componente del
dato.
• Cálculo: Realizar una operación matemática sobre el dato.
• Corrección: Eliminar errores del dato
• Agregación: Resumir o minimizar un dato de forma más concisa.
Conocimiento
Combinación de información contextualizada, experiencia, valores e
intuición. Así como la información se genera a partir de los datos, el
conocimiento surge de la agregación de información.
Métodos de conversión:
-Comparación: Relación entre información obtenida en distintas
experiencias.
-Repercusión: Implicación de la información en decisiones y acciones.
-Conexión: Relación entre tipos de información.
-Conversación: Opinión de otras personas sobre la información.
Recapitulando
Evaluación de calidad
Las métricas o dimensiones utilizadas para describir la calidad de un
conjunto de datos pueden agruparse en base a los actores que
interactúan con los otros datos.

Los expertos en datos tratan con métricas que afectan el diseño o


esquema de los datos obtenidos y no con los datos directamente.

El último actor que interactúa con los datos es el usuario final, es decir
quien utilizara los datos presentados para crear un conclusión o tomar
una decisión.
• Completitud (o cobertura): Describe el porcentaje de datos
disponibles respecto a la población total que representan dichos
datos.
Ejemplo: Un conjunto de datos con información de 90 de 100
tratamientos médicos representan la cobertura de 90%.

• Credibilidad: Nivel de fiabilidad del organismo que proporciona el


conjunto de datos.
Ejemplo: Si se habla de postres, es fácil ver que si habla de tarta,
helado, fruta, etc, el dato es fiable pero no si habla de sushi.
• Consistencia: Grado en el que los datos carecen de contradicciones.
Ejemplo: Si una entidad esta asociada a una ciudad pero a un país que
no tiene relación, hay problemas de consistencia.

• Interpretabilidad: Grado en el que los datos deben ser interpretados


por una persona.

• Precisión: Nivel de exactitud del valor, indica el porcentaje de datos


correctos respecto al total disponible.
Ejercicio en clase
Descripción del producto Tipo de producto Cantidad Precio unitario subtotal

cama doble hogar 1 1.500.000 1.500.000

comedor hogar 1 1.800.000 1.800.000

televisor Electrodomestico 1 1.300.000 1.300.000

juego de sala Electrodomestico 1 2.000.000 2.000.000

tendedido cama Hogar 2 120,000 240,000

Perfume NA 200.000 -
Fuentes de información
Se clasifican en base a las características del elemento que genera el
conjunto de datos.
• Captura manual: Uso de encuestas y mediciones a través de
observaciones, para el proceso de digitalización y almacenamiento se
necesita de tecnología.

• Procesado de información no estructurados: Obtención de datos


disponibles en documentos, cuyo fin principal no es ser consultado
como fuente de datos. Ejemplos: Páginas HTML de supermercados.
• Salida de aplicaciones: Involucran acceso a almacenes de “datos
tradicionales” tales como bases de datos relacionales, ficheros con
valores separados por comas (CSV), etc.
• Datos obtenidos a través de sensores: Información recolectada
mediante sensores de ambiente (ruido o luz), sensores corporales
(ritmo cardiaco o conductividad de la piel) y sensores de dispositivos
móviles (acelerómetro o giroscopio).
Existe un gran interés en el uso de sensores para la captura de datos en
el contexto personal; este movimiento es conocido como Quantified
Self.
• Acceso a datos públicos: Pueden ser mediante la descarga de conjunto de
datos o a través de interfaces de programación de aplicaciones (API por sus
siglas en inglés).
Varias entidades públicas publican su catálogo de datos para el
aprovechamiento a través de la analítica de datos y desarrollo de
aplicaciones.

Colombia: https://www.datos.gov.co/
https://www.dane.gov.co/

Medellín: http://medata.gov.co/
Organización de datos
1. Ficheros planos: Los archivos
planos son una colección de
información que está
almacenada y es accedida de
forma organizada en una base
de datos.
Entre los mas comunes se
encuentran las CSV, JSON y
XML.
Formato CSV (Comma Separated Values-valores separados por coma):
-Cada registro se delimita por un cambio de línea.
-Los valores de cada registro se separan mediante el uso de comas.
-Opcionalmente, puede incluir una primera línea con los nombres de
los campos que se incluyen en el fichero.
CSV JSON Formato XML
Nombre, Edad, Cargo [{ <empleados>
Juan, 45, Director “Nombre”: “Juan”, <empleado>
Antonio, 35, “Gestor de “Edad”: 45, <Nombre>Juan</Nombre>
proyectos” “Cargo”: “Director”}, { <Edad>45</Edad>
Pablo, 34, “Analista” “Nombre”: “Antonio”, <Cargo>Director</Cargo>
Pedro, 32, “Administrador “Edad”: 35, </empleado>
de bases de datos” “Cargo”: “Gestor de <empleado>
proyectos”}] <Nombre>Antonio</Nombre>
<Edad>35</Edad>
<Cargo>Gestor de
proyectos</Cargo>
</empleado>
<empleados>
• JSON (JavaScript Object Notation-Notación de objetos
en JavaScript): Se basa en el lenguaje de programación
JavaScript y basa su notación en dos estructuras:
-Un objeto o registro, definido como un conjunto de pares
nombre/valor.
-Un array o lista ordenada de valores

Al ser estructuras de datos muy genéricas, suelen estar


soportadas por la mayoría de lenguajes de programación
modernos
Sigue la siguiente estructura:

• Un objeto se delimita por llaves y los pares nombre/valor se separan


por medio de comas, y entre el ({ }) nombre y el valor se coloca el
carácter dos puntos (:).
• » Un array se delimita por corchetes ([ ]) y los valores se separan por
comas.
• » Cada valor, tanto dentro de un objeto como de un array, puede ser
una cadena de texto delimitada por comillas dobles, un número, un
valor booleano (true/false), el valor nulo (null), un objeto o un array.
• Formato XML (eXtended Markup Language-lenguaje de marcas
extensible): Utiliza
marcas o etiquetas como parte de la estructura y formato de datos que
contiene. Entre las condiciones que debe cumplir este formato están:
-El documento inicia con la línea: <?xml version=”1.0”>.
- Un documento XML tiene solamente un elemento raíz.
-Un elemento en XML se abre mediante una etiqueta delimitada por
los signos menor que y mayor que (<etiqueta>) y se cierra con la misma
etiqueta, pero incluyendo una barra (/) inmediatamente después del
menor que (</etiqueta>).
- Los elementos pueden tener atributos. Estos se incluyen como pares
nombre/valor, separados por el carácter de igualdad (=) dentro de la
etiqueta del elemento. El valor debe delimitarse por comillas simples o
dobles.
- El contenido de un elemento puede ser texto, uno o varios elementos,
o la combinación de ambos.
2. Base de datos: Es un sistema computarizado para el
almacenamiento de registros. Contiene cuatro elementos:
-Datos: Pueden definirse como integrados en los casos en que todos los
datos se mantienen unificados y serán accedidos por solo una persona,
así como compartidos, para aquellos casos en los que se desea
mantener los conjuntos de datos separados y otorgar privilegios de
acceso a distintas personas.

-Hardware: Los componentes que intervienen en un sistema de base de


datos son los volúmenes de almacenamiento, así como los
procesadores y memoria principal.
-Software: La capa de software entre el usuario y la base de datos física
se conoce como DBMS (Database Management System – Sistema
Gestor de la Base de datos).

-Usuarios: Existen tres clases de usuarios en un sistema de bases de


datos:
➢Programadores: Encargados de crear aplicaciones que permitan la interacción
con la base de datos.
➢ Usuarios finales: Utilizan las distintas aplicaciones y herramientas para
interactuar con la base de datos.
➢Administrador de base de datos: Se encarga de gestionar la estructura,
disponibilidad y eficiencia del sistema de base de datos.
Datos estructurados
Datos en un formato estandarizado, tienen una estructura bien
definida, cumplen con un modelo de datos, siguen un orden
persistente y son de fácil acceso para humanos y programas. Este tipo
de datos generalmente se almacena en una base de datos.
Datos no estructurados
Son modelos de datos predefinidos, pueden venir en texto, imágenes,
sonido, vídeos u otros formatos, y su búsqueda y análisis es más difícil.
Minería de Datos (Data mining)
Es el proceso de clasificar gran cantidad de información o conjunto de
datos, se emplea con el fin de lograr patrones y establecer relaciones
que permitan solucionar problemas por medio del análisis adecuado de
datos.

Con el Data Mining las empresas logran predecir tendencias que


conllevan a mejores decisiones, es de allí que surge el interés
empresarial por esta herramienta.
Etapas en el Data mining
Definición de objetivos: el proceso inicia comprendiendo el problema
comercial de la empresa, los expertos en Data Mining definen los
objetivos del proyecto y sus requisitos, en pocas palabras la definición
del problema, esta es la fase inicial.

Exploración de datos: en esta etapa los expertos recopilan, compilan y


exploran los datos, además de validar la calidad de los datos, es el
momento en el cual comparten ideas e intercambian información.
Organización de los datos: Se crea un modelo de datos para la
modelación de los mismos, se recopila y adecua la información. En esta
etapa se modifican los datos las veces que sean necesarias y se
preparan para la herramienta de modelado mediante la selección de
tablas, registros y atributos. Los expertos seleccionan y aplican varias
funciones de minería para el mismo tipo de problema.
Modelado y evaluación: estas fases están acopladas entre sí, puesto
que ambas se deben alinear hacia el cumplimiento del alcance de los
valores óptimos, para ello ambas pueden cambiar constantemente. Se
puede decir que cuando se logra la etapa de modelado se ha cumplido
con el modelo de alta calidad y cuando se logra la etapa de la
evaluación se entra a la respuesta de preguntas como ¿el modelo
empleado logra el objetivo comercial?, ¿se contemplan todos los
problemas del negocio?, entre otros.

Desarrollo: se llevan los resultados a las bases de datos o la aplicación


que se considere pertinente.

También podría gustarte