Está en la página 1de 18

Fuentes de Información

Leal, D; Ruete D. (2021). Fuentes de


Información [apunte]. Chile. UNAB
Fuentes de Información

FUENTES DE INFORMACIÓN

1
Las fuentes de información se definen como un instrumento o recurso, que permite
satisfacer una necesidad informativa. Su objetivo es facilitar la localización e
identificación de la información. Y se debe considerar que el tipo de fuente de
información proporcione un nivel adecuado a las necesidades para lo que se requiera.

Las fuentes de información pueden clasificarse en Fuentes Primarias, Fuentes


Secundarias y Fuentes Terciarias.

1. Fuentes Primarias. Representan aquellas fuentes directas de donde procede


la información sujeta a analizar, es información nueva y original (ver figura
1):
a. Documentos Originales
b. Entrevistas
c. Cartas
d. Discursos
e. Apuntes de investigación
Fuentes de Información

Figura 1

Fuentes de Información Primarias

2. Fuentes Secundarias. Son documentos derivados a partir de fuentes de


información primarias (ver figura 2):
a. Libros
b. Informes 2
c. Tesis
d. Revistas académicas
e. Documentales
f. Bases de datos
g. Periódicos

Figura 2:

Fuentes de Información Secundarias


Fuentes de Información

3. Fuentes Terciarias. Son recursos que contienen información breve sobre las
fuentes secundarias y remiten a ellas como fuentes de referencias (ver figura
3):
a. Bibliografía de bibliografías
b. Guías de obra de referencias
c. Índices
d. Catálogos
e. Directorios, guías

Figura 3:

3
Fuentes de Información Terciarias

Fuentes Primarias

Datos primarios: son los datos que genera el investigador para alcanzar los objetivos
del proyecto en que se está trabajando (ver figura 4).

Figura 4:

Datos primarios
Fuentes de Información

Los métodos utilizados para recopilar datos primarios son:

• Observación
• Experimentación
• Simulación
• Entrevista

Fuentes Secundarios

Datos secundarios: son documentos que reúnen nombres de revistas y otras


publicaciones periódicas (ver figura 5).

Figura 5:

Datos secundarios

Los métodos utilizados para recopilar datos secundarios son:

• Revisión de bibliografía
• Recopilación de datos
• Resúmenes

Fuentes Terciarios

Datos terciarios: son todos aquellos que han sido recopilados con anterioridad, para
fines iguales, similares o diferentes a los de la investigación o proyecto (ver figura
6).
Fuentes de Información

El método utilizado para recopilar datos terciarios es:

• Búsqueda en Internet

Figura 6:

Datos terciarios

Importancia de la información

Una fuente solo es valiosa si aporta información útil y pertinente en vinculación con
lo que se esté investigando.
5

Una fuente de información es confiable cuando los datos se ajustan a estas variables:

• Los aporta un experto


• Los aporta una institución reconocida
• Se sabe:
• de qué lugar se aporta
• qué dice
• y por qué

Se debe chequear el valor de la información, y para eso debemos observar las


siguientes características:

• Actualidad: corroborar fecha de elaboración.


• Objetividad: la información no debe contener juicios de valor.
Fuentes de Información

Data Warehouse

Un Data Warehouse (DW) es una arquitectura de almacenamiento especialmente


diseñada para respaldar datos extraídos de sistemas de transacciones, almacenes de
datos y fuentes externas, presentadas en forma estructurada o no estructurada. El
6
Data Warehouse, según necesidad de algún área de la organización, combina estos
datos en forma de resumen agregado para facilitar el análisis de los datos, y así
generar informes predefinidos por los interesados (stakeholders).

Es uno de los elementos más importantes de la implementación de Bussiness


Intelligence, BI, (Inteligencia de Negocio), pues se concentrará toda la información
con la estructura y el diseño pre concedido por los stakeholders (interesados o partes
interesadas), para poder explotar esta información.

Estas estructuras se componen por fragmentos derivados del DW conocidos como


Datamarts. Los datamarts tienen dos diseños de almacenamiento de la información,
los modelos estrella y los modelos snowflake. Estos modelos contribuirán, también,
a explotar la información para diferentes propósitos, por ejemplo, la generación de
reportes, análisis de información a través de cubos OLAP (Online Analytical
Processing; Procesamiento Analítico en Línea), tableros de control también conocidos
como dashboard, minería de datos, entre otro tipo de soluciones.

En la figura 7 se puede observar el rol del DW en la implementación de una solución


de BI. Del lado izquierdo de la figura 7, se tienen las fuentes de datos operacionales.
Estas se pueden formar de sistemas ERP (Enterprise Resource Planning), sistemas
CRM (Customer Relationship Management), archivos de texto plano, sistemas legacy,
etc. Las fuentes pueden ser diversas, y el único requisito que debe tener cada una
de ellas es que puedan ser extraídas.
Fuentes de Información

La herramienta que ayudará a la extracción de los datos se llama ETL (Extract,


Transform and Load). La ETL nos permite:

• E: Extraer la información de distintas fuentes datos, estructurados o no


estructurados.
• T: Transformar la información. Transformar la información de las bases de
datos de origen a las características de un modelo estrella o snowflake.
• L: Luego carga los datos transformados en el DW.

Una vez preparada y almacenada la información en el DW, esta se puede utilizar para
los servicios que se observan a la derecha de la figura 7, por ejemplo, reportería,
visualización de datos (dashboard tableros de control), minería de datos, realizar
predicciones, entre otros servicios.

Figura 7:

Arquitectura General de un Data Warehouse


Fuentes de Información

Funcionalidades del DW

La filosofía de diseño de los DW descansa en los siguientes fundamentos:

• Orientado a objetos: el DW está conceptualizado para atender distintas áreas


de la empresa.
• Integrado: unifica las distintas fuentes de información estructuradas o no
estructuradas, en una sola base de datos.
• No volátil: la información no varía una vez implementada la base de datos en
el DW.
• Variante en el tiempo: la data histórica se almacena, por lo que se genera un
historial de datos. Esto permite la trazabilidad de la información.
• Toma de decisiones: el objetivo del DW es asistir a las personas en la toma
de decisiones.

Estos fundamentos permiten que un DW pueda adaptarse a los cambios como sea
posible. La información en el mundo real es muy volátil, y el DW debe estar preparado
para recibir estos cambios.

El DW debe estar diseñado para cargar cantidades masivas de datos preferentemente


en un pequeño lapso de tiempo.

Estos sistemas están diseñados principalmente para el análisis de información, es 8


decir, a responder a las consultas realizadas por los stakeholders. Por lo tanto, no es
conveniente que convivan en el mismo entorno productivo que los sistemas
transaccionales de la organización como un ERP o punto de venta, ya que pueden
llegar a bajar el rendimiento del servidor al realizar consultas a grandes volúmenes
de datos o también correr el riesgo de no entregar la información de forma ágil, es
decir, en el momento que se necesita. En la figura 8 se puede observar una
arquitectura de DW que explica cómo separa el sistema transaccional del DW.
Fuentes de Información

Figura 8:

Arquitectura de un Sistemas Transaccional en convivencia con una Arquitectura de Data


Warehouse

La naturaleza del DW debe ser multipropósito. Sus datos deben estar en un formato
que soporte cualquiera y todas las formas posibles de análisis.

9
¿Cuál es la diferencia entre un DW y una base de datos convencional?

Las bases de datos tradicionales, utilizadas por sistemas transaccionales con relación
a un DW, son polos opuestos en cuanto a sus requerimientos de operación y diseño.

Los sistemas transaccionales están diseñados para ejecutar transacciones de tipo


Alta, Baja, cambios y consultas de datos, tales como un cargo, un abono, una
devolución de inventario, el registro de un nuevo cliente, etc., mientras que un DW
está organizado con base en conceptos tales como clientes, productos, ventas,
tiempo, etc.

Existen también diferencias en el diseño. Mientras que las bases de datos


transaccionales son extremadamente normalizadas, un DW tiende a no estarlo,
organizando los datos en bodegas conceptuales conocidos como datamarts y su
modelo en estrella.

El desarrollo de DW es igual o incluso más importante que la tecnología seleccionada


para su explotación, ya que sin un buen modelo la organización puede enfrentar
problemas como tiempos prolongados de respuesta, información inconsistente,
problemas de visualización, entre otras cosas. Por lo tanto, antes de la tecnología se
sebe concebir el propósito y correcto diseño del DW, que garantizará el éxito de
Fuentes de Información

cualquier implementación para la cual sea concebido el DW, por ejemplo, la


implementación de BI.

Ejercicio ACP en lenguaje R

Utilizando la base de datos entregada al inicio de la asignatura, realice un análisis


predictivo para la variable Abstracción, mediante el lenguaje de programación R.

Para esto debe instalar R desde:

https://cran.r-project.org/bin/windows/base/
La descarga de R es gratuita.

Descargue la versión gratuita de RStudio que le proporcionará una interfaz de


programación amigable. Para esto descargue RStudio desde:

https://www.rstudio.com/products/rstudio/download/
10

Recuerde que la base de datos contiene variables de entrada y salida provenientes


de un test aplicado a alumnos de Educación Parvularia.

Las variables de entrada provenientes del test son:

• Modalidad: diurno/vespertino
• Edad: de 20 a 49 según muestra
• Semestre: 3, 4, 5, 6, 7 y 8 del programa en cuestión
• Evaluación Pregunta 1
• Evaluación Pregunta 2
• Evaluación Rotular
• Evaluación Reducción de Contenido
• Evaluación Título
Fuentes de Información

La variable de salida es:

• Abstracción:
• Abstracción Mala: 1<= Promedio valores de entrada <2
• Abstracción Satisfactoria: 2<= Promedio valores de entrada <3
• Abstracción Buena: 3<= Promedio valores de entrada <3,5
• Abstracción Óptima: 3,5<= Promedio valores de entrada <4

𝑋̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 (𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐸𝑛𝑡𝑟𝑎𝑑𝑎)

𝑁𝑜 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛, 1 ≤ 𝑋̅ < 2
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑆𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑡𝑜𝑟𝑖𝑎, 2 ≤ 𝑋̅ < 3
𝑋̅ =
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝐵𝑢𝑒𝑛𝑎, 3 ≤ 𝑋̅ < 3,5
{ 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 Ó𝑝𝑡𝑖𝑚𝑎, 3,5 ≤ 𝑋̅ ≤4

Construya su código fuentes a partir de los siguientes pasos:

Instalar todas las bibliotecas

library(readxl)
11
library(dplyr)
library(ggplot2)
library(ggcorrplot)
library(e1071)
library(ROCR)
library(class)
library(rpart)
library(randomForest)
library(reshape)
library(kknn)
Fuentes de Información

Importar Base de Datos

Recuerde revisar bien la ruta de su archivo, pues este puede cambiar dependiendo
de la carpeta donde guarde la información. La ruta la puede recuperar haciendo clic
izquierdo en el archivo y revisando las propiedades del archivo. En el recuadro que
salga puede copiar la ruta y pegarla en el código fuente de su aplicación.

Cuando realice la copia, la ruta estará compuesta por este separador de carpeta: "\".
R no reconoce este separador, por lo que hay que cambiarlos todos por el siguiente
separador: "/". Ejemplo: "C:\Documentos\BBDD\nombre_archivo.xlsx" debe ser
cambiado a "C:/Documentos/BBDD/nombre_archivo.xlsx"

data <- read_excel("C:/Users/druete/Documents/David/DISEÑO


CURSOS/MINERIA DE DATOS/Unidad 3/BASE DE
DATOS/BBDD_EPA_NIVELES_ABSTRACCION_CLASS-Minaría_de_datos.xlsx")

Transformar variables categóricas a binarias


12
Si es 1 será Vespertina, 0 será diurno

data$Modalidad <- ifelse(data$Modalidad=="Vespertina",1,0)

Ver tipos de variables

str(data)

Transformar variable categóricas en factor

data$`Abstraccion final`<-factor(data$`Abstraccion final`)


Fuentes de Información

Cambiar nombre de las variables con espacio

data = rename(data, c(`Pregunta1`="Pregunta1",


`Pregunta2`="Pregunta2",`Rotular`="Rotular",
`ReduccionContenido`="ReduccionContenido",

`Titulo`="Titulo",`PromedioPreguntas`="PromedioPreguntas"))

Separar los dos tipos de set de variables

abs<-select(data,2:9)

Análisis de Componentes Principales

Para poder hacer un análisis de componentes principales, se deben realizar los


siguientes pasos:

• Preparar el entorno de trabajo: cargar base de datos


• Realizar ajustes del modelo
13
• Realizar las descripciones del modelo
• Interpretar los resultados teóricamente.

Ajuste del modelo

Para ajustar el modelo lo primero que tenemos que hacer es una correlación. Esto no
es de utilidad para saber el comportamiento de las variables de la base de datos. Lo
ideal es que todas las variables estén correlacionadas. Esto significa que los valores
de correlación sean uno o estén cercanos a uno. Si son cercanas a cero, implica que
las variables no se influyen unas con otras.

Correlaciones

cor(abs)%>%round(2)
Fuentes de Información

Normalización

La normalización de las variables significa quitar las escalas y dejar que todas sean
iguales. La función deja las escalas de 0 a 1 para todas las variables. Para realizar el
análisis de componentes principales siempre es requisito normalizar y, además, solo
se pueden considerar variables numéricas

norm01 <- function(x){(x-min(x))/(max(x)-min(x))}


abs_norm <- data.frame(apply(abs, 2, norm01))
apply(abs_norm, 2, min)%>%round(2)
apply(abs_norm, 2, mean)%>%round(2)

Descripciones del modelo

Análisis de Componentes Principales

Del análisis de componentes principales se obtiene un proceso llamado rotación,


donde se encuentra en el punto medio y se rotan los datos hacia el origen (ver figura
1).

Figura 9:
14

Proceso de Rotación
Fuentes de Información

Lo importante de este procedimiento es que no se altera su comportamiento,


únicamente cambiamos el eje de coordenadas. Por otro lado, se obtienen las cargas
factoriales, que son los valores de coordenadas para encontrar un punto particular
de la base de datos (ver figura 2).

acp<-prcomp(abs_norm)
acp

Figura 10:

15

Cálculo cargas factoriales

Valores de los componentes

El análisis de componentes principales nos entrega la estimación de cada uno de los


datos para los componentes principales, en todos los registros de la base de datos.

Los componentes que arroja el cálculo deben ser igual al número de registros de la
base de datos. Y los valores se calculan midiendo la distancia del origen a cada uno
de los puntos (ver figura 3), y esa distancia es el valor de los componentes.
Fuentes de Información

Figura 11:

Cálculo de la estimación de cada uno de los datos para los componentes principales

Lo que busca el modelo es captar la mayor variabilidad de los datos y hacer una
reducción de los mismos. Y para ello capta la varianza.

acp$x
16

Resultados e Interpretación

Gráfico de sedimentación (Varianza):

Para ver cuál es el resultado de cada una de las componentes se puede utilizar el
gráfico de sedimentación. El gráfico de sedimentación de la varianza nos entrega
como resultado el nivel de explicación que tiene cada componente respecto a la
varianza.

Cada componente puede explicar cierta cantidad de la varianza. Los componentes


que expliquen mejor la varianza se mantienen y los otros se descartan, reduciendo
así los datos.

screeplot(acp,type="lines")
Con los componentes principales elegidos (los primeros que mejor expliquen la
varianza) se vuelve a realizar una correlación con las variables originales.

cp<-data.frame(acp$x)
cp<-cp[,1:3]
Fuentes de Información

Correlación: Constructos vs. Datos Originales

Las correlaciones nos dirán qué variables corresponden a un perfil o a otro perfil. Así
se podrán identificar los perfiles (dados por los componentes principales), y se podrá
establecer una hipótesis de por qué tienen este comportamiento.

cor(abs_norm, cp,use="everything", method=c("pearson"))

Bibliografía:
Foster P.& Fawcett, T. (2013). Data Science for Business: What you need to know
about data mining and data-analytic thinking,1 edition. O'Reilly Media.

17

También podría gustarte