Fuentes de Información

Fuentes de Información
Leal, D; Ruete D. (2021). Fuentes de

Información [apunte]. Chile. UNAB
FUENTES DE INFORMACIÓN
1
Las fuentes de información se definen como un instrumento o recurso, que permite
satisfacer una necesidad informativa. Su objetivo es facilitar la localización e
identificación de la información. Y se debe considerar que el tipo de fuente de
información proporcione un nivel adecuado a las necesidades para lo que se requiera.
Las fuentes de información pueden clasificarse en Fuentes Primarias, Fuentes

Secundarias y Fuentes Terciarias.
1. Fuentes Primarias. Representan aquellas fuentes directas de donde procede

la información sujeta a analizar, es información nueva y original (ver figura
1):
a. Documentos Originales
b. Entrevistas
c. Cartas
d. Discursos
e. Apuntes de investigación
Figura 1
Fuentes de Información Primarias
2. Fuentes Secundarias. Son documentos derivados a partir de fuentes de

información primarias (ver figura 2):
a. Libros
b. Informes 2
c. Tesis
d. Revistas académicas
e. Documentales
f. Bases de datos
g. Periódicos
Figura 2:
Fuentes de Información Secundarias

3. Fuentes Terciarias. Son recursos que contienen información breve sobre las
fuentes secundarias y remiten a ellas como fuentes de referencias (ver figura
3):
a. Bibliografía de bibliografías
b. Guías de obra de referencias
c. Índices
d. Catálogos
e. Directorios, guías
Figura 3:
3
Fuentes de Información Terciarias
Fuentes Primarias
Datos primarios: son los datos que genera el investigador para alcanzar los objetivos
del proyecto en que se está trabajando (ver figura 4).
Figura 4:
Datos primarios
Los métodos utilizados para recopilar datos primarios son:
• Observación
• Experimentación
• Simulación
• Entrevista
Fuentes Secundarios
Datos secundarios: son documentos que reúnen nombres de revistas y otras

publicaciones periódicas (ver figura 5).
Figura 5:
Datos secundarios
Los métodos utilizados para recopilar datos secundarios son:
• Revisión de bibliografía
• Recopilación de datos
• Resúmenes
Fuentes Terciarios
Datos terciarios: son todos aquellos que han sido recopilados con anterioridad, para
fines iguales, similares o diferentes a los de la investigación o proyecto (ver figura
6).
El método utilizado para recopilar datos terciarios es:
• Búsqueda en Internet
Figura 6:
Datos terciarios
Importancia de la información
Una fuente solo es valiosa si aporta información útil y pertinente en vinculación con
lo que se esté investigando.
5
Una fuente de información es confiable cuando los datos se ajustan a estas variables:
• Los aporta un experto

• Los aporta una institución reconocida
• Se sabe:
• de qué lugar se aporta
• qué dice
• y por qué
Se debe chequear el valor de la información, y para eso debemos observar las

siguientes características:
• Actualidad: corroborar fecha de elaboración.

• Objetividad: la información no debe contener juicios de valor.
Data Warehouse
Un Data Warehouse (DW) es una arquitectura de almacenamiento especialmente

diseñada para respaldar datos extraídos de sistemas de transacciones, almacenes de
datos y fuentes externas, presentadas en forma estructurada o no estructurada. El
6
Data Warehouse, según necesidad de algún área de la organización, combina estos
datos en forma de resumen agregado para facilitar el análisis de los datos, y así
generar informes predefinidos por los interesados (stakeholders).
Es uno de los elementos más importantes de la implementación de Bussiness

Intelligence, BI, (Inteligencia de Negocio), pues se concentrará toda la información
con la estructura y el diseño pre concedido por los stakeholders (interesados o partes
interesadas), para poder explotar esta información.
Estas estructuras se componen por fragmentos derivados del DW conocidos como

Datamarts. Los datamarts tienen dos diseños de almacenamiento de la información,
los modelos estrella y los modelos snowflake. Estos modelos contribuirán, también,
a explotar la información para diferentes propósitos, por ejemplo, la generación de
reportes, análisis de información a través de cubos OLAP (Online Analytical
Processing; Procesamiento Analítico en Línea), tableros de control también conocidos
como dashboard, minería de datos, entre otro tipo de soluciones.
En la figura 7 se puede observar el rol del DW en la implementación de una solución

de BI. Del lado izquierdo de la figura 7, se tienen las fuentes de datos operacionales.
Estas se pueden formar de sistemas ERP (Enterprise Resource Planning), sistemas
CRM (Customer Relationship Management), archivos de texto plano, sistemas legacy,
etc. Las fuentes pueden ser diversas, y el único requisito que debe tener cada una
de ellas es que puedan ser extraídas.
La herramienta que ayudará a la extracción de los datos se llama ETL (Extract,

Transform and Load). La ETL nos permite:
• E: Extraer la información de distintas fuentes datos, estructurados o no

estructurados.
• T: Transformar la información. Transformar la información de las bases de
datos de origen a las características de un modelo estrella o snowflake.
• L: Luego carga los datos transformados en el DW.
Una vez preparada y almacenada la información en el DW, esta se puede utilizar para
los servicios que se observan a la derecha de la figura 7, por ejemplo, reportería,
visualización de datos (dashboard tableros de control), minería de datos, realizar
predicciones, entre otros servicios.
Figura 7:
Arquitectura General de un Data Warehouse

Funcionalidades del DW
La filosofía de diseño de los DW descansa en los siguientes fundamentos:
• Orientado a objetos: el DW está conceptualizado para atender distintas áreas

de la empresa.
• Integrado: unifica las distintas fuentes de información estructuradas o no
estructuradas, en una sola base de datos.
• No volátil: la información no varía una vez implementada la base de datos en
el DW.
• Variante en el tiempo: la data histórica se almacena, por lo que se genera un
historial de datos. Esto permite la trazabilidad de la información.
• Toma de decisiones: el objetivo del DW es asistir a las personas en la toma
de decisiones.
Estos fundamentos permiten que un DW pueda adaptarse a los cambios como sea
posible. La información en el mundo real es muy volátil, y el DW debe estar preparado
para recibir estos cambios.
El DW debe estar diseñado para cargar cantidades masivas de datos preferentemente

en un pequeño lapso de tiempo.
Estos sistemas están diseñados principalmente para el análisis de información, es 8

decir, a responder a las consultas realizadas por los stakeholders. Por lo tanto, no es
conveniente que convivan en el mismo entorno productivo que los sistemas
transaccionales de la organización como un ERP o punto de venta, ya que pueden
llegar a bajar el rendimiento del servidor al realizar consultas a grandes volúmenes
de datos o también correr el riesgo de no entregar la información de forma ágil, es
decir, en el momento que se necesita. En la figura 8 se puede observar una
arquitectura de DW que explica cómo separa el sistema transaccional del DW.
Figura 8:
Arquitectura de un Sistemas Transaccional en convivencia con una Arquitectura de Data

Warehouse
La naturaleza del DW debe ser multipropósito. Sus datos deben estar en un formato
que soporte cualquiera y todas las formas posibles de análisis.
9
¿Cuál es la diferencia entre un DW y una base de datos convencional?
Las bases de datos tradicionales, utilizadas por sistemas transaccionales con relación
a un DW, son polos opuestos en cuanto a sus requerimientos de operación y diseño.
Los sistemas transaccionales están diseñados para ejecutar transacciones de tipo

Alta, Baja, cambios y consultas de datos, tales como un cargo, un abono, una
devolución de inventario, el registro de un nuevo cliente, etc., mientras que un DW
está organizado con base en conceptos tales como clientes, productos, ventas,
tiempo, etc.
Existen también diferencias en el diseño. Mientras que las bases de datos

transaccionales son extremadamente normalizadas, un DW tiende a no estarlo,
organizando los datos en bodegas conceptuales conocidos como datamarts y su
modelo en estrella.
El desarrollo de DW es igual o incluso más importante que la tecnología seleccionada

para su explotación, ya que sin un buen modelo la organización puede enfrentar
problemas como tiempos prolongados de respuesta, información inconsistente,
problemas de visualización, entre otras cosas. Por lo tanto, antes de la tecnología se
sebe concebir el propósito y correcto diseño del DW, que garantizará el éxito de
cualquier implementación para la cual sea concebido el DW, por ejemplo, la

implementación de BI.
Ejercicio ACP en lenguaje R
Utilizando la base de datos entregada al inicio de la asignatura, realice un análisis

predictivo para la variable Abstracción, mediante el lenguaje de programación R.
Para esto debe instalar R desde:
https://cran.r-project.org/bin/windows/base/
La descarga de R es gratuita.
Descargue la versión gratuita de RStudio que le proporcionará una interfaz de

programación amigable. Para esto descargue RStudio desde:
https://www.rstudio.com/products/rstudio/download/
10
Recuerde que la base de datos contiene variables de entrada y salida provenientes

de un test aplicado a alumnos de Educación Parvularia.
Las variables de entrada provenientes del test son:
• Modalidad: diurno/vespertino
• Edad: de 20 a 49 según muestra
• Semestre: 3, 4, 5, 6, 7 y 8 del programa en cuestión
• Evaluación Pregunta 1
• Evaluación Pregunta 2
• Evaluación Rotular
• Evaluación Reducción de Contenido
• Evaluación Título
La variable de salida es:
• Abstracción:
• Abstracción Mala: 1<= Promedio valores de entrada <2
• Abstracción Satisfactoria: 2<= Promedio valores de entrada <3
• Abstracción Buena: 3<= Promedio valores de entrada <3,5
• Abstracción Óptima: 3,5<= Promedio valores de entrada <4
𝑋̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 (𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐸𝑛𝑡𝑟𝑎𝑑𝑎)
𝑁𝑜 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛, 1 ≤ 𝑋̅ < 2
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑆𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑡𝑜𝑟𝑖𝑎, 2 ≤ 𝑋̅ < 3
𝑋̅ =
𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 𝐵𝑢𝑒𝑛𝑎, 3 ≤ 𝑋̅ < 3,5
{ 𝐴𝑏𝑠𝑡𝑟𝑎𝑐𝑐𝑖ó𝑛 Ó𝑝𝑡𝑖𝑚𝑎, 3,5 ≤ 𝑋̅ ≤4
Construya su código fuentes a partir de los siguientes pasos:
Instalar todas las bibliotecas
library(readxl)
11
library(dplyr)
library(ggplot2)
library(ggcorrplot)
library(e1071)
library(ROCR)
library(class)
library(rpart)
library(randomForest)
library(reshape)
library(kknn)
Importar Base de Datos
Recuerde revisar bien la ruta de su archivo, pues este puede cambiar dependiendo
de la carpeta donde guarde la información. La ruta la puede recuperar haciendo clic
izquierdo en el archivo y revisando las propiedades del archivo. En el recuadro que
salga puede copiar la ruta y pegarla en el código fuente de su aplicación.
Cuando realice la copia, la ruta estará compuesta por este separador de carpeta: "\".
R no reconoce este separador, por lo que hay que cambiarlos todos por el siguiente
separador: "/". Ejemplo: "C:\Documentos\BBDD\nombre_archivo.xlsx" debe ser
cambiado a "C:/Documentos/BBDD/nombre_archivo.xlsx"
data <- read_excel("C:/Users/druete/Documents/David/DISEÑO

CURSOS/MINERIA DE DATOS/Unidad 3/BASE DE
DATOS/BBDD_EPA_NIVELES_ABSTRACCION_CLASS-Minaría_de_datos.xlsx")
Transformar variables categóricas a binarias

12
Si es 1 será Vespertina, 0 será diurno
data$Modalidad <- ifelse(data$Modalidad=="Vespertina",1,0)
Ver tipos de variables
str(data)
Transformar variable categóricas en factor
data$`Abstraccion final`<-factor(data$`Abstraccion final`)

Cambiar nombre de las variables con espacio
data = rename(data, c(`Pregunta1`="Pregunta1",

`Pregunta2`="Pregunta2",`Rotular`="Rotular",
`ReduccionContenido`="ReduccionContenido",
`Titulo`="Titulo",`PromedioPreguntas`="PromedioPreguntas"))
Separar los dos tipos de set de variables
abs<-select(data,2:9)
Análisis de Componentes Principales
Para poder hacer un análisis de componentes principales, se deben realizar los

siguientes pasos:
• Preparar el entorno de trabajo: cargar base de datos

• Realizar ajustes del modelo
13
• Realizar las descripciones del modelo
• Interpretar los resultados teóricamente.
Ajuste del modelo
Para ajustar el modelo lo primero que tenemos que hacer es una correlación. Esto no
es de utilidad para saber el comportamiento de las variables de la base de datos. Lo
ideal es que todas las variables estén correlacionadas. Esto significa que los valores
de correlación sean uno o estén cercanos a uno. Si son cercanas a cero, implica que
las variables no se influyen unas con otras.
Correlaciones
cor(abs)%>%round(2)
Normalización
La normalización de las variables significa quitar las escalas y dejar que todas sean
iguales. La función deja las escalas de 0 a 1 para todas las variables. Para realizar el
análisis de componentes principales siempre es requisito normalizar y, además, solo
se pueden considerar variables numéricas
norm01 <- function(x){(x-min(x))/(max(x)-min(x))}

abs_norm <- data.frame(apply(abs, 2, norm01))
apply(abs_norm, 2, min)%>%round(2)
apply(abs_norm, 2, mean)%>%round(2)
Descripciones del modelo
Análisis de Componentes Principales
Del análisis de componentes principales se obtiene un proceso llamado rotación,

donde se encuentra en el punto medio y se rotan los datos hacia el origen (ver figura
1).
Figura 9:
14
Proceso de Rotación
Lo importante de este procedimiento es que no se altera su comportamiento,

únicamente cambiamos el eje de coordenadas. Por otro lado, se obtienen las cargas
factoriales, que son los valores de coordenadas para encontrar un punto particular
de la base de datos (ver figura 2).
acp<-prcomp(abs_norm)
acp
Figura 10:
15
Cálculo cargas factoriales
Valores de los componentes
El análisis de componentes principales nos entrega la estimación de cada uno de los

datos para los componentes principales, en todos los registros de la base de datos.
Los componentes que arroja el cálculo deben ser igual al número de registros de la
base de datos. Y los valores se calculan midiendo la distancia del origen a cada uno
de los puntos (ver figura 3), y esa distancia es el valor de los componentes.
Figura 11:
Cálculo de la estimación de cada uno de los datos para los componentes principales
Lo que busca el modelo es captar la mayor variabilidad de los datos y hacer una
reducción de los mismos. Y para ello capta la varianza.
acp$x
16
Resultados e Interpretación
Gráfico de sedimentación (Varianza):
Para ver cuál es el resultado de cada una de las componentes se puede utilizar el
gráfico de sedimentación. El gráfico de sedimentación de la varianza nos entrega
como resultado el nivel de explicación que tiene cada componente respecto a la
varianza.
Cada componente puede explicar cierta cantidad de la varianza. Los componentes

que expliquen mejor la varianza se mantienen y los otros se descartan, reduciendo
así los datos.
screeplot(acp,type="lines")
Con los componentes principales elegidos (los primeros que mejor expliquen la
varianza) se vuelve a realizar una correlación con las variables originales.
cp<-data.frame(acp$x)
cp<-cp[,1:3]
Correlación: Constructos vs. Datos Originales
Las correlaciones nos dirán qué variables corresponden a un perfil o a otro perfil. Así
se podrán identificar los perfiles (dados por los componentes principales), y se podrá
establecer una hipótesis de por qué tienen este comportamiento.
cor(abs_norm, cp,use="everything", method=c("pearson"))
Bibliografía:
Foster P.& Fawcett, T. (2013). Data Science for Business: What you need to know
about data mining and data-analytic thinking,1 edition. O'Reilly Media.
17

Fuentes de Información

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fuentes de Información

Cargado por

Copyright:

Formatos disponibles

Fuentes de Información

Leal, D; Ruete D. (2021). Fuentes de

Las fuentes de información pueden clasificarse en Fuentes Primarias, Fuentes

1. Fuentes Primarias. Representan aquellas fuentes directas de donde procede

Fuentes de Información Primarias

2. Fuentes Secundarias. Son documentos derivados a partir de fuentes de

Fuentes de Información Secundarias

Los métodos utilizados para recopilar datos primarios son:

Datos secundarios: son documentos que reúnen nombres de revistas y otras

Los métodos utilizados para recopilar datos secundarios son:

El método utilizado para recopilar datos terciarios es:

• Los aporta un experto

Se debe chequear el valor de la información, y para eso debemos observar las

• Actualidad: corroborar fecha de elaboración.

Un Data Warehouse (DW) es una arquitectura de almacenamiento especialmente

Es uno de los elementos más importantes de la implementación de Bussiness

Estas estructuras se componen por fragmentos derivados del DW conocidos como

En la figura 7 se puede observar el rol del DW en la implementación de una solución

La herramienta que ayudará a la extracción de los datos se llama ETL (Extract,

• E: Extraer la información de distintas fuentes datos, estructurados o no

Arquitectura General de un Data Warehouse

La filosofía de diseño de los DW descansa en los siguientes fundamentos:

• Orientado a objetos: el DW está conceptualizado para atender distintas áreas

El DW debe estar diseñado para cargar cantidades masivas de datos preferentemente

Estos sistemas están diseñados principalmente para el análisis de información, es 8

Arquitectura de un Sistemas Transaccional en convivencia con una Arquitectura de Data

Los sistemas transaccionales están diseñados para ejecutar transacciones de tipo

Existen también diferencias en el diseño. Mientras que las bases de datos

El desarrollo de DW es igual o incluso más importante que la tecnología seleccionada

cualquier implementación para la cual sea concebido el DW, por ejemplo, la

Ejercicio ACP en lenguaje R

Utilizando la base de datos entregada al inicio de la asignatura, realice un análisis

Para esto debe instalar R desde:

Descargue la versión gratuita de RStudio que le proporcionará una interfaz de

Recuerde que la base de datos contiene variables de entrada y salida provenientes

Las variables de entrada provenientes del test son:

La variable de salida es:

𝑋̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 (𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐸𝑛𝑡𝑟𝑎𝑑𝑎)

Construya su código fuentes a partir de los siguientes pasos:

Instalar todas las bibliotecas

Importar Base de Datos

data <- read_excel("C:/Users/druete/Documents/David/DISEÑO

Transformar variables categóricas a binarias

data$Modalidad <- ifelse(data$Modalidad=="Vespertina",1,0)

Ver tipos de variables

Transformar variable categóricas en factor

data$`Abstraccion final`<-factor(data$`Abstraccion final`)

Cambiar nombre de las variables con espacio

data = rename(data, c(`Pregunta1`="Pregunta1",

Separar los dos tipos de set de variables

Análisis de Componentes Principales

Para poder hacer un análisis de componentes principales, se deben realizar los

• Preparar el entorno de trabajo: cargar base de datos

Ajuste del modelo

norm01 <- function(x){(x-min(x))/(max(x)-min(x))}

Descripciones del modelo

Análisis de Componentes Principales

Del análisis de componentes principales se obtiene un proceso llamado rotación,

Lo importante de este procedimiento es que no se altera su comportamiento,

Cálculo cargas factoriales

Valores de los componentes

El análisis de componentes principales nos entrega la estimación de cada uno de los

Gráfico de sedimentación (Varianza):