Está en la página 1de 40

FUNDAMENTOS DE LA

CIENCIA DE DATOS

Docente : José Luis Antonio Fuentes Morales


Estadístico
Diplomado en Bigdata
Máster en Gestión educacional

SEMANA 7
CONDICIONES FAVORABLES PARA LA CLASE

Mantén todos tus


sentdos actvos

Práctca la puntualidad

Mantén tus dispositvos


electrónicos en silencio

Respeta el turno de
partcipación
PRESENTACIÓN DE LA CLASE
Presentación del Módulo

Nombre : FUNDAMENTOS DE LA CIENCIA DE DATOS


Docente : JOSÉ LUIS ANTONIO FUENTES MORALES
Correo : jose.fuentes@correoaiep.cl

Unidad de Competencia

Al finalizar el módulo los participantes serán capaces de:

Analizar la ciencia de datos en función de su relevancia en la toma de decisiones dentro de una


organización.
Aprendizaje Esperado Semana 7:

Analizan implementación de un modelo de datos en función de la visualización de resultados, proceso


de retroalimentación y ajustes

Contenidos Semana 7

Implementación de un modelo de datos


 Objetivos

Visualización y herramientas de visualización. (Dashboard)


 Visualización
 Técnicas de visualización
 Tableros de visualización
 Etapas de la visualización

Herramientas de visualización
 Power BI
 Tableau
 Qlik
 Google Charts
 Retroalimentación
 Evaluación
MOMENTO PARA RECORDAR
Bienvenidos a la última semana del módulo Fundamentos de la Ciencia de Datos.
Realizada la captura de datos, su depuración y elegido el modelo de base de datos que se utilizará
para trabajar con ellos, dentro de un proyecto de ciencia de datos, corresponde ahora la etapa de
implementación.

Las consideraciones y aprehensiones de las etapas anteriores, permitirán que ésta sea exitosa y que
el análisis que se realice, tenga resultados relevantes que permitan a la organización tomar
decisiones óptimas.

Junto con la implementación, será necesario visualizar los resultados, que es la manera mas fácil de
ver comportamientos, tendencias y otras características importantes producto del estudio. Para ello
se verán distintas herramientas de visualización, cada una con sus características propias que las
hacen parte importante de la última etapa de un proyecto de ciencia de datos.
MOMENTO PARA CONOCER
1.- Implementación de un modelo de datos

La etapa de implementación y optimización consiste en realizar la carga de los datos y


posteriormente el ajuste de algunos parámetros relacionados con el modelo físico de la base de
datos para optimizar el rendimiento.

Entendiendo que todo el proceso previo de captura consideró la depuración y preparación de datos,
es importante tener en cuenta que dicho proceso fue realizado con la intención de encontrar el
mejor modelo para los datos que se disponen y los objetivos que se persiguen. Dicho
procedimiento se realizó utilizando diferentes técnicas estadísticas, pero siempre con el objetivo de
contar con datos útiles que permitieran que el modelo elegido, cumpliera con los objetivos de la
organización.

La etapa de implementación es complementaria a la de captura, aun sí se efectúan algunos


procedimientos aplicados anteriormente.
Independiente del tipo de modelo elegido, la implementación deberá considerar dos aspectos:
 Conversión y carga de datos:
Implica importar, traspasar y convertir los datos de la antigua base de datos a la nueva,
considerando todos los aspectos definidos en la etapa de modelamiento.

 Pruebas:
El cambio o migración a la nueva estructura puede provocar conflictos o problemas producto de
este traspaso. Es importante corregir estos errores con el fin de que todos los datos cumplan con
las orientaciones o especificaciones de la nueva base de datos.
1.1.- Objetivos
A partir de las consideraciones anteriores, se puede resumir el objetivo de la implementación en
dos aspectos:

Optimización de consultas:

El objetivo de la optimización de consultas es crear las estructuras físicas necesarias para


mejorar el tiempo de respuesta de una base de datos. Normalmente, la optimización de consultas
se realiza mediante la creación de índices, que son estructuras que permiten mantener un listado
ordenado de acuerdo con uno o más campos de la base de datos. Los índices permiten reducir el
tiempo de consulta cuando se filtra información de acuerdo con los campos indexados. Un
ejemplo muy común de índices que se encuentran en los libros es el índice por capítulos, que a
partir del número y el título del capítulo permite acceder rápidamente a su contenido.
Determinar la administración de seguridad:

Se debe tener en cuenta las técnicas que se emplean para proteger la base de datos de los
accesos no autorizados y los mecanismos para asignar y revocar privilegios a los diferentes
usuarios. De estas y otras acciones se encarga el componente de seguridad. En la actualidad
dado que una gran cantidad de ordenadores y otros tipos de dispositivos están interconectados,
es necesario restringir el acceso a las bases y sistema evitando así, posibles alteraciones o
pérdida de información.

Una forma de controlar el acceso, es gestionar clave de seguridad, esto, considerando que la
información que maneja cada organización es su activo y muy sensible.
2.- Visualización y herramientas de visualización. (Dashborad)

2.1.- Visualización
La visualización de datos es la representación gráfica de información y datos. Al utilizar
elementos visuales como cuadros, gráficos y mapas, las herramientas de visualización de datos
proporcionan una manera accesible de ver y comprender tendencias, valores atípicos y patrones
en los datos.

Habitualmente se tiende a creer que la visualización de datos solo se hace al final de un proceso
de ciencia de datos debido a que es en esta etapa donde se verán los resultados producto del
estudio; sin embargo, esto no es correcto. Debemos recordar que en la etapa de captura ya se
hicieron visualizaciones previas con la intención de poder apreciar el comportamiento de los
datos.
2.2.- Técnicas de visualización

Es importante considerar que la elección de la técnica correcta para visualizar o representar un


resultado dependerá del tipo de datos y las relaciones que con ellos se pretenda realizar.
Según si los datos son discretos o continuos:

Este tipo de visualización se refiere a si la información que se quiere mostrar la corresponde a


valores numéricos. Dentro de la clasificación de este tipo de valores tenemos:

Valores discretos: Son aquellos valores que representan números enteros, es decir, no existen
valores intermedios entre uno y otro. Ejemplo: número de hijos, número de casas, número de
habitantes, etc.
Valores continuos: Son aquellos que representan valores decimales o intervalos. Ejemplo:
estatura en metros.
Visualizaciones multidimensionales:

Este tipo de visualización permite mostrar gráficamente la interacción entre dos o más variables
o características. Si consideramos que las bases de datos están organizadas en tablas, se puede
decir que se están visualizando dos o más columnas a la vez permitiendo la comparación
inmediata entre ellas.

Visualizaciones especializadas o jerárquicas:

A diferencia de las visualizaciones multidimensionales, ésta se realiza representando o


resaltando un orden jerárquico que es importante mostrar. Ejemplo: un árbol genealógico.
2.3.- Tablero de visualización

Un tablero de visualización es un collage de imágenes, textos o íconos que presentan


información respecto de una acción que es importante de destacar y compartir para el análisis.
Puede ser diseñado de manera interactiva entregando la opción de que éste se vaya
modificando a medida que los datos que lo han creado son modificados.
2.4.- Etapas de la visualización

Como todo proceso, la visualización tiene también un protocolo o pasos a seguir. Estos son:
Elegir técnica de visualización:

Es necesario determinar qué tipo de visualización es más adecuada a partir de los objetivos
propuestos en el proyecto. Por ejemplo, si se quiere visualizar las tendencias de las ventas
durante un lapso de tiempo, lo ideal es que la técnica sea el uso de un gráfico de líneas. Si se
quiere ver el consumo respecto a un periodo particular, quizás sea preferible el uso de
correlación.
Analizar visualización:

Cuando se construye una visualización sobre un grupo de datos, es posible que queden al
descubierto diversos patrones que a primera vista no eran perceptibles. Un gráfico puede
mostrar una alta correlación entre dos columnas de la base de datos, en circunstancias de que
dichas columnas no habían sido analizadas antes en conjunto. Estos hallazgos permiten
responder las preguntas de negocios, corregir las hipótesis erróneas y volver a plantearlas para
una nueva iteración en el proyecto. Ejemplo: en base a los descubrimientos, es posible generar
planes de acción para la organización tales como: reordenar la distribución de los productos en
una tienda, dejar de fabricar ciertos productos, añadir otros servicios.
Presentar visualización y resultados:

Es importante conocer a los usuarios a los que se les va a mostrar la visualización (y sus
resultados), ya que, dependiendo del conocimiento que ellos tengan sobre analítica, es el nivel
de tecnicismo que la presentación puede admitir. En este sentido, las visualizaciones que para
un científico de datos son simples de comprender, pueden no serlo para quién toma las
decisiones en la organización. Es por esto, que no todas las visualizaciones pueden ser
expuestas debido a su complejidad y exigencia técnica. Ejemplo: un árbol de decisión, el cual
puede tener múltiples caminos y condiciones para determinar sus niveles, sin embargo, al
momento de mostrar los resultados, es conveniente resaltar solo aquellos que tienen mayor
incidencia en el negocio.
A continuación, se presentan algunos tipos de gráficas utilizados en visualización:
2.5.- Herramientas de visualización

En la actualidad, existe variedad de software para la visualización de datos, desde soluciones


completas con ambientes interactivos para generar reportes, hasta librerías que requieren un
gran conocimiento de programación para su uso adecuado.

A continuación, se describen algunas de estas herramientas:


2.5.1.- PowerBI

Power BI es una herramienta de inteligencia empresarial, desarrollada por Microsoft, basada en


la nube que reúne todas sus fuentes de datos no relacionadas en un sistema de informes
coherente e interactivo. Es fácil de usar, ayudando a crear y colaborar en informes y paneles de
inteligencia de negocios que se actualizan continuamente a través de las capacidades de
transmisión de datos.
Power BI posee un producto principal (Power BI Desktop) que incluye funcionalidades para
conectarse a distintas fuentes de información, limpiar datos, transformar datos, crear
visualizaciones y explorar los resultados.
Power BI Desktop es un módulo de Power BI gratuito y ofrece las funcionalidades para
conectarse a diversas fuentes de datos, limpiar datos, realizar transformaciones de ellos, aplicar
algoritmos de machine learning (mediante algunas librerías descargables) y generar
visualizaciones interactivas. Está diseñado para que lo utilice un usuario en su computador de
escritorio, sin interacción con otros usuarios o analistas. La figura muestra una captura de
pantalla de la interfaz de Power BI Desktop. Se pueden aumentar sus funcionalidades en la
medida que las empresas que lo utilizan se suscriban a un plan de Power BI.
Power BI Mobile aplicación móvil disponible para Windows, iOS y Android para visualizar
informes y que se actualiza automáticamente con los cambios de los datos.
2.5.2.- Tableau

Tableau es una plataforma de análisis integral eficaz, segura y flexible para nuestros datos. Fue
diseñado para el individuo, pero se adapta a toda la empresa. Es la única plataforma de
inteligencia de negocios que transforma datos para motivar acciones a partir de la información.

Tableau ofrece varios productos enfocados en la analítica. Posee módulos para la preparación de
los datos (Tableau Prep), visualización y creación de tableros de control (Tableau Desktop) y
soluciones para el trabajo colaborativo a través de la web (Tableau Server y Tableau Online). Su
funcionalidad principal y, en la que resulta más competitivo, es la visualización interactiva de los
datos.
Tableau Desktop es el producto principal de Tableau. Posee una interfaz gráfica orientada al
análisis y exploración de los datos, permitiendo arrastrar y soltar columnas, aplicar filtros y, en
general, entregarle la libertad al usuario para que este responda sus preguntas de negocios
interactivamente. La figura muestra una captura de pantalla de Tableau Desktop.
Tableau Prep es un módulo de Tableau que facilita el trabajo con diversas fuentes de
información, como bases de datos relacionales, plataformas de contabilidad y finanzas, Hadoop
y otros sistemas de Big Data, etc. Sus funciones principales son seleccionar, limpiar, preparar y
transformar los datos. Posee una interfaz gráfica para diagramar las operaciones que se realizan
con la información, además de que permite consultar, en todo momento, el estado de una fuente
de datos (analizar algunas filas, modificar un dato directamente, etc.)
2.5.3.- Qlik

Qlik es la plataforma que permite extraer el valor oculto detrás de los datos que se generan en
la empresa. Dentro de sus áreas de utilidad están finanzas, recursos humanos, marketing o
ventas, y cualquier otra en donde se generan datos, permitiendo su uso sin importar su origen
o ubicación.

Qlik entre permite democratizar los datos, es decir, recopilar, procesar y extraer el valor de los
datos de una compañía para que estos datos sean accesibles por todo el personal de una
empresa.

Una de las cualidades de Qlik es que logra tomarse de la inteligencia artificial para lograr una
mejor oferta al trabajar con inteligencia aumentada. Esto lo consigue a través de la indexación
asociativa que generan automáticamente conocimientos sobre los datos para que puedan ser
explorados por los usuarios, lo que también recibe el nombre de alfabetización de los datos.
Dicho en otras palabras, Qlik ayuda a leer y entender mejor los datos.
Dentro de los productos que ofrece, está Qlik Sense, el cual es un prestigioso software de
inteligencia empresarial que ayuda a las empresas globales a actuar más rápido, trabajar de
manera más inteligente y ofrecer a todos analíticas modernas. Combina, carga, visualiza y
explora datos con facilidad independientemente de su tamaño. Crea y comparte paneles de
control potentes e interactivos en un entorno manejable. Ofrece un rendimiento y escalabilidad
inigualables en SaaS empresarial, en la nube de elección del cliente o como implementación
local. Acelera el camino hacia el valor comercial con una completa plataforma de BI.

Observación:

SaaS: (Software as a Service) (sofware como servicio) es un servicio de software en la nube, a


través del cual se pueden utilizar aplicaciones sin necesidad de instalarlas en el computador o
dispositivo utilizado. Estos programas se ejecutan en un servidor remoto y los usuarios acceden
a ellos desde sus propios equipos a través de internet, a cambio del pago de una cuota que
suele ser mensual.
2.5.4.- Google Charts

Google Charts es la aplicación de gráficos de Google. Una herramienta que permite a


desarrolladores de aplicaciones web crear gráficos a partir de los datos escogidos e incrustarlos
en las páginas web. La aplicación además ofrece una gran variedad de diseños de gráficos a
escoger.
Cuenta con la funcionalidad básica de presentar tablas personalizadas, así como mostrar datos
bajo diferentes diseños aglutinados en gráficos de barras, gráficos de cajas, gráficos
compuestos, iconos dinámicos, gráficos de línea, mapas, diagramas circulares, etc.
3.- Retroalimentación y ajuste de un modelo de ciencia de datos

El concepto de retroalimentación corresponde a la forma en que los resultados obtenidos


producto de una actividad o tarea ejecutada, son analizados de manera que éstos sean
dimensionados de acuerdo al impacto que tuvieron en el proceso.
En el caso de un modelo de ciencia de datos, la retroalimentación se hará sobre el rendimiento
del modelo y su impacto en el entorno que ha sido implementado. Por ejemplo: si una
característica fue medida en porcentaje, como podría ser el crecimiento de las ventas, se deberá
determinar si el parámetro elegido es el mejor para medir el resultado.

La retroalimentación, en cualquier modelo de negocios, es un control de calidad de las tareas


desarrolladas y en el caso particular de la evaluación del modelo, el control de calidad de su
funcionamiento óptimo en la entrega de los resultados que permitan a ésta, la toma de
decisiones.
Dependiendo de los objetivos que llevaron al proceso de modelado e implementación, suele
suceder que el modelo usado para la creación de la base de datos, sea implementado, aplicado y
“guardado”, no considerando que con el tiempo los resultados que éste proporciono, no
necesariamente serán los mismos ante la eventualidad de nuevas capturas.
Es por lo anteriormente descrito que, en ocasiones, al modelo que en un principio fue diseñado,
deberán realizarse ciertas modificaciones o ajustes que cumplan con los nuevos criterios.
MOMENTO PARA RETROALIMENTAR
Conversación de cierre. Repaso de los contenidos.

En caso de dudas, hágalas saber para ser aclaradas

RESOLVER TALLER DE EVALUACIÓN


SEMANA 7
MUCHAS GRACIAS

También podría gustarte