Está en la página 1de 72

“Ciencia y Tecnología al Servicio del País”

23/04/2024 Dra. Lupe Pizan Toscano/73 1


FIEE

Curso: Aprendizaje de Maquina y Minería de Datos


CIB12
Docente: Dra. Ing. Lupe Pizán Toscano

23/04/2024 Dra. Lupe Pizan Toscano/73 2


CAPITULO 03: DATA SCIENCE.
Visualización de los Datos

23/04/2024 Dra. Lupe Pizan Toscano/73 3


Objetivos

El objetivo es obtener la mayor cantidad de


información valiosa de un conjunto de datos:
Traduciendo eficiente y eficazmente la información en
conocimiento para la toma de decisiones.

23/04/2024 Dra. Lupe Pizan Toscano/73 4


Metodología
➢Con la finalidad de obtener la Mayor Cantidad de
información valiosa de un conjunto de datos es necesario
acceder a los datos más valiosos de la forma más rápida
ordenada y clara posible.
➢Las diferentes técnicas de visualización de grandes
volúmenes de datos nos facilitan el trabajo y para este fin se
utilizara Python en conjunto con la librería 'matplotlib'.

23/04/2024 Dra. Lupe Pizan Toscano/73 5


VISUALIZACION DE DATOS
La visualización de datos permite presentar la
información abstracta de una manera gráfica que
permita observar Grandes Conjuntos de Datos, de una
manera sencilla y atractiva lo cual Facilita la 'Toma de
Decisiones' o la 'Identificación de Posibles Patrones'
dentro de los Datos.

23/04/2024 Dra. Lupe Pizan Toscano/73 6


Temario
➢Se presentaran diferentes formas de representar un conjunto grande
de datos.
➢Se va utilizar "matplotlib" en conjunto con 'Python’ para generar
Gráficas de Línea, Gráficas de Dispersión, Gráficas de Cajas,
Histogramas y Mapas de Calor.
➢La Correcta visualización de los Datos, permite que se realice una
'Abstracción de la Información' más valiosa, de una forma rápida e
intuitiva, sin la necesidad de tener que Analizar Rigurosamente los
Datos.
➢También, se analizara la data de forma que permita escoger la
visualización más adecuada para diferentes situaciones
23/04/2024 Dra. Lupe Pizan Toscano/73 7
Importancia de las gráficas
➢¿Qué ventajas obtengo de visualizar correctamente los
datos de mi proceso?:
➢Mejorar el Proceso de Toma de Decisiones, Reducir el Tiempo y el
Costo que se utiliza para Analizar la Información, Identificar el
Comportamiento de los Datos y su Tendencia, Predecir el
Comportamiento Futuro de los Procesos, entre Otros.

23/04/2024 Dra. Lupe Pizan Toscano/73 8


Importancia de las gráficas
➢Para Procesos Estructurados como:
➢Ventas, Encuestas con Respuestas Numéricas o Procesos que Manejan Variables
Cuantitativas, los Gráficos Tradicionales como 'Las Gráficas de Barras', 'Las
Gráficas de Pastel, 'Los Histogramas', suelen ser un medio eficaz.

➢Desafortunadamente el crear un gráfico simple, no siempre es


suficiente para poder representar correctamente toda la
información: debido a que nuestra información puede tener un tamaño enorme o
que es posible que existan múltiples relaciones entre las variables o que los datos con
los que se trabajan no están estructurados en esas situaciones.
23/04/2024 Dra. Lupe Pizan Toscano/73 9
Importancia de las gráficas

➢Es necesario utilizar otro tipo de gráficos como:


➢ Mapas de Calor,
➢Diagramas de Dispersión,
➢Gráficas de Relación, entre otros.

23/04/2024 Dra. Lupe Pizan Toscano/73 10


Importancia de las gráficas
➢Los 5 Principios Fundamentales para la correcta
presentación de los datos son:
➢1) Simplificar los Datos y presentar solamente la información y
variables adecuadas.
➢2) Intentar Resumir toda la Información en pocas imágenes con la
finalidad de poder comprender fácilmente los datos y evitar
errores,
➢3) Elegir la mejor manera de ¿Cómo puede representar la
información para captar mejor la atención de los interesados?

23/04/2024 Dra. Lupe Pizan Toscano/73 11


Importancia de las gráficas

➢Los 5 Principios Fundamentales para la correcta presentación de


los datos son:
➢4) Presentar los mismos datos utilizando diversas representaciones con
el fin de ayudar a los investigadores a generar nuevas conclusiones.

23/04/2024 Dra. Lupe Pizan Toscano/73 12


Importancia de las gráficas
➢Los 5 Principios Fundamentales para la correcta
presentación de los datos son:
➢5) La representación de los datos seleccionados debe ser siempre
simple y debe tener una fácil interpretación.
➢Los datos que se involucran en los problemas actuales no
solamente han crecido en tamaño y en complejidad sino que
suelen adquirir información de múltiples fuentes (internet,
sistemas computacionales,etc) lo que trae nuevas dificultades a la
hora de estar analizando.

23/04/2024 Dra. Lupe Pizan Toscano/73 13


Visualización de los Datos-01

➢Introducción
➢ Gráficas de Línea

23/04/2024 Dra. Lupe Pizan Toscano/73 14


GRAFICAS DE LINEA
➢El gráfico lineal (gráfico de líneas o diagrama lineal) se compone de
una serie de datos representados por puntos, unidos por segmentos
lineales. Mediante este gráfico se puede comprobar rápidamente el
cambio de tendencia de los datos.

➢El diagrama lineal se suele utilizar con variables cuantitativas, para


ver su comportamiento en el transcurso del tiempo. Por ejemplo, en
las series temporales mensuales, anuales, trimestrales, etc.

23/04/2024 Dra. Lupe Pizan Toscano/73 15


Introducción – Series de Tiempo y visualización

23/04/2024 Dra. Lupe Pizan Toscano/73 16


DEFINICION BÁSICA DE SERIE DE TIEMPO

“Una serie de tiempo es una colección o conjunto de


mediciones de cierto fenómeno o experimento
registrados secuencialmente en el tiempo, en forma
equiespaciada (a intevalos de tiempo iguales)”.

23/04/2024 Dra. Lupe Pizan Toscano/73 17


DEFINICION BÁSICA DE SERIE DE TIEMPO

➢Las observaciones de una serie de tiempo serán


denotadas por

➢Y(t1), Y(t2) ,... , Y(tn)

➢donde Y(ti) es el valor tomado por el proceso en el


➢instante ti.

23/04/2024 Dra. Lupe Pizan Toscano/73 18


EJEMPLOS DE SERIE DE TIEMPO

1.Economía: Precios de un articulo, tasas de desempleo, tasa


de inflación, índice de precios, precio del dólar, precio del
cobre, precios de acciones, ingreso nacional bruto, etc.

2. Meteorología: Cantidad de agua caída, temperatura


máxima diaria, Velocidad del viento (energía eólica), energía
solar, etc.

3. Geofísica: Series sismológicas.

23/04/2024 Dra. Lupe Pizan Toscano/73 19


EJEMPLOS DE SERIE DE TIEMPO

➢4.Química: Viscosidad de un proceso, temperatura de un proceso.


➢5. Demografía: Tasas de natalidad, tasas de mortalidad.
➢6. Medicina: Electrocardiograma, electroencéfalograma.
➢7. Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.
➢8. Telecomunicaciones: Análisis de señales.
➢9. Transporte: Series de tráfico.
➢...etc.

23/04/2024 Dra. Lupe Pizan Toscano/73 20


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

Por muy simple que parezca, el paso más importante en


el análisis de series de tiempo consiste en graficar la
serie.

23/04/2024 Dra. Lupe Pizan Toscano/73 21


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

Por muy simple que parezca, el paso más importante en


el análisis de series de tiempo consiste en graficar la
serie.

23/04/2024 Dra. Lupe Pizan Toscano/73 22


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

Esto debe hacerse siempre, independiente de cuán simples


o complejos sean los procedimientos que se emplean
posteriormente.
23/04/2024 Dra. Lupe Pizan Toscano/73 23
ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

➢El gráfico de la serie permitirá detectar los siguientes


elementos:

➢a) Outliers: Se refiere a puntos de la serie que se


escapan de lo normal.

➢Si se sospecha que una observación es un outliers, se


debe reunir información adicional sobre posibles factores
que afectaron el proceso.
23/04/2024 Dra. Lupe Pizan Toscano/73 24
ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
• Por ejemplo, en un estudio de la producción diaria de cobre se presentó la
siguiente situación:
• Outliers

23/04/2024 Dra. Lupe Pizan Toscano/73 25


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
b) Tendencias

➢La tendencia representa el comportamiento


predominante de la serie.
➢Esta puede ser definida vagamente como el cambio de
la media a lo largo de un extenso período de tiempo.

23/04/2024 Dra. Lupe Pizan Toscano/73 26


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
b) Tendencias

23/04/2024 Dra. Lupe Pizan Toscano/73 27


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
b) Tendencias

23/04/2024 Dra. Lupe Pizan Toscano/73 28


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

c) Variaciones cíclicas o estacionales

➢ La variación estacional representa un movimiento periódico de la serie de tiempo.

➢ La duración del período puede ser un año, un trimestre, un mes, un día, etc.

23/04/2024 Dra. Lupe Pizan Toscano/73 29


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

c) Variaciones cíclicas o estacionales

23/04/2024 Dra. Lupe Pizan Toscano/73 30


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

c) Se suele hacer una distinción entre componentes cíclicas y estacionarias.

➢ Estas últimas ocurren con períodos identificables, como la estacionalidad del


empleo, o de la venta de ciertos productos, cuyo período es un año.

➢ El término variación cíclica se suele referir a ciclos grandes, cuyo período no es


atribuible a alguna causa.

➢ Por ejemplo, fenómenos climáticos, que tienen ciclos que duran varios años.

23/04/2024 Dra. Lupe Pizan Toscano/73 31


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Las tendencias y estacionalidades pueden darse
simultáneamente.

23/04/2024 Dra. Lupe Pizan Toscano/73 32


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO

d) Variaciones aleatorias.
Los movimientos irregulares (al azar) representan todos
los tipos de movimientos de una serie de tiempo que no
sea tendencia, variaciones estacionales y fluctuaciones
cíclicas.

23/04/2024 Dra. Lupe Pizan Toscano/73 33


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Ejercicios:
Para cada una de las series graficadas a continuación realizar al análisis
gráfico.

Serie A Serie B

23/04/2024 Dra. Lupe Pizan Toscano/73 34


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Ejercicios:
Para cada una de las series graficadas a continuación realizar al análisis
gráfico.

Serie A Serie B

23/04/2024 Dra. Lupe Pizan Toscano/73 35


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Construya la grafica y la tabla de familiarización para la siguiente
serie:

➢Planificación de un casino

➢ Objetivos: Planificación de compra de alimentos y necesidades de


servicio para satisfacer la demanda de almuerzo en un gran
casino.

23/04/2024 Dra. Lupe Pizan Toscano/73 36


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Serie: Número de almuerzos servidos por mes en un
restaurante Universitario para el período de enero
1997 a marzo de 2000, de acuerdo a la
administración general del restaurante.

23/04/2024 Dra. Lupe Pizan Toscano/73 37


ANALISIS GRAFICO DE UNA SERIE DE TIEMPO
Serie: Número de almuerzos servidos por mes en un restaurante
Universitario para el período de enero 1997 a marzo de 2000, de
acuerdo a la administración general del restaurante.
t Y(t) t Y(t) t Y(t)
1 20636 14 28183 27 63167
2 18708 15 56632 28 42520
3 62944 16 56641 29 50572
4 50272 17 56555 30 53875
5 69375 18 57185 31 27233
6 50056 19 33906 32 57942
7 20604 20 67261 33 47610
8 54947 21 52232 34 61738
9 50576 22 58232 35 51168
10 50425 23 45726 36 26370
11 44202 24 24550 37 42964
12 27604 25 30954 38 42748
13 28791 26 34295 39 62390

23/04/2024 Dra. Lupe Pizan Toscano/73 38


➢En el eje horizontal (eje de abscisas) se colocan los períodos de tiempo (meses, años,
trimestres,…)
➢En el eje vertical (eje de coordenadas) se colocan las frecuencias absolutas o relativas.
➢Se señalan los puntos. A cada período de tiempo le corresponde un punto en el valor
de su frecuencia.
➢Se unen mediante segmentos lineales los puntos consecutivos.
23/04/2024 Dra. Lupe Pizan Toscano/73 39
GRAFICAS DE LINEA

➢Se quiere comparar la deuda pública en el año 2012 de


ocho países: España, México, Ecuador, Guatemala, Estados
Unidos, Colombia, Perú y Argentina.
➢Para ello, se obtienen los datos de la deuda pública de los
países y se divide por el PIB (Producto Interior Bruto) de
cada uno de ellos. Los porcentajes de deuda respecto PIB
son los siguientes:

23/04/2024 Dra. Lupe Pizan Toscano/73 40


GRAFICAS DE LINEA

23/04/2024 Dra. Lupe Pizan Toscano/73 41


23/04/2024 Dra. Lupe Pizan Toscano/73 42
23/04/2024 Dra. Lupe Pizan Toscano/73 43
GRÁFICAS DE LINEA

23/04/2024 Dra. Lupe Pizan Toscano/73 44


23/04/2024 Dra. Lupe Pizan Toscano/73 45
cemex.index = pd.to_datetime(cemex.index)
bimbo.index = pd.to_datetime(bimbo.index)
cemex.head()
➢Este datetime, graba el valor con el que inicia la tabla de
CEMEX para tener el intervalo inicial.
➢Lo mismo para BIMBO

23/04/2024 Dra. Lupe Pizan Toscano/73 46


Graficando
➢Matplotlib
import matplotlib.pyplot as plt
➢%matplotlib inline
➢Hay algunas versiones de Python en las que no es necesario. Lo usaremos.
➢Matplotlib: Grafica el Data Frame CEMEX. Sólo graficar los valores de
Cierre.
➢Se puede graficar cualquier columna simplemente escribiendo su título.
➢plt.plot(cemex['Close'])

23/04/2024 Dra. Lupe Pizan Toscano/73 47


23/04/2024 Dra. Lupe Pizan Toscano/73 48
23/04/2024 Dra. Lupe Pizan Toscano/73 49
Graficando
➢Esta instrucción plot contiene parámetros diferentes.
➢plt.plot(cemex['Close'],'b-’, linewidth=1)
➢Estilo de Línea: separado de una coma
➢'Marker' o 'Marcador’
➢Podemos cambiar ( - ) por el signo de más ( + ) y la gráfica se muestra
compuesta por ( + ).
➢Si se usa el asterisco ( * ) la gráfica se muestra compuesta por ( * )
➢'linewidth' es el ancho de la línea. Se puede poner y se tiene una línea
muchísimo más gruesa o de 4.
➢Se puede buscar en línea información de los parámetros:
➢'matplotlib plot' y busquen los parámetros en cuestión.

23/04/2024 Dra. Lupe Pizan Toscano/73 50


23/04/2024 Dra. Lupe Pizan Toscano/73 51
23/04/2024 Dra. Lupe Pizan Toscano/73 52
23/04/2024 Dra. Lupe Pizan Toscano/73 53
23/04/2024 Dra. Lupe Pizan Toscano/73 54
Graficando
plt.plot(cemex['Close'] ,'g-',alpha = 1.0, label='a:1.0')
plt.plot(cemex['Close'] * 2 ,'g-',alpha = 0.5, label='a:0.5')
plt.plot(cemex['Close'] *1/2 ,'g-',alpha = 0.1, label='a:0.1')
# plt.legend()
➢'g' a diferencia del anterior que era Azul por eso la letra 'b’ de 'Blue' y 'g' de
'Green' de Verde.
➢Parámetro ‘alfa’.
➢Parámetro, etiqueta “label”.
➢Aparecen 3 gráficas. Si se ejecuta en una sola celda, matplotlib, todas las
va a colocar dentro de la misma gráfica. Va mostrar las 3 gráficas.

23/04/2024 Dra. Lupe Pizan Toscano/73 55


Graficando
plt.plot(cemex['Close'] ,'g-',alpha = 1.0, label='a:1.0')
plt.plot(cemex['Close'] * 2 ,'g-',alpha = 0.5, label='a:0.5')
plt.plot(cemex['Close'] *1/2 ,'g-',alpha = 0.1, label='a:0.1')
# plt.legend()
➢Close en Verde, con líneas, con el parámetro alfa de color 1 y con la
etiqueta de 1. Verde y 100% del color.
➢En el segundo elemento tenemos el doble del valor de clausura. Los
valores de close originales los va a multiplicar por 2. Verde con el símbolo
de línea, 50% del color. Etiqueta de a '0.5’.
➢En el tercer elemento va multiplicar los valores originales de close por 0.5.
Verde, línea y tiene un alfa de color 0.1, el 10 por ciento de la intensidad
del color, etiqueta de 0.1

23/04/2024 Dra. Lupe Pizan Toscano/73 56


23/04/2024 Dra. Lupe Pizan Toscano/73 57
23/04/2024 Dra. Lupe Pizan Toscano/73 58
Graficando

➢Se Ahora vamos a graficar en la misma gráfica el 'Valor Mínimo' y el 'Valor


Máximo’.
➢La Gráfica en Azul Low, en Naranja High.
➢Los datos se parecen mucho, entonces se Auto-Escalan en un eje de 8 y
de 14.

23/04/2024 Dra. Lupe Pizan Toscano/73 59


23/04/2024 Dra. Lupe Pizan Toscano/73 60
Graficando
➢Agregamos a la misma gráfica un valor muy alejado
➢el Valor Máximo de 'BIMBO' en la siguiente celda.
➢Nuestra siguiente celda va a graficar el Mínimo de 'CEMEX' el
Máximo de 'CEMEX' y el Máximo de 'BIMBO’.

23/04/2024 Dra. Lupe Pizan Toscano/73 61


23/04/2024 Dra. Lupe Pizan Toscano/73 62
Graficando
• La gráfica tiene 3 líneas: La 'Naranja' para el Alto de 'CEMEX', La Azul
para el Bajo de 'CEMEX' y el Verde para El Alto de 'BIMBO.
• La escala creció tanto que es muy difícil distinguir los valores de
CEMEX.
• Se podría solucionar generando una grafica para BIMBO y otra para
CEMEX.
• Python lo puede hacer de la siguiente manera.

23/04/2024 Dra. Lupe Pizan Toscano/73 63


Graficando
➢Decimos “utilizando el 'PLT' de matplot” hacer una figura.
➢Además le digo que esa figura va a tener 2 Sub-gráficas
➢La Primera Sub-gráfica 'CEMEX' Baja y 'CEMEX' en Alta.
➢La Segunda Sub-gráfica va tener a 'BIMBO' Baja y a 'BIMBO' en Alta.
➢Entonces cada par de valores va tener su propia gráfica dentro de una
imagen compartida.

23/04/2024 Dra. Lupe Pizan Toscano/73 64


23/04/2024 Dra. Lupe Pizan Toscano/73 65
Graficando
➢No se distingue cual es CEMEX y cuál es de BIMBO.
➢Se va incluir 'plt.title CEMEX', 'plt.title BIMBO’
➢Se dice la Sub-gráfica de arriba dar el Título de CEMEX
➢La Sub-gráfica de abajo dar el título de BIMBO.
➢Aparece CEMEX y BIMBO como subtítulos.
➢El método tight_layout() mantiene automáticamente el espacio correcto
entre las subtramas. Si no usamos tight_layout(), una fila se superpondrá
con el título de la siguiente

23/04/2024 Dra. Lupe Pizan Toscano/73 66


23/04/2024 Dra. Lupe Pizan Toscano/73 67
23/04/2024 Dra. Lupe Pizan Toscano/73 68
23/04/2024 Dra. Lupe Pizan Toscano/73 69
23/04/2024 Dra. Lupe Pizan Toscano/73 70
23/04/2024 Dra. Lupe Pizan Toscano/73 71
¡MUCHAS GRACIAS!

23/04/2024 Dra. Lupe Pizan Toscano/73 72

También podría gustarte