Está en la página 1de 24

NIVEL 4

N4

CONCEPTOS BÁSICOS
Rango de Y Título
Etiqueta
de Y

Tipo de
Gráfico
y
Fuentes de
Datos

Esquema de Rango de X
colores y fuentes Etiqueta de X
N4

HISTOGRAMA
¿Cuántas veces aparece cada valor en el conjunto de datos?

promedio es una
Serie con los
promedios de
votación
(calificación
promedio) de
cada película
figsize indica el
ancho y alto de la
promedio = valores[‘vote_average’] figura
promedio.plot(kind="hist", figsize=(10,4))

El parámetro kind indica el tipo de gráfica


N4

HISTOGRAMA

Usar una función


con tipo del
diagrama en
lugar de usar plot promedio.plot.hist(figsize=(10,4))
con el parámetro
kind

promedio=valores[‘vote_average’]
promedio.plot(kind="hist", figsize=(10,4))
N4

HISTOGRAMA

promedio.plot(kind="hist", figsize=(10,4),
xlim=(0,10), bins=10)
El parámetro xlim El parámetro bins indica
indica el rango para x la cantidad de grupos
N4

HISTOGRAMA

promedio.plot(kind="hist", figsize=(10,4),
El parámetro xlim=(0,10), ylim=(0, 15000), bins=10,
title especifica el
título del gráfico title=“Promedio de votación")

El parámetro ylim indica el rango para Y


N4

HISTOGRAMA

Usar estilos
predefinidos de
Matplotlib. matplotlib.style.use('seaborn-colorblind’)
También pueden
promedio.plot(kind="hist", figsize=(10,4),
definirse estilos
propios xlim=(0,10), ylim=(0, 15000), bins=10,
title=“Promedio votación")
N4

HISTOGRAMA

ax es un
AxesSubplot y es el
resultado de todos
los llamados a plot

ax = promedio.plot(kind="hist", figsize=(10,4), xlim=(0,10), ylim=(0, 15000),

Configuración bins=10, title=“Promedio de votación")


de etiquetas ax.set_xlabel(“Promedio puntaje obtenido en votaciones", fontsize = 9)
ax.xaxis.set_label_coords(0.5, -0.07)
Guardar la figura ax.set_ylabel("Cantidad de Peliculas", fontsize = 9)
en un archivo fig = ax.get_figure()
fig.savefig("histograma.svg") El formato depende de la
extensión que usemos
N4

DIAGRAMA DE BARRAS
Valores numéricos asociados a valores categóricos
N4

DIAGRAMA DE BARRAS

bar indica que es


un diagrama de
barras verticales

fontsize indica
xlabel y ylabel tamaño de los
especifican las textos
etiquetas de los ejes
cantidades = muestra[‘original_language'].value_counts()
cantidades.plot(kind="bar", figsize=(10, 3), fontsize="small",
xlabel=“Idiomas", ylabel="Cantidad peliculas",
title="Cantidad de peliculas por idioma original")
N4

DIAGRAMA DE BARRAS

Escala logarítmica
en el eje Y

cantidades = muestra[‘original_language'].value_counts()
cantidades.plot(kind="bar", figsize=(10, 3), fontsize="small",
xlabel=“Idiomas", ylabel="Cantidad peliculas",
logy=True, title="Cantidad de peliculas por idioma original")
N4

BOX-PLOTS
outliers máximo

75%
mediana

25%

outliers
mínimo
N4

BOX-PLOTS

Un conjunto
de valores por
columna

Usamos box
para indicar que
es un box-plot

muestra[[‘runtime', ‘vote_average’]].plot(kind="box")
N4

BOX-PLOTS AGRUPADOS

Pero… es mejor usar de


la función boxplot. La
función plot con
kind=‘box’ tiene errores
en la implementación

muestra[[‘original_language',
‘vote_average’]].boxplot(by=“original_language", rot="45")
N4

BOX-PLOTS AGRUPADOS

Un sub-plot
por columna
Un conjunto de
valores por
categoría en
‘original_language’

‘original_language’
tiene que hacer
parte de las
columnas para que
se pueda usar en el
parámetro by muestra[[‘original_language', ‘runtime’,
‘vote_average']].boxplot(by=“original_language", rot="45")
N4

GRÁFICAS DE DISPERSIÓN
Valor en la
posición ( X, Y)
Valores del
Eje Y

Valores del
Eje X
N4

GRÁFICAS DE DISPERSIÓN
Película de
mayores
ganancias

Película de
mayor duración
N4

GRÁFICAS DE DISPERSIÓN

Usamos scatter
para indicar que es
un diagrama de Columna que
dispersión usaremos
para el eje X

Columna que
usaremos para
el eje Y

muestra.plot(kind="scatter", x=‘runtime’,
y=‘revenue')
N4

GRÁFICA MÚLTIPLE

sub_plot = muestra.plot(kind="scatter",
x=‘runtime’,
y=‘vote_average',
color="DarkBlue",
label=“Runtime vs. Vote Average",
xlim=(0,200), ylim=(0,10))
sub_plot2 = muestra.plot(kind="scatter",
x=‘runtime', y=‘popularity',
color="Red",
label=“Runtime vs. Popularity",
ax=sub_plot)
sub_plot2.set_ylabel("Valor en Millones de COP")

* Para darle tamaño a cada La segunda gráfica debe


punto usar el parámetro s construirse sobre la primera
N4

MATRICES DE DISPERSIÓN
Dispersión:
Variable vs.
Variable

Histogramas
o
KDE
N4

MATRICES DE DISPERSIÓN
Revenue
(Ingresos) vs.
Runtime (Tiempo
de duración)

Runtime (Tiempo
de duración) vs.
Revenue (Ingresos)
N4

MATRICES DE DISPERSIÓN

from pandas.plotting import scatter_matrix


scatter_matrix(numericos, alpha=0.7, figsize=(8, 8), diagonal='hist')
N4

MATRIZ DE HISTOGRAMAS
Si subplots es
True, layout
tiene una
tupla con la
cantidad de
filas y
columnas

Si subplots es
True, la figura columnas = numericos[[‘runtime', ‘vote_average']]
columnas.plot(kind="hist", figsize=(10,4), xlim=(0,200), bins=50,
puede tener subplots=True, layout=(1,2), sharey=True,
varias gráficas title=“Tiempo de duración y Promedio de votación") Indica que se
debe compartir
el eje Y
N4

MÁS INFORMACIÓN

https://pandas.pydata.org/docs/user_guide/visualization.html
https://pandas.pydata.org/docs/user_guide/visualization.html#box-
plots
https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.boxplot
https://pandas.pydata.org/docs/user_guide/visualization.html#scatter-
plot
https://pandas.pydata.org/docs/user_guide/visualization.html#scatter-
matrix-plot
https://pandas.pydata.org/docs/user_guide/visualization.html#subplots

También podría gustarte