N4 10 Visualizacion Con Pandas

NIVEL 4
N4
CONCEPTOS BÁSICOS
Rango de Y Título
Etiqueta
de Y
Tipo de
Gráfico
y
Fuentes de
Datos
Esquema de Rango de X
colores y fuentes Etiqueta de X
N4
HISTOGRAMA
¿Cuántas veces aparece cada valor en el conjunto de datos?
promedio es una
Serie con los
promedios de
votación
(calificación
promedio) de
cada película
figsize indica el
ancho y alto de la
promedio = valores[‘vote_average’] figura
promedio.plot(kind="hist", figsize=(10,4))
El parámetro kind indica el tipo de gráfica

N4
HISTOGRAMA
Usar una función

con tipo del
diagrama en
lugar de usar plot promedio.plot.hist(figsize=(10,4))
con el parámetro
kind
promedio=valores[‘vote_average’]
promedio.plot(kind="hist", figsize=(10,4))
N4
HISTOGRAMA
promedio.plot(kind="hist", figsize=(10,4),
xlim=(0,10), bins=10)
El parámetro xlim El parámetro bins indica
indica el rango para x la cantidad de grupos
N4
HISTOGRAMA
El parámetro xlim=(0,10), ylim=(0, 15000), bins=10,
title especifica el
título del gráfico title=“Promedio de votación")
El parámetro ylim indica el rango para Y

N4
HISTOGRAMA
Usar estilos
predefinidos de
Matplotlib. matplotlib.style.use('seaborn-colorblind’)
También pueden
definirse estilos
propios xlim=(0,10), ylim=(0, 15000), bins=10,
title=“Promedio votación")
N4
HISTOGRAMA
ax es un
AxesSubplot y es el
resultado de todos
los llamados a plot
ax = promedio.plot(kind="hist", figsize=(10,4), xlim=(0,10), ylim=(0, 15000),
Configuración bins=10, title=“Promedio de votación")

de etiquetas ax.set_xlabel(“Promedio puntaje obtenido en votaciones", fontsize = 9)
ax.xaxis.set_label_coords(0.5, -0.07)
Guardar la figura ax.set_ylabel("Cantidad de Peliculas", fontsize = 9)
en un archivo fig = ax.get_figure()
fig.savefig("histograma.svg") El formato depende de la
extensión que usemos
N4
DIAGRAMA DE BARRAS
Valores numéricos asociados a valores categóricos
N4
DIAGRAMA DE BARRAS
bar indica que es

un diagrama de
barras verticales
fontsize indica
xlabel y ylabel tamaño de los
especifican las textos
etiquetas de los ejes
cantidades = muestra[‘original_language'].value_counts()
cantidades.plot(kind="bar", figsize=(10, 3), fontsize="small",
xlabel=“Idiomas", ylabel="Cantidad peliculas",
title="Cantidad de peliculas por idioma original")
N4
DIAGRAMA DE BARRAS
Escala logarítmica
en el eje Y
cantidades = muestra[‘original_language'].value_counts()
cantidades.plot(kind="bar", figsize=(10, 3), fontsize="small",
xlabel=“Idiomas", ylabel="Cantidad peliculas",
logy=True, title="Cantidad de peliculas por idioma original")
N4
BOX-PLOTS
outliers máximo
75%
mediana
25%
outliers
mínimo
N4
BOX-PLOTS
Un conjunto
de valores por
columna
Usamos box
para indicar que
es un box-plot
muestra[[‘runtime', ‘vote_average’]].plot(kind="box")
N4
BOX-PLOTS AGRUPADOS
Pero… es mejor usar de

la función boxplot. La
función plot con
kind=‘box’ tiene errores
en la implementación
muestra[[‘original_language',
‘vote_average’]].boxplot(by=“original_language", rot="45")
N4
BOX-PLOTS AGRUPADOS
Un sub-plot
por columna
Un conjunto de
valores por
categoría en
‘original_language’
‘original_language’
tiene que hacer
parte de las
columnas para que
se pueda usar en el
parámetro by muestra[[‘original_language', ‘runtime’,
‘vote_average']].boxplot(by=“original_language", rot="45")
N4
GRÁFICAS DE DISPERSIÓN
Valor en la
posición ( X, Y)
Valores del
Eje Y
Valores del
Eje X
N4
Película de
mayores
ganancias
Película de
mayor duración
N4
Usamos scatter
para indicar que es
un diagrama de Columna que
dispersión usaremos
para el eje X
Columna que
usaremos para
el eje Y
muestra.plot(kind="scatter", x=‘runtime’,
y=‘revenue')
N4
GRÁFICA MÚLTIPLE
sub_plot = muestra.plot(kind="scatter",
x=‘runtime’,
y=‘vote_average',
color="DarkBlue",
label=“Runtime vs. Vote Average",
xlim=(0,200), ylim=(0,10))
sub_plot2 = muestra.plot(kind="scatter",
x=‘runtime', y=‘popularity',
color="Red",
label=“Runtime vs. Popularity",
ax=sub_plot)
sub_plot2.set_ylabel("Valor en Millones de COP")
* Para darle tamaño a cada La segunda gráfica debe

punto usar el parámetro s construirse sobre la primera
N4
MATRICES DE DISPERSIÓN
Dispersión:
Variable vs.
Variable
Histogramas
o
KDE
N4
Revenue
(Ingresos) vs.
Runtime (Tiempo
de duración)
Runtime (Tiempo
de duración) vs.
Revenue (Ingresos)
N4
from pandas.plotting import scatter_matrix

scatter_matrix(numericos, alpha=0.7, figsize=(8, 8), diagonal='hist')
N4
MATRIZ DE HISTOGRAMAS
Si subplots es
True, layout
tiene una
tupla con la
cantidad de
filas y
columnas
Si subplots es
True, la figura columnas = numericos[[‘runtime', ‘vote_average']]
columnas.plot(kind="hist", figsize=(10,4), xlim=(0,200), bins=50,
puede tener subplots=True, layout=(1,2), sharey=True,
varias gráficas title=“Tiempo de duración y Promedio de votación") Indica que se
debe compartir
el eje Y
N4
MÁS INFORMACIÓN
https://pandas.pydata.org/docs/user_guide/visualization.html
https://pandas.pydata.org/docs/user_guide/visualization.html#box-
plots
https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.boxplot
https://pandas.pydata.org/docs/user_guide/visualization.html#scatter-
plot
https://pandas.pydata.org/docs/user_guide/visualization.html#scatter-
matrix-plot
https://pandas.pydata.org/docs/user_guide/visualization.html#subplots

N4 10 Visualizacion Con Pandas

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

N4 10 Visualizacion Con Pandas

Cargado por

Copyright:

Formatos disponibles

NIVEL 4

El parámetro kind indica el tipo de gráfica

Usar una función

El parámetro ylim indica el rango para Y

ax = promedio.plot(kind="hist", figsize=(10,4), xlim=(0,10), ylim=(0, 15000),

Configuración bins=10, title=“Promedio de votación")

bar indica que es

Pero… es mejor usar de

* Para darle tamaño a cada La segunda gráfica debe

from pandas.plotting import scatter_matrix

También podría gustarte