Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Documento
Examen Unidad 2
Profesor: Mario Macario Ruiz Grijalva
Integrantes:
Ángel Adrián Ramos García
Paola Pazos Valencia
Damaris Judith González Rosales
Aquí se muestran los datos impresos del dataset, nos muestra solo algunos, pues
el contenido de datos en el dataset es un número mayor a 15,000. Se seleccionan
solo algunas de las líneas, pues esto hace más fácil que entren en la terminal,
también podemos observar que Pandas formateo los datos, de tal manera que
quepan y se acomoden en la pantalla.
Podemos ver que se leyeron 18,207 líneas, y cada línea está formada por 63
columnas. La primera columna es una columna numérica que va numerando cada
columna, comenzando desde 0. La siguiente columna es el ID que se asignó a
cada jugador, y los puntos suspensivos, nos indican que hay más cantidad de filas
y columnas en el dataset.
head(n)
La función head, nos ayuda a mostrar en la terminal, la cantidad de n filas que se
requieran del dataset.
En este caso, muestra las primeras dos filas, junto con sus datos, y como
podemos ver, tiene un ID único para cada jugador, calificaciones a los reflejos del
portero, y cantidad monetaria en euros.
tail(n)
Esta función, es muy parecida a la anterior, pues nos muestra una cantidad n de
renglones, sólo que con en ella vamos a mostrar sólo los dos últimos renglones de
nuestro dataset.
info()
Esta función, nos ayuda a mostrar el índice, tipo de datos y memoria.
describe()
Está función nos muestra las estadísticas resumidas de todas las columnas
numéricas del dataset.
En la terminal nos devuelve el conteo de los datos, que son 18207, la media, la
desviación estándar, el dato mínimo, los cuartiles, y el dato máximo.
s.value_counts(dropna=False)
Esta función nos permite ver los valores y recuentos únicos, en este caso
escogimos la columna Nacionalidad.
Etiquetado.
. .
. .
. .
3.- Procesamiento.
DIAGRAMA DE BARRAS
El diagrama de barras es un gráfico que se utiliza para representar datos de
variables cualitativas o discretas. Está formado por barras rectangulares que son
proporcionales a la frecuencia de cada uno de los valores de la variable.
DIAGRAMA DE CAJAS
El diagrama de caja es un gráfico utilizado para representar una variable
cuantitativa (variable numérica). El gráfico es una herramienta que permite
visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría,
los valores extremos, la posición de la mediana, etc. Se compone de:
Los datos atípicos (o valores extremos) que son los valores distintos que no
cumplen ciertos requisitos de heterogeneidad de los datos.
DIAGRAMA DE PUNTOS
Un diagrama de puntos es una gráfica
utilizada para ilustrar un número reducido de
datos, la cual permite identificar con facilidad
dos características:
1. La localización de los datos.
2. La dispersión o variabilidad de los datos.
Este diagrama muestra cada uno de los
elementos de un conjunto de datos
numéricos por encima de una recta numérica
(eje horizontal), facilita la ubicación de los espacios vacíos y los agrupamientos en
un conjunto de datos, así como la manera en que estos datos se distribuyen a lo
largo del eje horizontal.
GRÁFICO CIRCULAR O DE PASTEL (PIE)
SCATTER MATRIX