Está en la página 1de 14

Análisis Inteligente de Datos

Documento

Examen Unidad 2
Profesor: Mario Macario Ruiz Grijalva

Integrantes:
Ángel Adrián Ramos García
Paola Pazos Valencia
Damaris Judith González Rosales

1.- Selección y adquisición de datos.


Selección.
La búsqueda de un conjunto de datos se realizó en diferentes fuentes, y una de
ellas fue: “Kaggle”, a partir del cual se obtuvo un dataset que nos pareció útil para
poder extraer información y hacer un buen análisis.
Dataset: FIFA 19 complete player dataset Archivo: CSV
Decidimos seleccionar este dataset porque en las características que se muestran
en “Kaggle” de dicho dataset notamos que los datos se encuentran muy cercanos
a la media en la mayoría de las columnas, lo cual nos resultó útil para así poder
llegar a un análisis más completo después de aplicar cada una de las fases del
Análisis Inteligente de Datos.
Además, tiene muchas columnas de tipo numérico en las que podemos trabajar.
Interpretación Inicial
A simple vista, sin tratar los datos aún, pudimos observar que el dataset elegido
trata sobre análisis de jugadores de fútbol tales como nombre, edad, calificación
del potencial del jugador, su valor en el campo del fútbol, el salario que tiene,
además de estar complementado con calificaciones del 0 al 100 con respecto a
sus habilidades. Esto lo hace más llamativo, pues podemos observar por ejemplo,
que tan bueno o malo es un jugador para un equipo, país, entre otros aspectos.
Además, como vemos, el dataset está generado por una página que recaba todo
ese tipo de información de cada jugador, volviéndose así de gran valor, pues la
información y el conocimiento que se obtendrá es de gran veracidad.
Tipo de dato que contiene el dataset.
Adquisición.
Se caracteriza porque la entrada de los datos está constituida por los datos
originales, tomados de las fuentes originales, los cuales, en este caso son de la
plataforma Kaggle y la salida son datos difusos o dispersos, de los cuales
podemos extraer información.

Se realiza la importación del dataset.

Aquí se muestran los datos impresos del dataset, nos muestra solo algunos, pues
el contenido de datos en el dataset es un número mayor a 15,000. Se seleccionan
solo algunas de las líneas, pues esto hace más fácil que entren en la terminal,
también podemos observar que Pandas formateo los datos, de tal manera que
quepan y se acomoden en la pantalla.
Podemos ver que se leyeron 18,207 líneas, y cada línea está formada por 63
columnas. La primera columna es una columna numérica que va numerando cada
columna, comenzando desde 0. La siguiente columna es el ID que se asignó a
cada jugador, y los puntos suspensivos, nos indican que hay más cantidad de filas
y columnas en el dataset.

Vamos a realizar la primera inspección de datos, para ir conociendo más el


contenido del dataset.

 head(n)
La función head, nos ayuda a mostrar en la terminal, la cantidad de n filas que se
requieran del dataset.

En este caso, muestra las primeras dos filas, junto con sus datos, y como
podemos ver, tiene un ID único para cada jugador, calificaciones a los reflejos del
portero, y cantidad monetaria en euros.

 tail(n)
Esta función, es muy parecida a la anterior, pues nos muestra una cantidad n de
renglones, sólo que con en ella vamos a mostrar sólo los dos últimos renglones de
nuestro dataset.

Se puede observar que, en nuestro dataset, hay 18207 renglones, pues en la


función head se vio que el conteo, inicia en 0 en la columna “Unnamed”.

 info()
Esta función, nos ayuda a mostrar el índice, tipo de datos y memoria.

En el resultado en terminal, se muestran el nombre de todas las columnas del


dataset junto con el tipo de dato, también sí en la columna hay algún dato nulo, y
nos hace un conteo para determinar cuántas columnas hay de tipo float, de tipo int
y de tipo objeto.
 shape()
La función shape() nos devuelve el tamaño del dataset en filas y columnas.

 describe()
Está función nos muestra las estadísticas resumidas de todas las columnas
numéricas del dataset.

En la terminal nos devuelve el conteo de los datos, que son 18207, la media, la
desviación estándar, el dato mínimo, los cuartiles, y el dato máximo.
 s.value_counts(dropna=False)
Esta función nos permite ver los valores y recuentos únicos, en este caso
escogimos la columna Nacionalidad.

Los resultados nos muestran todas las nacionalidades de los jugadores, de


manera que podemos ver de cierta manera, cuántas se repiten en total.

2.- Pre Procesamiento.


Esta etapa se encarga de la limpieza de datos, su integración, transformación y
reducción para la siguiente fase.
Limpieza.
Borramos algunas columnas que no necesitaremos para nuestro análisis de datos
ya que nos enfocamos a columnas que sean de tipo entero.
También remplazamos valores de la columna “Valor” y “Salario” por campos
totalmente numéricos porque estaban combinados numero con texto:

Dataframe con sus valores remplazados.

Etiquetado.

Debemos preparar los datos y para eso la columna “Nacionalidad” y


“Club” que es todo texto no podemos trabajar con esas columnas si son
texto, para esto convertimos este tipo de datos de texto en datos
numéricos entendibles. Por eso utilizamos la clave LabelEncoder.
Entonces ajustamos y transformamos estas dos columnas, y luego
remplazamos los datos de texto existentes con los nuevos datos
codificados
Así que los valores de estas columnas fueron remplazados por números.

. .
. .
. .
3.- Procesamiento.
DIAGRAMA DE BARRAS
El diagrama de barras es un gráfico que se utiliza para representar datos de
variables cualitativas o discretas. Está formado por barras rectangulares que son
proporcionales a la frecuencia de cada uno de los valores de la variable.

DIAGRAMA DE CAJAS
El diagrama de caja es un gráfico utilizado para representar una variable
cuantitativa (variable numérica). El gráfico es una herramienta que permite
visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría,
los valores extremos, la posición de la mediana, etc. Se compone de:

 Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3).


Dentro de la caja una línea indica dónde se encuentra la mediana (segundo
cuartil Q2)

 Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y


otro que empieza en el tercer cuartil y acaba en el máximo.

 Los datos atípicos (o valores extremos) que son los valores distintos que no
cumplen ciertos requisitos de heterogeneidad de los datos.
DIAGRAMA DE PUNTOS
Un diagrama de puntos es una gráfica
utilizada para ilustrar un número reducido de
datos, la cual permite identificar con facilidad
dos características:
1. La localización de los datos.
2. La dispersión o variabilidad de los datos.
Este diagrama muestra cada uno de los
elementos de un conjunto de datos
numéricos por encima de una recta numérica
(eje horizontal), facilita la ubicación de los espacios vacíos y los agrupamientos en
un conjunto de datos, así como la manera en que estos datos se distribuyen a lo
largo del eje horizontal.
GRÁFICO CIRCULAR O DE PASTEL (PIE)

El gráfico de “quesitos” como yo lo llamo es muy útil para representar porcentajes

EL COEFICIENTE DE CORRELACIÓN DE PEARSON


Esta es la métrica de correlación más utilizada para medir el grado de la relación
entre variables relacionadas linealmente.
Este coeficiente sólo debe utilizarse para comparar variables cuantitativas y
continuas. Por acá tenemos la fórmula para calcularlo:
El valor del índice de correlación varía en el intervalo [-1,1]
Si este coeficiente es igual a 1 o -1 (o cercano a estos valores) significa que una
variable es fruto de una transformación lineal de la otra. Teniendo una relación
directa al tratarse de 1 (cuando una variable aumenta, la otra también),
mientras que existirá una relación inversa al tratarse de -1 (cuando una variable
aumenta la otra disminuye).
Mientras que, Si r = 0 (o cercano a este valor) no existe relación lineal, aunque
puede existir algún otro tipo de relación no lineal.
Tendencia lineal 

COEFICIENTE DE CORRELACIÓN DE RANGO DE SPEARMAN


Esto se utiliza con los supuestos de que
· los datos deben ser al menos ordinales
· los puntajes en una variable están monotónicamente relacionados con la otra
variable
Por ejemplo, para buscar una relación estadísticamente significativa entre:
· el nivel de educación de los participantes y su salario inicial
· posición final del caballo en una carrera y la edad del caballo

Dadas dos variables aleatorias, X e Y,


P = Rango_X = rangos de cada punto de datos en X
Q = Rango_Y = rangos de cada punto de datos en Y

El coeficiente de correlación de rango de Spearman entre X e Y, r_s, es el


coeficiente de correlación de Pearson de P y Q.

 El coeficiente de correlación de Spearman es más robusto para los valores


atípicos que el coeficiente de correlación de Pearson

SCATTER MATRIX

Una matriz de dispersión es una estimación de la matriz de covarianza cuando la


covarianza no puede calcularse o su cálculo es costoso. La matriz de dispersión
también se usa en muchos ejercicios de reducción de dimensionalidad. Si hay k
variables, la matriz de dispersión tendrá k filas y k columnas, es decir, k X k matriz.

También podría gustarte