Documentos de Académico
Documentos de Profesional
Documentos de Cultura
la Mixteca
Estancias profesionales
mes agosto-septiembre
Como se puede observar tenemos una recolección de datos acerca del colesterol y algunas
variables que pueden influir en el, podemos observar que hay presencia de datos nulos,
además están dispersos en distintas variables.
Isnull
Isnull nos permite detectar datos nulos, simplificando este proceso independientemente de
la dimensión de nuestra base de datos.
La función panda.isnull devuelve una estructura con las mismas dimensiones que la que se
cede como argumento sustituyendo cada valor por el booleano True si el correspondiente
elemento es un valor nulo, y por el booleano False en caso contrario.
Limpieza de Datos
Ahora que sabemos localizar los datos nulos. Veamos como trabajar con ellos. A partir de
este punto estaremos modificando datos.
Dropna
dropna() elimina las filas que contienen datos nulos, por tanto, es muy útil para eliminar
filas con varios datos nulos a la vez, ya que dichas filas no aportarían información
significativa más que para unas cuantas variables.
En el ejemplo rellenamos los datos nulos con fillna(value=100) asignándole el valor de 100
a todos los datos nulos
¿Desventaja? Como habrás notado la asignación de dicho valor puede llegar a ser arbitraria.
bfill
Este método rellena los datos nulos, en base al valor de la siguiente fila.
Ventajas: Sin duda es mucho mejor que asignar un valor arbitrario a los datos, además
garantiza que los datos se mantengan dentro de un rango específico. Es especialmente útil
en bases de datos de gran extensión y con poca proporción de datos nulos.
Desventajas: Sin embargo, debes asegurarte de que el número de datos nulos NO sea
significativo, para que el coeficiente de variación y otras medidas de dispersión no sufran
de un sesgo muy grande. Por otra parte, no involucra ninguna estimación en pleno sentido.
Outliers
Un outlier es un valor que numéricamente es muy diferente al resto de los datos, lo que
puede afectar al momento su análisis, por lo que es aconsejable retirarlos antes de seguir
adelante con el mismo.
Los valores atípicos (outliers) se pueden detectar mediante visualización, implementando
fórmulas matemáticas en el conjunto de datos o utilizando el enfoque estadístico.
Ejemplo:
Si analizáramos una sola variable, por ejemplo “edad”, veremos donde se concentran la
mayoría de las muestras y los posibles valores “extremos”.
Método pandas.drop()
El método .drop() asociado a un dataframe pandas devuelve una copia de este tras eliminar
las filas o columnas indicadas. Éstas deberán referenciarse por sus etiquetas explícitas, no
por su posición en el eje.
La eliminación se realiza, por defecto, en el eje vertical (se eliminan filas, por lo tanto).
ya que tenemos ubicados nuestros datos atípicos se procede a trabajar con ellos los
podemos eliminar como lo vimos en el caso anterior.
Otro método es la imputación de la media/mediana, como el valor medio esta muy
influenciado por los valores atípicos se recomienda reemplazar los valores atípicos con el
valor de la mediano.
Variables Ficticias
Un conjunto de datos puede contener varios tipos de valores, a veces consta de valores
categóricos. Entonces, con el fin de usar esos valores categóricos para programar de manera
eficiente, creamos variables ficticias. Una variable ficticia es una variable binaria que
indica si una variable categórica separada toma un valor específico.
Podemos observar que a nuestra variable numérica no la transforma solo la anexa tal como
esta.