Está en la página 1de 15

CAPITULO 3: ANALISIS DE DATOS

EXPLORATORIO
Análisis de datos exploratorio
Agregamos sensores y capturamos datos desde nuestras redes, sistemas, y vidas para poder tomar
decisiones basadas en datos que afecten en última instancia el rendimiento, la situación o el entorno. Los
datos de los sensores y las cosas son un elemento clave a la hora de brindar oportunidades para el cambio.
Como se muestra en el ciclo de vida de análisis de datos en la figura, los datos se transforman de su formato
bruto a información una vez que se han recolectado, preparado, analizado y presentado en un formato
utilizable. Un primer paso para crear la información requerida es realizar un análisis de datos exploratorio.

El análisis de datos exploratorio es un conjunto de procedimientos diseñados para producir resúmenes


descriptivos y gráficos de datos con el concepto de es posible que los resultados revelen patrones
interesantes. Es un proceso de detección que nos permite a veces crear una hipótesis sobre los datos.
Permite la detección de nuevas preguntas que deben contestarse. El propósito de un análisis a veces es
responder preguntas específicas. Otras veces, alguien pueden tener una “corazonada” o intuición sobre
algunos fenómenos en relación con un conjunto de datos. Un analista puede ser invitado a investigar la causa
o el efecto de ese fenómeno. El análisis de datos exploratorio proporciona una manera útil de examinar los
datos para determinar si hay relaciones existentes entre los datos obtenidos o recopilados o si hay problemas
con los datos.

Por ejemplo, se le pide a un analista de una cadena de restaurantes de comida rápida examinar los
comentarios negativos de Twitter sobre los restaurantes. Estos comentarios han sido marcados como
negativos por un proceso de análisis semántico en tiempo real. El analista realiza algunos análisis descriptivos
en los mensajes para ver qué ocurre con los datos. El analista decide investigar la hora del día en que se
producen los mensajes negativos. Tras trazar los mensajes contra la hora del día, el análisis reveló que el
número de mensajes negativos recibidos durante el desayuno era, de manera desproporcionada, mucho más
alto que el de los mensajes generados durante el resto del día. Este análisis exploratorio básico revela que
algo sobre las ofertas del desayuno podría ser un problema, pero no permite que el analista saque
conclusiones de por qué ocurre esto. Se requiere análisis adicional para entender la causa específica de este
resultado. Puede ser un elemento específico en el menú del desayuno que se menciona en los mensajes u
otras variables como la satisfacción del cliente con la calidad de la comida, el servicio o la limpieza.

Análisis de los datos de IdC


Recopilar datos es uno de los primeros pasos en la ejecución de un análisis de datos exploratorio. Sin
importar el tipo de análisis que se hará, los datos de IdC son un desafío. Primero, los datos de IdC pueden
generarse en volúmenes grandes y formatos diferentes. Algunos datos pueden ser estructurados, por lo que
su naturaleza y significado puede procesarse y comprenderse rápidamente. Otros datos pueden ser no
estructurados, con lo cual requieren un considerable procesamiento para que sean significativos. Como se
puede extraer un considerable valor de combinar datos estructurados y no estructurados para el análisis, los
datos de IdC pueden requerir herramientas analíticas más avanzadas. Nuevas tecnologías se inventan
constantemente para la adquisición, el almacenamiento y el análisis de cálculo de los datos masivos.

Además del volumen, otro aspecto importante en los datos de IdC es el tiempo como variable. Los datos de
IdC se transmiten con frecuencia en tiempo real o casi en tiempo real. Los datos generados a partir de
observaciones sobre cómo una variable cambia con el tiempo se denominan serie de tiempo. Algunos
ejemplos de datos de serie de tiempo son la temperatura del aire medida en una estación meteorológica cada
minuto o el consumo de energía eléctrica de una casa informado por el medidor inteligente a la red eléctrica
cada 15 minutos. Los datos de serie de tiempo son diferentes de los datos seccionados transversalmente
donde la observación ocurre en un momento específico a través de diferentes variables. Generalmente, los
datos se presentan en forma de tabla, como se muestra en la figura. Cuando los puntos de datos tienen
marcas de hora, el orden de los datos de las tablas no importa. Esto se debe a que los puntos de datos se
pueden clasificar por sus marcas de hora.
Observaciones, variables y valores
Al realizar cualquier tipo de prueba o de análisis, es importante definir las características clave que se deben
medir u obtener para responder las preguntas formuladas o crear la hipótesis necesaria. Estas características
que se estudiarán se denominan variables. Una variable es algo que varía de una instancia a otra. No solo es
una variable algo que se puede medir, sino que su valor también puede manipularse o controlarse.

Durante una prueba o un análisis, pueden observarse diferentes variables y sus valores asociados. Las
grabaciones de los valores, los patrones y las apariciones para un conjunto de variables constituyen una
observación. El conjunto de valores para esa observación específica se denomina punto de datos. Cada
observación se puede considerar como un registro en una base de datos o fila de datos en una hoja de
cálculo de Excel de datos. La recopilación de observaciones compone el conjunto de datos para el análisis.

Como las observaciones generalmente tienen un objetivo, solo algunas características son relevantes para
ese propósito. Por ejemplo, si perdió su mascota y ha solicitado que otras personas lo ayuden a buscarla, solo
un pequeño conjunto de funciones será relevante para las observaciones. Estas características podrían ser:

• ¿Qué tipo de animal es su mascota? Es un perro.

• ¿Qué tipo de perro? Es un schnauzer.

• ¿De qué color es su schnauzer? Es gris.

• ¿Qué tamaño tiene el schnauzer? Es un schnauzer mediano.

• ¿Cuánto pesa el schnauzer? Pesa 15 kg.

Como se muestra en la figura, las variables son las características, como raza, color, tamaño y peso. Todas
estas características son variables, porque cada una puede tener varios valores. A medida que las personas
buscan su perro, se agregan puntos de datos para cada observación. Debido a que el objetivo de las
observaciones es buscar perros, se descartan las observaciones que no cumplen con los requisitos
necesarios.

Tipos de variables
Al buscar patrones significativos de datos, buscamos con frecuencia conexiones correlacionales entre las
variables. Todas las variables se pueden clasificar por la característica que se está estudiando. Las variables
serán categóricas o numéricas.

Las variables categóricas indican membresía a un grupo determinado y tienen un valor cualitativo discreto o
específico. Se clasifican además en dos tipos:

• Nominales: estas son variables compuestas por dos o más categorías cuyo valor se asigna basado en
la identidad del objeto. Algunos ejemplos son sexo, color de ojos o tipo de animal.

• Ordinales: estas son variables compuestas por dos o más categorías en las que el orden es importante
en el valor. Algunos ejemplos son el rango de clases de los estudiantes o las escalas de las encuestas
de satisfacción (insatisfecho, neutro, satisfecho).

Las variables numéricas son valores cuantitativos:

• Continuas: estas son variables que son cuantitativas y pueden medirse a lo largo de una secuencia o
un rango de valores. Existen dos tipos de variables continuas; las variables de intervalo puede tener
cualquier valor dentro del rango de valores. Algunos ejemplos son temperatura o tiempo. Las variables
de relaciones son las variables de intervalo especiales donde un valor de cero (0) significa que no hay
ninguna variable. Entre los ejemplos se incluyen ingresos o el volumen de ventas.
• Discretas: estos tipos de variables continuas son cuantitativos pero tienen un valor específico de un
conjunto de valores finito. Los ejemplos incluyen el número de sensores habilitados en una red, o el
número de automóviles en un estacionamiento.

¿Por qué es importante saber en qué tipo de variables está el conjunto de datos? Algunos métodos
estadísticos y visualizaciones de datos están diseñados para trabajar mejor con ciertos tipos de datos que con
otros. Cómo se muestran mejor los resultados del análisis dependerá del tipo de variables utilizadas en los
datos. Algunas variables se prestan mejor a los gráficos de barras mientras que otras pueden permitir más
examinación y detección mediante un diagrama de dispersión. Los ejemplos de algunos de los tipos sugeridos
de gráficos que representan los diferentes tipos de variables se pueden visualizar en la figura.

¿Qué son las estadísticas?


Ahora que el propósito para el análisis se ha definido y han reunido y registrado las variables y las
observaciones, es momento de realizar algo de análisis estadístico. Las estadísticas son la recopilación y el
análisis de datos mediante técnicas matemáticas. Esto también incluye la interpretación de datos y la
presentación de las conclusiones. Otro uso de las estadísticas es detectar los patrones o las relaciones entre
las variables y evaluar esos patrones para ver con qué frecuencia surgen. La conclusión estadística es
juzgada frecuentemente por su relación con los efectos de la probabilidad. Es decir, ¿qué probabilidades hay
de que algo ocurra repetidamente dadas las mismas condiciones? Por ejemplo, una hipótesis puede ser que
la variable x está relacionada con un cambio en la variable y. Un análisis revela que existe una relación. Sin
embargo, la variable y también cambia cuando la variable x no cambia. Una pregunta que espera ser
respondida es, “¿cuánto del cambio en la variable y es en respuesta a los cambios en la variable x y cuánto se
debe a otros factores?”. Las estadísticas intentan responder esta pregunta para estimar los efectos en relación
con la oportunidad o los eventos que no se incluyen en un análisis. Si los resultados de los análisis muestran
altas probabilidades de repeticiones, la conclusión de un estudio sobre un grupo representativo puede
generalizarse a un grupo mucho mayor.

Las estadísticas y el análisis son términos que se intercambian a menudo, pero son algo diferentes. El análisis
adopta generalmente un dominio de herramientas más amplio que las estadísticas. El análisis utiliza las
herramientas de modelado matemático en las estadísticas además de otras formas de análisis, como el
aprendizaje automático. También puede implicar la necesidad de trabajar con conjuntos de datos muy
grandes, que incluyen datos no estructurados.

Poblaciones y ejemplos
Las estadísticas se enfocan en los aspectos de la realidad que se estudian para un propósito específico. Estos
aspectos de la realidad pueden ser aspectos de la persona, o contenido de tweets o publicaciones de
Facebook. Las estadísticas se han utilizado ampliamente en las ciencias sociales y de la vida. Algunos
términos comúnmente utilizados en las estadísticas derivan de este uso.

Un término es población. Una población es un grupo de entidades similares como personas, objetos o
eventos, que comparten un conjunto de características común que se puede utilizar para fines estadísticos o
de investigación. Puede resultar extraño considerar los tweets o las publicaciones de Facebook como
miembros de poblaciones, pero es así como se los considera para el análisis estadístico. La definición o la
estructura de una población determinada varía. Una población podría ser “todas las personas vivas” o “todos
los tweets desde el 1 de agosto de 2015”. Es un gran grupo de cosas sobre las que nos interesa conocer más.

Puede que no siempre sea práctico estudiar a todas las personas vivas o incluso “todos los tweets desde el 1
de agosto de 2015”. El sentido práctico de obtener los datos necesarios de la población hace que la
recopilación de datos sea prácticamente imposible. En cambio, se puede utilizar para el análisis un grupo
representativo de la población. Este grupo se denomina muestra. Las muestras se eligen a menudo para
representar la mayor población posible de alguna manera. Si este es el caso, debe tenerse particular cuidado
al seleccionar la muestra para asegurarse de que todas las características necesarias de la población estén
representadas. Varias técnicas se utilizan para lograr ejemplos de poblaciones.

Estadísticas descriptivas
Una vez que se ha definido el enunciado del problema (o las preguntas que se harán) y que se ha definido
una población, es precisa alguna forma de análisis o estadísticas. Hay dos ramas clave de las estadísticas
que analizaremos en este curso:

• Estadísticas descriptivas

• Estadísticas inferenciales

Las estadísticas descriptivas se usan para describir o resumir los valores y las observaciones de un conjunto
de datos. Por ejemplo, una aplicación de seguimiento del estado físico registró los pasos diarios de una
persona y su frecuencia cardíaca durante un período de diez días. Si la persona alcanzó sus objetivos de
estado físico en seis de los diez días, entonces tuvo un 60 % de éxito. Durante ese período de diez días, la
frecuencia cardíaca de la persona podría haber tenido un máximo de 140 pulsaciones por minuto (ppm) pero
un promedio de 72 ppm. La información sobre los conteos, los promedios y los máximos son algunas de las
formas de describir y simplificar el conjunto de datos que se observó.

Las estadísticas descriptivas básicas pueden incluir la cantidad de puntos de datos en un conjunto de datos, el
rango de valores que existen para los puntos de datos numéricos, o la cantidad de veces que varios valores
aparecen en un conjunto de datos, entre otros. Además, las estadísticas descriptivas incluyen los valores que
abstraen el conjunto de datos de diversas maneras. Pueden responder preguntas como por ejemplo:

• ¿Cuán dispersos están los datos?

• ¿Hay valores que ocurren con más frecuencia que otros?

• ¿Cuál es el valor más pequeño o más grande?

• ¿Hay tendencias en particular?


Las respuestas a estas preguntas se pueden proporcionar en formatos numéricos y gráficos. Los resultados
de las estadísticas descriptivas se suelen representar en gráficos circulares, gráficos de barras o histogramas.
Esto permite visualizar los datos de mejor manera.

Un punto importante por tener en cuenta es que si bien las estadísticas descriptivas muestran el estado actual
o histórico de la población observada, no tienen en cuenta la comparación de los grupos, las conclusiones que
se deben extraer, o las predicciones que se harán sobre otros conjuntos de datos que no están en la
población. En el ejemplo del seguimiento del estado físico, no podemos deducir que la persona tiene una
salud deficiente solo porque pudo cumplir su objetivo el 60 % del tiempo. Tampoco podemos utilizar el
conjunto de datos para que esta persona prediga el rendimiento físico de otras personas con características
similares. Aquí es donde las estadísticas inferenciales se vuelven importantes.

Estadísticas inferenciales
Las estadísticas descriptivas le permiten resumir la conclusión según los datos que ya tiene o que ha
observado sobre una población. Pero existen situaciones en las que la recolección de datos para una
población muy grande puede no ser práctica o incluso posible. Por ejemplo, puede no ser posible estudiar a
cada persona en el mundo para descubrir los efectos de una nueva droga que está en desarrollo. Sin
embargo, es posible estudiar un ejemplo menor y representativo de una población y utilizar estadísticas
inferenciales para probar la hipótesis y extraer conclusiones sobre la población mayor.

Las estadísticas inferenciales consisten en el proceso de recopilar, analizar e interpretar los datos
recolectados de un ejemplo para hacer generalizaciones o predicciones sobre una población. Como se utiliza
una muestra representativa en lugar de los datos de la población total en sí, debe tenerse en cuenta la
posibilidad de que los grupos determinados elegidos para el estudio o el entorno en el que se realiza el
estudio no sean un fiel reflejo de las características del grupo mayor. Al utilizar estadísticas inferenciales,
deben responderse las preguntas de cuán cerca están los datos inferidos de los datos reales y cuán seguros
podemos estar en la conclusión. Por lo general, estos tipos de análisis incluirán diferentes técnicas de
muestreo para reducir el error y aumentar la confianza en las generalizaciones sobre las conclusiones. El tipo
de técnica de muestreo utilizado dependerá del tipo de datos.

Estadísticas y datos masivos


Diferentes enfoques estadísticos se utilizan en el análisis de datos masivos. Como sabemos, las estadísticas
descriptivas describen una muestra. Esto es útil para comprender los datos de la muestra y para determinar la
calidad de los datos. Al tratar con una gran cantidad de datos que provienen de diversas fuentes, pueden
producirse muchos problemas. A veces los puntos de datos pueden estar dañados, estar incompletos o faltar
por completo. Las estadísticas descriptivas pueden ayudar a determinar qué parte de los datos de la muestra
sirve para el análisis y a identificar los criterios para quitar los datos que resulten inadecuados o
problemáticos. Los gráficos de las estadísticas descriptivas son una manera útil de sacar conclusiones rápidas
sobre una muestra.

Por ejemplo, puede seleccionarse una muestra de tweets para el análisis. Algunos tweets de la muestra solo
contienen caracteres, mientras que otros contienen caracteres e imágenes. Determine si desea analizar los
tweets que contienen imágenes o aquellos sin imágenes. Esto le permitirá identificar mensajes que no son
válidos basándose en un criterio muy simple. Los datos que no cumplan con este criterio básico se eliminarán
de la muestra antes de que continúe el análisis.

Varios tipos de análisis del aprendizaje inferencial y automático son muy utilizados en el análisis de datos
masivos:

• Clúster: se utiliza para encontrar grupos de observaciones que son similares entre sí

• Asociación: se utiliza para encontrar apariciones concurrentes de valores de diferentes variables

• Regresión: se utiliza para cuantificar la relación, de haber alguna, entre las variaciones de una o más
variables
En el aprendizaje automático, los programas informáticos vienen con su propio conjunto de reglas o lo
derivan, y este se usa para realizar un análisis. Las técnicas de aprendizaje automático pueden requerir
mucha potencia de procesamiento y ahora son viables gracias al procesamiento en paralelo.

En la figura se muestra una arquitectura de análisis de datos de IdC. Aprenderemos más sobre los sistemas
que admiten el análisis de datos masivos más adelante en el curso.

Distribuciones
Existen varias formas de resumir los datos mediante estadísticas descriptivas. Puede buscar la distribución
real de los datos, las medidas de la tendencia central o las medidas de rangos. En un nivel básico, la
distribución es una asociación simple entre un valor y la cantidad o el porcentaje de veces que aparece en una
muestra de datos. Las distribuciones son útiles para comprender las características de una muestra de datos.
La figura muestra una tabla que consta de dos campos. Un campo contiene una variable, y el otro consta de
una estadística que describe el valor de esa variable. En este ejemplo, diez estudiantes realizaron un
cuestionario de diez puntos. La calificación para cada uno se muestra en la tabla Calificación original por
estudiante. Cuando el profesor analiza las calificaciones, se crea la distribución de calificaciones, como se
muestra en la segunda tabla. Esto expresa la cantidad de veces que se presentó una calificación en la clase.
La probabilidad de la aparición de una calificación se expresa como relación entre la frecuencia de calificación
y la cantidad total de calificaciones.

Las distribuciones de frecuencia consisten en todos los valores únicos de una variable y la cantidad de veces
que aparecen los valores en el conjunto de datos. En distribuciones de probabilidad, en lugar de frecuencias,
se utiliza la proporción de veces que se presenta el valor en los datos.

Un histograma puede representar inmediatamente la distribución de un conjunto de datos. En el caso de una


variable discreta, cada barra del histograma está asignada a un valor específico. En el caso continuo, cada
barra está asociada a un rango de valores. En ambos casos, la altura de las barras representa la cantidad de
veces que la variable toma un valor determinado o pertenece al rango, respectivamente.

La representación de histograma de la distribución de datos puede tomar cualquier forma. En el caso de la


variable continua, la forma también dependerá del ancho de las barras, es decir, su rango. Algunas formas se
pueden modelar con funciones bien definidas, que se denominan funciones de distribución de probabilidad.
Las funciones de distribución de probabilidad permiten representar la forma de distribución completa del
conjunto de datos utilizando solo un pequeño grupo de parámetros, como la media y la variación, que se
explicarán más adelante en el capítulo. Una función de distribución de probabilidad que se adapta en
particular para representar muchos eventos que se producen en la naturaleza es la gausiana, o distribución
normal, que es simétrica y acampanada.

Otras distribuciones no son simétricas. El pico del gráfico podría estar a la izquierda o la derecha del centro.
Esta propiedad de una distribución se denomina asimetría. Algunas distribuciones tienen dos picos y se
conocen como bimodales. Los extremos derecho e izquierdo del gráfico de distribución se conocen como
colas.

Centralidad
Una característica de las distribuciones de uso frecuente son las medidas de tendencia central. Estas medidas
expresan los valores que tiene una variable más cercanos a la posición central en una distribución de datos.
Las medidas comunes de centralidad son la media, la mediana y la moda. La moda de una muestra de datos
es el valor que se presenta con mayor frecuencia. Estas medidas se ilustran en la Figura 1. Básicamente,
estos valores más cercanos al centro de la distribución ocurren con mayor frecuencia.

La media, también denominada promedio, es la medida más reconocida de tendencia central. Tiene en cuenta
todos los valores de un conjunto de datos y es igual a la suma de todos los valores de datos dividida por la
cantidad de valores del conjunto de datos. Aunque la media se utiliza muy comúnmente en la vida cotidiana,
no suele ser la mejor medida del valor más representativo de una distribución. Por ejemplo, si hay valores
inusualmente altos o bajos en la distribución, la media puede estar influenciada en gran medida por esos
valores extremos, también denominados atípicos. Según la cantidad de atípicos en el conjunto de datos, la
media (o promedio) se encuentra desplazada en una dirección u otra.

La mediana es el valor medio del conjunto de datos después de que la lista de valores se ha ordenado. Como
se muestra en la Figura 2, la mediana no es sensible a estos valores extremos. Debido a que la cantidad total
de valores y los valores reales del conjunto de datos son iguales, el punto medio de la lista o la mediana sigue
siendo el mismo. Esto es diferente para la media o promedio. Según la cantidad de atípicos en el conjunto de
datos, la media (o promedio) se encuentra desplazada en una dirección u otra.

Además de atípicos, el tipo de variable utilizado en el conjunto de datos también afectará qué medida de
tendencia central será la ideal para representar los datos. Como se muestra en la Figura 3, la media o
promedio es especialmente útil cuando los datos son de intervalo sin asimetría.

Dispersión
Mientras que la media, o promedio, se utiliza actualmente para describir muchas distribuciones, deja fuera una
parte importante de la cuestión, que es la variabilidad de distribución. Por ejemplo, sabemos que los valores
atípicos pueden distorsionar la media. La mediana nos acerca a lo central en la distribución, sin embargo, aún
no sabemos cuán dispersos están los valores de la muestra.

La manera más básica de describir la variabilidad de una muestra es calcular la diferencia entre los valores
más altos y más bajos de una variable. Esta estadística se conoce como rango. Siempre es útil tener una idea
de cuáles son los valores más altos y más bajos de una variable como manera básica de saber si los datos
tienen sentido.

La variación (2) de la distribución es una medida de cuán lejos de la media está cada valor en un conjunto de
datos. En relación con la variación está la desviación estándar ( ). La desviación estándar se utiliza para
estandarizar distribuciones como parte de la curva normal, como se muestra en la Figura 1. La Figura 2
muestra de qué forma los valores de la desviación estándar se relacionan con la centralidad. Cuantos más
puntos de datos estén centrados en torno a la media, menor será la desviación estándar. Los valores de la
desviación estándar son más altos a medida que la distribución se vuelve más extensa.

La comparación de las desviaciones estándar entre dos ejemplos en la misma medida puede ayudar a contar
la historia de lo que sucede. Por ejemplo, si la media de las calificaciones de las evaluaciones en una escuela
es mayor que la de la misma evaluación en otra escuela, sería natural suponer que todos los estudiantes de la
primera escuela tienen mejores logros que los de la segunda escuela. Sin embargo, las desviaciones estándar
pueden agregar una capa adicional de interpretación a la historia. Si la desviación estándar de la primera
escuela es más alta para el primer grupo, esto dice que la distribución está más dispersa y que más
estudiantes tienen una calificación en los extremos de distribución. Es posible que un pequeño grupo de
alumnos con calificaciones muy altas haya afectado la media. Una investigación adicional muestra que un
programa especial para estudiantes dotados en la escuela ha elevado la media alejándola de la mediana.

Uso de pandas
Pandas es una biblioteca de código abierto para Python que agrega estructuras de datos de alto rendimiento y
herramientas para el análisis de grandes conjuntos de datos. Pandas es fácil de usar y es muy popular por
agregar capacidades adicionales a Python para el análisis de datos. Un enlace al proyecto de pandas se
muestra en la Figura 1.

Las estructuras de datos de pandas incluyen la serie y las estructuras de marco de datos. Los marcos de
datos son la principal estructura de pandas, además de lo más utilizado. Utilizaremos marcos de datos de
pandas a menudo en este curso. Un marco de datos es como una hoja de cálculo con filas y columnas.
Además, los marcos de datos pueden tener índices y columnas opcionales que son etiquetas para las filas y
columnas.

Los marcos de datos se construyen fácilmente de una variedad de otras estructuras de datos y archivos
externos, como csv. Hay una amplia variedad de métodos disponibles para objetos de marcos de datos. Las
filas y columnas se pueden manipular de diversas maneras y los operadores están disponibles para realizar
transformaciones matemáticas, de cadena y lógicas al contenido del marco de datos. La Figura 2 muestra los
componentes de un marco de datos.

Pandas se importa en un programa de Python mediante la importación, como otros módulos. Es convencional
utilizar import pandas as pd para facilitar la escritura de las referencias a los componentes de pandas. La
Figura 3 muestra el código requerido para crear el marco de datos que se muestra en la Figura 2.

Importación de datos de archivos


Los grandes conjuntos de datos se compilan de diversas fuentes y pueden existir como diferentes tipos de
archivos. La creación de un marco de datos de pandas para encriptar los valores de datos individualmente no
es muy útil para analizar datos masivos.

Pandas incluye algunas funciones muy fáciles de usar para importar datos de los archivos externos, como csv,
en los marcos de datos. Reconstruiremos el marco de datos de la guía telefónica, esta vez a partir de un
archivo csv más grande. Pandas incluye una función de marco de datos llamada read_csv() para este
propósito.

La figura ilustra el proceso de importación de datos de un archivo csv externo a pandas. El procedimiento es
el siguiente:

• Paso 1: Importe el módulo de pandas.

• Paso 2: Verifique que el archivo esté disponible en el directorio de trabajo actual. En este caso, el
comando de Linux head se utiliza para verificar el archivo y obtener una vista previa de su contenido.

• Paso 3: Para importar el archivo a un objeto de marco de datos, utilice el método read_csv() de pandas.
En este caso, el objeto de marco de datos se denomina directory_df.

• Paso 4: Siga el método de marco de datos info() de pandas para ver un resumen del contenido del
archivo.

• Paso 5: Muestre el marco de datos. En este caso, se utilizó el método head() para mostrar los
encabezados, el índice y los valores de las primeras cinco filas.
Importación de datos de Internet
Es muy sencillo importar datos de Internet con pandas. Aunque existen muchas interfaces de programa de
aplicaciones (API) disponibles para acceder a datos de red, incluidos los datos de transmisión, se puede
acceder también a los conjuntos de datos estáticos desde Internet según la URL del archivo. En el ejemplo
que se muestra en la figura, se importa un conjunto de datos a un conjunto de datos de la recopilación
extensiva en Humanitarian Data Exchange. Esta página web es un excelente recurso para personas
interesadas en explorar datos relacionados con inquietudes humanitarias internacionales. En este caso,
importamos un conjunto de datos que contiene información sobre el porcentaje de mujeres que trabajan en los
parlamentos nacionales para una serie de países durante un período de años. La información sobre este
conjunto de datos se puede encontrar aquí. El conjunto de datos se puede descargar aquí.

El proceso es simple:

• Paso 1 Importe pandas.

• Paso 2: Cree un objeto de cadena para contener la URL del archivo.

• Paso 3: Importe el archivo en un objeto de marco de datos mediante el método read_table() de pandas.
read_table() es esencialmente igual al método read_csv(), pero permite el uso de distintos
delimitadores. En este caso, especificamos la coma como el separador para demostrar cómo se
especifica un separador para este método.

• Paso 4: Verifique la importación con head() e info(). Observe que la salida de info() indica varios valores
faltantes (entradas nulas), que es la diferencia entre la cantidad total de entradas y la cantidad de
entradas no nulas para cada año.

Hay muchas fuentes de datos en Internet. Por ejemplo, los sitios como Google y Twitter tienen API que
permiten la conexión de los programas de Python a los datos de transmisión en vivo. Existen otras numerosas
bases de datos en línea que pueden direccionarse e insertarse directamente en los marcos de datos de
pandas utilizando un rango de métodos de pandas y los parámetros asociados.

Estadísticas descriptivas en pandas


Pandas proporciona una forma muy simple de ver las estadísticas descriptivas básicas para un marco de
datos. El método describe() para los objetos del marco de datos muestra lo siguiente para los tipos de datos
numéricos:

• count: esta es la cantidad de valores incluidos en las estadísticas.

• mean: este es el promedio de los valores.

• std: esta es la desviación estándar de la distribución.

• min: este es el valor más bajo de la distribución.

• 25%: este es el valor del primer cuartil. El 25 % de los valores se encuentran en o por debajo de este
valor.

• 50%: este es el valor para el segundo cuartil. El 50 % de los valores se encuentran en o por debajo de
este valor. También es el valor de la mediana.

• 75%: este es el valor para el tercer cuartil. El 75 % de los valores se encuentran en o por debajo de este
valor.

• max: este es el valor más alto de la distribución.


En el ejemplo de la figura, se utilizó el mismo conjunto de datos que en la página anterior. Sin embargo, esta
vez, solo la primera, la segunda y la séptima columna se han importado al marco de datos. Esto muestra el
nombre del país y el valor para los años 2015 y 2010. El método describe() se ejecuta en el marco de datos
resultante, y las estadísticas descriptivas se muestran para dos años. Esto permite una breve comparación de
los datos durante un período de cinco años.

Práctica de laboratorio: Estadísticas descriptivas en Python


En esta práctica de laboratorio, importará un conjunto de datos en un marco de pandas y generará
estadísticas descriptivas de los datos. Formateará cadenas de texto, informará las estadísticas descriptivas y
generará un diagrama de los datos. Por último, experimentará con los parámetros del gráfico para
familiarizarse con el trazado de datos mediante la biblioteca matplotlib.pyplot.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio: 3.1.4.6: Estadísticas descriptivas en Python.

Para tener una vista previa de esta práctica de laboratorio haga clic aquí.

Correlación frente a causalidad


“La correlación no implica causalidad” es una afirmación común sobre la interpretación del análisis estadístico.
Esto se debe a que la gente tiende a confundir los dos conceptos. ¿Qué es la causalidad? ¿Qué es la
correlación?

La causalidad y la correlación son tipos de relaciones entre condiciones o eventos. La causalidad es una
relación en la que una cosa cambia, o se crea, directamente debido a otra cosa. Por ejemplo, un aumento de
la temperatura mundial causa una disminución del casquete glaciar ártico. Esta es una relación intuitiva a la
tendencia. El aumento de la temperatura mundial también puede dar como resultado una reducción en el
consumo de lana para confeccionar ropa abrigada. Esta es también una relación intuitiva. Cuanto más cálida
sea la temperatura, menos demanda habrá de ropa abrigada.

La correlación es una relación entre fenómenos en la que dos o más cosas cambian a una velocidad similar.
Por ejemplo, la temperatura mundial y el consumo de lana están disminuyendo. Ambas cosas se
correlacionan de manera positiva, dado que cambian a una velocidad similar y en una dirección similar
(ambas disminuyen).

Es un problema, sin embargo, si decimos que una de estas cosas es causa de la otra. Es decir, una reducción
del consumo de lana no se puede considerar como causa de la reducción del hielo ártico. Esto es bastante
claro. Sin embargo, es menos intuitivo decir que una reducción del hielo ártico causa una reducción en la
producción de lana. Ambos fenómenos comparten la misma causa, pero es poco probable que la reducción
del hielo ártico haga que las personas sientan menos frío de modo de no necesitar ropa abrigada,
especialmente en lugares muy lejos del Ártico, como Sudáfrica.

Algunas personas han hecho un negocio de identificar y compartir correlaciones falsas. Muchos fenómenos
sin relación cambian de manera similar en el mismo período. Hay muchos ejemplos tomados por Tyler Vigen
en su sitio web. Tyler también ha escrito un libro que recopila muchos ejemplos de correlación incorrecta.

Coeficiente de correlación
Las correlaciones pueden ser positivas o negativas. Las cantidades correlacionadas positivamente cambian
en la misma dirección. Si una cantidad aumenta, la otra aumenta a un grado similar. La correlación negativa
se produce cuando las cantidades cambian en cierta proporción similar pero en direcciones opuestas. Es
decir, si una aumenta, la otra disminuye de manera similar.

Las correlaciones entre las cantidades pueden cuantificarse con los enfoques estadísticos. La estadística de
uso más frecuente para expresar la correlación es el coeficiente de correlación de producto-momento de
Pearson. Esto también se conoce como Pearson r. Pearson r es una cantidad que se expresa con un valor
entre -1 y 1. Los valores positivos expresan una relación positiva entre los cambios en dos cantidades. Los
valores negativos expresan una relación inversa. La magnitud de los valores positivos o negativos indica el
grado de correlación. Es decir que cuanto más cerca está el valor de 1 o -1, más fuerte es la relación. El valor
0 indica que no hay ninguna relación. La figura muestra los diagramas de dispersión de grupos pequeños de
datos que tienen correlación baja, positiva y negativa.

Un recurso interactivo excelente para ver ejemplos con diferentes valores de coeficiente de correlación puede
encontrarse aquí.

Correlación en pandas
Pandas tiene algunos métodos estadísticos maravillosos disponibles para los marcos de datos que son muy
fáciles de usar. Ha visto que el método describe() del marco de datos genera rápidamente estadísticas
descriptivas de resumen. El método corr() también es fácil de usar.

En el ejemplo de la figura, se ha creado un pequeño conjunto de datos de un conjunto de datos más grande
que describe los valores demográficos de la población de una serie de ciudades. Los datos se han
simplificado para contener solo dos campos, el porcentaje de personas que viven por debajo del umbral de la
pobreza en ingresos monetarios y el porcentaje de personas que están desempleadas. No debe ser sorpresa
que estos dos campos deberían mostrar una correlación fuerte. Esto significa que se supone que para una
ciudad donde muchas personas viven en la pobreza, el desempleo también será alto.

En el ejemplo de pandas en la figura, un archivo csv que contiene los datos se importa a un marco de datos.
Los datos se marcan con rapidez mediante los métodos head() y describe() para verificar que la importación
haya funcionado según lo esperado. Finalmente, el método corr() se ejecuta para el marco de datos. El
resultado se muestra en una tabla de correlación. Podemos ver que con un coeficiente de correlación de 0,73,
el desempleo tiene de hecho una relación fuerte con la pobreza.

Visualizaciones adecuadas
Las correlaciones se pueden calcular para varias variables simultáneamente. Esto hará que los coeficientes
de correlación se computen entre todos los campos proporcionados al marco de datos. Los resultados de esto
pueden ser una tabla grande de coeficientes de correlación. Una visualización llamada mapa de calor es útil
para comprender cómo los valores de los coeficientes de correlación se relacionan entre sí.

Como vimos en el ejemplo anterior, los diagramas de dispersión son útiles para mostrar rápidamente la
correlación posible en un conjunto de datos. En un mapa de calor, los campos de datos forman etiquetas
horizontales y verticales para una red de valores. Cada valor de celda es el coeficiente de correlación para un
campo en la dimensión horizontal de la red con un campo en el eje vertical. El valor de la intersección de las
dimensiones seleccionadas es el coeficiente para ese par de valores. Para seguir contribuyendo en la
interpretación de los datos, los valores de correlación están codificados por colores. La intensidad o el matiz
de color para cada valor es proporcional a ese valor. Por ejemplo, todos los coeficientes de correlación
negativos se pueden presentar en un tono de rojo y todos los positivos en un tono de azul. Cuanto más
profundo es el color, más cercano está el valor a 1 o -1. Esto ayuda a aportar un significado a partir de los
datos de correlación.

Práctica de laboratorio: Análisis de correlación en Python


En esta práctica de laboratorio, aprenderá a usar Python para calcular la correlación. En la Parte 1,
configurará el conjunto de datos. En la Parte 2, aprenderá a identificar si las variables de un conjunto de datos
determinado son correlacionables. Por último, en la Parte 3, utilizará Python para calcular la correlación entre
dos conjuntos de variables.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione Práctica de laboratorio 3.1.5.5: Análisis de correlación en Python

Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.
Problemas con la calidad de los datos
Esta sección se centra en algunas de las aptitudes necesarias para completar la práctica de laboratorio final
de este capítulo. Esta práctica de laboratorio se centra en análisis, informes y visualización básicos de datos
del contador de Internet similares a aquellos recopilados en prácticas de laboratorio anteriores. Antes de
completar los análisis y las visualizaciones, los datos deben estar preparados.

Ha sido hasta ahora relativamente fácil llevar un conjunto de datos a pandas. Usted elige una parte de esos
datos y actúa en ellos para lograr un análisis significativo como estadísticas descriptivas y correlaciones
simples. Esto puede resultar confuso. A menudo, los conjuntos de datos en los que trabajará tendrán
incompatibilidades, como formato incorrecto o incoherente, información no deseada e incluso partes faltantes
de información en los datos. Es la tarea preliminar del analista de datos limpiar los datos en el conjunto de
datos.

Los datos de limpieza pueden incluir eliminar valores faltantes o no deseados, o alterar el formato de los
valores para volverlos uniformes. Por ejemplo, se espera que un conjunto de datos devuelva datos en formato
de números enteros, pero algunos de los valores se devuelven en forma de flotantes o cadenas. ¿Cómo se
encargará de los valores errantes que están mal formateados? Debe convertir o limpiar esos casos
particulares de datos.

Manejo de datos faltantes


Un ejemplo de un conjunto de datos que necesita limpieza preliminar es un conjunto de datos con la presencia
de valores NaN. NaN (Not a Number, "no es un número") se utiliza para representar los datos que son
indefinidos o no pueden representarse. Pandas se refiere a los datos faltantes como valores NaN, que
también se conocen comúnmente como valores NA. NaN puede hacer que las funciones de análisis de datos
terminen de forma abrupta durante los cálculos, tiren errores o produzcan resultados incorrectos. NaN también
se puede utilizar específicamente para representar uniformemente toda la información que falta en el conjunto
de datos, ya sean valores incorrectos o nulos, o datos que simplemente no están presentes. Muchos
conjuntos de datos tienen datos faltantes porque los datos no se recopilaron correctamente o faltaban desde
el principio. Otra causa común de NaN es la reindexación de los datos en un conjunto de datos. Vea el
ejemplo en la Figura 1.

Los valores faltantes pueden tomar diferentes formas según el tipo de datos. Los tipos de datos de pandas
son: objetos/cadenas, int64/números enteros, float64/flotantes y datatime64/marcas de hora. NaN se utiliza
para cadenas, números enteros y flotantes indefinidos, y NaT se utiliza para las marcas de hora. Puede haber
situaciones donde el valor de Python None también represente datos faltantes.

Para que sea más fácil detectar valores faltantes en un conjunto de datos, pandas proporciona las funciones
isnull() y notnull() (Figura 2).

Para eliminar valores nulos o NaN del marco de datos, utilice la función dropna() (Figura 3).

Conversión de tipos de datos


Pandas tiene muchas características integradas para convertir los tipos de datos. Como se mencionó antes,
los tipos de datos de pandas son: objetos/cadenas, int64/números enteros, float64/flotantes y
datatime64/marcas de hora. En este ejemplo, se convierten tipos de datos en un conjunto de datos de
muestra. Abra un nuevo iPython Notebook e ingrese los siguientes comandos. En la Figura 1, observe cómo
el conjunto de datos de datos2 está conformado por números enteros, cadenas y flotantes. Además, observe
cómo cada columna se representa con un tipo de datos. Ahora cambiará la columna 2 de un tipo de datos de
objeto/cadena a un tipo de datos numérico.

En la Figura 2, la función convert_objects convierte la columna 2 de una cadena/objeto a un tipo de datos


numérico. En la Figura 3, observe cómo la columna 2 se terminó convirtiendo en flotantes. Esto fue debido a
la presencia de la cadena «0,33» en la columna 2. Si la cadena hubiera sido «33» entonces la columna se
habría convertido en números enteros. Si la cadena hubiera sido “x” en lugar de «0,33» la conversión habría
producido un error debido a la incapacidad para convertir “x” en un valor numérico, en un número entero o en
un flotante.

En la Figura 4, los datos en la columna 3 se convierten del tipo de datos float64 al tipo de datos de objeto
(cadena). La propiedad dtypes se utiliza para verificar que el tipo de datos haya cambiado.
En la Figura 5, los datos en la columna 1 se convierten del tipo de datos int64 al tipo de datos float64. La
propiedad dtypes se utiliza para verificar que el tipo de datos haya cambiado.

Manipulación de marcos de datos


Limpiar el conjunto de datos es una tarea preliminar antes de que pueda realizarse el análisis de datos. La
manipulación de un marco de datos bidimensional mediante pandas en Python puede implicar descartar,
agregar o renombrar columnas o filas de datos. Para hacerlo, invoque la función drop(), la función loc() y la
función rename().

Para descartar una columna de datos, invoque la función drop() o el comando del. En la Figura 1, se crea un
conjunto de datos simple. En las figuras siguientes, las columnas y filas se descartarán y se agregarán
mediante las funciones drop() y add().

En la Figura 2, la columna 1 se elimina mediante la función drop(). El eje hace referencia a las columnas
numeradas de izquierda a derecha, comenzando por la columna de índice en en eje=0 y la columna uno en el
eje=1.

El mismo resultado se puede lograr con el comando del.

del df3[‘one’]

Ahora descarte las primeras dos filas (0,1) con la siguiente función drop(), donde [0,1] son las filas que se
descartarán y el eje=0 se refiere a la columna de índice del extremo izquierdo (Figura 3).

Puede agregar una columna al asignarle una etiqueta. También puede asignar un valor (Figura 4).

Para agregar una fila, puede utilizar el método de ubicación o loc(). En la Figura 5, el método de ubicación
también halla el índice máximo o el último número de fila y luego le agrega 1, para crear así la fila 3.

Si simplemente ejecuta la función loc() y le pasa un número de índice, se adjuntará como una nueva fila
inferior (Figura 6). Observe cómo la fila que se agregó está numerada como 1 aunque es la última fila.

Puede cambiar el índice si le asigna nuevos valores de índice con la propiedad index del marco de datos
(Figura 7).

Junto con las funciones drop() y loc(), pandas también ofrece la función rename(). Puede usar la función
rename para cambiar el nombre de las etiquetas de la columna por “una”, “dos” y “tres” respectivamente. Para
hacerlo, utilice la función rename y asigne las columnas en un par clave:valor con el antiguo nombre y el
nuevo nombre como el par clave:valor (Figura 8).

Estadísticas de datos básicas


Pandas tiene funciones incorporadas para ejecutar el análisis estadístico en los conjuntos de datos, incluidas
funciones para calcular los promedios, las desviaciones estándar y las correlaciones.

En la Figura 1, se crea un conjunto de datos y un marco de datos de pandas mediante la matriz de números
data4. El marco de datos se imprime en la pantalla mediante la ejecución de la celda de código.

En la Figura 2, la media, o promedio, de todos los números se calcula utilizando el método mean() del marco
de datos. La media es 6,863636. Con sintaxis de puntos, el resultado también se puede redondear al número
entero más cercano si se adjunta el método round() después de mean().

En la Figura 3, las medias se calculan manualmente primero mediante el método sum() para agregar todos los
números del conjunto de datos, y se dividen por el método count() que cuenta la cantidad de elementos en el
conjunto de datos.

En la Figura 4, el valor de la mediana, o el punto medio, se calcula mediante el hallazgo del valor del punto
medio de todos los números contados en el conjunto de datos. Si el conjunto de datos tiene un número impar
de elementos, la mediana es el número del punto medio clasificado por orden numérico. Si el conjunto de
datos tiene un número par de elementos, la mediana se calcula a partir de las medias de los dos números del
punto medio.

El segundo cuadro muestra el método std() para calcular la desviación estándar. La desviación estándar
muestra la cantidad de variación en los valores de un conjunto de datos. Una desviación estándar baja indica
que los números en el conjunto de datos tienden a estar más cerca de la media. La desviación estándar se
halla mediante la raíz cuadrada del promedio de las desviaciones al cuadrado de los valores de la media o
promedio en el conjunto de datos.

Práctica de laboratorio: Visualización del contador de Internet


En esta práctica de laboratorio, aprenderá a utilizar la biblioteca de pandas para realizar los pasos
preliminares que son necesarios antes de realizar cualquier análisis de datos. Esto incluye la eliminación de
valores faltantes, el cambio de formato de datos y la ejecución de análisis estadístico preliminar. Después de
limpiar los datos, utilizará matplotlib para la exploración y visualización de datos.

Utilice el iniciador PL-App para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione Práctica de laboratorio 3.2.1.6: Visualización del contador de Internet.

Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.

Capítulo 3: Análisis de datos


Este capítulo comenzó con una gran sección sobre el análisis de datos exploratorio. El análisis de datos
exploratorio es un conjunto de procedimientos diseñados para producir resúmenes descriptivos y gráficos de
datos bajo el concepto de que los resultados pueden revelar patrones interesantes. Al realizar a cualquier tipo
de prueba o de análisis, es importante definir las características clave que se deben medir u obtener para
responder las preguntas formuladas o crear la hipótesis necesaria. Estas características que se estudiarán se
denominan variables. Una variable es algo que varía de una instancia a otra. No solo es una variable algo que
se puede medir, sino que su valor también puede manipularse o controlarse. Las variables categóricas indican
pertenencia a un grupo determinado y tienen un valor cualitativo discreto o específico. Se clasifican, además,
en dos tipos: nominales y ordinales. Las variables numéricas son valores cuantitativos que se categorizan
además como continuas o discretas.

Las estadísticas son la recopilación y el análisis de datos mediante técnicas matemáticas. Esto también
incluye la interpretación de datos y la presentación de las conclusiones. Otro uso de las estadísticas es
detectar los patrones o las relaciones entre las variables y evaluar esos patrones para ver con qué frecuencia
surgen. Las estadísticas y el análisis son términos que se intercambian a menudo, pero son algo diferentes. El
análisis adopta generalmente un dominio de herramientas más amplio que las estadísticas. El análisis utiliza
las herramientas de modelado matemático en las estadísticas además de otras formas de análisis, como el
aprendizaje automático. El análisis también puede incluir el trabajo con conjuntos de datos muy grandes que
incluyen datos no estructurados.

Una población es un grupo de entidades similares como personas, objetos o eventos, que comparten un
conjunto de características común que se puede utilizar para fines estadísticos o de investigación. Las
estadísticas descriptivas se usan para describir o resumir los valores y las observaciones de un conjunto de
datos. Las estadísticas inferenciales consisten en el proceso de recopilar, analizar e interpretar los datos
recolectados de un ejemplo para hacer generalizaciones o predicciones sobre una población. Si una población
es demasiado grande para utilizarse, un grupo representativo de la población se puede utilizar para el análisis.
Este grupo se denomina muestra. Las muestras se eligen a menudo para representar la mayor población
posible de alguna manera.

Varios tipos de análisis del aprendizaje inferencial y automático son muy utilizados en el análisis de datos
masivos:

• Clúster: se utiliza para encontrar grupos de observaciones que son similares entre sí
• Asociación: se utiliza para encontrar apariciones concurrentes de valores de diferentes variables

• Regresión: se utiliza para cuantificar la relación, de haber alguna, entre las variaciones de una o más
variables

En un nivel básico, la distribución es una asociación simple entre un valor y la cantidad o el porcentaje de
veces que aparece en una muestra de datos. Las distribuciones son útiles para comprender las características
de una muestra de datos. Una característica de las distribuciones de uso frecuente son las medidas de
tendencia central. Estas medidas expresan los valores que tiene una variable más cercanos a la posición
central en una distribución de datos. Las medidas comunes de centralidad son la media, la mediana y la
moda. La desviación estándar se utiliza para estandarizar las distribuciones como parte de la curva normal.
Cuantos más puntos de datos estén centrados en torno a la media, menor será la desviación estándar. Los
valores de la desviación estándar son más altos a medida que la distribución se vuelve más extensa.

Pandas es una biblioteca de código abierto para Python que agrega estructuras de datos y herramientas para
el análisis de grandes conjuntos de datos. Pandas incluye algunas funciones muy fáciles de usar para
importar datos de los archivos externos, como csv, en los marcos de datos. Pandas proporciona una forma
muy simple de ver las estadísticas descriptivas básicas para un marco de datos. El método describe() para los
objetos del marco de datos muestra lo siguiente para los tipos de datos numéricos, incluidos count, mean, std,
min, 25%, 50%, 75% y max.

La sección se cierra con una explicación de la causalidad y la correlación. Ambas son tipos de relaciones
entre condiciones o eventos. La causalidad es una relación en la que una cosa cambia, o se crea,
directamente debido a otra cosa. La correlación es una relación entre fenómenos en la que dos o más cosas
cambian a una velocidad similar. Las correlaciones pueden ser positivas o negativas. Las cantidades
correlacionadas positivamente cambian en la misma dirección. Si una cantidad aumenta, la otra aumenta a un
grado similar. La correlación negativa se produce cuando las cantidades cambian en cierta proporción similar
pero en direcciones opuestas. Es decir, si una aumenta, la otra disminuye de manera similar. Una
visualización llamada mapa de calor es útil para comprender cómo los valores de los coeficientes de
correlación se relacionan entre sí. Los diagramas de dispersión son útiles para rápidamente mostrar la
correlación posible en el conjunto de datos. En un mapa de calor, los campos de datos forman etiquetas
horizontales y verticales para una red de valores.

En la sección final de este capítulo se analizaron la preparación para las prácticas de laboratorio del contador
de Internet y el análisis básico con pandas. A menudo, los conjuntos de datos en los que trabajará tendrán
incompatibilidades, como formato incorrecto o incoherente, información no deseada e incluso partes faltantes
de información en los datos. Es la tarea preliminar del analista de datos limpiar los datos en el conjunto de
datos.

Los datos de limpieza pueden incluir eliminar valores faltantes o no deseados, o alterar el formato de los
valores para volverlos uniformes. Un ejemplo de un conjunto de datos que necesita limpieza preliminar es un
conjunto de datos con la presencia de valores NaN (Not a Number, "no es un número"). NaN se utiliza para
representar los datos que son indefinidos o no pueden representarse. NaN puede hacer que las funciones de
análisis de datos terminen de forma abrupta durante los cálculos, tiren errores o produzcan resultados
incorrectos. Pandas tiene muchas características integradas para convertir los tipos de datos. Pandas tiene
funciones incorporadas para ejecutar el análisis estadístico en los conjuntos de datos, incluidas funciones para
calcular los promedios, las desviaciones estándar y las correlaciones.

También podría gustarte