Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este post es un resumen de los gráficos estadísticos más útiles para visualizar
tus datos y ser un poco más feliz al traducir tus datos en información interpretable.
He dividido esta lista en dos grandes grupos.
Pueden ser cuantificadas. Numéricas. Como por ejemplo, la altura, el peso, la edad.
Variables numéricas
Te voy a compartir los gráficos estadísticos más interesantes para variables que
expresan cantidad. Las variables numéricas o también llamadas cuantitativas.
#1 Histograma
El histograma es la herramienta fundamental de la estadística descriptiva.
Resume la variable numérica de un modo sencillo y eficaz. Utiliza las famosas tablas
de frecuencias.
Recuerda que un diagrama de frecuencias es un histograma que en lugar de
barras utiliza una línea para unir estas barras entre ellas. La línea roja que ves
que recorre las alturas de las barras forma el diagrama de frecuencias.
Otra de las ventajas del histograma es que te permite entender qué es una función
de densidad de probabilidad. Es un concepto mucho más abstracto y muy
importante. Si quieres saber más te recomiendo este post.
#2 Boxplot
Otra de las herramientas por excelencia es el boxplot. Esta herramienta te
permite visualizar la variable numérica con medidas de dispersión. Se basa en
los cuartiles.
La peculiaridad que tiene es que trabajas con más de una variable. Estás
representando en dos dimensiones:
Una de las series temporales más famosas y polémicas del del mundo es Hockey
stick graph. Este gráfico demuestra en una sola gráfica el calentamiento global de
la tierra. El cambio climático.
Puedes ver la evolución de la temperatura media de la tierra desde el año 1000
hasta el año 2000. La temperatura de hace siglos se ha extraído del estudio de un
tipo de árboles milenarios.
.
Si pintas frecuencias en función de las clases obtendrás el diagrama de
frecuencias del que te estaba hablando. Fácil.
#4 Scatter
El scatter o nube de puntos también es un gráfico de dos variables. El concepto es
el mismo que el anterior. Pero en lugar de unir los puntos con una línea, se dejan los
puntos o crucecitas.
Este gráfico es muy útil para intuir cómo se relaciona una variable numérica con
otra rápidamente. En la regresión lineal es muy usado para intuir correlaciones
o relaciones lineales.
Si eres curioso y te mola saber qué pasa cuando tienes 3 variables y las quieres
relacionar, también puedes hacer un scatter plot en 3 dimensiones. A veces puede ir
bien, pero a los seres humanos nos gusta simplificar y utilizar el papel 🙂
#5 Matrix plot
Este gráfico se utiliza para graficar 3 o más variables entre sí. Relaciona una variable
con las otras en 2D. Mira este ejemplo y lo verás.
Si quieres más detalles aquí puedes ver como se puede estimar la densidad de
probabilidad.
## Variables categóricas
Las variables categóricas expresan cualidades o etiquetas. Por ejemplo: el país de
procedencia, la calidad del vino (bueno, mal, regular), si es fumador o no fumador, si
tiene cardiopatía o no…
#1 Diagrama de barras
Uno de los gráficos más interesantes es pintar los grupos basados en categorías en
forma de barras. Con este ejemplo lo puedes ver muy claro.
Es la parte más divertida del análisis de datos y dónde juegas más con el niño que
llevas dentro descubriendo con cada gráfico algo nuevo.
Gráficos que puedes utilizar para variables cuantitativas y observar la forma de las
distribuciones. Incluso por grupos para poder compararlos.
Enlaces a la los gráficos:
Violin
Density
Histogram
Boxplot
Ridgeline
Para lograr encontrar estas relaciones de forma elegante puedes utilizar este conjunto
de gráficos que propone R-Gallery:
Scatter
Heatmap
Correlogram
Bubble
Connected scatter
Density 2d
Gráficos de ranking (normalmente variables cualitativas o discretas)
Otros gráficos interesantes son los gráficos para visualizar el orden de las variables
(normalmente cualitativas o discretas)
Por ejemplo, podríamos utilizar este tipo de gráficos estadísticos para visualizar el
equipo de baloncesto más ganador de la última década.
Barplot
Spider / Radar
Wordcloud
Parallel
Lollipop
Circular Barplot
Otro tipo de gráficos que propone R-Gallery son los gráficos de particiones. Es decir,
el típico gráfico de pastel que vemos en las elecciones para visualizar los partidos
más votados o con más escaños. A parte del diagrama de pastel tenemos otros
Aquí una lista con los enlaces de los gráficos más utilizados:
¡He pasado muchas horas creando este tipo de gráficos! Son muy simples y sencillos
para visualizar qué ocurre en el tiempo con nuestras variables cuantitativas.
Line plot
Area
Stacked area
Streamchart
Time Series
Mapas
Map
Choropleth
Hexbin map
Cartogram
Connection
Bubble map
Gráficos de flujo
Se trata de que puedas visualizar la conexión entre dos estados. Por ejemplo,
¿después de ir de compras en Zara es probable que vayas a un restaurante cercano?
¿O no?
Este tipo de conexión se puede visualizar con los gráficos de flujo. Se han puesto muy
de moda con el tema de tener datos de localizadores de móviles para poder estudiar
el movimiento más común.
Lista de ejemplos:
Chord diagram
Network
Sankey
Arc diagram
Los dos atributos de la distribución: el valor
central y la dispersión
Ya te hablé en algún post sobre el valor central y la dispersión de los datos.
En un histograma puedes intuir más o menos dónde está el centro a ojo. Y más o
menos saber la dispersión que tienen los datos de la media. En esta imagen lo
puedes ver:
Ahora ya tienes la idea intuitiva de centralidad y dispersión. ¿Pero qué tal si vas un
paso más allá? ¿Qué tal si cuantificas (le pones un número) a la dispersión y al valor
central?
# ¿Cómo puedes medir el centro de la
distribución?
Hay dos maneras de calcular el valor central:
La media:
Tenemos
La mediana
La mediana la calculas a partir de la posición de los datos. Ordenas los datos de
menor a mayor y buscas el valor que está en medio. Este valor es la mediana.
Hay dos situaciones:
Media: 66.21 kg
Mediana: 67.14 kg
La desviación típica
Una forma intuitiva de verla es como la distancia media entre los datos y la media.
Te dice «cuanto de verdadera» es la media con los datos que tienes.
La varianza vale 399.82 kg^2. Fíjate que no tiene sentido real. 399.82 Kg^2 es un
valor súper alto. Se utiliza la raíz cuadrada para obtener las unidades en un sentido
El rango intercuartílico:
Se trata de dividir los datos ordenados de menor a mayor en 4 grupos iguales y
observar la distancia que separa los grupos extremos. Te pongo una receta
En este caso no utilizas nada de fórmulas. Sólo hace falta ordenar y calcular los
cuartiles Q3 y Q1.
Valor central
Media: 66.21 kg
Mediana: 67.14 kg
Dispersión
Pues existe una regla muy muy interesante para este tipo de distribuciones “normales”
basada en la experiencia 😉
Puede ser útil saber cuantas desviaciones típicas dista un punto de la media. Es
aquí la idea de la estandarización. Usando esta transformación sabrás cuántas
desviaciones típicas dista un punto de la media.
Por ejemplo, una persona que pesa 92 kg, ¿cuánto distará de la media? Puedes
Fuente: wikipedia
# Un resumen…
1. Te he mostrado cómo se calcula el valor central. Dos formas de calcular: la
media y la mediana
2. Dos formas de calcular la dispersión: la desviación típica y el rango
intercuartílico.
3. La media y la desviación típica son valores fantásticos para histogramas en
forma de montaña, simétricos (curiosamente son los que se repiten más ).
4. Te he enseñado el histograma en forma de montaña y Z, una variable que
indica a cuántas desviaciones típicas de la media se encuentra una
observación.
En este ejemplo, se trata de ver cómo afecta la edad a la frecuencia cardíaca máxima
y construir un modelo predictivo.
Para construir este tipo de modelos tenemos que pensar en forma de caja entrada
salida:
Vamos allá.
Es sencillo.
Y es negativo.
¡Si!
Este valor que acabas de calcular es el valor predicho por el modelo. (Calculado)
Entonces, como toda predicción tiene un error. Puedes calcular el error o residuo del
modelo.
Te he preparado un vídeo con un ejemplo paso a paso para que veas cómo
interpretar un modelo estadístico.
¡Adelante!