Está en la página 1de 30

10 gráficos estadísticos para sacar

petróleo de tus datos antes de


analizar nada – Estadística descriptiva
Parte 3
Por Jordi Ollé
¿Cuántas veces has empezado por buscar en tus apuntes cuál es el test que puedes
aplicar? ¿Cuántas veces antes de ver cómo son los datos ya quieres aplicar una
técnica de análisis? ¡Espera! Utiliza este listado de gráficos estadísticos y te aseguro
que vas a sacar petróleo. Tendrás una información muy interesante antes de analizar
tus datos. ¡No los olvides!

Este post es un resumen de los gráficos estadísticos más útiles para visualizar
tus datos y ser un poco más feliz al traducir tus datos en información interpretable.
He dividido esta lista en dos grandes grupos.

1. Los gráficos que trabajan con variables numéricas o cuantitativas


2. Los gráficos que trabajan con variables categóricas o nominales
Recuerda que una variable es una observación de fenómenos reales.

Pueden ser cuantificadas. Numéricas. Como por ejemplo, la altura, el peso, la edad.

O pueden ser nombres, etiquetas… Categóricas. El país, el sexo, fumador o no


fumador. Dependiendo de qué variable tengas usaremos un tipo de gráfico u otro.
Vamos a ver en este post las herramientas gráficos para estos dos grupos de
variables:

Variables numéricas
Te voy a compartir los gráficos estadísticos más interesantes para variables que
expresan cantidad. Las variables numéricas o también llamadas cuantitativas.

#1 Histograma
El histograma es la herramienta fundamental de la estadística descriptiva.
Resume la variable numérica de un modo sencillo y eficaz. Utiliza las famosas tablas
de frecuencias.
Recuerda que un diagrama de frecuencias es un histograma que en lugar de
barras utiliza una línea para unir estas barras entre ellas. La línea roja que ves
que recorre las alturas de las barras forma el diagrama de frecuencias.

Otra de las ventajas del histograma es que te permite entender qué es una función
de densidad de probabilidad. Es un concepto mucho más abstracto y muy
importante. Si quieres saber más te recomiendo este post.
#2 Boxplot
Otra de las herramientas por excelencia es el boxplot. Esta herramienta te
permite visualizar la variable numérica con medidas de dispersión. Se basa en
los cuartiles.

Es una herramienta fantástica para comparar distintos grupos. Distintas variables


numéricas. En este post te explico un poco más sobre esta herramienta
#3 Diagrama de líneas
El gráfico de líneas es realmente sencillo. Un diagrama de frecuencias es un
diagrama de líneas, por ejemplo.

La peculiaridad que tiene es que trabajas con más de una variable. Estás
representando en dos dimensiones:

1. En el eje vertical ‘Y’ sitúas la variable numérica que quieres visualizar


2. Y en el eje horizontal ‘X’ sitúas una escala. Me explico: los meses del año,
días de la semana, etc… Es una escala de tiempo.
Como te decía, si en el eje ‘X’ pones la escala de tiempo de tu tiempo, crearás un
gráfico de líneas en el tiempo. Es conocido con el nombre de serie temporal.
Representas tu variable numérica en función del tiempo.

Una de las series temporales más famosas y polémicas del del mundo es Hockey
stick graph. Este gráfico demuestra en una sola gráfica el calentamiento global de
la tierra. El cambio climático.
Puedes ver la evolución de la temperatura media de la tierra desde el año 1000
hasta el año 2000. La temperatura de hace siglos se ha extraído del estudio de un
tipo de árboles milenarios.

.
Si pintas frecuencias en función de las clases obtendrás el diagrama de
frecuencias del que te estaba hablando. Fácil.

Este tipo de gráficos es fantástico para comparar diferentes variables en un solo


gráfico.

#4 Scatter
El scatter o nube de puntos también es un gráfico de dos variables. El concepto es
el mismo que el anterior. Pero en lugar de unir los puntos con una línea, se dejan los
puntos o crucecitas.

Este gráfico es muy útil para intuir cómo se relaciona una variable numérica con
otra rápidamente. En la regresión lineal es muy usado para intuir correlaciones
o relaciones lineales.

Fuente: wikipedia regresión lineal

Si eres curioso y te mola saber qué pasa cuando tienes 3 variables y las quieres
relacionar, también puedes hacer un scatter plot en 3 dimensiones. A veces puede ir
bien, pero a los seres humanos nos gusta simplificar y utilizar el papel 🙂
#5 Matrix plot
Este gráfico se utiliza para graficar 3 o más variables entre sí. Relaciona una variable
con las otras en 2D. Mira este ejemplo y lo verás.

El diagrama de puntos son scatters 2D de parejas de variables. Además el matrixplot


tiene la peculiaridad de poner el histograma para ver la distribución de la variable
numérica. Podrás visualizar también la distribución de un vistazo.
Es muy útil utilizar este tipo de gráficos cuando tienes varias variables numéricas.
Puedes intuir muy rápidamente la relación entre variables.
#6 Mapa de correlaciones
Añado un gráfico muy interesante. Aún no te he contado que es la correlación. Pero el
concepto es simple. Es un numerito que te dice cómo depende una variable de
manera lineal.

En este caso la dependencia es lineal y la correlación es alta.

Fuente: wikipedia regresión lineal

Una correlación baja sería este ejemplo.


El mapa de correlaciones nos indica en colorines las variables que están más
correlacionadas que las otras.

Cuando el color es más cercano a 1, la correlación es más evidente. Ya explicaré más


con detenimiento este concepto en otro post.

#7 Histograma + densidad de probabilidad


Como te he contado, el histograma nos lleva directamente a ver cómo está distribuida
la variable numérica.

Una buena práctica es dibujar la variable numérica con la estimación de la


densidad de probabilidad. De esta manera puedes saber cómo se ve la variable
numérica.

Si quieres más detalles aquí puedes ver como se puede estimar la densidad de
probabilidad.
## Variables categóricas
Las variables categóricas expresan cualidades o etiquetas. Por ejemplo: el país de
procedencia, la calidad del vino (bueno, mal, regular), si es fumador o no fumador, si
tiene cardiopatía o no…

Te muestro los gráficos más interesantes de las variables categóricas:

#1 Diagrama de barras

Uno de los gráficos más interesantes es pintar los grupos basados en categorías en
forma de barras. Con este ejemplo lo puedes ver muy claro.

Aquí simplemente estás contando el número de girafas, orangutanes y monos que


tienes en el zoo. Los grupos o categorías son tres en este caso.
#2 Diagrama de sectores
Es igual que el ejemplo anterior. Pero se pinta en forma de pastel. Normalmente se
expresa en forma de frecuencia relativa. En proporción. En porcentaje. Es muy
típico en política. Los que han votado al PSOE, PP, ERC etc…
# 3 Grafico de cotizaciones
Éste es un gráfico también cualitativo expresado en forma de polígono. Es utilizado
para vender los resultados de una manera muy interesante. Compara por ejemplo
diferentes productos con sus cualidades. O diferentes tratamientos, si es efectivo,
caro, etc.

Se trata de graficar teniendo en cuenta las características de lo que quieras


comparar: de los distintos métodos, productos, tratamientos, fármacos.
Lista de gráficos estadísticos con R-Gallery y cómo
implementarlos en la práctica

R-Gallery dónde encontrar toda la información de


los gráficos
Para mi R-Gallery es un lugar de referencia para entender los gráficos y encontrar
ideas interesantes para tus proyectos y además si utilizas R o Python como
herramientas de ciencia de datos es un lugar que te recomiendo tener en favoritos.

 Entra en la web r-gallery → https://www.r-graph-gallery.com/


Enlazada con esta web está data-to-viz que se dedica en más profundidad a explicar
los gráficos con pequeños ejemplos y te aporta una hoja de ruta de en qué
situaciones aplicar cada gráfico.

Te lo explico al final del artículo:

 Entra en la web data-to-viz → https://www.data-to-viz.com/

Lista de gráficos por funcionamiento con ejemplos


de R-Gallery
De gráficos pueden existir los que quieras y más. Pero normalmente se basan en
unos pocos y estos se combinan entre sí para hacer lo que te plazca con los datos.

Es la parte más divertida del análisis de datos y dónde juegas más con el niño que
llevas dentro descubriendo con cada gráfico algo nuevo.

A continuación te muestra una posible clasificación o lista de gráficos estadísticos


que he encontrado en una web que para mi es de referencia en mayúsculas: R-
GALLERY

Te trato de resumir la clasificación que proponen en R-GALLERY:

Gráficos de distribución (variables continuas)

Gráficos que puedes utilizar para variables cuantitativas y observar la forma de las
distribuciones. Incluso por grupos para poder compararlos.
Enlaces a la los gráficos:

 Violin
 Density
 Histogram
 Boxplot
 Ridgeline

Lista de gráficos estadísticos de Correlación (variables continuas)

La asociación entre variables cuantitativas es la llamada correlación. Es una medida


o concepto súper interesante para que puedas encontrar patrones basadas en las
relaciones cruzadas entre tus variables.

Para lograr encontrar estas relaciones de forma elegante puedes utilizar este conjunto
de gráficos que propone R-Gallery:

 Scatter
 Heatmap
 Correlogram
 Bubble
 Connected scatter
 Density 2d
Gráficos de ranking (normalmente variables cualitativas o discretas)

Otros gráficos interesantes son los gráficos para visualizar el orden de las variables
(normalmente cualitativas o discretas)

Por ejemplo, podríamos utilizar este tipo de gráficos estadísticos para visualizar el
equipo de baloncesto más ganador de la última década.

Aquí la lista de gráficos de ranking:

 Barplot
 Spider / Radar
 Wordcloud
 Parallel
 Lollipop
 Circular Barplot

Lista de gráficos estadísticos de particiones (cualitativas)

Otro tipo de gráficos que propone R-Gallery son los gráficos de particiones. Es decir,
el típico gráfico de pastel que vemos en las elecciones para visualizar los partidos
más votados o con más escaños. A parte del diagrama de pastel tenemos otros
Aquí una lista con los enlaces de los gráficos más utilizados:

 Grouped and Stacked barplot


 Treemap
 Doughnut
 Pie chart
 Dendrogram
 Circular packing

Lista de gráficos estadísticos de Evolución (normalmente


dependencia en el tiempo)

¡He pasado muchas horas creando este tipo de gráficos! Son muy simples y sencillos
para visualizar qué ocurre en el tiempo con nuestras variables cuantitativas.

Por ejemplo, cómo evolucionan en el tiempo los índices bursátiles.

Listo los ejemplos que R-Gallery nos propone:

 Line plot
 Area
 Stacked area
 Streamchart
 Time Series

Mapas

También podemos visualizar las variables a través de mapas. En un mundo


globalizado cada vez es más interesante poder utilizar este tipo de gráficos.
Algunos ejemplos:

 Map
 Choropleth
 Hexbin map
 Cartogram
 Connection
 Bubble map

Gráficos de flujo

Se trata de que puedas visualizar la conexión entre dos estados. Por ejemplo,
¿después de ir de compras en Zara es probable que vayas a un restaurante cercano?
¿O no?

Este tipo de conexión se puede visualizar con los gráficos de flujo. Se han puesto muy
de moda con el tema de tener datos de localizadores de móviles para poder estudiar
el movimiento más común.

Lista de ejemplos:

 Chord diagram
 Network
 Sankey
 Arc diagram
Los dos atributos de la distribución: el valor
central y la dispersión
Ya te hablé en algún post sobre el valor central y la dispersión de los datos.

En un histograma puedes intuir más o menos dónde está el centro a ojo. Y más o
menos saber la dispersión que tienen los datos de la media. En esta imagen lo
puedes ver:

Ahora ya tienes la idea intuitiva de centralidad y dispersión. ¿Pero qué tal si vas un
paso más allá? ¿Qué tal si cuantificas (le pones un número) a la dispersión y al valor
central?
# ¿Cómo puedes medir el centro de la
distribución?
Hay dos maneras de calcular el valor central:

1. Con la media a partir del valor de los datos


2. Con la mediana a partir de las posiciones de los datos

 La media:

Un poquito de notación te servirá… Un poquito de notación te

servirá… son los valores de los pesos de 249 personas.

Tenemos

La media es la suma de los valores dividido por el número de observaciones n.

Si te gusta la física también puedes entender la media como el centro de gravedad


de la distribución. O el punto de equilibrio.

Matemáticamente se puede expresar en forma de sumatorio:

 La mediana
La mediana la calculas a partir de la posición de los datos. Ordenas los datos de
menor a mayor y buscas el valor que está en medio. Este valor es la mediana.
Hay dos situaciones:

1. Tienes un número impar de observaciones. La mediana es el valor


central.
2. Tienes un número par de observaciones. La mediana es el valor medio de
los valores centrales.

En el ejemplo que te decía he calculado la media y la mediana con Excel:

Media: 66.21 kg

Mediana: 67.14 kg

Ya sabes los dos valores centrales de un conjunto de datos.

¿Cuándo es mejor uno u otro?

1. La media es sensible a valores atípicos o extremos que pueden desvirtuar


el cálculo. Sobre todo cuando tienes poquitos datos.
2. La mediana es sensible a distribuciones sesgadas, donde hay valores que
no aparecen en todo el rango de datos.
3. Una recomendación: para histogramas en forma de montaña (simétricos)
utiliza la media.
4. En otros casos utiliza la mediana.
Hay que entender las limitaciones de cada opción.

# ¿Cómo puedes medir la dispersión de la


distribución?
La dispersión se puede medir de dos formas:

1. Con la desviación típica se mide la dispersión de los datos desde la media


2. Con el rango intercuartílico a partir de las posiciones de los datos como
haces con la mediana

 La desviación típica
Una forma intuitiva de verla es como la distancia media entre los datos y la media.
Te dice «cuanto de verdadera» es la media con los datos que tienes.

Pero utilizas la distancia al cuadrado entre el dato y la media . Es decir,


La distancia cuadrática media es la varianza. Tiene la fórmula:

La varianza vale 399.82 kg^2. Fíjate que no tiene sentido real. 399.82 Kg^2 es un

valor súper alto. Se utiliza la raíz cuadrada para obtener las unidades en un sentido

real. Y esto es precisamente la desviación estándar o típica.

Nota: Se utiliza n-1 en lugar de n en el denominador por motivos técnicos pero


quédate con la idea que es una media.

El valor de la desviación típica del ejemplo es:

Desviación típica = 20.00 kg

 El rango intercuartílico:
Se trata de dividir los datos ordenados de menor a mayor en 4 grupos iguales y

observar la distancia que separa los grupos extremos. Te pongo una receta

que he sacado de este libro

En este caso no utilizas nada de fórmulas. Sólo hace falta ordenar y calcular los
cuartiles Q3 y Q1.

En el ejemplo, el rango intercuartílico es de 27.32 kg


Aquí tienes el resumen numérico del ejemplo:

Valor central

 Media: 66.21 kg
 Mediana: 67.14 kg

Dispersión

 Desviación típica = 20.00 kg


 Rango intercuartílico = 27.32 kg

# Una regla muy interesante


La desviación típica y la media son super útiles cuando tienes histogramas
en forma de montaña. Bastante simétricos. ¿Te suena la distribución normal? Son
histogramas que imitan la campana de Gauss.

Normalmente en mediciones reales tenemos este tipo de histogramas. De aquí su


nombre.

Pues existe una regla muy muy interesante para este tipo de distribuciones “normales”
basada en la experiencia 😉

Puede ser útil saber cuantas desviaciones típicas dista un punto de la media. Es
aquí la idea de la estandarización. Usando esta transformación sabrás cuántas
desviaciones típicas dista un punto de la media.

Esta es la fórmula de la estandarización:

Por ejemplo, una persona que pesa 92 kg, ¿cuánto distará de la media? Puedes

utilizar la estandarización. Entonces el valor es:


Una persona que pesa 92 kg está 1.29 desviaciones típicas de la media.

Relacionado con lo anterior, puedes utilizar la siguiente regla basada en la


experiencia.

GRÁBATE ESTA REGLA EN LA CABEZA…Durante mucho tiempo se ha visto que


se cumple esta regla. Y te aseguro que es super útil:

En un histograma en forma de montaña, es decir, simétrico, se cumple:

 El 68% de los datos se encuentran a 1 desviación típica de la media


 El 95% está a menos de 2 desviaciones típicas de la media

Fuente: wikipedia

# Un resumen…
1. Te he mostrado cómo se calcula el valor central. Dos formas de calcular: la
media y la mediana
2. Dos formas de calcular la dispersión: la desviación típica y el rango
intercuartílico.
3. La media y la desviación típica son valores fantásticos para histogramas en
forma de montaña, simétricos (curiosamente son los que se repiten más ).
4. Te he enseñado el histograma en forma de montaña y Z, una variable que
indica a cuántas desviaciones típicas de la media se encuentra una
observación.

A partir de éste, te he enseñado una regla MUY útil. ¡Grábatela!

Para histogramas en forma de montaña se cumple:

El 68% de los datos se encuentran a 1 desviación típica de la media

El 95% está a menos de 2 desviaciones típicas de la media

¿Cuáles son los dos grandes súper poderes de


cualquier modelo estadístico (causal)?
Al final si quieres explicar relaciones causales.

Lo mejor es ordenar tus preguntas en entradas y salida. O lo que es lo mismo,


entre causa y efecto.

Primer paso: identifica la causa y el efecto.

Puedes seguir este esquema:


Estructura de un modelo estadístico: entradas, salida y función matemática
(Este ejemplo te lo expliqué en otro artículo sobre modelos estadísticos.

Pero vamos a repasarlo más a fondo ahora con el vídeo ejemplo.

En este ejemplo, se trata de ver cómo afecta la edad a la frecuencia cardíaca máxima
y construir un modelo predictivo.

El efecto, es la frecuencia cardíaca máxima, y la causa la edad.

Para construir este tipo de modelos tenemos que pensar en forma de caja entrada
salida:

 La salida o respuesta: frecuencia cardíaca máxima


 Las entradas o variables explicativas: edad y sexo.
Este es el primer paso para entender un modelo estadístico.

El siguiente punto es conocer…

¡Los dos grandes súper poderes!

Vamos allá.

Es sencillo.

Por un lado, el modelo o función matemática nos ayuda a entender la relación


causa – efecto.
En este caso:

Ejemplo de una ecuación de recta de regresión lineal (modelo estadístico)


Te invito a que te fijes en el coeficiente (número) que acompaña la edad, que es -0.72.

Este es el «peso» de la causa Edad al efecto Frec. Cardíaca máxima.

Y es negativo.

Lo cual, cuando la edad aumenta, disminuye la frecuencia cardíaca máxima.

¡Acabas de explicar la relación causal gracias al modelo estadístico!

Y el segundo gran súper poder es la predicción.

¡Si!

Sin necesidad de medir la frecuencia cardíaca máxima podemos calcular de forma


aproximada (predecir) la frecuencia cardíaca máxima en función de la edad.
Por ejemplo, mi edad es de 33 años... entonces:

-0.72·33+209.6 = 185.84 pulsaciones por minuto

(Mini ejercicio: Utiliza la ecuación y calculo tu FCM con tu edad.)

Este valor que acabas de calcular es el valor predicho por el modelo. (Calculado)

No es tu valor real (observado)

Entonces, como toda predicción tiene un error. Puedes calcular el error o residuo del
modelo.

En todo modelo estadístico podemos calcular el error que se define como el


valor observado o real menos el valor predicho o calculado por el modelo.

Si no lo acabas de ver. No pasa nada.

Te he preparado un vídeo con un ejemplo paso a paso para que veas cómo
interpretar un modelo estadístico.

Para que te quede mucho más claro.

¡Adelante!

NOTA: Esto indica los COMO. Calculo del error

También podría gustarte