Tabla de datos y gráficos estadísticos
1. Etapas de un proceso de análisis de datos
1. El Problema. Todo nace de un problema, de una necesidad real. En esta etapa
definirás el foco del estudio.
2. La Recolección. Es el diseño de un método para obtener DATOS Más
técnicamente es un proceso de experimentación. Puede ser una encuesta,
pruebas en laboratorios, con pacientes, nutrirse de datos de marketing en
redes sociales etc.
3. La Limpieza Homogeneizar los datos en cuanto a formato, deshacer
observaciones que no te interesan y almacenar las más útiles.
4. La Exploración. En esta etapa se utiliza la estadística descriptiva para traducir los
DATOS a gráficos y características que pueden ser interpretado.
5. El Análisis. Con la ayuda de la estadística inferencia se pueden encontrar
conclusiones de un conjunto grande (población) con la información de una
pequeña parte de este conjunto (muestra). El contraste de hipótesis es la
herramienta más famosa de esta etapa. Pero existen otras técnicas como: la
predicción, la clasificación o los métodos de causa-efecto. Entre otros.
6. La Conclusión, Se interpreta los resultados del análisis y listan las conclusiones.
2. ¿Qué es una tabla de datos y cómo está ordenada?
En la etapa de la exploración se empieza a trabajar con datos ya limpios y ordenados. Se
modela la tabla de datos.
Una tabla de datos es una matriz con sus celdas. Algo así:
• Las filas son observaciones. Las observaciones son las veces que mides la realidad
• Las columnas son variables. Las variables son las características que vas a medir.
• El header son los nombres de las variables.
Esto muy importante entender que tu tabla de datos son columnas de números o letras.
Y también lo es la clasificación de las variables. Las variables son las características que
vas a medir. Y en la práctica encontramos 3 tipos.
• Variable Cuantitativa. Son números y tienen unidades. Tienen un sentido de
escala. Pueden ser discretas (sin decimales) y continuas (con decimales). Por
ejemplo, el peso en kg.
• Variable Cualitativa. Son etiquetas o nombres de las cosas. El país de
procedencia, el estado civil, el género etc…
• Variable Ordinal (cualitativa). Son un tipo especial de variables
cualitativas que tienen un sentido de escala. Por ejemplo: la calidad del servicio
puede ser regular, normal, bueno o muy bueno.
3. Interpretación de los datos
Una vez que tengas tu tabla de datos, limpia. Entiendas qué tipo de variables tienes y
qué significan. Es de vital importancia que puedas visualizar la información escondida
en esta tabla. Es decir, saber interpretar esa tabla de datos y poder comunicarte con
tus datos. Descubrir información muy interesante con la ayuda de gráficos.
La estadística descriptiva nos ayudará a ver esa información que no puedes ver a simple
vista. Para lo cual se utiliza gráficos y también características numéricas simples.
4. Gráficos estadísticos antes del análisis inferencial
a. Gráficos que trabajan con variables numéricas
• Histograma
El histograma es la herramienta fundamental de la estadística descriptiva.
Resume la variable numérica de un modo sencillo y eficaz. Utiliza las
famosas tablas de frecuencias.
Es un diagrama de barras. La altura de las barras es la frecuencia. Y cada barra
se sitúa en su debida clase.
Otra de las ventajas del histograma es que te permite entender qué es
una función de densidad de probabilidad. Es un concepto mucho más abstracto
y muy importante.
• Boxplot
Otra de las herramientas por excelencia es el boxplot. Esta herramienta te
permite visualizar la variable numérica con medidas de dispersión. Se basa en
los cuartiles.
Es una herramienta fantástica para comparar distintos grupos.
Distintas variables numéricas.
• Diagrama de líneas
El gráfico de líneas es realmente sencillo. Un diagrama de frecuencias es un
diagrama de líneas, por ejemplo.
Recuerda que un diagrama de frecuencias es un histograma que en lugar de
barras utiliza una línea para unir estas barras entre ellas. La línea roja que ves
que recorre las alturas de las barras forma el diagrama de frecuencias.
La peculiaridad que tiene es que trabajas con más de una variable. Estás
representando en dos dimensiones:
1. En el eje vertical ‘Y’ sitúas la variable numérica que quieres visualizar
2. Y en el eje horizontal ‘X’ sitúas una escala. Esto es: los meses del año, días
de la semana, etc… Es una escala de tiempo.
Si en el eje ‘X’ pones la escala de tiempo de tu tiempo, crearás un gráfico de
líneas en el tiempo.
Es conocido con el nombre de serie temporal. Representas tu variable numérica
en función del tiempo.
Una de las series temporales más famosas y polémicas del del mundo es Hockey
stick graph. Este gráfico demuestra en una sola gráfica el calentamiento global
de la tierra.
Puedes ver la evolución de la temperatura media de la tierra desde el año 1000
hasta el año 2000. La temperatura de hace siglos se ha extraído del estudio de
un tipo de árboles milenarios.
Fuente: wikipedia Hockey stick graph
Este tipo de gráficos es fantástico para comparar diferentes variables en un solo
gráfico.
• Scatter
El scatter o nube de puntos también es un gráfico de dos variables. El concepto
es el mismo que el anterior. Pero en lugar de unir los puntos con una línea, se
dejan los puntos o crucecitas.
Este gráfico es muy útil para intuir cómo se relaciona una variable numérica con
otra rápidamente. En la regresión lineal es muy usado para intuir correlaciones
o relaciones lineales.
Fuente: wikipedia regresión lineal
• Matrix plot
Este gráfico se utiliza para graficar 3 o más variables entre sí. Relaciona una
variable con las otras en 2D.
El diagrama de puntos son scatters 2D de parejas de variables. Además, el
matrixplot tiene la peculiaridad de poner el histograma para ver la distribución
de la variable numérica. Podrás visualizar también la distribución de un vistazo.
Es muy útil utilizar este tipo de gráficos cuando tienes varias variables
numéricas. Puedes intuir muy rápidamente la relación entre variables.
• Mapa de correlaciones
La correlación te dice cómo depende una variable de manera lineal.
En este caso la dependencia es lineal y la correlación es alta.
Fuente: wikipedia regresión lineal
Una correlación baja sería este ejemplo.
El mapa de correlaciones nos indica en colorines las variables que están más
correlacionadas que las otras.
Cuando el color es más cercano a 1, la correlación es más evidente.
• Histograma + densidad de probabilidad
Como ya se había mencionado el histograma nos lleva directamente a ver cómo
está distribuida la variable numérica.
Una buena práctica es dibujar la variable numérica con la estimación de la
densidad de probabilidad. De esta manera puedes saber cómo se ve la variable
numérica.
b. Gráficos que trabajan con variables categóricas
Las variables categóricas expresan cualidades o etiquetas. Por ejemplo: el país
de procedencia, la calidad del vino (bueno, mal, regular), si es fumador o no
fumador, si tiene cardiopatía o no. Dentro de ellos encontramos:
• Diagrama de barras
Uno de los gráficos más interesantes es pintar los grupos basados en categorías
en forma de barras.
En la siguiente gráfica se muestra el número de jirafas, orangutanes y monos que
tiene el zoológico. Los grupos o categorías son tres en este caso.
• Diagrama de sectores
Es igual que el ejemplo anterior. Pero se pinta en forma de pastel.
Normalmente se expresa en forma de frecuencia relativa, en proporción, en
porcentaje. Es muy típico en política. Los que han votado por el APRA, FPP, PPK,
etc.
• Gráfico de cotizaciones
Éste es un gráfico también cualitativo expresado en forma de polígono. Es
utilizado para vender los resultados de una manera muy interesante. Compara
por ejemplo diferentes productos con sus cualidades. O diferentes
tratamientos, si es efectivo, caro, etc.
Se trata de graficar teniendo en cuenta las características de lo que quieras
comparar: de los distintos métodos, productos, tratamientos, fármacos.