Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FUNDAMENTOS DE ESTADÍSTICA
Teoría
TIPOS DE VARIABLES
Como en esta PAC vamos a describir variables, lo primero que necesitaremos es saber clasificarlas. Las
variables se clasifican en:
CUALITATIVAS: Aquellas que no podemos describir con números, sino que necesitamos palabras, nombres,
adjetivos... Por ejemplo, el color del pelo, o el grado de satisfacción de un cliente. Hay dos tipos:
I. Nominales. Se describen con nombres. Ejemplo: color del pelo, modelo de coche, país de
procedencia.
II. Ordinales. También se describen con nombres, pero se pueden ordenar de forma natural. Ejemplo:
calificación obtenida (suspenso, aprobado, notable, excelente); grado de satisfacción del cliente
(poco satisfecho, medio, muy satisfecho).
CUANTITATIVAS: Aquellas que podemos describir con números. También hay dos tipos:
I. Discretas. Pueden tomar sólo ciertos valores, correspondientes a números enteros (sin decimales).
Ejemplos: número de hijos, personas a favor en una encuesta, número de caries. Como ves,
corresponden a recuentos.
II. Continuas. Son aquellas que pueden tomar cualquier valor, incluso decimales. Ejemplos: estatura,
peso, nivel de colesterol, PIB.
Todas las variables las podremos describir mediante gráficos o mediante estadísticos descriptivos.
Variables cuantitativas
Debes saber calcularlos por ti mism@ pero también interpretarlos cuando los obtienes con R-commander. Para
obtener los estadísticos descriptivos más habituales, la ruta a seguir es la siguiente:
Estadísticos > Resúmenes > Resúmenes numéricos
Algunos de los estadísticos que obtendrás serán:
Media (en catalán “mitjana”, y en inglés “mean”). Equivale a sumar todos los valores y dividir entre el número
de valores que existan
Mediana (en catalán “mediana”, en R-comander 50%). Equivale a ordenar los valores de menor a mayor y
quedarte con el central, es decir, el valor que deja por debajo suyo al 50% de la muestra, y por encima al
otro 50%.
Estos tres estadísticos nos dan una idea del centro de la distribución (de hecho, técnicamente son estadísticos
de tendencia central), con diferencias entre ellos: la media es POCO ROBUSTA, es decir, si añadimos un valor
extremo por ser muy grande o muy pequeño, la media cambia mucho. Y eso a la mediana no le pasa. Por
eso, cuando los datos tienen valores extremos por un lado (que no son compensados por el otro), o lo que es
lo mismo, cuando la variable es muy ASIMÉTRICA, la media no es buena para determinar el centro de la
distribución. ¿Y qué significa que una variable sea SIMÉTRICA? Fácil, que, al representarla en un histograma,
obtienes algo parecido a la primera figura, mientras que las otras dos son asimétricas (sesgadas):
En el primer histograma, la media y la mediana coincidirán. En el segundo (asimetría por la derecha) la media
será más grande que la mediana, y en el tercero (asimetría por la izquierda) la media será más pequeña que
la mediana.
Varianza(s2). Nos mide lo dispersa que está una muestra. Fíjate en la fórmula: para
calcularla hay que restar cada dato menos la media del conjunto. De esta forma, la
varianza calcula el promedio de las diferencias entre cada dato y la media.
Lo malo de la varianza es que puede valer desde 0 a cualquier valor positivo (se dice que es una medida de
dispersión absoluta). Por tanto, es difícil utilizarla para saber si hay poca o mucha variabilidad en la muestra (si
la varianza da 1200, ¿eso es poco o mucho? ¡No lo sé! Y nadie lo sabe. Por eso se dice que la varianza mide
WHATSAPP: 668 67 25 79 3
david@apruebaestadistica.com
PEC 3 FE Estadística descriptiva una variable
dispersión absoluta). Sólo en el caso de que las muestras tengan las mismas unidades y valores similares de
medias podremos usar la varianza como estadístico de dispersión.
R-comander no calcula la varianza, sino la cuasivarianza, que es lo mismo, pero dividiendo entre “n – 1” en
lugar de entre “n”. De hecho, ni siquiera calcula la cuasivarianza, sino la cuasidesviación típica.
Desviación típica (s): es la raíz cuadrada de la varianza, y tiene el mismo problema! En R-comander es “sd”.
Rango intercuartílico: Es la resta entre el cuartil 3 y el cuartil 1, pero lo entenderás un poco más adelante,
cuando te explique qué son los percentiles y cuartiles.
Cuartiles: igual que el resto, pero dividen a la muestra en 4 partes iguales, y por tanto hay 3 cuartiles: el cuartil
1 (o percentil 25), el cuartil 2 (o percentil 50), y el cuartil 3 (o percentil 75). Aprovecho ahora que conoces el
significado de los cuartiles, para explicarte qué es el rango intercuartílico. Se trata de tomar el valor del cuartil
3 (Q3) y el del cuartil 1 (Q1) y restarlos. Lógicamente cuanto mayor sea el resultado, es que mayor es la
dispersión. Lo bueno de este estadístico descriptivo es que es menos sensible que la varianza o la desviación
típica a valores extremos, ya que obvia los valores que hay desde el Q1 hasta el mínimo, y desde el Q3 hasta
el máximo.
Percentiles. Un percentil nos indica qué porcentaje de valores están por debajo de ese percentil. Por ejemplo,
si tu salario está en el percentil 90 quiere decir que el 90% de la población (o de la muestra, depende) está
por debajo de tu salario. No está mal ¿no? O lo que es lo mismo, el 90% de la población cobra menos que tú.
Otros ejemplos:
− Una persona cuyo peso está en el percentil 90 es porque pesa más que el 90% de la población.
Un individuo cuyo salario está en el percentil 20, es una persona que cobra muy poco dinero, su salario solo
supera al 20% de la población (por tanto, el 80% cobran más que él)
Ejemplo. La precipitación acumulada diaria es la cantidad total de lluvia caída en un lugar a lo largo de
un día, y se mide en mm o en litros por metro cuadrado, que es lo mismo. Si un día no llueve, la precipitación
acumulada de ese día es cero. A partir de una serie de 10 años de precipitación caída en Barcelona hemos
obtenido el siguiente resumen numérico:
Min. Q1 Mediana Media Q3 Max
0.000 0.000 0.000 1.246 0.000 223.79
En el caso de las variables cuantitativas continuas (pero también en discretas si tenemos un gran rango de
valores diferentes), tenemos dos gráficos posibles:
WHATSAPP: 668 67 25 79 4
david@apruebaestadistica.com
PEC 3 FE Estadística descriptiva una variable
IMPORTANTE
¿Cómo interpretar un boxplot o diagrama de cajas y bigotes?
1. Comenta sus 5 valores fundamentales: mínimo, primer cuartil, mediana, tercer cuartil, máximo. Nombra si hay
valores extremos.
2. Comenta algo sobre su distribución: comenta si es simétrica, o asimétrica hacia un lado en concreto. Comenta
también qué significa eso y qué implicaciones tiene en relación a la media y la mediana. Si tienes que
comparar dos boxplot también podrás comparar la dispersión de los mismos (si son igual de dispersos o no).
3. Por último, haz un comentario general sobre el mismo. Si tienes dos boxplot lo habitual es intentar concluir si la
variable cualitativa ha influido en la cuantitativa (por ejemplo, si representamos el salario de hombres frente al
de mujeres, y vemos que los dos boxplot son muy parecidos, esto podría significar que el sexo no influye en el
salario).
A continuación, tienes un ejemplo en el que se ha representado el precio de una serie de servicios turísticos, en
función del tipo de servicio. También tienes el correspondiente resumen numérico.
WHATSAPP: 668 67 25 79 5
david@apruebaestadistica.com