Está en la página 1de 5

PEC 3

FUNDAMENTOS DE ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA 1 VARIABLE

¿Es la primera vez que


haces clases con CLICK AQUÍ
ApruebaEstadistica.com?
PAC 2 FE Estadística descriptiva una variable

Teoría

Los estadísticos de tendencia central


La media
La mediana
La moda
Los estadísticos de dispersión
La varianza y la desviación típica
El coeficiente de variación
Los estadísticos de posición
Los cuartiles y los percentiles
Los estadísticos de forma
Simetría
Curtosis
Estadística descriptiva ¿Qué es y cómo identifico una variable
1 variable cuantitativa?
Practica un poco con estos ejercicios

Obtén todo lo anterior con Rcmdr

Propiedades de los estadísticos descriptivos. Estandarización o tipificación. Valores estándares o típicos

Índice de Gini y curva de Lorenz

WHATSAPP: 668 67 25 79 2 david@apruebaestadistica.com


PEC 3 FE Estadística descriptiva una variable

TIPOS DE VARIABLES

Como en esta PAC vamos a describir variables, lo primero que necesitaremos es saber clasificarlas. Las
variables se clasifican en:

CUALITATIVAS: Aquellas que no podemos describir con números, sino que necesitamos palabras, nombres,
adjetivos... Por ejemplo, el color del pelo, o el grado de satisfacción de un cliente. Hay dos tipos:
I. Nominales. Se describen con nombres. Ejemplo: color del pelo, modelo de coche, país de
procedencia.
II. Ordinales. También se describen con nombres, pero se pueden ordenar de forma natural. Ejemplo:
calificación obtenida (suspenso, aprobado, notable, excelente); grado de satisfacción del cliente
(poco satisfecho, medio, muy satisfecho).

CUANTITATIVAS: Aquellas que podemos describir con números. También hay dos tipos:
I. Discretas. Pueden tomar sólo ciertos valores, correspondientes a números enteros (sin decimales).
Ejemplos: número de hijos, personas a favor en una encuesta, número de caries. Como ves,
corresponden a recuentos.
II. Continuas. Son aquellas que pueden tomar cualquier valor, incluso decimales. Ejemplos: estatura,
peso, nivel de colesterol, PIB.

¿CÓMO DESCRIBIMOS UNA VARIABLE?

Todas las variables las podremos describir mediante gráficos o mediante estadísticos descriptivos.

Variables cuantitativas

La podemos describir con números

Debes saber calcularlos por ti mism@ pero también interpretarlos cuando los obtienes con R-commander. Para
obtener los estadísticos descriptivos más habituales, la ruta a seguir es la siguiente:
Estadísticos > Resúmenes > Resúmenes numéricos
Algunos de los estadísticos que obtendrás serán:

Media (en catalán “mitjana”, y en inglés “mean”). Equivale a sumar todos los valores y dividir entre el número
de valores que existan

Mediana (en catalán “mediana”, en R-comander 50%). Equivale a ordenar los valores de menor a mayor y
quedarte con el central, es decir, el valor que deja por debajo suyo al 50% de la muestra, y por encima al
otro 50%.

Moda. El valor más frecuente. En los resúmenes de R-comander no sale.

Estos tres estadísticos nos dan una idea del centro de la distribución (de hecho, técnicamente son estadísticos
de tendencia central), con diferencias entre ellos: la media es POCO ROBUSTA, es decir, si añadimos un valor
extremo por ser muy grande o muy pequeño, la media cambia mucho. Y eso a la mediana no le pasa. Por
eso, cuando los datos tienen valores extremos por un lado (que no son compensados por el otro), o lo que es
lo mismo, cuando la variable es muy ASIMÉTRICA, la media no es buena para determinar el centro de la
distribución. ¿Y qué significa que una variable sea SIMÉTRICA? Fácil, que, al representarla en un histograma,
obtienes algo parecido a la primera figura, mientras que las otras dos son asimétricas (sesgadas):

En el primer histograma, la media y la mediana coincidirán. En el segundo (asimetría por la derecha) la media
será más grande que la mediana, y en el tercero (asimetría por la izquierda) la media será más pequeña que
la mediana.

Varianza(s2). Nos mide lo dispersa que está una muestra. Fíjate en la fórmula: para
calcularla hay que restar cada dato menos la media del conjunto. De esta forma, la
varianza calcula el promedio de las diferencias entre cada dato y la media.

Lo malo de la varianza es que puede valer desde 0 a cualquier valor positivo (se dice que es una medida de
dispersión absoluta). Por tanto, es difícil utilizarla para saber si hay poca o mucha variabilidad en la muestra (si
la varianza da 1200, ¿eso es poco o mucho? ¡No lo sé! Y nadie lo sabe. Por eso se dice que la varianza mide

WHATSAPP: 668 67 25 79 3
david@apruebaestadistica.com
PEC 3 FE Estadística descriptiva una variable

dispersión absoluta). Sólo en el caso de que las muestras tengan las mismas unidades y valores similares de
medias podremos usar la varianza como estadístico de dispersión.

R-comander no calcula la varianza, sino la cuasivarianza, que es lo mismo, pero dividiendo entre “n – 1” en
lugar de entre “n”. De hecho, ni siquiera calcula la cuasivarianza, sino la cuasidesviación típica.

Desviación típica (s): es la raíz cuadrada de la varianza, y tiene el mismo problema! En R-comander es “sd”.

Coeficiente de variación (CV): Este coeficiente resuelve ese problema. Su fórmula es

El CV ya no es una medida de dispersión absoluta, sino que es relativa al valor de la media.


Se trata del mejor estadístico para comparar variabilidades.

Rango intercuartílico: Es la resta entre el cuartil 3 y el cuartil 1, pero lo entenderás un poco más adelante,
cuando te explique qué son los percentiles y cuartiles.

Cuartiles: igual que el resto, pero dividen a la muestra en 4 partes iguales, y por tanto hay 3 cuartiles: el cuartil
1 (o percentil 25), el cuartil 2 (o percentil 50), y el cuartil 3 (o percentil 75). Aprovecho ahora que conoces el
significado de los cuartiles, para explicarte qué es el rango intercuartílico. Se trata de tomar el valor del cuartil
3 (Q3) y el del cuartil 1 (Q1) y restarlos. Lógicamente cuanto mayor sea el resultado, es que mayor es la
dispersión. Lo bueno de este estadístico descriptivo es que es menos sensible que la varianza o la desviación
típica a valores extremos, ya que obvia los valores que hay desde el Q1 hasta el mínimo, y desde el Q3 hasta
el máximo.

Percentiles. Un percentil nos indica qué porcentaje de valores están por debajo de ese percentil. Por ejemplo,
si tu salario está en el percentil 90 quiere decir que el 90% de la población (o de la muestra, depende) está
por debajo de tu salario. No está mal ¿no? O lo que es lo mismo, el 90% de la población cobra menos que tú.
Otros ejemplos:

− Una persona cuyo peso está en el percentil 90 es porque pesa más que el 90% de la población.
Un individuo cuyo salario está en el percentil 20, es una persona que cobra muy poco dinero, su salario solo
supera al 20% de la población (por tanto, el 80% cobran más que él)

Ejemplo. La precipitación acumulada diaria es la cantidad total de lluvia caída en un lugar a lo largo de
un día, y se mide en mm o en litros por metro cuadrado, que es lo mismo. Si un día no llueve, la precipitación
acumulada de ese día es cero. A partir de una serie de 10 años de precipitación caída en Barcelona hemos
obtenido el siguiente resumen numérico:
Min. Q1 Mediana Media Q3 Max
0.000 0.000 0.000 1.246 0.000 223.79

Y también las podemos describir con gráficos

En el caso de las variables cuantitativas continuas (pero también en discretas si tenemos un gran rango de
valores diferentes), tenemos dos gráficos posibles:

Histograma: Sirve para representar la frecuencia de los valores que existen


en la muestra, agrupados en diferentes clases.

Boxplot o diagrama de cajas: Se representan 5 valores en concreto (el


mínimo, los tres cuartiles, y el máximo). Puede darse que tengamos lo que
conocemos como outliers. Son valores que traspasan una determinada
frontera y que se entiende que son “anormalmente” elevados o pequeños.

Fíjate que aquí los valores de la variable a estudiar se representan en el eje


vertical (Y), al contrario que en los histogramas, en los que los valores de la variable se representan en el eje
horizontal (X). Pero al final son parecidos. Fíjate:

Distribución simétrica Distribución asimétrica por la Distribución asimétrica por la


derecha (cola derecha mayor izquierda (cola izquierda mayor
que cola izquierda. media que cola derecha. media más
más grande que mediana) pequeña que mediana)

WHATSAPP: 668 67 25 79 4
david@apruebaestadistica.com
PEC 3 FE Estadística descriptiva una variable

IMPORTANTE
¿Cómo interpretar un boxplot o diagrama de cajas y bigotes?

1. Comenta sus 5 valores fundamentales: mínimo, primer cuartil, mediana, tercer cuartil, máximo. Nombra si hay
valores extremos.
2. Comenta algo sobre su distribución: comenta si es simétrica, o asimétrica hacia un lado en concreto. Comenta
también qué significa eso y qué implicaciones tiene en relación a la media y la mediana. Si tienes que
comparar dos boxplot también podrás comparar la dispersión de los mismos (si son igual de dispersos o no).
3. Por último, haz un comentario general sobre el mismo. Si tienes dos boxplot lo habitual es intentar concluir si la
variable cualitativa ha influido en la cuantitativa (por ejemplo, si representamos el salario de hombres frente al
de mujeres, y vemos que los dos boxplot son muy parecidos, esto podría significar que el sexo no influye en el
salario).

A continuación, tienes un ejemplo en el que se ha representado el precio de una serie de servicios turísticos, en
función del tipo de servicio. También tienes el correspondiente resumen numérico.

Respecto a los servicios turísticos de aventura vemos lo siguiente:


En el gráfico se observa que el mínimo se halla por debajo de los 100 euros (en el
resumen numérico se ve de forma más precisa su valor, concretamente 55,99 euros)
y el máximo se halla alrededor de los 600, aunque también se observan dos valores
extremos, cerca de los 700 euros (concretamente el mayor de todos es de 718,6
euros). El primer cuartil está rondando los 100 euros, o sea, que el 25% de los servicios
de aventura facturados están por debajo de ese precio (más exactamente por
debajo de los 110 euros, tal y como se observa en el resumen numérico). El cuartil 2,
o mediana, según el gráfico ronda los 200 euros (concretamente 205,115) y el cuartil
3 o percentil 75 vale 342,47 euros, es decir, el 75% de los servicios turísticos de
aventura están por debajo de ese precio).
Con respecto a otros estadísticos podemos hablar de la media, que solo la
observamos en el resumen numérico, y cuyo valor es de 241,4 euros. La media es un
estadístico de tendencia central y nos da un valor aproximado del centro de la
distribución.
También podemos ver que la desviación típica es 146,11. La desviación típica es un
estadístico de dispersión que nos da una idea de la distancia de los datos a la
media.
Podemos calcular un
estadístico de
dispersión que no
aparece en el
resumen, el CV, y obtenemos un valor de 0,605, o 60,5%. Este valor en sí mismo no nos dice nada, pero será útil para
comparar la dispersión de este conjunto de datos, con la del siguiente.
Con respecto a la asimetría se observa en el gráfico una ligera asimetría por la derecha, ya que la cola superior (o
cola de la derecha) es ligeramente mayor que la inferior). Esto podemos confirmarlo a través del resumen numérico,
ya que en este vemos que la media es ligeramente superior a la mediana, lo cual indica este tipo de asimetría
positiva.

Respecto a los servicios turísticos culturales:


A través del gráfico lo primero que se observa es que sus valores son claramente inferiores a los de los servicios de
aventura: tanto el mínimo, como el máximo y sus tres cuartiles, son inferiores a los mismos observados en los precios
del turismo de aventura, lo cual parece indicar que los precios de este tipo de turismo están por debajo de los del
turismo de aventura.
En el resumen numérico se confirma lo que acabo de escribir: su media es 46,26, claramente inferior al precio medio
de los servicios de aventura. También su desviación típica es menor, y el resto de percentiles.
Al calcular la dispersión relativa vemos que vale en este caso 0,45 o 45%. Por tanto, lo que se observa es que los
precios de las actividades culturales tienen menos dispersión que los precios de las actividades de aventura.
Con respecto a la asimetría, vemos que hay una ligera asimetría por la derecha, no tanto por el diagrama de cajas
propiamente, sino más bien por la presencia de 3 valores extremos, que hacen que las dos colas del boxplot no sean
idénticas. Por esa razón, al comparar media con mediana, no hay tantas diferencias (46,26 con respecto a 44,33)
como las que había en el caso del turismo de aventura.

WHATSAPP: 668 67 25 79 5
david@apruebaestadistica.com

También podría gustarte