Está en la página 1de 129

Análisis descriptivo de los datos

Oscar Martı́nez y Miguel Manjón

Curso Académico 2020-2021


Tema 2: Contenidos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Objetivo y datos

En este tema estudiaremos cómo realizar el análisis descriptivo de los datos


referentes a una única variable.
Algunos de los ejemplos empleados en este tema (y los siguientes) utilizan
los datos recogidos en el fichero “datos banco mundial.xls”:
Contenidos del archivo “datos banco mundial.xls”
VARIABLE DEFINICIÓN

Pais Nombre del paı́s


CONSUMO PC Consumo final de los hogares per cápita (Dólares americanos de 2010)
PIB PC PIB per cápita (Dólares americanos de 2010)
EDU OBL Duración en años de la educación obligatoria
EDAD INIC Edad de inicio en la escuela primaria
ESPERANZA Esperanza de vida al nacer de las mujeres, en años
LEY VIOLENCIA Existe legislación sobre violencia doméstica (0= NO, 1=SI)
PAR MUJERES % de mujeres en el parlamento nacional
RIQUEZA Nivel de renta en el año 2010. Valores que puede tomar:
4 = Renta Alta, 3 = Renta Media Alta, 2 = Renta Media Baja, 1 = Renta Baja
LEY DISCRI Legislación sobre discriminación por razón de genero (DRG). Valores que puede tomar:
3 si la no DRG está recogida en la consitución y la ley impone igual salario para hombres y mujeres
2 si la no DRG está recogida en la consitución pero la ley NO impone igual salario
1 si la ley impone igual salario para hombres y mujeres pero la constitución NO recoje la no DRG
0 si la constitución NO recoje la no DRG y la ley NO impone igual salario
CAPACIDAD EST Nivel de la capacidad estadı́stica del paı́s. Valores que puede tomar:
1 = Capacidad suficiente; 2 = Capacidad notable; 3 =Capacidad excelente

Estos datos proceden de las estadı́sticas oficiales del Banco Mundial para el año 2011 y
están referidos a 86 paı́ses. Por lo tanto, el tamaño de la muestra, que denotamos por

N, es N 86.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencias

A los posibles valores que puede tomar una variable se les suele denominar
“categorı́as” o “clases”.

Si a la variable la denotamos por X , cada posible valor que puede tomar


la variable X lo denotaremos por xk (no confundir con el valor que toma
la variable para cada individuo, que denotaremos por xi ).

Al número total de posibles valores que puede tomar la variable lo deno-


taremos por K .
Ej: La variable CAPACIDAD EST puede tomar 3 posibles valores, K  3.
La información más general que podemos obtener de una variable es la
frecuencia con la que se dan cada uno de sus posibles valores en la muestra
objeto de estudio ñ Distribución de frecuencias.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencias

Distinguimos cuatro tipos de frecuencias:

Frecuencia absoluta.

Frecuencia relativa.

Frecuencia absoluta acumulada.

Frecuencia relativa acumulada.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencia Absoluta

Frecuencia Absoluta.
Es el número de veces que se repite xk , un determinado valor de la variable.
Se denota por nk .
Ej: Si denotamos por X a la variable capacidad estadı́stica, entonces K  3 y sus
frecuencias absolutas son:

Valor de CAPACIDAD EST Valor X, xk Frecuencia Absoluta, nk


Capacidad suficiente 1 10
Capacidad notable 2 44
Capacidad excelente 3 32


°
N 2) 0 ¤ nk ¤N
K
Propiedades: 1) nk
 
k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Notación: Sumatorios

 
¿Qué es un sumatorio?
 
Un sumatorio es una suma de términos y se denota por el sı́mbolo matemá-
°
K
 indican los elementos que han de sumarse
K
tico , donde los lı́mites

k 1

 1 hasta K ”).
k 1
(“desde k

En general

¸
K
nk  n1 n2 ... nK

k 1

En el ejemplo anterior

¸
4
nk  n1 n2 n3 n4

k 1
 10 44 32  86  N

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Notación: Sumatorios

Sean a una constante, xk e yk para k  1, 2, ..., K números reales cuales-


quiera.

Propiedades de los sumatorios:


°
 a  aK
K


k 1

°
  a ° xk
K K
axk

k 1 
k 1

° ° °
 pxk yk q 
K K K
xk yk

k 1 
k 1 
k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Notación: Sumatorios

¡Cuidado!
°K x
ñ °  ° yx
k K
k 1 k

k 1
K k
y
1
k
k

° ° °
ñ 
K K K
xk yk xk yk
k 1  
k 1 
k 1


2
° °
ñ 
K K
xk2 xk
k 1  
k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencia Relativa

Frecuencia Relativa.
Es la frecuencia absoluta dividida entre el número total de observaciones
o individuos.
 
fk  nNk
 
- fk es el tanto por 1 de observaciones que toman el valor xk .
-100  fk es el porcentaje de observaciones que toman el valor xk .
Valor de CAPACIDAD EST Valor X, xk Frecuencia Relativa, fk

Capacidad suficiente 1 n1
N
 1086  0.116
Capacidad notable 2 n2
N
 4486  0.512
Capacidad excelente 3 n3
N
 2886  0.372

°
1 2) 0 ¤ fk ¤1
K
Propiedades: 1) fk
 
k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencia Absoluta Acumulada

Frecuencia Absoluta Acumulada.


La frecuencia absoluta acumulada mide el número de observaciones (o
individuos) que toman un valor igual o inferior al considerado, xk .

°
Nk 
k
nj
j 1


La tabla con estas frecuencias tiene sentido si los posibles valores de la


variable, xk , se pueden ordenar. En ese caso supondremos que el orden es
x1   x2   ...   xK 1   xK .

Valor de CAPACIDAD EST Valor X, xk Frecuencia Absoluta Acumulada, Nk


Capacidad suficiente 1
°1 n  n  N  10
j 1
j 1 1

Capacidad notable 2
°2 n  n n  N  10 44  54
1
j 1 2 2

°3 n  n
j

Cpacidad excelente 3 n2 n3  N2 n3  10 44 32  86
1
j 1
j

 
Propiedad: NK

N 
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Frecuencia Relativa Acumulada

Frecuencia Relativa Acumulada.


La frecuencia relativa acumulada es la frecuencia absoluta acumulada di-
vidida entre el número total de individuos, N:
 
°k n
Fk   1  ° nN  ° fj
j k k
Nk j j


N N

j 1 
j 1


- Fk es el tanto por 1 de observaciones que toman un valor inferior o igual


a xk .
-100  Fk es el porcentaje de observaciones que toman un valor inferior o
igual a xk .

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencia Absoluta

Como en el caso anterior, la tabla con estas frecuencias sólo tiene sentido
cuando los posibles valores de la variable, xk , se pueden ordenar.
Valor de CAPACIDAD EST Valor X, xk Frecuencia Relativa Acumulada, Fk
Capacidad suficiente 1
°1 f  f  F  0.116
1
j 1 1

°2 f  f f  N2  54  0.628
j

Capacidad notable 2
1
j 1 2 N N

° f f
j

  8686  1
3
N3
Capacidad excelente 3 f2 f3
1
j 1 N
j

 
Propiedad: FK

1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Agrupación en intervalos

En el ejemplo anterior los datos eran cualitativos ordinales, con tres posi-
bles valores para 86 observaciones. Esto permite la elaboración de la tabla
de frecuencias para datos no agrupados (es decir, con los valores originales
de la variable).

En el caso de variables cualitativas nominales, habitualmente también po-


dremos obtener las dos primeras tablas de frecuencias para los datos no
agrupados (las frecuencias acumuladas no tienen sentido en datos nomi-
nales).

En particular, para las variables cuantitativas discretas habitualmente tam-


bién podrán obtenerse las mismas tablas para datos no agrupados.

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Agrupación en intervalos

Sin embargo, en casos en los que haya muchas clases o categorı́as (K


grande) y pocas observaciones (N pequeño), lo habitual será que para
cada posible valor de la variable sólo haya (como mucho) una o dos obser-
vaciones (individuos) que tomen ese valor.

Este es el caso habitual (aunque no exclusivo) de las variables cuantitativas


continuas.
Ej: Se puede comprobar como en el caso de las variables CONSUMO PC y PIB PC
todos los paises tienen valores diferentes.

En estos casos, la tabla de frecuencias para datos no agrupados no resume


nada (o, en general, muy poco) la información proporcionada por la tabla
original de datos.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Agrupación en intervalos

Solución
Una forma de presentar los datos de una forma clara y resumida es agrupar
los posibles valores de la variable en intervalos.

Los intervalos han de ser mutuamente excluyentes, esto es, cada posible
valor de la variable, xk , solo puede pertenecer a un intervalo.

¡Atención! Al hacer agrupamientos se pierde información.


En las tablas de frecuencias para datos agrupados la información que mos-
traremos hace referencia a los individuos que están en un intervalo: pode-
mos saber a que intervalo pertenece un individuo, pero no que valor toma
en su caso la variable.

Por lo tanto, siempre que sea posible el resto de medidas (estadı́sticos) deberı́an calcu-
larse con datos no agrupados.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Agrupación en intervalos

Antes de construir las tablas de frecuencias para datos agrupados debemos


construir los intervalos y, por lo tanto, debemos responder a las siguientes
preguntas:

1 ¿En cuántos intervalos debemos agrupar los datos?


Si son muchos, la tabla será poco clara.
Si son pocos, estaremos perdiendo más información.

Se aconsejan entre 5 y 15, pero siempre dependerá de los datos que


tengamos.

2 ¿Debe ser el “tamaño” de los intervalos el mismo?


Al tamaño del intervalo se le denomina amplitud. Si la amplitud del
intervalo es constante, será mas fácil trabajar con ellos. Sin embargo,
algunos casos particulares requerirán que haya intervalos de amplitud
diferente (Ej: caso de datos “extremos”).

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Notación: Intervalos

K denotará el número de intervalos que construiremos.


 
El intervalo k-ésimo vendrá definido por pLk 1 , Lk s , donde Lk 1 es el
 
lı́mite inferior (“abierto”, no incluye el valor Lk 1 ) y Lk el lı́mite superior
(“cerrado”, incluye el valor Lk ).

Es conveniente que los lı́mites sean números lo más sencillos posible.


p
Ej: En el caso de CONSUMO PC es más adecuado un intervalo 0, 100 que 353.5, 1353, 5 .s p s

Obsérvese que, por convención, se considera que los intervalos son abiertos
por la izquierda. Esto quiere decir que si para algún individuo i, xi  Lk 1 ,
este individuo no pertenecerı́a al intervalo k  esimo, sino al anterior:
"
xk R pLk 1 , Lk s
xk  Lk 1 ñ xk P pLk 2 , Lk 1 s

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Amplitud, recorrido y marca de clase

La amplitud del intervalo se denota como ak  Lk  Lk 1 .


El recorrido de los datos es la diferencia entre el máximo y el mı́nimo valor
que toma la variable. El recorrido se denota como Re  xK  x1 .

La marca de clase es el valor central del intervalo (cuanto más simetrica-


mente estén distribuidos los datos en el intervalo más representativo será).
La marca de clase la denotaremos por Mck  Lk 12 Lk .
La importancia de la marca de clase resultará evidente al cacular las medidas y
estadı́sticos que trataremos en las secciones siguientes, donde veremos que nece-
sitan de “numeros” (esto es, valores de la variable) para ser calculados (esto es,
no se pueden calcular con intervalos). En general, salvo que se tenga un valor
justificadamente mejor, para estos cálculos se usará la marca de clase.

Obsérvese también que hay casos (por ejemplo, la variable RIQUEZA de nuestra
base de datos) en los que sólo dispondremos de los datos agrupados.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Frecuencia Absoluta

Ej: Tabla de frecuencias para la variable CONSUMO PC


Dado el rango (o recorrido) de valores que toma la variable, Re  9536.87
353.53  9183.34, construiremos intervalos constantes de amplitud a 
1000.
En particular,
 para incluir todos los datos necesitaremos como mı́nimo
9  Rec intervalos. En particular, en este ejemplo usaremos los siguientes
10 intervalos:

p s  Lk 12  ° nk  nNk  NNk


k
Intervalo, Lk 1 , Lk
Lk
Mck nk Nk fk Fk
1
p0, 1000s
j
500 26 26 0, 30 0, 30
p1000, 2000s 1500 15 41 0, 17 0, 48
p2000, 3000s 2500 14 55 0, 16 0, 64
p3000, 4000s 3500 7 62 0, 08 0, 72
p4000, 5000s 4500 8 70 0, 09 0, 81
p5000, 6000s 5500 5 75 0, 06 0, 87
p6000, 7000s 6500 3 78 0, 03 0, 91
p7000, 8000s 7500 4 82 0, 05 0, 95
p8000, 9000s 8500 3 85 0, 03 0, 99
p9000, 10000s 9500 1 86 0.01 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Estadı́stica descriptiva

Las representaciones gráficas son una forma de sintetizar la información y


presentarla de forma comprensible.

IMPORTANTE: Los gráficos han de poder leerse, esto es, han de disponer
de toda la información necesaria para poder interpretarlos correctamente.

A continuación veremos 6 representaciones gráficas para las diferentes ta-


blas de frecuencias que hemos visto en los apartados anteriores:

Diagrama sectorial o circular


Pictograma
Diagrama de barras
Histograma
Poligonos de frecuencias
Ojiva

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Diagrama sectorial o circular

Diagrama sectorial o circular


También se le conoce como diagrama de sector o de pastel.

Se trata de un circulo que se divide en diferentes sectores de forma que el


área de un sector es proporcional a la frecuencia (absoluta o relativa) de la
categorı́a que representa dicho sector, lo que implica que el ángulo central
debe ser proporcional a la frecuencia.

Habitualmente se usa para variables cualitativas, pero también puede uti-


lizarse con variables cuantitativas discretas siempre que estas no tomen un
número muy elevado de valores (K debe ser pequeño).

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Diagrama sectorial o circular

Diagrama sectorial o circular

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Pictograma

Pictograma
Se trata de dibujos proporcionales a la frecuencia (absoluta o relativa) de
la categorı́a representada.

En general, el dibujo escogido suele representar la categorı́a representada.

Como en el caso anterior, se usa en variables cualitativas o cuantitativas


discretas.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Pictograma

Pictograma

Botellas recogidas en un fin de semana. Habitantes en las provincias andaluzas.

Ciudad A Ciudad B

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Diagrama de barras

Diagrama de barras
En el diagrama de barras representamos las distintas categorı́as de la va-
riable en el eje de abscisas (horizontal), mientras que en el de ordenadas
(vertical) lo hacemos con la frecuencia (absoluta, relativa o acumulada si
los datos se puede ordenar), de forma que las barras tengan una altura
proporcional a la frecuencia.

Como en los casos anteriores, se usa para variables cualitativas o cuanti-


tativas discretas. Obsérvese que también es posible sobreponer gráficos y
representar varias variables o muestras en el mismo gráfico.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Diagrama de barras

Diagrama de barras

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Histograma

Histograma
En el caso de frecuencias para datos agrupados (caso habitual de las varia-
bles cuantitativas continuas), estas se representan a través del histograma.

El histograma es similar a un gráfico de barras, sólo que en este caso la


base del rectángulo (barra) no tiene porque ser constante y la altura no
ser proporcional a la frecuencia.

Además los rectángulos se dibujan contiguos para reflejar la idea de que la


variable es continua.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Histograma

La base del rectángulo será proporcional a la amplitud del intervalo


(ak ).

La altura del rectángulo será proporcional a la densidad de la fre-


cuencia, dk  nakk , donde dk mide la frecuencia por unidad (si la
variable es peso en Kg, entonces dk es la frecuencia por Kg) en el
intervalo k  esimo.
En el caso de datos agrupados en los que todos los intervalos tienen la misma
amplitud, la altura será proporcional a la frecuencia, como en un diagrama
de barras.
El número de intervalos afectará a la información y aspecto del histograma.
?
Una regla que se suele emplear para determinar el número de intervalos es
considerar el entero más cercano a N (con N el número de observaciones).

El área del rectángulo será proporcional a la frecuencia (absoluta,


relativa o acumulada).

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Histograma

Caso 1: Amplitud del intervalo no constante


Intervalo ak Frec. Abs., nk dk
(0, 500] 500 7 0,014
(500, 1000] 500 19 0,038
(1000, 2000] 1000 15 0,015
(2000, 3000] 1000 14 0,014
(3000, 4000] 1000 7 0,007
(4000, 5000] 1000 8 0,008
(5000, 6000] 1000 5 0,005
(6000, 10000] 4000 11 0,00275

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Histograma

Caso 2: Amplitud del intervalo constante

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Histograma

Caso 3: Frecuencias Acumuladas

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Poligonos de frecuencias

Polı́gono de Frecuencias
La idea es construir un diagrama análogo al de barras o histograma, pero
empleando, en vez de rectángulos, lı́neas rectas que unan los puntos me-
dios de las bases superiores de dichos rectángulos.

El objetivo es obtener una representación mas suavizada de la distribución


de frecuencias, por lo que suelen utilizarse cuando la variable es continua.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Ojiva

Ojiva
Cuando el polı́gono de frecuencias se aplica sobre frecuencias acumuladas
se le denomina Ojiva.
Dado que usan frecuencias acumuladas, este gráfico sólo se empleará con variables
que se puedan ordenar.

Para su construcción se asigna al extremo superior del intervalo una altura


igual a su frecuencia acumulada y se unen los puntos resultantes.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Parámetro poblacional

Parámetro Poblacional: Es una caracterı́stica medible de una población.


Ej1: Población: los alumnos presentados a la selectividad en Cataluña en el año 2020.
Parámetro: la media poblacional, la nota más alta, la más baja...

Ej2: En el experimento de tirar una moneda al aire, un parámetro poblacional de interés


serı́a la probabilidad de que salga cara.

El parámetro poblacional proporciona información de cómo se distribuyen


los valores de una variable en la población. Proporciona por lo tanto un
resumen de la distribución de la variable en la población.

En general el valor del parámetro poblacional solo podrá conocerse con


exactitud si se dispone de las observaciones de todos los elementos de la
población.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Estadı́stico muestral

Estadı́stico Muestral: Es una función de los valores de la muestra.


Ej1: Muestra: los alumnos de este aula. Estadı́stico muestral: la media muestral de las
notas obtenidas en la selectividad, la nota máxima, la nota mı́nima...

El papel que juega el parámetro poblacional en la distribución de la pobla-


ción, lo juega el estadı́stico muestral en la distribución de la muestra.

Por lo tanto, el estadı́stico muestral puede entenderse como un resumen


de la distribución de la variable en la muestra.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Estadı́stico muestral

Como comentamos anteriormente, el parámetro poblacional rara vez es co-


nocido, por lo que a menudo tenemos que estimar (“aproximar”) su valor.

El estadı́stico muestral sirve para estimar parámetros poblacionales (infe-


rencia estadı́stica Ñ Estadı́stica II).

En este curso nos limitaremos a presentar los estadı́sticos (funciones de


los datos de la muestra) que sirvan para resumir diferentes aspectos de la
muestra dada o de la distribución de la variable en nuestra muestra.

Distinguimos ası́ tres tipos de estadı́sticos o medidas numéricas:

Medidas de posición
Medidas de dispersión
Otras medidas.

Estas funciones de los datos emplean habitualmente las sumas y los productos. El
operador suma ya lo hemos repasado, por lo que a continuación revisaremos bremente
el operador producto.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Operador producto

Operador Producto
Supongamos que tenemos una serie de n números reales, denotados por
x1 , x2 , ..., xn1 , xn . Supongamos que queremos hacer el producto de todos
ellos:

x1  x2  . . .  xn1  xn
±
Esta operación se puede escribir usando el operador producto :

¹
n
xi  x1  x2  . . .  xn1  xn

i 1

Algunas propiedades:

±
a  an
n
i)

i 1

±
 an ± xi
n n
ii) axi

i 1 
i 1
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas y estadı́sticos de posición

Dada una serie de observaciones sobre una variable de interés, lo que vamos
a ver a continuación es cómo sintetizar todo este conjunto de valores en
un único valor.

En particular, este valor va a representar un aspecto de la distribución


que nos interesa.

En el caso de las medidas o estadı́sticos de posición, el aspecto que nos


interesa es la ubicación o posición de los datos.

En particular, distinguiremos entre medidas o estadı́sticos de tendencia


o posición central y no central.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas y estadı́sticos de posición

Las medidas de tendencia central tratan de determinar el centro del con-


junto de datos o centro de la distribución. Estas incluyen:

 Media Aritmética, geométrica y armónica (Mitjana aritmètica, geo-


metrica y harmònica).

 Mediana

 Moda

La diferencia básica entre estas medidas es lo que entiende cada una por
“centro” de la distribución.

Por su parte, las medidas de tendencia no central describen una posición


de la distribución distinta a la central. Estas incluyen:

 Cuantiles (cuartiles, deciles y percentiles)

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmetica

 
Media Aritmética 
Es la suma de los valores de todas las observaciones dividido por el número
total de observaciones.

Se suele denotar con una linea horizontal sobre la variable, x.

Se emplea para variables cuantitativas.

Matemáticamente, para una muestra de N observaciones de la variable X


se puede expresar como:

°
x
N
1
xi

N

i 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmetica

La media aritmética también se puede expresar en terminos de las frecuen-


cias y los posibles valores de la variable:

° °
x 
K K
1
nk xk fk xk

N

k 1 
k 1

Esta formula será interesante cuando tengamos variables cuantitativas discretas o agru-
padas en intervalos.

¡Cuidado!

En el caso de datos agrupados en intervalos, xk hay que sustituirlo


por la marca de clase del intervalo, Mck .

Siempre que sea posible conviene calcular la media aritmética sobre


los datos originales ya que al usar los intervalos perdemos información.
La media aritmética construida sobre las marcas de clase de los intervalos
será sólo una aproximación de la media aritmética “verdadera” (la obtenida
con los datos originales).

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia central: Media Aritmetica

Ej 1: Media aritmética de EDAD INIC (Edad inicio de la escuela primaria).


°
 532. Por lo tanto,
86
Empleando los datos originales: xi

k 1

¸
86
EDAD INIC  x  N1 xi  861 532  6.19
i 1 

Empleando las frecuencias:

EDAD INIC nk fk nk xk fk xk
5 3 0.03 15 0.17
6 64 0.74 384 4.47
7 19 0.22 133 1.55
°
3
SUMAS ( ) 86 1 532 6.19
k 1
¸
K ¸
K
EDAD INIC  N1 nk xk  861 532  6.19  fk xk

k 1 
k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmetica

Ej 2: Media aritmética de CONSUMO PC.


Empleando los datos originales:
¸
86
CONSUMO PC  x  N1 xi  861 248186, 40  2885, 89
i 1
Empleando los datos agrupados:

p
Intervalo, Lk 1 , Lk s Mck nk nk Mck fk fk Mck
p
0, 1000 s 500 26 13000 0, 30 151, 16
p
1000, 2000 s 1500 15 22500 0, 17 261, 63
p
2000, 3000 s 2500 14 35000 0, 16 406, 98
p
3000, 4000 s 3500 7 24500 0, 08 284, 88
p
4000, 5000 s 4500 8 36000 0, 09 418, 60
p
5000, 6000 s 5500 5 27500 0, 06 319, 77
p
6000, 7000 s 6500 3 19500 0, 03 226, 74
p
7000, 8000 s 7500 4 30000 0, 05 348, 84
p
8000, 9000 s 8500 3 25500 0, 03 296, 51
p
9000, 10000 s 9500 1 9500 0.01 110, 47
SUMAS (
°10 ) 86 243000 1 2825,58
k 1
Ķ Ķ
CONSUMO PC  N1 nk Mck  861 243000  2825, 58  fk Mck
k 1 k 1
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de tendencia central: Media Aritmética Ponderada

Media Aritmética Ponderada


°

N
1
En la media aritmética, x xi , todas las observaciones (xi ) tienen
N

i 1
la misma ponderación o peso: 1.

Por el contrario, en la media aritmética ponderada a algunas observaciones


se les da más importancia (peso o ponderación) que a otras.

Ası́, sea wi el peso o ponderación que se le da a la observación i. La media


aritmética ponderada se define entonces como
°N w x
 °
i i
i 1
xw N
w
1
i
i

°N x °N x
 1 para todo i  1, 2, ..., N, entonces x w  i 1 i  i 1 i 
Obsérvese que si wi
°N 1 N
i 1
x.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmética Ponderada

Ej 3: Considere un examen con distintas partes en el que no todas las partes


valen igual. En particular, supongamos que el examen tiene 4 partes: A, B,
C y D.

Denotemos por xA , xB , xC y xD la nota de cada parte del examen.


Sabemos que si todas las partes contasen lo mismo, la nota final serı́a la media
aritmética: x 1
x
4 A
 p
xB xC xD . q
Supongamos, sin embargo, que A vale el doble que B y que B, C y D valen
lo mismo. En ese caso wA  2,wB  1,wC  1 y wD  1.

La nota final, calculada a partir de la media ponderada será:

xp  p2xAp2 xB
1
xC xD q
1 1q

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmética

Caracterı́sticas de la Media Aritmética


- La media aritmética, dado que implica el uso de los operadores suma y
división, en principio debe aplicarse sobre variables cuantitativas.
- Es única. Esto es, para cada muestra solo puede tomar un valor.
- Utiliza todos las observaciones de la muestra en su cálculo.
Inconvenientes:
Sensible a los valores extremos.
Ej 4: Consideremos la siguiente muestra con las alturas de 10 alumnos: 1.55, 1.60,
1.70, 1.85, 1.71, 1.65, 1.60, 1.68, 1.64 y 1.70. La media aritmética de esta
muestra es 1.668.
Supongamos que el alumno más alto en realidad es un jugador de basket
que mide 2.30. La media en este caso es 1.713 y todos los alumnos excepto
el jugador de basket miden menos que la media.

Malos usos. Por ejemplo, cuando se usa con variables categóricas,


siendo en ese caso más recomendable el uso de otras medidas de
posición.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central:Media Aritmética

Propiedades Matemáticas de la Media Aritmética

1.- La suma de las desviaciones respecto a la media es igual a 0:

¸
N
pxi  x q  0

i 1

° °
pxi  x q   ° x  N N1 °
 Nx  Nx  Nx  0
N N N N
Prueba: xi xi
i 1 i 1 i 1 i 1
2.- La suma de los cuadrados de las desviaciones respecto a una constante
b se minimiza cuando esta constante es igual a la media aritmética
(Teorema de König):

¸
N
arg min pxi  bq2  x
b 
i 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmética

Propiedades Matemáticas de la Media Aritmética


2.- La suma de los cuadrados de las desviaciones respecto a una constante
b se minimiza cuando esta constante es igual a la media aritmética:
°
p q pxi  bq2 . Para saber cual es el valor de b que minimiza S pbq
N
Prueba: Sea S b
i 1
hemos de calcular la derivada de S respecto de b:

°
BS pbq  B i 1pxi  bq  Ņ Bpxi  bq2   Ņ 2px  bq
N
2

Bb Bb i 1
Bb i 1
i

El valor de b que haga que la 1a derivada sea igual a 0 será un punto de


inflexión. Si la segunda derivada en ese punto es positiva será un mı́nimo.

Ņ Ņ Ņ
p  bq  0 ñ 2
2 xi xi 2 b  0 ñ Nx  Nb  0 ñ x  b
i 1 i 1 i 1
°
B2 S pbq  B  i 1 2pxi  bq   Ņ B2pxi  bq  Ņ 2  2N ¡ 0
N

Bb2 Bb i 1
Bb i 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia central: Media Aritmética

Propiedades Matemáticas de la Media Aritmética

3.- La media aritmética se ve afectada por los cambios de origen. Esto


es, si a cada una de las observaciones le sumamos una constante a,
la media aritmética se ve afectada y aumenta/disminuye en el valor
de la constante: y  x a ñ y  x a
° ° ° °
 xi  N1  N1 pxi q  N1 x
N N N N
1
Prueba: yi a, y yi a xi a a.
i 1 i 1 i 1 N
i 1
4.- La media aritmética se ve afectada por los cambios de escala. Esto
es, si multiplicamos todas las observaciones por una constante a, la
media aritmética también quedará multiplicada por esa constante:
y  ax ñ y  ax
° ° °
 axi , y  N1  N1  a N1  ax.
N N N
Prueba: yi yi axi xi
i 1 i 1 i 1
 
P3 + P4

ñ Si y  a bx ñy a bx


Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Aritmética

Propiedades Matemáticas de la Media Aritmética

5.- La media aritmética de toda la muestra puede calcularse como la me-


dia ponderada de las medias aritméticas de las diferentes submuestras
disjuntas que consideremos.

Sea una muestra de N observaciones, en la que distinguimos 3 sub-


muestras disjuntas, A, B y C, con NA , NB y NC observaciones y x A ,
x B y x C las medias aritméticas de cada submuestra. Entonces

x  NNA x A NB
N
xB
NC
N
xC

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

 
Media Geométrica 
Se suele denotar con la letra mayúscula G y con la variable como subı́ndice,
Gx .

Se emplea para variables cuantitativas.

Matemáticamente, para una muestra de N observaciones de la variable X


se puede expresar como:
 d
±
  px1  x2  . . .  xN q
N 1
N
Gx xi N


i 1

En el caso de que se disponga de las frecuencias:
 d
±

K
Gx N
xknk

k 1


Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

b
±10
Ej 4: Media Geométrica de la altura de los 10 alumnos, 1a muestra: GAlt
?
10
 1 xi 
 ?
i
10
 a
164, 920415 1, 6662. Con la 2 muestra, GAlt 10
222, 8654257  1, 717.
d
± ±
   6, 169.
3 3 nk
86 n
Ej 1: Media Geométrica de EDAD INIC, GCAPITAS xk k xk86
k 1 k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

Propiedades Matemáticas de la Media Geométrica

1.- El logaritmo de la media geométrica es igual a la media aritmética del


logaritmo de los valores.
b

±N °
p q  log  N1 log 1 xi  p q  logpx q
N
i 1 xi
N N 1
Prueba: log Gx log xi
i N
i 1

Caracterı́sticas de la Media Geométrica


- Es única.
- Utiliza todos los valores de la muestra.
- Es menos sensible a los valores extremos que la media aritmética.

Inconvenientes:
No siempre está determinada. Si alguno de los valores se anula (xi  0
para algún i), Gx será 0. Asimismo, la existencia de valores negativos
puede generar la indeterminación de Gx .

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

¿Cuando conviene usar la media geométrica?


Su uso más frecuente es en el cálculo del valor medio de una variable
que representa variaciones acumulativas: tipos de interés, tasas, números
ı́ndices, etc.
Ej 5: Supongamos el precio de un bien en el año 2008 fue de P2008 . Durante el año
2009 se incrementó un 15 %, en el año 2010 un 10 % y durante el 2011 un 5 %.
¿Cuanto ha aumentado de media anualmente? ¿Cuál ha sido el incremento medio
anual?

Con esta información sabemos que:

P2009  P2008
15
100
P2008  1
15
100
P2008




P2010  P2009
10
100
P2009  1
10
100
P2009  1
10
100
1
15
100
P2008


P2011  P2010
5
100
P2010  1
5
100
P2010




 1
5
100
1
10
100
1
15
100
P2008

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

Ej 5: Por lo tanto, la respuesta óptima serı́a calcular un incremento constante del π %


para los tres años, de forma que:
 π  π  π  π 3
P2011  1
100
1
100
1
100
P2008  1
100
P2008

Igualando esta expresión con la obtenida previamente tenemos que

 



π 3
1
100
P2008  1
5
100
1
10
100
1
15
100
P2008
 



π 3
1
100
 1
5
100
1
10
100
1
15
100
d



 π
1
100
 3
1
5
100
1
10
100
1
15
100

que es la media geométrica de los incrementos acumulados, esto es, la media


geométrica de la variable xi 
1 πi , siendo πi el incremento porcentual en el
año i del precio.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Geométrica

Ej 5: Finalmente, despejando π de la anterior expresion obtenemos:

 d



π  100 3
1
5
100
1
10
100
1
15
100
 1  9.92 %

Por lo tanto, los precios han aumentado anualmente un 9.92 % de media,


o alternativamente, el incremento medio anual ha sido de un 9.92 %.
Obsérvese que la media aritmética no refleja ese valor: 15 10 5
3
 10 %.
En general, el valor medio de una variable que representa variaciones acu-
mulativas se calcula como

π  100 pGx  1q

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Armónica
 
Media Armónica 
Es la inversa de la media aritmética de los N valores invertidos de la va-
riable.

Se suele denotar con la letra mayúscula H y con la variable como subı́ndice,


Hx .

Se emplea para variables cuantitativas.

Matemáticamente, para una muestra de N observaciones de la variable X


se puede expresar como:

Hx  ° N
N
1

 i 1 xi

En el caso de que se disponga de las frecuencias:



Hx  ° K
N
nk

 k 1 xk
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de tendencia central: Media Armónica

Ej 4: Media Armónica de la altura de los 10 alumnos, 1a muestra HAlt  °10 


10
1
1 xi
 1, 664. Con la   1, 694.
i
10 10
6,008
2a muestra, GAlt 5,902

Ej 1: Media Armónica de EDAD INIC, HEDAD INIC  °86  13.981


3
86
nk
 6.151.
k 1 xk
Relación entre las tres medias: x, Gx y Hx

Si las tres medias existen, entonces:


 
Hx ¤ Gx ¤x 

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Media Armónica

Caracterı́sticas de la Media Armónica


- Es única.
- Utiliza todos los valores de la muestra.

Inconvenientes:
No siempre está determinada. Si alguno de los valores se anula (xi 0
para algún i), Hx no estará determinada.

Se ve fuertemente afectada por valores muy pequeños (cercanos a 0).

¿Cuando conviene usar la media armónica?


En aquellas variables cuyos valores sean cocientes de dos magnitudes: ve-
locidad (km/h), rendimiento por hectárea,...

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia central: Media Armónica

Ej 6: Consideremos el viaje de ida y vuelta de Barcelona a Tarragona. Cada trayecto


(BCN a Tarragona y Tarragona a BCN) son D 
100 Km. A la ida la velocidad
 
fue de V1 100 Km/h y a la vuelta fue de V2 80 Km/h. ¿Cuál fue la velocidad
media de ambos trayectos?
Distancia
La respuesta óptima saldrı́a de calcular Tiempo
.

Por un lado, la distancia total fue de 2D  200 Km.


Por otro lado, el tiempo total será la suma del tiempo invertido en el primer y el
segundo trayecto, T1 T2 . En particular, el tiempo en horas invertido en el primer
trayecto es T1 D
V

y en el segundo T2
1
D
V
.  2

Finalmente, la velocidad media será:

V D
2D
 D
 1
2
1
,
V1 V2 V1 V2

que es la media armónica de las velocidades.

Por lo tanto, en este ejemplo,

HV  1
2
1
 0.01 2
0.0125
 88.88 Km/h
100 80

Obsérvese que V  1002 80  90 Km/h.


Tema 2: Análisis descriptivo de los datos Estadı́stica I
Medidas de tendencia central: Mediana

 
Mediana 
La mediana de una muestra, que suponemos ordenada de menor a ma-
yor, es aquel valor que deja a la izquierda (por debajo) el mismo número
de observaciones que a la derecha (por encima). Es decir, la mediana es
cualquier valor tal que, como mucho, la mitad de la muestra es menor que
dicho valor y, como mucho, la mitad de la muestra es mayor que dicho
valor (han de cumplirse ambas condiciones).

Se suele denotar como Mex , siendo x el nombre de la variable.

La mediana se puede aplicar a variables que se puedan ordenar, cuantita-


tivas y cualitativas ordinales.

Para calcular la Mediana, distinguimos tres casos:


Datos no agrupados.
Tablas de frecuencia sin intervalos.
Tablas de frecuencias con intervalos.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Mediana

Datos no Agrupados:

En este caso debemos realizar un paso previo, que es ordenar la mues-


tra. Supongamos que tenemos N observaciones, x1 , x2 , ..., xN , xi para i 
1, 2, ..., N; si las ordenamos tenemos xp1q , xp2q , ..., xpN q , xpi q para i  1, 2, ..., N;
de forma que xpi 1q ¤ xpi q .

  xp N q xp N 1q
Mex  xp N 1 q si N es impar Mex  2 2
si N es par
 2

2

En el caso par, cualquier valor
2 2
P
xp N q , xp N 1q cumple la definición de mediana. Por
convención se define como mediana el punto medio.

ñ la ordenamos ñ xp11q xp42q x12p3q x15p4q x20p5q .


Ej 1: Si la muestra es: 1 15 20 4 12

N  5, impar, por lo que Mex  xp q  xp3q  12. N 1


2

Ej 2: Si la muestra es: 1 12 9 4 7 16 ñ la ordenamos ñ xp11q xp42q xp73q xp94q x12p5q x16p6q .


p 2 q xp N2 1q
 xp q 2 xp q  7 2 9  8.
x N
N  6, par, por lo que Mex  2
3 4

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia central: Mediana

Tabla de frecuencias sin intervalos:


 
Caso I. Cuando Dk tal que Nk  N2 , entonces Mex  xp q k xpk q
1
2 
xk nk Nk Dado que para k  2, Nk  5  N2 
1 1 1 10
, Mex  p q xpk 1q
x k
 325  4
Ej 1: 3 4 5 2 2
5 3 8
7 2 10

Caso II. Cuando no existe ningún k tal que Nk  N2, entonces consideramos

Nk   N2   Nk 1 y calculamos la mediana como Mex  xpk 1q
 

xk nk Nk No existe k tal que Nk  N2 , pero para


1 1 1
k  2 se cumple que Nk   N   Nk 1 .
Ej 2: 3
5
3
4
4
8
Por lo tanto, Mex xpk  1q 2 5.
7 2 10
Hay 4 (  N ) observaciones menores que 5, y 2 (
2
 N ) ob-
2
servaciones mayores que 5. Ningún otro punto cumple las dos
condiciones.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Mediana

Tabla de frecuencias con intervalos:

En este caso primero buscamos el intervalo mediano y despues calculamos


la mediana como un punto del intervalo mediano. En particular:

El intervalo mediano es aquel intervalo k esimo tal que Nk ¥ N2 y


Nk 1   N2 (es decir, k es el menor valor que cumple Nk ¥ N2 ).

La mediana será Mex  Lk 1 {


N 2 Nk  1
ak .
nk

pLk 1 , Lk s nk Nk N
 14
 7, luego el intervalo mediano
(0,2] 2 2 2 2

es el tercero (k 3), 4, 6 .p s
Ej 3: (2,4] 2 4
(4,6] 6 10 Por lo tanto, la mediana será: Mex
N {2Nk 1

(6,8] 4 14 Lk 1 n
ak 4 7
 6
4
2 5.
k

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Mediana

Pero, ¿de dónde sale ese punto del intervalo mediano?


El objetivo es encontrar el valor “exacto” de x que tiene una frecuencia
acumulada de N2  7.

Histograma y Ojiva

16

14

Frecuencia Absoluta Acumulada


12

10 B*

8
B
6

4 C*
A C
2

0
0 1 2 3 4 5 6 7 8 9
X

Pero ese punto lo desconocemos (solo disponemos de los datos agrupados),


de manera que lo que hacemos es usar la aproximación que nos proporciona
la Ojiva, lo que equivale a suponer que los datos se distribuyen de forma
uniforme dentro del intervalo.
Siguiendo esta aproximación, el valor que buscamos será aquel que según
la ojiva tenga una frec. abs. acumulada igual a N2  7. Ese valor, según el
gráfico, será Lk 1 AC .
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de tendencia central: Mediana

Ahora, por las razones trigonométricas sabemos que


AC  
Lk  Lk 1
B C 
 BC
AC
ñ AC  BC BAC
 C   p 2 Nk 1 q N  N
N
 p N2 Nk 1 q nak
k 
k 1 k

con lo que Mex  Lk 1 p  N


2  q
Nk 1 nakk .

Alternativamente, si los datos se distribuyen de forma uniforme, nakk indica


cuánto hay que variar x (dentro del intervalo) para que aumente la fre-
cuencia abs. acumulada en una unidad. Esto es, la frec. abs. acumulada
de Lk 1 nakk serı́a Nk 1 1; la de Lk 1 2 nakk serı́a Nk 1 2; ... y ası́
sucesivamente, de manera que la de Lk 1 c nakk serı́a Nk 1 c con c ¤ ak .

Esto significa que estamos buscando un valor c tal que

Nk 1 c  N2 ñ c  N2  Nk 1 .
Por lo tanto, el valor de x que buscamos es

Lk 1 p  Nk 1 q .
N ak
2 nk
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de tendencia central: Mediana

Caracterı́sticas de la Mediana
- Se basa en el orden que toman los valores de la variable.
- No se ve afectada por valores extremos.

Inconvenientes:
Según la definición original puede no existir un único valor.

Propiedades Matemáticas de la Mediana

1.- La suma de las desviaciones absolutas de los valores de una variable


respecto a una constante b se minimiza cuando esta constante es igual
a la mediana:
¸
N
Mex  arg min |xi  b|
b 
i 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Moda

 
Moda 
La moda es el valor (o valores) de la variable más frecuente (el más repe-
tido).

Si hay más de un valor con frecuencia máxima, habrá más de una moda.
Se dice entonces que la distribución es bimodal (2 modas), trimodal (3
modas), etc.

Se suele denotar como Mox , siendo x el nombre de la variable.

Para el cálculo de la moda distinguimos dos casos:


Tabla de frecuencias con datos no agrupados en intervalos.

Tablas de frecuencias con datos agrupados en intervalos.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Moda

Datos no agrupados en intervalos

La moda será aquel valor de x, xk , tal que nk es máximo.

xk nk Mox 7
1 10
3 8
Ej 1:
5 7
7 15
11 13

xk nk En este caso hay 2 Modas:


23 12 Mox t u
28, 51 .
28 18
Ej 2:
35 15
43 12
51 18

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Moda

Datos agrupados en intervalos

En este caso primero debemos encontrar el intervalo modal, que es aquel


intervalo que tiene la densidad de frecuencia, dk , máxima.

Una vez encontrado el intervalo modal, para asignar un valor a la moda


dentro del intervalo usamos la siguiente formula:
 
Mox  Lk 1 dk d1k d1k 1 ak
 
siendo dk el máximo de la densidad de frecuencia (y ak la amplitud del
intervalo).

La formula sitúa la moda más cerca del intervalo adyacente que tiene una mayor
densidad de frecuencia (dk 1 ó dk 1 ).

Puede haber más de una moda, puesto que puede haber más de un intervalo
modal.

Cuando los intervalos son de la misma amplitud, ak  c para todo k, da lo mismo


considerar la densidad de frecuencia o la frecuencia absoluta o relativa.

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia central: Moda

Ej: Moda de la variable ESPERANZA


(Esperanza de vida al nacer de las mujeres, en años).

pLk 1 , Lk s nk ak dk pLk 1 , Lk s nk ak dk
(45,55] 5 10 0.5 (40,60] 12 20 0.6
Ej 2:
Ej 1: (55,75] 36 20 1.8 (60,80] 68 20 3.4
(75,80] 39 5 7.8 (80,100] 6 20 0.3
(80,85] 6 5 1.2

Mo  75 1.2
1.8 1.2
 5  77 Mo  60 0.3
0.3 0.6
 20  66, 67

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia central: Moda

Caracterı́sticas de la Moda
Se puede emplear para todo tipo de variables, particularmente las categó-
ricas que no se pueden ordenar.

No se ve afectada por valores extremos.

Inconvenientes:
Puede no ser única.

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia no central

 
Medidas de Posición no Central 
Los cuantiles dan información de la posición de la distribución, aunque
diferente de la central.

En concreto, los cuantiles dividen la muestra (ordenada) en partes iguales


(esto es, que contienen el mismo número de observaciones).

Entre los cuantiles podemos citar:

Cuartiles.

Deciles.

Percentiles.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central

Cuartiles: Son los tres valores que dividen la muestra (ordenada) en


cuatro partes iguales, de manera que cada una de ellas debe contener
el 25 % de los datos.
Notación: Con C1 denotamos el valor que deja el 25 % de los datos (ordena-
dos) por debajo, con C2 el que deja por debajo el 50 % (la Mediana) y con
C3 el que deja por debajo el 75 %.

Cuartiles

C1 C2 C3

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central

Deciles: Son los nueve valores que dividen la muestra (ordenada) en


diez partes iguales, de manera que cada una de ellas debe contener
el 10 % de los datos.
Notación: Con D1 denotamos el valor que deja el 10 % de los datos (orde-
nados) por debajo, con D2 el que deja deja por debajo el 20 %, . . . y con D9
el que deja por debajo el 90 %. Obsérvese que D5 coincide con C2 y Me.
Deciles

D1 D2 D3 D4 D5 D6 D7 D8 D9

Percentiles: Son los noventa y nueve valores que dividen la muestra


(ordenada) en cien partes iguales, de manera que cada una de ellas
debe contener el 1 % de los datos.
Notación: Con P1 denotamos el valor que deja el 1 % de los datos (ordenados)
por debajo, con P2 el que deja por debajo el 2 %, . . . y con P99 el que deja
por debajo el 99 %. Obsérvese que P50 coincide con D5 , C2 y la mediana.

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de tendencia no central: Cuantiles

Cálculo de los Cuantiles


El cálculo de los cuantiles es similar al cálculo de la mediana.

Para simplificar la explicación denotaremos los cuantiles por Qr {M , donde


M es el número de partes en que dividimos la muestra (M  4 en los
cuartiles, M  10 en los deciles y M  100 en los percentiles) y r denota-
rá el cuantil exacto que buscamos (por ejemplo, Q1{4  C1 , Q3{10  D3 ,
Q45{100  P45 , . . .).

De esta manera nos bastará con explicar una vez el cáculo para cubrir todos
los casos posibles.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central: Cuantiles

Datos no agrupados en intervalos


La frecuencia acumulada que determina el cuantil Qr {M es r
M N. Por lo
tanto,
si en la tabla de frecuencias Dk tal que Nk  Mr N, entonces Qr {M 
xk xk 1
2

si no existe la frecuencia acumulada exacta, entonces Qr {M  xk ,


donde k cumple que Nk 1   Mr N ¤ Nk .

Datos agrupados en intervalos

En primer lugar determinamos el intervalo que contiene a Qr {M . Este


será el intervalo pLk 1 , Lk s, donde Nk 1   Mr N ¤ Nk .

Una vez determinado el intervalo, asignamos un valor a Qr {M dentro


del intervalo empleando la siguiente fórmula:

Qr {M  Lk 1
rN
M  Nk 1 a
k
nk

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central: Cuantiles

xk nk Nk 1
4 20  5 ñ Q1{4  2 2 3  2.5
1 2 2 2
4 20  10 ñ Q2{4  4
Ej 1:
2 3 5 3
4 20  15 ñ Q3{4  5
3 4 9
4 5 14
5 6 20

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central: Cuantiles

pLk 1 , Lk s nk Nk
(0,2] 5 5
(2,4] 3 8
Ej 2:
(4,6] 1 9
(6,8] 3 12
(8,10] 3 15
1
4 15  3.75 ñ p0, 2s ñ Q1{4  0 3.7550 2  1.5
7.55
4 15  7.5 ñ p2, 4s ñ Q2{4  2 3 2  3.6
2

11.259
4 15  11.25 ñ p6, 8s ñ Q3{4  6 2  7.5
3
3

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de tendencia no central: Cuantiles

Caracterı́sticas de los cuantiles


Los cuantiles se pueden calcular para variables cuantitativas o categóricas
ordinales.

En general muestran más información cuando se utilizan en conjunto.

No se ven afectados por valores extremos.

Inconvenientes:
Como la mediana, según la definición general pueden no ser únicos.
Son útiles en muestras grandes.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de variabilidad o dispersión

Las medidas de dispersión nos indican si los datos se encuentran agrupados


y son de magnitudes similares o si por el contrario están dispersos y toman
valores muy diferentes entre sı́.

Como el resto de estadı́sticos, las medidas de dispersión tratan de resumir


en un número la información que hay en la muestra. Pero las medidas de
dispersión se pueden utilizar además para medir la representatividad de las
medidas de posición o tendencia (media, mediana, etc.).

Histograma 1 Histograma 2

Media Media

Tal y como ilustran los gráficos, cuanto menor/mayor sea la dispersión de


la muestra mayor/menor será la representatividad de la media, la mediana
y la moda.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de variabilidad o dispersión

Dentro de las medidas de dispersión, distinguiremos dos tipos:

Medidas de dispersión absolutas:


Recorrido o Rango
Recorrido intercuartı́lico
Desviación absoluta media
Varianza
Desviación estándar.
Dependen de las unidades de medida, lo cual dificulta la comparación entre conjun-
tos de datos diferentes. Ej: dispersión de salarios en diferentes paı́ses con diferentes
monedas.

Medidas de dispersión relativas:


Coeficiente de apertura
Recorrido relativo
Recorrido intercuartı́lico relativo
Coeficiente de Variación de Pearson
No dependen de las unidades de medida, lo que facilita la comparación entre
muestras diferentes.
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de dispersión absoluta

Recorrido o Rango.
Es la diferencia entre el valor máximo y el valor mı́nimo de una muestra.
Lo denotaremos por Rx :
 
Rx  xpN q  xp1q  xmax  xmin
 
Ej 1:

xk
nk
3
4
8
1
12
3
20
5
Rx  xpN q  xk
nk
3
1
8
6
12
5
20
1
Rx  xpN q 
xp1q  20  3  17 xp1q  20  3  17
Caracterı́sticas:
 Se puede aplicar sobre variables cuantitativas.

Inconvenientes:
 Es muy sensible a observaciones extremas.
 No aporta información sobre la distribución de los datos dentro del
rango.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Recorrido intercuartı́lico.
Es la diferencia entre el tercer y el primer cuartil. Lo denotaremos por
RI px q.  
RI px q  Q3{4  Q1{4
 
Ej 2:

xk nk Nk
4
5
7
2
7
9
Q1{4  4 ð 14 20  5 ñ N1  7
7 4 13
12 4 17 Q3{4  12 ð 34 20  15 ñ N3  17
RI px q  Q3{4  Q1{4  12  4  8
25 3 20

Caracterı́sticas:
 Se puede aplicar sobre variables cuantitativas.

 Es menos sensible que el Rango a los valores extremos.


Inconvenientes:
 No aporta información sobre la distribución de los datos (más allá de

que el 50 % de los datos está en RI ).


Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de dispersión absoluta

Las medidas de dispersión absoluta que vamos a ver a continuación usan


todas las observaciones y se basan en la distancia de cada observación a
un mismo punto (desviación).

En general, dado que las medidas de dispersión suelen usarse para ver la
representatividad de las medidas de posición central, ese punto puede ser
cualquiera de los estadı́sticos de posición central: la mediana, la moda y,
particularmente, la media.

Ası́, una forma alternativa de ver si las observaciones están dispersas o


apiñadas en torno a la media aritmética o si están esparcidas a lo largo del
rango es calcular las desviaciones respecto de la media aritmética, xi  x,
para cada una de las observaciones.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

De esta forma obtendremos N desviaciones, lo que plantea la cuestión de


¿cómo resumir esa información en un único valor?

Dos posibles soluciones:

La media aritmética del valor absoluto de las desviaciones, |xi  x| ñ


°
|xi  x |.
N
1
N

i 1

La media aritmética de las desviaciones al cuadrado, pxi  x q2 ñ


°
pxi  x q2 .
N
1
N

i 1

La más importante y empleada es la segunda, la varianza.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Desviación absoluta media


Media aritmética de las desviaciones “absolutas” entre el valor de cada ob-
servación y la media aritmética de la muestra. La denotaremos por DM px q.

°
|xi  x |
N
1
Datos no Agrupados:
i 1
N


°
nk |xk  x|
K
1
Tabla de Frecuencias:

N
k 1

Ej 1: Muestra: 0,0,1,1,5,5.

x  0
 126  2
0 1
6
1 5 5

DM px q 
|0  2| |  2| |1  2| |1  2| |5  2| |5  2|
0
6
 2 2 1
6
1 3 3
2

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

x  
0 4   
1 6 6
0.6
10 10
xk 0 1 pq 
DM x
|  | |  |
4 0 0.6 6 1 0.6
Ej 2: 10
nk 4 6
 2.4 2.4
10
0.48 

Interpretación:
Cuanto mayor/menor es la desviación absoluta media, mayor/menor
es la dispersión.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

 DM px q ¥ 0. Si DM px q  0, todas las observaciones son iguales.

 Está expresada en las mismas unidades que la variable.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Varianza
Media aritmética de los cuadrados de las desviaciones entre el valor de
cada observación y la media aritmética de la muestra. La denotaremos por
S 2 px q.

°
pxi  x q
N
1 2
Datos no Agrupados:

N
i 1


°
nk pxk  x q2
K
1
Tabla de Frecuencias:

N
k 1

Ej 1: Muestra: 0,0,1,1,5,5.

x  0 0 1
6
1 5 5
 126  2
p q  p0  2q p0  2q p1  2q2 p1  2q2 p5  2q2 p5  2q2
2 2
S2 x
6
 4 4 1
6
1 9 9
 4.6

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

x  
0 4   6  0.6
1 6
10 10
xk 0 1 pq 
S2 x
p  q 6 p1  0.6q2
4 0 0.6 2
Ej 2: 10
nk 4 6
 1.44
10
0.96
 0.24

Interpretación:
Cuanto mayor/menor es la varianza, mayor/menor es la dispersión.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

 S 2 px q ¥ 0. Si S 2 px q  0, todas las observaciones son iguales.

 Está expresada en las unidades de la variable elevadas al cuadrado.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Propiedades Matemáticas de la Varianza


1.- S 2
¥ 0. No puede ser negativa
2.- La varianza es una medida de dispersión óptima, puesto que:
1 ¸ ¸
N N

N i 1
pxi  x q2   N1 pxi  k q2

i 1
para k  x.
°
S 2 px q  N1 xi2  x 2  x 2  x 2 . La varianza es la diferencia entre
N
3.-

i 1
la media aritmética del cuadrado de la variable y la media aritmética
al cuadrado.
Prueba:
Ņ Ņ
S2 x pq  1
pxi  x q2  N1 xi2 x2  2xi x 
N i 1 i 1
Ņ Ņ Ņ Ņ Ņ
 1
xi2
1
x2  N1 2xi x  N1 xi2 x2  2x N1 xi
N i 1 N i 1 i 1 i 1 i 1
Ņ Ņ
 1
xi2 x2  2x 2  N1 xi2  x2
N i 1 i 1
Tema 2: Análisis descriptivo de los datos Estadı́stica I
Medidas de dispersión absoluta

Propiedades Matemáticas de la Varianza


4.- Cambio de origen: Si sumamos una constante, a, a todos los valores
de la muestra, yi  xi a, la varianza de la nueva variable será la
misma que la de x: S 2 py q  S 2 px q.
Prueba:
Ņ Ņ
S2 ypq  1
pyi  y q2  N1 pxi a  px a qq2
N i 1 i 1

 1
pxi  x q2  S 2 px q
N i 1
usando la propiedad 3 de la media aritmética, y x a.

5.- Cambio de escala: si multiplicamos por una constante, b, todos los


valores de la muestra, y  bx, la varianza de la nueva variable se verá
multiplicada por b2 : S 2 py q  b2 S 2 px q.
Prueba:
Ņ Ņ Ņ
S2 y pq  1
pyi  y q2  N1 pbxi  bx q2  N1 p  x q2  b2 S 2 px q
b 2 xi
N i 1 i 1 i 1
usando la propiedad 4 de la media aritmética, y  bx.
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de dispersión absoluta

Propiedades Matemáticas de la Varianza

° °
6.- S 2 px q  px l  x q2 , con Nl , x l , Sl2 el tamaño, la media
L L
Nl Nl
Sl2
l 1 N

l 1
N

aritmética y la varianza de L submuestras disjuntas.

xk 3 8 9 11 12
Ej 3:
nk 5 4 5 4 2

x  1
20
p  
5 3 4 8 5 9 4 11 2 12    q8
1 
pq 
S2 x
20
p  q
5 3 8 2 4 8 8 2 5 9 8 2 p  q p  q p  8q2
4 11 p  8q2   9.9
2 12

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Ej 3.1: Transformamos x, creando y  10x  80:


xk -50 0 10 30 40
nk 5 4 5 4 2

y  1
20
p  p q
5 50 4 0 5 10   
4 30  q  0  10x  80  y
2 40
1 
pq 
S2 x
20
p  q p  q
5 50 0 2 4 0 0 2 p  0q2
5 10 p  0q2
4 30 2 40p  0q2   990
 102 S 2 xp q p q
S2 y

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Ej 3.2: Consideramos dos submuestras, A la formada por los xk pares, y


B formada por los impares.

xA  4 8  
2 12
 9.33
6
xB  5 3 5 9  4  11
 7.42
6
ñx  NA x A NB x B
N
 6  9.33 2014  7.42  8

pq 
SA2 x
p  9.33q2
4 8p  9.33q2  3.55 2 12
6
5p3  7.42q2 5p9  7.42q2 4p11  7.42q2
SB px q 
2
 11.53
14

pq 
S2 x
NA S 2 x p qA
NB S 2 x p qB p  x q2
NA x A p  q
NB x B x 2
N N

 
6 3.55 14 11.53  p
6 9.33  8q2 p  q 
14 7.42 8 2
9.14 0.76  9.9
20 20

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Desviación Tı́pica (o Estandar)


Es la raı́z cuadrada positiva de la varianza. La denotaremos por S px q o
DE px q.
 ? 2
S  S 

Interpretación:
Como en el caso de la varianza, a mayor/menor valor mayor/menor
dispersión.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

 Está expresada en las mismas unidades que la variable.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión absoluta

Propiedades Matemáticas de la Desviación Tı́pica

1.- S ¥ 0. No puede ser negativa


2.- Es una medida de dispersión óptima.

3.- No se ve afectada por cambios de origen.

4.- Se ve afectada por los cambios de escala. En concreto,

y  bx ñ S py q  |b| S px q

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión relativa

 
Medidas de dispersión relativas 

Estas medidas se utilizarán:
1) cuando se quieran comparar muestras que no están expresadas en la
mismas unidades;
2) cuando expresadas en la misma unidad de medida, sus medias son muy
diferentes.

Entre las medidas de dispersión relativas se encuentran:

El coeficiente de Apertura.

El Recorrido Relativo.

El coeficiente de variación de Pearson.

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de dispersión relativa

Coeficiente de apertura
Es el cociente entre los dos valores extremos de una muestra. Lo denota-
remos por Ap px q.
 
Ap px q  xppN1qq  xxmax
x

 min

Interpretación:
Cuantas veces es más grande la observación más elevada respecto de
la más pequeña.
Caracterı́sticas:
 Se aplica sobre variables cuantitativas, normalmente positivas.

 Ap ¥ 1 si las variables toman valores positivos.


Inconvenientes:
 Al utilizar sólo los valores extremos, no tiene en cuenta la dispersión

de la muestra entre esos dos valores (la misma crı́tica que se puede
hacer al Recorrido y Recorrido intercuartilico).
Ej: Muestra alturas: 1.55, 1.60, 1.70, 1.85, 1.71, 1.65, 1.60, 1.68, 1.64 y
1.70. Ap  1.85
1.55  1.19.
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de dispersión relativa

Recorrido relativo
Es el recorrido (rango) de la muestra dividido entre su media aritmética.
Lo denotaremos por Rr px q.  
Rr px q  Rx
 
Interpretación:
Cuantas veces“cabe”la media aritmética en el recorrido de la muestra.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

 Existen recorridos relativos a otras medidas de posición central.

Ej: Muestra: 1,4,8,12,18. R  18  1  17. x  435  8.6. Rr px q  8.6


17

1.98.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión relativa

Recorrido intercuartı́lico relativo


Es el recorrido intercuartı́lico de la muestra dividido entre su mediana. Lo
denotaremos por RIr px q.  
RIr px q  Me
RI
 x

Interpretación:
Cuantas veces “cabe” la mediana en el recorrido intercuartı́lico.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

xk 4 5 7 12 25  
Q1{4 4, Q2{4 7 y Q3{4  12
Ej: nk 7 2 4 4 3 ñ p q
RI x 8
RI px q
Nk 7 9 13 17 20
 {  
RIr Q
2 4
8
7
1.14

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de dispersión relativa

Coeficiente de variación de Pearson


Es el cociente entre la desviación tı́pica y el valor absoluto de la media
aritmética. Lo denotaremos por CVx .
 
CVx  |Sxx|
 
Interpretación:
Cuanto más cerca de 0 menor es la dispersión relativa; cuanto más
lejos de 0, mayor es la dispersión relativa, o alternativamente, cuanto
más cerca de 0 más representativa es la media aritmética; cuanto más
lejos de 0, menos representativa es la media aritmética.

Caracterı́sticas:
 Se aplica sobre variables cuantitativas.

Inconvenientes:
 Si x está cercano a 0, entonces CVx es poco fiable.

Ej: Muestra: 0,1,1,1,2,2,3,5,5,5,5,6. x  36


 3. Sx2  48
 4, Sx  2.
CVx  23  0.667
12 12

Tema 2: Análisis descriptivo de los datos Estadı́stica I


Medidas de dispersión relativa

Propiedades Matemáticas del Coeficiente de variación de Pearson


1 Cambio de origen: El coeficiente de variación de Pearson se ve
afectado por los cambios de origen.

y  x a
CVy  |Syy|  |x Sx a|  CVx

2 Cambio de escala: El coeficiente de variación de Pearson no se ve


afectado por los cambios de escala.

y  bx
CVy  |Syy|  ||bb|| |Sxx|  CVx

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Forma de una distribución: asimetrı́a y curtosis

El análisis estadı́stico de las secciones anteriores tenı́a como objetivo re-


sumir la información que habı́a en la muestra utilizando las medidas de
posición y de dispersión.
En esta sección analizaremos cómo obtener, a través de algún estadı́stico,
información adicional sobre aspectos complementarios de la muestra. En
particular, información sobre la forma de la distribución o histograma.
En concreto, analizaremos dos aspectos de la forma de la distribución:

Simetrı́a respecto de la media aritmética. Trata de comparar la dis-


tribución a la izquierda (por debajo) de la media aritmética con la
distribución a la derecha (por encima) de la media aritmética.

Apuntamiento o curtosis. Mide la mayor o menor concentración de


observaciones en la zona central de la distribución o histograma.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a
 
Medidas de Asimetrı́a 
Una distribución es simétrica si los valores equidistantes (a la misma dis-
tancia) a la media aritmética tienen la misma frecuencia.
Esto es, si xk p  x q   pxq  x q, entonces, nk  nq .
Si la distribución es simétrica perfecta, Mex  x.
Si, además, es unimodal, Mox  Mex  x.
Ej 1: y  Mey  Moy  0.
yk nk
-5 1
Histograma
-4 2 8

B
-3 3 7
Mo=Me=

-2 4 6

Frecuencia Absoluta
-1 5 5

4
0 6 3

1 5 2

2 4 1

3 3 0
-6 -4 -2 0 2 4 6

4 2 Y

5 1
Tema 2: Análisis descriptivo de los datos Estadı́stica I C
Medidas de Asimetrı́a

Tipos de Asimetrı́a
Asimetrı́a a la derecha o positiva
La cola de la derecha de la distribución es más alargada.

La Media es mayor que la mediana.


Dado que la media aritmética cumple que la distancia de las observaciones
que están por debajo (izq.) es igual a las que están por encima (dcha.), la
media aritmética debe estar a la derecha, por eso será mayor que la mediana.

Las N {2 observaciones por debajo (izquierda) de la mediana están


mas cerca de la mediana que las que están por encima (derecha).

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a

Ej 2:
yk nk
-5 2
Histograma
-4 4 8
Mo=Me
B
-3 6 7

-2 7 6

Frecuencia Absoluta
-1 5 5

4
0 3 3

1 2 2

2 2 1

3 2 0
-6 -4 -2 0 2 4 6

4 1 Y

5 1
6 1
y  1, Moy  Mey  2

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a

Tipos de Asimetrı́a
Asimetrı́a a la izquierda o negativa
La cola de la izquierda de la distribución es más alargada.

La Media es menor que la mediana.


Dado que la media aritmética cumple que la distancia de las observaciones
que están por debajo (izq.) es igual a las que están por encima (dcha.),
la media aritmética debe estar a la izquierda, por eso será menor que la
mediana.

Las N {2 observaciones por debajo (izquierda) de la mediana están


mas lejos de la mediana que las que están por encima (derecha).

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a

Ej 3:
yk nk
-6 1
Histograma
-5 1 8
B Mo=Me

-4 1 7

-3 2 6

Frecuencia Absoluta
-2 2 5

4
-1 2 3

0 3 2

1 5 1

2 7 0
-7 -5 -3 -1 1 3 5

3 6 Y

4 4
5 2
y  1, Moy  Mey  2

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a

Medidas de Asimetrı́a

a) Coeficiente de asimetrı́a de Pearson.


 
Asp  x  Mox
S px q
 
Se utiliza en distribuciones unimodales.
Si Asp 
0 la distribución es Simétrica.
Si Asp ¡
0 la distribución es Asimétrica positiva ô x ¡ Mox .
Si Asp  
0 la distribución es Asimétrica negativa ô x   Mox .
b) Coeficiente de asimetrı́a de Bowley.

Q 2Me
Asb  3{Q4 3{4 1{Q4 1{4
Q



Se utiliza en distribuciones unimodales.
Si Asb 
0 la distribución es Simétrica.
Si Asb ¡
0 la distribución es Asimétrica positiva.
Si Asb  
0 la distribución es Asimétrica negativa.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de Asimetrı́a

Medidas de Asimetrı́a

c) Coeficiente de asimetrı́a de Fisher.



1
°K n px x q3
g1  1
N k k
k


pS px qq3
Se utiliza en distribuciones unimodales.

Si g 1 0 la distribución es Simétrica.
¡
Si g 1 0 la distribución es Asimétrica positiva ô x ¡ Mex
 
Si g 1 0 la distribución es Asimétrica negativa ô x   Mex .
° °1 °
p  xq  0 ô p  xq  p  x q, donde xk ¤ x
K K K
Sabemos que nk xk nk xk nk xk
k 1 k 1 k K1 1
si k ¤ K1 . Por lo tanto,
¸
K1 Ķ
g1 ñ p  x q2 pxk  x q ¾
nk xk nk xkp  x q2 pxk  x q
k 1 K1 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de curtosis.
 
Medidas de Apuntamiento o Curtosis 

Se aplica a distribuciones unimodales y más o menos simétricas, que se
conocen como campaniformes.

Las medidas de curtosis miden el grado de aplanamiento o apuntamiento


de una distribución unimodal.
Para definir este grado, se compara con el de una de las distribuciones más
usadas, la Normal o Gausiana.

Hay tres tipos básicos de apuntamiento o curtosis:


Mesocúrtico, que hace referencia a la curtosis de la distribución nor-
mal o gausiana.

Leptocúrtico, cuando el apuntamiento es superior a la normal y se


aprecia una mayor concentración en torno a x.

Platicúrtico, cuando el apuntamiento es inferior a la normal y se


aprecia una menor concentración en torno a x.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de curtosis.

Tipos de apuntamiento
Distribución Mesocúrtica: hace referencia a la curtosis de la distribución
normal o gausiana.

Distribucion Normal

0,45

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

0
-4 -3 -2 -1 0 1 2 3 4

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de curtosis.

Tipos de apuntamiento
Distribución Leptocúrtica: cuando el apuntamiento es superior a la nor-
mal y se aprecia una mayor concentración en torno a x.

Distribución leptocúrtica

0,8

Normal
0,7
leptocúrtica

0,6

0,5

0,4

0,3

0,2

0,1

0
-4 -3 -2 -1 0 1 2 3 4

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de curtosis.

Tipos de apuntamiento
Distribución Platicúrtica: cuando el apuntamiento es inferior a la normal
y se aprecia una menor concentración en torno a x.

Distribución Platicúrtica
0,45

0,4 Normal
platicúrtica
0,35

0,3

0,25

0,2

0,15

0,1

0,05

0
-4 -3 -2 -1 0 1 2 3 4

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Medidas de curtosis.


Coeficiente de curtosis de Fisher 
Lo denotaremos por g2 y se calcula como

1
°K n px x q4
g2  1 3
N k k

pS px qq4
k

1 °K n px x q4
N
1 k k
pS px qq
k
La razón por la que al cociente 4 se le resta 3 es que, para el caso de la
1 °K n px x q4
k 1
 3.
N k k
normal, pS px qq
4

De esta forma:
Si g2  0 la distribución es mesocúrtica.
Si g2 ¡ 0 la distribución es leptocúrtica.
Si g2   0 la distribución es platicúrtica.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Tema 2: Análisis descriptivo de los datos

1 Distribución de frecuencias de una variable.

2 Reducción de datos, agrupación en intervalos.

3 Representaciones gráficas.

4 Parámetros poblacionales. Medidas y estadı́sticas muestrales.

5 Medidas y estadı́sticos de posición: medidas de tendencia central.

6 Medidas de variabilidad o dispersión.

7 Forma de una distribución: asimetrı́a y curtosis.

8 Apéndice: Momentos de una distribución.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Apéndice

Las distintas medidas o estadı́sticos utilizados para ver las diferentes ca-
racterı́sticas de una distribución que incluı́an a todas las observaciones de
la muestra pueden agruparse en lo que se denotan como momentos de
orden r respecto de κ.
Estos momentos los denotaremos por Mr ,pκq px q y se calculan de la siguente
manera:

°K n px κqr
Datos agrupados: Mr ,κ px q  1
k k
k

 N

°N px κqr
Datos no agrupados: Mr ,κ px q  1
i
i

 N
Todos se pueden interpretar como medias aritméticas de una transforma-
ción de la variable original.
Estos momentos caracterizan una distribución. Esto es, dos distribuciones
sólo serán iguales si tienen todos sus momentos iguales.

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Apéndice

Se distinguen dos tipos de momentos:

Momentos respecto del origen, ar (esto es, κ  0):



°
ar px q 
K
1
nk xkr

N

k 1

Momentos respecto de la media aritmética, mr (también conoci-


dos como momentos centrales y en los que κ  x):

°
mr px q  nk pxk  x qr
K
1


N

k 1

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Apéndice

Propiedades

1. m1  0
2. Todos los momentos centrados pueden escribirse como una función
de los momentos respecto del origen.
m2  a2  a1
m3  a3  3a2 a1 2a13
m4  a4 6a2 a12  4a3 a1  3a14
Igualdades

1. x  a1
2. S px q  m2  a2  a1
2

3. g 1  m{ 3
3 2
m
g2  m 3
2
m
4. 4
2
2

Tema 2: Análisis descriptivo de los datos Estadı́stica I C


Análisis descriptivo de los datos

Oscar Martı́nez y Miguel Manjón

Curso Académico 2020-2021

También podría gustarte