Está en la página 1de 19

Estadística descriptiva

• En muchos problemas estadísticos es necesario utilizar una muestra de


observaciones tomadas de la población de interés con objeto de
obtener conclusiones sobre ella. A continuación se presenta la
definición de algunos términos
• Una población está formada por la totalidad de las observaciones en las
cuales se tiene cierto interés.
• En muchos problemas de inferencia estadística es poco práctico o
imposible, observar toda la población, en ese caso se toma una parte o
subconjunto de la población
• Una muestra es un subconjunto de observaciones seleccionada de una
población
Medidas Características de una Distribución
Cuando disponemos de un conjunto de datos de una variable
cuantitativa, resulta conveniente calcular ciertas medidas
resumen.

Las más importantes son las de tendencia central o centralización,


que indican el valor medio de los datos, y las de dispersión, que
miden su variabilidad. En un segundo nivel existen medidas que
describen el grado de simetría o de concentración de la
distribución.
Es importante tener en cuenta que las medidas resumen son
informativas para datos homogéneos y que pueden ser muy
engañosas cuando mezclamos distintas poblaciones. Por
ejemplo, si el histograma de los datos es del tipo

una medida “media” del valor de los datos no representará a


ninguna de las dos subpoblaciones.
En estos casos es más adecuado identificar las razones de la
heterogeneidad, dividir los datos en dos poblaciones distintas y
calcular las medidas características en cada una de ellas.
Medidas de centralización

Media
Dado un conjunto de datos numéricos x1, …, xn, se define la
media aritmética por:

x=
 x i

n
Donde la sumatoria se extiende al número total de datos.
Mediana
La mediana es una valor tal que, una vez ordenados en magnitud los datos, el
50% es menor que ella y el 50% mayor. Por tanto, al ordenar los datos, la
mediana es el valor central.
Si la cantidad de datos de la muestra es par hay que promediar los dos datos
centrales.
Si la cantidad de datos de la muestra es impar la mediana es el valor del
centro de los datos.
Moda
La moda es el valor más frecuente.
Comparación de medidas de centralización
Desde un punto de vista puramente descriptivo las tres medidas
proporcionan información complementaria, PERO: la media utiliza todos los
datos y es preferible si los datos son homogéneos; tiene el inconveniente de
que es muy sensible a observaciones atípicas, y un error de datos o un valor
anormal puede modificarla totalmente.
Por el contrario, la mediana utiliza menos información que la
media, ya que sólo tiene en cuenta el orden de los datos y no
su magnitud, pero, en contrapartida, no se ve alterada si una
observación (o en general una pequeña parte de las
observaciones) contiene errores grandes de medida o de
transcripción.

En consecuencia, es siempre recomendable calcular la media y


la mediana: ambas medidas diferirán mucho cuando la
distribución sea muy asimétrica, lo que sugiere heterogeneidad
en los datos.
Ejemplo: x frecuencia (f)
Dada la siguiente tabla 1 de datos: 0 40 .
1 26 .
2 14 .
3 6 .
4 3 .
5 0 .
6 1 .
Total 90 .

Las medidas de centralización para las distribuciones de frecuencia


son:

media = x = 0x0,44+1x0,29+2x0,16+3x0,07+4x0,03+6x0,01 = 1

mediana = 1

moda = 0
Medidas de dispersión
Desviación típica
A cada medida de centralización podemos asociarle una medida
de la variabilidad de los datos respecto a ella. A la media le
asociamos la desviación típica, definida por:

(
 ix − x )2

s=
n −1

La desviación típica es un tipo de promedio de las desviaciones de


los puntos respecto a su media. Las desviaciones ( xi − x ) se elevan
al cuadrado para convertirlas en positivas (recuérdese que
 (xi − x ) = 0), y se extrae la raíz cuadrada de su promedio para
que la medida resultante tenga las mismas dimensiones que los
 (x − x )
2

datos originales. La varianza muestral se define como


i

n −1
Coeficiente de variación

Se denomina coeficiente de variación al cociente


s
CV =
x
que es una medida relativa de variabilidad. En ingeniería se utiliza
mucho el coeficiente inverso, x s , que se conoce como coeficiente
señal-ruido. Para datos que representen distintas mediciones de
una misma magnitud, s es un valor promedio del error de medición
y CV indica la magnitud promedio del error como porcentaje de la
cantidad medida.
El coeficiente de variación en datos positivos de una población
homogénea es típicamente menor que la unidad. Si este coeficiente
es mayor que 1,5 conviene investigar posibles fuentes de
heterogeneidad en los datos (medidas con distintos instrumentos;
en personas de distions sexo; en distintos momentos temporales,
etc.)
Otras medidas de dispersión

Meda

La medida de dispersión que asociamos a la mediana, Med, es la


mediana de las desviaciones absolutas (MEDA) definida por:

MEDA = mediana |xi - Med|

que tiene la ventaja, como la mediana, de no verse afectada por


datos extremos. A las medidas que tienen esta propiedad las
llamaremos medidas robustas o resistentes.
Rango o recorrido

Se denomina rango o recorrido de una variable a la diferencia


entre su valor máximo y mínimo.

Rango intercuartílico

Llamaremos percentil p al menor valor superior al p % de los


datos. Por ejemplo, si el número de datos es impar la mediana
es el percentil 50. Llamaremos cuartiles a aquellos valores que
dividen la distribución en cuatro partes iguales. El primer cuartil,
Q1, es por definición, igual al percentil 25, el segundo es la
mediana y el tercero, Q3 , el percentil 75. Los percentiles y los
cuartiles se utilizan para construir medidas de dispersión
basadas en los datos ordenados, como el rango intercuartílico,
que es la diferencia entre los percentiles 75 y 25.
Algunas representaciones gráficas
Diagrama de Caja
Es una representación gráfica de una distribución construida para
mostrar sus características principales y señalar los posibles datos
atípicos, es decir aquellas observaciones que parecen ser muy
distintas de las demás.
Un diagrama de caja se construye como sigue:

1) Ordenar los datos de la muestra y obtener el valor mínimo, el


máximo, y los tres cuartiles Q1, Q2 y Q3.
2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la
posición de la mediana (Q2) mediante una línea.
3) Calcular unos límites admisibles superior e inferior que van a
servir para identificar los valores atípicos.
Estos límites se calculan con:  Q − Q1 
LI = Q1 − 1,5 3 
 2 

 Q − Q1 
LS = Q3 + 1,5 3 
 2 
4) Considerar como valores atípicos los situados fuera del intervalo
(LI, LS).

5) Dibujar una línea que vaya desde cada extremo del rectángulo
central hasta el valor más alejado no atípico, es decir, que está dentro
del intervalo (LI, LS).

6) Identificar todos los datos que están fuera del intervalo (LI, LS),
marcándolos como atípicos.

Los diagramas de caja son especialmente útiles para comparar las


distribuciones de una variable en distintas poblaciones.
Ejemplo:
Un Ingeniero civil está probando la resistencia a la compresión del
concreto. Prueba 12 muestras y obtiene los siguientes datos:
2216, 2237, 2249, 2204, 2225, 2301, 2281, 2263, 2318, 2255,
2275, 2295.

MEDIA = 2259,92 Box-and-Whisker Plot


MEDIANA = 2259
MÍNIMO = 2204,0
MÁXIMO = 2318,0
RANGO = 114,0
primer quartile = 2231
segundo quartile = 2288
Rango intercuartílico = 57,0
LI = 2231-1,5*57 = 2145,5 2200 2220 2240 2260 2280 2300 2320

LS = 2288+1,5*57 = 2373,5 Resistencia


Agrupamiento de datos
Cuando el número de valores distintos que toma una variable
discreta sea grande, o cuando ésta sea continua, conviene agrupar
los datos en clases, como sigue:
a) Decidir el número r de clases a considerar. Este número debe
ser entre 5 y 20. Una regla frecuentemente utilizada es tomar r
igual al entero más próximo a n , siendo n el número de datos,
pero conviene probar con distinto número de clases y escoger
aquel que proporcione una descripción más clara.
b) Seleccionar los límites de clase que definen los intervalos, de
manera, preferentemente, que las clases sean de la misma
longitud y cada observación se clasifique sin ambigüedad en
una sola clase.
c) Contar el número de observaciones en cada clase, que
llamaremos la frecuencia de clase, y obtener la frecuencia
relativa de cada clase dividiendo aquella por el total de datos.
Distribución de la variable: tiempo en minutos al realizar
una operación

Intervalo Frecuencia relativa


20 - 24 0,3
25 - 29 0,4
30 - 34 0,2
35 - 39 0,05
40 - 44 0,05
Diagrama de tallo y hoja
Es un procedimiento semi gráfico para presentar la información
para variables cuantitativas, que es especialmente útil cuando en
número total de datos es pequeño. Se llama Diagrama de tallo y
hoja de Tukey. Los principios para construirlo son:
a) Disponerlos en una tabla con dos columnas separadas por una
línea como sigue:
a1) para los datos con 2 dígitos, escribir a la izquierda de la línea
los dígitos de las decenas (que forman el tallo) y a la derecha las
unidades que serán las hojas. Por ejemplo, 87 se escribe 8|7.
a2) para los datos con 3 dígitos, el tallo estará formado por los
dígitos de las centenas y decenas, que se escribirán a la
izquierda separados de las unidades. Por ejemplo, 127 será
12|7.
b) Cada tallo define una clase, y se escribe solo una vez. El número
de hojas representa la frecuencia de dicha clase.
Ejemplo
Datos muestrales expresados en mm.:
114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161;
122; 127; 135; 161;122; 127; 134; 147.

Diagrama de tallo y hoja para estos datos:

11 4 4 3
12 5 4 7 2 7
13 3 5 4
14 2 7
15 2
16 1
17 2
decenas unidades
Diagrama de barras
Para los datos de variables discretas, y en general para
distribuciones de frecuencia de datos sin agrupar se utiliza el
diagrama de barras. Este diagrama representa los valores de la
variable en el eje de las abscisas levantando en cada punto una
barra vertical de longitud igual a la frecuencia relativa ó absolutas.
Para los datos de la Tabla 1

Barchart for frecuencias

0
1
2
3
4
5
6

0 10 20 30 40
frequency

También podría gustarte