Está en la página 1de 20

Estimacin de medidas de

tendencia central y
dispersin
Estimacin de parmetros
Para caracterizar una distribucin de variables se requieren medidas de tendencia
central y de dispersin.
La funcin de estas medidas es estimar los parmetros de la poblacin
Un buen estimador debe tener las siguientes caractersticas:
Debe ser libre de bias - el valor esperado del estadstico de la muestra debe
ser igual al parametro. Varias muestras producen estimaciones que no sobre-
estiman ni sub-estiman el parmetro
Debe ser consistente con el aumento del tamao de la muestra - a mayor n
ms cerca del valor real debe estar el estadstico. Si la muestra incluye toda la
poblacin, el estadstico deber ser igual al parmetro.
Debe ser eficiente - tiene una varianza ms pequea que estimadores
similares. Por ejemplo, la media de la muestra es mejor estimador de la media
paramtrica de una variable con distribucin normal, que la mediana, a pesar
que ambos estadsticos son numricamente iguales.
Los estimadores son de dos tipo:
1. estimadores de tendencia central - normalmente son valores nicos.
2. estimadores de dispersin - son estimadores que entregan un rango de valores
que puede incluir un parmetro con distribucin conocida.
1. Medidas de tendencia central
1. Media Aritmtica
es la medida ms comn que se da a conocer en cualquier trabajo.
es un estadstico poco resistente - es fuertemente influenciado por los valores
extremos.
para evitar esto existe la media cortada (trimmed mean), que se calcula
omitiendo un porcentaje (5%) de los valores extremos - se usa cuando hay
outliers.
2. Media Geomtrica
es menos afectada por los valores extremos pero su significado estadstico es
menos intuitivo que la media aritmtica.
si hay valores cero, el valor queda sin determinar
se usa para promediar porcentajes, indices y valores relativos
es til para calcular el incremento porcentual de valores de porcentaje.
EJ: Se tiene el aumento en porcentaje del peso de ballenas en estanques
durante 4 meses: 1%, 2%, 5% y 10%.
- GM = (1 x 2 x 5 x 10)
1/4
= 3.16
- Media = 4.5
3. Mediana
corresponde al valor medio de la distribucin en datos ordenados por ranking
es el percentil 50avo de la distribucin
es un estadstico resistente a los valores extremos.
1. Medidas de tendencia central
3. Moda
es una medida del, o los datos, de mayor ocurrencia en una
distribucin
una distribucin puede tener varias modas: bimodal, multimodal
las distribuciones multimodales pueden esconder varios grupos que
se ajustan a una distribucin normal pero tienen distintas medias y
varianzas.
1. Medidas de tendencia central
5. Relaciones entre la Media, la Mediana y la Moda
en una distribucin normal los tres estadsticos tienen valores
similares
en una distribucin simtrica la media y la mediana son similares
en una distribucin con sesgo el orden de los estadsticos es:
- con sesgo positivo: moda, mediana, media
- con sesgo negativo: media, mediana, moda
2. Medidas de dispersin (o variabilidad)
1. Rango
es el estadstico ms bsico y se informa como el valor mnimo y
mximo de una distribucin
no es un buen estimador del rango poblacional - si la muestra aumenta,
aumenta el rango
2. Suma de desviaciones de la media al cuadrado



se conoce tambin como suma de cuadrados SS
sirve de base para calcular los dems estadsticos de dispersin.
para ejercitar la compresin del significado de esta medida, responda
las siguientes preguntas:
- cul es el dominio de SS?
- qu indica una SS grande? y una pequea?
- qu indica una SS = 0?
- el valor de SS = 3400 es grande?
SS = (X
1
X
i =1
n

)
2
3. Varianza
corresponde a la media de la suma de cuadrados o media cuadrtica
para la muestra el divisor es n - 1 para evitar la estimacin de un estimador
influenciado por un valor de N que en la prctica no se conoce
al utilizar n - 1 se obtiene un estimador sin bias de la varianza paramtrica
sus unidades estn al cuadrado de las medidas originales - si las
observaciones largos en mm, entonces mm
2
no expresa el largo.
4. Desviacin estndar
tiene las mismas unidades que los datos originales
si un set de datos tiene distribucin normal se puede usar junto a la media
para describir la distribucin completa (ver valores de Z)
es la medida de dispersin ms usada, pero su uso se debera restringir a
variables con distribucin normal.
5. Coeficiente de variacin
expresa la variabilidad relativa de la media de la muestra
se usa slo para datos de escala de proporcin (el cero verdadero existe)
la desviacin estndar y la varianza son buenos estimadores, pero su
magnitud depende de la magnitud de los datos
ej. la envergadura de albatros y golondrina de mar
2. Medidas de dispersin (o variabilidad)
Albatros Golondrina de mar
200 2,0
250 2,5
250 2,5
270 2,5
Media 243 2,4
S 29,9 0,29
CV 12,3 12,3
Envergadura (cm) de una muestra de Albatros y
Golondrina de mar de la regin de Coquimbo (datos son
inventados).
Los albatros tienen envergaduras 100 veces ms grandes que las
Golondrina de mar.
La envergadura de los albatros no es 100 veces ms variable que la
envergadura de las Golondrinas de mar, como indica la desviacin
estndar (100 veces mayor).
El coeficiente de variacin es una mejor expresin de la variabilidad
de la media de ambos grupos.
2. Medidas de dispersin (o variabilidad)
3. Error estndar de la media
cul es la probabilidad que el verdadero valor de la media se encuentre en
un cierto rango de valores?
una manera de hacerlo es aplicando el teorema del lmite central (ms
adelante), pero es costoso en tiempo y dinero
una posibilidad es calcular el ES, que estima la variabilidad alrededor de la
media
el SE es un indice de la variabilidad que tendran las medias si el estudio
fuera replicado una gran cantidad de veces
en conjunto con el 95% CI, permite calcular el rango en el cual se encuentra
la media
no debe ser usado para indicar la dispersin de datos individuales alrededor
de la media - para eso se usa la S
4. 95% de Intervalo de Confidencia
es una medida de la variacin de los datos alrededor de la media
es un rango en el cual tenemos el 95% de confianza que se encuentra el
valor real de la media de la poblacin
recordar que la media paramtrica es un valor fijo, pero desconocido, que se
estima a partir de una muestra de datos aleatorios.
2. Medidas de dispersin (o variabilidad)
5. Rango intercuartlico
cuando los datos no se ajustan a una distribucin normal, se debe usar el
RI
es una medida de la variabilidad de los datos alrededor de la Mediana
a veces se usa el RI en conjunto con la media - Tukey box-plot
indica el rango de valores que cae entre el primer cuartil (25avo percentil)
y el tercer cuartil (75avo percentil)
contiene el 50% de los valores del centro de la distribucin
en conjunto con la mediana y el rango, forman un box-plot
Valor mximo
Percentil 75 = 3er cuartil
Percentil 50 = 2do cuartil = Mediana
Percentil 25 = 1er cuartil
Valor mnimo
2. Medidas de dispersin (o variabilidad)
X = x
1
i =1
n

S
2
=
(x
i
x
i =1
n

)
2
n 1
S = S
2
CV =
S
X
100
S
X
S
X
=
S
n
X t
0.05(n1)
S
X
s > X +t
0.05(n1)
S
X
X
GM = X
1
X
2
...X
n
n
Resumen de estadsticos
Parmetro Estadstico Formula
Media ()
Media geomtrica GM
Mediana Mediana de la muestra
X(n+1)/2 si n es par
(Xn/2 + X(n/2)+1)/2 si n es impar
Varianza (
2
) S
2
Desviacin estndar () S
Desviacin absoluta de la mediana
(MAD)
MAD de la muestra Mediana[|Xi-Mediana|]
Coeficiente de variacin CV de la muestra
Error estndar de la media ()
95% intervalo confidencia para
Otros parmetros tiles
1. Sesgo
sesgo (g1) y curtosis (g2) dan origen a test no-especficos para
normalidad
el sesgo mide el grado de asimetra de una distribucin de variables
para calcular el sesgo (y la curtosis), es necesario encontrar el tercer
y cuarto momento alrededor de la media, respectivamente
un momento (k) es una medida que caracteriza una distribucin de
frecuencias - si los momentos coinciden en dos distribuciones, se
dice que son iguales.
el momento ms conocido es la varianza (k2)
k3 = (Xi - )
3
/ n Este momento se usa para medir sesgo, puede
tomar infinitos valores - +; en una distribucin simtrica k3 = 0
El test para sesgo es g1, si:
- g1 = 0, la distribucin es simtrica
- g1 > 0, existe sesgo positivo
- g1 < 0, existe sesgo negativo
Otros parmetros tiles
1. Sesgo
Ejemplo. Considerar la siguiente distribucin
g1 = -1.04
Otros parmetros tiles
1. Sesgo
Ho: g1 = 0
Ha: g1 0
Valor crtico: g0.05 (2), 40 = 0.714; debido a que |-1.04| > 0.714, se
rechaza Ho
La distribucin presenta un sesgo significativo (test g, P < 0.05).

Adicionalmente podemos poner a prueba una Ho con una cola:
Ho: g1 0
Ha: g1 0
Valor crtico: g0.05 (1), 40 = 0.588; debido a que |-1.04| > 0.588, se
rechaza Ho
La distribucin de valores esta significativamente sesgada en la
direccin negativa (test g con una cola, P < 0.05)


Otros parmetros tiles
1. Curtosis
para calcular la curtosis se usa el cuarto momento k3 = (Xi - )
4
/ n
se divide por la varianza para obtener un valor sin unidades
el test para curtosis (g2) es, si:
- g2 = 0 , distribucin mesocrtica, datos distribuidos en forma
normal
- g2 > 0 , distribucin leptocrtica, muchos valores alrededor de
la media y las colas y pocos entre ellas
- g2 < 0, distribucin platicrtica, los valores entre la media y
las colas estn sobre-representados.
Las tablas para g2 son ms o menos escasas. En algunos textos
(Zar 1984), se entrega un procedimiento para poner a prueba la
curtosis mediante el clculo de t y usando las tablas de
distribucin de Student. Una de las pocas tablas que existen,
para poner a prueba g2, la entrega Snedecor y Cochran (1981)
pero slo para n > 50.

FLUTTER
N of Cases 64
Minimum 0,212
Maximum 2,320
Range 2,108
Sum 85,538
Median 1,336
Arithmetic Mean 1,337
Standard Error of Arithmetic Mean 0,051
95,0% Lower Confidence Limit 1,235
95,0% Upper Confidence Limit 1,438
Trimmed Mean (10%, Two Sided) 1,346
No. of Observations Trimmed Out 14
Geometric Mean 1,259
Harmonic Mean 1,141
Standard Deviation 0,405
Variance 0,164
Coefficient of Variation 0,303
Skewness(G1) -0,239
Standard Error of Skewness 0,299
Kurtosis(G2) 0,344
Standard Error of Kurtosis 0,590
Shapiro-Wilk Statistic 0,992
Shapiro-Wilk p-value 0,963
Ejemplo de estimacin de estadsticos en SYSTAT
Utilidad del sesgo y la curtosis
Es normal que en la mayora de los textos de Bioestadstica no se
incluya algn ejemplo que sirva para ilustrar la aplicacin de los
conceptos de sesgo y curtosis.
En ecologa, por ejemplo, cuando se estudian procesos de
competencia, depredacin y efectos de factores fsicos o qumicos,
puede ser de gran utilidad determinar la curtosis a travs del tiempo.
Esto permitira, por ejemplo, tener una indicacin de la mortalidad
diferencial, como se plantea en los siguientes ejemplos:
Utilidad del sesgo y la curtosis
1. Sesgo
La figura muestra la distribucin de tallas de una
poblacin de anfpodos Hyale sp. de una poza del
intermareal, sujeta a los procesos naturales de control
poblacional. Las tallas se distribuyen en forma normal.
Hasta que ingresa un nuevo depredador al sistema. La
flecha indica la talla mnima a la que son comidos los
anfpodos.

Este nuevo depredador come en forma selectiva
individuos de talla superior a 8 mm. As, la mortalidad de
los individuos superiores a esta talla, ser ms rpida que
los individuos que an no crecen lo suficiente para ser
comidos por el nuevo depredador. Bajo estas
circunstancias la distribucin se vuelve asimtrica con
sesgo negativo.

Talla (mm)
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a

Media = 4.37
g1 = -0.03; P > 0.05
n = 500
Media = 5.80
g1 = -0.19
n = 487
Media = 6,58
g1 = -0.27; P < 0.05
n = 433
Utilidad del sesgo y la curtosis
1. Curtosis
Seguimos con el ejemplo de Hyale. En este
nuevo caso, el nuevo depredador come en forma
selectiva animales dentro de un rango de tallas
que va de 7 a 10 mm. Antes de eso la
distribucin de tallas se distribua en forma
normal.
Al cabo de un periodo de tiempo en que los
anfpodos son consumidos, se produce un
descenso en el nmero de aquellos que estn
alrededor de la talla promedio. Los ms
chicos y los ms grandes no son afectados. La
curtosis declina y la forma de la distribucin
de tallas se vuelve plana en el centro
(platicrtica).
Talla (mm)
F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a

Media = 8.37
g2 = -0.03; P > 0.05
n = 500
Media = 8.37
g2 = -1,11; P < 0.05
n = 178