Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Estadistica Descriptiva-2008
Apuntes Estadistica Descriptiva-2008
= 6.5
En general la mediana se puede calcular como sigue:
=
+
+
+
impar N para X
par N para
X
~
2 / ) 1 N (
2
X X
2 / N 1 2 / N
As, para el ejemplo N=20 (par)
X
~
=
Media y Mediana de Datos Agrupados
Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. En
el caso de que los datos ya estn agrupados y sea necesario calcular la media y la
mediana, ya no es posible hacerlo de manera exacta, sin embargo, una buena
aproximacin se puede obtener de la siguiente manera
Media de datos agrupados
1
1
Nc
i i Nc
i
X X f
=
=
Donde: Nc = nmero de clases
X
i
= marca de la clase i-esima
f
i
= frecuencia relativa de la clase i-esima
X 1 0 X 1 1
2
=
6 . 5 6 . 5
2
= 6 . 5
Para el ejemplo de las calificaciones:
X=2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305
Mediana de datos agrupados
X
~
= (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.)
Donde:
IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a
la mitad de los datos.
As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces
X
~
= 6.2 + (10-7/9.5)*(1.4) = 6.642
La Moda.- Se le llama moda simplemente al dato que ms se repite en una muestra.
(En datos agrupados corresponde a la marca de clase en la que ocurre el mximo del
histograma)
La moda no siempre es nica, por lo que una muestra puede ser unimodal o
multimodal dependiendo de si tiene una o varias modas.
Para el ejemplo la moda de los datos sin agrupar es 6.5, sin embargo, si consideramos
datos agrupados, la moda es 6.9
Observacin: La moda no siempre es nica, as, podemos tener distribuciones de datos
con varias modas, en tal caso se llaman multimodales.
Interpretacin geomtrica de la media, mediana y moda
Una manera de visualizar de manera geomtrica el significado de media, mediana y
moda es considerando el perfil del polgono de frecuencias como si fuera un figura
plana, es decir, sin dibujramos el histograma sobre una lmina plana de material
homogneo y lo recortramos, podemos afirmar lo siguiente:
- La Moda es el punto ms alto de la figura.
- La Mediana es el punto que divide a la figura en dos reas iguales.
- La Media es el punto de equilibrio (centro de masa) de la figura.
Esta idea se ilustra en la siguiente figura
Moda Mediana
Area 1 Area 2
Area 1 Area 2
Media
Equilibrio
Esto significa que la media es ms sensible al brazo de palanca, es decir, la media es
ms afectada que la mediana por datos muy alejados del centro del histograma
llamados outlayers o datos atpicos que suelen aparecen debido a errores en la toma
de datos, por ello se dice que la mediana es una medida ms robusta que la media
Otras medidas de centralizacin
La media geomtrica (Mg).- Esta calcula un centro basado en la raz de orden n del
producto de los datos, es decir,
Mg=
x
1
x
2
. . . . x
n
n
Por ejemplo, para la ubicacin de un valor medio pesimista para la constante beta de
un transitor.
La media armnica (M
H
).- Esta es el recproco de la suma de los recprocos de todos
los datos, es decir,
N
X
1
2
X
1
1
X
1
...
N
H
M
+ + +
=
Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.
La media RMS (M
RMS
o raz cuadrtica media).- Es la raz cuadrada de la suma de los
cuadrados de cada dato, dividida entre el nmero de datos.
) X ... X X ( M
2
N
2
2
2
1 N
1
RMS
+ + + =
Por ejemplo, el valor medio de un voltaje de corriente alterna.
7.4.2.- Medidas de posicin relativa.
Cuartiles, deciles y percentiles
Los cuartiles, deciles y percentiles son medidas para indicar la posicin relativa de
algn dato en particular, sin embargo, tambin pueden ser utilizadas para indicar
dispersin
El k-simo percentil de un conjunto de datos es el valor (no necesariamente un
datgo) para el cual el k% de los datos ordenados son menores o iguales que l
(queda a la izquierda de l) y el (100-K)% queda a la derecha.
Existen varias maneras de definir los percentiles, la definicin anterior es la ms
utilizada, sin embargo, puede producir resultados distintos, especialmente para
muestras de menos de 100 datos.
Ejemplo:
En el ejemplo de las calificaciones, el alumno que obtuvo la calificacin de 7.0 esta
ubicado en el 70-avo percentil de la muestra, es decir, el 70% de los datos son menores
o iguales a 7 y el 30 % son mayores que 7.
El cuartil inferior (Q
L
).- de un conjunto de datos es le 25-avo percentil.
El cuartil superior (Q
U
).- es el 75-avo percentil.
El cuartil medio.- Es el 50-avo percentil, es decir, es la mediana
En forma similar, el k-simo decil simplemente es el 10*k-simo percentil.
7.4.3.- Medidas de dispersin o variacin.
Es importante tener medidas de variabilidad de la muestra, ya que en la medida en que
una muestra presenta mayor variabilidad, las medidas de centralizacin nos dan un
mayor error y son menos representativas.
Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayora muy
alejados de la media, mientras que una muestra poco dispersa (o muy concentrada),
la mayora de los datos estn acumulados muy cercanos a la media.
Las siguientes son algunas de las medidas ms utilizadas para medir o indicar el grado
de dispersin de una muestra:
El rango.- La medida mas simple para medir dispersin es la diferencia entre el mayor
y el menor dato de la muestra.
Ejemplo: Para el mismo ejemplo de las calificaciones:
Datos no agrupados: Rango = 8.6-2.4 = 6.2
Para los datos agrupados: Rango = 9-2= 7
El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es
decir, Q
U
-Q
L
Rango semi-intercuartlico. (Q).- Es la mitad del rango intercuartlico, es decir,
2
U L
Q Q
Q
=
Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente
propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos
queda comprendido entre X Q y X Q +
Ejemplo: Cuntos datos quedan entre X Q y X Q + para el ejemplo?
Cuartiles: Q
L
=5.5, Q
U
=7.2
Rango semi-intercuartlico:
7.2 5.5
0.85
2
Q
= =
Entonces: X Q = 6.5 - 0.85 = 5.65, X Q + = 6.5 + 0.85 = 7.35
Entre estos dos valores hay 10 datos = 50% de los datos.
El rango Q
90
- Q
10
.- Es la diferencia entre el Percentil 90 y el Percentil 10.
Esta medida tiene la propiedad de que entre X-(Q
90
-Q
10
) y X+(Q
90
-Q
10
), caen
aproximadamente el 80% de los datos.
Observaciones:
Las medidas de dispersin anteriores producen un mayor valor a mediad que es mayor
la dispersin de la muestra.
Sin embargo, ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su
clculo a cada dato de la muestra. Por ello, una alternativa mucho ms utilizada y que
toma en cuenta esto ltimo es la siguiente
La varianza (S
2
).
Una idea para obtener una medida de dispersin que tome en cuenta cada uno de los
datos de la muestra para su clculo es buscar una manera de totalizar las desviaciones
de cada dato respecto al centro de la muestra, es decir, se nos podra ocurrir sumar
todas las desviaciones (diferencias) de cada dato respecto a la media, de la forma X
i
- X
es decir;
1
( )
N
i
i
X X
=
Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas
cancelan a las negativas, ya que la media es el centro de la muestra.
Una manera de evitar que las desviaciones negativas se cancelen con las positivas es
sumar los cuadrados de las desviaciones como sigue,
2 2
1
1
1
( )
N
i N
i
S X X
=
=
a esta cantidad se le llama la varianza o variancia.
Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina
desviacin media:
Desviacin media
1
1
N
i N
i
X X
=
=
O bien, una medida ms usada que la desviacin media es la desviacin tpica o
desviacin estndar y se define como la raz cuadrada de la varianza como sigue
Desviacin estndar =
2
S S =
Clculo de la varianza.- Esta puede ser calculada directamente de la frmula de su
definicin, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemos
obtener
( ) ( )
2
2 2 2
1 1
2
1 1
i i i
S X X X X X X
N N
= = +
( )
2 2
1
2
1
i i
X X X X
N
= +
( )
2 2
1
2
1
i i
X X X NX
N
= +
Finalmente:
( )
2 2 2
1
1
i
S X NX
N
=
Esta ltima expresin nos da un mtodo para calcular la varianza que puede resultar
ms sencillo en ocasiones, especialmente cuando se calculan por separado la media
X y la sumatoria de los cuadrados de los datos
2
i
X
.
Ejemplo.
Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma
Xi 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
Xi
2
5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
Xi- X -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.4 0
(Xi- X)
2
14.5 12.3 6.81 0.5 0.5 0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53 3.2 5.7 52.28
As, a partir de la tabla, usando la frmula anterior, y recordando que X =6.21,
obtenemos
2 2
1
19
(823.56 20*6.21 ) 2.75 S = =
De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es
cero, como se esperaba.
Finalmente, usando la frmula de la definicin para la varianza, obtenemos el mismo
resultado como se esperaba:
2
1
19
(52) 2.75 S = =
y por lo tanto, la desviacin estndar es S=1.65876
7.5.- Variables normalizadas
Toda muestra de datos X
i
con media conocida X y varianza conocida S
2
puede
convertirse en una muestra Z
i
con media cero y varianza 1, simplemente haciendo el
siguiente cambio de variable (para cada dato X
i
):
i
i
X X
Z
S
=
As, todo conjunto de datos con media cero y una varianza uno, se dice que es un
conjunto de datos normalizados.
As, para nuestro ejemplo:
Z
i
=
X
i
6.21
1.65876
si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente
muestra (Z
i
) con media cero y varianza 1:
X
i
2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6
Z
i
-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48 0.48 0.6 0.72 0.84 0.96 1.08 1.4
Otra manera de interpretar la normalizacin anterior es como una medida de la
distancia de un dato Xi respecto a la media en trminos o unidades de desviacin
tpica S.
As, para el ejemplo, si X
i
= 2.4 , Z
i
= -2.3 significara que el dato 2.4 est a 2.3
desviaciones tpicas a la izquierda de la media.
7.6.- Otras medidas
Asimetra o Sesgo.- En la prctica, las distribuciones de frecuencia casi nunca son
simtricas. Al grado de asimetra se le llama sesgo. Es muy conveniente tener una
medida de dicha asimetra, dicha medida se puede calcular como sigue
Sesgo =
3
1
1
N
i
i
X X
N S
=
| |
|
\ .
o bien, Sesgo =
3
1
1
N
i
i
Z
N
=
es decir, Sesgo = promedio de los datos normalizados Z
i
3
Sin embargo, el clculo anterior puede ser muy "dispendioso", un clculo aproximado
ms sencillo puede hacerse como sigue:
Sesgo
( )
3 X X
S
Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica,
el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, el
sesgo puede ser cero aunque la distribucin no sea simtrica
Para ilustrar de manera geomtrica el significado del sesgo, en las siguientes figuras se
muestra el caso de una distribucin con sesgo positivo y otra con sesgo negativo:
(obsrvese que en general la media siempre es atrada ms que la mediana por la cola
del histograma)
Sesgo positivo Sesgo negativo
Curtosis, cuartosis o picuds
Una manera de medir el grado de "picuds" del polgono de frecuencia es mediante la
curtosis, la cual se calcula como sigue
Curtosis =
4
1
1
3
N
i
i
X X
N S
=
| |
|
\ .
es decir,
4
1
1
3
N
i
i
Z
N
=
O bien, Curtosis = promedio de las Z
i
4
- 3
En la siguiente figura se muestran dos distribuciones que tienen una varianza y un
sesgo muy parecido pero tienen una curtosis diferente.
Observe que una distribucin que tienen extremos que se extienden mucho se les llama
distribuciones Leptocrticas y aquellas que se terminan bruscamente se les llama
platocrticas. Una distribucin que tenga una curtosis normal se le llama mesocrtica.
7.7.- Momentos de Datos Estadsticos
Los momentos de datos estadsticos son una generalizacin de las medidas de
varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se
puede calcular como momento simple o como un momento central (o respecto a la
media) y expresa como
Momento central de orden n=
1
1
n
N
i
i
X X
N S
=
| |
|
\ .
y el momento simple de ensimo orden
Momento simple de orden n=
1
1
N
n
i
i
X
N
=
En general, a las medidas de la forma
1
1
N
n
i
i
Z
N
=
= Y v X x S
i i N
1
XY
Donde Y . X son las medias de las variables X, Y respectivamente. En forma similar a
como se procedi con la varianza se puede obtener la siguiente frmula alternativa que
en ocasiones puede ser ms sencilla de calcular:
Y X v x S
i i N
1
XY
=
Correlacin (r). Mientras que la covarianza expresa, en cierto modo, el grado de
dependencia entre las dos muestras de datos, sin embargo tiene el inconveniente de
que su valor depende de las unidades en que se expresen las variables. Para evitar
esto se recurre a otro parmetro denominado coeficiente de correlacin o simplemente
correlacin, el cual se define como sigue
Y X
S
Y Y
Y .
S
X X
X
donde
) Y . X cov( r
=
=
Es decir, la correlacin entre las variables X, Y es la covarianza de las variables
normalizadas X, Y. De la definicin se puede obtener directamente la frmula
equivalente
Y X
S S
) Y . X cov(
r =
El valor del coeficiente de correlacin vara entre 1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relacin entre las variables x e y.
Cuando |r| es cercano a 1, la correlacin es fuerte, lo que significa que las variaciones
de una de las variables repercuten fuertemente en la otra, esto significa que si
graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una
lnea recta. Mientras que si |r| es prximo a 0, la correlacin es muy dbil y las
variables estn muy poco relacionadas y en este caso la grafica de Y contra X parece
una nube de puntos dispersos.
Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia de
Fsica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemticas y por Y a los de fsica, en la siguiente tabla se muestran dichos datos y los
clculos intermedios para obtener cov(X,Y) y r.
Suma
Xi 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
X
i
2
5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
Xi- X -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.39 0.00
(Xi- X)
2
14.5 12.3 6.81 0.5 0.5 0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53 3.2 5.7 52.28
Yi 2.0 3.2 3.5 4.5 5.6 5.8 6 6.2 6.5 7 7.5 7.5 8 8.5 8.7 8.8 9 9.2 9.3 9.5 136.3
Yi
2
4.0 10.24 12.25 20.25 31.36 33.64 36.00 38.44 42.25 49.00 56.25 56.25 64.00 72.25 75.69 77.44 81.00 84.64 86.49 90.25 1021.69
Y Y
i
-4.82 -3.62 -3.32 -2.32 -1.22 -1.02 -0.82 -0.62 -0.32 0.19 0.69 0.69 1.19 1.69 1.89 1.99 2.19 2.39 2.49 2.69 0.00
( )
2
i
Y Y
23.18 13.07 10.99 5.36 1.48 1.03 0.66 0.38 0.10 0.03 0.47 0.47 1.40 2.84 3.55 3.94 4.77 5.69 6.18 7.21 92.81
( )( ) Y Y X X
i i
18.35 12.69 8.65 1.64 0.86 0.52 0.17 -0.06 -0.06 0.05 0.20 0.20 0.94 1.33 1.87 2.36 3.04 3.79 4.45 6.42 67.41
De donde se obtiene:
X=6.21, Y =6.815, S
X
=1.659, S
Y
=2.210, S
XY
= 3.548
Por lo tanto r=3.548/(1.659*42.210)=0.968
Como puede verse, la correlacin es alta, esto se puede constatar visualmente al
graficar los Datos Y contra los datos X como se muestra en la siguiente figura:
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10
datos X
d
a
t
o
s
Y
7.9.- Otras herramientas grficas
Diagramas de Caja y Bigotes
Estos diagramas permiten tener una representacin visual resumida de los aspectos
ms relevantes del histograma de un conjunto de datos. Por su representacin
compacta son muy utilizados para representar varios conjuntos de datos en una misma
grfica con una caja y bigotes por cada conjunto de datos, facilitando as la
comparacin visual entre distintos conjuntos de datos de una misma variable o de
variables que nos interesa comparar.
En 1977 John Tukey public un tipo de grfico estadstico para resumir informacin
utilizando 5 medidas estadsticas: el valor mnimo, el primer cuartil, la mediana, el tercer
cuartil y el valor mximo. Este tipo de grfico recibe el nombre de grfico de caja
(boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), de largo igual al rango
intercuartlico (2Q) . Este rectngulo est dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y
tercero Q
L
y Q
U
).
Como se puede ver en la siguiente figura, este rectngulo se ubica a escala sobre un
segmento que tiene como extremos los valores mnimo y mximo de la variable. Estos
segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes
Q
L
X
~
Q
U
X
min
X
max
Los bigotes se dibujan con lneas continuas solamente hasta los lmites recomendados
por Tukey:. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Bii = Barrera interior inferior = Q
L
3Q
Bis = Barrera interior superior = Q
U
+ 3Q
Bei = Barrera exterior inferior = Q
L
6Q
Bes = Barrera exterior superior = Q
U
+ 6Q
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes, pero si existen valores de la variable comprendidos entre las barreras interiores
y exteriores se consideran valores atpicos y se indican con un asterisco *. Si
existieren valores fuera de las barreras exteriores se consideran valores todava ms
atpicos y se indican con un crculo . De esta manera, un diagrama de caja y bigotes
en general puede lucir como se muestra en la siguiente figura:
Q
L
X
~
Q
U
Bis Bii Bei Bes
* * * *
o o
*
o
Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin: si la mediana est en el centro de la caja o cerca
de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca de Q
L
indica que los datos son positivamente asimtricos
y si est ms cerca d Q
U
, indica que los datos son negativamente asimtricos.
Ejemplo
Para el ejemplo de los datos de la materia de matemticas se tena que Q
L
=5.5,
Q
U
=7.2, Q=0.85 X
=
| |
|
\ .
,
2
1 1 1 1
2
2
1 1
N N N N
i i i i i
i i i i
N N
i i
i i
x v x x v
b
N x x
= = = =
= =
=
| |
|
\ .
Las ecuaciones anteriores tambin se pueden escribir como sigue
:
=
=
=
N
1 i
2
i
N
1 i
i i
) X x (
) Y v )( X x (
m , X m Y
N
x m v
b
N
1 i
i
N
1 i
i
=
=
= =
Por lo tanto el modelo lineal o recta de regresin queda:
) X x (
S
S
Y v
2
X
XY
+ =
Donde:
N
) X x (
S .
N
) Y v )( X x (
S
N
1 i
2
i
2
X
N
1 i
i i
XY
= =
=
=
Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la tensin sistlica en funcin de la edad del individuo, deberemos
considerar como variable dependiente la tensin y como variable independiente
(predictora) la edad.
N Tensin Edad N Tensin Edad
1 114 17 36 156 47
2 134 18 37 159 47
3 124 19 38 130 48
4 128 19 39 157 48
5 116 20 40 142 50
6 120 21 41 144 50
7 138 21 42 160 51
8 130 22 43 174 51
9 139 23 44 156 52
10 125 25 45 158 53
11 132 26 46 174 55
12 130 29 47 150 56
13 140 33 48 154 56
14 144 33 49 165 56
15 110 34 50 164 57
16 148 35 51 168 57
17 124 36 52 140 59
18 136 36 53 170 59
19 150 38 54 185 60
20 120 39 55 154 61
21 144 39 56 169 61
22 153 40 57 172 62
23 134 41 58 144 63
24 152 41 59 162 64
25 158 41 60 158 65
26 124 42 61 162 65
27 128 42 62 176 65
28 138 42 63 176 66
29 142 44 64 158 67
30 160 44 65 170 67
31 135 45 66 172 68
32 138 45 67 184 68
33 142 46 68 175 69
34 145 47 69 180 70
35 149 47
Aplicando los clculos anteriores a este caso, resulta: 13 . 46 X = , 72 . 148 Y = ,
15470 S
XX
= , 15215 S
XY
= , de donde m=0.98, b=103.35, por lo que el modelo de
regresin lineal queda
35 . 103 x 98 . 0 v + =
En la siguiente figura se muestra, superpuesta al diagrama de dispersin, la recta de
regresin de mnimos cuadrados correspondientes.
v
.
9
8
x
+
1
3
.
3
5
100
110
120
130
140
150
160
170
180
190
10 20 30 40 50 60 70 80
Edad
T
e
n
s
i