Está en la página 1de 30

02.

LAS MEDIDAS Y REPRESENTACIONES GRFICAS


Las medidas nos permiten informacin sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas caractersticas de esta serie de
datos.
Medicin, Se ha definido como la asignacin de nmeros a los elementos u objetos
para representar o cuantificar una propiedad. El problema bsico est dado por la
asignacin un numeral que represente la magnitud de la caracterstica que queremos
medir que dicho nmeros pueden analizarse por manipulaciones de acuerdo a
ciertas reglas.
Niveles Esc!l!s de "edicines! al respecto cabe se"alar algunas definiciones#
N"in!l! consiste en la asignacin! puramente arbitraria de nmeros a cada una de
las diferentes categoras en las cuales podemos dividir el carcter que observamos! sin
que puedan establecerse relaciones entre dichas categoras! a no ser el de que cada
elemento pueda pertenecer a una solo una de estas categoras$ O#din!l! En caso de
que puedan detectarse diversos grados de un atributo o propiedad de un objeto! la
medida ordinal es la indicada! puesto que entonces puede recurrirse a la propiedad de
%orden& de los nmeros asignndolo a los objetos en estudio de modo que! si la cifra
asignada al objeto ' es maor que la de (! puede inferirse que ' posee un maor
grado de atributo que ($ In$e#v!ls! est caracterizada por una unidad de medida
comn constante que asigna un nmero igual al nmero de unidades equivalentes a
la de la magnitud que posea el elemento observado$ Ce%icien$es! entonces! a
iguales diferencias entre los nmeros asignados corresponden iguales diferencias en
el grado de atributo presente en el objeto de estudio. 'dems! siendo que cero a no
es arbitrario! sino un valor absoluto! podemos decir que '. )iene dos! tres o cuatro
veces la magnitud de la propiedad presente en (.
MEDIDAS DE POSICI&N
Medid!s de 'sicin cen$#!l, informan sobre los valores medios de la serie de datos.
Medid!s de 'sicin n cen$#!les, informan de como se distribue el resto de los
valores de la serie. Las principales medidas de posicin cen$#!l son#
(!l# Medi, P#"edi (!l# Cen$#!l! es el valor medio ponderado de la serie de
datos. Se pueden calcular diversos tipos de media! siendo las ms utilizadas#
Medi! A#i$")$ic!, se calcula sumando los valores dividiendo en el nmero de
ellos! o sumando los valores de multiplicar cada valor por el nmero de veces que se
repite. La suma de todos estos productos se divide por el total de datos de la muestra
*
n
n + , n + , n + ,
- ,
n
*
n
, , , ,
-
n n . . * *
n
*
i
n / . *
+ +
= =
+ + + +
=

La "edi! !#i$")$ic! de una variable estadstica es la suma de todos sus posibles
valores! ponderada por las frecuencias de los mismos. Es decir! si la tabla de valores
de una variable - es
- ni fi
,* n* f*
0 0 0
,1 n1 f1
la media es el valor que podemos escribir de las siguientes formas equivalentes#

=
= + = + =
1
* i
i i 1 1 * * 1 1 * *
n ,
n
*
2 n , n , 3
n
*
f , f , ,
Medi! Ge")$#ic!, se eleva cada valor al nmero de veces que se ha repetido. Se
multiplican todo estos resultados al producto final se le calcula la raz n 3siendo n el
total de datos de la muestra2!
n
n
n
*
n
n
n
n
.
n
* g
, , + , + , ,
n . *
= =
Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritm4tica o
la media geom4trica. La media geom4trica se suele utilizar en series de datos como
tipos de inter4s anuales! inflacin! etc.! donde el valor de cada a"o tiene un efecto
multiplicativo sobre el de los a"os anteriores. En todo caso! la media aritm4tica es la
medida de posicin central ms utilizada.
'hora bien!
n
Log, Log,
, Log
n *
g
+
= ! luego
n
n . * g
, , , , =
Si los datos estn agrupados en una tabla! entonces se tiene#
n
n
1
n
.
n
*
1 . *
, , , , =
Medi! A#"nic!, a
x
! se define como el recproco de la media aritm4tica de los
recprocos! es decir!
2 , 5 * 3 2 , 5 * 3
n
,
n
2 , 5 * 3 2 , 5 * 3
,
*
n *
a
n *
a

+
=
+
=
Medi! C*!d#+$ic!. c
x
! es la raz cuadrada de la media aritm4tica de los cuadrados#
.
n
, ,
,
.
n
.
*
c
+
=
Medi! Pnde#!d!, se calcula sumando los valores multiplicados por sus frecuencias
o significancias! dividiendo en la suma de las significancias!

=
n
*
i
n
*
i i
p
s
s + ,
-
Medi!n!, es el valor de la serie de datos que se sita justamente en el centro de la
muestra una vez se ha ordenado 4sta! corresponde a un 678 de valores son inferiores
otro 678 son superiores.
2 f 5 j 3 c L 9ediana + =
L es el lmite inferior de la clase! f la frecuencia de esa clase c la longitud de la
clase! j el nmero de observaciones en esta clase
:onsideramos una variable discreta X cuas observaciones en una tabla estadstica
han sido ordenadas de menor a maor. Llamaremos "edi!n!! 9ed al primer valor de
la variable que deja por debajo de s al 678 de las observaciones. ;or tanto! si n es el
nmero de observaciones! la mediana corresponder a la observacin <n5.=>*! donde
representamos por la parte entera de un nmero.
En el caso de variables continuas! las clases vienen dadas por intervalos! aqu la
frmula de la mediana se complica un poco ms 3pero no demasiado2# Sea 3li?*!li= el
intervalo donde hemos encontrado que por debajo estn el 678 de las observaciones.
/
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas!
mediante interpolacin lineal#
i
i
* i
* i
* i
*
i
i
a
n
@ 3n5.2
l 9ed
l 9ed
@ 3n5.2
a
n
'(
( (
':
: :


+ =

La relacin corresponde a definir para cada posible observacin!


( ]
j * j
l l ,
! su
frecuencia relativa acumulada! A3,2! por interpolacin lineal entre los valores A3lj?*2 B
Aj?* A3lj2 B Aj de forma que
2 l , 3
a
2 l 3 A 2 l 3 A
2 l 3 A 2 , 3 A
* j
j
* j j
* j

+ =
Ce este modo! 9ed es el punto donde
. 5 * 2 9ed 3 A =
. Esto equivale a decir que la
mediana divide al histograma en dos partes de reas iguales a *5.. Entre las
propiedades de la mediana! se destacan principalmente!
? :omo medida descriptiva! tiene la ventaja de no estar afectada por las
observaciones e,tremas! a que no depende de los valores que toma la variable!
sino del orden de las mismas. ;or ello es adecuado su uso en distribuciones
asim4tricas.
? Es de clculo rpido de interpretacin sencilla.
? ' diferencia de la media! la mediana de una variable discreta es siempre un valor
de la variable que estudiamos 3por ejemplo! la mediana de una variable nmero de
hijos toma siempre valores enteros2.
? Si una poblacin est formada por . subpoblaciones de medianas 9ed* 9ed.! slo
se puede afirmar que la mediana! 9ed! de la poblacin est comprendida entre
9ed* 9ed.#
. *
9ed 9ed 9ed
? El maor defecto de la mediana es que tiene unas propiedades matemticas
complicadas! lo que hace que sea mu difcil de utilizar en inferencia estadstica.
? Es funcin de los intervalos escogidos.
? ;uede ser calculada aunque el intervalo inferior o el superior no tenga lmites.
? La suma de las diferencias de los valores absolutos de n puntuaciones respecto a
su mediana es menor o igual que cualquier otro valor. Este es el equivalente al
$e#e"! de DEnig con respecto a la media! pero donde se considera como medida
de dispersin a#

n
* i
i
9ed ,
Md!, es el valor que ms se repite en la muestra. :orresponde al valor que tiene
maor frecuencia relativa. La moda a cualquier m,imo relativo de la distribucin de
frecuencias! es decir! cualquier valor de la variable que posea una frecuencia maor
que su anterior su posterior.
F
En el caso de variables continuas es ms correcto hablar de intervalos modales. Gna
vez que este intervalo!
( ]
j * j
l ! l
! se ha obtenido! se utiliza la siguiente frmula para
calcular la moda! de acuerdo con la figura anterior!
2 n n 3 2 n n 3
a
n n
l 9oda
( ' '(
: H H:
( '
: H
'(
H:
* i i * i i
i
* i i
* i
+

+
=

+
+
=

=
de donde se despeja 9oda
Rel!cin en$#e "edi!, "edi!n! , "d!. En el caso de distribuciones unimodales! la
mediana est con frecuencia comprendida entre la media la moda 3incluso ms
cerca de la media2. En distribuciones que presentan cierta inclinacin! es ms
aconsejable el uso de la mediana. Sin embargo en estudios relacionados con
propsitos estadsticos de inferencia suele ser ms apta la media.
Ejemplo! :onsideremos una tabla estadstica relativa a una variable continua! de la
que nos dan los intervalos! las marcas de clase ci! las frecuencias absolutas ni.
In$e#v!l ci ni Ni nici
77?7. * . . .
7.?7F / * / /
7F?7I 6 F J .7
7I?7K J / *7 .*
7K?*7 L . *. *K
*. IF
;ara calcular la media podemos a"adir una columna con las cantidades nici. La suma
de los t4rminos de esa columna dividida por nB*. es la media / . 6 *. 5 IF , = = . La
"edi!n! es el valor de la variable que deja por debajo de s a la mitad de las n
observaciones! es decir I. :onstruimos la tabla de las frecuencias absolutas
acumuladas! @i vemos que eso ocurre en la modalidad tercera! es decir! iB/!
6
entonces! 3li?*!li=B 3F!I=! que corresponde el intervalo en donde se encuentra la
mediana! entonces tenemos
( ]
i * i i
i
* i
* i
l ! l 6 . 6
F
/ 2 . 5 *. 3
F a
n
@ 2 . 5 n 3
l 9ed

+ =

+ =
;ara el clculo de la 9oda! lo primero es encontrar los intervalos modales! buscando
los m,imos relativos en la columna de las frecuencias absolutas! ni. Memos que ha
dos modas! correspondientes a las modalidades jB*! jB/. En el primer intervalo
modal! 3l7!l*=B37!.=! la moda se calcula como
/ . * .
2 * . 3 2 7 . 3
7 .
7 a
2 n n 3 2 n n 3
n n
l 9oda
i
* i i * i i
* i i
* i
=
+

+ =
+

+ =
+

El segundo intervalo modal es 3l.!l/=B3F!I=! siendo la moda el punto perteneciente al


mismo que se obtiene como#
6 . 6 .
2 / F 3 2 * F 3
* F
F a
2 n n 3 2 n n 3
n n
l 9oda
i
* i i * i i
* i i
* i
=
+

+ =
+

+ =
+

En este caso! como se ve! la moda no toma un valor nico! sino el conjunto! 9oda B
3*./!6.62
E-e"'l! Cado el registro de estaturas de estudiantes! hallar los principales
parmetros estadsticos analizados
(!#i!.le
F#ec*enci! A.sl*$! F#ec*enci! Rel!$iv!
Si"'le Ac*"*l!d! Si"'le Ac*"*l!d!
*!.7 * * /!/ 8 /!/ 8
*!.* F 6 */!/ 8 *I!I 8
*!.. F L */!/ 8 /7!7 8
*!./ . ** I!I 8 /I!I 8
I
*!.F * *. /!/ 8 F7!7 8
*!.6 . *F I!I 8 FI!I 8
*!.I / *J *7!7 8 6I!I 8
*!.J / .7 *7!7 8 II!I 8
*!.K F .F */!/ 8 K7!7 8
*!.L / .J *7!7 8 L7!7 8
*!/7 / /7 *7!7 8 *77!7 8
Medi! !#i$")$ic!/
253 . 1
30
3 30 . 1 4 22 . 1 4 21 . 1 4 20 . 1
X
m
=
+ + + +
=

Medi! 0e")$#ic!# 253 . 1 30 . 1 21 . 1 20 . 1
30 3 4 4
=
Medi!n!/ *!.I! a que por debajo est el 678 de los valores por arriba el otro 678.
Md!/ Ha / valores que se repiten en F ocasiones# el *!.*! el *!.. el *!.K! por lo
tanto esta seria cuenta con / modas
E-e"'l! Cado el registro de estaturas de estudiantes! hallar los principales
parmetros estadsticos analizados
(!#i!.le
F#ec*enci! A.sl*$! F#ec*enci! Rel!$iv!
Si"'le Ac*"*l!d! Si"'le Ac*"*l!d!
*!.7 * * /!/ 8 /!/ 8
*!.* F 6 */!/ 8 *I!I 8
*!.. F L */!/ 8 /7!7 8
*!./ . ** I!I 8 /I!I 8
*!.F * *. /!/ 8 F7!7 8
*!.6 . *F I!I 8 FI!I 8
*!.I / *J *7!7 8 6I!I 8
*!.J / .7 *7!7 8 II!I 8
J
*!.K F .F */!/ 8 K7!7 8
*!.L / .J *7!7 8 L7!7 8
*!/7 / /7 *7!7 8 *77!7 8
Medi! !#i$")$ic!/
253 . 1
30
3 30 . 1 4 22 . 1 4 21 . 1 4 20 . 1
X
m
=
+ + + +
=

Medi! 0e")$#ic!# 253 . 1 30 . 1 21 . 1 20 . 1
30 3 4 4
=
Medi!n!/ *!.I! a que por debajo est el 678 de los valores por arriba el otro 678.
Md!/ Ha / valores que se repiten en F ocasiones# el *!.*! el *!.. el *!.K! por lo
tanto esta seria cuenta con / modas
Medid!s n Cen$#!les. Las medidas no centrales permiten conocer otros puntos
caractersticos de la distribucin que no son los valores centrales! tales como
C*+#$iles, son / valores que distribuen la serie de datos! ordenada de forma
creciente o decreciente! en cuatro tramos iguales! en los que cada uno de ellos
concentra el .68 de los resultados.
D)ciles! son L valores que distribuen la serie de datos! ordenada de forma creciente
o decreciente! en diez tramos iguales! en los que cada uno de ellos concentra el *78
de los resultados.
Pe#c)n$iles, son LL valores que distribuen la serie de datos! ordenada de forma
creciente o decreciente! en cien tramos iguales! en los que cada uno de ellos concentra
el *8 de los resultados.
Es$!d1s$ics de 'sicin. ;ara una variable discreta! se define el 'e#cen$il de #den
1! como la observacin! ;1! que deja por debajo de si el 18 de la poblacin. Esta
K
definicin nos recuerda a la mediana! pues como consecuencia de la definicin es
evidente que 9edB ;67
;ara una variable continua! el intervalo donde se encuentra ;1

3li?*!li=! se calcula
buscando el que deja debajo de si al 18 de las observaciones. Centro de 4l! ;1 se
obtiene segn la relacin#
i
i
* i
* i 1
a
n
@ 2 *77 5 1 3 n
l ;

+ =

;or su propia naturaleza! el percentil puede estar situado en cualquier lugar de la


distribucin! por lo que no puede considerrsele como una medida de tendencia
central. Los c*!#$iles! Ni! son un caso particular de los percentiles. Ha /! se
definen como! N*B;.6! N.B;67B9ediana! N/B;J6
Ce forma anloga se definen los d)ciles como los valores de la variable que dividen a
las observaciones en *7 grupos de igual tama"o. 9s precisamente! definimos
C*!C.!...!CL como! CiB;*7i siendo iB*!.!0!*7
E-e"'l! Cada la siguiente distribucin en el nmero de hijos de cien familias!
calcular sus cuartiles.
2i ni Ni
7 *F *F
* *7 .F
. *6 /L
/ .I I6
F .7 K6
6 *6 *77
nB*77
Solucin#
;rimer cuartil# n5FB.6! niOn5FB/L! luego N*B.
Segundo cuartil# .n5FB67! ;rimera @iO.n5FBI6! luego N.B/
)ercer cuartil# /n5FBJ6! ;rimera @iO/n5FBK6! luego N/BF
L'S 9ECPC'S. Estudia la distribucin de los valores de la serie analizando si 4stos
se encuentran ms o menos concentrados! o ms o menos dispersos. E,isten diversas
medidas de dispersin! entre las ms utilizadas podemos destacar las siguientes#
R!n0, mide la amplitud de los valores de la muestra se calcula por diferencia entre
el valor ms elevado el valor ms bajo.
L
Los estadsticos de tendencia central o posicin nos indican donde se sita un grupo
de puntuaciones. Los de variabilidad o dispersin nos indican si esas puntuaciones o
valores estn pr,imas entre s o si por el contrario estn o mu dispersas. Gna
medida razonable de la variabilidad podra ser la !"'li$*d o #!n0! que se obtiene
restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es
fcil de calcular sus unidades son las mismas que las de la variable! aunque posee
varios inconvenientes#
? @o utiliza todas las observaciones 3slo dos de ellas2$
? Se puede ver mu afectada por alguna observacin e,trema$
? El rango aumenta con el nmero de observaciones! o bien se queda igual. En
cualquier caso nunca disminue.
En el transcurso de esta seccin! veremos medidas de dispersin mejores que la
anterior. Estas se determinan en funcin de la distancia entre las observaciones
algn estadstico de tendencia central.
Desvi!cin "edi!! Cm Se define la desvi!cin "edi! como la media de las
diferencias en valor absoluto de los valores de la variable a la media! es decir! si
tenemos un conjunto de n observaciones! ,*! ...! ,n! entonces
i
1
* i
i m
n
* i
i m
n , ,
n
*
C , ,
n
*
C = =

= =
Si los datos estn agrupados en una tabla estadstica es ms sencillo usar la relacin
de la derecha
:omo se observa! la desviacin media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular!
pero esta simplicidad tiene un inconveniente# Cesde el punto de vista geom4trico! la
distancia que induce la desviacin media en el espacio de observaciones no es la
natural. Esto hace que sea mu engorroso trabajar con ella a la hora de hacer
inferencia a la poblacin
(!#i!n3!, 9ide la distancia e,istente entre los valores de la serie la media. Se
calcula como sumatoria de las diferencias al cuadrado entre cada valor la media!
multiplicadas por el nmero de veces que se ha repetido cada valor.
( )
( )

=
n
i
i
n
i
n
n
X x s o
n
X x
s
*
.
. *
.
.
*7
La varianza siempre ser maor que cero. 9ientras ms se apro,ima a cero! ms
concentrados estn los valores de la serie alrededor de la media. ;or el contrario!
mientras maor sea la varianza! ms dispersos estn.
Desvi!cin T1'ic! Es$+nd!#! se calcula como raz cuadrada de la varianza.
Ce%icien$e de (!#i!cin, se calcula como cociente entre la desviacin tpica la
media.
X

= CV s =
2
El inter4s del coeficiente de variacin es que al ser un porcentaje permite comparar el
nivel de dispersin de dos muestras. Esto no ocurre con la desviacin tpica! a que
viene e,presada en las mismas unidas que los datos de la serie.
E###. La suma de las diferencias de la variable con respecto al valor medio es nula!

=
=
n
* i
i
7 2 , , 3
Si los errores se consideran con signo positivo! en este caso no pueden compensarse.
Esto ocurre si tomamos como medida de error alguna de las siguientes#
cuadrtico error 7 2 , , 3
absoluto error 7 , ,
n
* i
.
i
n
* i
i

=
=
45ni0. ;ara cualquier posible valor 1 que consideremos como candidato a medida
central! lo mejora en el sentido de los mnimos cuadrados! es decir
, 1 siendo 12 3, 2 , 3,
.
n
* i
i
.
n
* i
i
<

= =
G#!ds de li.e#$!d. Los grados de libertad de un estadstico calculado sobre n datos
se refieren al nmero de cantidades independientes que se necesitan en su clculo!
menos el nmero de restricciones que ligan a las observaciones el estadstico. Es
decir! normalmente n?*. ;or ejemplo! :onsideramos una serie de valores de una
variable! ,iB.!6!J!L!*. que han sido tomados independiente uno de otro.
Su valor medio es J se ha calculado a partir de las nB6observaciones independientes
,i! que estn ligadas a la media por la relacin!

=
i
,
n
*
,
**
Luego el nmero de grados de libertad de la media es n?*BF. Si calculamos a
continuacin la varianza! se han de sumar n cantidades
n
x x
x
i
.
2 3
=
Sin embargo esas cantidades no son totalmente independientes! pues estn ligadas por
una restriccin#
7 n , ,
n
* i
n
* i
i i
=


= =
El n6"e# de 0#!ds de li.e#$!d del estadstico es el nmero de observaciones de la
variable menos el nmero de restricciones que verifican! as que en este caso! los
grados de libertad de la varianza sobre los nB6 datos son tambi4n n?* BF.
Gn principio general de la teora matemtica nos dice que si pretendemos calcular de
modo apro,imado la varianza de una poblacin a partir de la varianza de una muestra
sua! se tiene que el error cometido es generalmente ms peque"o! si en vez de
considerar como estimacin de la varianza de la poblacin! a la varianza muestral
.
n
* i
i
.
2 , , 3
n
*
s =

=
consideramos lo que se denomina c*!siv!#i!n3! "*es$#!l!
.
Q s que se calcula como
la anterior! pero cambiando el denominador por el nmero de grados de libertad! n?*!
* n
ns
2 , , 3
* n
*
sQ
.
.
n
* i
i
.

=

=
Medid!s de %#"! Cncen$#!cin. Las medidas de forma permiten conocer que
forma tiene la curva que representa la serie de datos de la muestra. En concreto!
podemos estudiar las siguientes caractersticas de la curva!
Cncen$#!cin, mide si los valores de la variable estn ms o menos uniformemente
repartidos a lo largo de la muestra. ;ara medir el nivel de concentracin de una
distribucin de frecuencia se pueden utilizar distintos indicadores! entre ellos el
Rndice de Sini! para medir el nivel de concentracin de una distribucin de frecuencia
se pueden utilizar distintos indicadores! entre ellos el 7ndice de Gini! el cual se
calcula
( )

=
1 n
1 i
i
1 n
1 i
i i
g
P
Q P
I
*.
El 7ndice Gini 3Pg2 puede tomar valores entre 7 *! es 7! cuando la concentracin es
mnima! o la muestra est uniformemente repartida a lo largo de todo su rango$ es *
cuando la concentracin es m,ima! en este caso un slo valor de la muestra
acumula el *778 de los resultados
Asi"e$#1! , !'*n$!"ien$. Sabemos cmo calcular valores alrededor de los cuales
se distribuen las observaciones de una variable sobre una muestra sabemos cmo
calcular la dispersin que ofrecen los mismos con respecto al valor de central. @os
proponemos dar un paso ms all en el anlisis de la variable. En primer lugar! nos
vamos a plantear el saber si los datos se distribuen de forma sim4trica con respecto a
un valor central! o si bien la grfica que representa la distribucin de frecuencias es
de una forma diferente del lado derecho que del lado izquierdo.
Si la simetra ha sido determinada! podemos preguntarnos si la curva es ms o menos
apuntada 3larga estrecha2. Este apuntamiento habr que medirlo comparado a cierta
distribucin de frecuencias que consideramos normal 3no por casualidad es 4ste el
nombre que recibe la distribucin de referencia2.
Estadsticos de asimetra. ;ara saber si una distribucin de frecuencias es sim4trica!
ha que precisar con respecto a qu4. Gn buen candidato es la mediana! a que para
variables continuas! divide al histograma de frecuencias en dos partes de igual rea.
;odemos basarnos en ella para! de forma natural! decir que *n! dis$#i.*cin de
%#ec*enci!s es si")$#ic! si el lado derecho de la grfica 3a partir de la mediana2 es la
imagen por un espejo del lado izquierdo!
:uando la variable es discreta! decimos que es sim4trica! si lo es con respecto a la
media.
? Se podra pensar que definir la simetra con usando la mediana para variables
continuas usando la media para variables discretas es una eleccin arbitraria. En
realidad esto no es as! pues si una variable es continua! coinciden los ambos
*/
criterios de simetra 3con respecto a la media a la mediana2. Es ms! se tiene que
media mediana coinciden para distribuciones continuas sim4tricas. ;or otro
lado!
? en el caso de variables discretas! la distribucin es sim4trica si el lado derecho del
diagrama se obtiene por imagen especular desde la media. En este caso coincide
la media con la mediana si el nmero de observaciones es impar.
? Si la variable es continua sim4trica unimodal! coinciden la media! la mediana
la moda.
Centro de los tipos de asimetra posible! vamos a destacar los dos clases
fundamentales# Asi"e$#1! 'si$iv!/ Si las frecuencias ms altas se encuentran en el
lado izquierdo de la media! mientras que en derecho ha frecuencias ms peque"as
3cola2$ Asi"e$#1! ne0!$iv!/ :uando la cola est en el lado izquierdo.
:uando realizamos un estudio descriptivo es altamente improbable que la
distribucin de frecuencias sea totalmente sim4trica. En la prctica diremos que la
distribucin de frecuencias es sim4trica si lo es de un modo apro,imado. ;or otro
lado! an observando cuidadosamente la grfica! podemos no ver claro de qu4 lado
estn las frecuencias ms altas. :onviene definir entonces unos estadsticos que
auden a interpretar la asimetra! a los que llamaremos 1ndices de !si"e$#1!! que
denotaremos mediante

. Mamos a definir a continuacin algunos de los ndices de


asimetra ms usuales como son el ndice basado en los tres cuartiles! el momento de
tercer orden la distancia entre la moda la media o la media la mediana
La asimetra mide si la curva tiene una forma sim4trica! es decir! si respecto al centro
de la misma 3centro de simetra2 los segmentos de curva que quedan a derecha e
izquierda son similares. Hemos comentado que el concepto de asimetra se refiere a si
la curva que forman los valores de la serie presenta la misma forma a izquierda
derecha de un valor central 3media aritm4tica2. ;ara medir el nivel de asimetra se
utiliza el llamado :oeficiente de 'simetra de Aisher!
*F
( )
( )
( )
T
n
*
i
.
i
. 5 /
n
*
i
/
i
n + - ,
n
*
' siendo
'
n + - ,
n
*
=

Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda derecha de un valor central
3media aritm4tica2
Los resultados pueden ser los siguientes#
?

B7 3distribucin sim4trica$ e,iste la misma concentracin de valores a la
derecha a la izquierda de la media2.
?

O7 3distribucin asim4trica positiva$ e,iste maor concentracin de valores a la
derecha de la media que a su izquierda2
?

U7 3distribucin asim4trica negativa$ e,iste maor concentracin de valores a
la izquierda de la media que a su derecha2.
C*#$sis, mide si los valores de la distribucin estn ms o menos concentrados
alrededor de los valores medios de la muestra. El :oeficiente de :urtosis analiza el
grado de concentracin que presentan los valores alrededor de la zona central de la
distribucin.
( )
( )
( )
T
T
n
1
i
2
i
2 / 3
n
1
i
4
i
n * X x
n
1
A siendo
A
n * X x
n
1
= =
8 Dis$#i.*cin "esc6#$ic!/ presenta un grado de concentracin medio alrededor
de los valores centrales de la variable 3el mismo que presenta una distribucin
normal2#

B7
? Dis$#i.*cin le'$c6#$ic!/ presenta un elevado grado de concentracin alrededor
de los valores centrales de la variable#

O7
8 Dis$#i.*cin 'l!$ic6#$ic!/ presenta un reducido grado de concentracin
alrededor de los valores centrales de la variable#

U7
E-e"'l! Cado el registro de estaturas de estudiantes! hallar los principales
parmetros estadsticos analizados
(!#i!.le
F#ec*enci! A.sl*$! F#ec*enci! Rel!$iv!
Si"'le Ac*"*l!d! Si"'le Ac*"*l!d!
*!.7 * * /!/ 8 /!/ 8
*!.* F 6 */!/ 8 *I!I 8
*!.. F L */!/ 8 /7!7 8
*!./ . ** I!I 8 /I!I 8
*6
*!.F * *. /!/ 8 F7!7 8
*!.6 . *F I!I 8 FI!I 8
*!.I / *J *7!7 8 6I!I 8
*!.J / .7 *7!7 8 II!I 8
*!.K F .F */!/ 8 K7!7 8
*!.L / .J *7!7 8 L7!7 8
*!/7 / /7 *7!7 8 *77!7 8
Medi! !#i$")$ic!/
253 . 1
30
3 30 . 1 4 22 . 1 4 21 . 1 4 20 . 1
X
m
=
+ + + +
=

Medi! 0e")$#ic!# 253 . 1 30 . 1 21 . 1 20 . 1
30 3 4 4
=
Medi!n!/ *!.I! a que por debajo est el 678 de los valores por arriba el otro 678.
Md!/ Ha / valores que se repiten en F ocasiones# el *!.*! el *!.. el *!.K! por lo
tanto esta seria cuenta con / modas
C*!#$eles, Deciles , Pe#cen$iles
*V cuartil# es el valor *!..
.V cuartil# es el valor *!.I
/V cuartil# es el valor *!.K
R!n0/ */7 W *..7 B7.*7
Mamos a calcular los valores de las distintas posiciones centrales#
(!#i!n3!/
[ ] [ ] [ ]
30
3 * ) 253 . 1 130 ( 4 * ) 253 . 1 21 . 1 ( 4 ) 253 . 1 20 . 1 (
S
2 2 2
2
x
+ +
=

*I
;or lo tanto! la varianza es 7!77*7
Desvi!cin $1'ic!/ 032 . 0 010 . 0 = + =
Ce%icien$e de v!#i!cin/
0255 . 0
253 . 1
032 . 0
CV = =
Ce%icien$e de Asi"e$#1!/

B7.*6KI Ce%icien$e de C*#$sis/ 1B?*./L


Te#1! de ls 7ndices. ;ara medir el nivel de concentracin de una distribucin de
frecuencia se pueden utilizar distintos indicadores! entre ellos el 7ndice de Gini! el
cual se calcula
( )

=
1 n
1 i
i
1 n
1 i
i i
g
P
Q P
I
Los ndices reflejan los porcentajes de cambios en algn evento en un periodo de
tiempo dado respecto a un tiempo de referencia. :on miras de dar una demostracin
aplicacin de los ndices en la estadstica desarrollo de las investigaciones se
presenta el siguiente problema
E-e"'l, Sea el cuadro que representa el costo del 1g de pescado en los diferentes
a"os
a. Rndices ;orcentuales. )omando al a"o *LI7 como a"o base a partir de 4l
calculamos el crecimiento de precios con base en este a"o! as por ejemplo! para el
a"o *LJ7# Rndice B *6./+*775*... B *.6.F8# En este caso
*77 +
;
;
2 t 3 P
2 7 3
i
2 t 3
i
i
=
b. Rndices agregados simples. Se calculan como una media aritm4tica simple de
precios relativos! por ejemplo!

=
=
=
n
* i
2 7 3
i
n
* i
2 t 3
i
as
;
;
2 t 3 P
*J
El ndice se calcula como! en el a"o
*LI7# FI./+*775FI./ B *77.7
*LI6# FI..+*775FI./ B LL.K
*LJ7# K7./+*775FI./ B *J/.F
*LJ6# */..6+*775FI./ B .KI./
c. ;recios relativos en la media aritm4tica simple.
*77 +
n
; ;
2 t 3 P
n
* i
2 7 3
i
2 t 3
i
sm

=
=
En cuo caso resulta!
d. Lasperes. )iene por objeto utilizar los pesos N del a"o base! de modo que !
*K
*77 +
N ;
N ;
2 t 3 P
n
* i
2 7 3
i
2 7 3
i
n
* i
2 7 3
i
2 t 3
i
L

=
=
=
e. ;aashe. Similar a Lasperes! pero con una formulacin distinta que pretende
obtener una mejor ponderacin del evento! se calcula utilizando los pesos de cada
periodo analizado no los del a"o base
*77 +
N ;
N ;
2 t 3 P
n
* i
2 t 3
i
2 7 3
i
n
* i
2 t 3
i
2 t 3
i
;

=
=
=
Los resultados son para Lasperes ;aashe! respectivamente!
REPRESENTACIONES GR9FICAS
DIAGRAMA DE CA:AS Y ;IGOTES
*L
;resentacin visual que describe al mismo tiempo varias caractersticas importantes
de un conjunto de datos! tales como el centro! la dispersin! el alejamiento de la
simetra! la identificacin de valores e,tremos 3puntos atpicos2! es decir! de valores
que se alejan de una manera poco usual del resto de los datos. ;resenta los tres
cuartiles! 3 los valores mnimos m,imos2 alineados sobre una caja vertical u
horizontalmente. ;rocedimiento. ;ara el diagrama de cajas bigotes se requiere
:alcular la mediana los otros dos cuartiles! con los cuales se formar la caja! que
tiene la mediana como eje central! como lados los dos cuartiles. Estos cuartiles
reciben tambi4n los nombres de X bisagrasX. La altura 3anchura2 de la caja no interesa.
La distancia H definida como la distancia entre el cuartil superior el cuartil inferior!
es decir! corresponde al rango intecuartlico H B N/ ? N* B YP:.
El paso correspondiente a *.6 veces la distancia ;aso B *.6 H
:ercas Pnternas! ubicadas a un paso de las bisagras o de los respectivos cuartiles. 's!
las :ercas Pnternas Pnferior 3:Pi2 Superior 3:Ps2 estarn dadas por#
:Pi B N* W ;aso :Ps B N/ > ;aso
Si la cerca interna inferior da menor que el valor mnimo de la muestra! 4sta se hace
igual al valor mnimo$ igualmente! si la cerca interna superior da maor que el valor
m,imo! 4sta se hace igual a dicho valor.
:ercas E,ternas! ubicadas a un paso de las cercas internas. 's! las :ercas E,ternas
Pnferior 3:Ei2 Superior 3:Es2 estarn dadas por#
:Ei B :Pi W ;aso :Es B :Ps > ;aso
Se denominan Xvalores adacentesX los ubicados entre las cercas internas los bordes
de las cajas. ;or simplicidad no se grafican.
XMalores e,tremosX son los ubicados entre las dos cercas! merecen especial
atencin! a que pueden ser valores atpicos! que! en algunos casos! no pertenecen
realmente a la distribucin general de donde provienen los datos.
XMalores lejanosX o! ubicados por fuera de las cercas e,ternas! correspondientes a
valores e,tremos! que requieren un maor anlisis que los valores atpicos.
:onsidere los siguientes datos! correspondientes a
.7
Ce este conjunto de datos tenemos que#
9e B L7.F6 N* B KK..6 N/ B L...
Yango intercuartlico B L...?KK..6 B /.L6 ;aso B 6.L.6
:ercas interna inferior B KK..6 ? 6.L.6 B K../.6
:erca interna superior B L...7 > 6.L.6 B LK.*.6
:erca e,terna inferior B K../.6 ? 6.L.6 B JI.F7
:erca e,terna superior B LK.*.6 > 6.L.6 B *7F.76
:omo se observa ha dos valores que merecen especial atencin# LK.K *77./ que
estn entre las cercas interna e,terna superior.
Las medidas siguientes se han tomado de libros de biologa medicina! pero son
parmetros mu aplicable gran importancia para el estudiante de estadstica! por
tanto los reproducimos! tal como se mostrar en la bibliografa.
P#'#cines. Son los cocientes entre dos mediciones! por ejemplo si en una
poblacin de .677 habitantes se diagnostican *67 casos de gripe aviar! entonces! la
proporcin de enfermos es de *675.677 B 7.7I 3I82. El valor de una proporcin
puede variar as de 7 a *! suele e,presarse como un porcentaje.
R!3nes. 'l igual que en el caso anterior es una divisin! pero aqu el numerador no
forma parte del denominador como en le caso anterior! por ejemplo! la razn entre la
poblacin con gripe aviar la sana es *675./67 B /5FJ B7!7IF. :uando! como en el
caso del ejemplo! la razn se calcula entre la probabilidad de que ocurra un evento
la probabilidad de que 4ste no ocurra! la razn recibe tambi4n el nombre de odds. El
valor de una odds vara entre cero el infinito. El valor 7 corresponde al caso en que
la enfermedad nunca ocurra! mientras que el valor infinito correspondera
tericamente a una enfermedad que est4 siempre presente.
;roporcion *
;roporcion
Zdds
* Zdds
Zdds
;roporcion

=
+
=
.*
T!s!s. El concepto de tasa es similar al de una proporcin! con la diferencia de que
las tasas llevan incorporado el concepto de tiempo. El numerador lo constitue la
frecuencia absoluta de casos del problema a estudiar. ' su vez! el denominador est
constituido por la suma de los perodos individuales de riesgo a los que han estado
e,puestos los sujetos susceptibles de la poblacin a estudio. Ce su clculo se
desprende la velocidad con que se produce el cambio de una situacin frente a otra.
Se han considerado dos tipos de tasas#
P#ev!lenc1! P. Esta tasa cuantifica la proporcin de elementos de una poblacin que
presentan una determinada caracterstica en un momento
momento ese en poblacion la de )otal
dado momento un en tica caracteris la con elementos @umero
; =
L! Incidenci! I. La incidencia se define como el nmero de caractersticas nuevas
que se desarrollan en una poblacin durante un perodo de tiempo determinado. Ha
dos tipos de medidas de incidencia# la incidencia acumulada la tasa de incidencia!
tambi4n denominada densidad de incidencia. La incidencia acumulada es la
proporcin de los elementos sin la caracterstica que desarrollan la caracterstica a lo
largo de un perodo de tiempo concreto.
..
momento ese en poblacion la de )otal
dado momento un en tica caracteris la con nuevos elementos @umero
; =
La incidencia acumulada proporciona una estimacin de la probabilidad o el riesgo de
que un elemento a desarrollar la caracterstica durante un perodo especificado de
tiempo. :omo cualquier proporcin! suele venir dada en t4rminos de porcentaje.
'dems! al no ser una tasa! es imprescindible que se acompa"e del periodo de
observacin para poder ser interpretada.
Sensi.ilid!d. Es la probabilidad de clasificar correctamente a un elemento
muestreado con la caracterstica! es decir! la probabilidad de que para un elemento
muestreado se clasifique sin la caracterstica. La sensibilidad es! por lo tanto! la
capacidad del test o criterio para detectar la caracterstica. :uando los datos obtenidos
a partir de una muestra se clasifican en una tabla! es fcil estimar a partir de ella la
sensibilidad como la proporcin de elementos con la caracterstica
tica caracteris la sin con totales elementos de @umero
tica caracters la con elementos de @mero
ad Sensibilid =
Es'eci%icid!d. Es la probabilidad de clasificar correctamente a un elemento sin la
caracterstica! es decir! es el caso complementario a la sensibilidad
tica caracteris la sin con totales elementos de @umero
tica caracters la sin elementos de @mero
dad Especifici =
Ries0. Es la incertidumbre frente a decidir por el desconocimiento del
comportamiento de una variable o elemento muestreado. Su valor es obtenido
mediante P#ediccin# La presencia de un factor de riesgo significa un riesgo
aumentado de presentar en un futuro una evaluacin o futuro la caracterstica
muestreada! en comparacin el resto de elementos de la poblacin.
./
C!*s!lid!d. La presencia de un factor de riesgo no es necesariamente causal. El
aumento de incidencias de una caracterstica en un poblacin en relacin a otro
grupo! se asume como factor de riesgo! sin embargo esta asociacin puede ser debida
a una tercera variable.
REPRESENTACIONES GR9FICAS
Las representaciones grficas prcticamente estn orientadas de acuerdo con las
necesidades del investigador o estadstico! de todas formas se tienen algunas normas
de trabajo representacin! que tienen por objeto facilitar la lectura de los datos e
informacin que se maneja estadsticamente. Las principales representaciones son#
Di!0#!"!s de .!##!s/ Yepresentamos comparaciones entre varias poblaciones o
muestras

Di!0#!"!s de sec$#es T#$!. Se divide un crculo en tantas porciones como clases
e,istan! de modo que a cada clase le corresponde un arco de crculo proporcional a su
frecuencia absoluta o relativa

Pic$0#!"!s. E,presan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el rea de cada
uno de ellos sea proporcional a la frecuencia de la modalidad que representa.
.F
Di!0#!"!s di%e#enci!les e In$e0#!les/ Los primeros son los que se representan
frecuencias absolutas o relativas en ellos se representa el nmero o porcentaje de
elementos que presenta una modalidad dada Los segundos los que se representan el
nmero de elementos que presentan una modalidad inferior o igual a una dada. Se
realizan a partir de las frecuencias acumuladas! lo que da lugar a grficos crecientes!
es obvio que este tipo de grficos no tiene sentido para variables cualitativas.
O$#s. :uando las variables son continuas! utilizamos como diagramas diferenciales
los histogramas los polgonos de frecuencias. Gn <is$0#!"! se construe a partir
de la tabla estadstica! representando sobre cada intervalo! un rectngulo que tiene a
este segmento como base. El criterio para calcular la altura de cada rectngulo es el
de mantener la proporcionalidad entre las frecuencias absolutas 3o relativas2 de cada
intervalo el rea de los mismos. El 'l10n se construe fcilmente si tenemos
representado previamente el histograma! a que consiste en unir mediante lneas
rectas los puntos del histograma que corresponden a las marcas de clase. ;ara
representar el polgono de frecuencias en el primer ltimo intervalo! suponemos que
adacentes a ellos e,isten otros intervalos de la misma amplitud frecuencia nula!
se unen por una lnea recta los puntos del histograma que corresponden a sus marcas
de clase.
.6
Pi#+"ides, Cns, Tel!#!=!s, e$c. Estos grficos se utilizan para mostrar! los
primeros elementos comparaciones entre elementos resaltando el peso de cada uno!
tal como lo hace el histograma o el grfico de barras
Las telara"as tienen una importancia enorme! a que permiten comparar ciclos
tendencias
Gna vez distribuidos todos los valores en los intervalos de clase! obtenida la
frecuencia absoluta de cada intervalo! se realizan algunos clculos para mejorar la
presentacin de los resultados. ;or lo general! se calcula para cada intervalo la
frecuencia relativa la frecuencia relativa acumulada! las cuales estn dadas por#
.I
Arecuencias relativas relativas acumuladas del intervalo i

=
= =
i
* 1
1 i
i
i
Ar Aa
n
A
Ar
donde Ai es la frecuencia absoluta del intervalo i! es decir! corresponde al nmero de
valores observados que quedaron en dicho intervalo.
In%#"!cin 0#+%ic!. El >is$0#!"!. Seneralmente la distribucin de frecuencia se
complementa con el Histograma! que es simplemente un grfico de barras. En la
abscisa se colocan los lmites de los intervalos de clase b7! b*! b.!..! b9! en la
ordenada se grafica! bien sea la frecuencia absoluta! o la frecuencia relativa. ;ara
cada intervalo se levanta una barra cua longitud es proporcional a la frecuencia
3absoluta! o relativa2. La forma que toma el grfico es la misma! bien sea que se
trabaje con frecuencia absoluta o relativa! a que la diferencia entre las dos es
simplemente un cambio de escala. ' veces se grafica una ordenada izquierda con la
frecuencia absoluta! una ordenada derecha con la frecuencia relativa. Los
histogramas tambi4n pueden construirse con la frecuencia 3absoluta o relativa2
acumulada.
In%#"!cin 0#+%ic!. L! O-iv!. La ojiva se construe a partir del histograma de
frecuencia 3absoluta o relativa2 uniendo las marcas de clase de los intervalos
mediante una lnea recta! uniendo la marca de clase del primer intervalo con el
punto medio de un intervalo ficticio inmediatamente anterior! la marca de clase del
ltimo intervalo con el punto medio de un intervalo ficticio inmediatamente siguiente.
La marca de clase de un intervalo es simplemente el punto medio del respectivo
intervalo. Este valor tambi4n recibe a veces el nombre de X9ediatrizX.
' continuacin se hace el desarrollo completo de la distribucin de frecuencia de
los histogramas.
G#+%ics '!#! v!#i!.les c*!li$!$iv!s. Los grficos ms usuales para representar
variables de tipo nominal son los siguientes#
Di!0#!"!s de .!##!s/ Siguiendo la figura! representamos en el eje de ordenadas las
modalidades en abscisas las frecuencias absolutas o bien! las frecuencias relativas.
Si! mediante el grfico! se intenta comparar varias poblaciones entre s! e,isten otras
modalidades! como las mostradas en la figura. :uando los tama"os de las dos
poblaciones son diferentes! es conveniente utilizar las frecuencias relativas! a que en
otro caso podran resultar enga"osas.
.J
Di!0#!"!s de sec$#es. Se divide un crculo en tantas porciones como clases e,istan!
de modo que a cada clase le corresponde un arco de crculo proporcional a su
frecuencia absoluta o relativa.
:omo en la situacin anterior! puede interesar comparar dos poblaciones. En este
caso tambi4n es aconsejable el uso de las frecuencias relativas 3porcentajes2 de ambas
sobre grficos como los anteriores. Ztra posibilidad es comparar las . poblaciones
usando para cada una de ellas un diagrama semicircular. Sean
. *
n n los tama"os
respectivos de las . poblaciones. La poblacin ms peque"a se representa con un
semicrculo de radio r* la maor con otro de radio r.. La relacin e,istente entre los
radios! es la que se obtiene de suponer que la relacin entre las reas de las
circunferencias es igual a la de los tama"os de las poblaciones respectivas! es decir#
*
.
* .
*
.
.
*
.
.
n
n
r r
n
n
r
r
= =

.K
Pic$0#!"!s! E,presan con dibujos alusivo al tema de estudio las frecuencias de las
modalidades de la variable. Estos grficos se hacen representado a diferentes escalas
un mismo dibujo.
El escalamiento de los dibujos debe ser tal que el rea de cada uno de ellos sea
proporcional a la frecuencia de la modalidad que representa. Este tipo de grficos
suele usarse en los medios de comunicacin! para que sean comprendidos por el
pblico no especializado! sin que sea necesaria una e,plicacin compleja.
G#+%ics '!#! v!#i!.les c*!n$i$!$iv!s. ;ara las variables cuantitativas!
consideraremos dos tipos de grficos! en funcin de que para realizarlos se usen las
frecuencias 3absolutas o relativas2 o las frecuencias acumuladas#
Di!0#!"!s di%e#enci!les/ Son aquellos en los que se representan frecuencias
absolutas o relativas. En ellos se representa el nmero o porcentaje de elementos que
presenta una modalidad dada.
Di!0#!"!s in$e0#!les/ Son aquellos en los que se representan el nmero de
elementos que presentan una modalidad inferior o igual a una dada. Se realizan a
partir de las frecuencias acumuladas! lo que da lugar a grficos crecientes! es obvio
que este tipo de grficos no tiene sentido para variables cualitativas.
G#+%ics '!#! v!#i!.les disc#e$!s. :uando representamos una variable discreta!
usamos el di!0#!"! de .!##!s cuando pretendemos hacer una grfica diferencial.
Las barras deben ser estrechas para representar el que los valores que toma la variable
son discretos. El diagrama integral o acumulado tiene! por la naturaleza de la
variable! forma de escalera.
Ejemplo! Se lanzan tres monedas al aire en K ocasiones se contabiliza el nmero de
caras! X! obteni4ndose los siguientes resultados! , B .!*! 7! *! /! .! *! .. Yepresentar
grficamente el resultado.
En primer lugar observamos que la variable - es cuantitativa discreta! presentando
las modalidades! , est incluido en 7! *! .! /! Zrdenamos a continuacin los datos en
una tabla estadstica
Fi0*#!/ Ciagrama diferencial 3barras2 e integral para una variable discreta. Zbs4rvese
que el diagrama integral 3creciente2 contabiliza el nmero de observaciones de la
variable inferiores o iguales a cada punto del eje de abscisas.
.L
Cn$e de d!$s. Se toman los valores de la muestra! se analiza en que intervalo
cae. ;ara ello se toma cada valor se compara sucesivamente con el lmite superior
del primer intervalo! luego con el del segundo! as sucesivamente hasta que caiga en
alguno. Si el valor , queda en el intervalo i! entonces se aumenta en uno la frecuencia
del respectivo intervalo.
/7

También podría gustarte