Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Descriptiva PDF
1 Descriptiva PDF
"ESTADSTICA DESCRIPTIVA"
Una segunda acepcin entiende la estadstica como una ciencia que facilita los
mtodos precisos para la obtencin de informacin numrica, y que tambin
proporciona mtodos de anlisis de esa informacin recogida y mtodos de
investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente
con la estadstica descriptiva y la segunda con la estadstica inferencial.
i
!f j
F i j=1
Hi = =
n n
! fi = n
i
0 fi n
! hi = 1
i
0 hi n
DISTRIBUCIN DE FRECUENCIAS
Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior
e inferior: ai = Li - Li-1
Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es
ms cmodo que sea constante.
Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos
cuestiones iniciales:
Por ltimo cabe destacar que tomaremos como representante de cada intervalo su
punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca
de clase del intervalo [Li-1,Li) ser:
L i!1 + Li
ci =
2
EJEMPLO 1.1:
Solucin:
a)
Precio (xi) en miles 3 4 5 7 7.5 8 10 12 15
N de hoteles (fi) 5 7 10 11 6 5 3 2 1
9
b)
EJEMPLO 1.2:
Solucin:
xi fi Fi hi Hi
a 1 1 0,1 0,1
e 2 3 0,2 0,3
i 1 4 0,1 0,4
o 3 7 0,3 0,7
u 3 10 0,3 1
3
FRECUENCIAS
0
a e i o u
VOCALES
Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de
la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho
valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada
se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la
variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los
anteriores.
FRECUENCIAS ACUMULADAS
10
a e i o u
VOCALES
f
ai = i
ci
f
Si = a i c i = i ci = f i
ci
14
EJEMPLO 1.3:
Saldo N provincias
4-6,9 6
7-8,9 7
9-14,9 17
15-29,9 13
30-59,9 4
60-99,9 2
100 1
Solucin:
Como los intervalos son de amplitud no constante, hay que calcular las alturas de
los mismos, obtenindose la siguiente tabla:
Para construir este grfico se levanta en el extremo superior de cada intervalo una
ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera
ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde
ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del
extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. Suele
utilizarse esta representacin sobre todo en el caso de que las frecuencias sean
acumuladas. En este caso la altura correspondiente al extremo superior del ltimo
intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son
relativas.
EJEMPLO 1.4:
5 Alturas
x
i
10 20 30 40 50 60 70 80 90 100
5 DIAGRAMA DE SECTORES
Previamente hay que calcular los grados que corresponde a cada elemento
multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el
total de datos:
360
gi = f i
n
EJEMPLO 1.5:
Solucin:
EJEMPLO 1.6:
PASES INVERSIN
(MILLONES $)
R.F.A 8.234
INGLATERRA 6.915
FRANCIA 4.663
ESPAA 3.000
HOLANDA 2.970
ITALIA 2.846
DINAMARCA 1.084
BLGICA 464
GRECIA 164
IRLANDA 127
No se poseen datos de Portugal y
Luxemburgo
Solucin:
R.F.A
INGLATERRA
FRANCIA
ESPA A
HOLANDA
ITALIA
DINAMARCA
IRLANDA
BELGICA
GRECIA
En este grfico se observa que cuando ciertos datos presentan una frecuencia baja,
en relacin con los dems, su sector circular seria no detectable visualmente, por lo que
se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si
es posible, indicando todos los elementos que lo forman.
6 PICTOGRAMAS
EJEMPLO 1.7:
PASES INVERSIN
(MILLONES $)
BRASIL 101.750
MJICO 100.000
ARGENTINA 50.300
VENEZUELA 35.880
CHILE 20.690
PERU 14.300
COLOMBIA 13.430
ECUADOR 7.540
URUGUAY 4.990
BOLIVIA 3.340
PARAGUAY 1.890
20
Solucin:
DEUDA EXTERNA
DE AMERICA LATINA
(Diciembre 1986)
BRASIL MEXICO ARGENTINA VENEZUELA CHILE PERU ECUADOR BOLIVIA COLOMBIA URUGUAU PARAGUAY
EJEMPLO 1.8:
GANADO N DE CABEZAS
(EN MILES)
BOVINO 4.538
OVINO 14.539
CAPRINO 2.206
PORCINO 9.804
EQUINO 762
TOTAL 31.846
Represente el correspondiente pictograma
21
Solucin:
7 CARTOGRAMAS
En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):
22
Caprino
Bovino
Equino
0 5000 10000
Porcino
Ovino
9 DIAGRAMAS LINEALES
2'9 2'9
2 SEPTIEMBRE
1'9 1'9
1'7
ABRIL
JULIO AGOSTO
MARZO MAYO
1'1 JUNIO
0'7
FEBRERO
ENERO 6'3 6'2
6'0 6'0 5'8
EVOLUCION DE LA
TASA DE INFLACION
4'9 4'9 4'4
4'5
14'0
12'0
Poblacin
blanca
10'0
Poblacin
8'0 negra
6'0
4'0
Indice de
2'0 integracin=0'71
0
1000$ 2000$ 5000$ 10000$ 15000$ 25000$ 50000$
Figura 1.14: Polgonos de frecuencias porcentuales
24
k
! xif i n k
x1 x2 xk xf
x = f1 + f 2 +!+ fk = i=1 = ! i i = ! x ih i
n n n n i=1 n i =1
25
EJEMPLO 1.9:
Solucin:
EJEMPLO 1.10:
Solucin:
No obstante, y dado que la media aritmtica est muy influenciada por los valores
extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada
una de stas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11:
La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros
campeonatos de liga de primera divisin correspondientes a las temporadas en que han
participado en el mismo 20 equipos:
Solucin:
Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?, acaso hubo
alguna ocasin en la que solamente penetr en la portera el 75% del baln?.
27
k
k k k " x if i
" (x i ! x)f i = " x if i ! x " f i = n i =1 ! xn = nx ! xn = 0
i =1 i =1 i =1 n
k fi k fi k fi k f
x' = ! xi ! (x i + k) ! xi + k! i = x + k
'
= =
i=1 n i=1 n i=1 n i=1 n
3. Si a todos los valores de la variable los multiplicamos por una constante k, su media
aritmtica queda multiplicada por esa constante.
k f k f k f
x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx
i =1 n i=1 n i=1 n
y = ax + b
VENTAJAS E INCONVENIENTES
k
! xi wi
xp = i=1k
! wi
i=1
k
! xi f iwi
xp = i=1k
! f iw i
i=1
29
EJEMPLO 1.12
xi 50 80 70
Ponderacin 1 2 3
Solucin:
f f f
G = n x11 x 22 !x kk
1 "$ k %
Tomando logaritmos quedara: log G = ! f i logx i '
n # i=1 &
Veamos, por ejemplo, cmo calcular la renta media durante varios periodos de
tiempo.
30
EJEMPLO 1.13
Solucin:
Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir
el 5%, pero la realidad es otra; en efecto:
Se verificar que
1 + r m = 3 (1 + r1)(1 + r 2 )(1+ r3 )
EJEMPLO 1.14
Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente:
22 10 5 4 3
G= 100 !120 !125 !140
31
1
log G = (10 log100 + 5 log120 + 4 log125 + 3 log140) =
22
1
= 45.22193 = 2.05554
22
n
A= k
1
! fi
i=1xi
Como inconvenientes hay que citar la gran influencia de los valores pequeos y
que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para
promediar velocidades, tiempos, etc.
EJEMPLO 1.15:
Solucin:
espacio 2s
v= =
timpo t1 + t 2
Pero
s 100Km
t1 = =
v1 60 Km h
s 100 Km
t2 = =
v 2 70Km h
2s 200Km 2Km
v= = 100 Km =
t1 + t 2 100Km 1 1 = 64.62Km h
+ +
60 Km h 70 Km h 60 h 70h
1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de
menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es
decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor
cuya frecuencia absoluta acumulada es n/2.
33
N impar de trminos
la mediana sera Me = 3
N par de trminos
Pero si hay un n par de trminos habra dos trminos centrales y se toma como
mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son
{1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}
7+9
La mediana seria: M e = =8
2
Variable discreta
EJEMPLO 1.16:
Si la distribucin es:
xi fi Fi
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
Total 35
Calcular la mediana
34
Solucin:
n 35
= = 17.5
2 2
La mediana vale:
Me = Li-1 + m
AC BC
=
AC' B' C'
es decir:
n
m 2 ! F i!1
=
c i Fi ! Fi!1
por lo tanto:
n
! Fi !1
m= 2 ci
fi
n
! Fi !1
Me = L i !1 + 2 ci
fi
VENTAJAS E INCONVENIENTES
Como ventajas de la mediana podemos citar que no est influida por los valores
extremos como en el caso de la media, y adems tiene sentido en casos de
distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms
representativa de estos por describir la tendencia central de los mismos.
EJEMPLO 1.17:
Solucin:
n 671
Tenemos que = = 335.5 , valor que nos indica que el salario anual mediano
2 2
pertenece a la tercera clase.
335.5 ! 250
Me = 30000 + 5000 = 3000 + 2137.5
200
es decir, Me = 321375
1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de
frecuencias, es decir, el que tiene mayor frecuencia absoluta.
Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en
intervalos, se procede de forma diferente:
EJEMPLO 1.18:
xi 1 2 5 7 10 13
fi 3 4 9 10 7 2
Puede ocurrir que una distribucin presente ms de una moda (bimodal, trimodal,
etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las
representaciones serian (ver figuras 1.16 y 1.17):
Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal
Amplitud constante
Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos
iguales, se puede establecer la proporcin:
invirtindola resulta:
39
PO AA' m d1
= ! =
OQ + PO BB' +AA' ( c i " m ) + m d1 + d2
siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los
intervalos anterior y posterior respectivamente. Por lo tanto la moda valdra:
d1
Mo = L i!1 + c
d1 + d 2 i
EJEMPLO 1.19:
Intervalo Frecuencia
0 - 25 20
25 - 30 40
50 - 75 100
75 - 100 60
Total 220
Solucin:
d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40
60
resulta que Mo = 50 + 25 = 50 + 15 = 65
60 + 40
Amplitud no constante
EJEMPLO 1.20:
Intervalo fi ci ai
4 -7 6 3 2
7-9 7 2 3,5
9 - 15 17 6 2,8
15 - 30 13 15 0,8
30 - 60 4 30 0,1
60 - 100 2 40 0,05
ms de 100 1 -- ---
Total 50
Solucin:
ai = fi / ci
d1 = 3,5 - 2 = 1,5
d2 = 3,5 - 2,8 = 0,7
As la moda ser:
1.5
Mo = 7 + 25 = 7 + 1.36 = 8.36
1.5 + 0.7
VENTAJAS E INCONVENIENTES
EJEMPLO 1.21:
Solucin:
La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000
pts. Estas dos medidas indican ms claramente la situacin en la empresa, siendo la
moda la que mejor resume la situacin.
42
1) Los cuartiles son tres valores que dividen a la distribucin en cuatro partes
iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi.
2) Los deciles son nueve valores que dividen a la distribucin en diez partes
iguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di.
Me = Q2 = D5 = P50
Q1 = P25 ; Q3 = P75
D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60
n
r ! F i!1
C r k = L i !1 + k ci
fi
43
VENTAJAS E INCONVENIENTES
EJEMPLO 1.22:
Solucin:
Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000
671
! 100
Q1 = 25000 + 4 5000 = 25000 + 2258.3 = 27258.3
150
Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el 35000 - 40000
671
3! 450
Q3 = 35000 + 4 5000 = 35000 + 1479.16 = 36479.16
180
Para D4: como 4.671/10 = 2684 , el intervalo del cuarto decil es el 30000 - 35000
671
! 2500
4
D4 = 30000 + 4 5000 = 30000 + 460 = 30460
200
Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y ocho es el 35000
- 40000
671
88 ! 450
P88 = 35000 + 4 5000 = 35000 + 3902.2 = 38902.2
180
44
Las dos medias son iguales y sin embargo las dos distribuciones son muy
diferentes pues los valores de X estn mucho ms dispersa que los de Y.
RECORRIDO O RANGO:
RECORRIDO INTERCUARTLICO:
RI = Q3 - Q1
En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo
tanto no se ve influenciado por los valores extremos, y nos indica la longitud del
intervalo en el que estn el 50% central de los valores
Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las
anteriores; puede entenderse como la media de las desviaciones de los datos de la
variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones
positivas queden compensadas por las negativas y que esta desviacin media resulte
igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la
desviacin de los datos respecto del promedio.
k f
D x = " xi ! x i
i=1 n
k f
DMe = " x i ! Me i
i=1 n
Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado,
en el caso de que sta fuera grande el promedio sera poco representativo.
VARIANZA:
k k
2f
s2 = " ( xi ! x ) i = " (x i ! x) h i
2
i=1 n i =1
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos
indica la mayor o menor dispersin de los valores de la variable respecto de la media
aritmtica, y por lo tanto, su representatividad.
k k
2 fi
" ( x i ! x) " (x i ! x) hi
2
s= =
i =1 n i =1
Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que
la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo
en la actualidad la ms utilizada.
47
A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1,
obtenindose la llamada cuasivarianza:
k fi
s2 = " ( xi ! x )2
i=1 n !1
y cuasidesviacin tpica:
k 2 fi
s = " ( xi ! x )
i=1 n !1
n 2
s2 = s
n !1
s2 0, s0
k f
Si en la distribucin (xi fi) de media x = ! xi i , y de varianza
i=1 n
k 2 fi
s2 = " ( xi ! x ) sumamos a todos los elementos una constante k, obtenemos otra
i=1 n
distribucin de variable x'i = xi + k .
En efecto:
Si tomamos la distribucin x''i = kx i teniendo en cuenta que x' = kx , resulta que
la varianza de la nueva distribucin vale:
( )
k 2 fi k f
s' ' 2 = " x'i' ! x' ' = " ( kx i + kx) i =
i =1 n i=1 n
k f
= " k2 (xi ! x )2 i = k2 s2
i =1 n
( )
k 2 fi k f
s 2 = " ( xi ! x ) = " x 2i ! 2xi x + x 2 i =
i=1 n i =1 n
k f k f k f k f
= " x2i i ! 2x " x i i + x 2 " i = " x 2i i ! 2x 2 + x 2 = x 2 ! x 2
i=1 n i=1 n i =1 n i =1 n
xi fi
54 2
59 3
63 4
64 1
10
f
x = ! x i i = 60.1 Kg
i n
k
2 2f
s2 = s = ! xi i " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2
i=1 n
s = 12.69 = 3,5623 Kg.
Intervalo marca de fi
clase
30-40 35 3
40-50 45 2
50-60 55 5
10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76
S = 76 = 8,718
50
s
CV =
x
s
A menudo se le suele utilizar en forma de porcentaje, empleando CV = 100
x
1.1.7 Momentos
Existen dos tipos de momentos:
k k f
0f n
m 0 = " (x i ! x) i = " i = = 1
i =1 n i=1 n n
k k k f
1f f n
m1 = " (x i ! x) i = " x i i ! x " i = x ! x = 0
i =1 n i =1 n i =1 n n
r f
a r = ! xri i
i=1 n
k f k f
a 0 = ! x 0i i " x ! i = 1
i=1 n i =1 n
Existe una relacin entre los dos momentos, que nos da una forma reducida de
calcular la varianza:
k 2 fi k
2f
s = m 2 = " (x i ! x)
2 2 2
= " x i i ! x = a 2 ! a1
i =1 n i =1 n
53
Debemos buscar ahora una medida adimensional que recoja las desviaciones
positivas y negativas de los valores respecto de la media.
g =0 g >0
1 1
_ Mo
x
Distribucin simtrica Distribucin asimtrica
a la derecha
g <0
1
Mo
Distribucin asimtrica
a la izquierda
Dado que
k fi
" (x i ! x) =0
i =1 n
hay que buscar una medida que venga influida por el signo; sta ser:
k 3 fi
m 3 = " (x i ! x)
i =1 n
ya que
si la curva es simtrica m3 = 0
si la curva tiene asimetra positiva o a derechas, m3 > 0
si la curva tiene asimetra negativa o a izquierdas, m3 < 0
Para que no tenga dimensin debemos dividirla por una medida con las mismas
unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.
55
k
3f
" (x i ! x) ni
m i =1
g1 = 33 = 3
s
#k 2 f &2
%$ " ( xi ! x) i
i=1 n ('
Siendo su interpretacin:
x ! Mo
Ap =
s
Ap = 0 la distribucin es simtrica.
Ap > 0 la distribucin es asimtrica positiva (derechas)
Ap < 0 la distribuciones asimtrica negativa (izquierdas)
x ! Mo " 3( x ! Me)
3( x ! Me)
Ap =
s
k 4f
" ( xi ! x ) i
m n
g 2 = 44 = i=1 2
s #k fi &
"
%$i =1
( x i ! x)
2
n ('
m
g 2 = 44 ! 3
s
g2 = 0 (mesocrtica).
g2 > 0 (leptocrtica).
g2 < 0 (platicrtica)
m3 = a3 - 3a2a1 + 2a13
m4 = a4 - 4a3a1 + 6a2a12 - 3a14
siendo a1 = x .
Llamando
r Fr u
u r = ! xif i , pr = 100 , q r = r 100
i=1 n n
k
S = ! xi
i=1
entre los k trabajadores.
F
pr = r 100
n
5- qr, que es el porcentaje del salario total que reciben los Ni primeros
trabajadores:
u
q r = r 100
n
qi % qi %
k !1
" (p i ! q i )
I G = =1k !1
i
" pi
i =1
61
Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de resumir
en un solo nmero lo recogido en la curva de Lorenz, a veces, dos distribuciones de
aspectos muy diferentes pueden tener dos ndices de concentracin de Gini iguales,
como indican las curvas de la figura 1.23.
"REPRESENTACIONES GRAFICAS"
1.2 Ampliacin
63
Este lenguaje se sirve de numerosos signos y smbolos que han evolucionado con
el tiempo y que encontramos en casi todas las manifestaciones de la actividad humana,
emplendose para expresar de manera rpida y sucinta ideas, objetos y situaciones, en
muchas ocasiones con significado universal.
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos
inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los
ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de
datos.
66
Cada vez en mayor medida se recurre a datos y anlisis estadsticos para transmitir
la informacin, siendo los Mtodos Grficos de carcter descriptivo la herramienta de la
que no se puede prescindir** .
As, est comnmente aceptado por la comunidad cientfica que, en general, una
representacin grfica proporciona mayor informacin acerca de las caractersticas y
patrones de los datos, que un texto o una presentacin tabular de los mismos.
Como seala TUKEY (1962), gran parte del poder e importancia de los
Mtodos Grficos, es que nos permiten percibir aquello que nunca
esperbamos ver.
Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente
humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien
percibe".
ILUSIONES GEOMTRICAS
Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao
(b): Ilusin de PoggendorfLas lneas oblicuas son colineales
10000
9000
8000
9500
7000
6000
9000
I II III IV
(a)
8500
9%
8% 8000
7%
7500
6%
I II III IV
5% (b)
1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin grfica:
SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan
una clasificacin de los distintos mtodos grficos en tres grandes grupos:
En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo cientfico
en donde tienen cabida las representaciones grficas.
Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver figura
1.30)
se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes
Mltiples, ms que multivariantes.
Diagrama de Dispersion
Grficos Pictoriales
Mltiple
o Figurativos
1.- Se debe escribir a la izquierda de una lnea vertical, de arriba hacia abajo,
todos los posibles dgitos principales del conjunto de datos.
2.- Luego se representa cada dato a la derecha de la lnea, escribiendo sus dgitos
secundarios en la fila apropiada.
La longitud de cada fila nos muestra el nmero de valores en cada intervalo, por
lo que representa esencialmente un histograma lateral, solventando una limitacin del
histograma, ya que permite identificar los valores originales de cada intervalo.
La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los 50 estados
de Estados Unidos ordenados segn la variable "voto medioambiental", cuyos datos
aparecen en la tabla 1.1. Esta variable mide cmo la delegacin congresista de cada
estado vot en relacin a temas de medioambiente durante el ao 1984. Refleja el
porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del
grupo "The League of Conservation Voters". As el valor de Idaho, 12, significa que el
voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.
1 267
2 6
3 33345699
4 01477779
5 123456667799
6 224999
7 02222499
8 26
9 6
Se observa claramente cmo el rango del porcentaje vara desde 12 hasta 96.
Tambin puede apreciarse como la distribucin es aproximadamente simtrica de modo
que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo correspondiente).
76
Porcentaje Porcentaje
Estado de voto Estado de voto
medioamb. medioamb.
Idaho 12 S. Dakota 55
Utah 16 Illinois 56
Alaska 17 Montana 56
Wyoming 26 Missouri 56
Alabama 33 Ohio 57
Mississippi 33 Washington 57
Virinia 33 California 59
Nebraska 34 N. Dakota 59
Arizona 35 Maryland 62
Arkansas 36 Pnnsylvania 62
Texas 39 Hawaii 64
Kansas 39 Delaware 69
Louisiana 40 Michigan 69
Kentucky 41 W. Virginia 69
N. Carolina 47 Minnesota 70
Tennessee 45 New York 72
New Mexido 47 Wisconsin 72
Nevada 47 New Hampsh. 72
S. Carolina 47 New Jersey 72
Colorado 47 Iowa 74
Georgia 49 Maine 79
Florida 51 Connecticut 79
Oclahoma 52 Massachusetts 82
Oregon 53 Rhode Island 86
Indiana 54 Vermont 96
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984:
Porcentaje de acuerdo con "The League of Conservation Voters".
(Tomado de HAMILTON, 1990)
Box-plot
Esta representacin grfica, tambin debida a TUKEY (1977), puede ser traducida
como Caja con Bigotes o Representacin Caja, aunque se conoce usualmente con el
nombre de Box-plot o bien Box and Whiskers plot.
Una variante del mtodo anterior es la que se conoce con el nombre de Notched
Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33; dicha
variante no es ms que un 'Box-plot con muescas', siendo las muescas la indicacin del
intervalo de confianza para la medida de tendencia central usada, es decir, la Mediana.
Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis muralis
presenta en la ocupacin de tres tipos de hbitat en la Sierra de Guadarrama:
Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).
79
Diagramas de dispersin
25
SA
20 AV
.
PASTIZAL 15 SG
LE
10 SO ZA
P
BU
5
VA
0
0 10 20 30
BARBECHO
Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de la superficie de
cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y Len.
(A partir de los datos del Anuario de Estadstica Agraria, 1990)
De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros),
esta importante innovacin grfica constituye una de las ms potentes tcnicas de
anlisis visual de datos multivariantes existentes en la actualidad.
Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos' que salen
al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido posible por el
desarrollo que en los ltimos tiempos han sufrido los ordenadores; el movimiento en
tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con
potencia y rapidez.
Aunque cada diagrama por separado muestra tan slo dos dimensiones de los
datos (no es posible detectar una variacin comn), en ocasiones esta representacin
univariante mltiple puede ser efectiva en la deteccin de 'outliers', o patrones de los
datos.
Como en todo Anlisis Multivariante, se parte de una matriz de datos que contiene
la informacin de los valores que los individuos toman para cada una de las variables a
estudiar, que ser la que se representar de forma grfica.
Algunos de los muchos MGM existentes, son los que aparecen esquematizados en
la figura 1.39. (Tomada de AVILA-ZARZA, 1993).
Entre los mtodos representados en esta figura, unos se caracterizan porque las
variables se representan como longitudes de las componentes grficas; es el caso de los
Polgonos o Estrellas (rayos circulares emanando de un origen comn), o los Glifos, (segmentos
que se extienden desde un crculo); otros -es el caso de las Caras de Chernoff- representan
las variables mediante caractersticas faciales (excentricidad de la cara, la curvatura de la boca o
la inclinacin de los ojos...), etc..
Grficos de veleta
Polgonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
Polgonos o Estrellas
ASESINATOS VIOLACIONES
ROBOS
ROBOS DE
COCHES
ASALTOS
HURTOS
ALLANAMIENTOS
DE MORADA
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignacin de las
variables a cada segmento, para el ejemplo de la figura 1.41
y
f(t) = 1 + y 2sen(t) + y3 cos(t) + y 4sen(2t) + y5 cos(2t)
2
Cada individuo vendr representado por una gota, de modo que podremos
encontrar clusters de individuos "parecidos" cuando las gotas que los representan tengan
una forma similar. La forma de las gotas dependen del orden de introduccin de las
variables en la funcin de Fourier.
Caras de Chernoff
No se ra!. Estas son las primeras palabras con las que se presenta a los lectores
este mtodo de representacin de datos multivariantes en el manual SYGRAPH, que
trata de las representaciones grficas que el programa estadstico para ordenador
SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin de los que
desconociendo el mtodo, se encuentran de pronto con caras de rasgos caricaturizados
en una ponencia o en un trabajo de investigacin; quizs para contrarrestar la aparente
falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a ms de uno a
descartarlo sin haberlo tomado en consideracin.
1. Anchura de la cara.
2. Nivel de la oreja.
3. Altura de la cara.
4. Excentricidad de la elipse superior cara.
5. Excentricidad de la elipse inferior cara .
6. Longitud de la nariz .
7. Posicin centro de la boca.
8. Curvatura de la boca.
9. Longitud de la boca.
10. Altura del centro de los ojos.
11. Separacin de los ojos.
12. Inclinacin de los ojos.
13. Excentricidad de los ojos .
14. Longitud ojo.
15. Posicin de las pupilas.
16. Altura de la ceja.
17. ngulo de la ceja.
18. Longitud de las cejas.
Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff, segn BRUCKNER (1978).
A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja
Cada variable estudiada se asigna a uno de los parmetros que controlan los
rasgos, de forma que el valor del parmetro facial sea proporcional al valor que toma la
variable en el individuo a representar. Para ello se deja variar el parmetro dentro de un
rango de variabilidad preestablecido, de manera que la estructura global mantenga las
caractersticas bsicas de una cara. Algunos parmetros faciales varan libremente
(dimetro de la oreja), pero la mayora quedan supeditados a la exigencia anterior y
dependen de otras caractersticas faciales.
EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la intencin de que
resulten menos caricaturescas.
NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.
Aplicaciones
* Caracterizacin de presas del Guadiana por sus variables ecolgicas (ALONSO, 1982).
*Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a
un material complementario al que se ofrece en este trabajo
91
CANTABRIA
ALAVA
LUGO
LEON
RIOJA
ORENSE PALENCIA
BURGOS
ZAMORA
SEGOV IA
AVILA
MADRID
CACE RE S
TOL EDO
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-Len,
representando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols. 1993).
92
Ventajas e inconvenientes.
Ventajas
3.- Con este mtodo resulta sencillo efectuar agrupaciones por similitudes de
rasgos.
4.- Es una Tcnica que permite concentrar la informacin de todas las variables en
una figura muy compacta.
Inconvenientes
4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un
valor muy alto, puede modificar otros (que en principio deberan ser iguales a los
presentados por otra cara no deformada por dicha interdependencia).
93
6.- Debe tenerse precaucin a la hora de asignar los rangos de los parmetros
faciales, pues si se eligen muy amplios y las variables tienen poca variabilidad no
se obtiene discriminacin alguna . En cambio, si no se determinan correctamente
los rangos de variabilidad de las variables, puede suceder que los rasgos se salgan
de la cara.
Curvas de Andrews.
x1
f(t) = + x 2 sen(t) + x3 cos(t) + x 4 sen(2t) + x 5 cos(2t)
2
Los clusters y puntos aberrantes, son revelados por el hecho de que las distancias
entre dos funciones son concebidas proporcionales a la distancia eucldea de los objetos
en el espacio p dimensional original, por la preservacin de la media y la desviacin.
Interpretacin.
94
4000
3000
COMPONENTE DE FOURIER
2000
1000
.
0
-1000
-2000
-180 -90 0 90 180
GRADOS
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de
diecisis ciudades diferentes de EE.UU.
Como hay variables que estn asociadas a elementos cclicos de la funcin con
distinta frecuencia y se discrimina mejor en las curvas las bajas frecuencias, es
aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos correspondientes a las
variables ms importantes en la discriminacin, es decir, las que reflejan ms
variabilidad.
BIBLIOGRAFIA CITADA
ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136.
ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21.
BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data.
(P.C.C. Wang, ed.). pp.: 93-121. Academic Press.
CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In
Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.
96
CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal
of the American Statistical Association, 68: 361-368.
CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley &
Sons. New York.
EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York.
EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books.
London.
FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics.
University of Minnessota, 44.
GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component
analysis'. Biometrika, 58: 453-467.
HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole
Publishing Company. California.
HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical
Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York.
MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simptridas del Genero
Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca.
MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of
multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C
Wang, ed.) pp.: 123-142. Academic Press. New York.
McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36.
NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An
overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland.
NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic
Press. New York.
PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth
and Planetary Science Letters, 22: 245-255.
POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543-
548.
ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the
graphical presentation of data'. Biometrika, 43 (3,4): 241; 247.
SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical
Sciences. John Wiley & Sons. New York.
SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis
(J. Fox & J. Scott Long, eds.). Sage Publications. Newbury.
TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1.
VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse & Piaget Eds.). Paids.
Buenos Aires.
WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy
sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic
Press. New York.
"REPRESENTACIONES GRFICAS"
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta
unidad temtica, utilizando para ello datos reales tomados de la
evaluacin del profesorado universitario durante el curso acadmico
1991-92. Est planteado de forma que pueda ser utilizado como ejercicio
de prcticas para los alumnos, como recapitulacin de las ideas de esta
unidad.
Para ello se prepar un cuestionario con 28 preguntas relacionadas con seis reas
diferentes de la tarea del Profesor:
Para cada uno de los profesores que imparte la asignatura, los alumnos deben
rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una
valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el profesor no
satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que el profesor
satisface plenamente el supuesto. La evaluacin se realiza en horas de clase normal,
pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.
100
A partir de los resultados obtenidos por "Mrs. X", en las asignaturas que imparti
durante el citado curso acadmico, se construyeron las correspondientes tablas de
distribucin de frecuencias. As, para evitar presentar los datos brutos obtenidos en el
anlisis presentamos a continuacin las tablas de distribucin de frecuencias para cada
uno de los tems (variables) analizadas y para cada muestra (tablas 1.2, 1.3 y 1.4):
Frecuencia
Valor de la Ampliacin Bioestadstica Bioestadstica Anlisis de Datos
variable Bioestadstica (Biologa) (Medicina)
1 4 17 11 0
2 6 23 14 3
3 2 19 29 5
4 4 18 17 7
5 0 26 30 8
ni 16 103 101 23
Tabla 1.2
Frecuencia
Valor Ampliacin Bioestadstica Bioestadstica Anlisis de Datos
Bioestadstica (Biologa) (Medicina) (Libre dispos.)
1 0 2 1 0
2 0 3 3 0
3 0 3 3 0
4 4 10 11 0
5 12 85 83 23
ni 16 103 101 23
Tabla 1.3
102
Frecuencia
Valor Ampliacin Bioestadstica Bioestadstica Anlisis de Datos
Bioestadstica (Biologa) (Medicina)
1 1 12 2 0
2 0 8 7 0
3 4 25 21 1
4 4 31 35 7
5 7 27 36 15
ni 16 103 101 23
Tabla 1.4
A partir de la informacin suministrada por las tablas anteriores vemos cules han
sido los tamaos de las muestras extradas de cada una de las 4 poblaciones en estudio
(denotadas con ni (i=1,...,4)).
Dado que de los grficos obtenemos una informacin rpida y global de los
resultados, pasaremos en este punto a realizar diversas representaciones grficas de los
resultados anteriores.
Por ejemplo, podemos realizar, para la pregunta "El profesor est accesible para
los alumnos" el diagrama de barras para la opinin de los alumnos de la asignatura de
Bioestadstica sera el que se muestra en la figura 1.49:
103
20
10
0
1 2 3 4 5
PUNTUACION
A simple vista, parece que es para los alumnos de las asignaturas de Anlisis de
104
Datos y Ampliacin de Bioestadstica, para los que menos disponible est Mrs. X. Sin
embargo, los grficos, por dar una informacin ms general que las tablas, son ms
susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe
fijarse atentamente en el grfico, y comprobar que en el eje de ordenadas se ha
representado la frecuencia (nmero de alumnos que han dado una determinada
puntuacin al profesor en relacin al tem considerado). Esto nos hace observar, con
ms detenimiento, y teniendo en cuenta la informacin de las tablas de frecuencias, que
el nmero de alumnos de cada muestra no es el mismo, por lo que la representacin de
las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos
casos.
20
10
0
1 2 3 4 5
PUNTUACION
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura
podemos observar cmo esa interpretacin debe hacerse con cautela, ya que el tamao
de la muestra en cada caso es distinto, y as, son los alumnos de Ampliacin de
Bioestadstica los que en trminos relativos dan con mayor frecuencia esa puntuacin.
(23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de 2, mientras
que en ampliacin de Bioestadstica son 6 de 16).
En las siguientes tablas (tablas 1.5, 1.6 y 1.7) aparece la descriptiva bsica para
cada una de las preguntas analizadas. Se ha anotado, la media, la desviacin tpica (o
estndar) el coeficiente de variacin. Tambin se seala cul es el valor ms frecuente
(moda).
Descriptiva bsica
Asignatura n Media Desviacin Coeficiente de Moda
estndar variacin
Ampliacin de
16 2,375 1,147 48,314 2
Bioestadstica
Bioestadstica
103 3,126 1,439 46,046 5
(Biologa)
Bioestadstica
101 3,406 1,336 39,211 5
(Medicina)
Anlisis de Datos
23 3,87 1,058 27,332 5
Tabla 1.5
Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor
106
Descriptiva bsica
Asignatura n Media Desviacin Coeficiente de Moda
estndar variacin
Ampliacin de
16 4,75 0,447 9,415 5
Bioestadstica
Bioestadstica
103 4,68 0,831 17,757 5
(Biologa)
Bioestadstica
101 4,703 0,756 16,066 5
(Medicina)
Anlisis de Datos
23 5 0 0 5
Tabla 1.6
Descriptiva bsica
Asignatura n Media Desviacin Coeficiente de Moda
estndar variacin
Ampliacin de
16 4 1,155 28,868 5
Bioestadstica
Bioestadstica
103 3,515 1,282 36,486 4
(Biologa)
Bioestadstica
101 3,95 1,014 25,659 5
(Medicina)
Anlisis de Datos
23 4,609 0,583 12,651 5
Tabla 1.7
107
Figura 1.52
La figura 1.53 representa los "Box-Plot" para la pregunta "Est accesible para
los alumnos?" . Aqu se ha representado un Box-Plot para cada asignatura.
108
5,5
4,5
4
3,5
Units 3
2,5
2
1,5
1
,5
Bioestadstica Bioest Medicina Anlisis datos Ampliacin Bioest.
Figura 1.53: Box plot para los resultados a la pregunta Est accesible a los alumnos?
NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X lleva
realmente el mismo sistema de atencin para todos los alumnos. Refleja por tanto la
"percepcin del alumno", ya que no existan diferencias reales.