Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Descriptiva PDF
1 Descriptiva PDF
"ESTADÍSTICA DESCRIPTIVA"
Una segunda acepción entiende la estadística como una ciencia que facilita los
métodos precisos para la obtención de información numérica, y que también
proporciona métodos de análisis de esa información recogida y métodos de
investigación aplicables al resto de las Ciencias. La primera se corresponde básicamente
con la estadística descriptiva y la segunda con la estadística inferencial.
i
!f j
F i j=1
Hi = =
n n
! fi = n
i
0 ≤ fi ≤ n
! hi = 1
i
0 ≤ hi ≤ n
DISTRIBUCIÓN DE FRECUENCIAS
Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior
e inferior: ai = Li - Li-1
Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es
más cómodo que sea constante.
Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos
cuestiones iniciales:
Por último cabe destacar que tomaremos como representante de cada intervalo su
punto medio, que denominaremos marca de clase, y designaremos por ci. Así la marca
de clase del intervalo [Li-1,Li) será:
L i!1 + Li
ci =
2
EJEMPLO 1.1:
Solución:
a)
Precio (xi) en miles 3 4 5 7 7.5 8 10 12 15
Nº de hoteles (fi) 5 7 10 11 6 5 3 2 1
9
b)
EJEMPLO 1.2:
Solución:
xi fi Fi hi Hi
a 1 1 0,1 0,1
e 2 3 0,2 0,3
i 1 4 0,1 0,4
o 3 7 0,3 0,7
u 3 10 0,3 1
3
FRECUENCIAS
0
a e i o u
VOCALES
Sobre unos ejes cartesianos, análogos a los anteriores, se levanta en cada valor de
la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho
valor, uniendo a continuación con una poligonal dichas ordenadas. La primera ordenada
se une con el cero del eje de abscisas, teniendo en cuenta que si hay algún valor de la
variable con frecuencia cero también ha de ser considerado y unir dicho dato con los
anteriores.
FRECUENCIAS ACUMULADAS
10
a e i o u
VOCALES
f
ai = i
ci
f
Si = a i c i = i ci = f i
ci
14
EJEMPLO 1.3:
Saldo Nº provincias
4-6,9 6
7-8,9 7
9-14,9 17
15-29,9 13
30-59,9 4
60-99,9 2
≥100 1
Solución:
Como los intervalos son de amplitud no constante, hay que calcular las alturas de
los mismos, obteniéndose la siguiente tabla:
Para construir este gráfico se levanta en el extremo superior de cada intervalo una
ordenada igual a su frecuencia, uniendo a continuación dichas ordenadas. La primera
ordenada se une al extremo inferior del primer intervalo, prolongando el polígono desde
ese punto a la izquierda sobre el eje x, y prolongando también por la derecha a partir del
extremo superior del último intervalo, con una recta paralela al eje de abscisas. Suele
utilizarse esta representación sobre todo en el caso de que las frecuencias sean
acumuladas. En este caso la altura correspondiente al extremo superior del último
intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son
relativas.
EJEMPLO 1.4:
5 Alturas
x
i
10 20 30 40 50 60 70 80 90 100
5º DIAGRAMA DE SECTORES
Previamente hay que calcular los grados que corresponde a cada elemento
multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360º y el
total de datos:
360°
gi = f i
n
EJEMPLO 1.5:
Solución:
EJEMPLO 1.6:
PAÍSES INVERSIÓN
(MILLONES $)
R.F.A 8.234
INGLATERRA 6.915
FRANCIA 4.663
ESPAÑA 3.000
HOLANDA 2.970
ITALIA 2.846
DINAMARCA 1.084
BÉLGICA 464
GRECIA 164
IRLANDA 127
No se poseen datos de Portugal y
Luxemburgo
Solución:
R.F.A
INGLATERRA
FRANCIA
ESPA ÑA
HOLANDA
ITALIA
DINAMARCA
IRLANDA
BELGICA
GRECIA
En este gráfico se observa que cuando ciertos datos presentan una frecuencia baja,
en relación con los demás, su sector circular seria no detectable visualmente, por lo que
se une con otros de frecuencias también bajas, dándole el nombre de "otros", o bien, si
es posible, indicando todos los elementos que lo forman.
6º PICTOGRAMAS
EJEMPLO 1.7:
PAÍSES INVERSIÓN
(MILLONES $)
BRASIL 101.750
MÉJICO 100.000
ARGENTINA 50.300
VENEZUELA 35.880
CHILE 20.690
PERU 14.300
COLOMBIA 13.430
ECUADOR 7.540
URUGUAY 4.990
BOLIVIA 3.340
PARAGUAY 1.890
20
Solución:
DEUDA EXTERNA
DE AMERICA LATINA
(Diciembre 1986)
BRASIL MEXICO ARGENTINA VENEZUELA CHILE PERU ECUADOR BOLIVIA COLOMBIA URUGUAU PARAGUAY
EJEMPLO 1.8:
GANADO Nº DE CABEZAS
(EN MILES)
BOVINO 4.538
OVINO 14.539
CAPRINO 2.206
PORCINO 9.804
EQUINO 762
TOTAL 31.846
Represente el correspondiente pictograma
21
Solución:
7º CARTOGRAMAS
En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):
22
Caprino
Bovino
Equino
0 5000 10000
Porcino
Ovino
9º DIAGRAMAS LINEALES
2'9 2'9
2 SEPTIEMBRE
1'9 1'9
1'7
ABRIL
JULIO AGOSTO
MARZO MAYO
1'1 JUNIO
0'7
FEBRERO
ENERO 6'3 6'2
6'0 6'0 5'8
EVOLUCION DE LA
TASA DE INFLACION
4'9 4'9 4'4
4'5
14'0
12'0
Población
blanca
10'0
Población
8'0 negra
6'0
4'0
Indice de
2'0 integración=0'71
0
1000$ 2000$ 5000$ 10000$ 15000$ 25000$ 50000$
Figura 1.14: Polígonos de frecuencias porcentuales
24
Entre las más importantes están la media aritmética, la mediana, la moda y los
cuantiles; además de éstos, también estudiaremos la media geométrica, la media
armónica, la media cuadrática y la media aritmética ponderada.
k
! xif i n k
x1 x2 xk xf
x = f1 + f 2 +!+ fk = i=1 = ! i i = ! x ih i
n n n n i=1 n i =1
25
EJEMPLO 1.9:
Solución:
EJEMPLO 1.10:
Solución:
No obstante, y dado que la media aritmética está muy influenciada por los valores
extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada
una de éstas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11:
La tabla siguiente recoge el número total de goles marcados en los ocho primeros
campeonatos de liga de primera división correspondientes a las temporadas en que han
participado en el mismo 20 equipos:
Solución:
Por otro lado ¿qué sentido tiene decir que se marcaron 917,75 goles?, ¿acaso hubo
alguna ocasión en la que solamente penetró en la portería el 75% del balón?.
27
k
k k k " x if i
" (x i ! x)f i = " x if i ! x " f i = n i =1 ! xn = nx ! xn = 0
i =1 i =1 i =1 n
2ª. Si a todos los valores de la variable les sumamos una constante k, la media
aritmética queda aumentada en esa constante.
k fi k fi k fi k f
x' = ! xi ! (x i + k) ! xi + k! i = x + k
'
= =
i=1 n i=1 n i=1 n i=1 n
3ª. Si a todos los valores de la variable los multiplicamos por una constante k, su media
aritmética queda multiplicada por esa constante.
k f k f k f
x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx
i =1 n i=1 n i=1 n
y = ax + b
VENTAJAS E INCONVENIENTES
k
! xi wi
xp = i=1k
! wi
i=1
k
! xi f iwi
xp = i=1k
! f iw i
i=1
29
EJEMPLO 1.12
xi 50 80 70
Ponderación 1 2 3
Solución:
f f f
G = n x11 x 22 !x kk
1 "$ k %
Tomando logaritmos quedaría: log G = ! f i logx i '
n # i=1 &
Veamos, por ejemplo, cómo calcular la renta media durante varios periodos de
tiempo.
30
EJEMPLO 1.13
Solución:
Cabría esperar que la solución fuera la media aritmética de las tres rentas, es decir
el 5%, pero la realidad es otra; en efecto:
Se verificará que
1 + r m = 3 (1 + r1)(1 + r 2 )(1+ r3 )
EJEMPLO 1.14
Sea una clase de 22 niños, cuya talla se distribuye del modo siguiente:
22 10 5 4 3
G= 100 !120 !125 !140
31
1
log G = (10 log100 + 5 log120 + 4 log125 + 3 log140) =
22
1
= 45.22193 = 2.05554
22
n
A= k
1
! fi
i=1xi
Como inconvenientes hay que citar la gran influencia de los valores pequeños y
que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para
promediar velocidades, tiempos, etc.
EJEMPLO 1.15:
Solución:
espacio 2s
v= =
timpo t1 + t 2
Pero
s 100Km
t1 = =
v1 60 Km h
s 100 Km
t2 = =
v 2 70Km h
2s 200Km 2Km
v= = 100 Km =
t1 + t 2 100Km 1 1 = 64.62Km h
+ +
60 Km h 70 Km h 60 h 70h
1.1.4.5 Mediana
Es el valor de la distribución que, una vez ordenados los valores de la variable de
menor a mayor, deja igual número de frecuencias a su izquierda que a su derecha, es
decir, el valor que ocupa el lugar central. Puede entenderse también como aquel valor
cuya frecuencia absoluta acumulada es n/2.
33
Nº impar de términos
la mediana sería Me = 3
Nº par de términos
Pero si hay un nº par de términos habría dos términos centrales y se toma como
mediana la media aritmética de ellos. Por ejemplo, si los valores de la variable son
{1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}
7+9
La mediana seria: M e = =8
2
Variable discreta
EJEMPLO 1.16:
Si la distribución es:
xi fi Fi
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35
Total 35
Calcular la mediana
34
Solución:
n 35
= = 17.5
2 2
La mediana vale:
Me = Li-1 + m
AC BC
=
AC' B' C'
es decir:
n
m 2 ! F i!1
=
c i Fi ! Fi!1
por lo tanto:
n
! Fi !1
m= 2 ci
fi
n
! Fi !1
Me = L i !1 + 2 ci
fi
VENTAJAS E INCONVENIENTES
Como ventajas de la mediana podemos citar que no está influida por los valores
extremos como en el caso de la media, y además tiene sentido en casos de
distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida más
representativa de estos por describir la tendencia central de los mismos.
EJEMPLO 1.17:
Solución:
n 671
Tenemos que = = 335.5 , valor que nos indica que el salario anual mediano
2 2
pertenece a la tercera clase.
335.5 ! 250
Me = 30000 + 5000 = 3000 + 2137.5
200
es decir, Me = 32137’5
1.1.4.6 Moda
Es el valor de la variable que más veces se repite en una distribución de
frecuencias, es decir, el que tiene mayor frecuencia absoluta.
Para calcular la moda, en el caso que la distribución no esté agrupada o esté agrupada en
intervalos, se procede de forma diferente:
EJEMPLO 1.18:
xi 1 2 5 7 10 13
fi 3 4 9 10 7 2
Puede ocurrir que una distribución presente más de una moda (bimodal, trimodal,
etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las
representaciones serian (ver figuras 1.16 y 1.17):
Figura 1.16: Representación de una distribución con una única moda y otra bimodal
Amplitud constante
Dado que los triángulos OAA' y OBB' son semejantes por tener los ángulos
iguales, se puede establecer la proporción:
invirtiéndola resulta:
39
PO AA' m d1
= ! =
OQ + PO BB' +AA' ( c i " m ) + m d1 + d2
siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los
intervalos anterior y posterior respectivamente. Por lo tanto la moda valdría:
d1
Mo = L i!1 + c
d1 + d 2 i
EJEMPLO 1.19:
Intervalo Frecuencia
0 - 25 20
25 - 30 40
50 - 75 100
75 - 100 60
Total 220
Solución:
d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40
60
resulta que Mo = 50 + 25 = 50 + 15 = 65
60 + 40
Amplitud no constante
EJEMPLO 1.20:
Intervalo fi ci ai
4 -7 6 3 2
7-9 7 2 3,5
9 - 15 17 6 2,8
15 - 30 13 15 0,8
30 - 60 4 30 0,1
60 - 100 2 40 0,05
más de 100 1 -- ---
Total 50
Solución:
ai = fi / ci
d1 = 3,5 - 2 = 1,5
d2 = 3,5 - 2,8 = 0,7
1.5
Mo = 7 + 25 = 7 + 1.36 = 8.36
1.5 + 0.7
VENTAJAS E INCONVENIENTES
EJEMPLO 1.21:
Solución:
La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000
pts. Estas dos medidas indican más claramente la situación en la empresa, siendo la
moda la que mejor resume la situación.
42
1) Los cuartiles son tres valores que dividen a la distribución en cuatro partes
iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi.
2) Los deciles son nueve valores que dividen a la distribución en diez partes
iguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di.
Me = Q2 = D5 = P50
Q1 = P25 ; Q3 = P75
D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60
n
r ! F i!1
C r k = L i !1 + k ci
fi
43
VENTAJAS E INCONVENIENTES
EJEMPLO 1.22:
Solución:
Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000
671
! 100
Q1 = 25000 + 4 5000 = 25000 + 2258.3 = 27258.3
150
Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el 35000 - 40000
671
3! 450
Q3 = 35000 + 4 5000 = 35000 + 1479.16 = 36479.16
180
Para D4: como 4.671/10 = 268’4 , el intervalo del cuarto decil es el 30000 - 35000
671
! 2500
4
D4 = 30000 + 4 5000 = 30000 + 460 = 30460
200
Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y ocho es el 35000
- 40000
671
88 ! 450
P88 = 35000 + 4 5000 = 35000 + 3902.2 = 38902.2
180
44
Las dos medias son iguales y sin embargo las dos distribuciones son muy
diferentes pues los valores de X están mucho más dispersa que los de Y.
RECORRIDO O RANGO:
RECORRIDO INTERCUARTÍLICO:
RI = Q3 - Q1
En esta medida se suprimen el 25% superior e inferior de la distribución, y por lo
tanto no se ve influenciado por los valores extremos, y nos indica la longitud del
intervalo en el que están el 50% central de los valores
Esta medida de dispersión hace referencia a un promedio, cosa que no hacen las
anteriores; puede entenderse como la media de las desviaciones de los datos de la
variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones
positivas queden compensadas por las negativas y que esta desviación media resulte
igual a 0, (que nos haría pensar que no hay dispersión) se utiliza el valor absoluto de la
desviación de los datos respecto del promedio.
k f
D x = " xi ! x i
i=1 n
k f
DMe = " x i ! Me i
i=1 n
Las dos nos indicarían la dispersión de los datos respecto del promedio utilizado,
en el caso de que ésta fuera grande el promedio sería poco representativo.
VARIANZA:
k k
2f
s2 = " ( xi ! x ) i = " (x i ! x) h i
2
i=1 n i =1
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos
indica la mayor o menor dispersión de los valores de la variable respecto de la media
aritmética, y por lo tanto, su representatividad.
k k
2 fi
" ( x i ! x) " (x i ! x) hi
2
s= =
i =1 n i =1
Al ser la raíz cuadrada de la varianza viene expresada en las mismas unidades que
la variable, lo que la hace más apta como medida de dispersión que la varianza, siendo
en la actualidad la más utilizada.
47
A menudo, en lugar de dividir entre el tamaño de los datos, n, se divide entre n-1,
obteniéndose la llamada cuasivarianza:
k fi
ˆs2 = " ( xi ! x )2
i=1 n !1
y cuasidesviación típica:
k 2 fi
ˆs = " ( xi ! x )
i=1 n !1
n 2
ˆs2 = s
n !1
s2 ≥ 0, s≥0
k f
Si en la distribución (xi fi) de media x = ! xi i , y de varianza
i=1 n
k 2 fi
s2 = " ( xi ! x ) sumamos a todos los elementos una constante k, obtenemos otra
i=1 n
distribución de variable x'i = xi + k .
En efecto:
Si tomamos la distribución x''i = kx i teniendo en cuenta que x' = kx , resulta que
la varianza de la nueva distribución vale:
( )
k 2 fi k f
s' ' 2 = " x'i' ! x' ' = " ( kx i + kx) i =
i =1 n i=1 n
k f
= " k2 (xi ! x )2 i = k2 s2
i =1 n
( )
k 2 fi k f
s 2 = " ( xi ! x ) = " x 2i ! 2xi x + x 2 i =
i=1 n i =1 n
k f k f k f k f
= " x2i i ! 2x " x i i + x 2 " i = " x 2i i ! 2x 2 + x 2 = x 2 ! x 2
i=1 n i=1 n i =1 n i =1 n
xi fi
54 2
59 3
63 4
64 1
10
f
x = ! x i i = 60.1 Kg
i n
k
2 2f
s2 = s = ! xi i " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2
i=1 n
s = 12.69 = 3,5623 Kg.
Intervalo marca de fi
clase
30-40 35 3
40-50 45 2
50-60 55 5
10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76
S = 76 = 8,718
50
s
CV =
x
s
A menudo se le suele utilizar en forma de porcentaje, empleando CV = 100
x
1.1.7 Momentos
Existen dos tipos de momentos:
k k f
0f n
m 0 = " (x i ! x) i = " i = = 1
i =1 n i=1 n n
k k k f
1f f n
m1 = " (x i ! x) i = " x i i ! x " i = x ! x = 0
i =1 n i =1 n i =1 n n
r f
a r = ! xri i
i=1 n
k f k f
a 0 = ! x 0i i " x ! i = 1
i=1 n i =1 n
Existe una relación entre los dos momentos, que nos da una forma reducida de
calcular la varianza:
k 2 fi k
2f
s = m 2 = " (x i ! x)
2 2 2
= " x i i ! x = a 2 ! a1
i =1 n i =1 n
53
Debemos buscar ahora una medida adimensional que recoja las desviaciones
positivas y negativas de los valores respecto de la media.
g =0 g >0
1 1
_ Mo
x
Distribución simétrica Distribución asimétrica
a la derecha
g <0
1
Mo
Distribución asimétrica
a la izquierda
Dado que
k fi
" (x i ! x) =0
i =1 n
hay que buscar una medida que venga influida por el signo; ésta será:
k 3 fi
m 3 = " (x i ! x)
i =1 n
ya que
si la curva es simétrica m3 = 0
si la curva tiene asimetría positiva o a derechas, m3 > 0
si la curva tiene asimetría negativa o a izquierdas, m3 < 0
Para que no tenga dimensión debemos dividirla por una medida con las mismas
unidades (cúbicas), obteniéndose el coeficiente de asimetría de Fisher.
55
k
3f
" (x i ! x) ni
m i =1
g1 = 33 = 3
s
#k 2 f &2
%$ " ( xi ! x) i
i=1 n ('
Siendo su interpretación:
x ! Mo
Ap =
s
Ap = 0 la distribución es simétrica.
Ap > 0 la distribución es asimétrica positiva (derechas)
Ap < 0 la distribuciones asimétrica negativa (izquierdas)
x ! Mo " 3( x ! Me)
3( x ! Me)
Ap =
s
k 4f
" ( xi ! x ) i
m n
g 2 = 44 = i=1 2
s #k fi &
"
%$i =1
( x i ! x)
2
n ('
m
g 2 = 44 ! 3
s
g2 = 0 (mesocúrtica).
g2 > 0 (leptocúrtica).
g2 < 0 (platicúrtica)
m3 = a3 - 3a2a1 + 2a13
m4 = a4 - 4a3a1 + 6a2a12 - 3a14
siendo a1 = x .
Llamando
r Fr u
u r = ! xif i , pr = 100 , q r = r 100
i=1 n n
k
S = ! xi
i=1
entre los k trabajadores.
3º- ur, acumulador de la primera columna que denota el salario total recibido
r
por los Fr primeros trabajadores, siendo su valor u r = ! xif i
i=1
F
pr = r 100
n
5º- qr, que es el porcentaje del salario total que reciben los Ni primeros
trabajadores:
u
q r = r 100
n
qi % qi %
k !1
" (p i ! q i )
I G = =1k !1
i
" pi
i =1
61
Por último cabe señalar, que aunque el índice de Gini tiene la ventaja de resumir
en un solo número lo recogido en la curva de Lorenz, a veces, dos distribuciones de
aspectos muy diferentes pueden tener dos índices de concentración de Gini iguales,
como indican las curvas de la figura 1.23.
"REPRESENTACIONES GRAFICAS"
1.2 Ampliación
63
Este lenguaje se sirve de numerosos signos y símbolos que han evolucionado con
el tiempo y que encontramos en casi todas las manifestaciones de la actividad humana,
empleándose para expresar de manera rápida y sucinta ideas, objetos y situaciones, en
muchas ocasiones con significado universal.
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos
inmersos en una "sociedad estadística", entendiendo como tal aquélla en la que los
ciudadanos piensan, razonan y toman decisiones en base a análisis estadísticos de
datos.
66
Aunque en España la Estadística dista aún de ocupar un lugar como el que, por
ejemplo, tiene en un país como Japón, donde los periódicos de mayor difusión e
importancia incluyen los viernes una sección dedicada al control estadístico de calidad y
en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta mediante un
clásico Steam and Leaf (ROMERO, 1991)* , somos en la actualidad espectadores de un
cambio significativo.
Cada vez en mayor medida se recurre a datos y análisis estadísticos para transmitir
la información, siendo los Métodos Gráficos de carácter descriptivo la herramienta de la
que no se puede prescindir** .
Así, está comúnmente aceptado por la comunidad científica que, en general, una
representación gráfica proporciona mayor información acerca de las características y
patrones de los datos, que un texto o una presentación tabular de los mismos.
Como señala TUKEY (1962), gran parte del poder e importancia de los
Métodos Gráficos, es que nos permiten percibir aquello que nunca
esperábamos ver.
Como señala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente
humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien
percibe".
ILUSIONES GEOMÉTRICAS
Fig. 1.27 (a): Ilusión de Müller-Lyer (dos rectas de igual longitud, parecen de diferente tamaño
(b): Ilusión de PoggendorfLas líneas oblicuas son colineales
10000
9000
8000
9500
7000
6000
9000
I II III IV
(a)
8500
9%
8% 8000
7%
7500
6%
I II III IV
5% (b)
1.2.3.2 Clasificación
Existen diversos criterios para clasificar los métodos de representación gráfica:
SNEE & PFEIFER (1985), siguiendo el criterio del propósito del método, realizan
una clasificación de los distintos métodos gráficos en tres grandes grupos:
En la figura 1.29 podemos ver un esquema sobre de las fases del método científico
en donde tienen cabida las representaciones gráficas.
Estos métodos serán tratados con mayor profundidad más adelante. (Ver figura
1.30)
se puede mostrar una variación común. Son por ello Métodos Gráficos Univariantes
Múltiples, más que multivariantes.
• ••
••
••• •• • •• ••
••••• ••• • •• • ••
•
••• ••••
• • • • •• •• •••• •
Diagrama de Dispersion
Gráficos Pictoriales
Múltiple
o Figurativos
* Ambos son métodos gráficos de gran utilidad en la comparación de dos o más series
de datos, de ahí su importancia dentro del análisis multivariante
** Mediante esta representación gráfica es como generalmente se presentan los
1º.- Se debe escribir a la izquierda de una línea vertical, de arriba hacia abajo,
todos los posibles dígitos principales del conjunto de datos.
2º.- Luego se representa cada dato a la derecha de la línea, escribiendo sus dígitos
secundarios en la fila apropiada.
La longitud de cada fila nos muestra el número de valores en cada intervalo, por
lo que representa esencialmente un histograma lateral, solventando una limitación del
histograma, ya que permite identificar los valores originales de cada intervalo.
La figura siguiente (figura 1.31) muestra el gráfico Stem & leaf de los 50 estados
de Estados Unidos ordenados según la variable "voto medioambiental", cuyos datos
aparecen en la tabla 1.1. Esta variable mide cómo la delegación congresista de cada
estado votó en relación a temas de medioambiente durante el año 1984. Refleja el
porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del
grupo "The League of Conservation Voters". Así el valor de Idaho, 12, significa que el
voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.
1 267
2 6
3 33345699
4 01477779
5 123456667799
6 224999
7 02222499
8 26
9 6
Se observa claramente cómo el rango del porcentaje varía desde 12 hasta 96.
También puede apreciarse como la distribución es aproximadamente simétrica de modo
que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre paréntesis el tallo correspondiente).
76
Porcentaje Porcentaje
Estado de voto Estado de voto
medioamb. medioamb.
Idaho 12 S. Dakota 55
Utah 16 Illinois 56
Alaska 17 Montana 56
Wyoming 26 Missouri 56
Alabama 33 Ohio 57
Mississippi 33 Washington 57
Virinia 33 California 59
Nebraska 34 N. Dakota 59
Arizona 35 Maryland 62
Arkansas 36 Pnnsylvania 62
Texas 39 Hawaii 64
Kansas 39 Delaware 69
Louisiana 40 Michigan 69
Kentucky 41 W. Virginia 69
N. Carolina 47 Minnesota 70
Tennessee 45 New York 72
New Mexido 47 Wisconsin 72
Nevada 47 New Hampsh. 72
S. Carolina 47 New Jersey 72
Colorado 47 Iowa 74
Georgia 49 Maine 79
Florida 51 Connecticut 79
Oclahoma 52 Massachusetts 82
Oregon 53 Rhode Island 86
Indiana 54 Vermont 96
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984:
Porcentaje de acuerdo con "The League of Conservation Voters".
(Tomado de HAMILTON, 1990)
Este método también es de gran utilidad para la comparación de dos o más series
de datos, como hemos dicho con anterioridad, representando un diagrama steam & leaf
para cada serie.
Box-plot
Esta representación gráfica, también debida a TUKEY (1977), puede ser traducida
como Caja con Bigotes o Representación Caja, aunque se conoce usualmente con el
nombre de Box-plot o bien Box and Whiskers plot.
Una variante del método anterior es la que se conoce con el nombre de Notched
Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33; dicha
variante no es más que un 'Box-plot con muescas', siendo las muescas la indicación del
intervalo de confianza para la medida de tendencia central usada, es decir, la Mediana.
Figura 1.34: Comparación, mediante Box Plot, del porcentaje que Podarcis muralis
presenta en la ocupación de tres tipos de hábitat en la Sierra de Guadarrama:
Talud, Roquedo y Muro (A partir de los datos de MARTÍN VALLEJO, 1990).
79
Diagramas de dispersión
25
SA
20 AV
.
PASTIZAL 15 SG
LE
10 SO ZA
P
BU
5
VA
0
0 10 20 30
BARBECHO
Figura 1.36: Diagrama de Dispersión, con Box Plot paralelo marginal, de la superficie de
cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y León.
(A partir de los datos del Anuario de Estadística Agraria, 1990)
Para representar las relaciones entre más de dos variables, una posibilidad es
añadir una tercera, obteniendo así un Diagrama de Dispersión Tridimensional, como
se muestra en la figura 1.37.
De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros),
esta importante innovación gráfica constituye una de las más potentes técnicas de
análisis visual de datos multivariantes existentes en la actualidad.
Quizás sea ésta la razón por la cual todos los nuevos 'paquetes gráficos' que salen
al mercado, incluyan esta opción. Opción, por otra parte, que ha sido posible por el
desarrollo que en los últimos tiempos han sufrido los ordenadores; el movimiento en
tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con
potencia y rapidez.
Aunque cada diagrama por separado muestra tan sólo dos dimensiones de los
datos (no es posible detectar una variación común), en ocasiones esta representación
univariante múltiple puede ser efectiva en la detección de 'outliers', o patrones de los
datos.
Cuando los datos tienen más de dos o tres dimensiones, la representación gráfica
se hace complicada: las dimensiones del plano no son capaces de acoger un mayor
número de variables que los que acoge la representación cartesiana convencional, o la
tridimensional; por lo tanto se requiere otro tipo de representación.
Como en todo Análisis Multivariante, se parte de una matriz de datos que contiene
la información de los valores que los individuos toman para cada una de las variables a
estudiar, que será la que se representará de forma gráfica.
Algunos de los muchos MGM existentes, son los que aparecen esquematizados en
la figura 1.39. (Tomada de AVILA-ZARZA, 1993).
Entre los métodos representados en esta figura, unos se caracterizan porque las
variables se representan como longitudes de las componentes gráficas; es el caso de los
Polígonos o Estrellas (rayos circulares emanando de un origen común), o los Glifos, (segmentos
que se extienden desde un círculo); otros -es el caso de las Caras de Chernoff- representan
las variables mediante características faciales (excentricidad de la cara, la curvatura de la boca o
la inclinación de los ojos...), etc..
Gráficos de veleta
Polígonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
Polígonos o Estrellas
ASESINATOS VIOLACIONES
ROBOS
ROBOS DE
COCHES
ASALTOS
HURTOS
ALLANAMIENTOS
DE MORADA
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignación de las
variables a cada segmento, para el ejemplo de la figura 1.41
Para hacer la representación más visible, los extremos de los segmentos pueden
ser conectados entre si. El programa de ordenador SYSTAT (WILKINSON &
EVANSTON, 1988), presenta los resultados (tras la aplicación de este método),
mediante los polígonos que resultan de la conexión de estos segmentos, pero sin que los
mismos aparezcan.
y
f(t) = 1 + y 2sen(t) + y3 cos(t) + y 4sen(2t) + y5 cos(2t)
2
Cada individuo vendrá representado por una gota, de modo que podremos
encontrar clusters de individuos "parecidos" cuando las gotas que los representan tengan
una forma similar. La forma de las gotas dependen del orden de introducción de las
variables en la función de Fourier.
Caras de Chernoff
¡No se ría!. Estas son las primeras palabras con las que se presenta a los lectores
este método de representación de datos multivariantes en el manual SYGRAPH, que
trata de las representaciones gráficas que el programa estadístico para ordenador
SYSTAT permite realizar. Quizás porque ésta suele ser la primera reacción de los que
desconociendo el método, se encuentran de pronto con caras de rasgos caricaturizados
en una ponencia o en un trabajo de investigación; quizás para contrarrestar la aparente
falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a más de uno a
descartarlo sin haberlo tomado en consideración.
Estos 18 parámetros son los que se hacen variar, reflejando así el comportamiento
de cada una de las variables en todas las entidades o individuos (caras) representados.
1. Anchura de la cara.
2. Nivel de la oreja.
3. Altura de la cara.
4. Excentricidad de la elipse superior cara.
5. Excentricidad de la elipse inferior cara .
6. Longitud de la nariz .
7. Posición centro de la boca.
8. Curvatura de la boca.
9. Longitud de la boca.
10. Altura del centro de los ojos.
11. Separación de los ojos.
12. Inclinación de los ojos.
13. Excentricidad de los ojos .
14. Longitud ojo.
15. Posición de las pupilas.
16. Altura de la ceja.
17. Ángulo de la ceja.
18. Longitud de las cejas.
Figura 1.45: Parámetros de los Rasgos faciales de las Caras de Chernoff, según BRUCKNER (1978).
A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja
Cada variable estudiada se asigna a uno de los parámetros que controlan los
rasgos, de forma que el valor del parámetro facial sea proporcional al valor que toma la
variable en el individuo a representar. Para ello se deja variar el parámetro dentro de un
rango de variabilidad preestablecido, de manera que la estructura global mantenga las
características básicas de una cara. Algunos parámetros faciales varían libremente
(diámetro de la oreja), pero la mayoría quedan supeditados a la exigencia anterior y
dependen de otras características faciales.
La variante de Davis (BRUCKNER, 1978) añade dos variables más (anchura de nariz y
diámetro de orejas). (Ver figura 1.45).
EVERITT, en 1978 introduce pelo y boca bidimensional, quizás con la intención de que
resulten menos caricaturescas.
NEWTON (1978), dibuja sus caras con ojos rómbicos y nariz ganchuda, etc.
Aplicaciones
* Caracterización de presas del Guadiana por sus variables ecológicas (ALONSO, 1982).
*Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a
un material complementario al que se ofrece en este trabajo
91
CANTABRIA
ALAVA
LUGO
LEON
RIOJA
ORENSE PALENCIA
BURGOS
ZAMORA
SEGOV IA
AVILA
MADRID
CACE RE S
TOL EDO
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-León,
representando la variabilidad de cultivos. (Gráfica cedida por VICENTE TAVERA y cols. 1993).
92
Ventajas e inconvenientes.
Ventajas
3.- Con este método resulta sencillo efectuar agrupaciones por similitudes de
rasgos.
4.- Es una Técnica que permite concentrar la información de todas las variables en
una figura muy compacta.
Inconvenientes
4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un
valor muy alto, puede modificar otros (que en principio deberían ser iguales a los
presentados por otra cara no deformada por dicha interdependencia).
93
5.- Existencia de rasgos que destacan más que otros en la discriminación, por lo
que HUFF & BLACK (1978) recomiendan efectuar un análisis de la varianza y
asignar a los rasgos más significativos (boca, ojos, anchura cara, etc.) las variables
con mayor varianza. Una variable puede ser portadora de mayor información, si
se representa por la curvatura de la boca, que por el tamaño de las cejas.
6.- Debe tenerse precaución a la hora de asignar los rangos de los parámetros
faciales, pues si se eligen muy amplios y las variables tienen poca variabilidad no
se obtiene discriminación alguna . En cambio, si no se determinan correctamente
los rangos de variabilidad de las variables, puede suceder que los rasgos se salgan
de la cara.
Curvas de Andrews.
x1
f(t) = + x 2 sen(t) + x3 cos(t) + x 4 sen(2t) + x 5 cos(2t)
2
Los clusters y puntos aberrantes, son revelados por el hecho de que las distancias
entre dos funciones son concebidas proporcionales a la distancia euclídea de los objetos
en el espacio p dimensional original, por la preservación de la media y la desviación.
Interpretación.
94
4000
3000
COMPONENTE DE FOURIER
2000
1000
.
0
-1000
-2000
-180 -90 0 90 180
GRADOS
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de
dieciséis ciudades diferentes de EE.UU.
Como hay variables que están asociadas a elementos cíclicos de la función con
distinta frecuencia y se discrimina mejor en las curvas las bajas frecuencias, es
aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos correspondientes a las
variables más importantes en la discriminación, es decir, las que reflejan más
variabilidad.
BIBLIOGRAFIA CITADA
ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136.
ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21.
BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data.
(P.C.C. Wang, ed.). pp.: 93-121. Academic Press.
CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In
Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.
96
CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal
of the American Statistical Association, 68: 361-368.
CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley &
Sons. New York.
EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York.
EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books.
London.
FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics.
University of Minnessota, 44.
GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component
analysis'. Biometrika, 58: 453-467.
HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole
Publishing Company. California.
HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical
Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York.
MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simpátridas del Genero
Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca.
MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of
multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C
Wang, ed.) pp.: 123-142. Academic Press. New York.
McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36.
NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An
overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland.
NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic
Press. New York.
PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth
and Planetary Science Letters, 22: 245-255.
POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543-
548.
ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the
graphical presentation of data'. Biometrika, 43 (3,4): 241; 247.
SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical
Sciences. John Wiley & Sons. New York.
SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis
(J. Fox & J. Scott Long, eds.). Sage Publications. Newbury.
TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1.
VURPILLOT, E. (1979). 'Percepción del espacio'. En La Percepción (Fraisse & Piaget Eds.). Paidós.
Buenos Aires.
WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy
sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic
Press. New York.
"REPRESENTACIONES GRÁFICAS"
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta
unidad temática, utilizando para ello datos reales tomados de la
evaluación del profesorado universitario durante el curso académico
1991-92. Está planteado de forma que pueda ser utilizado como ejercicio
de prácticas para los alumnos, como recapitulación de las ideas de esta
unidad.
Para ello se preparó un cuestionario con 28 preguntas relacionadas con seis áreas
diferentes de la tarea del Profesor:
Para cada uno de los profesores que imparte la asignatura, los alumnos deben
rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una
valoración cuyo rango oscila entre 1 y 5; la puntuación 1 indica que el profesor no
satisface en modo alguno el supuesto de la pregunta y la puntuación 5 que el profesor
satisface plenamente el supuesto. La evaluación se realiza en horas de clase normal,
pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.
100
A partir de los resultados obtenidos por "Mrs. X", en las asignaturas que impartió
durante el citado curso académico, se construyeron las correspondientes tablas de
distribución de frecuencias. Así, para evitar presentar los datos brutos obtenidos en el
análisis presentamos a continuación las tablas de distribución de frecuencias para cada
uno de los ítems (variables) analizadas y para cada muestra (tablas 1.2, 1.3 y 1.4):
Frecuencia
Valor de la Ampliación Bioestadística Bioestadística Análisis de Datos
variable Bioestadística (Biología) (Medicina)
1 4 17 11 0
2 6 23 14 3
3 2 19 29 5
4 4 18 17 7
5 0 26 30 8
ni 16 103 101 23
Tabla 1.2
Frecuencia
Valor Ampliación Bioestadística Bioestadística Análisis de Datos
Bioestadística (Biología) (Medicina) (Libre dispos.)
1 0 2 1 0
2 0 3 3 0
3 0 3 3 0
4 4 10 11 0
5 12 85 83 23
ni 16 103 101 23
Tabla 1.3
102
Frecuencia
Valor Ampliación Bioestadística Bioestadística Análisis de Datos
Bioestadística (Biología) (Medicina)
1 1 12 2 0
2 0 8 7 0
3 4 25 21 1
4 4 31 35 7
5 7 27 36 15
ni 16 103 101 23
Tabla 1.4
A partir de la información suministrada por las tablas anteriores vemos cuáles han
sido los tamaños de las muestras extraídas de cada una de las 4 poblaciones en estudio
(denotadas con ni (i=1,...,4)).
Dado que de los gráficos obtenemos una información rápida y global de los
resultados, pasaremos en este punto a realizar diversas representaciones gráficas de los
resultados anteriores.
Por ejemplo, podemos realizar, para la pregunta "El profesor está accesible para
los alumnos" el diagrama de barras para la opinión de los alumnos de la asignatura de
Bioestadística sería el que se muestra en la figura 1.49:
103
20
10
0
1 2 3 4 5
PUNTUACION
A simple vista, parece que es para los alumnos de las asignaturas de Análisis de
104
Datos y Ampliación de Bioestadística, para los que menos disponible está Mrs. X. Sin
embargo, los gráficos, por dar una información más general que las tablas, son más
susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe
fijarse atentamente en el gráfico, y comprobará que en el eje de ordenadas se ha
representado la frecuencia (número de alumnos que han dado una determinada
puntuación al profesor en relación al ítem considerado). Esto nos hace observar, con
más detenimiento, y teniendo en cuenta la información de las tablas de frecuencias, que
el número de alumnos de cada muestra no es el mismo, por lo que la representación de
las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos
casos.
20
10
0
1 2 3 4 5
PUNTUACION
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura
podemos observar cómo esa interpretación debe hacerse con cautela, ya que el tamaño
de la muestra en cada caso es distinto, y así, son los alumnos de Ampliación de
Bioestadística los que en términos relativos dan con mayor frecuencia esa puntuación.
(23 de 103 alumnos de Bioestadística de Biología, dan una puntuación de 2, mientras
que en ampliación de Bioestadística son 6 de 16).
En las siguientes tablas (tablas 1.5, 1.6 y 1.7) aparece la descriptiva básica para
cada una de las preguntas analizadas. Se ha anotado, la media, la desviación típica (o
estándar) el coeficiente de variación. También se señala cuál es el valor más frecuente
(moda).
Descriptiva básica
Asignatura n Media Desviación Coeficiente de Moda
estándar variación
Ampliación de
16 2,375 1,147 48,314 2
Bioestadística
Bioestadística
103 3,126 1,439 46,046 5
(Biología)
Bioestadística
101 3,406 1,336 39,211 5
(Medicina)
Análisis de Datos
23 3,87 1,058 27,332 5
Tabla 1.5
Vemos cómo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor
106
Descriptiva básica
Asignatura n Media Desviación Coeficiente de Moda
estándar variación
Ampliación de
16 4,75 0,447 9,415 5
Bioestadística
Bioestadística
103 4,68 0,831 17,757 5
(Biología)
Bioestadística
101 4,703 0,756 16,066 5
(Medicina)
Análisis de Datos
23 5 0 0 5
Tabla 1.6
Descriptiva básica
Asignatura n Media Desviación Coeficiente de Moda
estándar variación
Ampliación de
16 4 1,155 28,868 5
Bioestadística
Bioestadística
103 3,515 1,282 36,486 4
(Biología)
Bioestadística
101 3,95 1,014 25,659 5
(Medicina)
Análisis de Datos
23 4,609 0,583 12,651 5
Tabla 1.7
107
Figura 1.52
La figura 1.53 representa los "Box-Plot" para la pregunta "¿Está accesible para
los alumnos?" . Aquí se ha representado un Box-Plot para cada asignatura.
108
5,5
4,5
4
3,5
Units 3
2,5
2
1,5
1
,5
Bioestadística Bioest Medicina Análisis datos Ampliación Bioest.
Figura 1.53: Box plot para los resultados a la pregunta ¿Está accesible a los alumnos?
NOTA: Tal como señalamos, se trata de datos reales, y el Profesor Mrs. X lleva
realmente el mismo sistema de atención para todos los alumnos. Refleja por tanto la
"percepción del alumno", ya que no existían diferencias reales.