Está en la página 1de 0

Captulo 3:

SISTEMAS DE
REPRESENTACIN
GRFICA (UNIVARIADOS).
1991 79
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

80 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

3.1.- INTRODUCCIN Y CONCEPTOS
PREVIOS.
Consecuentemente con las caractersticas e ideas
propugnadas por este enfoque, del Anlisis Exploratorio de
Datos, las representaciones grficas constituyen su
caracterstica ms distintiva, por su singularidad y por la
importancia que este enfoque les otorga, ya que estn a la base
de los principios que han levantado a este enfoque ("mirar los
datos....", explorar,...).
La importancia concedida por el enfoque del A.E.D. a las
tcnicas grficas, en respuesta a la limitacin mostrada por el
enfoque "clsico" para resumir ptimamente conjuntos de datos
cuando stos no se ajustan a un modelo terico, ha provocado el
desarrollo de nuevas tcnicas grficas, por los defensores del
enfoque del A.E.D., con el objetivo de encontrar el mejor
sistema de "resumir" un conjunto de datos. Y aunque falta una
perspectiva histrica que lo confirme, hoy por hoy posiblemente
las tcnicas desarrolladas por el A.E.D. constituyan las
posiciones ms cercanas a dicho objetivo.
En este captulo sern presentadas y descritas estas
tcnicas, especialmente las denominadas con los imaginativos
nombres de "Tallo-y-Hojas" (Stem-and-Leaf ) y "Caja-y-Bigotes-
de-gato" (Box-and-Whiskers ), junto con los conceptos bsicos
con ellas relacionados.
No obstante, antes de pasar a su descripcin, conviene
aclarar otra equivalencia utilizada en el enfoque A.E.D.
respecto a la estadstica "clsica". Se trata del concepto de
conjunto de datos (batch) utilizado en sustitucin de muestra,
que es el trmino utilizado por la estadstica "clsica". Esta
diferenciacin, al igual que ocurre con otras equivalencias, no
es gratuita, pues aunque ambas se refieren a lo mismo, a los
datos obtenidos, la diferencia terminolgica justifica
diferencias prcticas e incluso tericas, como es, en este caso,
que el concepto de "muestra" tradicionalmente incluye las
asunciones o supuestos de independencia y de idntica
1991 81
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
distribucin. Pero estos son supuestos que en el A.E.D. no
tienen por qu asumirse. Para el A.E.D., los datos recogidos son
slo un conjunto de valores o cantidades.
Aunque menos relevante, otra "diferenciacin" que puede
ilustrar an ms lo dicho, es la relativa aversin que en el
enfoque del A.E.D. se tiene a la utilizacin del trmino
"normal" (ecuaciones normales, curva normal,...) por el aspecto
calificativo que tiene. As, es frecuente la utilizacin del
trmino "Gaussiana" para referirse a la distribucin Normal.
Daremos paso al anlisis de las tcnicas grficas diciendo
que, para el enfoque del A.E.D., la estructura ms comn de
datos es un conjunto de nmeros.


3.2.- GRFICOS DE "TALLO-Y-
HOJAS".
3.2.1.- INTRODUCCIN.
El grfico de "Tallo-y-Hojas", ideado por Tukey (1972,
1977) y con un precedente en Dudley (1946), es una especie de
hbrido entre Histograma y Tabla de Distribucin de Frecuencias
en el que las lneas o barras se construyen con los propios
datos. Frente al Histograma presenta la ventaja de que los datos
originales no se pierden.
Consiste en una organizacin de los nmeros grficamente
que permite visualizar y tener el conjunto de datos completo a
la vez que observar las caractersticas ms importantes de la
distribucin, como:
- La forma y el grado aproximado de simetra de la
distribucin.
- La dispersin que presentan los datos del conjunto.
- La presencia y cantidad de valores extremos o atpicos.
82 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
- La existencia de concentraciones de datos en determinados
puntos de la distribucin.
- La existencia y situacin de "agujeros" en el conjunto de
datos o en la distribucin.
- Etc.

Por otra parte, presenta adems, como veremos, otras
ventajas sobre los sistemas de representacin "clsicos", entre
ellas destacaremos dos:
I) La presencia en la representacin de los propios
valores del conjunto de datos permite operar sobre l y
calcular ndices descriptivos a partir de la grfica,
dado que en ella se encuentran todos los valores o
puntuaciones tal y como fueron obtenidos.
II) No implica ninguna teora elaborada. Es un mtodo muy
flexible, que permite multitud de variaciones en su
elaboracin que posibilitan que el investigador adapte el
resultado a sus gustos personales, a sus intereses de
informacin, en cada momento, y a las caractersticas de
los datos.
Su comprensin se har ms fcil con algunos ejemplos.


3.2.2.- DESCRIPCIN.
La elaboracin de un grfico o representacin de "Tallo-y-
Hojas" bsicamente consiste en separar los dgitos o posiciones
que ocupa cada uno de los valores del conjunto de datos en dos
partes, de equivalentes posiciones. Trazando una raya vertical,
la parte izquierda de cada uno de los valores (de idnticas
posiciones o con el mismo nmero de dgitos) se colocan a la
izquierda de dicha raya, ordenados de menor a mayor empezando
por arriba, constituyendo esta parte los que sern llamados
"Tallos" y que equivaldran a las Clases en una tabla de
distribucin de frecuencias clsica, por lo que sern nicos (si
1991 83
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
al dividir varios valores resultan repetidas estas partes, slo
se tomar una -aunque habr algunas excepciones como veremos-).
La parte restante de cada uno de los valores, se colocar, de
forma ordenada (de menor a mayor empezando por la izquierda), a
la derecha de la raya separadas por espacios, tantas como datos
haya (incluyendo las repeticiones), y frente al "tallo" al que
corresponden, constituyendo las que sern llamadas "hojas".
Para ilustrar sus caractersticas y la forma de elaboracin
comenzaremos con los datos que sirvieron, constantemente, a los
ejemplos de Captulo 2, a los que ad hoc hemos aadido algunos
ms, como primer acercamiento. Por tanto, sea el siguiente
conjunto de datos, ya ordenados:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11, 15, 33, 37, 40
Un grfico (uno, pues veremos que existen varias
posibilidades a la hora de construir la representacin) de
"Tallo-y Hojas" aplicado al conjunto de datos anterior podra
ser:

0
1
2
3
4
3 4 4 5 5 6 7 8 9
1 5

3 7
0

Aunque el conjunto de datos, por su escaso tamao, no
justificara la representacin grfica, el ejemplo permite poder
seguir la explicacin anterior sobre el proceso de construccin,
aprehender las caractersticas bsicas de este sistema de
representacin, y detectar, visualmente, algunas caractersticas
de la distribucin, como, por ejemplo, la existencia de un
agujero en el "tallo" 2. Tambin nos servir para ilustrar
algunos conceptos.
Como se ver, la grfica tiene cinco "tallos" o filas (0,
1, 2, 3, 4) que quedan ordenados a la izquierda de la raya
vertical, cada uno de los cuales tiene una determinada cantidad
de "hojas", que corresponderan a las frecuencias absolutas de
dicha Clase en un grfico clsico, slo que aqu son los mismos
datos los que forman las frecuencias. El primer "tallo", el 0,
agrupa nueve valores, representados por sus "hojas" (3, 4, 4, 5,
5, 6, 7, 8, 9), que son (al aadirles el "tallo": 03, 04, 04,
05, 06, 07, 08 y 09 (a los que podramos quitar el 0). El
84 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
segundo "tallo", el 1, agrupa dos valores, representados por su
hojas (1 y 5), que son (al aadirles el "tallo" correspondiente)
el 11 y el 15. El tercer "tallo", el 2, no tiene ninguna hoja,
ello significa que en el conjunto de datos no existen valores
comprendidos entre 20 y 29 (inclusive), que es la Amplitud de
Intervalo que se est utilizando (como en una tabla de
frecuencias clsica). Etc...
Para que cualquier otra persona pueda comprender un grfico
de "Tallo-y-Hojas" y operar a partir de l, sin necesidad de
recurrir a los datos originales, ser preciso especificar cmo
han sido tratados los valores, es decir, cmo son los valores
originales (con cuntos dgitos se representa u ocupa cada valor
y si estos dgitos, y cuntos de ellos, son decimales o
enteros). Ello se hace aadiendo una especificacin de la unidad
en la parte de arriba de la grfica, que se expresa en
potencias de 10 (..., 10
-1
, 10
0
, 10
1
, 10
2
,...), y significar
que la yuxtaposicin entre "tallo" y "hoja" (unidos)
multiplicada por dicha unidad nos dar, y por ello indicar
como es, el dato original.
As, pues, para extraer los datos de un diagrama de
"Tallo-y-Hojas", emplearemos la siguiente frmula:
Dato original = (tallo hoja)
*
unidad expresada
Por ejemplo, dada la siguiente combinacin (parte de un
grfico) de "Tallo-y-Hoja", en la que se representa un "tallo"
de "1" y una "hoja" de "23":
1 | 23
si la unidad es:


10
-2
= 0'01, significa que el valor original es: 123
*
0'01
= 1'23.
10
-1
= 0'1, significa que el valor original es: 123
*
0'1 =
12'3.
10
0
= 1, significa que el valor original es: 123
*
1 = 123.
10
1
= 10, significa que el valor original es: 123
*
10 =
1230.
1991 85
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
10
2
= 100, significa que el valor original es: 123
*
100 =
12300.



En el ejemplo visto, la unidad sera 1, que indicara, por
ejemplo, que la representacin 03 es "3". Debiendo quedar la
grfica con la siguiente expresin:
(Unid. = 1)
0
1
2
3
4
3 4 4 5 5 6 7 8 9
1 5

3 7
0

Por contra, para obtener la unidad , que deberemos indicar
al elaborar un grfico de "Tallo-y-Hojas", dividiremos uno
cualquiera de los datos por el valor resultante de no tener en
cuenta los decimales:
1'23/123 = 0'01
12'3/123 = 0'1
123/123 = 1
o bien por la representacin que vayamos a hacer de dicho
valor en la grfica (por ejemplo, si el valor es 1230 y lo
queremos representar como 123: 1230/123 = 10, etc.).
En el proceso de elaboracin de una representacin en
"Tallo-y-Hojas", una vez determinada la expresin de la unidad ,
que vendr determinada por los datos, el paso siguiente ser
tomar la decisin acerca de la amplitud de intervalo que vamos a
utilizar para representar los valores en la grfica. Para ello,
veremos primero, en el siguiente Apartado, las distintas
posibilidades que se nos ofrecen en este procedimiento de
representacin de la variable, relativas a la amplitud de los
intervalos, que confieren a esta tcnica la caracterstica de
flexibilidad a la que se hizo referencia en un principio. Para
despus, en otro Apartado, a continuacin, tratar los criterios
objetivos propuestos para determinar la amplitud de intervalo
ms adecuada para una ptima representacin de la variable,
aunque el ltimo criterio estar siempre en la "cabeza" del
elaborador, que es quien mejor sabr lo que quiere mostrar y a
dnde quiere llegar (a cuyas intenciones y decisiones
constituirn valiosa ayuda los criterios objetivos).
86 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).


3.2.3.- VARIANDO LA CONCENTRACIN:
ANCHURA DEL TALLO Y DIVISIN EN
RAMAS.
Veremos a continuacin cmo, aprovechando las mltiples
posibilidades de representacin que para un mismo conjunto de
datos permite este sistema, podemos variar la concentracin o el
detalle de la distribucin de datos en funcin, por ejemplo, de
los objetivos perseguidos, hasta encontrar el resultado ms
ptimo. Este es un procedimiento equivalente a la determinacin
de la Amplitud de los Intervalos en los sistemas de
representacin clsicos.
Para ello, dispondremos de dos posibilidades:
1) Variar la "anchura" de los "Tallos", o lo que ser ms
prctico, variar la "anchura" de las "Hojas"; que significa
determinar por dnde realizamos el "corte" en los datos, es
decir, cuntos dgitos dedicamos al "tallo" y cuntos a la
"hoja".
2) Aplicar subdivisiones a los "tallos", en lo que
llamaremos "Ramas", ampliando con ello el nmero de filas, es
decir, reduciendo con cada "rama" la amplitud de intervalo.

Combinando ambas posibilidades podemos seguir la siguiente
estrategia:
I) Si el valor ms alto, existente en el conjunto de
datos, tiene ms de dos dgitos (contando
decimales): procederemos a variar la anchura de
"tallo" actuando, nos ser ms fcil, sobre la
anchura de "hoja".
a) As, si queremos concentrar ms la
distribucin: aumentaremos la anchura de la
"hoja", dando el siguiente dgito, de derecha a
izquierda, a la "hoja", y quitndoselo del
1991 87
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
"tallo" (si el dato particular no tiene ms
dgitos, rellenaremos con ceros, y el "tallo"
ser tambin cero). Con ello se producir una
disminucin de las filas o lneas, en este caso
"tallos", apareciendo la distribucin ms
concentrada:
(Unidad = 1)
100 1 2 7 (Unidad = 1)
101 0 1 6 pasar a: 10 01 02 07 10 11 16

La amplitud de los intervalos (suponiendo, a
efectos de clculo, que la variable es
continua) vendr dada por el resultado de
multiplicar la unidad (expresada) por 10
elevado al nmero de dgitos que tengan las
"hojas" (en el ejemplo: 1
*
10
1
= 10 antes de la
transformacin, porque la unidad =1 y las
"hojas" estn compuestas por un dgito, y
1
*
10
2
=100 despus de la transformacin, porque
las "hojas" tienen ahora 2 dgitos).
1
b) Si, por el contrario, queremos extender ms la
distribucin, procederemos en sentido inverso:
disminuiremos la anchura de la "hoja" pasando
el primer dgito, de la izquierda, de sta al
"tallo", con lo que se provocar una
disminucin de la anchura de los intervalos.
Con ello, la distribucin se extender ms,
aumentando el nmero de filas o, en este caso,
"tallos", permitiendo un mayor detalle:
(Unidad = 1) (Unidad = 1)
10 01 02 07 10 11 16 pasar a: 100 1 2 7
101 0 1 6

Esta posibilidad tocar fin cuando slo nos
quede un dgito para formar la "hojas", si
queremos extender an ms la distribucin,
pasaremos a la segunda de las posibilidades
apuntadas.

1
Obsrvese que en el primer caso, el "tallo 100" recoge todos los valores
comprendidos entre 1000 y 1009 inclusives, por lo que la amplitud de intervalo
es, suponiendo una variable continua para facilitar la comprensin,
AI=1009'5-999'5=10. En el segundo caso, el "tallo 10" recoge todos los valores
comprendidos entre 1000 y 1099 inclusives, por lo que, suponiendo variable
continua, la AI=1099'5-999'5=100.
88 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
II) Si slo hay, o cuando slo nos quede, un dgito
para formar las "hojas", y queramos extender ms la
distribucin, procederemos a subdividir los "tallos"
en "ramas". Dos tipos de divisiones son frecuentes:
a) Dos "ramas" por "tallo": consistente en
dividir en dos cada "tallo", con lo que
tendremos dos filas o, en este caso, "ramas"
compartiendo el mismo "tallo". La primera
aglutinar las "hojas" cuyo primer dgito
(desde la izquierda) sea 0, 1, 2, 3 4, y se
indica con un asterisco situado a continuacin
del "tallo" (a la izquierda de la raya). La
segunda aglutinar las "hojas" cuyo primer
dgito sea 5, 6, 7, 8 9, y se indica con un
punto colocado en la misma posicin:
(Unidad = 1) (Unidad = 1)
100 1 2 7 100 * 1 2
101 0 1 6 pasar a: 100 7
101 * 0 1
101 6

La amplitud de los intervalos (suponiendo, a
efectos de clculo, que la variable es
continua) vendr dada por el resultado de
multiplicar la unidad (expresada), partida por
el nmero de "ramas" (subdivisiones del
"tallo") o filas por tallo, por 10 elevado al
nmero de dgitos que tengan las "hojas" (en el
ejemplo:
1
1
*
10
1
=10 antes de la transformacin,
porque la unidad =1, cada "tallo" tiene slo
una fila y cada "hoja" est compuesta por 1
dgito, y
1
2
*
10
1
=5 despus de la
transformacin, porque cada "tallo" tiene ahora
dos "ramas" y cada "hoja" sigue estando
compuesta por 1 dgito).
2


2
Obsrvese que en el segundo caso, despus de la transformacin, el "tallo 100*"
recoge los valores comprendidos entre 1000 y 1004 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1004'5-
999'5=5.
1991 89
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
b) Cinco "ramas" por "tallo": consistente en
subdividir cada "tallo" en 5 ramas, cada una de
las cuales aglutinar dos posibles valores para
el primer dgito de cada "hoja", que con el
smbolo de referencia (los dos vistos ms tres
letras, iniciales de "dos", "cuatro" y "seis",
en ingls) se indican en la siguiente tabla:
*............. 0 1
t............. 2 3
f............. 4 5
s............. 6 7
............. 8 9

(Unidad = 1) (Unidad = 1)
100 1 2 7 8 100 * 1
101 0 1 2 4 6 9 pasar a: 100 t 2
100 f
100 s 7
100 8
101 * 0 1
101 t 2
101 f 4
101 s 6
101 9

La amplitud de los intervalos (suponiendo, a
efectos de clculo, que la variable es
continua) vendr dada por el resultado de
multiplicar la unidad (expresada), partida por
el nmero de "ramas" o filas por tallo, por 10
elevado al nmero de dgitos que tengan las
"hojas" (en el ejemplo:
1
1
*
10
1
=10 antes de la
transformacin, porque la unidad =1, cada
"tallo" tiene slo una fila y cada "hoja" est
compuesta por 1 dgito, y
1
5
*
10
1
=2 despus de
la transformacin, porque cada "tallo" tiene
ahora 5 "ramas" y cada "hoja" sigue estando
compuesta por 1 dgito).
3


3
Obsrvese que en el segundo caso, despus de la transformacin, el "tallo 100*"
recoge los valores comprendidos entre 1000 y 1001 inclusives, por lo que,
suponiendo una variable continua para facilitar la comprensin, la AI=1001'5-
999'5=2.
90 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
El procedimiento descrito para conocer ms cmodamente la
amplitud de intervalo empleada, en una representacin de
"Tallo-y-Hojas", quedara expresado de forma general con la
siguiente frmula:
AI
utilizada
=
unidad expresada
n de filas por tallo

*
10
n digitos en hojas


Finalmente, conviene aclarar que las posibilidades de
variacin hasta ahora expuestas, y como han sido expuestas, slo
afectan al efecto visual de la representacin. No suponen
ninguna alteracin de los datos, que siguen siendo los
originales.
No obstante, a estos tipos de variaciones descritas, cabe
aadir un tercer tipo, que s supone un pequea alteracin sobre
los datos originales, aunque de forma general. Se trata de la
eliminacin de los decimales, que puede ser una estrategia,
previa, interesante en muchos casos, pues en algunos casos
ayudar al objetivo principal de la representacin, el facilitar
la inspeccin visual de la distribucin.

Para la eliminacin de los decimales se pueden seguir dos
criterios:
a) Redondeo, normalmente por exceso, por el que cada
uno de los valores se redondea al entero ms
cercano, de la siguiente forma (por ejemplo):
24'0, 24'1, 24'2, 24'3 y 24'4 pasarn a
ser 24, y
24'5, 24'6, 24'7, 24'8, y 24'9 pasarn a
ser 25.
b) Truncado, por el que se elimina simplemente la
parte decimal de cada valor, de la siguiente forma:
24'0, 24'1, 24'2, 24'3, 24'4, 24'5, 24'6, 24'7,
24'8 y 24'9 pasarn a 24, y
25'0, 25'1, 25'2, 25'3, 25'4, 25'5, 25'6, 25'7,
25'8 y 25'9 pasarn a 25.
Normalmente se suele preferir el truncado, recomendndose,
pues es ms fcil de aplicar y produce el mismo resultado en la
representacin.
1991 91
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Llegados a este punto, conviene tambin advertir que todas
las variaciones vistas, incluyendo las de truncado y redondeo,
se han descrito y utilizado bajo el supuesto de que cualquier
variacin realizada lo es para todos los "tallos", que es como
van a ser utilizadas en este Captulo, aunque su utilidad excede
de los lmites impuestos aqu (por ejemplo como estrategias de
transformacin de datos para conseguir simetra o linealidad),
dado que su exposicin y aplicacin se limita, por ahora,
exclusivamente a objetivos de exploracin, en este caso, a su
aplicacin a la representacin del conjunto de datos.

A continuacin ilustraremos lo expuesto, aplicando las
posibilidades de variacin descritas sobre un conjunto de datos
ejemplo, suficientemente amplio como para justificar su
representacin, y observando el resultado conseguido sobre la
representacin "Tallo-y-Hojas".
Sea el siguiente supuesto conjunto de datos, que para
abreviar presentamos agrupados en una tabla de distribucin de
frecuencias clsica que, a efectos didcticos, tomamos con un
decimal y, para abreviar, suponemos todas las clases con
frecuencia de 1:

Clases Frecuencias absolutas
92 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
9'8
9'9
10'0
10'1
10'2
10'3
10'4
10'5
10'6
10'7
10'8
10'9
11'0
11'1
11'2
11'3
11'4
11'5
11'6
11'7
11'8
11'9
12'0
12'1
12'2
12'3
12'4
12'5
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

Un primer desarrollo del diagrama de "Tallo-y-Hojas",
podra ser el siguiente:
(Unidad = 0'1)
0
1
98 99
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Evidentemente, en ningn "tallo" figuran "hojas" repetidas
porque convinimos en asignar frecuencias de 1 a todas las
Clases, aqu "tallos"/"ramas", para abreviar. Aunque esta
situacin no ser la ms frecuente, y que desde luego,
justificara bien poco cualquier sistema de tabulacin y/o
representacin aplicado con dicho conjunto de datos.
En este caso, se han asignado dos dgitos a las "hojas"
(uno al "tallo"), la amplitud de los intervalos (bajo la
perspectiva clsica) es de 10, y la referencia unidad= indica
que los valores tienen un decimal, lgicamente el ltimo dgito
(de izquierda a derecha) de las "hojas". Con ello, a partir de
esta representacin "Tallo-y Hojas" podemos extraer los valores
sin ningn problema.
No obstante, un nmero tan bajo de filas, en este caso
"tallos", puede ser poco ptimo para permitir una rpida
inspeccin de la distribucin. Como respuesta, podemos ensayar
1991 93
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
otro criterio de "anchura" mayor para la "hojas", volviendo a
confeccionar el grfico:

(Unidad = 0'1)
9
10
11
12
8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5
En este caso, se ha asignado un dgito a las "hojas" (dos
al "tallo"), la amplitud de los intervalos (bajo la perspectiva
clsica) es de 1, y la referencia unidad= indica que los
valores tienen un decimal, y como la "hojas" slo estn
compuestas de un dgito, ste es el decimal. Con ello, a partir
de esta representacin "Tallo-y Hojas" tambin podemos extraer
los valores sin problema, pero hemos ganado algo en detalle.
Si an quisiramos mostrar la distribucin de forma ms
extendida, o menos concentrada, dado que slo nos queda un
dgito para las "hojas", pasaremos a efectuar la subdivisin de
"tallo", primero por el primer criterio, dos "ramas" por
"tallo":
(Unidad = 0'1)
9
9
10
10
11
11
12
12
*

*

*

*


8 9
0 1 2 3 4
5 6 7 8 9
0 1 2 3 4
5 6 7 8 9
0 1 2 3 4
5

En este caso, se ha seguido asignando un dgito a las
"hojas" (dos al "tallo"), pero se ha dividido en dos filas cada
"tallo", que llamamos "ramas". La primera "rama" de cada "tallo"
contiene las "hojas" 0 a 4 inclusive, y la segunda de cada
"tallo", las "hojas" 5 a 9 inclusive. La amplitud de los
intervalos (bajo la perspectiva clsica) es ahora de 0'5, y la
referencia unidad= sigue indicando que los valores tienen un
decimal (si unidad fuera igual a 0'01 indicara que hay dos
decimales, luego como en este caso slo hay un dgito en las
"hojas", que ste sera el segundo decimal y que el otro decimal
estara en el "tallo", el siguiente dgito del "tallo" de
derecha a izquierda). Con ello, a partir de esta representacin
"Tallo-y Hojas" tambin podemos extraer los valores sin
problema, pero hemos ganado algo ms en detalle.
94 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
Si an quisiramos extender ms la representacin de la
distribucin, aplicaremos el segundo criterio de subdivisin de
"tallo", cinco "ramas" por tallo:
(Unidad = 0'1)
9



9
10



10
11



11
12



12
*
t
f
s

*
t
f
s

*
t
f
s

*
t
f
s





8 9
0 1
2 3
4 5
6 7
8 9
0 1
2 3
4 5
6 7
8 9
0 1
2 3
4 5

En este caso, se ha seguido asignando un dgito a las
"hojas" (dos al "tallo"), pero se ha dividido en cinco filas o
"ramas" cada "tallo". Cada una de las cuales recoge un par de
posibles valores de "hojas", segn el criterio que se expuso
anteriormente. La primera "rama" de cada "tallo" contendr las
"hojas" 0 y 1 inclusive, la segunda las "hojas" 2 y 3 inclusive,
....., y la quinta las "hojas" 8 y 9 inclusive. Por lo que la
amplitud de los intervalos (bajo la perspectiva clsica) es
ahora de 0'2, y la referencia unidad= sigue indicando que los
valores tienen un decimal. Con ello, a partir de esta
representacin "Tallo-y Hojas" seguimos pudiendo extraer los
valores sin problema, pero hemos ganado mucho ms en detalle.

Finalmente, si decidiramos eliminar los decimales,
aplicando la estrategia de truncamiento de los valores, que es
la ms frecuentemente aconsejada, la representacin "Tallo-y-
Hojas" podra quedar as, en una de sus formas posibles:

(Unidad = 1)
1991 95
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
0



0
1



1
*
t
f
s

*
t
f
s





9 9
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2

La referencia unidad=1 indicar que los valores son
enteros. Por lo que las "hojas" sern las unidades respectivas
de los valores truncados (el "tallo" lo constituirn las
decenas).


3.2.4.- NMERO DE "TALLOS"/"RAMAS" Y
AMPLITUD DE INTERVALO OPTIMOS.
Ya familiarizados con el procedimiento de construccin de
este sistema de representacin y sus variantes, nos centraremos
ahora en intentar responder a una pregunta que tal vez el lector
que se introduce por primera vez en este acercamiento a travs
del presente texto se haya planteado: Conocidas las
posibilidades y sabidos los procedimientos para aumentar o
disminuir, a voluntad, el nmero de filas, "tallos" o "ramas",
ante un caso real cuantas filas, "tallos"/"hojas", conviene
hacer?, es decisin arbitraria o existe algn criterio o
consejo al respecto?. S, y es ms, disponer de un criterio,
aunque sea aproximado, va a ser necesario para determinados
propsitos, como por ejemplo cuando tengamos que comparar
diferentes conjuntos de datos.
Una breve reflexin nos llevar a concluir que tal o tales
criterios, si existen, debern estar determinados por el tamao
(N) del conjunto de datos a estudiar. Y que el nmero de filas,
"tallos"/"ramas", determinar la amplitud de los intervalos. La
relacin entre nmero de filas ("tallos"/"ramas"), la unidad y
la amplitud de intervalo ya ha sido tratada en el apartado
anterior, por lo que el lector se encontrar ya familiarizado
con estos conceptos.
96 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

RESPECTO AL NMERO DE FILAS, que segn el caso sern "tallos" o
"ramas", Emerson y Hoaglin, considerados entre los iniciadores
de este enfoque, proponen (EMERSON Y HOAGLIN, 1983a, p. 11) utilizar
el criterio propuesto por Dixon y Kronmal (1965) para determinar
el nmero mximo de clases en la tabulacin clsica:

N mximo de filas = F
max
= [10
*
log
10
N]

Siendo N el nmero de datos, frecuencias
o casos, y los corchetes se
utilizan para indicar que el
resultado debe ser truncado (al
valor entero).

Estos autores tambin consideran el criterio propuesto por
Velleman (1976) cuando el tamao del conjunto de datos sea
pequeo (menor o igual de 50), siguiente:

N mximo de filas = F
max
= [2 N]

Siendo, igualmente, N el nmero de
datos, frecuencias o casos, y los
corchetes la indicacin que el
resultado debe ser truncado.

Dado que este segundo criterio presenta la limitacin de
que si el tamao del conjunto de datos (N) es grande la frmula
puede dar valores excesivamente altos, y amparndonos en los
comentarios realizados por Batista y Valls (1985) acerca de su
experiencia personal en el empleo de estos criterios, creemos
interesante aportar, como tercer criterio, el propuesto por
estos autores, que supone una doble estrategia basada en la
conjuncin de los dos anteriores:
a) Para un nmero de datos menor o igual a mil
(N<=1000), proponen utilizar la frmula, ya vista,
de Velleman:
1991 97
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
F
max
= [2 N].
b) Para un nmero de datos superior a mil (N>1000),
proponen utilizar la siguiente frmula, variante de
la de Dixon y Kronmal:
F
max
= [21
*
log
10
N].

Otros criterios han sido propuestos (DOANE, 1976;...), pero
sus complicadas formulaciones para llegar a resultados
prcticamente equivalentes, no justifican su tratamiento en este
texto, remitiendo al lector a consultar el mencionado texto de
Emerson y Hoaglin (1983a, pp. 22-29) donde se realiza una
descripcin y anlisis comparativos.

RESPECTO A LA AMPLITUD DE LOS INTERVALOS, cabe comenzar diciendo
que sea cual sea el criterio seguido para decidir el nmero de
filas, ste determinar, en cierta medida, la amplitud que
debern tener los intervalos.
Emerson y Hoaglin (1983a, pp. 12-13) proponen un
procedimiento para obtener la amplitud mnima de los intervalos,
que se describe a continuacin:
1) se aplica la siguiente frmula: Intervalo mnimo =
I
min
=
AT
e
F
max
; en la que AT
e
es la amplitud total excluyente (valor
ms alto, o E
s
, menos valor ms bajo, o E
i
).
2) el resultado se redondea, por exceso, a la prxima
potencia de 10 (resultado que para indicar que se trata del
redondeado a la prxima potencia de 10 llamaremos: I
r10

).
As, resultados entre 0 y 1 inclusive sern redondeados a
1, que es la siguiente potencia de 10 (10
0
), resultados mayores
de 1 hasta 10 sern redondeados a 10, que es la siguiente
potencia de 10 (10
1
), resultados mayores de 10 hasta 100 sern
redondeados a 100, que es la siguiente potencia de 10 (10
2
),
....
El problema viene cuando estos autores (op. cit. )
aconsejan realizar divisiones intermedias entre estos valores
cuando la representacin resultante de su aplicacin no
98 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
satisfaga o est demasiado concentrada, lo que supone una vuelta
al criterio de buen cubero....
Estas subdivisiones deben corresponder con las expresadas
en el apartado anterior, dos o cinco "ramas" por "tallo", que
correspondern respectivamente a intervalos con amplitud la
mitad o la quinta parte de la unidad utilizada. Expresado
matemticamente quedara as:
AI =
unidad
1

*
10
n de dgitos hojas
=
I
r10

1
= unidad
*
10
n
de dgitos hojas
.
AI =
unidad
2

*
10
n de dgitos hojas
=
I
r10

2
= 5
*
unidad
*

10
n de dgitos hojas -1
.
AI =
unidad
5

*
10
n de dgitos hojas
=
I
r10

5
= 2
*
unidad
*

10
n de dgitos hojas -1
.
Cuyo significado fue expuesto en el Apartado anterior.

Otra posible solucin, puede ser calcular el procedimiento
descrito, tomar el valor resultante de dividir la Amplitud Total
excluyente por el nmero mximo de filas hallado (sin redondear
a potencias de 10) e intentar ajustar la amplitud de intervalo
obtenida por el procedimiento a la ms cercana de las divisiones
tipo consideradas, segn la relacin anterior. Esto como primer
intento o criterio provisional. Es decir, construir la
representacin "Tallo-y-Hojas" y juzgar el resultado, para ver
si es ptimo para los propsitos perseguidos con ella. Si lo es,
damos el criterio como definitivo, y si no lo es, procedemos a
aplicar las variaciones disponibles, tal y como vimos en el
apartado anterior, hasta conseguir el efecto deseado con la
representacin. Este criterio nos parece el ms prctico.

Como en el caso del nmero de filas mximo, han sido
propuestos otros criterios para determinar la amplitud mnima de
los intervalos (por ejemplo, SCOTT, 1979; FREEDMAN Y DIACONIS, 1981a,
1981b; estos ltimos con varios), pero sus complicadas
formulaciones, y en muchos de ellos por los supuestos en los que
se basan, no ofrecen mejores resultados, por lo que a excepcin
de uno de los ofrecidos por Freedman y Diaconis (1981b), debido
1991 99
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
a su sencillez de aplicacin, no sern tratados en este texto,
remitiendo al lector a consultar el texto de Emerson y Hoaglin
(1983a, pp. 22-29) donde se realiza una descripcin y se exponen
anlisis comparativos realizados.
El referido criterio de Freedman y Diaconis (1981b), uno de
los varios ofrecidos por estos autores, queda expresado en la
siguiente frmula:
I
min
=
2(AIC)
N
1/3
;
siendo: AIC la Amplitud Inter-Cuartil, o su
equivalente aqu la Amplitud Entre-Cuartos
(AEC), y N el nmero de datos, frecuencias
o casos;
de cuya eficacia prctica no podemos an dar cuenta.

Veremos a continuacin, en el siguiente apartado, un
ejemplo prctico del proceso de construccin de una
representacin de "Tallo-y-Hojas".


3.2.5.- PROCESO DE CONSTRUCCIN DE
UN DIAGRAMA "TALLO-Y-HOJAS".
Sea el siguiente conjunto de datos, que representan los
Tiempos de Reaccin medios de 50 sujetos:
0'12 0'09 1'34 2'37 0'81 0'10 0'67 0'23 1'05 1'52
2'07 0'96 1'85 1'05 1'02 1'16 1'27 0'56 1'06 0'56
1'09 1'21 0'90 1'12 1'05 2'01 1'06 1'87 1'07 0'89
0'75 1'01 1'66 1'24 1'04 1'98 1'06 0'99 1'29 1'03
0'91 1'04 1'08 1'05 1'19 0'13 1'10 0'31 1'37 0'42

Que una vez ordenados los valores, resulta:
0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89), 0'90, 0'91, 0'96, 0'99, 1'01, 1'02,
1'03, 1'04, 1'04, 1'05, 1'05, (1'05, 1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21, (1'24), 1'27, 1'29,
1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37.
100 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
(Los parntesis indican la Mediana y los Cuartos).

Para representar estos valores en un grfico de "Tallo-y-
Hojas", seguiremos los siguientes pasos.

1) Establecer la unidad a expresar: como los datos vienen
medidos en una precisin de 2 decimales (en Tiempo de Reaccin
equivaldran a centsimas de segundo):
Unidad = 10
-2
= 0'01

2) Calcular el nmero mximo de filas ("tallos" y/o
"ramas"):
- segn F
max
= [10 log
10
N] = [10 log
10
50] = [16'99] =
16
- y segn F
max
= [2 N] = [2 50] = [14'14] = 14

3) Calcular la amplitud mnima de intervalo:
- segn I
min
=
AT
e
F
max
=
2'37 - 0'09
16
=
2'28
16

_
~
0'14

2'37
14

_
~
0'16
- y segn I
min
=
2(AEC)
N
1/3
=
2(1'24 - 0'89)
50
1/3
=
0'7
3'68

_
~

0'19

4) Redondear el valor obtenido para la amplitud mnima de
intervalo al valor ms cercano por arriba a 1, 2 5
multiplicado por la potencia de 10 ms prxima:
(Por ejemplo,
si I
min
da 1'1 redondearemos a 2
*
10
0
= 2,
si da 0'3 redondearemos a 5
*
10
-1
= 0'5,
si da 0'6 redondearemos a 1
*
10
0
= 1,....)
1991 101
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
La siguiente tabla, que hemos elaborado, ayudar a
facilitar este clculo para la determinacin de la
amplitud de intervalo:

Valor de
I
min

Amplitud
Intervalo
Expresado en
potencias de 10: I
r10

N de filas/"ramas"
por tallo
... ... ... ...
]0'05,0'1] 0'1
1
*
10
-1

1
]0'1,0'2] 0'2
2
*
10
-1

5
]0'2,0'5] 0'5
5
*
10
-1

2
]0'5,1] 1
1
*
10
0

1
]1,2] 2
2
*
10
0

5
]2,5] 5
5
*
10
0

2
]5,10] 10
1
*
10
1

1
]10,20] 20
2
*
10
1

5
]20,50] 50
5
*
10
1

2
]50,100] 100
1
*
10
2

1
... ... ... ...

En el ejemplo que estamos viendo, los tres
procedimientos llevaran a un I
min
de 0'2.

5) En funcin del nmero al que se ha redondeado,
establecer las "ramas" o filas a realizar, segn la
relacin mostrada en la tabla anterior. En nuestro
ejemplo,
la consulta de la tabla, nos llevar a 5 "ramas" por
"tallo" como subdivisin ptima.

6) En funcin del nmero de "ramas" o filas resultante o
de inters decidir el reparto de dgitos, es decir
cuntos asignamos para constituir las "hojas" y cuntos a
los "tallos":
En el ejemplo, para conseguir que quede una
amplitud de intervalo de 0'2 con 5 "ramas" por
"tallo", deberemos asignar dos dgitos a las
"hojas" (salvo que decidamos redondear o truncar
los valores)..
102 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

7) Preparar la base del grfico, situar primero todos los
"tallos" y, despus, trasladar cada uno de los valores
del conjunto de datos. El resultado sera:

(Unidad = 0'01)
0



0
1



1
2



2
*
t
f
s

*
t
f
s

*
t
f
s

09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37


3.2.6.- PROFUNDIDAD Y DIAGRAMA DE
"TALLO-Y-HOJAS".
Sea la siguiente representacin "Tallo-y-Hojas":

(Unidad = 1)
3
(2)
3

1
0
1
2
3
4
7 9 9
3 4
2 3

0

De la observacin del diagrama, y teniendo en cuenta la
unidad, podemos conocer que el conjunto de datos, ordenados, es
el siguiente:
7, 9, 9, 13, 14, 22, 23 y 40.

De acuerdo con lo indicado en el Captulo 2, a cada dato,
se le pueden asignar dos grados, uno ascendente y otro
descendente, por ejemplo, el valor "23" tiene por rdenes 7
1991 103
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
ascendente y 2 descendente. Igualmente, se indic que la
profundidad de un valor era el menor de ambos grados. En el
ejemplo, la profundidad de "23" es el menor de 7 y 2, es decir
2.
En el diagrama de "Tallo-y-Hojas" resulta de gran utilidad
indicar la profundidad de las puntuaciones, ya que ello
facilitar considerablemente el clculo de diversos ndices
tales como la Mediana o los Cuartos. Concretamente,
la profundidad asociada a un
"tallo"/"rama" en un diagrama de este tipo,
es la mxima profundidad asociada a los
valores de esa fila.
Por ejemplo, la profundidad del Tallo "2|" es 3, puesto
que es la mayor de las profundidades de cada uno de los valores
contenidos en dicha fila, ya que la profundidad asociada al
valor "23" es 2, mientras que la del valor "22" es 3. En el caso
de que la fila ("tallo o "rama") carezca de "hojas", no se
indicar ningn ndice de profundidad, como ocurre con el Tallo
"3|" del ejemplo.
Una excepcin a lo anterior ocurre en el caso de
encontrarnos en el "Tallo-Medio" ("tallo"/"rama", es decir fila,
que incluye la Mediana), en el que lo que se indica es el nmero
de "hojas", o frecuencias, de esa lnea, entre parntesis. Por
ejemplo, se ha puesto "(2)" en el "Tallo-Medio" para indicar el
nmero de "hojas" del mismo y no su profundidad.
En el caso de que la Mediana recaiga entre dos filas,
"tallos" o "ramas", no se hace ninguna indicacin del "Tallo-
Medio". Para ilustrar esto veremos otro ejemplo en el que
utilizaremos otro conjunto de datos:

(Unidad = 1)
2
4
4
2
1
0
1
2
3
4
2 3
5 6
1 2
0
1

En este ejemplo, como la Mediana recae entre la fila (en
este caso, Tallo) "1|" y la fila "2|" solamente se han indicado
las profundidades.
104 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).


3.2.7.- COMPARACIN DE DOS
DISTRIBUCIONES: LA VARIANTE
"ESPALDA-CON-ESPALDA".
El mtodo grfico de "Tallo-y-Hojas" puede ser empleado
tambin para comparar dos distribuciones o conjuntos de datos,
con lo que sus posibilidades se ven incrementadas.
En este caso lo que se hace es utilizar una serie de Tallos
comunes para las dos distribuciones, con la misma unidad y los
mismas amplitudes de intervalo, representando cada conjunto de
datos a cada lado de la columna de los Tallos. Como podr
apreciarse en el siguiente ejemplo:

(Unidad = 0'01)
09
28 32
40 49 55 59
66 78 78 78 78
88 90 90 92 94 96 99
08 09 15 18 18
21 27 27 32 38 38
42 42 46 54
62 66 75
88 90
01 01 11
20 20 25
40 40
64 69
82
*
t
f
s

*
t
f
s

*
t
f
s

0



0
1



1
2



2
*
t
f
s

*
t
f
s

*
t
f
s

09 10 12 13
23 31
42 56 56
67 75
81 89 90 91 96 99
01 02 03 04 04 05 05 05 05 06 06 06 07 08 09 10 12 16 19
21 24 27 29 34 37
52
66
85 87 98
01 07
37


En el ejemplo, se puede apreciar la clara asimetra
positiva de los valores de la distribucin de la izquierda,
mientras que la de la derecha se muestra ms o menos simtrica.
Igualmente, la distribucin de la derecha se localiza en valores
ms elevados, en general, que la de la izquierda.
Cabe destacar que cuando se utilice esta tcnica para
comparar dos distribuciones, deber tenerse en cuenta que los
conjuntos de datos a comparar sean de tamao equivalente, o
aproximado, para facilitar la comprensin de la representacin.
1991 105
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.


3.3.- GRFICOS DE CAJA-RESUMEN.
Son representaciones semigrficas, en las que utilizando
como base un rectngulo se resumen una serie de ndices
caractersticos del conjunto de datos. Veremos dos tipos: la
Caja de "ndices-Letra" de Posicin (Letter-Values Display ) y
la Caja de "ndices-Letra" de Dispersin.


3.3.1.- CAJA-RESUMEN DE "NDICES-
LETRA" DE POSICIN.
Consiste en una representacin sencilla del denominado
"Resumen de 5 Nmeros", del que se habl en el Captulo 2.
Se trata de un rectngulo dentro del cual se disponen, de
una determinada forma prefijada, los 5 ndices de posicin ms
importantes: Mediana (M), Cuarto inferior (C
i
), Cuarto superior
(C
s
), puntuacin mnima o extremo inferior (E
i
) y puntuacin
mxima o extremo superior (E
s
). Esta informacin suele ser
complementada, en columna dispuesta en la parte izquierda y
fuera del rectngulo, con el tamao del conjunto de datos (#) y,
situndose a la altura correspondiente, las respectivas
profundidades (P) de los cinco ndices. En la forma que veremos
a continuacin:
#
P
M
M

P
C
C
i
C
s


P
E
E
i
E
s


106 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
Por ejemplo, el diagrama de Caja-Resumen de Posicin
correspondiente al conjunto de datos sobre Tiempo de Reaccin
que sirvi de ejemplo en el Apartado 2.3.5.:
0'09, 0'10, 0'12, 0'13, 0'23, 0'31, 0'42, 0'56, 0'56, 0'67, 0'75, 0'81, (0'89),
0'90, 0'91, 0'96, 0'99, 1'01, 1'02, 1'03, 1'04, 1'04, 1'05, 1'05, (1'05;
1'05), 1'06, 1'06, 1'06, 1'07, 1'08, 1'09, 1'10, 1'12, 1'16, 1'19, 1'21,
(1'24), 1'27, 1'29, 1'34, 1'37, 1'52, 1'66, 1'85, 1'87, 1'98, 2'01, 2'07, 2'37,
sera el siguiente:
# 50
M 25'5 1'05

C 13 0'89 1'24

E 1 0'09 2'37

El estudio de los valores contenidos en el diagrama puede
darnos un primera idea acerca de la forma de la distribucin de
datos, por ejemplo, observando la relacin de distancias entre
los Cuartos y sus correspondientes Extremos (puntuaciones mayor
y menor) podemos detectar la existencia de asimetra y si sta
es positiva o negativa.


3.3.2.- CAJA-RESUMEN DE "NDICES-
LETRA" DE DISPERSIN.
Se trata de una figura compuesta por dos rectngulos, uno
pequeo (previsto para contener slo un valor) sobre otro ms
grande en el que se sitan de una determinada disposicin
prefijada diversos ndices de dispersin caractersticos.
Dentro del rectngulo pequeo figurar un valor que
constituye el factor de escala que determinar el criterio de
consideracin de puntuaciones atpicas (en principio, los
valores ms all de los cuartos son considerados como
"puntuaciones atpicas potenciales"). Este valor, factor de
escala, suele ser 1'5, que multiplicado por la Amplitud
Entre-Cuartos determinar una distancia normativa que recibe el
nombre de paso, cuya expresin es la siguiente:
1991 107
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
Paso = 1'5
*
AEC
Dentro del rectngulo mayor se dispondrn los valores que
constituirn los ndices de dispersin denominados fronteras
interiores (inferior y superior) y las fronteras exteriores
(inferior y superior). Estos valores vienen determinados por las
siguientes expresiones:
a) Fronteras Interiores (f):
Inferior = f
i
= C
i
- 1
*
Paso (Cuarto inferior
menos un Paso).
Superior = f
s
= C
s
+ 1
*
Paso (Cuarto superior
ms un Paso).
b) Fronteras Exteriores (F):
Inferior = F
i
= C
i
- 2
*
Paso (Cuarto inferior
menos dos Pasos).
Superior = F
s
= C
s
+ 2
*
Paso (Cuarto superior
ms dos Pasos).
A los que se puede aadir los:
c) Valores Adyacentes (VA): que constituyen los dos
valores existentes (superior e inferior) en el
conjunto de datos que estn respectivamente ms
cercanos a la fronteras interiores, sin rebasarlas
(aunque pueden coincidir con ellas). Dado que los
valores que constituyen fronteras, al igual que los
cuantiles, pueden no coincidir con alguno de los
valores obtenidos que forman el conjunto de datos.

Las fronteras determinarn el criterio de consideracin de
puntuaciones atpicas, que segn caigan ms all de unas u otras
son consideradas como:
I) Puntuaciones Atpicas Moderadas (o Anomalas Moderadas)
(PAM): aquellos valores del conjunto ordenado de datos situados
entre la frontera exterior inferior y la frontera interior
inferior , o entre la frontera interior superior y la frontera
exterior superior. Es decir, dentro del segundo paso.
II) Puntuaciones Atpicas Extremadas (o Anomalas
Extremadas) (PAE): aquellos valores del conjunto ordenado de
datos situados por debajo (o menores) de la frontera exterior
108 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).
inferior o por encima (o mayores) de la frontera exterior
superior. Es decir, ms all del segundo paso.

El diagrama puede tener toda o parte de la informacin
descrita. La siguiente sera una de las formas ms completas y
la ms frecuente:

Paso
VA
i
VA
s

f
i
f
s

#
PAMi
#
PAMs

F
i
F
s

#
PAEi
#
PAEs


Siendo:
VA
i
y VA
s
: Respectivos valores Adyacentes, inferior y
superior.
f
i
y f
s
: Respectivas Fronteras Interiores, inferior y
superior.
#
PAMi
: Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Moderadas y que
se encuentran por encima de la Frontera Exterior
inferior (y por debajo de f
i
).
#
PAMs
: Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Moderadas y que
se encuentran por debajo de la Frontera Exterior
superior (y por encima de f
s
).
F
i
y F
s
: Respectivas Fronteras Exteriores, inferior y
superior.
#
PAEi
: Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Extremadas, es
decir, que se encuentran por debajo de F
i
.
#
PAEs
: Nmero de valores existentes en el conjunto de
datos que son Puntuaciones Atpicas Extremadas, es
decir, que se encuentran por encima de F
s
.

Para construir el diagrama de Caja-Resumen de Dispersin,
por ejemplo, correspondiente al mismo conjunto de datos sobre
1991 109
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
Tiempo de Reaccin utilizado en el apartado anterior, con factor
de escala = 1'5, seguiremos las siguientes fases:
1) Calcular el paso :
Paso = 1'5
*
AEC = 1'5
*
(1'24 - 0'89) = 0'525
2) Calcular las fronteras interiores :
f
i
= C
i
- 1
*
Paso = 0'89 - 0'525 = 0'365
f
s
= C
s
+ 1
*
Paso = 1'24 + 0'525 = 1'765
3) Localizar en la distribucin los valores adyacentes :
VA
i
= 0'42
VA
s
= 1'66
4) Calcular las fronteras exteriores :
F
i
= C
i
- 2
*
Paso = 0'89 - 2
*
0'525 = -0'16 -->
0'0
4
F
s
= C
s
+ 2
*
Paso = 1'24 + 2
*
0'525 = 2'29
5) Contar y localizar los valores atpicos moderados, es
decir, entre cada par de correspondientes fronteras
interior y exterior:
#
PAMi
(entre 0'0 y 0'365) = 6, que son: 0'09, 0'10,
0'12, 0'13, 0'23 y 0'31.
#
PAMs
(entre 1'765 y 2'29) = 5, que son: 1'85, 1'87,
1'98, 2'01 y 2'07.
6) Contar y localizar los valores entre las fronteras
correspondientes:
#
PAEi
(menores de 0) = 0, no puede haber ninguna por ser
0 el lmite real.
#
PAEs
(mayores a 2'29) = 1, que es: y 2'37.

7) Elaborar el diagrama, que aprovechando toda la
informacin disponible quedara de la siguiente forma:

0'525
VA 0'42 1'66
f 0'365 1'765
0'09,0'10,0'12,0'13,0'23,0'31 6 5 1'85,1'87,1'98,2'01,2'07
F 0 2'29
0 1 2'37

4
Quedar en "0" porque, por las caractersticas de la variable, no pueden haber
valores menores de cero.
110 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

Como se ver, pueden colocarse los correspondientes valores
atpicos a ambos lados de la caja.
Este tipo de grfico proporciona una informacin completa
sobre la existencia de valores atpicos en la distribucin,
constituyendo normalmente un complemento del grfico de
"Caja-y-Bigotes" que veremos en el prximo apartado.




3.4.- GRFICOS DE "CAJA-Y-
BIGOTES DE GATO".
Este tipo de representacin, tambin debido a Tukey (op.
cit. ), consiste en un diagrama esquemtico donde se representan
de forma exclusivamente grfica los ndices ms importantes
vistos en el apartado anterior: Mediana, Cuartos, Valores
Adjuntos y Valores Atpicos. Es una representacin grfica que
se asemeja abstractamente (y con un poco de imaginacin) a una
"cara de gato", y consiste en situar sobre un eje-escala un
rectngulo del que salen perpendicularmente sendos segmentos de
lnea y ms all de los cuales unas marcas que corresponden a
los valores atpicos, todo ello de forma que las proporciones de
las distancias en el grfico se corresponden con las
proporciones encontradas entre los diferentes ndices, as como
entre stos y los valores atpicos.
El siguiente grfico de "Caja-y-Bigotes" correspondera al
conjunto de datos sobre el ejemplo del Tiempo de Reaccin
utilizado en los dos apartados anteriores (omitimos el proceso
de construccin, pues es el mismo que el seguido con los
grficos de "Caja-Resumen" vistos en los dos apartados
anteriores, de los que tomamos sus resultados).

1991 111
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.


0'05 0'20 0'35 0'50 0'65 0'80 0'95 1'10 1'25 1'40 1'55 1'70 1'85 2'00 2'15 2'30
| | | | | | | | | | | | | | | |





oo oo o o x - -- -- -- -- -- -- -- -- -- -- -- -x o o o o o @







La lnea interior del rectngulo o Caja indica la posicin
de la Mediana (cuyo valor puede seguirse en la escala graduada).
La longitud del rectngulo est determinada por los Cuartos,
cuyas posiciones estn indicadas por los bordes longitudinales,
conteniendo el 50% de los datos. Las equis sealan la posicin
de los Valores Adyacentes, o valores ms extremos no-atpicos,
quedando unidas a la Caja por medio de lneas para facilitar la
comprobacin de la simetra. Finalmente, una serie de marcas
sueltas (normalmente crculos) diferenciadas para distinguir
entre puntuaciones atpicas moderadas y extremas, indican la
posicin (y, a travs de la escala graduada, el valor) de stas.
En nuestro ejemplo, debido las limitaciones de precisin
y/o de extensin, las distancias expresadas son aproximadas. No
obstante, a efectos didcticos, a pesar de estas limitaciones el
grfico elaborado es suficientemente expresivo. Tambin, en este
caso por limitaciones en variedad de smbolos, las puntuaciones
atpicas moderadas, expresadas, lo han sido con un crculo () y
la extremada con un arroba (@), para su diferenciacin.

La forma, que acabamos de ver, es la que sugiere la "cabeza
de gato", pero tambin es frecuente la representacin en sentido
vertical, en la forma que ofrecemos a continuacin aplicada
sobre el mismo conjunto de datos (si bien, las puntuaciones
atpicas no han podido ser ubicadas todas, por lo que slo
figuran representadas las que nos ha permitido la precisin del
grfico):
112 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).


2'5

2'4
@
2'3

2'2

2'1

2'0

1'9

1'8

1'7
X
1'6 |
|
1'5 |
|
1'4 |
|
1'3 |

1'2

1'1

1'0

0'9
|
0'8 |
|
0'7 |
|
0'6 |
|
0'5 |
|
0'4 X

0'3

0'2

0'1

0'0

Tambin esta tcnica permite la comparacin de dos o ms
conjuntos de datos simultneamente, como podr haberse deducido:

0'05 0'20 0'35 0'50 0'65 0'80 0'95 1'10 1'25 1'40 1'55 1'70 1'85 2'00 2'15
| | | | | | | | | | | | | | |


x- -- -- -- -- -- -- -- -- -- -- -x



x- -- -- -- -- -- -- -x



x -- -- -- -- -- -- -- -- -- -- -- -- -- -x



1991 113
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Como podr deducirse, con este tipo de representacin
grfica se puede observar con suma facilidad la asimetra (si la
lnea que indica la Mediana no aparece equidistante de los
lmites de la caja o Cuartos), as como las puntuaciones
extremas.
En el caso de que haya grandes diferencias en la
localizacin de las muestras, cabe hacer uso de diversas
tranformaciones de datos para lograr una visin global de tales
conjuntos de datos en una misma representacin grfica que ayude
a su posterior interpretacin (vase, para una ampliacin,
EMERSON Y STOTO, 1983).

114 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS).

1991 115
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

Captulo 3: SISTEMAS DE REPRESENTACIN GRFICA (UNIVARIADOS). ...............................79
3.1.- INTRODUCCIN Y CONCEPTOS PREVIOS. .................................................81
3.2.- GRFICOS DE "TALLO-Y-HOJAS". ......................................................82
3.2.1.- INTRODUCCIN.................................................................82
3.2.2.- DESCRIPCIN..................................................................83
3.2.3.- VARIANDO LA CONCENTRACIN: ANCHURA DEL TALLO Y DIVISIN EN RAMAS.............86
3.2.4.- NMERO DE "TALLOS"/"RAMAS" Y AMPLITUD DE INTERVALO OPTIMOS..................93
3.2.5.- PROCESO DE CONSTRUCCIN DE UN DIAGRAMA "TALLO-Y-HOJAS".......................97
3.2.6.- PROFUNDIDAD Y DIAGRAMA DE "TALLO-Y-HOJAS"....................................99
3.2.7.- COMPARACIN DE DOS DISTRIBUCIONES: LA VARIANTE "ESPALDA-CON-ESPALDA"........101
3.3.- GRFICOS DE CAJA-RESUMEN. ........................................................102
3.3.1.- CAJA-RESUMEN DE "NDICES-LETRA" DE POSICIN.................................102
3.3.2.- CAJA-RESUMEN DE "NDICES-LETRA" DE DISPERSIN...............................103
3.4.- GRFICOS DE "CAJA-Y-BIGOTES DE GATO". ............................................107

116 Hector Monterde i Bort - Manuel Perea Lara.

También podría gustarte