Está en la página 1de 18

Organización y representación

de datos
2

2.1. Introducción.

2.2. Distribución de frecuencias.


2.2.1. Supuestos de distribución in-
traintervalo.

2.3. Representaciones gráficas.


2.3.1. Representaciones gráficas de
uso frecuente.
2.3.2. Convenciones sobre las repre-
sentaciones gráficas.
2.3.3. Tendenciosidad en las repre-
sentaciones gráficas.
2.3.4. Propiedades de las distribU-
ciones de frecuencias.

2.4. Diagrama de tallo y hojas.

2.5. Problemas y ejercicios.


2.5.1. Soluciones.

Apéndice informático.
r

2.1. Introducción

En el capítulo anterior hemos descrito cuatro ejemplos en los que llegábamos a


un punto donde nos encontrábamos con un conjunto de valores tomados en una o
varias variables. A partir de ellos nos disponíamos a extraer conclusiones relaciona-
das con los objetivos planteados al comienzo de la investigación. Para ello es
conveniente empezar por inspeccionar cuidadosamente los datos. A veces esta pri-
mera inspección, previa a la realización de complejos cálculos posteriores, nos
aporta ya alguna información sobre circunstancias llamativas interesantes. Si se han
observado pocos valores, porque la muestra es poco numerosa, la simple inspección
visual de los mismos puede darnos una idea cabal de lo que los números significan.
Sin embargo, cuando la cantidad de números recolectados es demasiado grande, y
éste es el caso más frecuente, se hace dificil hacer una inspección directa que sea
realmente comprensiva. Por eso el primer paso suele consistir en reorganizar los
datos utilizando un formato más inteligible que la simple yuxtaposición de números.
Un instrumento para conseguir esa ordenación es la denominada distribución de
frecuencias, y a partir de ella es frecuente también construir representaciones gráfi-
cas. En este capítulo vamos a describir estos dos instrumentos, así como una
alternativa recientemente propuesta para las distribuciones de frecuencias, denomi-
nada diagrama de tallo y hojas. Terminaremos el capítulo comentando en el apéndi-
ce la presencia de estos instrumentos en el SPSS/ PC +.

2.2. Distribución de frecuencias

f ~a distribución d~ frecuencias es u~ i~s.trumento dis_~ñado _p ara cumplir tres


Unctones: a) proporc10nar una reorgamzac10n y ordenac1on racional de los datos
recogidos; b) ofrecer la información necesaria para hacer representaciones gráficas, y
~ facilitar los cálculos necesarios para obtener los estadísticos muestrales. Vamos a
definir algunos elementos que aparecen en una distribución de frecuencias, utilizan-
º la simbología siguiente: representaremos por X a la variable con la que trabaja-
mos, Y que puede adoptar distintos valores, X 1 , X 2 , X3 , .. .; pero cada uno de esos
Valores puede aparecer repetido más de una vez en los n elementos que componen la
muestra; así, en el ejemplo sobre la inoculación de estrés había varios sujetos que
50 / Análisis de datos en psicologfa / Organización y representación de datos / 51

compartían el valor 106 en inteligencia, o el valor 5 en estrés. Con estos símbolos c) Para la columna de frecuencias relativas dividimos cada frecuencia absoluta
podemos dar las siguientes definiciones: por n. Para detectar errores también aquí podemos hacer la comprobación
de que la suma de las Pi es igual a 1 (a veces esta columna no suma
aritméticamente 1, debido a que la necesidad de redondear las Pi distorsiona
Se llama frecuencia absoluta de un valor Xi, y se simboliza por ni, al número de los valores verdaderos; no es raro encontrar que la suma de esta columna da
veces que se repite el valor Xi en la muestra. valores iguales a 0,98 ó 0,99).
Se llama frecuencia relativa de un valor Xi, y se simboliza por Pi, al cociente d) Para obtener las frecuencias absolutas acumuladas sumamos para cada
entre la frecuencia absoluta de ese valor y el tamaño de la muestra. Es decir, valor su frecuencia absoluta más la absoluta acumulada del valor anterior.
Pi= n¡jn. De nuevo comprobamos que la frecuencia absoluta acumulada del valor
mayor es igual a n.
Se llama frecuencia absoluta acumulada de un valor Xi, y se simboliza por n., al
e) Para las frecuencias relativas acumuladas dividimos cada frecuencia absolu-
número de veces que se repite en la muestra ese valor Xi o cualquier otro valor
inferior. ta acumulada por n. La frecuencia relativa acumulada del valor mayor debe
ser igual a l.
Se llama frecuencia relativa acumulada de un valor X¡, y se simboliza por p 0 , al
cociente entre su frecuencia absoluta acumulada y el tamaño de la muestra. Es
TABLA 2.1
decir, Pa = n.Jn.
Distribución de frecuencias construida sobre el ejemplo
del número de hijos (véase texto)
A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en
términos porcentuales. En esos casos suelen representarse con mayúsculas; para
X; n, P; n, P.
obtenerlas basta con multiplicar por 100 las frecuencias relativas. Así, para cualquier
valor de la variable, X¡, tenemos que 4 1 0,05 20 1,00
3 3 0,15 19 0,95
Pi = Pi· 100 y P. = Pa · 100 2 7 0,35 16 0,80
l 6 0,30 9 0,45
Una distribución de frecuencias se organiza en forma de tabla, en cuya cabecera o 3 0,15 3 0,15
pueden aparecer todos o algunos de los elementos que acabamos de definir, aunque hay
uno, las frecuencias absolutas, que suele aparecer casi siempre. En una distribución de 20 1,00
frecuencias completa aparece, en primer lugar, una columna con los valores que adopta
la variable, creciendo de abajo hacia arriba; podrían ponerse en el orden inverso, pero
para uniformar su uso y aplicar automáticamente los procedimientos que veremos
De la inspección de la distribución confeccionada en la tabla 2.1 podemos
más adelante, en este libro adoptaremos siempre esa ordenación. A continuación de
extraer de forma inmediata algunas informaciones. Por ejemplo, en las frecuencias
los valores de la variable aparecen los cuatro elementos que hemos definido. Veámos-
absolutas comprobamos que el tamaño de familia más frecuente en la muestra es el
lo con un ejemplo (tabla 2.1); supongamos que a partir de una determinada población
de dos hijos, seguido de cerca por el de un solo hijo. Las familias sin hijos no son
un investigador selecciona una muestra de veinte familias, cuenta el número de hijos
~uy frecuentes. De la columna de frecuencias relativas acumuladas deducimos que
(X) y encuentra los siguientes valores: 2, 1, O, 3, 2, 2, 3, 1, 1, O, 1, 2, 1, 2, O, 2, 4, 2, 3 y l.
:olo una proporción de 0,20 de las familias (una de cada cinco) supera la barrera de
Construimos la distribución de frecuencias siguiendo los pasos descritos:
ª autorreproducción, es decir, tiene más de los dos hijos que significarían que por
a) La variable es cuantitativa discreta y toma valores entre O y 4 en esta cada pareja de adultos naciera una pareja de hijos.
muestra; por tanto ponemos en la primera columna esos valores, creciendo Aunque del ejemplo anterior pudiera deducirse lo contrario, no en todos los
de abajo hacia arriba. casos
d. las d.ist n.buc10nes
. . se confecc10nan
de frecuencias . . y
de una forma tan sencilla
b) Para la columna de frecuencias absolutas contamos el número de veces que _irecta. A veces surgen ciertas complicaciones, que ilustraremos en el siguiente
~JernpJo. Supongamos que recogemos las puntuaciones obtenidas por 100 sujetos en
se repite cada valor; si el número de valores es muy grande conviene ir
haciendo marcas por cada valor, para contarlas al final. Una forma de
comprobar que no hemos cometido ciertos tipos de errores es asegurarnos
t esca)~ C de conservadurismo de Wilson y Patterson (1970), y nos disponemos a
aonst~utr con ellas una distribución de frecuencias siguiendo los pasos descritos
ntenormente. p ara poner en la prunera
. .
columna los valores que adopta la vanable
de que la suma de las ni es igual a n.
52 / Análisis de datos en psicología I Organización y representación de datos / 53

debemos primero encontrar los valores máximo y mínimo en esta muestra [véase CUADRO 2.1
cuadro 2.1, apartado a)]. Comprobamos que el valor mayor es 69 y el menor es 16;
calculamos el número de filas que tendría nuestra distribución, que serian 54 en Ejemplo de distribución de f recuencias con datos agrupados en intervalos,
obtenidos a partir de la escala de conservadurismo de Wilson y Patterson ( 1970J
lugar de las cinco del ejemplo del número de hijos. Es fácil comprender que una
primera dificultad en la construcción de esta distribución de frecuencias es el excesi-
a) Datos directos o btenidos en una muestra de 100 sujetos:
vo número de valores distintos, que darían lugar a una tabla demasiado larga. Si a
algún lector todavía no le parece excesivo este número de valores, imagine lo que 51 35 36 41 33 28 57 62 43 69
pasaría si la variable fuese, por ejemplo, «ingresos mensuales»; probablemente en 42 33 62 53 37 36 48 53 39 41
una muestra al azar de 1.000 españoles encontraríamos centenares de valores distin- 19 47 18 62 33 54 29 35 61 60
tos. Una segunda dificultad que surge en nuestro ejemplo es que hay valores 27 31 36 44 45 30 21 52 59 52
intermedios que no aparecen, como el 67 ó el 68. El resultado seria, por tanto, una 35 30 37 42 37 31 29 42 28 25
43 49 23 37 28 27 41 35 37 28
tabla excesivamente grande e inmanejable que difícilmente ayudaría a los objetivos
50 34 22 31 34 43 32 36 25 30
para los que ha sido diseñada, y que exponíamos al comienzo de esta sección [véase
33 25 28 31 36 25 41 44 38 51
cuadro 2.1, apartado b)]. 50 46 26 40 53 36 31 34 51 65
Para mejorar la consecución de esos objetivos, en los casos en los que se dan 32 34 43 63 49 61 48 38 16 41
circunstancias como éstas suele aplicarse lo que se denomina una agrupación en
intervalos, y que consiste en formar grupos de valores consecutivos, llamados inter- b) Distribució n de frecuencias sin agrupar en intervalos (sólo los valores y las fre-
valos, y poner uno de estos grupos en cada fila, en lugar de poner cada valor cuencias absolutas):
individual por separado. Siguiendo con nuestro ejemplo, y dado que desde el menor
X, n, X, n, X, n, X, n, X, n, X, n,
al mayor hay 54 valores diferentes, podríamos, por ejemplo, hacer nueve grupos de
seis valores cada uno, comenzando por el grupo 16, 17, 18, 19, 20 y 21, y terminando 69 1 60 1 51 3 42 3 33 4 24 o
por el grupo 64, 65, 66, 67, 68 y 69. Cada uno de estos grupos suele indicarse en la 68 o 59 1 50 2 41 5 32 2 23
distribución de frecuencias poniendo los valores mayor y menor incluidos en él. Así, 67 o 58 o 49 2 40 1 31 5 22
los dos intervalos que acabamos de poner como ejemplo serían el 16-21 y el 64-69. A 66 o 57 1 48 2 39 1 30 3 21 1
continuación se calculan las frecuencias absolutas conjuntas de los valores incluidos
65 1 56 o 47 1 38 2 29 2 20 o
en el intervalo, haciendo lo mismo después con las frecuencias relativas, las absolu-
64 o 55 o 46 1 37 5 28 5 19 1
63 1 54 1 45 1 36 6 27 2 18 1
tas acumuladas y las relativas acumuladas [cuadro 2.1, apartado c)]. 62 3
En las distribuciones de frecuencias con valores agrupados en intervalos apare- 61
53 3 44 2 35 4 26 1 17 o
2 52 2 43 4 34 4 25 4 16
cen algunos elementos nuevos a los que vamos a poner nombre:

e) D istribución de frecuencias completa con los valores agrupados en intervalos:


Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en
una distribución de frecuencias. En algunos textos se llaman clases. X, n; P; n. Pa
Se llaman límites aparentes o informados de un intervalo a los valores mayor y 64-69 2 0,02 100 1,00
menor que puede adoptar la variable dentro de ese intervalo, según el instru- 58-63 8 0,08 98 0,98
mento de medida utilizado. 52-57 7 0,07 90 0,90
Se llaman límites ex actos de un intervalo a los valores máximo y mínimo 46-51 11 0,11 83 0,83
40-45 16 0,16 72 0,72
incluidos en el intervalo y que podrían medirse si se contara con un instru-
34-39 22 0,22 56 0,56
mento de precisión perfecta.
28-33 21 0,21 34 0,34
Se llama punto medio de un intervalo a la suma de sus limites exactos partido 22-27 9 0,09 13 0,13
por dos. En algunos libros se llama marca de clase. 16-2 1 4 0,04 4 0,04
Se llama amplitud de un intervalo a la diferencia entre su limite exacto 100 1,00
superior y su limite exacto inferior. Suele representarse por la letra /.
54 / Análisis de datos en psicologla I Organización y representación de datos / 55

Para algunos autores no tiene sentido aplicar algunos de estos términos a todo de tos datos estarían concentrados en uno o dos intervalos. Para evitar eso se
tipo de variables. Por ejemplo, los limites exactos de los intervalos no serían distin- utilizan lo que se denomina intervalos abiertos, en los cuales no se pone el límite
tos de los aparentes o informados en variables discretas. La razón es que en esos ¡nferior del intervalo que incluye los valores menores, el límite superior del intervalo
casos los valores medidos no son redondeos debidos a la imprecisión de los instru- que incluye los valores mayores, o no se pone ninguno de estos dos. En la tabla 2.2
mentos de medida (véase el capítulo anterior). No obstante, nosotros no haremos aparece un ejemplo de distribución de este tipo.
distinción a estos efectos entre variables discretas y continuas.
Una cuestión que algunos lectores se estarán preguntando en este punto es la
razón por la que hemos decidido hacer nueve intervalos de seis valores, en lugar de TABLA 2.2
otras posibles combinaciones, como por ejemplo seis intervalos de nueve valores o
tres intervalos de dieciocho valores cada uno. Para hacer una distribución de Distribución de frecuencia,
con los datos agrupados en
frecuencias no hay unas normas muy rigurosas. Nosotros vamos a plantear tres intervalos, en la que aparece
reglas y algunas directrices. Las tres normas son las siguientes: un intervalo abierto. La variable
es «ingresos mensuales»
a) El intervalo superior debe incluir al mayor valor observado.
b) El intervalo inferior debe incluir al menor valor observado. x, n,
e) Cada intervalo debe incluir el mismo número de valores. + de 500.000 15
450.000-500.000 10
Pero son muchas las agrupaciones diferentes de los datos de nuestro ejemplo 400.000-450.000 20
que cumplen con estas reglas. Para decidir entre ellas hay que tener presentes 350.001-400.000 30
algunas directrices, basadas en dos guías principales: a) dado que el objetivo de 300.001-350.000 40
una distribución de frecuencias es conseguir una ordenación manejable que ayude 250.001-300.000 50
a comprender el significado de los datos, no es conveniente que el número de 200.001-250.000 100
150.001-200.000 200
intervalos sea demasiado grande, y b) como consecuencia de lo anterior, podemos
100.001-150.000 200
sentirnos inclinados a reducir al máximo el número de intervalos, pero lo cierto es
50.000-100.000 50
que esto traería consigo una consecuencia negativa. En concreto, los intervalos
tendrían una excesiva amplitud, y acabaríamos teniendo a sujetos con puntuacio- 715
nes muy distintas en el mismo intervalo. Más adelante, a la hora de hacer represen-
taciones gráficas y cálculos de estadísticos, nos veremos obligados a tratar los
valores de formas distorsionantes, cayendo en lo que se suele denominar error de
agrupamiento (véase más adelante el apartado sobre los supuestos de distribución La otra cuestión se refiere a lo que a veces se denomina problema de los bordes.
intraintervalo). Dado que estas dos guías nos orientan en sentidos contrarios, Supongamos que vamos a construir una agrupación en intervalos, siendo los valores
parece razonable adoptar soluciones de compromiso entre ellas. A pesar de lo mayor y menor observados iguales a 79 y 43, respectivamente. Como el número de
ambiguo de esta afirmación, lo que podemos decir es que el número apropiado de valores distintos seria igual a 37, que es un número primo, no pueden hacerse
intervalos debe ser tal que, simultáneamente, con ella se consiga una agrupación intervalos de amplitud constante tales que el mayor tenga al 79 como límite aparen-
operativa y que cumpla los objetivos para los que ha sido diseñada la distribución t~ superior y al 43 como límite aparente inferior. En estos casos suele añadirse al
de frecuencias, pero sin distorsionar excesivamente los valores con el error de hst ado de valores distintos observados algunos otros valores no observados en la
agrupamiento. muestra. Estos valores, por supuesto, tendrán frecuencias absolutas iguales a cero,
Terminaremos lo referente a la construcción de intervalos comentando dos P:ro nos permitirán conseguir un número de valores distintos que sea múltiplo del
últimas cuestiones. En primer lugar, a veces hay casos en los que hacer un número n~mero de intervalos que queremos hacer. Por ejemplo, en este caso podríamos
de intervalos siguiendo las directrices que acabamos de plantear distorsionarían anadir tres valores y hacer ocho intervalos de amplitud igual a cinco. Estos tres
demasiado los datos. Por ejemplo, si se trata de la variable «ingresos mensuales», Valores podrían añadirse por abajo (40, 41 y 42) o por arriba (80, 81 y 82), aunque
tendremos una mayoría de valores concentrados en torno a los valores centrales, y Para no distorsionar demasiado ninguno de los intervalos extremos es preferible
unos pocos que se desvían de éstos mucho por arriba. Si en un caso así se hiciera un ~epartirlos lo más homogéneamente posible entre los dos. En este caso podrían
número de intervalos en torno a diez, y de amplitud constante, la inmensa mayoría acerse los intervalos de forma que el inferior fuese el 41-45 y el último el 76-80, o
56 / Análisis de datos en psicología / Organización y representación de datos / 57

también podrían hacerse de forma que el inferior fuese 42-46 y el último el 77-81. Se CUADRO 2.2
trata de algo así como de crear, o incluir en la distribución de frecuencias, el hueco o Ejemplo numérico de los supuestos de distribución intraintervalo
lugar donde anotaríamos ciertos valores en caso de que se hubiesen dado, a pesar de
que de hecho no se han observado.
Se trata de un hipotético intervalo 58-63, que tiene frecuencia absoluta igual a ocho.
Una representación ampliada del intervalo, así como de su partición en subintervalos
iguales, sería la siguiente:
2.2.1. Supuestos de distribución intraintervalo
57,5 58,5 59,5 60,5 61,5 62,5 63,5
Una vez confeccionada una distribución de frecuencias con datos agrupados en
intervalos, ésta se puede utilizar para hacer representaciones gráficas y para facilitar 58 59 60 61 62 63
los cálculos de estadísticos que iremos explicando en capítulos posteriores. Si quere-
mos utilizar la distribución de frecuencias para ello, sin tener que recurrir a los datos 57,5 58,25 59,0 59,75 60,5 61,25 62,0 62,75 63,5
directos, hay que asumir ciertas interpretaciones de las distribuciones que suponen
un margen de error, pero que son imprescindibles. La situación sería una en la que
57,875 58,625 59,375 60,125 60,875 61,625 62,375 63,125
en lugar de contar con los datos directos, y de construir la distribución de frecuen-
cias, ésta se nos da hecha. Para ilustrarlo supongamos que lo único que se nos El intervalo original tiene una amplitud original de seis unidades, y sus límites exactos
proporciona del ejemplo descrito en la tabla 2.1 es la distribución que aparece en el son 57,5 y 63,5, pero al adoptar el supuesto de distribución homogénea se subdivide en
apartado c), ya confeccionada. Si queremos hallar la suma de las puntuaciones ocho subintervalos iguales, tal y como aparece en la gráfica. Se asignaría el punto
obtenidas, no podríamos hacerlo con precisión. No sabemos cuáles eran las dos medio de cada uno de estos subintervalos a una de las observaciones incluidas en el
observaciones del intervalo superior; sólo sabemos que eran valores entre 64 y 69. intervalo. Por tanto, los ocho valores en los dos supuestos de distribución intrainterva-
Dado que de cada puntuación sólo sabemos el intervalo al que pertenece, un lo serían los siguientes:
procedimiento que a veces resultará útil consiste en asumir el supuesto de concentra-
ción en el punto medio. Según este supuesto, trataríamos a esos dos datos como si Supuesto de concentración en el punto medio:
fueran dos valores iguales a 66,5, que es el punto medio de su intervalo. Esta forma 60,5 60,5 60,5 60,5 60,5 60,5 60,5 60,5
de actuar supone una cierta cantidad de error, pues en realidad los valores originales
eran 65 y 69. Sin embargo, a medida que los intervalos tienen frecuencias mayores, Supuesto de distribución homogénea:
estos errores se van reduciendo, dado que mientras que la sustitución de algunos de
ellos por el punto medio supone un incremento artificial, en otros lo que se produce 57,875 58,625 59,375 60,125 60,875 61,625 62,375 63,125
es una reducción artificial y, en general, tenderán a compensarse los dos tipos de
error.
También veremos más adelante algunos casos en los que el supuesto de con-
centración en el punto medio no resulta apropiado, porque interesa la adopción 2.3. Representaciones gráficas
de un criterio que asigne valores distintos a los elementos de un mismo intervalo.
Un criterio de este tipo se sigue cuando se asume el supuesto de distribución A partir de las distribuciones de frecuencias se pueden construir representacio-
homogénea, según el cual los valores incluidos en un intervalo se reparten con nes gráficas. La función de éstas es dar informaciones globales mediante un solo golpe
absoluta uniformidad en su interior. Es decir, que si en un intervalo hay cinco de vista. Las hay de muy diversos tipos, aunque nosotros vamos a centramos en
observaciones, aceptaremos que sus valores son los que tendríamos si partiéramos aquellas que más frecuentemente nos encontramos en el ámbito de la psicología. Tras
al intervalo en cinco subintervalos de igual amplitud y asignáramos a cada indivi- describir sus características pasaremos a establecer algunas convenciones acerca de su
duo el punto medio de un subintervalo. Por ejemplo, supongamos que en la dis- COnfección y, por último, trataremos el tema de la honestidad en las gráficas estadísticas.
tribución de la variable conservadurismo aplicáramos este supuesto. En ese caso,
el intervalo 58-63 quedaría partido en ocho subintervalos de igual amplitud, tal y 2.3.1. Representaciones gráficas de uso frecuente
como se detalla en el cuadro 2.2. En los capítulos siguientes iremos indicando en
qué casos asumiremos el supuesto de concentración en el punto medio y en qué a) Diagrama de rectángulos. Para hacer un diagrama de rectángulos se colocan
casos el de distribución homogénea. en el eje de abscisas las modalidades (o los números que las representan), y en el eje
58 / Análisis de datos en psicología I Organización y representación de datos / 59

de ordenadas las frecuencias (pueden ser absolutas o relativas, simples o acumula-


das). Sobre cada modalidad se levanta un rectángulo cuya altura es la frecuencia
correspondiente. La base de los rectángulos será arbitraria, pero igual para todos.
En la figura 2.1 aparece un diagrama de rectángulos de la variable estado civil en un 10-
ejemplo hipotético. Este tipo de representaciones se suele utilizar para variables
nominales, pero también se utiliza para variables ordinales, como el nivel cultural de
nuestro ejemplo, que aparece en la figura 2.2. 5

n, 150 -
2 3 4

100 - Figura 2.3.-Perfil ortogonal construido sobre unas supuestas puntuaciones de un estudiante en cuatro
pruebas.

50 -

c) Pictograma. Son representaciones en forma de círculos en las que éstos son


s e D divididos en secciones cuya superficie es proporcional a la frecuencia de la modali-
dad correspondiente. A veces, cuando el interés del trabajo lo aconseja, se separa
Figura 2.1.- Diagrama de rectángulos construido sobre la variable «estado civil».
una de las secciones del pictograma, con objeto de captar la atención del lector. En
la figura 2.4 aparece un pictograma de la variable «nivel cultural».

n,
15 -

10 -
2 primarios

5- 3 secundarios

1 1
Figura 2.4.- Pictograma construido sobre los datos de la variable «nivel cultural».
2 3 4

Figura 2.2.-Diagrama de rectángulos construido sobre la variable «nivel cultural».

. d) Diagrama de barras. Se utiliza para variables cuantitativas discretas. En el


eJe de abscisas se colocan los distintos valores de la variable y en el eje de ordenadas
las frecuencias. Sobre cada valor de la variable se traza una línea o barra perpendi-
b) Perfil ortogonal. Se utiliza mucho en informes psicopedagógicos o de rendi- cular cuya altura debe ser igual a la frecuencia. En la figura 2.5 aparece un diagrama
miento. En la figura 2.3 aparece un perfil hecho sobre las calificaciones obtenidas de barras correspondiente al ejemplo de la variable «número de hijos» que utiliza-
por un alumno a lo largo de cuatro exámenes. rnos anteriormente.
60 / Anillisis de datos en psicologfa I
Organización y representación de datos / 61

Polígono de frecuencias. Para variables dis~retas, el polígono de _frecue~cias es


8- 1) esulta de unir los extremos supenores de las que hubieran sido las
la figura
1 . queh rbt'era hecho una gráfica como la descrita · en el apartad o d). s·1 se trata
as s1 se u . 1 d'
6- barr · ble continua podemos decir lo mismo pero referido a os puntos me 10s
de
unab
vana • · • · h'
superiores de los rectángulos correspondientes a un h1potet1co 1stogra-
de ~s a~s . 1
4- t 'do con esos mismos datos. En las figuras 2.7 y 2.8 presentamos eJemp os
lJl
a cons ru1
• .
os de frecuencias uno con la vanable .
«numero de h"
tJOS» y e1 o t ro con 1os
de po1igon ,
izados para el histograma de la figura 2.6.
2- datos util
11
8
o 2 3 4

Figura 2.5.-Diagrama de barras construido sobre la variable «número de hijos». 6

2
e) Histograma. Se utiliza para variables cuantitativas continuas con datos agru-
pados en intervalos. En el eje de abscisas se colocan los límites exactos de los
intervalos, y en el eje de ordenadas las frecuencias. Sobre cada intervalo se levanta
o 2 3 4
un rectángulo cuya altura sea igual a la frecuencia correspondiente. En la figura 2.6
aparece un histograma construido sobre los datos del ejemplo utilizado en el
Figura 2.7.- Polígono de frecuencias construido sobre la variable «número de hijos».
cuadro 2.1.

n, 25 n, 25

20 20

15 - 15 -

to 10

5 5

15,5 21,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 9,5 15,5 21,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 75,5

Figura 2.6.- Histograma construido sobre la variable «conservadurismo». Figura 2.8.- Polígono de frecuencias construido sobre la variable «conservadurismo».
Organización y representación de datos / 63
62 / Análisis de datos en psicologfa /

g) Diagrama de barras acumulativo. Se utiliza en variables discretas. En el eje de Pa


abscisas se colocan los valores de la variable, y en el de ordenadas las frecuencias
acumuladas, ya sean absolutas o relativas. Sobre cada valor se traza una perpendi-
cular cuya longitud sea igual a la frecuencia acumulada. Desde el extremo superior 0,75-
de cada una de estas barras se traza una línea horizontal que se une con la barra
situada a su derecha. En la figura 2.9 presentamos un ejemplo sobre la variable
«número de hijos». 0,50

0,25-

20-

9,5 15,5 21 ,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 75,5
15
Figura 2.10. -Poligono de frecuencias acumuladas construido sobre la variable «conservadurismo».

10

2.3.2. Convenciones sobre las representaciones gráficas


5-
Aunque las representaciones gráficas de los datos incluidos en una distribución
de frecuencias pueden realizarse de muy distintas formas, ~amos a esta~lecer_ algunas
convenciones para unificar criterios, así como a sugenr algunas directrices que
o 2 3 4 nosotros mismos seguiremos en el resto de este libro:
Figura 2.9.-Diagrama de barras acumulativo construido sobre la variable «número de hijos». a) En el eje de abscisas colocamos los valores de la variable, Y en el de
ordenadas las frecuencias (absolutas o relativas, simples o acumuladas).
b) La intersección de los dos ejes es el origen, de modo que en el eje de abscisas
las puntuaciones más bajas estarán a la izquierda, y las más altas a la d~recha;
h) Polígono de frecuencias acumuladas. Se utiliza en variables continuas. El eje en el de ordenadas los valores pequeños estarán abajo y los altos arnba.
de abscisas se construye igual que en los histogramas, pero en el de ordenadas se e) Si el valor mínimo del eje de abscisas fuera excesivamente grande, se debe
incluyen las frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada limite cortar la línea como en el ejemplo de la figura 2.6 (hay que tener presentes,
se levanta una perpendicular cuya longitud sea idéntica a la frecuencia acumulada y no obstante, l~s precauciones que se detallan en el próxim~ apartado). .
se unen los extremos superiores de dichas perpendiculares. Con frecuencia en este d) Conviene incluir en cada gráfico toda la información posible para evitar
tipo de gráficos se utilizan para el eje de ordenadas los porcentajes. En la figura 2.10 ambigüedades y facilitar su interpretación por otras personas ~ por noso!ros
aparece un ejemplo sobre la variable de la figura 2.6. mismos al cabo del tiempo (nombre de la variable junto al eJe de abscisas,
tipo de frecuencia junto al eje de ordenadas, grupo al que corresponde cada
i) Otros dibujos. Muchas veces se utilizan otras representaciones figurativas, en gráfica cuando se han representado dos o más grupos conjuntamente, etc.).
las que se incluyen los objetos de los que se están haciendo recuentos de frecuencias, e) Cuando en un mismo gráfico se representan dos o más grupos simult~~ea-
o algún símbolo que los identifique de forma muy expresiva. Así, para expresar la mente, y éstos son de tamaños considerablemente distintos, se deben ut1bzar
capacidad de un ejército, el tamaño del parque automovilístico de un país, o su frecuencias relativas.
producción vitivinícola, pueden utilizarse siluetas de carros de combate, perfiles de
coches, o dibujos de botellas de vino. No obstante, en estos casos hay que tener Una vez expuestas estas convenciones, no queremos concluir este apartado sin
presentes las indicaciones que hacemos en el apartado 2.3.3 sobre los tamaños de las hacer un comentario final sobre la flexibilidad y el sentido común aplicados a la
figuras. representación gráfica. En este aspecto de la estadística se ha observado como en
64 / Análisis de datos en psicolog/a I
Organización y representación de datos / 65

pocos la aparición de ideas creativas e innovadoras. En realidad, cualquier represen.


CUADRO 2.3
tación gráfica es bienvenida siempre y cuando sirva a los objetivos planteados y lo
haga honestamente (véase el apartado siguiente). En este sentido, debemos tener . ¡os de gráíficas tendenciosas, cada una .acompañada de su alternativa correcta
E1emp
presentes los hallazgos de la psicología cognitiva sobre las limitaciones de la mente
humana en cuanto al número de elementos distintos que podemos manejar simultá- Al hacer un diagrama de barras de la va~a_ble «diagn?s.ti~o psiqui~trico» -~e la
neamente a la hora de hacernos una idea global de un problema. Los estudios a) izquierda, parece que hay muchos más neurot1cos que ps1cottcos. Esta_1mpres10n se
indican que este límite suele estar en torno a 7 ± 2, y por tanto un buen consejo debe a que el eje de ordenadas ha sido rec~rtado, puesto q ~e en realidad hay 1~0
sería no utilizar, siempre que ello no fuerce demasiado los datos, un número de psicóticos y 200 neuróticos. Al reha~er el diagrama con_ el eJe completo, se aprecta
que Ja diferencia real entre ambos tipos es muy pequena.
intervalos, columnas, barras, grupos, secciones, etc., mayor de 9. Por otra parte, hay
que tener siempre presente que las representaciones sirven para comunicar informa-
ción de un solo golpe de vista, y por ello en su construcción debe tenerse en cuenta 200 200
el público al que va dirigida, sus necesidades de informaciones más bien globales y
190 150
generales o específicas y precisas, y cualquier otra consideración que pueda mejorar
la transmisión de información ágil y precisa. 180 100

170 50
2.3.3. Tendenciosidad en las representaciones o o
gráficas p N p N

b) Para representar las frecuencias de las intenciones de voto re~stradas_ e~ una


Las representaciones gráficas pueden utilizarse de manera tendenciosa para encuesta utilizamos perfiles de figuras humanas. Aunque dos tercios han md1cado
inducir impresiones engañosas e interesadas. Los métodos más frecuentemente utili- que votarán sí y un tercio ha indicado que votará no (doble número de síes que de
zados para ello fueron recogidos y expuestos en un pequeño y divertido libro por noes) y de hecho las alturas de las figuras respetan estas proporciones, el hecho de
Darrel Huff (1954). Aunque este libro podría considerarse una estupenda introduc- :1
que ancho de las figuras se establezca proporcionalmente a su al_tura hace que
ción a los métodos de engaño para desaprensivos y desahogados, el autor justifica su la superficie oscurecida en la primera figura sea menor que la m1t~d de la su-
publicación de la siguiente manera: «Quizá podría justificarla de la misma forma perficie oscurecida en la segunda. La impresión visual es que la d1~erenc1a fue
que lo haría el ladrón retirado cuyas memorias publicadas equivalían a un curso mucho mayor. Esto no ocurre en la representación en forma de diagrama de
superior de cómo manipular cerraduras y andar sin ser oído. Los delincuentes ya barras:
conocen esos trucos; la gente honrada debe conocerlos para su autodefensa» (op.
cit., pág. 9). Con esa misma filosofia hemos recogido aquí dos de los procedimientos 0,667 0,667
más utilizados.
Un primer método consiste en recortar el eje de ordenadas (y por tanto las
barras, los histogramas o la figura que se haya utilizado), eliminando los menores 0,333 0,333
valores de frecuencias con la excusa de que no hay ninguna observación que las
adopte. Esto tiene como consecuencia que pequeñas diferencias parezcan mayores.
Un segundo tipo de distorsión se produce cuando se utilizan figuras representativas o o
de aquello que se está midiendo. Estas figuras suelen hacerse proporcionando sus NO SÍ NO SÍ
alturas a las frecuencias correspondientes. Sin embargo, el incremento en la altura
conlleva también un incremento en la anchura. Como consecuencia de ello, la
superficie de las figuras no guarda relación con las frecuencias observadas, dando la
impresión de que la diferencia es mayor que la realmente registrada. Una alternativa
2.3.4. Propiedades de las distribuciones de frecuencias
no tendenciosa son los diagrama de barras, en los que no se produce esta distorsión
porque la anchura de las barras es constante. En el cuadro 2.3 presentamos ejemplos
Los conjuntos de datos de variables cuantitativas obte~idos en muestras, Y q~e
de gráficas hechas con estos procedimientos, y junto a ellas las alternativas correcta-
mente confeccionadas. ~emos organizado mediante distribuciones de frecuencias, tienen a~g~nas cara~tens-
hcas que iremos exponiendo detalladamente a lo largo de los prox1mos cap1tulos.
Organización y representación de datos / 61
66 / Amllisis de datos en psicologfa I

Sin embargo, vamos a describir sucintamente en este punto cuáles son esas caracte.
rísticas o propiedades. Para ilustrarlas utilizaremos curvas suavizadas, que no son
más que polígonos de frecuencias sin ángulos, es decir, dibujadas limando las
esquinas y suavizando su trazado. Hay que tener en cuenta que los polígonos de
frecuencias dependen demasiado de la unidad de medida utilizada, de la agrupación
en intervalos hecha (en caso de haber recurrido a ello) y de las fluctuaciones
particulares esperables en una muestra concreta. Por ello, las curvas suavizadas
suelen ser representaciones más apropiadas que los polígonos de frecuencias simples.
Son cuatro las propiedades con las que describiremos las distribuciones de frecuencias:
a) Tendencia central. Una primera propiedad es la que se refiere a la magnitud
general de las observaciones hechas. Esta magnitud general puede cuantificarse
mediante unos índices conocidos como índices de tendencia central o promedios, y · tres distribuciones en las que A y B tienen tendencias centrales similares, Y
Figura 2.12.-EJemplloddeC . t que la variabilidad de Bes mayor que la de las otras dos.
que reciben ese nombre porque pretenden ser síntesis de los valores de la variable. menores que a e ' m1en ras
Así, en la figura 2.11 puede observarse que los valores del grupo A tienen una
tendencia central en torno al valor 90, mientras que la tendencia central de los del
grupo B está en torno al valor 100. e) Asimetría O sesgo. En la figura 2.13 aparecen las gráfi_cas de los grup?s A, BY C.
La del grupo A indica que, en generai la mayoría de los SUJetos han obterudo bunt~:r
. centrales en torno a la media, mientras que unos pocos han o te°:1 o
c1i::i aciones reiativamente altas y otros pocos han obtenido puntuaciones relativa-
~ente bajas: se dice que la distribución A es simétric~. Esto no ocurre ~n los gr~pos
B e En el primero de ellos hay muchas observac10nes con puntuac10nes b~JaS Y
:Cas .con puntuaciones altas, mientras que en el, segu~~o ocurre I? contrano_: se
~ice que las distribuciones B y C sufren de asimetna pos1t1va y negativa, re~pect1va-
mente Esta propiedad se refiere, por tanto, al grado en que los dato~ tienden a
conce~trarse en los valores centrales, en los valores inferiores al promed10d \1n I~s
valores superiores a éste. Existe simetría perfecta cuando ~n caso de .º dar ª
·
representación grafica · ¡ t razad a sobre la media, las dos mita es se
por una vert1ca

80 90 00 110
B A e
Figura 2.11.-Ejemplo de dos distribuciones con tendencias centrales distintas.

b) Variabilidad. Esta propiedad se refiere al grado de concentración de las


observaciones en torno al promedio. Una distribución de frecuencias será homogé-
nea o poco variable si los datos difieren poco entre sí y, por tanto, se agolpan en
torno a su promedio. Será heterogénea o muy variable si los datos se dispersan
mucho con respecto al promedio. Esta propiedad es independiente de la anterior, es
decir, dos grupos que tengan distinta variabilidad pueden tener tendencias centrales
muy distintas o similares. Así, en la figura 2.12 aparecen las representaciones de las
distribuciones de frecuencias de tres grupos, A, B y C. Los grupos A y B tienen la
misma tendencia central, pero el Bes más variable que el A, mientras que el grupo C Figura 2.13.- Ejemplo de distribuc~on_es con _d!stintos tipos_de, se_sgo. La d._1stnºbuc1on
. ' A es simétrica• la B
es asimetnca pos1t1va y la C as1metnca negativa.
es igual de variable que el A pero tiene un mayor promedio.
68 / Análisis de datos en psicología I Organización y representación de datos / 69

superponen perfectamente. Las distribuciones con asimetría negativa son propias CUADRO 2.4
de las pruebas, tareas o tests fáciles, en las que la mayoría de los sujetos puntúan
alto. Las distribuciones asimétricas positivas son típicas de pruebas, tareas o Ejemplos numéricos de distribuciones con distintas propiedades
tests difíciles, en las que la mayoría de los sujetos puntúan bajo. Las pruebas,
En el ejemplo, junto a los intervalos confeccionados con los valores de la variable,
tareas o tests de dificultad media suelen producir distribuciones más o menos
hemos dispuesto en diferentes columnas las frecuencias absolutas obtenidas en cuatro
simétricas.
grupos de 100 sujetos cada uno, que representaremos por las letras A, B, C y D. Estas
distribuciones de frecuencias pueden compararse, de forma simplemente visual, en las
propiedades que ·hemos descrito en el texto. Así, las distribuciones A y B tienen
d) Curtosis. Se refiere al grado de apuntamiento de la distribución de frecuen- tendencias centrales parecidas, pero la distribución A es más homogénea que la B; sin
cias. Si es muy apuntada, se llama leptocúrtica, y si es muy aplastada, se llama embargo, ambas distribuciones son simétricas. Por el contrario, las distribuciones C y
platicúrtica. Generalmente el grado de curtosis de una distribución se compara con D tienen el mismo grado de variabilidad, aunque la primera tiene asimetría negativa y
un modelo de distribución llamado «distribución normal», del que hablaremos en la segunda asimetría positiva.
capítulos posteriores, y que respecto a la curtosis se llama distribución mesocúrtica,
pues está entre los otros dos tipos de curtosis. En la figura 2.14 aparecen las Grupo
representaciones de tres grupos A, B y C; la del grupo A es leptocúrtica, la del B X; A B e D
mesocúrtica y la del C platicúrtica.
24-26 2 2 8 1
21-23 6 10 35 1
A
18-20 10 12 30 3
15-17 12 16 10 5
12-16 40 19 7 7
9-11 12 16 5 10
6-8 10 12 3 30
3-5 6 10 1 35
0-2 2 3 1 8
100 100 100 100

2.4. D iagrama de tallo y hojas


Figura 2.14.-Ejemplo de distribuciones con distintos tipos de curtosis. La distribución A es leptocúrtica,
la B mesocúrtica y la C platicúrtica.
Las distribuciones de frecuencias no son el único medio para resumir y exponer
conjuntos de datos; una alternativa a ellas son los llamados diagramas de tallo y
hojas, que fueron ideados por Tukey (1977) en el contexto del enfoque denominado
En este apartado hemos pretendido sólo indicar, de una forma muy intuitiva, las análisis exploratorio de datos.
propiedades más importantes de las distribuciones de frecuencias. Sin embargo, . Su obtención requiere separar cada puntuación en dos partes: el primer o
no nos vamos a contentar con hacer las comparaciones visuales que, grosso modo, Pn~eros dígitos, que reciben el nombre de tallo, y el dígito o dígitos restantes, que
hemos hecho en los ejemplos anteriores (véase también los ejemplos numéricos del r~ct_ben ~l nombre de hojas; por ejemplo, X = 56 se puede separar en 5 (tallo) y 6
cuadro 2.4), sino que en los temas siguientes vamos a exponer procedimientos para ( OJa). Sm embargo, como veremos más adelante, estos diagramas tienen la suficien-
cuantificar esas propiedades, con lo que podremos comparar unos conjuntos de te flexibilidad como para admitir otras posibilidades. Los pasos que hay que seguir
valores con otros con total precisión. Podremos así hacer afirmaciones del tipo «el Para construir un diagrama de tallo y hojas son los siguientes:
grupo A tiene un mayor promedio que el B», «el grupo Ces menos homogéneo que a) Se identifican los valores máximo y mínimo observados.
el D» o «el grupo E es más simétrico que el F». b) Se toma una decisión acerca del número más apropiado de tallos distintos.
70 / Análisis de datos en psicolog/a I Organización y representación de datos / 71

e) Se listan todos los tallos distintos en una columna, ordenados de forma CUADRO 2.5
creciente de arriba hacia abajo.
d) Se escribe cada hoja junto al tallo que le corresponda, preferiblemente Ejemplo de confección de un diagrama de tallo y hojas
ordenados según su valor.
Hemos obtenido las puntuaciones de 30 sujetos en una variable (el grupo de datos de la
En el cuadro 2.5 presentamos un ejemplo numérico sobre 30 observaciones. Al izquierda), y los hemos ordenado de menor a mayor (grupo de datos de la derecha):
igual que al tratar la agrupación en intervalos nos planteábamos la cuestión de cuál
es el número más apropiado de intervalos, ahora podemos plantearnos con qué 37, 72, 71, 65, 54, 78 32, 33, 37, 42, 46, 49
criterio decidimos el número de tallos. De nuevo hay que decir que no hay normas 85, 42, 49, 63, 61, 32 51, 54, 55, 57, 58, 61
estrictas sobre ello, y las directrices que podemos dar son tan generales como las que 51, 33, 77, 93, 85, 83 63, 63, 65, 68, 71, 72
dimos en aquel caso. En general, un número de tallos superior a cinco y que no pase 63, 55, 58, 46, 57, 73 73, 73, 73, 75, 77, 77
de veinte suele ser apropiado. Aparte de ser más fácil de construir, el diagrama de 73, 68, 73, 91, 75, 77 78, 83, 85, 85, 91, 93
tallo y hojas tiene varias ventajas sobre la distribución de frecuencias, y también algún
inconveniente: a) Los valores mayor y menor son 93 y 32, respectivamente.
b) Si tomamos la decena como tallo tendremos siete tallos distintos, que parece
a) Una primera ventaja es que permite identificar cada puntuación individual. un número apropiado. Por tanto, separamos las puntuaciones en dos partes,
En las distribuciones tradicionales sólo conocemos la frecuencia del interva- con un dígito cada una. Los tallos distintos ordenados de menor a mayor son
lo, y eso nos obliga a tratar los datos de ciertas maneras distorsionantes 3, 4, 5, 6, 7, 8 y 9.
(asumir la concentración en el punto medio o la distribución homogénea e) y d) Colocamos en columna los tallos y escribimos cada hoja junto a su tallo
dentro del intervalo). Sin embargo, la ventaja de retener cada valor indivi- correspondiente:
dual viene acompañada del inconveniente de que el diagrama de tallo y
hojas no facilita, como la distribución de frecuencias clásica, el cálculo de los 3 237
estadísticos que estudiaremos más adelante. 4 269
b) Ofrece simultáneamente tanto un listado de las puntuaciones como un 5 14578
6 13358
dibujo de la distribución. Efectivamente, si tumbamos el diagrama obtene-
7 123335778
mos una especie de histograma.
8 355
e) Al contener los valores de cada observación, es más fácil de modificar para 9 13
obtener un dibujo con un nivel de detalle distinto, mayor o menor, de la
distribución (véase un ejemplo en la parte final del cuadro 2.5).
Si a continuación decidimos rehacer el diagrama con un grado mayor de detalle,
d) Otra ventaja de esta técnica es que pueden representarse dos conjuntos de podemos hacerlo a partir del diagrama anterior, dividiendo cada tallo en dos partes:
datos simultáneamente en el mismo diagrama, con lo que se facilita la
comparación. En el cuadro 2.6 presentamos un ejemplo.
3- 23
3+ 7
4- 2
4+ 69
5- 14
5+ 578
6- 133
6+ 58 = La hoja toma valores entre O y 4
7- 12333 + La hoja toma valores entre 5 y 9
7+ 5778
8- 3
8+ 55
9- 13
72 / Análisis de datos en psicologfa I Organización y representación de datos / 13

CUADRO 2.6 -e, 2. A continuación se dan los resultados_ obtenidos por_,una muestra 50 ?e
universitarios. La característica medida es el tiempo de reacc1on ante un estimulo
Ejemplo de un diagrama de tallo y hojas conjunto
auditivo:

Disponemos de los datos de un grupo de control y otro experimental, ambos con 25 0,11 0,11 0,126 0,112 0,117 0,113 0,135
sujetos cada uno. Confeccionamos un diagrama de tallo y hojas en el que los tallos son 0,103
0,107 0,122 0,113 0,098 0,122 0,105
comunes y las hojas de cada grupo aparecen por separado.
0,119 0,1 0,117 0,113 0,124 0,118 0,132
0,108 0,115 0,12 0,107 0,123 0,109 0,117
Control Experimental 0,111 0,112 0,101 0,112 0,111 0,119 0,103
23, 21, 31, 30, 17 30, 27, 21, 19, 28 0,1 0,108 0,12 0,099 0,102 0,129 0,115
15, 15, 24, 27, 30 29, 33, 35, 22, 30 0,121 0,130 0,134 0,118 0,106 0,128 0,094
25, 28, 21, 22, 16 33, 28, 24, 26, 30 0,114
18, 31, 30, 24, 22 34, 35, 35, 25, 26
20, 31, 26, 25, 26 32, 29, 28, 27, 34
a) Obtenga la distribución de frecuencias absolutas y relativas con diez interva-
los de amplitud 0,005.
Control Experimental b) Obtenga la distribución de frecuencias acumuladas absolutas y relativas con
87655 l+ 9 los intervalos anteriores.
44322110 2- 124 e) Obtenga los límites exactos de dichos intervalos y los puntos medios.
876655 2+ 5667788899 d) Dibuje un polígono de frecuencias relativas.
111000 3- 00023344 e) Dibuje un polígono de frecuencias relativas acumuladas.
3+ 555

'"" f.. 3. Confeccione un diagrama de tallo y hojas con los datos del ejercicio 2.
En este diagrama de tallo y hojas conjunto se aprecia de forma inmediata que en
general los datos del grupo experimental tienden a concentrarse más en los valores
altos que los del grupo de control (los tallos más repetidos son, respectivamente, 4. ¿Qué valores asignaríamos a los cinco sujetos incluidos en el intervalo 15-16
veintes altos y veintes bajos). de una distribución de frecuencias, en caso de asumir cada uno de los supuestos de
distribución intraintervalo que hemos descrito en este capítulo?

..¡_ 5. Los sujetos de una muestra han respondido a una escala de agresividad. La
distribución de frecuencias ha sido la que aparece a continuación. Dibuje un polígo-
2.5. Problemas y ejercicios no de frecuencias comparativo y coméntelo.

~ l. Los datos que se presentan a continuación corresponden a las puntuaciones


óbtenidas por 50 alumnos en una prueba objetiva de análisis de datos. Obtenga una
distribución de frecuencias completa con los valores agrupados en intervalos de X¡ n" nm
amplitud 2.
16-18 9 9
6 15 13-15 10 12
10 8 22 5 13 6 6 19 12 20 16 15 10-12 14 6
21 7 7 9 7 11 15 13 9 20 20 20 8 13
9 11 7-9 25 3
8 14 8 8 19 19 9 9 15 22 9 14
13 12 11 11 6 10 17 5
4-6 12 o
74 / Análisis de datos en psicologfa / Organización y representación de datos / 75

2.5.1. Soluciones
d) p¡ 0,25

l.
X; n; na P; Pa 0,20
21-22 3 50 0,06 1,00
19-20 7 47 0,14 0,94
0,15
17-18 1 40 0,02 0,80
15-16 5 39 0,10 0,78
13-14 6 34 0,12 0,68 0,10-
11-12 6 28 0,12 0,56
9-10 8 22 0,16 0,44
7-8 8 14 0,16 0,28 0,05
5-6 6 6 0,12 0,12
50 1,00
0,0895 0,0945 0,0995 0,1045 0,1095 0,1145 0,1195 0,1245 0,1295 0,1345 0,1395 0,1445

e) Pa 1,00-
2. a) y b)
X; n; na P; Pa 0,80-
0,135-0,139 1 50 0,02 1,00
0,130-0,134 3 49 0,06 0,98
0,125-0,129 3 46 0,06 0,92 0,60 -
0,120-0,124 7 43 0,14 0,86
0,115-0,119 9 36 0,18 0,72
0,110-0,114 11 27 0,22 0,54 0,40-
0,105-0,109 7 16 0,14 0,32
0,100-0,104 6 9 0,12 0,18
0,095-0,099 2 3 0,04 0,06 0,20-
0,090-0,094 1 1 0,02 0,02

e)
Límites Puntos 0,0895 0,0945 0,0995 0,1045 0,1095 0,1145 0,1195 0,1245 0,1295 0,1345 0,1395 0,1445
exactos medios
3. El diagrama de tallo y hojas quedaría de la siguiente forma:
0,1345-0,1395 0,137
0,1295-0,1345 0,132 0,09 489
0,1245-0,1295 0,127 0,10 0012335677889
0,1195-0,1245 0,122 0,11 00112223334557778899
0,1145-0,1195 0,117 0,12 0012234689
0,1095-0,1145 0,112 0,13 0245
0,1045-0,1095 0,107
4. En el caso del supuesto de concentración en el punto medio, los cinco sujetos
0,0995-0,1045 0,102
0,0945-0,0995 0,097 tendrían la puntuación correspondiente al punto medio, es decir, 15,5; en el caso del
0,0895-0,0945 0,092 supuesto de distribución homogénea, serían los puntos medios de cinco subinterva-
los de amplitud igual, es decir, 14,7, 15,1, 15,5, 15,9 y 16,3.
76 / Análisis de datos en psicología I Organización y representación de datos / 77

5. Como se trata de dos muestras de tamaños marcadamente distintos (70 y 30, variables del ejemplo numenco que introducíamos en el primer capítulo. En el
respectivamente), confeccionamos polígonos a partir de las frecuencias relativas. cuadro 2.7 aparece la salida del programa frequencies aplicado a la variable «estrés
antes», con el subcomando histogram. En el cuadro 2.8 se ha utilizado el subcoman-
P;
0,40- ti.
do barchart para representar la variable «nivel cultural». En el cuadro 2.9 aparece la
I ' salida proporcionada al utilizar el subcomando hbar con las variables «inteligencia»
'
y «estrés después». En el cuadro 2.10 aparece el diagrama de tallo y hojas obtenido
0,30 con el programa manova, opción stemleaf, sobre la variable «inteligencia».
• M

0,20- CUADRO 2.7


/

/
Salida de ordenador
/
V
0,10- JI Salida proporcionada por el SPSS/ PC + al aplicar el programa frequencies, subcoman-
/
/ do histogram, sobre la variable «estrés antes».

E1 Estrés antes
3,5 6,5 9,5 12,5 15,5 18,5 Val id Cum
Valuelabel Value Frequency Percent Percent Percent
2.00 1 2.5 2.5 2.5
3.00 4 10.0 10.0 12.5
4.00 11 27 .5 27. 5 40.0
5.00 9 22. 5 22. 5 62.5
APÉNDICE INFORMÁTICO 6.00 9 22. 5 22. 5 85.0
7 . 00 6 15.0 15.0 100.0
------- ------- -------
Todos los paquetes estadísticos incluyen procedimientos para obtener distribu- TOTAL 40 100. O 100. O
ciones de frecuencias y representaciones gráficas, aunque para estas últimas hay
otros programas específicos que permiten obtener representaciones de mayor cali- C0UNT VALUE
dad y variedad.
1 2. 00
El programa frequencies del SPSS/PC + proporciona distribuciones de frecuen- 4 3. 00 ----------
cias y representaciones gráficas. Las distribuciones de frecuencias se confeccionan 11 4 . 00 --- - - - - ------- ------------
con unos criterios ligeramente diferentes a los que nosotros hemos utilizado. Por 9 5. 00 - ---------- - -- ------- -
9 6. 00 - --------- ----------- -
ejemplo, los valores crecen de arriba hacia abajo, y en lugar de proporcionar las 6 7. 00 ------------- - -
frecuencias relativas proporciona los porcentajes. También proporciona los porcen- 1 .• • .•.... l ... •• .•.. l • ..•..... l
tajes acumulados. Con el subcomando histogram se consigue un histograma. Con el O 4 8 12
Histogram Frequency
subcomando barchart se consigue un diagrama de barras. Estas dos representacio-
nes son muy parecidas entre sí; ambas se realizan en horizontal. Las únicas diferen-
Va Lid Cases 40 Missing Cases o
cias son que mientras que en el diagrama de barras sólo se incluyen las barras y las
frecuencias en los extremos derechos de éstas, en el histograma se incluye la frecuen-
cia de cada valor a la izquierda (columna encabezada con count) y un eje de abscisas
en la parte inferior de la gráfica. Con el subcomando hbar es el programa el que
decide entre la realización de un histograma o un diagrama de barras, en función del
número de valores distintos que adopta la variable. Para hacer un diagrama de tallo
Y hojas hay que utilizar el programa manova, con la opción stemleaf, dentro del
subcomando plot.
Como ejemplos de todo ello, hemos aplicado estos programas a algunas de las
78 / Análisis de datos en psicologfa /
Organización y representación de datos / 19

CUADRO 2.8
CUADRO 2.9 ( continuación)
Salida de ordenador
94.00 1 2.5 2.5 30.0
Salida proporcionada por el SPSS/ PC+ al aplicar el programafrequencies, subcoman- 95.00 2 s.o 5.0 35.0
do barchart, sobre la variable «nivel cultural». 96.00 2 5.0 5.0 40.0
98.00 2 5. 0 s.o 45.0
99.00 1 2.5 2.5 47.5
NC Nivel cultural
100.00 1 2.5 2.5 so.o
101 . 00 1 2.5 2.5 52.S
Val id Cum 102.00 1 2.5 2.5 SS.O
Va lue La bel Value Frequency Percent Percent 103.00 1 2.5 2.5 57 . 5
Percent
104.00 3 7.5 7.5 65.0
sin estudios 1.00 5 12.5 12.5 106.00 2 5.0 5.0 70.0
primarios 2.00 12.5
15 37 . 5 37. 5 50.0 107.00 2 5.0 5.0 75.0
secundarios 3.00 13 32. 5 32.5 108.00 1 2.5 2.5 77 .5
superiores 4.00 82. 5
7 17.S 17.5 100.0 109.00 1 2.5 2.5 80.0
TOTAL
------- ------- ------- 11 O. 00 1 2.5 2.5 82.5
40 100.0 100. O 111 • 00 1 2.5 2.5 85.0
11 2.00 1 2.5 2.5 87.5
114.00 1 2.5 2.5 90.0
sin estudios------------- 5 115 .00 1 2.5 2.5 92.5
primarios-------------------------------------- 15 119 . 00 1 2.5 2.5 95.0
secundarios------------------------- ------- - 13 120.00 1 2.5 2.5 97.5
superiores--------------------------------- 7 121.00 1 2.5 2.5 100.0
------- -------
100.0
-------
100.0
TOTAL 40
Val id Cases 40 Missing Cases o
Count Midpoi nt
o 75
1 78 ===-------
CUADRO 2.9 1 81 ========-=
1 84 ===-==----
Salida de ordenador 1 87 ===-------
4 90 -=================-======---------
4 93 =============--------------===----------
Salida proporcionada por el SPSS/PC+ al aplicar el programafrequencies, subcoman- 4 96 ==================-=-====--------------
do hbar, sobre las variables «inteligencia» y «estrés después». En ella aparecen las 4 99 ====================--========----------
distribuciones de frecuencias de ambas variables. Para la representación gráfica el 3 102 ==========-==------===--------
programa ha confeccionado un histograma de la variable «inteligencia» y un diagrama 5 105 ==================---====-----==---------- -
4 108 ====================--===--------------
de barras de la variable «estrés después». Para el histograma se han agrupado los 3 111 -=====================--------
valores en intervalos de amplitud 3, de los que se presenta el punto medio (columna 2 114 ==========---------=
Midpoint). o 117
3 120 ====================-=--------
I Inteligencia o 123
Va lue La bel Val id Cum
Value Frequency Percent Percent Percent
77.00 1 2.5 2.5 2.5
81.00 1 Histogram Frequency
2.5 2.5 5.0
83.00 1 2.5 2.5 7.5
87.00 1 2.5 2.5 10.0
89.00 1 2.5 2.5 12.5
90.00
91.00
2 s.o 5.0 17.S Val id Cases 40 Missing Cases O
1 2.5 2.5
92.00
93.00
1 2.5 2.5
20.0
22.5 ----------------------------------------- -------------------
2 5.0 5.0 27.5
80 / Análisis de datos en psicologfa I

CUADRO 2.9 ( continuación)

E2 Estrés después

Va lue Labe l Value Frequency Percent


vaL10
Percent
Cum
Percent M edidas de posición
3
1.00 2 5. 0 5.0 5. 0
2.00 6 15 . 0 15.0 20 . 0
3.00 4 10. 0 10.0 30.0
4.00 9 22 . 5 22 . 5 52 . 5
5.00 7 17.5 17.5 70.0
6.00 10 25.0 25.0 95 . 0
7 . 00 2 5.0 5.0 100. 0
------- ------- -------
TOTAL 40 100.0 100.0

1. 00 ----------- 2
2. 00 =============================== 6
3. 00 =============================-- 4
9
iJg ---:::::::::::::::::::::::::::::::::
7. 00 ----------- 2
7
======== ==- 1 O

Val id Cases 40 Missing Cases o

CUADRO 2.10
3.1. Introducción.
Salida de ordenador
3.2. Centiles o percentiles.
Salida proporcionada por el SPSS/PC + al aplicar el programa manova, subcomando
plot, opción stemleaf, sobre la variable «inteligencia». 3.3. Otro cuantiles.
3 .3.1. Deciles.
Stem-and-leaf display for variable •• I Inteligencia 3.3.2. Cuartiles.
3.3.3. Equivalencia entre cuantiles.
7 . 7
8 • 13
8. 79 3.4. Problemas y ejercicios.
9• 0012334
9 • 5566889 3.4.1. Soluciones.
1O • 0123444
10. 667789
11 • 0124 Apéndice informático.
11 • 59
12 . 01

También podría gustarte