Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de datos
2
2.1. Introducción.
Apéndice informático.
r
2.1. Introducción
compartían el valor 106 en inteligencia, o el valor 5 en estrés. Con estos símbolos c) Para la columna de frecuencias relativas dividimos cada frecuencia absoluta
podemos dar las siguientes definiciones: por n. Para detectar errores también aquí podemos hacer la comprobación
de que la suma de las Pi es igual a 1 (a veces esta columna no suma
aritméticamente 1, debido a que la necesidad de redondear las Pi distorsiona
Se llama frecuencia absoluta de un valor Xi, y se simboliza por ni, al número de los valores verdaderos; no es raro encontrar que la suma de esta columna da
veces que se repite el valor Xi en la muestra. valores iguales a 0,98 ó 0,99).
Se llama frecuencia relativa de un valor Xi, y se simboliza por Pi, al cociente d) Para obtener las frecuencias absolutas acumuladas sumamos para cada
entre la frecuencia absoluta de ese valor y el tamaño de la muestra. Es decir, valor su frecuencia absoluta más la absoluta acumulada del valor anterior.
Pi= n¡jn. De nuevo comprobamos que la frecuencia absoluta acumulada del valor
mayor es igual a n.
Se llama frecuencia absoluta acumulada de un valor Xi, y se simboliza por n., al
e) Para las frecuencias relativas acumuladas dividimos cada frecuencia absolu-
número de veces que se repite en la muestra ese valor Xi o cualquier otro valor
inferior. ta acumulada por n. La frecuencia relativa acumulada del valor mayor debe
ser igual a l.
Se llama frecuencia relativa acumulada de un valor X¡, y se simboliza por p 0 , al
cociente entre su frecuencia absoluta acumulada y el tamaño de la muestra. Es
TABLA 2.1
decir, Pa = n.Jn.
Distribución de frecuencias construida sobre el ejemplo
del número de hijos (véase texto)
A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en
términos porcentuales. En esos casos suelen representarse con mayúsculas; para
X; n, P; n, P.
obtenerlas basta con multiplicar por 100 las frecuencias relativas. Así, para cualquier
valor de la variable, X¡, tenemos que 4 1 0,05 20 1,00
3 3 0,15 19 0,95
Pi = Pi· 100 y P. = Pa · 100 2 7 0,35 16 0,80
l 6 0,30 9 0,45
Una distribución de frecuencias se organiza en forma de tabla, en cuya cabecera o 3 0,15 3 0,15
pueden aparecer todos o algunos de los elementos que acabamos de definir, aunque hay
uno, las frecuencias absolutas, que suele aparecer casi siempre. En una distribución de 20 1,00
frecuencias completa aparece, en primer lugar, una columna con los valores que adopta
la variable, creciendo de abajo hacia arriba; podrían ponerse en el orden inverso, pero
para uniformar su uso y aplicar automáticamente los procedimientos que veremos
De la inspección de la distribución confeccionada en la tabla 2.1 podemos
más adelante, en este libro adoptaremos siempre esa ordenación. A continuación de
extraer de forma inmediata algunas informaciones. Por ejemplo, en las frecuencias
los valores de la variable aparecen los cuatro elementos que hemos definido. Veámos-
absolutas comprobamos que el tamaño de familia más frecuente en la muestra es el
lo con un ejemplo (tabla 2.1); supongamos que a partir de una determinada población
de dos hijos, seguido de cerca por el de un solo hijo. Las familias sin hijos no son
un investigador selecciona una muestra de veinte familias, cuenta el número de hijos
~uy frecuentes. De la columna de frecuencias relativas acumuladas deducimos que
(X) y encuentra los siguientes valores: 2, 1, O, 3, 2, 2, 3, 1, 1, O, 1, 2, 1, 2, O, 2, 4, 2, 3 y l.
:olo una proporción de 0,20 de las familias (una de cada cinco) supera la barrera de
Construimos la distribución de frecuencias siguiendo los pasos descritos:
ª autorreproducción, es decir, tiene más de los dos hijos que significarían que por
a) La variable es cuantitativa discreta y toma valores entre O y 4 en esta cada pareja de adultos naciera una pareja de hijos.
muestra; por tanto ponemos en la primera columna esos valores, creciendo Aunque del ejemplo anterior pudiera deducirse lo contrario, no en todos los
de abajo hacia arriba. casos
d. las d.ist n.buc10nes
. . se confecc10nan
de frecuencias . . y
de una forma tan sencilla
b) Para la columna de frecuencias absolutas contamos el número de veces que _irecta. A veces surgen ciertas complicaciones, que ilustraremos en el siguiente
~JernpJo. Supongamos que recogemos las puntuaciones obtenidas por 100 sujetos en
se repite cada valor; si el número de valores es muy grande conviene ir
haciendo marcas por cada valor, para contarlas al final. Una forma de
comprobar que no hemos cometido ciertos tipos de errores es asegurarnos
t esca)~ C de conservadurismo de Wilson y Patterson (1970), y nos disponemos a
aonst~utr con ellas una distribución de frecuencias siguiendo los pasos descritos
ntenormente. p ara poner en la prunera
. .
columna los valores que adopta la vanable
de que la suma de las ni es igual a n.
52 / Análisis de datos en psicología I Organización y representación de datos / 53
debemos primero encontrar los valores máximo y mínimo en esta muestra [véase CUADRO 2.1
cuadro 2.1, apartado a)]. Comprobamos que el valor mayor es 69 y el menor es 16;
calculamos el número de filas que tendría nuestra distribución, que serian 54 en Ejemplo de distribución de f recuencias con datos agrupados en intervalos,
obtenidos a partir de la escala de conservadurismo de Wilson y Patterson ( 1970J
lugar de las cinco del ejemplo del número de hijos. Es fácil comprender que una
primera dificultad en la construcción de esta distribución de frecuencias es el excesi-
a) Datos directos o btenidos en una muestra de 100 sujetos:
vo número de valores distintos, que darían lugar a una tabla demasiado larga. Si a
algún lector todavía no le parece excesivo este número de valores, imagine lo que 51 35 36 41 33 28 57 62 43 69
pasaría si la variable fuese, por ejemplo, «ingresos mensuales»; probablemente en 42 33 62 53 37 36 48 53 39 41
una muestra al azar de 1.000 españoles encontraríamos centenares de valores distin- 19 47 18 62 33 54 29 35 61 60
tos. Una segunda dificultad que surge en nuestro ejemplo es que hay valores 27 31 36 44 45 30 21 52 59 52
intermedios que no aparecen, como el 67 ó el 68. El resultado seria, por tanto, una 35 30 37 42 37 31 29 42 28 25
43 49 23 37 28 27 41 35 37 28
tabla excesivamente grande e inmanejable que difícilmente ayudaría a los objetivos
50 34 22 31 34 43 32 36 25 30
para los que ha sido diseñada, y que exponíamos al comienzo de esta sección [véase
33 25 28 31 36 25 41 44 38 51
cuadro 2.1, apartado b)]. 50 46 26 40 53 36 31 34 51 65
Para mejorar la consecución de esos objetivos, en los casos en los que se dan 32 34 43 63 49 61 48 38 16 41
circunstancias como éstas suele aplicarse lo que se denomina una agrupación en
intervalos, y que consiste en formar grupos de valores consecutivos, llamados inter- b) Distribució n de frecuencias sin agrupar en intervalos (sólo los valores y las fre-
valos, y poner uno de estos grupos en cada fila, en lugar de poner cada valor cuencias absolutas):
individual por separado. Siguiendo con nuestro ejemplo, y dado que desde el menor
X, n, X, n, X, n, X, n, X, n, X, n,
al mayor hay 54 valores diferentes, podríamos, por ejemplo, hacer nueve grupos de
seis valores cada uno, comenzando por el grupo 16, 17, 18, 19, 20 y 21, y terminando 69 1 60 1 51 3 42 3 33 4 24 o
por el grupo 64, 65, 66, 67, 68 y 69. Cada uno de estos grupos suele indicarse en la 68 o 59 1 50 2 41 5 32 2 23
distribución de frecuencias poniendo los valores mayor y menor incluidos en él. Así, 67 o 58 o 49 2 40 1 31 5 22
los dos intervalos que acabamos de poner como ejemplo serían el 16-21 y el 64-69. A 66 o 57 1 48 2 39 1 30 3 21 1
continuación se calculan las frecuencias absolutas conjuntas de los valores incluidos
65 1 56 o 47 1 38 2 29 2 20 o
en el intervalo, haciendo lo mismo después con las frecuencias relativas, las absolu-
64 o 55 o 46 1 37 5 28 5 19 1
63 1 54 1 45 1 36 6 27 2 18 1
tas acumuladas y las relativas acumuladas [cuadro 2.1, apartado c)]. 62 3
En las distribuciones de frecuencias con valores agrupados en intervalos apare- 61
53 3 44 2 35 4 26 1 17 o
2 52 2 43 4 34 4 25 4 16
cen algunos elementos nuevos a los que vamos a poner nombre:
Para algunos autores no tiene sentido aplicar algunos de estos términos a todo de tos datos estarían concentrados en uno o dos intervalos. Para evitar eso se
tipo de variables. Por ejemplo, los limites exactos de los intervalos no serían distin- utilizan lo que se denomina intervalos abiertos, en los cuales no se pone el límite
tos de los aparentes o informados en variables discretas. La razón es que en esos ¡nferior del intervalo que incluye los valores menores, el límite superior del intervalo
casos los valores medidos no son redondeos debidos a la imprecisión de los instru- que incluye los valores mayores, o no se pone ninguno de estos dos. En la tabla 2.2
mentos de medida (véase el capítulo anterior). No obstante, nosotros no haremos aparece un ejemplo de distribución de este tipo.
distinción a estos efectos entre variables discretas y continuas.
Una cuestión que algunos lectores se estarán preguntando en este punto es la
razón por la que hemos decidido hacer nueve intervalos de seis valores, en lugar de TABLA 2.2
otras posibles combinaciones, como por ejemplo seis intervalos de nueve valores o
tres intervalos de dieciocho valores cada uno. Para hacer una distribución de Distribución de frecuencia,
con los datos agrupados en
frecuencias no hay unas normas muy rigurosas. Nosotros vamos a plantear tres intervalos, en la que aparece
reglas y algunas directrices. Las tres normas son las siguientes: un intervalo abierto. La variable
es «ingresos mensuales»
a) El intervalo superior debe incluir al mayor valor observado.
b) El intervalo inferior debe incluir al menor valor observado. x, n,
e) Cada intervalo debe incluir el mismo número de valores. + de 500.000 15
450.000-500.000 10
Pero son muchas las agrupaciones diferentes de los datos de nuestro ejemplo 400.000-450.000 20
que cumplen con estas reglas. Para decidir entre ellas hay que tener presentes 350.001-400.000 30
algunas directrices, basadas en dos guías principales: a) dado que el objetivo de 300.001-350.000 40
una distribución de frecuencias es conseguir una ordenación manejable que ayude 250.001-300.000 50
a comprender el significado de los datos, no es conveniente que el número de 200.001-250.000 100
150.001-200.000 200
intervalos sea demasiado grande, y b) como consecuencia de lo anterior, podemos
100.001-150.000 200
sentirnos inclinados a reducir al máximo el número de intervalos, pero lo cierto es
50.000-100.000 50
que esto traería consigo una consecuencia negativa. En concreto, los intervalos
tendrían una excesiva amplitud, y acabaríamos teniendo a sujetos con puntuacio- 715
nes muy distintas en el mismo intervalo. Más adelante, a la hora de hacer represen-
taciones gráficas y cálculos de estadísticos, nos veremos obligados a tratar los
valores de formas distorsionantes, cayendo en lo que se suele denominar error de
agrupamiento (véase más adelante el apartado sobre los supuestos de distribución La otra cuestión se refiere a lo que a veces se denomina problema de los bordes.
intraintervalo). Dado que estas dos guías nos orientan en sentidos contrarios, Supongamos que vamos a construir una agrupación en intervalos, siendo los valores
parece razonable adoptar soluciones de compromiso entre ellas. A pesar de lo mayor y menor observados iguales a 79 y 43, respectivamente. Como el número de
ambiguo de esta afirmación, lo que podemos decir es que el número apropiado de valores distintos seria igual a 37, que es un número primo, no pueden hacerse
intervalos debe ser tal que, simultáneamente, con ella se consiga una agrupación intervalos de amplitud constante tales que el mayor tenga al 79 como límite aparen-
operativa y que cumpla los objetivos para los que ha sido diseñada la distribución t~ superior y al 43 como límite aparente inferior. En estos casos suele añadirse al
de frecuencias, pero sin distorsionar excesivamente los valores con el error de hst ado de valores distintos observados algunos otros valores no observados en la
agrupamiento. muestra. Estos valores, por supuesto, tendrán frecuencias absolutas iguales a cero,
Terminaremos lo referente a la construcción de intervalos comentando dos P:ro nos permitirán conseguir un número de valores distintos que sea múltiplo del
últimas cuestiones. En primer lugar, a veces hay casos en los que hacer un número n~mero de intervalos que queremos hacer. Por ejemplo, en este caso podríamos
de intervalos siguiendo las directrices que acabamos de plantear distorsionarían anadir tres valores y hacer ocho intervalos de amplitud igual a cinco. Estos tres
demasiado los datos. Por ejemplo, si se trata de la variable «ingresos mensuales», Valores podrían añadirse por abajo (40, 41 y 42) o por arriba (80, 81 y 82), aunque
tendremos una mayoría de valores concentrados en torno a los valores centrales, y Para no distorsionar demasiado ninguno de los intervalos extremos es preferible
unos pocos que se desvían de éstos mucho por arriba. Si en un caso así se hiciera un ~epartirlos lo más homogéneamente posible entre los dos. En este caso podrían
número de intervalos en torno a diez, y de amplitud constante, la inmensa mayoría acerse los intervalos de forma que el inferior fuese el 41-45 y el último el 76-80, o
56 / Análisis de datos en psicología / Organización y representación de datos / 57
también podrían hacerse de forma que el inferior fuese 42-46 y el último el 77-81. Se CUADRO 2.2
trata de algo así como de crear, o incluir en la distribución de frecuencias, el hueco o Ejemplo numérico de los supuestos de distribución intraintervalo
lugar donde anotaríamos ciertos valores en caso de que se hubiesen dado, a pesar de
que de hecho no se han observado.
Se trata de un hipotético intervalo 58-63, que tiene frecuencia absoluta igual a ocho.
Una representación ampliada del intervalo, así como de su partición en subintervalos
iguales, sería la siguiente:
2.2.1. Supuestos de distribución intraintervalo
57,5 58,5 59,5 60,5 61,5 62,5 63,5
Una vez confeccionada una distribución de frecuencias con datos agrupados en
intervalos, ésta se puede utilizar para hacer representaciones gráficas y para facilitar 58 59 60 61 62 63
los cálculos de estadísticos que iremos explicando en capítulos posteriores. Si quere-
mos utilizar la distribución de frecuencias para ello, sin tener que recurrir a los datos 57,5 58,25 59,0 59,75 60,5 61,25 62,0 62,75 63,5
directos, hay que asumir ciertas interpretaciones de las distribuciones que suponen
un margen de error, pero que son imprescindibles. La situación sería una en la que
57,875 58,625 59,375 60,125 60,875 61,625 62,375 63,125
en lugar de contar con los datos directos, y de construir la distribución de frecuen-
cias, ésta se nos da hecha. Para ilustrarlo supongamos que lo único que se nos El intervalo original tiene una amplitud original de seis unidades, y sus límites exactos
proporciona del ejemplo descrito en la tabla 2.1 es la distribución que aparece en el son 57,5 y 63,5, pero al adoptar el supuesto de distribución homogénea se subdivide en
apartado c), ya confeccionada. Si queremos hallar la suma de las puntuaciones ocho subintervalos iguales, tal y como aparece en la gráfica. Se asignaría el punto
obtenidas, no podríamos hacerlo con precisión. No sabemos cuáles eran las dos medio de cada uno de estos subintervalos a una de las observaciones incluidas en el
observaciones del intervalo superior; sólo sabemos que eran valores entre 64 y 69. intervalo. Por tanto, los ocho valores en los dos supuestos de distribución intrainterva-
Dado que de cada puntuación sólo sabemos el intervalo al que pertenece, un lo serían los siguientes:
procedimiento que a veces resultará útil consiste en asumir el supuesto de concentra-
ción en el punto medio. Según este supuesto, trataríamos a esos dos datos como si Supuesto de concentración en el punto medio:
fueran dos valores iguales a 66,5, que es el punto medio de su intervalo. Esta forma 60,5 60,5 60,5 60,5 60,5 60,5 60,5 60,5
de actuar supone una cierta cantidad de error, pues en realidad los valores originales
eran 65 y 69. Sin embargo, a medida que los intervalos tienen frecuencias mayores, Supuesto de distribución homogénea:
estos errores se van reduciendo, dado que mientras que la sustitución de algunos de
ellos por el punto medio supone un incremento artificial, en otros lo que se produce 57,875 58,625 59,375 60,125 60,875 61,625 62,375 63,125
es una reducción artificial y, en general, tenderán a compensarse los dos tipos de
error.
También veremos más adelante algunos casos en los que el supuesto de con-
centración en el punto medio no resulta apropiado, porque interesa la adopción 2.3. Representaciones gráficas
de un criterio que asigne valores distintos a los elementos de un mismo intervalo.
Un criterio de este tipo se sigue cuando se asume el supuesto de distribución A partir de las distribuciones de frecuencias se pueden construir representacio-
homogénea, según el cual los valores incluidos en un intervalo se reparten con nes gráficas. La función de éstas es dar informaciones globales mediante un solo golpe
absoluta uniformidad en su interior. Es decir, que si en un intervalo hay cinco de vista. Las hay de muy diversos tipos, aunque nosotros vamos a centramos en
observaciones, aceptaremos que sus valores son los que tendríamos si partiéramos aquellas que más frecuentemente nos encontramos en el ámbito de la psicología. Tras
al intervalo en cinco subintervalos de igual amplitud y asignáramos a cada indivi- describir sus características pasaremos a establecer algunas convenciones acerca de su
duo el punto medio de un subintervalo. Por ejemplo, supongamos que en la dis- COnfección y, por último, trataremos el tema de la honestidad en las gráficas estadísticas.
tribución de la variable conservadurismo aplicáramos este supuesto. En ese caso,
el intervalo 58-63 quedaría partido en ocho subintervalos de igual amplitud, tal y 2.3.1. Representaciones gráficas de uso frecuente
como se detalla en el cuadro 2.2. En los capítulos siguientes iremos indicando en
qué casos asumiremos el supuesto de concentración en el punto medio y en qué a) Diagrama de rectángulos. Para hacer un diagrama de rectángulos se colocan
casos el de distribución homogénea. en el eje de abscisas las modalidades (o los números que las representan), y en el eje
58 / Análisis de datos en psicología I Organización y representación de datos / 59
n, 150 -
2 3 4
100 - Figura 2.3.-Perfil ortogonal construido sobre unas supuestas puntuaciones de un estudiante en cuatro
pruebas.
50 -
n,
15 -
10 -
2 primarios
5- 3 secundarios
1 1
Figura 2.4.- Pictograma construido sobre los datos de la variable «nivel cultural».
2 3 4
2
e) Histograma. Se utiliza para variables cuantitativas continuas con datos agru-
pados en intervalos. En el eje de abscisas se colocan los límites exactos de los
intervalos, y en el eje de ordenadas las frecuencias. Sobre cada intervalo se levanta
o 2 3 4
un rectángulo cuya altura sea igual a la frecuencia correspondiente. En la figura 2.6
aparece un histograma construido sobre los datos del ejemplo utilizado en el
Figura 2.7.- Polígono de frecuencias construido sobre la variable «número de hijos».
cuadro 2.1.
n, 25 n, 25
20 20
15 - 15 -
to 10
5 5
15,5 21,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 9,5 15,5 21,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 75,5
Figura 2.6.- Histograma construido sobre la variable «conservadurismo». Figura 2.8.- Polígono de frecuencias construido sobre la variable «conservadurismo».
Organización y representación de datos / 63
62 / Análisis de datos en psicologfa /
0,25-
20-
9,5 15,5 21 ,5 27,5 33,5 39,5 45,5 51,5 57,5 63,5 69,5 75,5
15
Figura 2.10. -Poligono de frecuencias acumuladas construido sobre la variable «conservadurismo».
10
170 50
2.3.3. Tendenciosidad en las representaciones o o
gráficas p N p N
Sin embargo, vamos a describir sucintamente en este punto cuáles son esas caracte.
rísticas o propiedades. Para ilustrarlas utilizaremos curvas suavizadas, que no son
más que polígonos de frecuencias sin ángulos, es decir, dibujadas limando las
esquinas y suavizando su trazado. Hay que tener en cuenta que los polígonos de
frecuencias dependen demasiado de la unidad de medida utilizada, de la agrupación
en intervalos hecha (en caso de haber recurrido a ello) y de las fluctuaciones
particulares esperables en una muestra concreta. Por ello, las curvas suavizadas
suelen ser representaciones más apropiadas que los polígonos de frecuencias simples.
Son cuatro las propiedades con las que describiremos las distribuciones de frecuencias:
a) Tendencia central. Una primera propiedad es la que se refiere a la magnitud
general de las observaciones hechas. Esta magnitud general puede cuantificarse
mediante unos índices conocidos como índices de tendencia central o promedios, y · tres distribuciones en las que A y B tienen tendencias centrales similares, Y
Figura 2.12.-EJemplloddeC . t que la variabilidad de Bes mayor que la de las otras dos.
que reciben ese nombre porque pretenden ser síntesis de los valores de la variable. menores que a e ' m1en ras
Así, en la figura 2.11 puede observarse que los valores del grupo A tienen una
tendencia central en torno al valor 90, mientras que la tendencia central de los del
grupo B está en torno al valor 100. e) Asimetría O sesgo. En la figura 2.13 aparecen las gráfi_cas de los grup?s A, BY C.
La del grupo A indica que, en generai la mayoría de los SUJetos han obterudo bunt~:r
. centrales en torno a la media, mientras que unos pocos han o te°:1 o
c1i::i aciones reiativamente altas y otros pocos han obtenido puntuaciones relativa-
~ente bajas: se dice que la distribución A es simétric~. Esto no ocurre ~n los gr~pos
B e En el primero de ellos hay muchas observac10nes con puntuac10nes b~JaS Y
:Cas .con puntuaciones altas, mientras que en el, segu~~o ocurre I? contrano_: se
~ice que las distribuciones B y C sufren de asimetna pos1t1va y negativa, re~pect1va-
mente Esta propiedad se refiere, por tanto, al grado en que los dato~ tienden a
conce~trarse en los valores centrales, en los valores inferiores al promed10d \1n I~s
valores superiores a éste. Existe simetría perfecta cuando ~n caso de .º dar ª
·
representación grafica · ¡ t razad a sobre la media, las dos mita es se
por una vert1ca
80 90 00 110
B A e
Figura 2.11.-Ejemplo de dos distribuciones con tendencias centrales distintas.
superponen perfectamente. Las distribuciones con asimetría negativa son propias CUADRO 2.4
de las pruebas, tareas o tests fáciles, en las que la mayoría de los sujetos puntúan
alto. Las distribuciones asimétricas positivas son típicas de pruebas, tareas o Ejemplos numéricos de distribuciones con distintas propiedades
tests difíciles, en las que la mayoría de los sujetos puntúan bajo. Las pruebas,
En el ejemplo, junto a los intervalos confeccionados con los valores de la variable,
tareas o tests de dificultad media suelen producir distribuciones más o menos
hemos dispuesto en diferentes columnas las frecuencias absolutas obtenidas en cuatro
simétricas.
grupos de 100 sujetos cada uno, que representaremos por las letras A, B, C y D. Estas
distribuciones de frecuencias pueden compararse, de forma simplemente visual, en las
propiedades que ·hemos descrito en el texto. Así, las distribuciones A y B tienen
d) Curtosis. Se refiere al grado de apuntamiento de la distribución de frecuen- tendencias centrales parecidas, pero la distribución A es más homogénea que la B; sin
cias. Si es muy apuntada, se llama leptocúrtica, y si es muy aplastada, se llama embargo, ambas distribuciones son simétricas. Por el contrario, las distribuciones C y
platicúrtica. Generalmente el grado de curtosis de una distribución se compara con D tienen el mismo grado de variabilidad, aunque la primera tiene asimetría negativa y
un modelo de distribución llamado «distribución normal», del que hablaremos en la segunda asimetría positiva.
capítulos posteriores, y que respecto a la curtosis se llama distribución mesocúrtica,
pues está entre los otros dos tipos de curtosis. En la figura 2.14 aparecen las Grupo
representaciones de tres grupos A, B y C; la del grupo A es leptocúrtica, la del B X; A B e D
mesocúrtica y la del C platicúrtica.
24-26 2 2 8 1
21-23 6 10 35 1
A
18-20 10 12 30 3
15-17 12 16 10 5
12-16 40 19 7 7
9-11 12 16 5 10
6-8 10 12 3 30
3-5 6 10 1 35
0-2 2 3 1 8
100 100 100 100
e) Se listan todos los tallos distintos en una columna, ordenados de forma CUADRO 2.5
creciente de arriba hacia abajo.
d) Se escribe cada hoja junto al tallo que le corresponda, preferiblemente Ejemplo de confección de un diagrama de tallo y hojas
ordenados según su valor.
Hemos obtenido las puntuaciones de 30 sujetos en una variable (el grupo de datos de la
En el cuadro 2.5 presentamos un ejemplo numérico sobre 30 observaciones. Al izquierda), y los hemos ordenado de menor a mayor (grupo de datos de la derecha):
igual que al tratar la agrupación en intervalos nos planteábamos la cuestión de cuál
es el número más apropiado de intervalos, ahora podemos plantearnos con qué 37, 72, 71, 65, 54, 78 32, 33, 37, 42, 46, 49
criterio decidimos el número de tallos. De nuevo hay que decir que no hay normas 85, 42, 49, 63, 61, 32 51, 54, 55, 57, 58, 61
estrictas sobre ello, y las directrices que podemos dar son tan generales como las que 51, 33, 77, 93, 85, 83 63, 63, 65, 68, 71, 72
dimos en aquel caso. En general, un número de tallos superior a cinco y que no pase 63, 55, 58, 46, 57, 73 73, 73, 73, 75, 77, 77
de veinte suele ser apropiado. Aparte de ser más fácil de construir, el diagrama de 73, 68, 73, 91, 75, 77 78, 83, 85, 85, 91, 93
tallo y hojas tiene varias ventajas sobre la distribución de frecuencias, y también algún
inconveniente: a) Los valores mayor y menor son 93 y 32, respectivamente.
b) Si tomamos la decena como tallo tendremos siete tallos distintos, que parece
a) Una primera ventaja es que permite identificar cada puntuación individual. un número apropiado. Por tanto, separamos las puntuaciones en dos partes,
En las distribuciones tradicionales sólo conocemos la frecuencia del interva- con un dígito cada una. Los tallos distintos ordenados de menor a mayor son
lo, y eso nos obliga a tratar los datos de ciertas maneras distorsionantes 3, 4, 5, 6, 7, 8 y 9.
(asumir la concentración en el punto medio o la distribución homogénea e) y d) Colocamos en columna los tallos y escribimos cada hoja junto a su tallo
dentro del intervalo). Sin embargo, la ventaja de retener cada valor indivi- correspondiente:
dual viene acompañada del inconveniente de que el diagrama de tallo y
hojas no facilita, como la distribución de frecuencias clásica, el cálculo de los 3 237
estadísticos que estudiaremos más adelante. 4 269
b) Ofrece simultáneamente tanto un listado de las puntuaciones como un 5 14578
6 13358
dibujo de la distribución. Efectivamente, si tumbamos el diagrama obtene-
7 123335778
mos una especie de histograma.
8 355
e) Al contener los valores de cada observación, es más fácil de modificar para 9 13
obtener un dibujo con un nivel de detalle distinto, mayor o menor, de la
distribución (véase un ejemplo en la parte final del cuadro 2.5).
Si a continuación decidimos rehacer el diagrama con un grado mayor de detalle,
d) Otra ventaja de esta técnica es que pueden representarse dos conjuntos de podemos hacerlo a partir del diagrama anterior, dividiendo cada tallo en dos partes:
datos simultáneamente en el mismo diagrama, con lo que se facilita la
comparación. En el cuadro 2.6 presentamos un ejemplo.
3- 23
3+ 7
4- 2
4+ 69
5- 14
5+ 578
6- 133
6+ 58 = La hoja toma valores entre O y 4
7- 12333 + La hoja toma valores entre 5 y 9
7+ 5778
8- 3
8+ 55
9- 13
72 / Análisis de datos en psicologfa I Organización y representación de datos / 13
CUADRO 2.6 -e, 2. A continuación se dan los resultados_ obtenidos por_,una muestra 50 ?e
universitarios. La característica medida es el tiempo de reacc1on ante un estimulo
Ejemplo de un diagrama de tallo y hojas conjunto
auditivo:
Disponemos de los datos de un grupo de control y otro experimental, ambos con 25 0,11 0,11 0,126 0,112 0,117 0,113 0,135
sujetos cada uno. Confeccionamos un diagrama de tallo y hojas en el que los tallos son 0,103
0,107 0,122 0,113 0,098 0,122 0,105
comunes y las hojas de cada grupo aparecen por separado.
0,119 0,1 0,117 0,113 0,124 0,118 0,132
0,108 0,115 0,12 0,107 0,123 0,109 0,117
Control Experimental 0,111 0,112 0,101 0,112 0,111 0,119 0,103
23, 21, 31, 30, 17 30, 27, 21, 19, 28 0,1 0,108 0,12 0,099 0,102 0,129 0,115
15, 15, 24, 27, 30 29, 33, 35, 22, 30 0,121 0,130 0,134 0,118 0,106 0,128 0,094
25, 28, 21, 22, 16 33, 28, 24, 26, 30 0,114
18, 31, 30, 24, 22 34, 35, 35, 25, 26
20, 31, 26, 25, 26 32, 29, 28, 27, 34
a) Obtenga la distribución de frecuencias absolutas y relativas con diez interva-
los de amplitud 0,005.
Control Experimental b) Obtenga la distribución de frecuencias acumuladas absolutas y relativas con
87655 l+ 9 los intervalos anteriores.
44322110 2- 124 e) Obtenga los límites exactos de dichos intervalos y los puntos medios.
876655 2+ 5667788899 d) Dibuje un polígono de frecuencias relativas.
111000 3- 00023344 e) Dibuje un polígono de frecuencias relativas acumuladas.
3+ 555
'"" f.. 3. Confeccione un diagrama de tallo y hojas con los datos del ejercicio 2.
En este diagrama de tallo y hojas conjunto se aprecia de forma inmediata que en
general los datos del grupo experimental tienden a concentrarse más en los valores
altos que los del grupo de control (los tallos más repetidos son, respectivamente, 4. ¿Qué valores asignaríamos a los cinco sujetos incluidos en el intervalo 15-16
veintes altos y veintes bajos). de una distribución de frecuencias, en caso de asumir cada uno de los supuestos de
distribución intraintervalo que hemos descrito en este capítulo?
..¡_ 5. Los sujetos de una muestra han respondido a una escala de agresividad. La
distribución de frecuencias ha sido la que aparece a continuación. Dibuje un polígo-
2.5. Problemas y ejercicios no de frecuencias comparativo y coméntelo.
2.5.1. Soluciones
d) p¡ 0,25
l.
X; n; na P; Pa 0,20
21-22 3 50 0,06 1,00
19-20 7 47 0,14 0,94
0,15
17-18 1 40 0,02 0,80
15-16 5 39 0,10 0,78
13-14 6 34 0,12 0,68 0,10-
11-12 6 28 0,12 0,56
9-10 8 22 0,16 0,44
7-8 8 14 0,16 0,28 0,05
5-6 6 6 0,12 0,12
50 1,00
0,0895 0,0945 0,0995 0,1045 0,1095 0,1145 0,1195 0,1245 0,1295 0,1345 0,1395 0,1445
e) Pa 1,00-
2. a) y b)
X; n; na P; Pa 0,80-
0,135-0,139 1 50 0,02 1,00
0,130-0,134 3 49 0,06 0,98
0,125-0,129 3 46 0,06 0,92 0,60 -
0,120-0,124 7 43 0,14 0,86
0,115-0,119 9 36 0,18 0,72
0,110-0,114 11 27 0,22 0,54 0,40-
0,105-0,109 7 16 0,14 0,32
0,100-0,104 6 9 0,12 0,18
0,095-0,099 2 3 0,04 0,06 0,20-
0,090-0,094 1 1 0,02 0,02
e)
Límites Puntos 0,0895 0,0945 0,0995 0,1045 0,1095 0,1145 0,1195 0,1245 0,1295 0,1345 0,1395 0,1445
exactos medios
3. El diagrama de tallo y hojas quedaría de la siguiente forma:
0,1345-0,1395 0,137
0,1295-0,1345 0,132 0,09 489
0,1245-0,1295 0,127 0,10 0012335677889
0,1195-0,1245 0,122 0,11 00112223334557778899
0,1145-0,1195 0,117 0,12 0012234689
0,1095-0,1145 0,112 0,13 0245
0,1045-0,1095 0,107
4. En el caso del supuesto de concentración en el punto medio, los cinco sujetos
0,0995-0,1045 0,102
0,0945-0,0995 0,097 tendrían la puntuación correspondiente al punto medio, es decir, 15,5; en el caso del
0,0895-0,0945 0,092 supuesto de distribución homogénea, serían los puntos medios de cinco subinterva-
los de amplitud igual, es decir, 14,7, 15,1, 15,5, 15,9 y 16,3.
76 / Análisis de datos en psicología I Organización y representación de datos / 77
5. Como se trata de dos muestras de tamaños marcadamente distintos (70 y 30, variables del ejemplo numenco que introducíamos en el primer capítulo. En el
respectivamente), confeccionamos polígonos a partir de las frecuencias relativas. cuadro 2.7 aparece la salida del programa frequencies aplicado a la variable «estrés
antes», con el subcomando histogram. En el cuadro 2.8 se ha utilizado el subcoman-
P;
0,40- ti.
do barchart para representar la variable «nivel cultural». En el cuadro 2.9 aparece la
I ' salida proporcionada al utilizar el subcomando hbar con las variables «inteligencia»
'
y «estrés después». En el cuadro 2.10 aparece el diagrama de tallo y hojas obtenido
0,30 con el programa manova, opción stemleaf, sobre la variable «inteligencia».
• M
/
Salida de ordenador
/
V
0,10- JI Salida proporcionada por el SPSS/ PC + al aplicar el programa frequencies, subcoman-
/
/ do histogram, sobre la variable «estrés antes».
E1 Estrés antes
3,5 6,5 9,5 12,5 15,5 18,5 Val id Cum
Valuelabel Value Frequency Percent Percent Percent
2.00 1 2.5 2.5 2.5
3.00 4 10.0 10.0 12.5
4.00 11 27 .5 27. 5 40.0
5.00 9 22. 5 22. 5 62.5
APÉNDICE INFORMÁTICO 6.00 9 22. 5 22. 5 85.0
7 . 00 6 15.0 15.0 100.0
------- ------- -------
Todos los paquetes estadísticos incluyen procedimientos para obtener distribu- TOTAL 40 100. O 100. O
ciones de frecuencias y representaciones gráficas, aunque para estas últimas hay
otros programas específicos que permiten obtener representaciones de mayor cali- C0UNT VALUE
dad y variedad.
1 2. 00
El programa frequencies del SPSS/PC + proporciona distribuciones de frecuen- 4 3. 00 ----------
cias y representaciones gráficas. Las distribuciones de frecuencias se confeccionan 11 4 . 00 --- - - - - ------- ------------
con unos criterios ligeramente diferentes a los que nosotros hemos utilizado. Por 9 5. 00 - ---------- - -- ------- -
9 6. 00 - --------- ----------- -
ejemplo, los valores crecen de arriba hacia abajo, y en lugar de proporcionar las 6 7. 00 ------------- - -
frecuencias relativas proporciona los porcentajes. También proporciona los porcen- 1 .• • .•.... l ... •• .•.. l • ..•..... l
tajes acumulados. Con el subcomando histogram se consigue un histograma. Con el O 4 8 12
Histogram Frequency
subcomando barchart se consigue un diagrama de barras. Estas dos representacio-
nes son muy parecidas entre sí; ambas se realizan en horizontal. Las únicas diferen-
Va Lid Cases 40 Missing Cases o
cias son que mientras que en el diagrama de barras sólo se incluyen las barras y las
frecuencias en los extremos derechos de éstas, en el histograma se incluye la frecuen-
cia de cada valor a la izquierda (columna encabezada con count) y un eje de abscisas
en la parte inferior de la gráfica. Con el subcomando hbar es el programa el que
decide entre la realización de un histograma o un diagrama de barras, en función del
número de valores distintos que adopta la variable. Para hacer un diagrama de tallo
Y hojas hay que utilizar el programa manova, con la opción stemleaf, dentro del
subcomando plot.
Como ejemplos de todo ello, hemos aplicado estos programas a algunas de las
78 / Análisis de datos en psicologfa /
Organización y representación de datos / 19
CUADRO 2.8
CUADRO 2.9 ( continuación)
Salida de ordenador
94.00 1 2.5 2.5 30.0
Salida proporcionada por el SPSS/ PC+ al aplicar el programafrequencies, subcoman- 95.00 2 s.o 5.0 35.0
do barchart, sobre la variable «nivel cultural». 96.00 2 5.0 5.0 40.0
98.00 2 5. 0 s.o 45.0
99.00 1 2.5 2.5 47.5
NC Nivel cultural
100.00 1 2.5 2.5 so.o
101 . 00 1 2.5 2.5 52.S
Val id Cum 102.00 1 2.5 2.5 SS.O
Va lue La bel Value Frequency Percent Percent 103.00 1 2.5 2.5 57 . 5
Percent
104.00 3 7.5 7.5 65.0
sin estudios 1.00 5 12.5 12.5 106.00 2 5.0 5.0 70.0
primarios 2.00 12.5
15 37 . 5 37. 5 50.0 107.00 2 5.0 5.0 75.0
secundarios 3.00 13 32. 5 32.5 108.00 1 2.5 2.5 77 .5
superiores 4.00 82. 5
7 17.S 17.5 100.0 109.00 1 2.5 2.5 80.0
TOTAL
------- ------- ------- 11 O. 00 1 2.5 2.5 82.5
40 100.0 100. O 111 • 00 1 2.5 2.5 85.0
11 2.00 1 2.5 2.5 87.5
114.00 1 2.5 2.5 90.0
sin estudios------------- 5 115 .00 1 2.5 2.5 92.5
primarios-------------------------------------- 15 119 . 00 1 2.5 2.5 95.0
secundarios------------------------- ------- - 13 120.00 1 2.5 2.5 97.5
superiores--------------------------------- 7 121.00 1 2.5 2.5 100.0
------- -------
100.0
-------
100.0
TOTAL 40
Val id Cases 40 Missing Cases o
Count Midpoi nt
o 75
1 78 ===-------
CUADRO 2.9 1 81 ========-=
1 84 ===-==----
Salida de ordenador 1 87 ===-------
4 90 -=================-======---------
4 93 =============--------------===----------
Salida proporcionada por el SPSS/PC+ al aplicar el programafrequencies, subcoman- 4 96 ==================-=-====--------------
do hbar, sobre las variables «inteligencia» y «estrés después». En ella aparecen las 4 99 ====================--========----------
distribuciones de frecuencias de ambas variables. Para la representación gráfica el 3 102 ==========-==------===--------
programa ha confeccionado un histograma de la variable «inteligencia» y un diagrama 5 105 ==================---====-----==---------- -
4 108 ====================--===--------------
de barras de la variable «estrés después». Para el histograma se han agrupado los 3 111 -=====================--------
valores en intervalos de amplitud 3, de los que se presenta el punto medio (columna 2 114 ==========---------=
Midpoint). o 117
3 120 ====================-=--------
I Inteligencia o 123
Va lue La bel Val id Cum
Value Frequency Percent Percent Percent
77.00 1 2.5 2.5 2.5
81.00 1 Histogram Frequency
2.5 2.5 5.0
83.00 1 2.5 2.5 7.5
87.00 1 2.5 2.5 10.0
89.00 1 2.5 2.5 12.5
90.00
91.00
2 s.o 5.0 17.S Val id Cases 40 Missing Cases O
1 2.5 2.5
92.00
93.00
1 2.5 2.5
20.0
22.5 ----------------------------------------- -------------------
2 5.0 5.0 27.5
80 / Análisis de datos en psicologfa I
E2 Estrés después
1. 00 ----------- 2
2. 00 =============================== 6
3. 00 =============================-- 4
9
iJg ---:::::::::::::::::::::::::::::::::
7. 00 ----------- 2
7
======== ==- 1 O
CUADRO 2.10
3.1. Introducción.
Salida de ordenador
3.2. Centiles o percentiles.
Salida proporcionada por el SPSS/PC + al aplicar el programa manova, subcomando
plot, opción stemleaf, sobre la variable «inteligencia». 3.3. Otro cuantiles.
3 .3.1. Deciles.
Stem-and-leaf display for variable •• I Inteligencia 3.3.2. Cuartiles.
3.3.3. Equivalencia entre cuantiles.
7 . 7
8 • 13
8. 79 3.4. Problemas y ejercicios.
9• 0012334
9 • 5566889 3.4.1. Soluciones.
1O • 0123444
10. 667789
11 • 0124 Apéndice informático.
11 • 59
12 . 01