Está en la página 1de 18
rganizacion y representaci6n 2 de datos 2.1. Introduccion. 2.2. Distribucién de frecuencias. 2.2.1. Supuestos de distribuci6n in- traintervalo, 2.3. Representaciones gréficas. 2.3.1. Representaciones gréficas de so frecuente. 2.3.2. Convenciones sobre las repre- sentaciones graficas. 2.3.3. Tendenciosidad en las repre- sentaciones graficas. 2.3.4, Propiedades de las distribu- ciones de frecuencias. 2.4. Diagrama de tallo y hojas. 2.5. Problemas y ejercicios. 2.5.1. Soluciones. Apéndice informético. 2.4. Introdueci6n En el capitulo anterior hemos descrito cuatro ejemplos en los que legabamos a ‘un punto donde nos encontribamos con un conjunto de valores tomados en una 0 ‘varias variables. A partir de ellos nos disponiamos a extraer conclusiones relaciona- das con los objetivos planteados al comicnzo de la investigacién. Para ello es ‘conveniente empezar por inspeccionar cuidadosamente los datos. A veces esta pri- ‘mera inspecci6n, previa a la realizacién de complejos célculos posteriores, nos aporta ya alguna informacion sobre circunstancias Ilamativas interesantes. Si se han observado pocos valores, porque la muestra es poco numetosa, a simple inspeccién visual de los mismos puede darnos una idea cabal de fo que los nimeros significan. Sin embargo, cuando la cantidad de niimeros recolectados es demasiado grande, y {te es el caso més frecuente, se hace dificil hacer una inspeccién di Beggars Fors ine so sue st reoraniar fos Gos tizando un formato més inetigibe que lt simple yustaosicion de nimeros. rento ‘i ‘ as. En este capitulo vamos a describir estos dos instrumentos, asi como una alternativa recientemente propuesta para las distribuciones de frecuencias, denomi- nada diagrama de tallo y hojas. Terminaremos el capitulo comentando en el apéndi- 6 la presencia de estos instrumentos en el SPSS/PC +. 2.2. Distribucién de frecuencias La distriby Kino clement gue aprecn en a liga omnis inns © la simbologia siguiente: representaremos por n la que trabaja- Mos, y que puede adoptar distintos valores, Ky Xo, Xs ui zs cada uno de esos eplores ‘Puede aparecer | mas de una vez en I ‘que componen la Westra; asi, en el ejemplo sobre Ia inoculacién de estrés habia varios sujetos que 50 J Aniisis de datos en psicologie 1 ‘compartian el valor 106 en inteligencia, o el valor 5 en estrés. Con estos simbolos podemos dar las siguientes definiciones: ‘un valor X, y se simboliza pola) de ese valor y el! Es decir, ‘Se ama_ se simboliza pox) al Se tla al Es decir, py = Malt A veoes las frecuencias relativas, ya sean simples 0 acumuladas, se expresan en. términos poreentuales. En esos casos suclen representarse con mayiisculas; para obtenerlas basta con multiplicar por 100 las frecuencias relativas. Asi, para cualquier valor de la variable, X, tenemos que B= pl y P P, -100 Una distribucién de frecuencias se organiza en forma de tabla, en cuya cabecera, pueden aparecer todos o algunos de los elementos que acabamos de definir, aunque hay uno, las frecuencias absolutas, que suele aparecer casi siempre. En una distribucion de frecuencias completa aparece, en primer lugar, una columna con los valores que adopta, la variable, creciendo de abajo hacia arriba; podrian ponerse en el orden inverso, pero para uniformar su uso y aplicar automiéticamente los protedimientos que veremos ‘més adelante, en este libro adoptaremos siempre esa ordenacidn, A continuacion de los valores de la variable aparecen los cuatro elementos que hemos definido. Vedmos- Jo con un ejemplo (tabla 2.1; supongamos que a partir de una determinada poblacion, un investigador selecciona una muestra de veinte familias, cuenta el nlimero de hijos (4) y encuentra los siguientes valores: 2, 1, 0,3, 2,2, 3,1, 1,0, 1,2,1,2,0,2 4.2.33 Construimos la distribucién de frecuencias siguiendo los pasos descritos: 4) La variable es cuantitativa discreta y toma valores entre 0 y 4 en esta muestra; por tanto ponemos en la primera columna esos valores, creciendo de abajo hacia arriba +b) Para la columna de frecuencias absolutas contamos el nimero de veces cue se repite cada valor, si el mimero de valores es muy grande conviene i haciendo marcas por cada valor, para contarlas al final. Una forma de comprobar que no hemos cometide ciertos tipos de errores es asegurarnos de que la suma de las nes igual an Organizacién y reprasentacién de datos | 61 ) Para la columna de frecuencias relativas dividimos cada frecuencia absoluta por n. Para detectar errores también aqui podemos hacer la comprobacién de que la suma de las p, es igual a 1 (a veces esta columna no suma aritméticamente 1, debido a que Ia necesidad de redondear las p, distorsiona Jos valores verdaderos; no es raro encontrar que la suma de esta columna da valores iguales a 098 6 0,99) 4) Para obtener las frecuencias absolutas acumuladas sumamos para cada valor su frecuencia absoluta mas la absoluta acumulada del valor anterior. De nuevo comprobamos que la frecuencia absoluta acumulada del valor mayor es igual a n. 6). Para las frecuencias relativas acumuladas dividimos cada frecuencia absolu- ta acumulada por n. La frecuencia relativa acumulada del valor mayor debe ser igual a 1 TABLA 21 Distribucién de frecuencias construida sobre el ejemplo del niimero de hijos (véaxe texto) 4 1] a0 i : ous os 2 | @ | as os i 6 | ow os ° | ois aus 2» | 100 De la inspeceion de la distribucién confeccionada en la tabla 2.1 podemos fattaer de forma inmediata algunas informaciones. Por ejemplo, en las frecuencias absolutas comprobamos que el tamafio de familia més frecuente en la muestra es el dos hijos, seguido de cerea por el de un solo hijo. Las familias sin hijos no son uy frecuentes, De ta columna de frecuencias relativas acumuladas deducimos que {io wna proporcion de 0,20 de las familias (una de cada cinco) supera la barrera de & autorreproduccién, es decir, tiene mas de los dos hijos que signficarian que por ada pareja de adultos naciera una pareja de hijos Aunque del ejemplo anterior pudiera deducrse lo contrario, no en todos los GOs las distribuciones de frecuencias se confeccionan de una forma tan sencilla y a. A veces surgen ciertas complicaciones, que ilustraremos en el siguiente {mPlo. Supongamos que recogemos las puntuaciones obtenidas por 100 sujetos en comaials € de conservadurismo de Wilson y Paterson (1970), y nos disponemos a ematttit con ellas una distribucion de frecuencias siguiendo los pasos deseritos iormente, Para poner en la primera columna los valores que adopta la variable Sia ene 82 / Anilisis de datos on psicologia 1 Organizacién y representacién de datos | 53 debemos primero encontrar los valores maximo y minimo en esta muestra [véase! CUADRO 21 cuadro 2.1, apartado a]. Comprobamos que el valor mayor es 69 y cl menor ¢s 16; calculamos el numero de filas que tendria nuestra distribucion, que serian S4 en Tugar de las cinco del ejemplo del nimero de hijos. Es facil comprender que una primera dificultad en la construccién de esta distribuci6n de frecuencias es el excesi- _Ejemplo de distribucion de frecuencias con datos agrupados en intervalos, optenidos a partir de la escala de conservadurismo de Wilson y Patterson (1970) Yo nimero de valores distintos, que darian lugar a una tabla demasiado larga. Si a on) maiete flgin lector todavia no le parece excesivo este nimero de valores, imagine lo que 35 2% 31 B pasaria si la variable fuese, por ejemplo, «ingresos mensuales»; probablemente en 3 36 » Tina mucstra al azar de 1.000 espatioles encontrariamos centenares de valores distin- a u or tos. Una segunda diffcultad que surge en nuestro ejemplo es que hay valores u x» 9 intermedios que no aparecen, como el 67 6 el 68. El resultado seria, por tanto, una 0 a B i tabla excesivamente grande ¢ inmancjable que difiilmente ayudaria a los objetivos 4 z 7 sae caus ha sido dachad,y que exponmos al comienzo de esta sein [vase 2 8 2s 8 cuadro 2.1, apartado 6)} fa x a Para mejorar la consecucion de esos objetivos, en Tos casos en los que se dan u a z } circunstancias como éstas suele aplicarse lo que se denomina una agrupacién en srcontjan'y que consiste en formar grupos de valores consecutivos,lamados inter 1) Distribucion de frecuencias sin agrupar en intervalos (sé los valores y Tas fre= valos, y poner uno de estos grupos en cada fila, en lugar de poner cada valor cuencias absolute individual por separado. Siguiendo con nuestro ejemplo, y dado que desde el menor al mayor hay 54 valores diferentes, podriamos, por ejemplo, hacer nueve grupos de seis valores cada uno, comencando por el grupo 16 17,18, 1,20 y 2, y terminando @ sor ol grupo 64, 65,66, 67, 68 y 69. Cada uno de estos grupos sucle indicarse en Ia 9 distribucion de frecuencias poniendo los valores mayor y menor incluidos en él. Asi, 8 los dos intervalos que acabamos de poner como ejemplo serian el 16-21 y el 64-69. A 7 Gotinuacign sc calelan ls fecueneias asoluasconinas de los valores incuidos 3 { tn el intervalo, haciendo lo mismo después con las frecuencias relativas, las absolu- ae i tas acumuladas y las relativas acumuladas (cuadro 2.1, apartado a t En las distribuciones de frecuencias con valores agrupados en intervalos apare- 2 i cen algunos elementos nuevos a los que vamos a poner nombre: Se lama cada uno de os grupos de valores que ocupan unas en tna distabucidn de (recuencias. En algunos textos se Hlaman clases. 7 , llaman a iterate 3 os ESETSES a tro de ese intervalo, segin el instru mento de medida utihzado, a ee incluidos en el intervalo y que podrian medirse si se contara con un instru- i mento de precisién perfecta. Se tama SBA de vn interval ala suma de sus nites ESTAR ‘En algunos libros se lama marca de clase. intervalo 2 1a éifrenci ents ite exact ‘Suele representarse por la letra [. 84 / Andivie de dotos en psicologi | Para algunos autores no tiene sentido aplicar algunos de estos términos a todo tipo de variables. Por ejemplo, los limites exactos de los intervalos no serian distin- 10s de los aparentes o informados en variables discretas. La razén es que en esos casos los valores medidos no son redondeos debidos a la imprecision de los instru- mentos de medida (véase el capitulo anterior). No obstante, nosotros no haremos distincion a estos efectos entre variables discretas y continuas. ‘Una cuestion que algunos lectores se estardn preguntando en este punto es la razon por la que hemos decidido hacer nueve intervalos de seis valores, en lugar de ‘otras posibles combinaciones, como por ejemplo seis intervalos de nueve valores 0 ‘res intervalos de dieciocho valores cada uno. Para hacer una distribucin de frecuencias no hay unas normas mu} yurosas. Nosotros vamos a plantear tres ‘als alines dss, lates Armas Sonik gues > 1a) El intervalo superior debe incluir al mayor valor observado. 6) El intervalo inferior debe incluir al menor valor observado. ‘¢) Cada intervalo debe incluir el mismo nimero de valores. Pero son muchas las agrupaciones diferentes de los datos de nuestro ejemplo que cumplen con estas reglas. Para decidir entre ellas hay que tener presentes algunas directrices, basadas en dos guias principales: a) dado que el objetivo de luna distribueion de frecuencias es conseguir una ordenacién manejable que ayude a comprender el significado de los datos, no es conveniente que el nimero de intervalos sea demasiado grande, y b) como consecuencia de lo anterior, podemos: sentirnos inclinados a reducir al maximo el nimero de intervalos, pero lo cierto es ‘que esto traeria consigo una consecuencia negativa. En concreto, los intervalos tondrian una excesiva amplitud, y acabariamos teniendo a sujetos con punt: nes muy distintas en el mismo intervalo. Mas adelante, a la hora de hacer represen- taciones graficas y calculos de estadisticos, nos veremos obligados a tratar los valores de formas distorsionantes, cayendo en lo que se suele denominar error de agrupamiento (véase més adelante el apartado sobre los supuestos de distribucion intraintervalo). Dado que estas dos guias nos orientan en sentidos contrarios, parece razonable adoptar soluciones de compromiso entre ellas. A pesar de lo ambiguo de esta alirmacién, lo que podemos decir es que el nimero apropiado de intervalos debe ser tal que, simulténeamente, con ella se consiga una agrupacion ‘operativa y que cumpla los objetivos para los que ha sido disefiada la distribucién, de frecuencias, pero sin distorsionar excesivamente los valores con el error de agrupamiento. ‘Terminaremos Jo referente a la construcci6n de intervalos comentando dos lltimas cuestiones. En primer lugar, a veces hay casos en los que hacer un némero de intervalos siguiendo las directrices que acabamos de plantear distorsionarian demasiado los datos. Por ejemplo, si se trata de la variable «ingresos mensuales», tendremos una mayoria de valores concentrados en torno a los valores centrales, y ‘unos pocos que se desvian de éstos mucho por arriba. Sien un caso asi se hiciera un nimero de intervalos en torno a diez, y de amplitud constante, la inmensa mayoria Orgonizeciin y epresentacién de detos | 85 de los datos estarian concentrados en uno 0 dos intervalos. Para evitar eso se (iilizan lo que se denomina intervalos abiertos, en los cuales no se pone el limite jnferior del intervalo que incluye los valores menores, el limite superior del intervalo {que incluye los valores mayores, o no se pone ninguno de estos dos. En la tabla 22 parece un ejemplo de distribucion de este tipo. TABLA 22 Distribucion de frecuencia, con los datos agrupados en intervalos, en la que aparece un intercalo abierto. La variable es aingresos mensuales» ™ “+ de 500.000 15 +450.000-500.000 10 400,000-450.000 2» 350,001-400.000 30 300.001-350.000 40 250.001-300.000 50 200.001-250.000 100 150.001-200,.000 200 100.001-150.000 200 '0000-100.000 50 75 Le otra cuestion se refiere a lo que a veces se denomina problema de los bordes. Supongamos que vamos a construir una agrupacién en intervalos, siendo los valores ‘mayor y menor observados iguales a 79 y 43, respectivamente. Como el niimero de Valores distintos seria igual a 37, que es un nimero primo, no pueden hacerse Intervalos de amplitud constante tales que el mayor tenga al 79 como limite aparen- {t superior y al 43 como limite aparente inferior. En estos casos suele afiadirse al listado de valores distintos observados algunos otros valores no observados en la Muestra. Estos valores, por supuesto, tendrém frecuencias absolutas iguales a cero, Pero nos permitirdn conseguir un niimero de valores distintos que sea miiltiplo del Zimero de intervalos que queremos hacer. Por ejemplo, en este caso podriamos Static tres valores y hacer ocho intervals de amplitud igusl a cinco. Estos tres es podrian aftadirse por abajo (40, 41 y 42) 0 por arriba (80, 81 y 82), aunque Para no distorsionar demasiado ninguno de los intervalos extremos es preferible [tPartirlos 1o més homogéneamente posible entre los dos. En este caso podrian wccrse los intervalos de forma que el inferior fuese el 41-45 y el diltimo el 76-80, 0 86 / Andie de datos en peicologie 1 también podrian hacerse de forma que el inferior fuese 42-46 y el iltimo el 77-81. Se trata de algo asi como de crear, o incluir en la distribucién de frecuencias, el hueco 0 lugar donde anotariamos ciertos valores en caso de que se hubiesen dado, a pesar de que de hecho no se han observado. 2.2.1. Supuestos de distribucién traintervalo Una ver confeccionada una distribucién de frecuencias con datos agrupados en intervalos, ésta se puede utilizar para hacer representaciones grificas y para faciitar 19s calculos de estadisticos que iremos explicando en capitulos posteriores, Si quere- ‘mos utilizar la distribucion de frecuencias para ello, sin tener que recurrir a los datos directos, hay que asumir ciertas interpretaciones de las distribuciones que suponen un margen de error, pero que son imprescindibles. La situacién seria una en la que cn lugar de contar con los datos directos, y de construir la distribucion de frecuen- cias, ésta se nos da hecha. Para ilustrarlo supongamos que lo tinico que se nos roporciona del ejemplo descrito en fa tabla 2.1 ¢s la distribucion que aparece en el apartado ¢), ya confeccionada. Si queremos hallar la suma de las puntuaciones ‘obtenidas, no podriamos hacerlo con precisién. No sabemos cuiles eran las dos ‘observaciones del intervalo superior, s6lo sabemos que eran valores entre 64 y 69. Dado que de cada puntuacién sélo sabemos el intervalo al que pertenece, un procedimiento que a veces resultard itil consiste en asumir el supuesto de concentra~ cidn en el punto medio. Segin este supuesto, tratariamos a esos dos datos como si fueran dos valores iguales a 66,5, que es el punto medio de su intervalo. Esta forma de actuar supone una cierta cantidad de error, pues en realidad los valores originales ‘eran 65 y 69. Sin embargo, a medida que los intervalos tienen frecuencias mayores, ‘estos errores se van reduciendo, dado que mientras que la sustitucion de algunos de ellos por el punto medio supone un incremento artificial, en otros lo que se produce es una reduccién artificial y, en general, tenderén a compensarse los dos tipos de error. ‘También veremos més adelante algunos casos en Ios que el supuesto de con- centracién en el punto medio no resulta apropiado, porque interesa la adopcién de un criterio que asigne valores distintos a los elementos de un mismo intervalo. Un criterio de este tipo se sigue cuando se asume el supuesto de distribucién ‘homogénea, segin el cual los valores incluidos en un intervalo se reparten con absoluta uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones, aceptaremos que sus valores son los que tendriamos si partiéramos al intervalo en cinco subintervalos de igual amplitud y asigndramos a cad: duo el punto medio de un subintervalo. Por ejemplo, supongamos que en la dis- tribucién de la variable conservadurismo apliciramos este supuesto. En ese caso, cl intervalo 58-63 quedaria partido en ocho subintervalos de igual amplitud, tal y como se detalla en el cuadro 2.2. En los capitulos siguientes iremos indicando en ‘qué casos asumiremos el supuesto de concentracién en el punto medio y en qué casos el de distribucién homogénea. Orgonizecién y epresentacién de detos | 57 CUADRO 2.2 Ejemplo numérico de los supuestos de distribucién intraintercalo Se trata de un hipotético intervalo 58-63, que tiene frecuencia absoluta igual a ocho. Una representacién ampliada del intervalo, asi como de su particion en subintervalos igual, seria la siguiente: 315 585 95 605 615 os 6s Be eS 38 9 0 6 a 6 57S $825 590 59,75 OS 12S OSS 5787S $8625 59,375 60.125 60875 61,625 62375 63,125 El intervalo original tiene una amplitud original de seis unidades,y sus limites exactos son 57,5 y 63,5, pero al adoptar el supuesto de disribucion homogénea se subdivide en ‘cho subintervalos iguales, tal y como aparece en la grafica. Se asignaria el punto medio de cada uno de estos subintervalos a una de las observaciones incluidas en ef intervalo. Por tanto los ocho valores en los dos supuestos de distribuci6n intrainterva- To setian los siguientes: Supuesto de concentracién en el punto medio: os 6s mS OS 60S 6S 60S OS Supuesto de distribucion homogénea: S78TS $8628 5937S 60125 6OSTS 61,625 62,375 63,125 2.3, Representaciones grat as A partir de las distribuciones de frecuencias se pueden construir representacio- ‘Res graficas, La funcién de éstas es dar informaciones globales mediante un solo golpe de vista. Las hay de muy diversos tipos, aunque nosotros vamos a centramos en Squellas que mis frecuentemente nos encontramos en cl Ambito de la psiologia. Tras dkscribir sus caracerisicas pasaremos a esablecer algunas convenciones acerea de st Sonfeccion y, por iltimo, trataremos el tema de la honestidad en las gréficas estadisticas. gréficas de uso frecuente Inoer un diagrama do rectingulos se colocan (0 los ntimeros que ls representaa),y en fe 5B / Anilisis de detos en psicologie 1 8 (pueden ser absolutas o relativas st fa modalidad se levanta un rectangulo cuyé La base de los rectingulos sera arbitraria, pero igual para todos, En la figura 2.1 aparece un diagrama de rectingulos de la variable estado civil en un stico. Este tipo de representacio le utilizar para variables SORRIII tcotien w ce pce vied, como earl nuestro ejemplo, que aparece en la figura 2.2. Orvenicecisn y representacién de datos | 5 150 i 2 es 100 igure 2.—Pedlorogonalconstrido sabre unas supuestas puntuaciones de wn estadiante en cuatro pruebas. 0 - on representaciones en forma de AMM en las que éstos son Sere aeh cuya superficie es proporcional a la frecuencia de la modali- pm 24-—Diugrana de rctingls consist evra mtd dad correspondiente. A veces, cuando el interés del trabajo lo aconsea, se separa tuna de las secciones del pictograma, con objeto de captar la atencién del lector. Ea fa figura 2.4 aparece un pictograma de la variable «nivel cultural 6 ee ® 2 inass : 3 secundarias l ere ets Pius 24—Pograna soni sl ton Figura 2.2—Diageama de rectingulos construido sobre Ia variable evel cultural» iables En el Ta variable y en Sobre cada valor de la variable se traza una linea 0 barre b) PQ@AMBHOROMAD)Se utiliza mucho en EER ° de rendi- ular cuya altura debe ser igual a la frecuencia, En la figura 2.5 aparece un diagrama nieta, nas figuea 2 kpméce tin pet bocee coors eae obtanitay de barras correspondiente al ejemplo de la variable «nimero de hijos» que utiiza- por un alumno @ lo largo de cuatro examenes ‘os anteriormente 60 / Ansisis de dotos en psicologte 1 ot a ae Figura 25—Diagrama de barrasconsruido sobre la variable xnimeto de hijosn. ©) FEBIORIAMA, Se wiliza para En el ¢ jobre cada intervalo se levanta tun rectangulo cuya altura sea igual a la frecuencia correspondiente. En la figura 2.6 aparece un histograma construido sobre los datos del ejemplo utilizado on el cuadro 21, | I55 215 275 335 385 455 515 575 83 695 Figura 2.6.—Histograma construido sobre Ia variable aconsevadursmo», Ovganizacisn y representacién de detos | 61 Para et potigono de frecuencias es D Superiores de las que hubieran sido las fe resulta de unir los extremos supe In igs > jera hecho una grea como la deserita en el apartado d), Sie trata ae eros deci 1 miso per efi = MEER Te eye riaguoscomemondictcs a un pokes de as bo Jovcon esos mismos dates, En ls figuras 2.7 y28 presentamos ejemplos a orssnos de frecuencias, uno con la variable «ntimero de hijs» y el otro con los yas para el hstograma de la igure 26 Ms aggre area anise Lela igura 27-—Poligono oe tecuencias consruide sobre I vatabte saeco de his 95 155 US 275 HS IS 455 51S 575 5 05 155 Figura 28.—Poligono de frecuencas construdo sobre la variable dconservadurismo», 62 / Anbisis de dotos en pscologta 1 niliza e je en el fa sean absolutas ida valor se traza una perpendi DME aya MS Sextet cnceme sper ais a oe cot Calas ensue Mn Berta ua oa Ob Sasa eStaa eo emecotce oe te «niimero de hijos». 15 10. o 1 2 3 4 Figura 29—Diagrama de barras acumulatvo construido sobre la variable enimero de hijs» ) LATTER Siz.

También podría gustarte