Está en la página 1de 13

Material 2

Organización y representación de la Información

2.1 Introducción.

Debido a que la información estadística generalmente se constituye de datos


relacionados con los individuos de una población o muestra específica, se puede estudiar
algunas de las características colectivas de los individuos a través de los datos que se
recogen como valores de las variables de interés.

Las observaciones (datos) correspondientes a una variable o a un grupo de variables en


estudio se pueden organizar como series estadísticas (secuencias de datos) relacionadas con
el tiempo, espacio u otro atributo en tablas de frecuencias tanto absolutas como relativas;
también es posible representar los datos mediante gráficos estadísticos acordes con las
escalas de medición de las variables. Tanto las tablas de frecuencia como los gráficos
permiten describir, interpretar y analizar la información correspondiente a un grupo de
individuos.

2.2 Series estadísticas.

Una serie estadística puede entenderse como una colección de datos estadísticos
clasificados, ordenados u organizados según un determinado criterio. Las series estadísticas
se pueden clasificar de la siguiente manera: series cronológicas, series espaciales, series
cualitativas y series cuantitativas entre otras.

2.2.1 Series cronológicas.

Las series cronológicas son secuencias de datos referentes a una característica o


variable que se estudia a través del tiempo, en un determinado espacio.

Ejemplo 2.1. Es una serie cronológica, X : importaciones de trigo canadiense en sacos


de 62.5 kilos por el puerto de Buenaventura (Colombia) en el periodo 2005 – 2009. La
información se presenta en la Tabla 2.1.

Año Toneladas métricas


2005 5950
2006 6700
2007 6900
2008 9800
2009 12500

Tabla 2.1

2.2.2 Series espaciales.

Las series espaciales son secuencias de datos referentes a una característica o variable
que se estudia a través del espacio, en un determinado tiempo.

Ejemplo 2.2. Es una serie espacial, Y : producción de papa en toneladas métricas en


los departamentos de la zona andina colombiana durante el año 2008. La información se
presenta en la Tabla 2.2.

Departamento Toneladas métricas


Nariño 34000
Cundinamarca 33000
Boyacá 21000
Cauca 15000
Tabla 2.2

2.2.3 Series cualitativas.

Las series cualitativas son secuencias de datos correspondientes a un atributo (variable


dada en escala nominal) independientes del espacio y del tiempo.

Ejemplo 2.3. Es una serie cualitativa, T : clase de trabajador en el sector educativo de


la ciudad de Tunja en el año 2007. Los datos se muestran en la Tabla 2.3.

Clase de trabajador No. de personas


Estatal 4500
En entidad privada 640
Independiente 50
En entidad semiprivada 500
Tabla 2.3

2.2.4 Series cuantitativas.

Las series cuantitativas son secuencias de datos que cuantifican (miden la cantidad o
intensidad) de una característica de los individuos pertenecientes a una población en
estudio, independiente del espacio y del tiempo.
Ejemplo 2.4. Este ejemplo ha sido adaptado de Bejarano [4]. Un ejemplo de serie
cuantitativa es I : niveles de ingreso mensual de una muestra de trabajadores en la fábrica
W en la ciudad de Cali 2006. Ver Tabla 2.4.

Nivel de ingresos Número de trabajadores


500000 - 600000 14
601000 - 700000 23
701000 - 800000 15
801000 - 900000 1
Tabla 2.4

2.3 Tablas de frecuencias

Una vez se ha determinado el tipo de serie estadística que corresponde a una variable
es posible realizar tablas de frecuencias que resumen la información a través de frecuencias
absolutas o frecuencias relativas. La frecuencia absoluta es el número de veces que aparece
un dato en una serie estadística y la frecuencia relativa es un porcentaje que se obtiene al
dividir cada frecuencia absoluta entre el total de los datos.
Ejemplo 2.5. Los siguientes datos corresponden a la variable, A : número de artículos
defectuosos producidos por cada una de las 4 máquinas en una fábrica de juguetes en la
semana 5 de producción. La máquina 1 (M1) produjo 5 artículos defectuosos, la máquina 2
(M2) produjo 10 defectuosos, la máquina 3 (M3) produjo 10 defectuosos y la máquina 4
(M4) produjo 15 defectuosos. Estos datos se pueden organizar como se indica en la Tabla
2.5.

A Frecuencia absoluta Frecuencia relativa


M1 5 5/40 = 0.125
M2 10 10/40 = 0.25
M3 10 10/40 = 0.25
M4 15 15/40 = 0.375
Tabla 2.5

El total de datos es N  40 , nótese que la suma de las frecuencias absolutas es igual a


“ N ” correspondiente al total de la población de artículos defectuosos, la suma de las
frecuencias relativas es igual a 1, es decir equivale al 100%. La Tabla 2.5 se denomina tabla
de frecuencias para datos no agrupados. En adelante, para datos no agrupados se denotará la
frecuencia absoluta con f i y la frecuencia relativa con hi .

Ejemplo 2.6. Los datos siguientes corresponden a la variable X : calificación obtenida


por 30 estudiantes que cursaron la asignatura Estadística I en una Universidad pública : 3.5,
3.8, 5.0, 3.0, 2.5, 4.0, 2.0, 5.0, 3.5, 2.5, 3.8, 5.0, 3.0, 2.5, 2.5, 4.0, 2.0, 1.0, 2.5, 1.0, 1.0, 3.0,
3.0, 2.5, 4.0, 2.0, 4.0, 5.0, 3.5, 2.5.

X fi hi
1.0 3 3/30 = 0.1
2.0 3 3/30 = 0.1
2.5 7 7/30 = 0.233
3.0 4 4/30 = 0.133
3.5 3 3/30 = 0.1
3.8 2 2/30 = 0.066
4.0 4 4/30 = 0.133
5.0 4 4/30 = 0.133
Tabla 2.6
El tamaño de la población es N  30 . Ahora se pueden ordenar los datos y determinar
las frecuencias absolutas, como se indica en la Tabla 2.6.

La frecuencia absoluta acumulada para datos no agrupados se denota con Fi y se


obtiene de la siguiente forma:
F1  f1
F2  f1  f 2



m
Fm  f1  f3  ...  f m   fi
i 1

La frecuencia relativa acumulada para datos no agrupados se denota con H i y se


obtiene de la siguiente manera:
H1  h1
H 2  h1  h2



m
H m  h1  h3  ...  hm   hi
i 1
La Tabla 2.7 corresponde a la tabla de frecuencias para el ejemplo anterior.

X fi hi Fi Hi
1.0 3 0.1 3 0.1
2.0 3 0.1 6 0.2
2.5 7 0.233 13 0.433
3.0 4 0.133 17 0.566
3.5 3 0.1 20 0.666
3.8 2 0.066 22 0.732
4.0 4 0.133 26 0.865
5.0 4 0.133 30 0.998
Tabla 2.7
A continuación se hace la interpretación de algunas de las frecuencias presentadas en la
Tabla 2.7.
 La frecuencia absoluta f 2 = 3, indica que 3 estudiantes de Estadística I obtuvieron
una calificación de 2.0.

 La frecuencia relativa h3 = 0.233 que representa al 23.3%, indica que el 23.3% del
total de estudiantes obtuvieron una calificación de 2.5 en Estadística I.

 La frecuencia absoluta acumulada F4 = 17, indica que 17 estudiantes obtuvieron


una calificación en Estadística I menor o igual a 3.0.

 La frecuencia relativa acumulada H 6 = 0.732 que representa al 73.2%, indica que


el 73.2% de los estudiantes obtuvieron una calificación en Estadística I menor o
igual a 3.8.

Las frecuencias se pueden representar en un plano cartesiano donde el eje horizontal


corresponde a la variable en estudio X y el eje vertical corresponde a la frecuencia
absoluta, como se presenta en la Gráfica 2.1.

De manera similar se construye la representación gráfica para las frecuencias relativas,


colocando en el eje vertical los valores decimales o porcentajes correspondientes a las
frecuencias relativas; como se indica en la Gráfica 2.2.
Ejemplo 2.7. Para trabajar con variables discretas se procede de manera similar, por
ejemplo si la variable X : número de trabajadores por empresa en un sector de la ciudad de
Bogotá toma los siguientes valores 50, 150, 80, 200, 20, 150, 150, 20, 150, 80, 80, 200, 20,
150, 150, 20, 80, 80, 150,150, los datos se pueden organizar como se indica en la Tabla 2.8.
La representación gráfica de los datos de la Tabla 2.8 se indican en la Gráfica 2.3 en la cual
cada frecuencia absoluta se ha representado por un segmento de recta trazado en forma
vertical en vez de una barra. La interpretación de la Tabla 2.8. se hace de manera similar a la
realizada para la Tabla 2.7.

X fi hi Fi Hi

20 4 0.2 4 0.20
50 1 0.05 5 0.25
80 5 0.25 10 0.50
150 8 0.4 18 0.90
200 2 0.1 20 1.00

Tabla 2.8
Cuando se tiene datos correspondientes a una variable continua es posible agrupar la
información en categorías o clases, especialmente cuando el número de datos es grande (50
o más datos). La cantidad de clases a incluir en la tabla de frecuencias es decisión del
investigador o del analista de datos, generalmente se organizan los datos en tablas de
frecuencias que contienen entre 4 y 14 clases. Es recomendable formar clases de igual
amplitud. Para elaborar tablas de frecuencias para datos agrupados se puede tener en cuenta
el siguiente algoritmo:

 Ordenar los datos y realizar aproximaciones cuando sea necesario.

 Encontrar el rango de la variable X : el rango de un conjunto de datos ordenados


pertenecientes a la variable X es igual a la diferencia entre el dato mayor y el dato
menor, se denota con R( X ) , es decir si se tienen los datos x(1)  x(2)  ...  x( N )
entonces, se calcula de la siguiente forma:

R( X ) = Dato mayor - dato menor

R( X )  x( N )  x(1)

Determinar el número de clases o grupos. Como se mencionó antes, el número de


clases depende de la cantidad de datos y del interés del investigador de agrupar la
información en un número determinado de clases. Una formula empírica que sirve de
referencia para determinar el número de clases es la fórmula de Sturges dada por la
expresión siguiente,
m = 1 + log(n) / log(2)

Donde n es el número de datos en una muestra, se puede sustituir n por N cuando se


trabaje con el total de datos en la población, m es el número de clases y log hace referencia
al logaritmo base 10. Algunas veces cuando n es relativamente pequeño (entre 50 o 100
datos) se puede usar m  n para calcular el número de clases.

 Encontrar la amplitud del intervalo, la cual se obtiene dividiendo el rango entre el


número de clases; es decir,
R
C
m

 Formar las clases empezando con el dato mínimo y aumentando cada vez la
amplitud del intervalo hasta que la última clase contenga al dato mayor.

Ejemplo 2.8. Se desea estudiar la variable X : ventas en millones de pesos en el mes de


Julio de 2008 de 50 restaurantes en la ciudad de Cali, los datos observados fueron:

332 333 335 338 338 191 191 192 198 200 203
205 208 208 227 227 227 226 225 225 219 214
209 230 230 230 230 235 240 240 246 247 295
280 280 278 275 268 267 260 297 300 310 330
331 296 200 220 245 250
Los datos como se indicaron anteriormente no están ordenados, es conveniente
ordenarlos ascendentemente de la siguiente forma,

191 191 192 198 200 200 205 208 208 209 209
214 219 220 225 225 226 227 227 227 230 230
230 230 235 240 240 245 246 247 250 260 267
268 275 278 280 280 295 296 297 300 310 330
331 332 333 335 338 338

Se obtiene el rango,

R  X  = 338 – 197 = 147

Se calcula el número de clases, con la ayuda de la fórmula:

log(50)
m  1
log(2)

m  6.64  7

Se recomienda organizar 7 clases, sin embargo si un investigador desea organizar 5


clases también puede hacerlo.

La amplitud de clase se calcula de la siguiente forma:


R 147
C   21
m 7

Con los anteriores elementos, se pueden formar intervalos semi abiertos que
corresponden a las 7 clases siguientes:

191, 212  ,  212, 233 ,  233, 254 ,  254, 275 ,  275, 296 ,  296,317  , 317,338
Para formar la tabla de frecuencias, se cuenta cuantos datos caen en cada clase y dicho
número corresponde a la frecuencia absoluta que para datos agrupados se denotará con f j
con j  1, 2,..., m . Para determinar las frecuencias relativas h j y las frecuencias acumuladas
( F j y H j ) se procede de modo similar a como se indicó en datos no agrupados.

La marca de clase x j es el punto medio de cada clase, este valor se utiliza para calcular
algunas estadísticas tales como el promedio y la varianza para datos agrupados, su análisis
se realizará en el Capítulo 3. Los valores Li y Ls se denominan límite inferior y límite
superior de clase respectivamente. Los resultados de organizar los datos se presentan en la
Tabla 2.9.

A continuación se hacen algunas interpretaciones de resultados consignados en la tabla


de frecuencias:

 La frecuencia absoluta f 2 = 13, indica que 13 restaurantes de los 50 estudiados en la


ciudad de Cali vendieron entre 212 y 233 millones de pesos en el mes de Julio de
2008.
X fj hj Fj Hj Marca de Clase
Li - Ls xj
191 – 212 11 0.22 11 0.22 201.5
212 – 233 13 0.26 24 0.48 222.5
233– 254 7 0.14 31 0.62 243.5
254 – 275 3 0.06 34 0.68 264.5
275 – 296 5 0.10 39 0.78 285.5
296 –317 4 0.08 43 0.86 306.5
317– 338 7 0.14 50 1.00 327.5
7

n = 50 h
j 1
j  100%

Tabla 2.9

 La frecuencia relativa h3 = 0.14 que representa al 14%, indica que el 14% del total
de los restaurantes estudiados en la ciudad de Cali vendieron entre 233 y 254
millones de pesos en el mes de Julio de 2008.
 La frecuencia absoluta acumulada F4 = 34, indica que 34 restaurantes de los 50
estudiados en la ciudad de Cali vendieron menos de 275 millones de pesos en el
mes de Julio de 2008.

 La frecuencia relativa acumulada H 3 = 0.62 que representa al 62%, indica que el


62% del total de los restaurantes estudiados en la ciudad de Cali vendieron menos
de 254 millones de pesos en el mes de Julio de 2008.

Si el investigador hubiese decidido formar 5 clases sin utilizar la fórmula de Sturges, la


amplitud de clase resultante sería,

R 147
C   29.4
m 5

Las 5 clases serían las siguientes:

191, 220.4 ,  220.4, 249.8 ,  249.8, 279.2 ,  279.2,308.6 , 308.6,338


La Tabla 2.10 contiene las frecuencias absolutas y relativas para este caso, también se
incluye la marca de clase.

X fj hj Fj Hj Marca de Clase
Li - Ls xj
191 – 220.4 14 0.28 14 0.28 205.7
220.4 – 249.8 16 0.32 30 0.60 235.1
249.8 – 279.2 6 0.12 36 0.72 264.5
279.2 – 308.6 6 0.12 42 0.84 293.9
308.6 – 338 8 0.16 50 1.00 323.3
5

n = 50 h j 1
j  100%

Tabla 2.10

En seguida se hacen algunas interpretaciones de resultados consignados en la tabla de


frecuencias 2.10,

 La frecuencia absoluta f 2 = 16, indica que 16 restaurantes de los 50 estudiados en la


ciudad de Cali vendieron entre 220.4 y 249.8 millones de pesos en el mes de Julio
de 2008.

 La frecuencia relativa h3 = 0.12 que representa al 12%, indica que el 12% del total
de los restaurantes estudiados en la ciudad de Cali vendieron entre 249.8 y 279.2
millones de pesos en el mes de Julio de 2008.
 La frecuencia absoluta acumulada F4 = 42, indica que 42 restaurantes de los 50
estudiados en la ciudad de Cali vendieron menos de 308.6 millones de pesos en el
mes de Julio de 2008.

 La frecuencia relativa acumulada H 3 = 0.72 que representa al 72%, indica que el


72% del total de los restaurantes estudiados en la ciudad de Cali vendieron menos
de 279.2 millones de pesos en el mes de Julio de 2008.

2.4 Representaciones gráficas de los datos numéricos.

Para representar datos numéricos se pueden utilizar diversas formas, tales como:
Histogramas, diagrama de Puntos, diagrama de Líneas, diagrama de Barras, diagrama de
Pastel, Ojivas, entre otros.

Los histogramas son recomendables para representar una característica cuantitativa


continua y en teoría, la variable con la que se representa dicha característica toma cualquier
valor en un intervalo de números reales dado. El histograma puede estar conformado por
barras con base igual a la amplitud de las clases que se formen. En base al histograma se
puede trazar el polígono de frecuencias.

Un polígono de frecuencias es una línea quebrada que se traza a partir de los puntos
medios de cada clase ubicados en la parte superior de cada barra del histograma. En la
Gráfica 2.4 se presenta el histograma y el polígono de frecuencias correspondiente a las
frecuencias que se indican en la Tabla 2.8.

El diagrama de puntos se elabora con base en las clases que se formen y contando las
veces que aparece un dato en una clase en particular, cada vez que se identifica que un dato
está en una clase en particular se representa superponiendo en esa clase un símbolo que se
decida utilizar.

Ejemplo 2.9. A continuación se presentan 100 datos correspondientes a la variable Y :


“peso” en libras de unos vehículos.

3504 3693 3436 3433 3449 4341 4354 4312 4425 3850 3090 4142
4034 4166 3850 3563 3609 3353 3761 3086 2372 2833 2774 2587
2130 1835 2672 2430 2375 2234 2648 4615 4376 4382 2130 2264
2046 1978 2634 3439 3329 3302 3288 4209 4464 4154 4096 4955
4746 5140 2962 2408 3282 3139 2220 2123 2074 2065 1773 1613
1834 1955 2278 2126 2254 2408 2226 4274 4385 4135 4129 3672
4633 4502 4456 4422 2330 3892 4098 4294 4077 2933 2511 2979
2189 2395 2288 2506 2164 2100 4100 3672 3988 4042 3777 4952
4464 4363 4237 2228
Con los datos de la variable Y : “peso en libras de unos vehículos”, usando el paquete
estadístico R con sus especificaciones por defecto en este caso, se construye el histograma
con 15 clases que se presenta en la Gráfica 2.5, también se incluye el polígono de frecuencias
(línea quebrada).
En la Gráfica 2.6 se presenta el diagrama de tallos y hojas para la variable mencionada
con 8 clases, el cual está conformado por números que se superponen cada vez que un dato
aparece ubicado como corresponde en una de las clases que se han formado, el tallo se
forma con uno o más dígitos iniciales de la medición y las hojas se forman con uno o más
de los dígitos restantes. Se remite al lector al Capítulo 5 para que observe el proceso que se
utiliza en R para la construcción del diagrama de tallos y hojas y se plantea en el trabajo
independiente la consulta de la elaboración de dicho diagrama.

Es importante mencionar que en la Gráfica 2.6 el tallo representado está formado por los
dígitos que encabezan la fila.

Frecuencia
absoluta clases

6,00 1. 678899
25,00 2. 0001111111222222223333444
11,00 3. 55566678999
12,00 4. 001223334444
12,00 5. 556666778889
27,00 6. 000001111112222333333344444
6,00 7. 566799
1,00 8. 1
Gráfica 2.6

También podría gustarte