Está en la página 1de 9

AGRUPACION DE DATOS

ORDENAMIENTO DE DATOS EN ARREGLOS DE DATOS DE DISTRIBUCIONES


DE FRECUENCIA

Una ordenacin de datos es una de las formas ms sencillas de presentarlos:


organiza los valores en orden ascendente o descendente.
La ordenacin de datos ofrece varias ventajas con respecto a los datos sin
procesar:
1.- Podemos identificar los valores de mayor a menor rpidamente.
2.- Es fcil dividir los datos en secciones.
3.- Podemos ver si algunos valores aparecen ms de una vez en el arreglo
4.- Podemos observar la distancia entre valores sucesivos de los datos.
A pesar de las ventajas, en algunas ocasiones un ordenamiento de datos no
resulta til.
MEDIA ARITMETICA CALCULADA APARTIR DE DATOS AGRUPADOS
Cuando los datos se presentan mediante una distribucin de frecuencia, todos
los valores caen dentro de unos intervalos de clase dados q se consideran
coincidentes con las marcas de clases o puntos medios de cada intervalo.
MEDIANA
Es una coleccin de datos ordenados de magnitud es decir el valor medio o la
mediana aritmtica de los dos valores medios.
Ejemplo:
Sean los nmeros 5,6,6,6,7,8,8,8,8 en este ejemplo su mediana es 7
Para datos agrupados la mediana se obtiene mediante la interpolacin y su
frmula es:

L1= Limite real inferior de la clase mediana (es decir, la clase q contiene la
mediana)

N= Nmero total de datos (frecuencia total)


(f)= Suma de frecuencias de todas las clases por debajo de la clase
media.
mediana = Frecuencia de la clase mediana
c = Tamao del intervalo de la clase mediana
Geomtricamente, la mediana es el valor de x (abscisa) que corresponde ala
vertical q divide un histograma en dos partes de igual rea. Este valor de X se
denota a veces por
MODA
La moda es una serie de nmeros, es aquel valor que se presenta con mayor
frecuencia es decir es el valor ms comn. La moda puede no existir, incluso si
existe no puede ser nica.
Ejemplos:
El sistema 2,2,5,7,9,9,9,10,10,11,12,18 tiene de moda 9
El sistema 3,5,8,10,12,15,16 no tiene moda
El sistema 2,3,4,4,4,5,5,7,7,7,9 tiene dos modas, 4,7, y se llama bimodal.
Una distribucin q tiene una sola moda se llama unimodal.
En el caso de datos agrupados en el que se ha construido una curva de
frecuencias para ajustar los datos, la moda ser el valor (o valores) de X

correspondientes al mximo (o mximos) de la curva. Este valor de X se


representa a veces por

Agrupamiento de datos cuantitativos


Cuando existen gran cantidad de datos cuantitativos (discretos y continuos)
que se encuentran muy dispersos, las distribuciones de frecuencias sin agrupar
no son la mejor opcin para realizar una organizacin de datos, por lo cual se
hace necesario realizar una distribucin
en intervalos o clases, que hagan
posible un resumen de los datos de la
variable en estudio, para de esta manera
concentrar los datos y as acumular el
nmero de observaciones o frecuencias
contenidas para cada clase facilitando su
presentacin, adems de permitir un
anlisis de aspectos resaltantes que
seran muy difcil de observar con datos
individuales.
Es preciso aclarar que dichas clases, deben ser mutuamente excluyentes y
colectivamente exhaustivas, lo primero significa que las clases no deben estar
solapadas, es decir, un valor no puede pertenecer a dos clases de manera
simultnea; lo segundo expresa que todos los datos deben estar incluidos en
los intervalos definidos.
Cabe sealar que, las distribuciones de frecuencias en intervalos tienen como
principal desventaja, la perdida de individualidad de los datos, debido a que se
sabe que en determinada clase est contenida cierta cantidad de datos, sin
embargo no se conoce con exactitud los valores que toma, por lo tanto se
pierde el nivel de detalle y accesibilidad. Esta desventaja es atribuible cuando
los datos ya se encuentran organizados en intervalos, de lo contrario, es
posible retornar a los datos originales.
Por otro lado es importante tomar en consideracin que, al agrupar los datos
cuantitativos en intervalos, se debe elegir un nmero razonable de clases,
porque cuando se escoge un nmero muy grande el objetivo de simplificacin
no se obtiene, adems de que se puede correr el riesgo de tener muchas
clases con muy pocos datos; en el caso contrario, (se selecciona un nmero

muy pequeo de intervalos), se resume tanto los datos al punto de perder


informacin de utilidad.
Finalmente hay que recordar que tanto el nmero de clases como las
amplitudes de las mismas dependen de la naturaleza de los datos, el nmero
de datos disponibles para la agrupacin y el inters del investigador.
En Estadstica se estudian fenmenos aleatorios, que son aquellos cuyo
resultado no es previsible aunque se repitan en idnticas condiciones.
Colectivo o Poblacin: es el conjunto todos los individuos a los que va dirigido
el estudio estadstico.
Muestra: es el subconjunto de datos elegidos del colectivo que realmente se
analizan.
Variable estadstica: es cada una de las caractersticas que se miden de cada
uno de los individuos que forman la muestra.
Las variables estadsticas pueden ser cualitativas y cuantitativas.
Se dice que una variable estadstica es cualitativa cuando los valores que
puede tomar son atributos. Variables cuantitativas son aquellas que pueden
tomar valores numricos.
Las variables cualitativas pueden ser:
Nominales o categricas: los valores no admiten ordenacin, por ejemplo, el
color, o la marca de bebida preferida, o el partido poltico elegido, o el lugar de
procedencia, etc.
Ordinales: los valores de este tipo de variables admiten ordenacin, aunque
sean cualitativas, por ejemplo, el estado de salud de pacientes de un hospital:
Muy grave, Grave, Leve. Tambin son ordinales las variables que miden el
grado de satisfaccin conseguido por algn servicio: Muy mal, Mal, Regular,
Bien, Muy bien.
Las variables cuantitativas pueden ser:
Discretas: aquellas que solo pueden tomar valores aislados, y dados dos
consecutivos no puede haber valores intermedios, frecuentemente van
asociadas a procesos de conteo: N de ramas de un rbol, N de puestas en
nidos, N de miembros por familia, etc.
Continuas: aquellas variables numricas que, si se poseyesen instrumentos
con infinita precisin, su valor podra ser expresado con infinitas cifras
decimales, dados dos valores, por prximos que estn, siempre sera posible
encontrar valores intermedios entre ambos. La mayora de las variables que
implican una medicin son de este tipo: la temperatura de la atmsfera, la
velocidad del vuelo de un ave, la altura que alcanza un rbol, son ejemplos de
variables cuantitativas Continuas.

A veces, cuando las variables son numricas, es necesario conocer su escala


de medida:
Decimos que una variable numrica est medida en escala por intervalos
cuando no hay un cero absoluto origen de las medidas, por ejemplo: la hora de
llegada de un tren a una estacin, si se toma como cero las 24 horas del da
anterior y ha llegado un tren a las 0h 10 min. y otro a las 0h 20 min., sabemos
que el segundo lleg 10 minutos despus que el primero, pero no podemos
decir que el segundo haya tardado el doble que el primero en llegar, pues no se
ha adoptado un cero absoluto comn a todos los recorridos. Un ejemplo clsico
de este tipo de variable es la temperatura: si el aire hoy est a 10C y ayer
estaba a 20C, no podemos decir que la temperatura hoy sea el doble de la de
ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario,
para comprobarlo, basta con expresar ambas temperaturas en grados
Fahrenheit.
Una variable estadstica est medida en escala por ratios cuando existe un
cero absoluto, entonces podemos considerar diferencias entre las medidas y
tambin proporciones. La mayora de los fenmenos fsicos que consideremos
estn medidos en este tipo de escala, por ejemplo, la temperatura absoluta, en
grados Kelvin es una variable medida en escala por ratios, tambin el peso, la
longitud, o la masa lo son.
Estadstica descriptiva:
Es la parte de la estadstica que proporciona tcnicas para extraer y mostrar la
informacin que subyace en conjuntos de muy numerosos datos.
Cuando se acomete un estudio cientfico, es habitual medir gran cantidad de
parmetros sobre cada uno de los individuos elegidos, la estadstica descriptiva
univariante permite estudiar los datos correspondientes a cada caracterstica
sin considerar la influencia de las dems.
Tablas de frecuencias
Como resultado del estudio estadstico se posee una serie de estadillos o
cuestionarios, uno por cada individuo considerado en el que se recogen todas
las medidas realizadas a cada individuo. La tabla siguiente es un ejemplo de
uno de estos estadillos , en l se han anotado seis caractersticas de rboles
de un vivero despus de un ao de haber sido plantadas, la tabla recoge las
medidas correspondientes a los diez primeros.

rbol n

Replantado Grado
afeccin

1
2
3
4
5
6
7
8
9
10
Cdigos:

N
S
N
N
N
S
N
N
S
S
S: Si
N: No

de N
de
ramas
primarias
1
0
2
1
3
4
2
1
0
2
No

MG
NA
M
G
M
NA
L
L
MG
M
NA:
Afectado
L: Leve
M: Medio
G: Grave
MG:
Muy
Grave

Dimetro
(cm)

Altura (cm)

3,9
4,3
3,9
2,5
3,9
4,2
4,5
5,3
2,5
2,9

160,4
203,7
160,5
146,3
123,0
184,4
153,0
186,0
169,8
168,8

el primer paso para sintetizar la informacin es tabular los datos.


Consideraremos distintos tipos de agrupaciones de datos:
Tablas de frecuencias de datos en agrupamiento discreto:
Realizamos este tipo de agrupamiento cuando el nmero de posibles
respuestas a la variable en estudio es reducido. Las variables cualitativas se
prestan muy bien a este sistema de agrupamiento
Para construir una tabla de frecuencias de agrupamiento discreto se anotan en
una columna cada uno de los distintos valores que tome la variable y en la
columna siguiente su frecuencia o nmero de veces que se repite.
La tabla de frecuencia de la variable Replantado es:
Replantad frecuencia
o
S
4
N
6
Total:
10

La tabla de frecuencia de la variable X = Grado de afeccin es:


Grado de
afeccin
xi
NA
L
M
G
MG
Total

frecuencia frecuencia
relativa
ni
fi
2
0.2
2
0.2
3
0.3
1
0.1
2
0.2
10
1.0

La frecuencia relativa es la frecuencia absoluta dividida entre el nmero de


observaciones, indica la proporcin de datos que muestran un determinado
valor de la variable. Se puede expresar tambin en %.
La tabla de frecuencia de la variable X=Nmero de ramas primarias es.
N
ramas frecuencia
primarias

frecuencia
relativa

Frecuencia
acumulada

xi
0
1
2
3
4
Total

fi
0.2
0.3
0.3
0.1
0.1
1.0

Ni
2
5
8
9
10

ni
2
3
3
1
1
10

Frecuencia
acumulada
relativa
Fi
0.2
0.5
0.8
0.9
1.0

La frecuencia acumulada es el nmero de datos que presentan un valor menor


o igual que uno dado de la variable. La frecuencia acumulada relativa es la
proporcin de datos menores o iguales a uno dado.
Tablas de frecuencias de datos agrupados en clases:
Cuando tenemos una variable continua, o cuando, siendo discreta, el nmero
de valores diferentes es muy grande, se agrupan los datos en clases o
intervalos.
El nmero de intervalos o clases I a considerar es una cuestin importante y no
hay un criterio fijo para establecerlo. La frmula de Sturges es una de las que
se pueden utilizar para determinarlo, segn ella, I es el exponente de la primera

potencia de dos cuyo resultado supera al nmero de datos, con un mnimo de 4


clases.
Para el ejemplo que estamos comentando, con 10 datos, como 24>10, se toma
I=4.
Para determinar la amplitud de cada clase se divide el rango o diferencia entre
el mayor y el menor de los valores observados entre el nmero de clases I.
Para la variable dimetro, la amplitud es:
a

R 5.3 2.5 2.8

0.7
I
4
4

Si el cociente no es exacto se puede redondear por exceso, aunque eso har


que la ltima clase termine en un valor superior al mximo observado.
Para evitar dudas, se consideran todos los intervalos cerrados por la derecha y
abiertos por la izquierda, salvo el primero que se considera cerrado por ambos
extremos.
Cada clase o intervalo se identifica con una cifra llamada marca de clase, que
es la media entre ambos extremos.
La tabla de frecuencias de la variable dimetro es:
Clases

[2.5 ; 3.2]
(3.2 ; 3.9]
(3.9 ; 4.6]
(4.6 ; 5.3]

Marcas
de clase

frecuencia

frecuencia
relativa

frecuencia
acumulada

xi
2.85
3.55
4.25
4.95

ni
3
3
3
1

fi
0.3
0.3
0.3
0.1

Ni
3
6
9
10

frecuencia
acumulada
relativa
Fi
0.3
0.6
0.9
1.0

Bibliografa
Espinoza, B. (7 de Febrero de 2014). Prezi. Obtenido de
https://prezi.com/wumw191bi2mj/metodos-de-agrupacion-ypresentacion-de-datos/
Nancyt. (6 de Septiembre de 2010). Estadstica. Obtenido de http://nancytestadistica.blogspot.com/2010/09/agrupacion-de-datos.html

También podría gustarte