Está en la página 1de 8

ASIGNATURA: ESTADSTICA DESCRIPTIVA

TEMA: FORMAS DE PROCESAR Y ORGANIZAR LA INFORMACIN


ESTADSTICA DESCRIPTIVA
CENTRO TECNOLGICO DE CCUTA
Introduccin
El propsito central de la organizacin de datos es facilitar el conocimiento del
comportamiento de la variable objeto de inters, para que sea posible extraer
conclusiones que faciliten la toma de decisiones.
Datos Originales (Brutos o crudos). Se les denomina asi a la serie de valores que no
han sido organizados numricamente. Ejemplo: Los siguientes corresponden a la
permanencia de 12 pacientes que fueron dados de alta en el hospital Erasmo Meoz
(HEM) de Ccuta.
8

Conceptos bsicos para la elaboracin de tablas de frecuencias y sus grficos.


Para la elaboracin de una tabla de frecuencias se deben definir los siguientes trminos:
Tamao de la muestra (n): es el total de datos que se tendrn en cuenta para el
estudio.
Frecuencia absoluta (ni): Representa el nmero de veces que cada valor de la
variable se repite, y se construye contando la repeticin de los valores respectivos.
Frecuencia absoluta acumulada (Ni): se construye agregando a la frecuencia absoluta
de cada valor de la variable las frecuencias absolutas de los valores anteriores.
Frecuencia relativa (hi): Representa el nmero de veces que repite el valor de la
variable respecto al nmero total de datos. Se calcula dividiendo cada frecuencia
absoluta entre el tamao de la muestra o poblacin. (Se puede expresar como
fraccin, decimal o porcentaje al multiplicar por cien cada valor).

En este caso por simple observacin es posible afirmar que la mnima estada registrada
en tal conjunto de datos fue 2 das y la mxima fue 9 das. Tambin se puede decir que el
tiempo de mayor estada fue fueron 6 das. Cabe resaltar que estas afirmaciones no se
pudieran hacer con tal facilidad si tratramos con 50, 100 o 300 datos.

Frecuencia relativa acumulada (Hi): se construye agregando a la frecuencia relativa


de cada valor de la variable las frecuencias relativas de los valores anteriores.

Arreglo: Es la forma ms elemental de organizacin de datos y consiste en disponer los


datos originales segn su magnitud (en orden ascendente o descendente). En el ejemplo
anterior el arreglo quedara como sigue:

Como ya se mencion antes se debe tener en cuenta el tipo de variable objeto de estudio
pues la elaboracin de la tabla o distribucin difiere si se trata de una variable continua o
se trata de una discreta.

Aqu podemos ver con ms claridad las tres afirmaciones anteriores sobre el
comportamiento de la variable estadstica.
Distribucines de frecuencias
Es un mtodo para organizar y resumir datos. Bajo este mtodo los datos se clasifican y
ordenan, indicndose el nmero de veces que se repiten. En estadstica las distribuciones
de frecuencia se aplican para datos agrupados y no agrupados. Por lo general cuando
utilizamos variables cuantitativas continuas debemos agrupar los datos en intervalos de
clase, mientras que para variables cualitativas y cuantitativas discretas utilizamos las
distribuciones de frecuencia sin agrupar los datos.

1. Datos no agrupados (Variable discreta)


1.1 Tabla de frecuencias
Ejemplos: Elaborar la distribucin de frecuencia en datos no agrupados para los das de
estada de los 12 pacientes dados de alta en el HEM.
Solucin: Partiendo del arreglo antes descrito podemos ver que la variable toma como
valores enteros desde 2 das hasta 9 das para cada uno de los 12 (n) pacientes.
X1=2

X2=2

X3=3

X4=4

X5=5

X6=6
1

X7=6

X8=6

X9=7

X10=8

X11=8

X12=9

De acuerdo a los trminos antes definidos procedemos a realizar la tabla de la siguiente


forma:
DISTRIBUCIN DE FRECUENCIAS PARA LA ESTADA DE 12 PACIENTES DEL HEM
Variable
Frecuencia
Frecuencia
Frecuencia
Frecuencia
Yi
Absoluta
absoluta
Relativa
Relativa
ni
Acumulada Ni
Acumulada Hi
hi
2
2
2
0,016 o 16,7%
16,7%
3
1
3
8,3%
25%
4
1
4
8,3%
33%
5
1
5
8,3%
41,6%
6
3
8
25,1%
66,7%
7
1
9
8,3%
75%
8
2
11
16,7%
91,7%
9
1
12
8,3%
100%
Total
12
--------------------100%
---------------------Fuente: Departamento Consulta Externa.
Ejemplo 2: Supongamos que se tiene una poblacin constituida por 2000 cajas y
deseamos examinarlas, con el fin de determinar el nmero de piezas defectuosas que
contiene cada caja. Por diferentes razones, se desea que la investigacin no sea
exhaustiva, es decir, no examinar la totalidad de las 2000 cajas sino, por el contrario,
seleccionar una muestra de tamao 20, correspondiente a una investigacin parcial. El
resultado de esta encuesta se anota a continuacin. Siendo X1 la primera caja examinada
y 3 el nmero de piezas defectuosas encontradas en esa caja. Obtenga la tabla de
distribucin de frecuencias.
X7=1 X8=1 X9=0 X10=1
X1=3 X2=2 X3=0 X4=2 X5=3 X6=3
X11=3 X12=3 X13=4 X14=4 X15=3 X16=2 X17=4 X18=2 X19=4 X20=2

n1=2

n2=3

n3=5

n4=6

n5=4

c) Se Completa la tabla de frecuencias por columnas de acuerdo con el orden mostrado


Obteniendo finalmente:

DISTRIBUCIN DE FRECUENCIAS PARA DETERMINAR EL NUMERO DE PIEZAS DEFECTUOSAS

Variable
Yi

Frecuencia
Frecuencia
Absoluta
absoluta
ni
Acumulada Ni
0
2
2
1
3
5
2
5
10
3
6
16
4
4
20
Total
20
-------------------FUENTE: Departamento de Produccin

Frecuencia
Relativa
hi
10%
15%
25%
30%
20%
100%

Frecuencia
Relativa
Acumulada Hi
10%
25%
50%
80%
100%
---------------------

1.2.1 Representacin grfica


Las grficas sirven para visualizar mejor la informacin y son complemento de las tablas.
En la variable discreta la representacin se llama Diagrama de Frecuencias. Para la
elaboracin del grfico se debe tener en cuenta que en el eje horizontal se colocan los
distintos valores de la variable Yi; y en eje vertical se colocan los valores de las
frecuencias absolutas o absolutas acumuladas.
Para el ejemplo anterior los grficos correspondientes seran as:
Diagrama de frecuencias absolutas

Solucin: Tamao de la muestra n=20


a. Se determinan los valores que toma la variable Yi (nmero de piezas defectuosas).
Los valores de Yi son: 0,1,2,3 y 4
Y1=0

Y2=1

Y3=2

Y4=3

Diagrama de frecuencias absolutas acumuladas

Y4=4

b. b) Se extraen los valores de las frecuencias absolutas.


2

Siempre que el resultado de C sea un valor entero mas una fraccin, por pequea
que esta sea, debe ser aproximada siempre al valor entero inmediatamente superior,
de ser necesario tambin se debe ajustar el rango.
5. Realizar la tabla de frecuencias, teniendo en cuenta:
Hallar los intervalos de clase a utilizar en la tabla.
Hallar la Marca de clase(Yi) promediando cada intervalo, es decir
sumando el lmite inferior con el lmite superior y dividiendo el resultado
por 2.
(MARCA DE CLASE)
2. Datos agrupados ( Variable continua)
2.1 Tabla de frecuencias
Para variable continua o datos agrupados se hace necesario definir algunos pasos y/o
trminos adicionales:
1. Ordenar los datos en forma ascendentes o descendentes de la poblacin o
muestra, sino no se encuentran ordenados.
2. Identificar el valor mximo y el valor mnimo de la variable para obtener el
RANGO o RECORRIDO con la siguiente frmula:
Rango = Xmx - Xmn = (Valor mximo Valor mnimo)
3. Hallar el nmero de intervalos de clase (m) por lo general m puede estar entre 5 y
16, aunque la formula general a utilizar es:
m = 1 + 3,3 log (n)
Donde n es el tamao de la poblacin o muestra. Si al calcular m se obtiene un
decimal entonces puede ser aproximado al valor entero inmediatamente superior o
inferior.
4. Hallar la Amplitud del intervalo de clase (C). Se calcula por medio de la siguiente
frmula:
C = Rango / m

Yi = (Limite Inferior+ Limite Superior) / 2

Determinar y registrar las frecuencias antes ya vistas.


Ejemplo: Se toma una muestra de 20 alumnos con el fin de conocer su peso en
kilogramos (variable continua). Para fines prcticos se decide redondear las cifras de
donde se obtienen los siguientes resultados:
X1=74
X8=79
X15=52

X2=67 X3=94 X4=70 X5=69 X6=61 X7=71


X9=47 X10=85 X11=82 X12=55 X13=65 X14=88
X16=58 X17=76 X18=57 X19=72 X20=66

Tamao de la muestra n=20


Solucin:
1. Ordenar los datos:
47, 52, 55, 57, 58,61, 65, 66, 67,69, 70, 71, 72, 74, 76, 79, 82, 85, 88, 94
2. Se halla el Rango a partir del valor mximo y mnimo de la variable.
Xmx=94

Xmn=47
Rango = 94 47 = 47

3. Se calcula el nmero de intervalos (m) a partir del tamao de la muestra (n).


m = 1 + 3,3 log(20) = 5,29 6

Nota: en este caso m se aproxima a 6 pero tambin pudo haberse aproximado a 5.


La aproximacin no tiene importancia alguna aqu.
4. Se calcula la amplitud del intervalo (C).
C = 47 / 6 = 7,83 8
Nota: siempre se debe aproximar al valor entero superior. Con esta aproximacin el
Rango se aumenta en uno (1) puesto que:
Rango = C x m= 8 x 6 = 48.
La unidad de incremento se puede restar al lmite inferior o aumentar al lmite
superior de los datos. En este caso se lo restamos quedando el lmite inferior en 46.
5. Construir la tabla:
a.
Determinando los intervalos de clase.
Yi-1 - Yi
46,1 54
54,1 62
62,1 70
70,1 78
78,1 86
86,1 94
Nota: a cada lmite inferior se le ha agregado 0,1 lo que permite una fcil tabulacin y as
evitar ambigedades en la asignacin de un valor a un determinado intervalo. Ese 0,1 que
se agrega intencionalmente se omitir para el clculo de la marca de clase y de los
diferentes estadgrafos o dems medidas.
b.
Calculando las marcas de clase
Y1=(Y0+Y1)/2=(46+54)/2=50
Y2= (Y1+Y2)/2=(54+62)/2=58
Y3= (Y2+Y3)/2=(62+70)/2=66
Y4= (Y3+Y4)/2=(70+78)/2=74
Y5= (Y4+Y5)/2=(78+86)/2=82
Y6= (Y5+Y6)/2=(86+94)/2=90
c. Determinando las frecuencias e imprimiendo los valores sobre la tabla:
DISTRIBUCIN DE FRECUENCIAS PARA EL PESO DE 20 ALUMNOS

Intervalo de
Clase

Yi-1 - Yi

Marca de
clase Yi

Frecuencia
Absoluta
ni

Frecuencia
absoluta
Acumulada
Ni

Frecuencia
Relativa
hi

Frecuencia
Relativa
Acumulada
Hi

46,1-54
50
2
2
10%
10%
54,1-62
58
4
6
20%
30%
62,1-70
66
5
11
25%
55%
70,1-78
74
4
15
20%
75%
78,1-86
82
3
18
15%
90%
86,1-94
90
2
20
10%
100%
TOTAL
------------20
------------100%
------------FUENTE: Bienestar estudiantil.
De la tabla anterior hay que destacar la columna de las marcas de clase de cada intervalo
(Yi).
2.2 Representacin grfica
Histograma
Consta de un plano cartesiano en el que se levantan rectngulos de reas proporcionales
a las frecuencias sobre los intervalos del eje horizontal. Se utiliza para representar
frecuencias relativas y absolutas. Para el ejemplo anterior el histograma correspondiente
para frecuencias absolutas sera:

POLGONO DE FRECUENCIA.
En la variable continua es bastante utilizado este diagrama, se obtiene fijando puntos en
cada una de las marcas de clase y las frecuencias, para despus unirlos mediante lneas
poligonales. En la figura se muestra el polgono de frecuencia. (Color rojo o color ms
claro en la fotocopia)

b) Una encuesta realizada a 30 fumadores para determinar el nmero de cigarrillos que


encienden (fuman) en un da corriente arrojo los siguientes resultados. (Fuente DANE):
3, 7, 5, 10, 8, 4, 5, 8, 10, 8, 8, 4, 5, 3, 10, 5, 7, 10, 8, 5, 5, 12, 8, 4, 4, 3, 5, 8, 12, 10
2. Para el ejercicio a y b (variables continuas) se pide realizar la tabla de
distribucin de frecuencias, el Histograma y la ojiva.
OJIVA
Se usa para representar frecuencias acumuladas bien sea absolutas o relativas. Para su
construccin en un plano cartesiano se ubican los puntos de interseccin entre cada valor
de la variable y su respectiva frecuencia y a continuacin se unen con trazos rectilneos.
Para el ejemplo anterior la ojiva correspondiente a las frecuencias absolutas acumuladas
sera:

a) Los resultados de pesar una muestra de un grupo de 24 alumnos de estadstica


descriptiva del CTC son los siguientes (Fuente DPTO. DE BIENESTAR ESTUDIANTIL):
50, 54, 55, 56, 59, 61, 63, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 82
b) Las estaturas en centmetros de los socios de un club juvenil de la ciudad de Ccuta,
son las siguientes (Fuente DPTO. DE BIENESTAR DEL CLUB):
:
125, 132, 136, 137, 138, 140, 141, 142, 143, 150,
152, 153, 154, 155, 156, 157, 159, 160, 161, 163.
MEDIDAS DE TENDENCIA CENTRAL

EJERCICIOS PROPUESTOS
1. Para los ejercicios a y b (variables discretas) se pide hallar la tabla de
distribucin de frecuencias, el diagrama de frecuencias absolutas y frecuencias
absolutas acumuladas.
a). De un grupo de familias considerando el nmero de hijos, se han obtenido los
siguientes valores (Fuente DANE)
:
2 0 2 4 4 6 6 4 6 7 4 4 7 4 2 0 4 6 7 7

Las medidas de centralizacin o tendencia central son valores que tienden a situarse en
el centro del conjunto de datos ordenados segn su magnitud. Las medidas de
centralizacin ms usadas son: Media aritmtica, mediana y moda. La media aritmtica
es la medida de tendencia central ms conocida, es fcil de calcular, de gran estabilidad
en el muestreo; se puede aplicar a variables de intervalos ya sean discretos o continuos.
Esta medida se define como la suma de todos los valores observados dividido por el
nmero de observaciones, es decir encontrar el promedio de los datos en estudio.
PRIMER CASO: CUANDO LOS DATOS NO ESTN AGRUPADOS
LA MEDIA ARITMTICA Es el promedio aritmtico de los valores de la variable y se
define como:
n

Y1 + Y2 + Y3 + Yn

yi
i=1

Cuando los datos no se repiten

Cuando los nmeros Y1, Y2, Y3,....Yn, aparecen n1, n2, n3,..... nn veces, respectivamente la
media aritmtica se puede calcular del modo siguiente:

Md = 54350. El precio de la venta de leche que se encuentra en la mitad de los precios


es de $54350.

n1y1 +n2y2 + n3y3 + ....+nnyn


=
n1+n2+n3++nn
Cuando los datos se repiten

niyi
i=1
n

ni

Este es el puntaje promedio de los 5 estudiantes

Hallar la media aritmtica de los siguientes datos que representan las edades de 10
nios. 6, 6, 6, 4, 4, 4, 4, 3, 3, 7.
3*6+4*4+2*3+1*7
47
y= = = 4,7
3+4+2+1
10

El promedio de edad de los 10 nios es de 4,7 aos.


LA MEDIANA: Es el valor de la variable que ocupa la posicin central en una serie
ordenada de datos. Es el valor de la variable que deja por debajo suyo el 50% de las
observaciones. Es el valor medio si el nmero de datos es impar o la media aritmtica o
promedio de los valores centrales si el nmero de datos es par.
Ejemplo
Hallar la mediana de los siguientes datos que corresponden a la venta de leche en
un expendio durante los ltimos 7 das:
27800
43850
27800

43850

54300
60500

54300 54350

60500

60800
54350
60800

73200
73200

Hallar el valor de la mediana para los siguientes puntajes de las pruebas ICFES:
304, 283,332, 344;295, 339.
283

i=1

Ejemplo
Hallar la media aritmtica del puntaje obtenido por 5 estudiantes en una prueba: 6,
4, 3, 7, 8.
6+4+3+7+8
28
y = = =5,6
5
5

295
Md =

304

332

339

344

304+332

2
El puntaje de las pruebas que se encuentra en la mitad es de 318.
LA MODA
Es el valor de mayor frecuencia, el ms comn o el que se presenta mayor nmero de
veces. La moda no puede ser nica e incluso puede no existir.
Ejemplo
En una encuesta realizada sobre los deportes que se practican en un grado
determinado de un Colegio de Varones, se presentan los siguientes resultados:
Deporte
N de Alumnos
Basket
10
Ftbol
18
Voleibol
5
Otros
4
La moda en este caso es el Ftbol, puesto que la mayora de los alumnos lo prefieren.

Se le ha preguntado a un grupo de personas acerca del color preferido por ellas y se


obtuvo lo siguiente:
Color Numero de Personas
Blanco
4
Gris
8
Azul
9
Negro
4
Rojo
3
Morado
2
Caf
8
Vinotinto
8
6

Lo cual indica que los colores que pueden estar de moda son el gris, caf y vinotinto.

El ppuntaje promedio de los 40 alumnos es de 39.5

SEGUNDO CASO: CUANDO LOS DATOS ESTN AGRUPADOS


MEDIA ARITMTICA
n

Y=

Y i ni
i=1

n
Ejemplo
Hallar la media aritmtica o promedio de las ventas de los sesenta establecimientos:
Intervalos
ni
Yi
ni*Yi
5 - 10
2
7.5
15
10 - 15
5
12.5
62.5
15 - 20
12
17.5
210
20 - 25
14
22.5
315
25 - 30
15
27.5
412.5
30 - 35
8
32.5
260
35 - 40
4
37.5
150
Total
60
1425
Y=

1425
60

= 23,7 = 24

Las ventas promedio de los sesenta establecimientos son de $23700.


Hallar el valor promedio o media para la distribucin correspondiente a las notas
obtenidas por 40 estudiantes en una prueba estadstica:
Intervalos
ni
Yi
ni*Yi
10 - 20
10
15
150
20 - 30
3
25
75
30 -40
7
35
245
40 - 50
7
45
315
50 - 60
5
55
275
60 - 70
8
65
520
Total
40
-----1580

Y=

1580

40

= 39.5

LA MEDIANA
Para hallar la mediana cuando los datos estn agrupados en intervalos de clase se deben
seguir los siguientes pasos:
1. Obtener las frecuencias acumuladas si no se tienen Ni
2. Hallar el numero correspondiente a la mitad de los elementos de la poblacin o
muestra es decir n/2
3. Buscar el intervalos correspondiente a la mitad de las observaciones, para ello
tenga en cuenta que:
a. Si n/2 aparece en las frecuencias acumuladas entonces Na=n/2 y (Na-1)
corresponder la valor inmediatamente anterior a Na en la tabla.
b. Si n/2 no aparece en las frecuencias acumuladas entonces Na ser el valor
numrico inmediatamente superior a n/2 y (Na-1) el valor inmediatamente
anterior a Na en la tabla.
4. Localice e identifique el limite inferior real del intervalo (Li) y la frecuencia
absoluta nm que corresponde a la fila donde esta Na.
5. Halle C (amplitud del intervalo de clase) y la mediana mediante la siguiente
formula:
md=

Ejemplo: Hallar la mediana de las ventas de los sesenta establecimientos que


estn dadas en miles de pesos:
1.
Intervalos
ni
Yi
Ni
5 - 10
2
7.5
2
10 - 15
5
12.5
7
15 - 20
12
17.5
19
20 - 25
14
22.5
33
25 - 30
15
27.5
48
30 - 35
8
32.5
56
35 - 40
4
37.5
60
Total
60
------------------- -----------------

2. n/2 = 60/2 = 30
3.
20 - 25
4. Li = 20
5.

14
Na = 33 y (Na-1)=19

22.5

33

md=

Mediana de las ventas es= 23.92 como esta dada en miles de pesos ser $23.920
Ejemplo: Hallar la mediana para la distribucin correspondiente a las notas obtenidas por
40 estudiantes en una prueba estadstica:
1.
Intervalos
ni
Yi
Ni
10 - 20
10
15
10
20 - 30
3
25
13
30 -40
7
35
20
40 - 50
7
45
27
50 - 60
5
55
32
60 - 70
8
65
40
Total
40
-------------2. n/2=40/2=20
3.
Na = 20 y (Na-1)= 13
4. Li =30

30 -40

35

Es decir la venta que est de moda es 27.500


Ejemplo: Hallar la moda de la distribucin de notas obtenidas por 40 estudiantes en una
prueba de estadstica.
La moda es 10 puntos, pues corresponde a la marca de clase de mayor frecuencia.

nm=14
md=

La moda es 27.5, pues corresponde a la marca de clase de mayor frecuencia.

Ejercicios
Hallar la distribucin de frecuencias, la media aritmtica, la mediana y la moda.
a) Los resultados de pesar una muestra de un grupo de 24 alumnos de estadstica
descriptiva del CTC son los siguientes (Fuente DPTO. DE BIENESTAR ESTUDIANTIL):
50, 54, 55, 56, 59, 61, 63, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 82
b) Las estaturas en centmetros de los socios de un club juvenil de la ciudad de Ccuta,
son las siguientes (Fuente DPTO. DE BIENESTAR DEL CLUB):
125, 132, 136, 137, 138, 140, 141, 142, 143, 150,
152, 153, 154, 155, 156, 157, 159, 160, 161, 163.

20

nm=7
md=
La mediana de las notas es 40 Puntos

Moda
Para hallar la moda se debe ubicar el intervalo donde est la mayor frecuencia para as
tomar como moda la marca de clase donde este la mayor frecuencia.
Ejemplo: Hallar la moda de las ventas de los sesenta establecimientos que estn dadas
en miles de pesos:
8

También podría gustarte