Está en la página 1de 26

Datos no agrupados y agrupados

Lista de datos obtenidos: datos no agrupados. Para n grande: mejor


trabajar con datos agrupados. Consiste en organizar los datos dentro
de intervalos (aconsejable) de igual tamao. Los intervalos se
denominan tambin clases.
Para cada clase, calculamos un valor representativo, denominado
marca de clase o punto medio.
La marca de clase o punto medio de la clase j se denota por mj .

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

2 / 27

Frecuencias, DATOS AGRUPADOS


Frecuencia absoluta: nmero de elementos que estn contenidos en
cada clase j, denotado por fj .
Frecuencia relativa: es la proporcin de elementos en cada clase j,
f
f
denotado por frj = nj (muestra) Nj (poblacin).
Frecuencia absoluta acumulada: nmero de elementos menores que
el lmite superior de la clase j, denotado por Fj = f1 + f2 + ... + fj .
Frecuencia relativa acumulada: proporcin de elementos que son
menores que el lmite superior de la clase j, denotado por
f +f +...+fj
f +f +...+fj
Frj = 1 2 n
(muestra) Frj = 1 2 N
(poblacin).
Distribucin de Frecuencias: organizacin de datos de acuerdo con
las frecuencias. Formato: tablas y grcos.
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

3 / 27

Distribucin de Frecuencias: Tablas

La tabla de frecuencias tiene, en general, la siguiente forma:


Clase

Punto
medio

Frecuencia
Absoluta

Frec. Absol.
Acumulada

Frecuencia
Relativa

Frec. Rel.
Acumulada

mj

fj

Fj

frj

Frj

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

4 / 27

Tablas de Frecuencias, ejemplo

Elaborar (en clase) la tabla de frecuencias absolutas y relativas para


describir la siguiente muestra de comisiones mensuales por ventas de
seguros de 20 vendedores de Seguritas SA. Los datos estn
expresados en miles de pesos. Nmero de clases: 5.
850 1265 895 575 2400
470 660 1820 1510 1100
620 400 751 965 840
1600 1375 695 1125 1475

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

5 / 27

Tablas de Frecuencias, ejemplo

Para determinar los lmites de cada clase: 2400 ! 400 = 2000,


2000/5 = 400 (amplitud de cada intervalo).
Clase
[400,800]
(800,1200]
(1200,1600]
(1600,2000]
(2000,2400]
total

Avalos/Fosco (UCN)

mj

fj

Fj

frj

Frj

600
1000
1400
1800
2200

7
6
5
1
1
20

7
13
18
19
20

7/20
6/20
5/20
1/20
1/20
1

7/20
13/20
18/20
19/20
1

EC-300/EC-315

17 de marzo 2011

6 / 27

Frecuencias e Histogramas

Histogramas: grcos de barras que representan las distintas


distribuciones de frecuencias.
Ejemplo: realizar los histogramas de frecuencias absolutas, relativas, y
acumuladas (absolutas y relativas) a partir de los datos de la tabla
anterior.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

7 / 27

Frecuencias e Histogramas
Histograma de Frecuencias Absolutas
8
frecuencia absoluta

7
6
5
4
3
2
1
0
0

400

800

1200

1600

2000

2400

2800

comisiones (miles $)
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

8 / 27

Frecuencias e Histogramas
Histograma de Frecuencias Absolutas Acumuladas
frecuencia absoluta acumulada

25
20
15
10
5
0
0

400

800

1200

1600

2000

2400

2800

comisiones (miles $)
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

9 / 27

Frecuencias e Histogramas

frecuencia relativa

Histograma de Frecuencias Relativas


1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

400

800

1200

1600

2000

2400

2800

comisiones (miles $)
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

10 / 27

Frecuencias e Histogramas

frecuencia relativa acumulada

Histograma de Frecuencias Relativas Acumuladas


1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

400

800

1200

1600

2000

2400

2800

comisiones (miles $)
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

11 / 27

Cuntas clases?

Regla de Sturges. El nmero de clases= 1 + 3.3ln(n). En nuestro


ejemplo: 1 + 3,3 ln(20) = 10,886 ' 11. Este nmero puede ser muy
grande tal vez, dependiendo del problema que queremos mostrar.
Otra forma (que podrapentregarnos el nmero
p mnimo de clases) es:
El nmero de clases= n. En nuestro caso,. 20 = 4. 472 1 ' 5.
De alguna manera, la regla de Sturges nos entrega un nmero
mximo de clases, mientras que la segunda, un nmero mnimo.
En todo caso, no elegiremos nunca ms de 20 clases ni menos de 4.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

12 / 27

Medidas estadsticas

Medidas estadsticas: son valores que resumen an ms los datos


Tipos de medidas:
1

Medidas de centralizacin o de tendencia central

Medidas de dispersin o de variabilidad

Medidas de forma

Medidas de localizacin

Medidas de desigualdad (Coeciente de Gini)

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

13 / 27

Medidas de Centralizacin

Sirven para determinar el centro de la distribucin de los datos.


Indican valores respecto de los cuales los datos parecen agruparse.
Las ms comunes son:
MEDIA (*)
MEDIANA
MODA

(*) El trmino media se aplica a la media aritmtica. Existen otras medidas


de centralizacin que se denominan media geomtrica y media armnica.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

14 / 27

LA MEDIA

La media (media aritmtica) es el nombre que en Estadstica recibe el


promedio.
Media poblacional, promedio de los datos poblacionales:
=

x1 + x2 + ... + xN
N xi
= i =1
N
N

Media muestral, promedio de los datos muestrales:


x =

Avalos/Fosco (UCN)

x1 + x2 + ... + xn
n xi
= i =1
n
n

EC-300/EC-315

17 de marzo 2011

15 / 27

LA MEDIA, DATOS AGRUPADOS

Suponga que los datos estn agrupados en K clases:


Media poblacional
=
Media muestral

Avalos/Fosco (UCN)

K
j = 1 f j mj
N

K
j = 1 f j mj
x =
n

EC-300/EC-315

17 de marzo 2011

16 / 27

LA MEDIA: propiedades

La suma de las diferencias xi ! x es cero.


La media de una constante es la constante.
Si todas las observaciones xi se multiplican por una constante a, la x
tambin.
Sea y = a + bx ! y = a + b x
La media de la suma de dos variables es igual a la suma de sus medias.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

17 / 27

LA MEDIANA
Es el valor del dato que est justo en el medio...
Es necesario ordenar todos los datos en orden creciente (de menor a
mayor). Si el nmero de datos es IMPAR, la mediana es el valor del
dato que est en el lugar central. Si el nmero de datos es PAR, la
mediana es el promedio de los dos datos centrales.
Mediana poblacional, N datos ordenados en orden creciente:
8
< $ x N 2+1 % si N es impar
Med =
: x N2 +x N2 +1
si
N es par
2
Mediana muestral, n datos ordenados en orden creciente:
8
<
x n +1
si n es impar
2
&
'
MedM =
n + x n +1
x
:
2
2
si
n es par
2

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

18 / 27

LA MEDIANA, DATOS AGRUPADOS


(Trabajamos directamente con datos muestrales).
Conociendo n, es posible obtener el lugar que ocupa la MedM. El
problema con los datos agrupados es que no necesariamente
disponemos de los datos en bruto.
Ubicamos el dato que necesitemos (si n es impar, un dato, sino, dos).
Si el dato que necesitamos es el r y este se encuentra en la clase j:
xr = Lj + (r ! Fj !1 ! 0,5)

Cj
fj

donde Lj es el lmite inferior de la clase y Cj es la amplitud de la clase.


Ubicando los datos que necesitamos, podemos obtener la mediana.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

19 / 27

LA MODA

Es el valor que aparece con mayor frecuencia.


Para datos agrupados, ubicamos la clase modal, la de mayor
frecuencia (denotamos clase j = mo):
Mo = Lmo +

Avalos/Fosco (UCN)

fmo

fmo ! fmo !1
% Cmo
! fmo !1 + fmo ! fmo +1

EC-300/EC-315

17 de marzo 2011

20 / 27

Ventajas y desventajas
La media, ventajas:
Emplea en su clculo toda la informacin disponible.
Se expresa en las mismas unidades que la variable en estudio.
Representa a todos los valores observados.
Es una valor nico.
La media, desventajas:
Es afectada por valores extremos, perdiendo representatividad.
No se puede calcular para datos cualitativos.
No se puede calcular para datos que tengan clases de extremo abierto,
tanto superior como inferior.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

21 / 27

Ventajas y desventajas
La mediana, ventajas:
Fcil de calcular si el nmero de observaciones no es muy grande.
No se ve inuenciada por valores extremos, ya que solo inuyen los
valores centrales.
Se puede calcular para cualquier tipo de datos cuantitativos, incluso
los datos con clase de extremo abierto.
Es la medida de tendencia central ms representativa en el caso de
variables que solo admiten la escala ordinal.
La mediana, desventajas:
No utiliza toda la informacin disponible.
No pondera cada valor por el nmero de veces que se ha repetido.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

22 / 27

Ventajas y desventajas
La moda, ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos como cualitativos.
Fcil de interpretar.
No se ve inuenciada por valores extremos.
Se puede calcular en clases de extremo abierto.
La moda, desventajas:
Para conjuntos pequeos de datos su valor no tiene casi utilidad, si es
que de hecho existe. Solo tiene signicado en el caso de una gran
cantidad de datos.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se repiten.
Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

23 / 27

Medidas de Centralizacin: Ejemplo

Se toma una muestra de 20 alumnos y se les pregunta cuntas horas


estudia en un n de semana. Los datos obtenidos son:
4 5 6 2 4 4 2 10 13 5
3 14 1 0 2 9 7 4 8 6
La media:

109
20
i =1 xi
=
= 5. 45
20
20
por lo tanto, la media es 5. 45 horas, es decir: 5 horas y
0.45 & 60 = 27 minutos.
x =

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

24 / 27

Relacin entre las tres medidas de centralizacin

Histograma de Frecuencias Absolutas


9
frecuencia absoluta

moda=2050 > mediana =


1800>media = 1740
ASIMETRIA NEGATIVA
O A LA IZQUIERDA

media = moda =
mediana = 1400
SIMETRIA

6
5
4
3
2
0
0

400

800

1200 1600 2000 2400 2800

Histograma de Frecuencias Absolutas

Histograma de Frecuencias Absolutas

7
frecuencia absoluta

frecuencia absoluta

moda=750 < mediana =


1000<media = 1060
ASIMETRIA POSITIVA
O A LA DERECHA

6
5
4
3
2

6
5
4
3
2
1

0
0

400

Avalos/Fosco (UCN)

800

1200

1600

2000

2400

2800

EC-300/EC-315

400

800

1200 1600 2000 2400 2800

17 de marzo 2011

25 / 27

Medidas de Centralizacin: Ejemplo

Para obtener la mediana, ordenamos los datos de menor a mayor,


n = 20 es par:
0 1 2 2 2 3 4 4 4 4
5 5 6 6 7 8 9 10 13 14
x10 + x11
4+5
=
= 4. 5
2
2
por lo tanto, la mediana muestral es 4.5, es decir, 4 horas y
0.5 & 60 = 30 minutos.
MedM =

Finalmente, la moda es igual a 4 horas, ya que es el valor que ms se


repite.

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

26 / 27

Medidas de Centralizacin: Ejemplo

Grcamente, situamos las tres medidas de centralizacin:

Avalos/Fosco (UCN)

EC-300/EC-315

17 de marzo 2011

27 / 27

También podría gustarte