Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Definicin de estadstica
En forma intuitiva trabajamos todos los das con la estadstica, desde que nos levantamos
cuando abrimos la llave del agua caliente para baarnos y vamos regulando su
temperatura hasta que encontramos el punto exacto de cmo nos gusta, al sintonizar tu
estacin de radio favorita, si miras el partido entre el Amrica y el Guadalajara en la
televisin, si lees el peridico o una revista, eres el blanco de un bombardeo de diversas
figuras conocidas como estadsticas. T puedes escuchar que la tienda departamental
Soriana tiene la lechuga a 2 pesos, que Liverpool ofrece un descuento de 25%, que
Cuauhtmoc Blanco anot 2 goles, que la bolsa de valores baj dos puntos o que el Sol,
Lus Miguel vendi un milln de discos.
Estos ejemplos representan cada uno datos de estadstica y, a menudo presentamos la
informacin estadstica en grficas y numrica, y con ello podemos representar una gran
cantidad de informacin.
Estadstica Descriptiva:
Es el conjunto de mtodos para organizar, resumir y presentar los datos de
manera informativa.
Ejemplo: En un sondeo de opinin sobre el futbol, se pregunt si conocan a Maradona
y, se encontr que 89% de las personas encuestadas lo conocan. El valor estadstico
89 describe el porcentaje de cuntas personas encuestadas lo conocan de cada 100
que contestaron la pregunta.
Estadstica inferencial:
Poblacin: Es el conjunto de
todos los posibles individuos,
objetos o medidas de inters.
Muestra: Una porcin, o parte
de la poblacin de inters.
Para deducir algo acerca de una poblacin, por razones de tiempo y costo casi siempre
tomamos una muestra de ella.
Un parmetro es una medida descriptiva de la poblacin, por lo general se denotan con letras
griegas.
Un estadstico es una medida descriptiva de una muestra y se denota con letras romanas.
La diferencia entre un parmetro y un estadstico es importante cuando se usa la estadstica
inferencial.
Tipos de variables
Una variable estadstica es cada una de las caractersticas o cualidades que posee en los
individuos de una poblacin.
Gnero
La afiliacin religiosa
La afiliacin poltica
Tipo de automvil,
El estado de nacimiento
El color de ojos
Estos datos se deben convertir a valores numricos antes de que se trabaje con ellos. En este
tipo de datos nos interesa conocer cuntos o la proporcin de ellos que tiene dicha caracterstica,
esta informacin por lo general la presentamos en tablas o en grficas de barras.
Una
Ejemplos:
Una variable discreta es aquella que toma valores aislados, es decir no admite valor
es intermedios entre dos valor es especficos. Por lo general son el resultado de un
conteo
Ejemplos
Una variable continua es aquella que puede tomar valores comprendidos entre dos
nmeros (intervalo) .Por lo general, las variables continuas resultan de la medicin.
Ejemplos
Niveles de medicin
Son el conjunto de datos estadsticos se obtienen mediante un proceso que comprende
la observacin o medicin de conceptos.
Ejemplos:
3)
distancia entre valores es constante pues los valores que toma este tipo de variables
corresponde al orden de los nmeros naturales.
Ejemplo: nmero de hijos.
4)
$4.00
$7.00
$6.00
$5.00
$3.00
$2.00
$8.00
$2.00
$8.00
Las siguientes observaciones son los datos en milmetros, que se obtuvieron como resultado de
la medicin de tornillos en un proceso de fabricacin.
11 2
3
4
5
8
8
2
6
9
Cuando manejamos datos es importante saber de donde provienen, si de una poblacin o de
una muestra, recordemos que provienen de una poblacin cuando estamos hablando del total
de datos que queremos analizar y de una muestra cuando los datos son tan solo una parte de
ella.
Para nuestros ejemplos anteriores los datos de los sueldos representan una poblacin ya que
nos habla del total de los sueldos de los trabajadores de una compaa, mientras que las
medidas de los tornillos corresponden a una muestra ya que tan solo medimos un subconjunto
de ellos.
Recuerda.
Un parmetro es una medida descriptiva de la poblacin, por lo general se denota con
letras griegas.
Un estadstico es una medida descriptiva de una muestra y se denota con letras
romanas.
Media
La media, es la suma de todos los valores dividida entre el nmero de valores, tambin
se le conoce como promedio.
La media de una muestra y de una poblacin se calcula de la misma manera, su significado es
el mismo y slo difieren en la notacin que usamos.
$4.00
$7.00
$5.00
$3.00
$8.00
$2.00
$4.00
$6.00
$2.00
$8.00
Como ya sabemos que corresponden a una poblacin debemos utilizar la siguiente expresin,
El
significado
que tiene el valor 4.5 es que el valor medio de los sueldos por hora de los 12 trabajadores de la
compaa es decir de $4.5
Veamos el ejemplo 2.
Para el caso de los tornillos definimos que correspondan a una muestra ya que slo son una
parte de ellos por lo que para calcular el valor medio tenemos que utilizar la siguiente expresin:
El significado del valor 5.8 que arroj el clculo representa el valor medio que tienen los
tornillos que medimos en el proceso de produccin.
Propiedades:
La media aritmtica viene expresada en las mismas unidades que la variable.
En su clculo intervienen todos los valores de la distribucin.
Es el centro de gravedad de toda la distribucin, representando a todos los valores
observados.
Es nica.
Su principal inconveniente es que se ve afectada por los valores extremadamente grandes
o pequeos de la distribucin.
Mediana
Para el caso de mediana, es el valor que divide en dos partes iguales (punto medio) a un
conjunto de datos despus de que se ordenan de mayor a menor o de menor a mayor.
Se denota como Md y representa lo mismo para la poblacin que para la muestra, su clculo
es igual, cabe resaltar que:
-Si el nmero de valores es par, la mediana ser el promedio de los dos valores
centrales.
Ejemplo 1 de mediana.
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 9, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor o de menor a mayor, es indistinto ya que el
resultado es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9
Como podemos observar son 11 datos y por lo tanto es un nmero impar, por lo que la mediana
(Md) ser el valor medio del arreglo, en nuestro caso es el 6, que es el punto medio que divide
al conjunto de datos en dos partes iguales; cinco datos a cada lado del valor central conforme al
siguiente arreglo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9
Por lo tanto la mediana es igual a 6 Md=6
Ahora veamos el ejemplo 2 de mediana:
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor de menor a mayor; la forma en que decidas
hacerlo es indistinto ya que el resultado es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8,
Como podemos observar son 10 datos que es un nmero par, por lo que la mediana (Md) ser
el valor medio del arreglo. En este caso debemos tomar los dos valores centrales que son el 5 y
6, y obtener su promedio que es 5.5 el cual es el punto medio entre 5 y 6 que divide al conjunto
de datos en dos partes iguales; cinco datos a cada lado del valor central.
1, 2, 3, 3, 5, 5.5, 6, 7, 7, 8, 8, 9
Medidas de dispersin
En el anlisis estadstico es importante conocer la variabilidad de las observaciones alrededor
de su valor central. La variabilidad se mide de dos maneras: como distancia entre
observaciones seleccionadas o bien como desviaciones promedio de las observaciones
individuales respecto a un valor central.
Rango
Es la diferencia entre las medidas mayor y menor de un conjunto de datos.
Se denota con la literal R y representa lo mismo para la poblacin que para la muestra y su
clculo es exactamente igual
Rango (R)= dato mayor dato menor
Dado el siguiente conjunto de datos:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
R=10-1=9
Desviacin media
Es el promedio de los valores absolutos de las desviaciones con respecto de la media.
Las expresiones para calcular la desviacin media de una poblacin o de una muestra son las
siguientes
2, 3,
Por lo tanto la desviacin media es de 3 milmetros, lo que significa que tiene una variacin de 3
milmetros con respecto de la media que es de 5 milmetros.
Varianza
Es el promedio del cuadrado de desviaciones alrededor de la media para un conjunto de
nmeros
5
N
4
4
4
Para calcular la varianza lo podemos realizar en una tabla y posteriormente aplicar la formula.
DATOS
XX
12
12.5
13
13.5
14.5
15
15.5
16
N=8
12 14 = -2
12.5 14 = -1.5
13 14 = -1
13.5 14 = -0.5
14.5 14 = 0.5
15 14 = 1
15.5 14 = 1.5
16 14 = 2
_ 2
XX
4
2.25
1
0.25
0.25
1
2.25
4
15
_ 2
X X
i
i 1
15
s2
n1
7 2.1429
Ejemplo:
Una fbrica realiz una produccin especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milmetros, para un modelo prototipo de un aparato de comunicacin. Determine cul es la
varianza en milmetros de estos tornillos?
Solucin
Lo que se nos pide calcular es la desviacin estndar, en este caso las observaciones
representan la medida en milmetros de una poblacin de tornillos, adems se encuentran
desagrupados (lista), para determinar la desviacin estndar tenemos que calcular primero el
valor medio de los datos, calculamos la varianza y de esta obtenemos la raz cuadrada la cual
es el valor de la desviacin estndar.
2 4 6 8 20
5
4
4
2 i 1
Xi X
2 5 4 5 6 5 8 5 3 1 1 3
4
4
91195
4
Para calcular varianza lo podemos realizar en una tabla y posteriormente aplicar la frmula que
est despus de la siguiente tabla de datos.
DATOS
12
12.5
13
13.5
XX
12 14 = -2
12.5 14 = -1.5
13 14 = -1
13.5 14 = -0.5
_ 2
XX
4
2.25
1
0.25
Es la varianza, para
datos. Por lo que hay
de este dato
se
estndar s = 1.4639
alejados
se
del centro.
Medidas de
relativas
14
.5
15
15.5
16
N=8
14.
5
14
0.2
=0.5
5
15 14 =1
15.5 14 =1.5
16 14 =2
1
2.25
4
15
este
conjunto
de
sacar la raz cuadrada
obtiene la desviacin
que nos indica qu tan
encuentran los datos
dispersin
2 i 1
ms medidas de
dispersin
para un
s
7 2.1429
n1
conjunto de datos.
Por
ejemplo,
la
desviacin estndar de la distribucin de horas de sueo, en relacin con la desviacin
estndar de la distribucin del consumo de tazas de caf. Esto es imposible porque no
podemos comparar directamente estos valores dado que sus unidades son diferentes entonces,
el coeficiente de variacin es til cuando se desea comparar la diversificacin de dos o ms
conjuntos de datos en relacin con el nivel general de los valores y por lo tanto con la media de
cada conjunto.
Coeficiente de variacin
El coeficiente de variacin (CV) se define como la proporcin que hay entre la desviacin
estndar y la media de un conjunto de datos y su resultado se expresa en porcentaje.
Las expresiones siguientes nos permiten determinar el coeficiente de variacin para una
poblacin o una muestra.
Ejemplo
La compaa Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos: la produccin media de oro para la mina norte fue de 200 kilogramos con
una desviacin estndar de 5 kilogramos por da, mientras que para la mina sur la produccin
media fue de 150 kilogramos con una desviacin de 4 kilogramos por da. Obtener el coeficiente
de variacin.
Solucin:
Si hacemos una comparacin absoluta la variabilidad del nivel de produccin fue mayor para la
mina norte, a causa de una mayor desviacin estndar, pero si lo que queremos evaluar es el
nivel de produccin lo que tenemos que comparar son los respectivos coeficientes de variacin.
Para la mina norte:
CV
200
100 2.5%
4
CV
150
100 2.6667%
Datos Agrupados
Los datos agrupados son aquellos datos que podemos organizar o agrupar en una tabla de
distribucin de frecuencias y que nos proporcionan informacin adicional.
A continuacin te mostramos un ejemplo:
Los datos en milmetros que se obtuvieron como resultado de la medicin de tornillos en un
proceso de fabricacin, se pueden agrupar en una distribucin de frecuencia simple quedando
como se muestra:
DATOS (mm)
2
3
4
5
6
7
8
9
11
FRECUENCIA
7
3
5
4
3
1
3
2
2
30
k 1 3.3log( n)
Tabla A.
DATOS
2
3
4
FRECUENCIA
7
3
5
5
6
7
8
9
11
4
3
1
3
2
2
30
k 1 3.3log( n)
k 1 3.3log( 30)
k 1 (3.3)(1.48)
k 1 4.87
k 5.87 6
El valor de k que se obtuvo es de 5.87, esto equivale a que se tuvieron 5 clases y la fraccin de
otra, para resolver generalmente redondeamos al valor entero siguiente que para este caso es 6
clases.
Ancho de clase
Es la diferencia entre el lmite superior y el lmite inferior de una clase.
Intervalo de clase. Los intervalos de clase usados en la distribucin de frecuencias deben
ser iguales.
Determinamos un intervalo de clase sugerido usando la frmula:
i DM Dm
k
Donde:
DM= dato mayor
Dm= dato menor
k= nmero de clases
Para nuestro ejemplo de la medicin de tornillos en milmetros el intervalo queda representado
11 2 9
1.50 2 en forma aproximada.
por: i
6
6
Considerando los datos de la Tabla A, la distribucin de frecuencias que representa los datos
que se obtuvieron como resultado de la medicin de tornillos en milmetros de en un proceso de
fabricacin, la agrupacin en una tabla de distribucin de frecuencias por clase queda
representada de la siguiente forma (Tabla B). Si observamos en nuestra tabla de distribucin de
frecuencias el valor 2 que es el dato menor lo utilizamos como el primer dato de nuestra
agrupacin por clases, la segunda clase estar representada por el valor de 2 ms el valor del
intervalo el cual es 2, por lo que el valor es 4. Para la tercera clase es 4+2=6 y as
sucesivamente hasta terminar con la ltima clase como se observa en la tabla:
Tabla B
No. de clase
1
2
3
4
5
6
2
4
6
8
10
12
Clase
a
3
a
5
a
7
a
9
a
11
a
13
Frecuencia absoluta
10
9
4
5
2
0
30
Para reforzar este importante tema que se usa mucho en Estadstica, en la Tabla C se expone
otro ejemplo pero con datos distintos a lo que se ha estado manejando.
De este modo, cuando ya tenemos construida la tabla para una distribucin de frecuencias que
tiene clases del mismo tamao, el intervalo de clase se puede obtener considerando el lmite
inferior de una clase menos el lmite inferior de la clase anterior; para la siguiente distribucin de
frecuencias se determina de la siguiente forma:
i 18 13 5
i 33 28 5
i 23 18 5
i 13 8 5
Tabla C
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Total
Frecuencia
12
17
22
27
32
37
1
12
10
5
1
1
30
Lmite de clase
Cuando tenemos una distribucin de frecuencias a la cual subdividimos en clases, a las
fronteras entre ellas, se le llama lmites de clase los cuales se denominan, lmite inferior de
clase y lmite superior de clase. En la siguiente tabla el lmite inferior de la primera clase es 8 y
el lmite superior de la primera clase es 12. Para la cuarta clase el lmite inferior es 23 y el lmite
superior 27.
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Total
Frecuencia
12
17
22
27
32
37
1
12
10
5
1
1
30
Dado que los datos con los que vamos a trabajar son continuos, es necesario obtener los
lmites reales de clase que son el lmite real inferior y el lmite real superior los cuales se
obtienen promediando el lmite superior de una clase ms el lmite inferior de la clase siguiente
entre dos.
Para la clase No. 1 el lmite real superior queda determinado por LRS (12+13)/2=12.5
El lmite real inferior se obtiene restando al lmite real superior el valor del intervalo
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
Frecuencia
a 12
a 17
a 22
a 27
a 32
a 37
Total
1
12
10
5
1
1
30
Para la clase No. 2 el lmite real superior queda determinado por LRS (17+18)/2=17.5
Aqu podemos observar que el lmite real superior para una clase es el lmite real inferior para la
siguiente, otro punto importante es que al valor inicial debemos restarle el mismo valor que le
adicionamos al lmite superior, y al valor superior de la ltima clase tambin tenemos que
sumarle la misma cantidad.
Marca de clase
La marca de clase es el valor central de la misma que se obtiene al sumar el lmite real inferior
ms el lmite real superior entre dos
Para la clase No. 1 MC=(7.5+12.5)/2=10
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Total
Frecuencia
12
17
22
27
32
37
1
12
10
5
1
1
30
Marca de Clase
MC
10
15
20
25
30
35
Frecuencia absoluta
La frecuencia absoluta es el nmero de veces que aparece en la muestra dicho valor de la
variable.
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Total
Frecuencia
12
17
22
27
32
37
1
12
10
5
1
1
30
Frecuencia relativa
La frecuencia relativa de una clase se obtiene dividiendo la frecuencia de clase entre la
frecuencia total.
Horas de estudio
8-12
13-17
18-22
23-27
28-32
33-37
Total
Frecuencia
absoluta (f)
1
12
10
5
1
1
30
Frecuencia relativa
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1
Frecuencia
absoluta ( f )
8-12
13-17
18-22
23-27
28-32
33-37
Total
1
12
10
5
1
1
30
Frecuencia
acumulada
fa
1
13
23
28
29
30
Frecuencia
relativa
fr
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1
Lmite
real
inferior
7.5
12.5
17.5
22.5
27.5
32.5
Lmite
real
superior
12.5
17.5
22.5
27.5
32.5
37.5
Marca de
clase
10
15
20
25
30
35
Media aritmtica
Para el clculo de la media cuando los datos se encuentran agrupados en una distribucin de
frecuencia por clase, debemos considerar que la marca de clase es el valor ms representativo
de la clase.
Por lo tanto la media aritmtica de una poblacin se representa con la letra (mu), y la media
aritmtica de una muestra se representa con (equis barra).
Las expresiones para encontrar la media son:
Observamos que el clculo para la media cuando los datos corresponden a una poblacin y a
una muestra se realiza de la misma forma.
Ejemplo
Determine la media para el siguiente conjunto de datos:
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
Marca de clase
MC
10
15
20
25
30
35
Frecuencia
a 12
a 17
a 22
a 27
a 32
a 37
Total
1
12
10
5
1
1
30
Una forma fcil de encontrar la media consiste en multiplicar la marca de clase por la frecuencia
y aplicar la expresin que definimos para calcular la media.
Nmero de clase
Clase
1
2
3
4
5
6
8
13
18
23
28
33
a
a
a
a
a
a
Total
12
17
22
27
32
37
Frecuencia
(f)
Marca de clase
MC
(f)(MC)
1
12
10
5
1
1
30
10
15
20
25
30
35
10
180
200
125
30
35
580
fMC
x1
580
30
19.33
Mediana
La mediana es el valor central que divide en dos subgrupos a un conjunto de datos ordenados
en forma ascendente o descendente, y se representa con Md. En donde el 50% de los datos es
menor a la mediana y el otro 50% de los datos es mayor a la mediana.
Para determinar la mediana cuando los datos se encuentran agrupados en una distribucin de
frecuencias por clase, est se encuentra en la clase cuya frecuencia acumulada es igual o
excede a la mitad total de observaciones (n/2). Y se realiza mediante la expresin siguiente:
Donde:
Md = Mediana.
n
faA
LRI = Lmite real inferior de la clase que contiene a la mediana.
M d LRI 2
i
faA = Frecuencia acumulada anterior a la clase que contiene a la mediana. fc =
fc
frecuencia de clase que contiene a la mediana.
i = intervalo.
8
13
18
23
28
33
Clase
a
a
a
a
a
a
Total
12
17
22
27
32
37
Frecuencia (f)
1
12
10
5
1
1
30
Solucin
La metodologa nos indica que la mediana se encuentra en la clase cuya frecuencia
acumulada es igual o excede a la mitad total de observaciones, entonces lo primero que
debemos calcular es la frecuencia acumulada agregando una columna adicional donde
colocamos este valor.
Nmero de clase
1
2
3
4
5
6
Clase
a
a
a
a
a
a
12
17
22
27
32
37
Frecuencia
acumulada (fa)
1
13
23
28
29
30
1
12
10
5
1
1
30
Observando la tabla anterior, la clase que contiene a la mediana es la clase nmero tres
dado que la frecuencia acumulada es 23 cuyo valor excede a la mitad del total de
observaciones n que es 30.
As la frmula que nos permite establecer el valor de la mediana es:
n
8
13
18
23
28
33
Frecuencia (f)
faA
M d LRI 2
i
fc
Acorde con esta expresin tambin necesitamos del lmite inferior real de clase, que, como
sabemos es lmite superior de la clase ms el lmite inferior de la siguiente entre dos
Para la clase tres el lmite real inferior se calcula (LRI) LRI
17 18
17.5
2
El intervalo realizando la diferencia del lmite inferior de clase siguiente menos el lmite
inferior de la clase anterior i 18 13 5
Nmero de
clase
1
2
3
4
5
6
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Frecuencia
(f)
Frecuencia
acumulada (fa)
Lmite real
inferior de clase
Lmite real
superior de
clase
Marca de
clase
(MC)
1
12
10
5
1
1
30
1
13
23
28
29
30
7.5
12.5
17.5
22.5
27.5
32.5
12.5
17.5
22.5
27.5
32.5
37.5
10
15
20
25
30
35
12
17
22
27
32
37
30
13
5
Md 17.5 2
10
15 13
Md 17.5
Md 17.5
10
2
10
Md 17.5 1
Md 18.5
El valor de la mediana por lo tanto es 18.5
Moda
La moda es el dato que se repite un mayor nmero de veces, cuando un nico dato se repite un
nmero de veces decimos que es unimodal, cuando dos datos se repiten en igual nmero de
veces decimos que es bimodal y cuando ms de dos datos se repiten igual nmero de veces
decimos que es multimodal. Si ningn dato se repite entonces no hay moda.
En una distribucin de frecuencias simple o agrupada por clases, la moda se encuentra en la
clase o en el dato que contiene el mayor nmero de observaciones, cuando los datos se
encuentran agrupados por clases, la marca de clase es el dato ms representativo de ella.
Ejemplo 11
Para el siguiente conjunto de datos determine la moda
Nmero de
Clase
Frecuencia (f)
Frecuencia
clase
acumulada (fa)
1
2
3
4
5
6
8
13
18
23
28
33
a
a
a
a
a
a
12
17
22
27
32
37
1
12
10
5
1
1
30
1
13
23
28
29
30
Lmite real
inferior de
clase
7.5
12.5
17.5
22.5
27.5
32.5
Lmite real
superior de
clase
12.5
17.5
22.5
27.5
32.5
37.5
Marca de
clase
(MC)
10
15
20
25
30
35
Solucin
Observando la tabla anterior, la moda se encuentra en la clase de 13 a 17, en la que se
encuentra el mayor nmero de observaciones, y la marca de clase que es 15 como el valor
representativo. En este caso decimos que es unimodal.
Si dos clases tienen el mismo nmero de observaciones ser bimodal y si tres clases o ms
tienen igual nmero de observaciones entonces ser multimodal.
Medidas de dispersin
En esta ocasin y considerando el tema que le corresponde a esta Unidad Temtica
abordaremos las principales medidas de dispersin que se calculan en estadstica. A
continuacin se presenta en qu consiste cada una de ellas con sus respectivos ejemplos.
Iniciemos.
Dispersin
Las medidas de variabilidad o de dispersin son el conjunto de valores que permiten establecer
que tan alejados o aproximados se encuentran los datos del valor central.
Un valor grande en una medida de dispersin nos indica que el dato se encuentra muy alejado
del valor central, por el contrario si el valor en una medida de dispersin es muy pequeo nos
indica que el valor se encuentra muy cercano al valor central.
centro de un conjunto de datos y las medidas de dispersin ubican que tan alejados estn estos
datos del centro
Frecuencia
(f)
Clase
8
13
18
23
28
33
a
a
a
a
a
a
Total
12
17
22
27
32
37
1
12
10
5
1
1
30
Solucin
Lo que se nos pide calcular es la amplitud de rango o recorrido de esta distribucin de
frecuencias pero no nos indican si corresponde al total de los datos o a una muestra, para este
caso no es relevante debido a que se calcula de la misma manera, adems se encuentran
agrupados, para determinar la amplitud de rango o recorrido solamente tenemos que buscar el
lmite real superior de la ltima clase y el lmite real inferior de la primer clase y aplicar la formula,
R LSF LII el lmite real superior de la ltima clase es 37, mientras que el lmite inferior de la
primer clase es 8, sustituyendo en la formula tenemos R 37 8 29 podemos concluir que entre
el dato mayor y el dato menor hay una diferencia de 29 unidades.
Varianza
Podemos observar que la varianza para una poblacin y una muestra solo difiere entre el nmero
de datos que utilizamos para calcularla
Determine la varianza para el siguiente conjunto de datos:
Nmero de clase
1
2
3
4
5
6
8
13
18
23
28
33
Clase
a
a
a
a
a
a
Total
12
17
22
27
32
37
Frecuencia
1
12
10
5
1
1
30
Una forma fcil de encontrar la varianza es mediante una tabla en donde realicemos las
operaciones previas y posteriormente utilizar la frmula correspondiente:
Nmero de clase
Frecuencia
(f)
Clase
1
2
3
4
5
6
8
13
18
23
28
33
a
a
a
a
a
a
Total
12
17
22
27
32
37
1
12
10
5
1
1
30
Marca de
Clase
MC
10
15
20
25
30
35
(f)(MC)
10
180
200
125
30
35
580
87.5
18.75
0.45
32.15
113.85
245.55
87.05
224.99
4.49
160.74
113.85
245.55
836.67
Desviacin estndar
La desviacin estndar es la raz cuadrada de la varianza por lo tanto queda expresada de la
siguiente forma:
Por tanto
Medida de asimetra
Decimos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica
coinciden.
Decimos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o
relativas) descienden ms lentamente por la derecha que por la izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que
la distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias.
Una de ellas es el Coeficiente de Asimetra de Pearson:
Donde:
Sk=Coeficiente de sesgo o asimetra
=Media
Md=Mediana
=Desviacin estndar
Su valor es cero cuando la distribucin es simtrica, positivo (mayor que cero) cuando existe
asimetra a la derecha y negativo (menor que cero) cuando existe asimetra a la izquierda.
Teorema de Chebyshev: Establece que por menos 1-(1/k2) valores caern dentro de ( ) k
desviaciones estndar de la media, cualquiera que sea la forma de la distribucin de
frecuencias
Regla emprica: Establece que para una distribucin de frecuencias simtrica de campana,
cerca de 68% de las observaciones estar dentro de ms menos una desviacin estndar ( 1)
de la media (); cerca de 95% de las observaciones estar dentro dems menos dos
desviaciones estndar de la media (2) de la media (); alrededor de 99.7% estar dentro de
ms menos tres desviaciones estndar de la media (3) de la media (). Esta regla solo se
puede aplicar cuando los datos estn normalmente distribuidos, es decir, que la grfica es
simtrica.
Medidas
de dispersin relativas
Hay
ocasiones en las que
deseamos
comparar la relacin
que existe de dos o ms medidas de dispersin para un conjunto de datos. Por ejemplo, la
desviacin estndar de la distribucin de horas de sueo, en relacin con la desviacin
estndar de la distribucin del consumo de tazas de caf. Esto es prcticamente imposible,
porque no podemos comparar directamente estos valores dado que sus unidades son
diferentes, entonces, el coeficiente de variacin es til cuando se desea comparar la
diversificacin de dos o ms conjuntos de datos en relacin con el nivel general de los valores y
por lo tanto con la media de cada conjunto.
Coeficiente de variacin
El coeficiente de variacin (CV) se define como la proporcin que hay entre la desviacin
estndar y la media de un conjunto de datos y su resultado se expresa en porcentaje.
Ejemplo
La compaa Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos:
La produccin media de oro para la mina norte fue de 200 kilogramos con una desviacin
estndar de 5 kilogramos por da, mientras que para la mina sur la produccin media fue de 150
kilogramos con una desviacin de 4 kilogramos por da.
Solucin:
Si hacemos una comparacin absoluta la variabilidad del nivel de produccin fue mayor para la
mina norte, a causa de una mayor desviacin estndar, pero si lo que queremos evaluar es el
nivel de produccin lo que tenemos que comparar son los respectivos coeficientes de variacin.
CV
200
100 2.5%
CV
100 2.6667%
150
Con relacin al nivel promedio de produccin de cada mina podemos concluir que la mina del
sur tuvo una mayor variabilidad en la produccin que la mina del norte.
Representacin grfica de las distribuciones de frecuencia
Histograma
El histograma es una grfica de barras, que se utiliza para representar datos agrupados en
donde cada clase se representa por una barra y estas se muestran en forma continua en el eje
de horizontal partiendo del lmite real inferior de la primera clase hasta el lmite real superior de
esa clase, que a su vez es el inicio de la siguiente clase y as sucesivamente para todas las
clases de la tabla de datos.
Ejemplo
La siguiente tabla representa las horas de estudio utilizadas por los alumnos de la materia de
probabilidad y estadstica y la frecuencia representa los casos encontrados.
La construccin de esta tabla de datos agrupados ya la explicamos anteriormente, y est
compuesta por seis clases, con un intervalo de 5 unidades.
Frecuencia
absoluta (f)
8-12
13-17
18-22
23-27
28-32
33-37
Total
1
12
10
5
1
1
30
Frecuencia
acumulada
fa
1
13
23
28
29
30
Frecuencia
relativa
fr
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1
Lmite real
inferior
Lmite real
superior
Marca de
clase
7.5
12.5
17.5
22.5
27.5
32.5
12.5
17.5
22.5
27.5
32.5
37.5
10
15
20
25
30
35
Polgono de frecuencia
El polgono de frecuencia se obtiene al unir el punto medio de cada clase por medio de una
lnea continua y se puede construir sobre un histograma como se muestra en la siguiente
grfica el cual debe de iniciar en el punto medio de la clase anterior a la que tenemos con una
frecuencia cero y termina en la clase posterior a la final con una frecuencia igual a cero.
Ojiva
Se construye sobre un polgono de frecuencia acumulada y resulta al unir el lmite inferior de la
primera clase con el punto ms alto en el lmite inferior de la siguiente clase conforme se
muestra en la siguiente imagen.
Tipo de habitantes
Hombres
Mujeres
Nios
Nias
Cantidad
50
45
15
25
Podemos observar que el segmento de los hombres est compuesto por 50 personas que
representan el 37% de la poblacin que ocupa el edificio, el segmento de las mujeres est
compuesto por 45 personas que ocupan el 33% de la poblacin, el segmento de los nios est
compuesto por 15 personas que representan el 11% mientras que la nias son 25 que
representan el 19%.