Está en la página 1de 37

CONCEPTOS BSICOS DE ESTADSTICA

Definicin de estadstica
En forma intuitiva trabajamos todos los das con la estadstica, desde que nos levantamos
cuando abrimos la llave del agua caliente para baarnos y vamos regulando su
temperatura hasta que encontramos el punto exacto de cmo nos gusta, al sintonizar tu
estacin de radio favorita, si miras el partido entre el Amrica y el Guadalajara en la
televisin, si lees el peridico o una revista, eres el blanco de un bombardeo de diversas
figuras conocidas como estadsticas. T puedes escuchar que la tienda departamental
Soriana tiene la lechuga a 2 pesos, que Liverpool ofrece un descuento de 25%, que
Cuauhtmoc Blanco anot 2 goles, que la bolsa de valores baj dos puntos o que el Sol,
Lus Miguel vendi un milln de discos.
Estos ejemplos representan cada uno datos de estadstica y, a menudo presentamos la
informacin estadstica en grficas y numrica, y con ello podemos representar una gran
cantidad de informacin.

Estadstica: Es el conjunto de tcnicas que se emplean en la recoleccin,


organizacin, anlisis e interpretacin de datos.
Cuando hacemos una investigacin acerca de un problema, el primer paso consiste en
recolectar datos relevantes, organizarlos de alguna manera y representarlos
grficamente, solo despus de esto podemos estar en posibilidad de analizarlos e
interpretarlos y de esta manera sean tiles para realizar la toma de decisiones.
El estudio de la estadstica generalmente se divide en dos categoras, las cuales son:
a) Estadstica descriptiva, y
b) Estadstica inferencial

Estadstica Descriptiva:
Es el conjunto de mtodos para organizar, resumir y presentar los datos de
manera informativa.
Ejemplo: En un sondeo de opinin sobre el futbol, se pregunt si conocan a Maradona
y, se encontr que 89% de las personas encuestadas lo conocan. El valor estadstico
89 describe el porcentaje de cuntas personas encuestadas lo conocan de cada 100
que contestaron la pregunta.

Estadstica inferencial:

Conjunto de mtodos utilizados para conocer (inferir) algo acerca de una


poblacin, basndose en una muestra.
En el estudio de la estadstica dos conceptos que tienen mucha importancia son la
poblacin y la muestra porque de ello depende la interpretacin que hagamos de la
informacin que manejemos

Poblacin: Es el conjunto de
todos los posibles individuos,
objetos o medidas de inters.
Muestra: Una porcin, o parte
de la poblacin de inters.

Para deducir algo acerca de una poblacin, por razones de tiempo y costo casi siempre
tomamos una muestra de ella.
Un parmetro es una medida descriptiva de la poblacin, por lo general se denotan con letras
griegas.
Un estadstico es una medida descriptiva de una muestra y se denota con letras romanas.
La diferencia entre un parmetro y un estadstico es importante cuando se usa la estadstica
inferencial.

Tipos de variables
Una variable estadstica es cada una de las caractersticas o cualidades que posee en los
individuos de una poblacin.

Las variables cualitativas se refieren a caractersticas o cualidades que no pueden


ser medidas con nmeros.
Ejemplos:

Gnero
La afiliacin religiosa
La afiliacin poltica
Tipo de automvil,
El estado de nacimiento
El color de ojos

Estos datos se deben convertir a valores numricos antes de que se trabaje con ellos. En este
tipo de datos nos interesa conocer cuntos o la proporcin de ellos que tiene dicha caracterstica,
esta informacin por lo general la presentamos en tablas o en grficas de barras.

Una

variable cuantitativa es la que s e expresa mediante un nmero.

Ejemplos:

El saldo de una cuenta de cheques


Las edades de un grupo de alumnos
La duracin de una vela
El nmero de hijos en una familia
Nmero de operaciones comerciales que realiza una empresa

Un dato cuantitativo se puede encontrar en cualquier disciplina; psicologa, contabilidad,


economa, publicidad, etc.
Los datos de caractersticas cuantitativas se clasifican a su vez en:

Una variable discreta es aquella que toma valores aislados, es decir no admite valor
es intermedios entre dos valor es especficos. Por lo general son el resultado de un
conteo
Ejemplos

El nmero de hermanos de 5 amigos: 2, 1, 0, 3.


El nmero de habitaciones en un a casa.
El nmero de alumnos inscritos en el curso de estadstica.

Una variable continua es aquella que puede tomar valores comprendidos entre dos
nmeros (intervalo) .Por lo general, las variables continuas resultan de la medicin.
Ejemplos

La presin a la que se encuentra inflada una llanta.


La cantidad de producto contenida en un paquete de cereales
El volumen de lquido contenido en un recipiente

Niveles de medicin
Son el conjunto de datos estadsticos se obtienen mediante un proceso que comprende
la observacin o medicin de conceptos.
Ejemplos:

Los ingresos anuales de una comunidad.


La calificacin de los exmenes.

La cantidad de caf por taza despachada por


una mquina vendedora.
La resistencia a la rotura de fibras plstico.
Porcentaje de azcar en los cereales

Las variables pueden corresponder a cuatro niveles de


medicin:
1) Nominal: hace referencia a datos que slo pueden
clasificarse en categoras; existen slo
conteos; no existe orden particular para los grupos. Ejemplo: color de ojos.
2)

Ordinal: corresponde a aquellos datos que se pueden agrupar en categoras y


ordenarlas segn algn tipo de gradacin.
Ejemplo; nivel de dolor, nivel de preferencia.

3)

De Intervalo: incluye todas las caractersticas de la escala ordinal, pero adems la

distancia entre valores es constante pues los valores que toma este tipo de variables
corresponde al orden de los nmeros naturales.
Ejemplo: nmero de hijos.
4)

De Razn: tiene las caractersticas de la escala de intervalo, pero se agrega un punto


cero absoluto tal que significa ausencia del atributo y la razn o cociente de dos nmeros es
significativo pudindose aplicarles todo tipo de instrumental matemtico.
Ejemplo: ingreso familiar.

Datos no agrupados y datos agrupados


Medidas de tendencia central y de dispersin
Los datos no agrupados, son el conjunto de observaciones que se presentan en su forma
original tal y como fueron recolectados y no proporcionan mucha informacin hasta que los
procesamos de alguna forma.
Estos datos pueden pertenecer a la poblacin o ser una muestra de alguna poblacin.
Para comprender mejor estos conceptos a continuacin se incluyen ejemplos de datos no
agrupados.
Los siguientes datos son los sueldos mensuales (en miles) de los 12 empleados que tiene una
compaa
$3.00
$2.00
$4.00

$4.00
$7.00
$6.00

$5.00
$3.00
$2.00

$8.00
$2.00
$8.00

Las siguientes observaciones son los datos en milmetros, que se obtuvieron como resultado de
la medicin de tornillos en un proceso de fabricacin.
11 2
3
4
5
8
8
2
6
9
Cuando manejamos datos es importante saber de donde provienen, si de una poblacin o de
una muestra, recordemos que provienen de una poblacin cuando estamos hablando del total
de datos que queremos analizar y de una muestra cuando los datos son tan solo una parte de
ella.

Para nuestros ejemplos anteriores los datos de los sueldos representan una poblacin ya que
nos habla del total de los sueldos de los trabajadores de una compaa, mientras que las
medidas de los tornillos corresponden a una muestra ya que tan solo medimos un subconjunto
de ellos.

Recuerda.
Un parmetro es una medida descriptiva de la poblacin, por lo general se denota con
letras griegas.
Un estadstico es una medida descriptiva de una muestra y se denota con letras
romanas.

En las siguientes pginas se describen las principales medidas de tendencia central y de


dispersin con sus ejemplos y la solucin de los mismos.

Medidas de tendencia central


Las medidas de tendencia central se utilizan para representar a travs de un solo valor una
serie de datos, son valores alrededor de los cules tienden a agruparse las observaciones.

Media
La media, es la suma de todos los valores dividida entre el nmero de valores, tambin
se le conoce como promedio.
La media de una muestra y de una poblacin se calcula de la misma manera, su significado es
el mismo y slo difieren en la notacin que usamos.

Analicemos el siguiente ejemplo 1.


Calculemos la media de los sueldos mensuales (en miles) de los 12 trabajadores de la
compaa, los datos son:
$3.00
$2.00

$4.00
$7.00

$5.00
$3.00

$8.00
$2.00

$4.00

$6.00

$2.00

$8.00

Como ya sabemos que corresponden a una poblacin debemos utilizar la siguiente expresin,

El
significado
que tiene el valor 4.5 es que el valor medio de los sueldos por hora de los 12 trabajadores de la
compaa es decir de $4.5
Veamos el ejemplo 2.
Para el caso de los tornillos definimos que correspondan a una muestra ya que slo son una
parte de ellos por lo que para calcular el valor medio tenemos que utilizar la siguiente expresin:

Utilizando los datos arrojados de las medidas de los tornillos,

El significado del valor 5.8 que arroj el clculo representa el valor medio que tienen los
tornillos que medimos en el proceso de produccin.
Propiedades:
La media aritmtica viene expresada en las mismas unidades que la variable.
En su clculo intervienen todos los valores de la distribucin.
Es el centro de gravedad de toda la distribucin, representando a todos los valores
observados.
Es nica.
Su principal inconveniente es que se ve afectada por los valores extremadamente grandes
o pequeos de la distribucin.

Mediana
Para el caso de mediana, es el valor que divide en dos partes iguales (punto medio) a un
conjunto de datos despus de que se ordenan de mayor a menor o de menor a mayor.
Se denota como Md y representa lo mismo para la poblacin que para la muestra, su clculo
es igual, cabe resaltar que:

-Si el nmero de valores es impar, la mediana es el valor medio del arreglo.

-Si el nmero de valores es par, la mediana ser el promedio de los dos valores

centrales.
Ejemplo 1 de mediana.
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 9, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor o de menor a mayor, es indistinto ya que el
resultado es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9

Como podemos observar son 11 datos y por lo tanto es un nmero impar, por lo que la mediana
(Md) ser el valor medio del arreglo, en nuestro caso es el 6, que es el punto medio que divide
al conjunto de datos en dos partes iguales; cinco datos a cada lado del valor central conforme al
siguiente arreglo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9
Por lo tanto la mediana es igual a 6 Md=6
Ahora veamos el ejemplo 2 de mediana:
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor de menor a mayor; la forma en que decidas
hacerlo es indistinto ya que el resultado es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8,
Como podemos observar son 10 datos que es un nmero par, por lo que la mediana (Md) ser
el valor medio del arreglo. En este caso debemos tomar los dos valores centrales que son el 5 y
6, y obtener su promedio que es 5.5 el cual es el punto medio entre 5 y 6 que divide al conjunto
de datos en dos partes iguales; cinco datos a cada lado del valor central.
1, 2, 3, 3, 5, 5.5, 6, 7, 7, 8, 8, 9

Por lo tanto la mediana es igual a 5.5 o Md= (5+6)/2=5.5


Moda
La moda es el valor que aparece con mayor frecuencia en una serie de datos.
Se denota como Mo y representa lo mismo para la poblacin que para la muestra y su clculo
es igual.
Decimos que la moda es nica o unimodal cuando solo un dato es el que aparece ms veces.
Ejemplo 3:
Dado el siguiente conjunto de datos:
1, 2, 3, 5, 6, 7, 7, 8, 9
La moda est representada por el 7 ya que es el valor que aparece en ms ocasiones, 2 veces

y se representara de la siguiente forma


Decimos que es bimodal cuando dos datos son lo que aparecen ms veces y en igual
cantidad.
Para ayudarte a comprenderlo, te mostramos el siguiente ejemplo. Dado el siguiente conjunto
de datos:
1, 2, 3, 3, 5, 6, 7, 7, 8, 9
La moda est representada por los datos 3 y 7 que son los que aparecen ms veces y en igual
cantidad, 2 veces cada uno y queda representado de la siguiente manera
Decimos que es multimodal cuando ms de dos datos son los que aparecen ms veces y en
igual cantidad.
Dado el siguiente conjunto de datos:
1 , 2, 3, 3, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9, 9
La moda est representada por los datos 3, 5 y 9 que son los que aparecen ms veces y en
igual cantidad, 3 veces cada uno y queda representado de la siguiente manera
Sin embargo puede no existir moda cuando ningn dato se repite en ms de una ocasin.
Dado el siguiente conjunto de datos:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
No existe moda ya que ni un dato aparece en ms de una ocasin por lo tanto Mo no existe,
hay que tener cuidado de no representar la moda de la siguiente forma Mo=0, cuando no existe
ya que esta expresin me est indicando que el valor que ms se repite es el 0.

Medidas de dispersin
En el anlisis estadstico es importante conocer la variabilidad de las observaciones alrededor
de su valor central. La variabilidad se mide de dos maneras: como distancia entre
observaciones seleccionadas o bien como desviaciones promedio de las observaciones
individuales respecto a un valor central.

Rango
Es la diferencia entre las medidas mayor y menor de un conjunto de datos.
Se denota con la literal R y representa lo mismo para la poblacin que para la muestra y su
clculo es exactamente igual
Rango (R)= dato mayor dato menor
Dado el siguiente conjunto de datos:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10

El rango queda determinado por 9 que es la diferencia entre 10 y 1

R=10-1=9

Desviacin media
Es el promedio de los valores absolutos de las desviaciones con respecto de la media.
Las expresiones para calcular la desviacin media de una poblacin o de una muestra son las
siguientes

Para su aplicacin, analicemos el siguiente ejemplo.


Las siguientes observaciones son los datos en milmetros, que se obtuvieron como resultado de
la medicin de tornillos en un proceso de fabricacin.
11,

2, 3,

Determine e interprete la desviacin media.


La desviacin media es el promedio segn el cual las observaciones individuales se desvan
respecto de la media, para obtener la desviacin media tenemos que conocer la media del
conjunto de datos

La desviacin media entonces es:

Por lo tanto la desviacin media es de 3 milmetros, lo que significa que tiene una variacin de 3
milmetros con respecto de la media que es de 5 milmetros.

Varianza
Es el promedio del cuadrado de desviaciones alrededor de la media para un conjunto de
nmeros

A continuacin se muestra el siguiente ejemplo. Veamos en qu consiste.


Una fbrica realiz una produccin especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milmetros, para un modelo prototipo de un aparato de comunicacin. Determine cul es la
varianza en milmetros de estos tornillos?
Solucin
Lo que se nos pide calcular es la varianza, en este caso las observaciones que representan la
medida en milmetros de una poblacin de tornillos, adems se encuentran desagrupados
(lista), para determinar la desviacin media tenemos que calcular primero el valor medio de los
datos y luego calculamos la varianza
2 4 6 8 20 5
4
4
Para calcular la desviacin media absoluta lo podemos realizar en de la siguiente forma:
N
_
X
i X
2
2
2
2
2
2
2
2
2 5 4 5 6 5 8 5 3 1 1 3 9 1 1 9
2 i 1

5
N
4
4
4

La varianza para este conjunto de datos es de 5 milmetros.


Ejemplo:
Los siguientes datos representan las ventas en litros de gasolina que se hicieron en el lapso de
una hora, en una mquina de una estacin de servicio de la franquicia PEMEX en la ciudad de
Mxico. 15, 12, 13, 16, 15.5, 14.5, 13.5, 12.5 Determine la varianza del combustible vendido
en ese lapso de tiempo?
Solucin:
Lo que se nos pide calcular es la desviacin media absoluta (D.M.A.) de esta muestra de datos
que representa las ventas de gasolina en un lapso de tiempo, adems se encuentran
desagrupados (lista), para determinar la desviacin media tenemos que calcular primero el valor
medio de los datos y luego calcular la desviacin media absoluta.
_

12 12.5 13 13.5 14.5 15 15.5 16 14


8

Para calcular la varianza lo podemos realizar en una tabla y posteriormente aplicar la formula.
DATOS

XX

12
12.5
13
13.5
14.5
15
15.5
16
N=8

12 14 = -2
12.5 14 = -1.5
13 14 = -1
13.5 14 = -0.5
14.5 14 = 0.5
15 14 = 1
15.5 14 = 1.5
16 14 = 2

_ 2
XX

4
2.25
1
0.25
0.25
1
2.25
4
15

_ 2
X X
i

i 1
15

s2
n1
7 2.1429

Es la varianza, para este conjunto de datos.

Desviacin estndar o tpica


Es la raz cuadrada de la varianza que es la media aritmtica de las desviaciones cuadradas de
los datos respecto a la media.

Ejemplo:
Una fbrica realiz una produccin especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milmetros, para un modelo prototipo de un aparato de comunicacin. Determine cul es la
varianza en milmetros de estos tornillos?
Solucin
Lo que se nos pide calcular es la desviacin estndar, en este caso las observaciones
representan la medida en milmetros de una poblacin de tornillos, adems se encuentran
desagrupados (lista), para determinar la desviacin estndar tenemos que calcular primero el
valor medio de los datos, calculamos la varianza y de esta obtenemos la raz cuadrada la cual
es el valor de la desviacin estndar.

2 4 6 8 20

5
4
4

Para calcular la varianza lo podemos realizar de la siguiente forma:


N
_


2 i 1

Xi X

2 5 4 5 6 5 8 5 3 1 1 3
4
4

91195
4

La varianza para este conjunto de datos es de 5 milmetros. Y obteniendo la raz cuadrada de


este valor se obtiene como resultado 2.2361 que es la desviacin estndar de los datos, lo cual
nos indica que los valores se encuentran alejados del centro en esa proporcin
Ejemplo
Los siguientes datos representan las ventas en litros de gasolina que se hicieron en el lapso de
una hora, en una mquina de una estacin de servicio de la franquicia PEMEX en la ciudad de
Mxico. 15, 12, 13, 16, 15.5, 14.5, 13.5, 12.5 A partir de estos datos determine la varianza del
combustible vendido en ese lapso de tiempo.
Solucin:
Lo que se nos pide calcular es la desviacin estndar de esta muestra de datos que representa
las ventas de gasolina en un lapso de tiempo, adems se encuentran desagrupados (lista), para
determinar la desviacin estndar tenemos que calcular primero el valor medio de los datos,
luego calcular la varianza y con este dato se calcula la desviacin estndar.
_

12 12.5 13 13.5 14.5 15 15.5 16


14
8

Para calcular varianza lo podemos realizar en una tabla y posteriormente aplicar la frmula que
est despus de la siguiente tabla de datos.
DATOS

12
12.5
13
13.5

XX

12 14 = -2
12.5 14 = -1.5
13 14 = -1
13.5 14 = -0.5

_ 2
XX

4
2.25
1
0.25

Es la varianza, para
datos. Por lo que hay
de este dato
se
estndar s = 1.4639
alejados
se
del centro.

Medidas de
relativas

14
.5
15
15.5
16
N=8

14.
5
14
0.2
=0.5
5
15 14 =1
15.5 14 =1.5
16 14 =2

1
2.25
4
15

este
conjunto
de
sacar la raz cuadrada
obtiene la desviacin
que nos indica qu tan
encuentran los datos

dispersin

Hay ocasiones en las


que
deseamos
Xi X
comparar la relacin
que
existe
de dos o
15

2 i 1
ms medidas de
dispersin
para un
s
7 2.1429
n1
conjunto de datos.
Por
ejemplo,
la
desviacin estndar de la distribucin de horas de sueo, en relacin con la desviacin
estndar de la distribucin del consumo de tazas de caf. Esto es imposible porque no
podemos comparar directamente estos valores dado que sus unidades son diferentes entonces,
el coeficiente de variacin es til cuando se desea comparar la diversificacin de dos o ms
conjuntos de datos en relacin con el nivel general de los valores y por lo tanto con la media de
cada conjunto.

Coeficiente de variacin
El coeficiente de variacin (CV) se define como la proporcin que hay entre la desviacin
estndar y la media de un conjunto de datos y su resultado se expresa en porcentaje.
Las expresiones siguientes nos permiten determinar el coeficiente de variacin para una
poblacin o una muestra.

Ejemplo
La compaa Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos: la produccin media de oro para la mina norte fue de 200 kilogramos con
una desviacin estndar de 5 kilogramos por da, mientras que para la mina sur la produccin
media fue de 150 kilogramos con una desviacin de 4 kilogramos por da. Obtener el coeficiente
de variacin.
Solucin:
Si hacemos una comparacin absoluta la variabilidad del nivel de produccin fue mayor para la
mina norte, a causa de una mayor desviacin estndar, pero si lo que queremos evaluar es el
nivel de produccin lo que tenemos que comparar son los respectivos coeficientes de variacin.
Para la mina norte:

Para la mina sur:

CV

200

100 2.5%

4
CV

150

100 2.6667%

Datos Agrupados
Los datos agrupados son aquellos datos que podemos organizar o agrupar en una tabla de
distribucin de frecuencias y que nos proporcionan informacin adicional.
A continuacin te mostramos un ejemplo:
Los datos en milmetros que se obtuvieron como resultado de la medicin de tornillos en un
proceso de fabricacin, se pueden agrupar en una distribucin de frecuencia simple quedando
como se muestra:
DATOS (mm)
2
3
4
5
6
7
8
9
11

FRECUENCIA
7
3
5
4
3
1
3
2
2
30

Aqu podemos observar que el tornillo de 2 milmetros aparece 7 veces, el de 3 milmetros


aparece 3 veces, el de 4 aparece 5 veces as sucesivamente hasta llegar al de 11 milmetros
que aparece 2 veces y en total tenemos que el nmero de observaciones que se hicieron fueron
de 30, lo cual no podamos concluir cuando estos datos se encontraban desagrupados.
Distribucin de frecuencias por clases
Cuando se tiene una gran cantidad de datos numricos es muy til distribuirlos o agruparlos en
una distribucin de frecuencias por clases o categoras y determinar el nmero de individuos
que pertenecen a cada una de ellas (frecuencia). El nmero de clases se representa con la letra
k
Existen diferentes mtodos para encontrar el nmero de clases, de acuerdo con los expertos
estas no deben de ser menores a 5 ni mayores a 20. Si son menores que 5 no se estaran
verificando muchas particularidades de ella y si por el contrario fuesen ms de 20 tambin se
estara perdiendo informacin relevante.
Un mtodo ms preciso es aplicar la regla de Sturgers indica que el valor k se obtiene mediante
la ecuacin:

k 1 3.3log( n)

Si tomamos los datos en milmetros que se obtuvieron como resultado de la medicin de


tornillos en un proceso de fabricacin y que est representada en la siguiente distribucin de
frecuencias.

Tabla A.

DATOS
2
3
4

FRECUENCIA
7
3
5

5
6
7
8
9
11

4
3
1
3
2
2
30

Como observamos n = 30 y aplicando la formula obtenemos el siguiente resultado

k 1 3.3log( n)
k 1 3.3log( 30)
k 1 (3.3)(1.48)
k 1 4.87
k 5.87 6
El valor de k que se obtuvo es de 5.87, esto equivale a que se tuvieron 5 clases y la fraccin de
otra, para resolver generalmente redondeamos al valor entero siguiente que para este caso es 6
clases.
Ancho de clase
Es la diferencia entre el lmite superior y el lmite inferior de una clase.
Intervalo de clase. Los intervalos de clase usados en la distribucin de frecuencias deben
ser iguales.
Determinamos un intervalo de clase sugerido usando la frmula:

i DM Dm
k

Donde:
DM= dato mayor
Dm= dato menor
k= nmero de clases
Para nuestro ejemplo de la medicin de tornillos en milmetros el intervalo queda representado
11 2 9
1.50 2 en forma aproximada.
por: i
6
6
Considerando los datos de la Tabla A, la distribucin de frecuencias que representa los datos
que se obtuvieron como resultado de la medicin de tornillos en milmetros de en un proceso de
fabricacin, la agrupacin en una tabla de distribucin de frecuencias por clase queda
representada de la siguiente forma (Tabla B). Si observamos en nuestra tabla de distribucin de
frecuencias el valor 2 que es el dato menor lo utilizamos como el primer dato de nuestra
agrupacin por clases, la segunda clase estar representada por el valor de 2 ms el valor del
intervalo el cual es 2, por lo que el valor es 4. Para la tercera clase es 4+2=6 y as
sucesivamente hasta terminar con la ltima clase como se observa en la tabla:

Tabla B
No. de clase
1
2
3
4
5
6

2
4
6
8
10
12

Clase
a
3
a
5
a
7
a
9
a
11
a
13

Frecuencia absoluta
10
9
4
5
2
0
30

Para reforzar este importante tema que se usa mucho en Estadstica, en la Tabla C se expone
otro ejemplo pero con datos distintos a lo que se ha estado manejando.
De este modo, cuando ya tenemos construida la tabla para una distribucin de frecuencias que
tiene clases del mismo tamao, el intervalo de clase se puede obtener considerando el lmite
inferior de una clase menos el lmite inferior de la clase anterior; para la siguiente distribucin de
frecuencias se determina de la siguiente forma:
i 18 13 5
i 33 28 5
i 23 18 5

i 13 8 5

Tabla C
Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

a
a
a
a
a
a
Total

Frecuencia
12
17
22
27
32
37

1
12
10
5
1
1
30

Lmite de clase
Cuando tenemos una distribucin de frecuencias a la cual subdividimos en clases, a las
fronteras entre ellas, se le llama lmites de clase los cuales se denominan, lmite inferior de
clase y lmite superior de clase. En la siguiente tabla el lmite inferior de la primera clase es 8 y
el lmite superior de la primera clase es 12. Para la cuarta clase el lmite inferior es 23 y el lmite
superior 27.
Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

a
a
a
a
a
a
Total

Frecuencia
12
17
22
27
32
37

1
12
10
5
1
1
30

Dado que los datos con los que vamos a trabajar son continuos, es necesario obtener los
lmites reales de clase que son el lmite real inferior y el lmite real superior los cuales se
obtienen promediando el lmite superior de una clase ms el lmite inferior de la clase siguiente
entre dos.
Para la clase No. 1 el lmite real superior queda determinado por LRS (12+13)/2=12.5
El lmite real inferior se obtiene restando al lmite real superior el valor del intervalo
Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

Lmite real inferior


Lmite real
de clase
superior de clase
7.5
12.5
12.5
17.5
17.5
22.5
22.5
27.5
27.5
32.5
32.5
37.5

Frecuencia

a 12
a 17
a 22
a 27
a 32
a 37
Total

1
12
10
5
1
1
30

Para la clase No. 2 el lmite real superior queda determinado por LRS (17+18)/2=17.5
Aqu podemos observar que el lmite real superior para una clase es el lmite real inferior para la
siguiente, otro punto importante es que al valor inicial debemos restarle el mismo valor que le
adicionamos al lmite superior, y al valor superior de la ltima clase tambin tenemos que
sumarle la misma cantidad.

Marca de clase
La marca de clase es el valor central de la misma que se obtiene al sumar el lmite real inferior
ms el lmite real superior entre dos
Para la clase No. 1 MC=(7.5+12.5)/2=10

La marca de clase es el valor ms representativo de la clase.


Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

a
a
a
a
a
a
Total

Frecuencia
12
17
22
27
32
37

1
12
10
5
1
1
30

Marca de Clase
MC
10
15
20
25
30
35

Frecuencia absoluta
La frecuencia absoluta es el nmero de veces que aparece en la muestra dicho valor de la
variable.
Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

a
a
a
a
a
a
Total

Frecuencia
12
17
22
27
32
37

1
12
10
5
1
1
30

Frecuencia relativa
La frecuencia relativa de una clase se obtiene dividiendo la frecuencia de clase entre la
frecuencia total.
Horas de estudio
8-12
13-17
18-22
23-27
28-32
33-37
Total

Frecuencia
absoluta (f)
1
12
10
5
1
1
30

Frecuencia relativa
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1

Tabla de presentacin de datos.


Horas de
estudio

Frecuencia
absoluta ( f )

8-12
13-17
18-22
23-27
28-32
33-37
Total

1
12
10
5
1
1
30

Frecuencia
acumulada
fa
1
13
23
28
29
30

Frecuencia
relativa
fr
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1

Lmite
real
inferior
7.5
12.5
17.5
22.5
27.5
32.5

Lmite
real
superior
12.5
17.5
22.5
27.5
32.5
37.5

Marca de
clase
10
15
20
25
30
35

Medidas de tendencia central


Son el conjunto de valores alrededor de los cuales las observaciones tienden a agruparse, y
permiten ubicar lo que en algn sentido pudiera llamarse el centro de un conjunto de datos.
Dentro de las medidas de tendencia central ms comnmente usadas encontramos a la media
aritmtica, la mediana, la moda.
Cuando se mide una caracterstica de una poblacin esta se define como parmetro y se
representa habitualmente con una letra del alfabeto griego. As mismo cuando se mide una
caracterstica de una muestra se denomina estadstico la cual se representa con una letra del
alfabeto latino.

Media aritmtica
Para el clculo de la media cuando los datos se encuentran agrupados en una distribucin de
frecuencia por clase, debemos considerar que la marca de clase es el valor ms representativo
de la clase.
Por lo tanto la media aritmtica de una poblacin se representa con la letra (mu), y la media
aritmtica de una muestra se representa con (equis barra).
Las expresiones para encontrar la media son:

Observamos que el clculo para la media cuando los datos corresponden a una poblacin y a
una muestra se realiza de la misma forma.

Ejemplo
Determine la media para el siguiente conjunto de datos:

Nmero de
clase
1
2
3
4
5
6

Clase
8
13
18
23
28
33

Marca de clase
MC
10
15
20
25
30
35

Frecuencia

a 12
a 17
a 22
a 27
a 32
a 37
Total

1
12
10
5
1
1
30

Una forma fcil de encontrar la media consiste en multiplicar la marca de clase por la frecuencia
y aplicar la expresin que definimos para calcular la media.
Nmero de clase
Clase
1
2
3
4
5
6

8
13
18
23
28
33

a
a
a
a
a
a
Total

12
17
22
27
32
37

Frecuencia
(f)

Marca de clase
MC

(f)(MC)

1
12
10
5
1
1
30

10
15
20
25
30
35

10
180
200
125
30
35
580

fMC
x1

580
30

19.33

Con lo cual podemos concluir que la media se encuentra en la tercera clase.

Mediana
La mediana es el valor central que divide en dos subgrupos a un conjunto de datos ordenados
en forma ascendente o descendente, y se representa con Md. En donde el 50% de los datos es
menor a la mediana y el otro 50% de los datos es mayor a la mediana.
Para determinar la mediana cuando los datos se encuentran agrupados en una distribucin de
frecuencias por clase, est se encuentra en la clase cuya frecuencia acumulada es igual o
excede a la mitad total de observaciones (n/2). Y se realiza mediante la expresin siguiente:
Donde:
Md = Mediana.
n

faA
LRI = Lmite real inferior de la clase que contiene a la mediana.
M d LRI 2
i
faA = Frecuencia acumulada anterior a la clase que contiene a la mediana. fc =

fc
frecuencia de clase que contiene a la mediana.

i = intervalo.

Determine la mediana de la siguiente distribucin de frecuencias.


Nmero de clase
1
2
3
4
5
6

8
13
18
23
28
33

Clase
a
a
a
a
a
a
Total

12
17
22
27
32
37

Frecuencia (f)
1
12
10
5
1
1
30

Solucin
La metodologa nos indica que la mediana se encuentra en la clase cuya frecuencia
acumulada es igual o excede a la mitad total de observaciones, entonces lo primero que
debemos calcular es la frecuencia acumulada agregando una columna adicional donde
colocamos este valor.
Nmero de clase
1
2
3
4
5
6

Clase
a
a
a
a
a
a

12
17
22
27
32
37

Frecuencia
acumulada (fa)
1
13
23
28
29
30

1
12
10
5
1
1
30
Observando la tabla anterior, la clase que contiene a la mediana es la clase nmero tres
dado que la frecuencia acumulada es 23 cuyo valor excede a la mitad del total de
observaciones n que es 30.
As la frmula que nos permite establecer el valor de la mediana es:
n

8
13
18
23
28
33

Frecuencia (f)

faA
M d LRI 2
i

fc

Acorde con esta expresin tambin necesitamos del lmite inferior real de clase, que, como
sabemos es lmite superior de la clase ms el lmite inferior de la siguiente entre dos
Para la clase tres el lmite real inferior se calcula (LRI) LRI

17 18
17.5
2

El intervalo realizando la diferencia del lmite inferior de clase siguiente menos el lmite
inferior de la clase anterior i 18 13 5

Nmero de
clase
1
2
3
4
5
6

Clase

8
13
18
23
28
33

a
a
a
a
a
a

Frecuencia
(f)

Frecuencia
acumulada (fa)

Lmite real
inferior de clase

Lmite real
superior de
clase

Marca de
clase
(MC)

1
12
10
5
1
1
30

1
13
23
28
29
30

7.5
12.5
17.5
22.5
27.5
32.5

12.5
17.5
22.5
27.5
32.5
37.5

10
15
20
25
30
35

12
17
22
27
32
37

Con estos datos podemos aplicar la frmula expuesta anteriormente.

30

13
5
Md 17.5 2
10

15 13
Md 17.5

Md 17.5

10
2

10
Md 17.5 1

Md 18.5
El valor de la mediana por lo tanto es 18.5
Moda
La moda es el dato que se repite un mayor nmero de veces, cuando un nico dato se repite un
nmero de veces decimos que es unimodal, cuando dos datos se repiten en igual nmero de
veces decimos que es bimodal y cuando ms de dos datos se repiten igual nmero de veces
decimos que es multimodal. Si ningn dato se repite entonces no hay moda.
En una distribucin de frecuencias simple o agrupada por clases, la moda se encuentra en la
clase o en el dato que contiene el mayor nmero de observaciones, cuando los datos se
encuentran agrupados por clases, la marca de clase es el dato ms representativo de ella.

Ejemplo 11
Para el siguiente conjunto de datos determine la moda
Nmero de
Clase
Frecuencia (f)
Frecuencia
clase
acumulada (fa)
1
2
3
4
5
6

8
13
18
23
28
33

a
a
a
a
a
a

12
17
22
27
32
37

1
12
10
5
1
1
30

1
13
23
28
29
30

Lmite real
inferior de
clase
7.5
12.5
17.5
22.5
27.5
32.5

Lmite real
superior de
clase
12.5
17.5
22.5
27.5
32.5
37.5

Marca de
clase
(MC)
10
15
20
25
30
35

Solucin
Observando la tabla anterior, la moda se encuentra en la clase de 13 a 17, en la que se
encuentra el mayor nmero de observaciones, y la marca de clase que es 15 como el valor
representativo. En este caso decimos que es unimodal.

Si dos clases tienen el mismo nmero de observaciones ser bimodal y si tres clases o ms
tienen igual nmero de observaciones entonces ser multimodal.

Medidas de dispersin
En esta ocasin y considerando el tema que le corresponde a esta Unidad Temtica
abordaremos las principales medidas de dispersin que se calculan en estadstica. A
continuacin se presenta en qu consiste cada una de ellas con sus respectivos ejemplos.
Iniciemos.

Dispersin
Las medidas de variabilidad o de dispersin son el conjunto de valores que permiten establecer
que tan alejados o aproximados se encuentran los datos del valor central.
Un valor grande en una medida de dispersin nos indica que el dato se encuentra muy alejado
del valor central, por el contrario si el valor en una medida de dispersin es muy pequeo nos
indica que el valor se encuentra muy cercano al valor central.

Relacin con las medidas de tendencia central


Las medidas de tendencia central son el conjunto de valores alrededor de los cuales las
observaciones tienden a agruparse, y permiten ubicar lo que en algn sentido pudiera llamarse el

centro de un conjunto de datos y las medidas de dispersin ubican que tan alejados estn estos
datos del centro

Amplitud de rango o recorrido


La amplitud de rango o recorrido es la diferencia que existe entre el dato ms grande y el ms
pequeo de un conjunto de datos.
El clculo se hace de la misma forma para una poblacin o para una muestra, la diferencia radica
en que si los datos se encuentran agrupados o no estn agrupados. Las siguientes expresiones
nos permiten determinar la amplitud de rango o recorrido.
Datos agrupados
R LSF LII
R = Recorrido o Rango.
LSF = Lmite superior de la clase ms alta.
LII = Lmite inferior de la clase ms baja.
Ejemplo
Determine la amplitud de rango o recorrido de la siguiente distribucin de frecuencias.
Nmero de
clase
1
2
3
4
5
6

Frecuencia
(f)

Clase
8
13
18
23
28
33

a
a
a
a
a
a
Total

12
17
22
27
32
37

1
12
10
5
1
1
30

Solucin
Lo que se nos pide calcular es la amplitud de rango o recorrido de esta distribucin de
frecuencias pero no nos indican si corresponde al total de los datos o a una muestra, para este
caso no es relevante debido a que se calcula de la misma manera, adems se encuentran
agrupados, para determinar la amplitud de rango o recorrido solamente tenemos que buscar el
lmite real superior de la ltima clase y el lmite real inferior de la primer clase y aplicar la formula,
R LSF LII el lmite real superior de la ltima clase es 37, mientras que el lmite inferior de la
primer clase es 8, sustituyendo en la formula tenemos R 37 8 29 podemos concluir que entre
el dato mayor y el dato menor hay una diferencia de 29 unidades.

Varianza

Podemos observar que la varianza para una poblacin y una muestra solo difiere entre el nmero
de datos que utilizamos para calcularla
Determine la varianza para el siguiente conjunto de datos:
Nmero de clase
1
2
3
4
5
6

8
13
18
23
28
33

Clase
a
a
a
a
a
a
Total

12
17
22
27
32
37

Frecuencia
1
12
10
5
1
1
30

Una forma fcil de encontrar la varianza es mediante una tabla en donde realicemos las
operaciones previas y posteriormente utilizar la frmula correspondiente:
Nmero de clase

Frecuencia
(f)

Clase
1
2
3
4
5
6

8
13
18
23
28
33

a
a
a
a
a
a
Total

12
17
22
27
32
37

1
12
10
5
1
1
30

Marca de
Clase
MC
10
15
20
25
30
35

(f)(MC)
10
180
200
125
30
35
580

87.5
18.75
0.45
32.15
113.85
245.55

87.05
224.99
4.49
160.74
113.85
245.55
836.67

Desviacin estndar
La desviacin estndar es la raz cuadrada de la varianza por lo tanto queda expresada de la
siguiente forma:

Por tanto

Medida de asimetra
Decimos que una distribucin es simtrica cuando su mediana, su moda y su media aritmtica
coinciden.
Decimos que una distribucin es asimtrica a la derecha si las frecuencias (absolutas o
relativas) descienden ms lentamente por la derecha que por la izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que
la distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias.
Una de ellas es el Coeficiente de Asimetra de Pearson:

Donde:
Sk=Coeficiente de sesgo o asimetra
=Media
Md=Mediana
=Desviacin estndar
Su valor es cero cuando la distribucin es simtrica, positivo (mayor que cero) cuando existe
asimetra a la derecha y negativo (menor que cero) cuando existe asimetra a la izquierda.

Medida de apuntamiento o curtosis


Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos
de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: Presenta un grado de concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta una distribucin normal).
Distribucin leptocrtica: Presenta un elevado grado de concentracin alrededor de los
valores centrales de la variable.
Distribucin platicrtica: Presenta un reducido grado de concentracin alrededor de los
valores centrales de la variable.

Teorema de Chebyshev: Establece que por menos 1-(1/k2) valores caern dentro de ( ) k
desviaciones estndar de la media, cualquiera que sea la forma de la distribucin de
frecuencias
Regla emprica: Establece que para una distribucin de frecuencias simtrica de campana,
cerca de 68% de las observaciones estar dentro de ms menos una desviacin estndar ( 1)
de la media (); cerca de 95% de las observaciones estar dentro dems menos dos
desviaciones estndar de la media (2) de la media (); alrededor de 99.7% estar dentro de

ms menos tres desviaciones estndar de la media (3) de la media (). Esta regla solo se
puede aplicar cuando los datos estn normalmente distribuidos, es decir, que la grfica es
simtrica.

Medidas
de dispersin relativas
Hay
ocasiones en las que
deseamos
comparar la relacin
que existe de dos o ms medidas de dispersin para un conjunto de datos. Por ejemplo, la
desviacin estndar de la distribucin de horas de sueo, en relacin con la desviacin
estndar de la distribucin del consumo de tazas de caf. Esto es prcticamente imposible,
porque no podemos comparar directamente estos valores dado que sus unidades son
diferentes, entonces, el coeficiente de variacin es til cuando se desea comparar la
diversificacin de dos o ms conjuntos de datos en relacin con el nivel general de los valores y
por lo tanto con la media de cada conjunto.

Coeficiente de variacin
El coeficiente de variacin (CV) se define como la proporcin que hay entre la desviacin
estndar y la media de un conjunto de datos y su resultado se expresa en porcentaje.

Las expresiones siguientes nos permiten determinar el coeficiente de variacin para


una poblacin o una muestra.

Ejemplo
La compaa Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos:
La produccin media de oro para la mina norte fue de 200 kilogramos con una desviacin
estndar de 5 kilogramos por da, mientras que para la mina sur la produccin media fue de 150
kilogramos con una desviacin de 4 kilogramos por da.
Solucin:
Si hacemos una comparacin absoluta la variabilidad del nivel de produccin fue mayor para la
mina norte, a causa de una mayor desviacin estndar, pero si lo que queremos evaluar es el
nivel de produccin lo que tenemos que comparar son los respectivos coeficientes de variacin.

Para la mina norte:

CV

200

Para la mina sur:


4

100 2.5%

CV

100 2.6667%

150

Con relacin al nivel promedio de produccin de cada mina podemos concluir que la mina del
sur tuvo una mayor variabilidad en la produccin que la mina del norte.
Representacin grfica de las distribuciones de frecuencia
Histograma
El histograma es una grfica de barras, que se utiliza para representar datos agrupados en
donde cada clase se representa por una barra y estas se muestran en forma continua en el eje
de horizontal partiendo del lmite real inferior de la primera clase hasta el lmite real superior de
esa clase, que a su vez es el inicio de la siguiente clase y as sucesivamente para todas las
clases de la tabla de datos.
Ejemplo
La siguiente tabla representa las horas de estudio utilizadas por los alumnos de la materia de
probabilidad y estadstica y la frecuencia representa los casos encontrados.
La construccin de esta tabla de datos agrupados ya la explicamos anteriormente, y est
compuesta por seis clases, con un intervalo de 5 unidades.

Tabla de presentacin de datos.


Horas de
estudio

Frecuencia
absoluta (f)

8-12
13-17
18-22
23-27
28-32
33-37
Total

1
12
10
5
1
1
30

Frecuencia
acumulada
fa
1
13
23
28
29
30

Frecuencia
relativa
fr
1/30=.0333
12/30=.400
10/30=.333
5/30=.1667
1/30=.0333
1/30=.0333
30/30=1

Lmite real
inferior

Lmite real
superior

Marca de
clase

7.5
12.5
17.5
22.5
27.5
32.5

12.5
17.5
22.5
27.5
32.5
37.5

10
15
20
25
30
35

Para este conjunto de datos agrupados en la grfica:


La primera clase inicia en 7.5 y termina en 12.5 con una frecuencia de 1 (barra caf)
La segunda clase inicia en 12.5 y termina en 17.5 con una frecuencia de 12 (barra rosa) La
tercera clase inicia en 17.5 y termina en 22.5 con una frecuencia de 10 (barra azul) La
cuarta clase inicia en 22.5 y termina en 27.5 con una frecuencia de 5 (barra verde) La
quinta clase inicia en 27.5 y termina en 32.5 con una frecuencia de 1(barra caf)
La sexta clase que inicia en 32.5 y termina en 37.5 con una frecuencia de 1 (barra caf)

Polgono de frecuencia
El polgono de frecuencia se obtiene al unir el punto medio de cada clase por medio de una
lnea continua y se puede construir sobre un histograma como se muestra en la siguiente
grfica el cual debe de iniciar en el punto medio de la clase anterior a la que tenemos con una
frecuencia cero y termina en la clase posterior a la final con una frecuencia igual a cero.

Ojiva
Se construye sobre un polgono de frecuencia acumulada y resulta al unir el lmite inferior de la
primera clase con el punto ms alto en el lmite inferior de la siguiente clase conforme se
muestra en la siguiente imagen.

Otros tipos de grficas


Grficas de pastel
Es un crculo que se encuentra dividido en segmentos, y el tamao de cada segmento vara de
acuerdo con el porcentaje de cada categora
Ejemplo
La siguiente tabla muestra el tipo y la cantidad de habitantes que ocupan un edificio que se
encuentra en la Ciudad de Mxico.

Tipo de habitantes
Hombres
Mujeres
Nios
Nias

Cantidad
50
45
15
25

Podemos observar que el segmento de los hombres est compuesto por 50 personas que
representan el 37% de la poblacin que ocupa el edificio, el segmento de las mujeres est
compuesto por 45 personas que ocupan el 33% de la poblacin, el segmento de los nios est
compuesto por 15 personas que representan el 11% mientras que la nias son 25 que
representan el 19%.

También podría gustarte