Documentos de Académico
Documentos de Profesional
Documentos de Cultura
n
s
a
n
d
a
m
a
n
g
o
m
a
m
e
y
Figura 6
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
27
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8 9 10
CALIFICACIONES
0
5
10
15
20
25
2 5 7 10 12 15
0
5
10
15
20
25
2 5 7 10 12 15
2 5 7 10 12 15
Figura 7 Figura 8
------------------------------------------------------------------------------------
Ejemplo 1: Representar por medio de una grfica de barras los datos organizados en la
siguiente tabla:
SOLUCIN:
Calificacin
0 1
1 1
2 1
3 2
4 8
5 13
6 12
7 10
8 7
9 5
10 2
Figura 9
------------------------------------------------------------------------------------
Ejemplo 2: Representar por medio de una grfica de barras los datos organizados en la
siguiente tabla:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
28
SOLUCIN:
Figura 10
------------------------------------------------------------------------------------
Ejemplo 3: Representar por medio de una grfica de barras los datos organizados en la
siguiente tabla:
SOLUCIN: Rigurosamente la grfica debera quedar como lo muestra la
figura 11.
0
1
2
3
4
5
6
7
1 3 5 7 9 11 13 15 17 19 21 23
Figura 11
Sin embargo, en casos como ste en los que queda un gran espacio vaco entre el eje
vertical y la primera barra es cuando se debe interrumpir la escala horizontal, para
recorrerla hacia el eje vertical conforme se dijo.
1 3 4
4 6 6
7 9 7
10 12 5
13 15 6
20 2
21 6
22 3
23 5
24 2
0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
29
La idea es simular que el papel ocupado por el espacio en blanco se dobl para acercar la
grfica hacia el eje vertical. Entonces, sealndolo con una lnea en zig zag, la grfica
debe quedar como lo muestra la figura 12.
9
8
7
6
5
4
3
2
1
0
Figura 12
------------------------------------------------------------------------------------
CUESTIONARIO 6
1. Representar por medio de una grfica de barras las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
2. Representar por medio de una grfica de barras las tablas obtenidas en el
cuestionario 3, problemas 8 a 23.
POLGONO DE FRECUENCIAS
Esta grfica se utiliza en la representacin de tablas por intervalos. Consiste en unir los
puntos medios de cada barra, o lo que es lo mismo, los puntos medios de cada intervalo,
comenzando y terminando sobre el eje horizontal a una distancia equivalente al punto
medio de la siguiente barra, simulando que sta existiera.
Ejemplo 1: Construir el polgono de frecuencias correspondiente a los datos organizados
en la tabla siguiente:
1
20 21 22 24 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
30
1 3 4
4 6 6
7 9 7
10 12 5
13 15 6
SOLUCIN: la grfica de barras correspondiente a la tabla es la que se muestra en la parte
izquierda de la figura 13, a la cual se le ha aadido una lnea quebrada que une los puntos
medios. Eliminando las barras se obtiene el polgono de frecuencias.
0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15
POLGONO DE
FRECUENCIAS
0
2
4
6
8
2 5 8 11 14
Figura 13
------------------------------------------------------------------------------------
CUESTIONARIO 7
1. Representar por medio de un polgono de frecuencias cada una de las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.
OJIVA
La palabra ojiva se emplea en el Espaol para denotar la lnea curva compuesta por dos
arcos de circunferencia del mismo radio y sus concavidades en sentido contrario, como lo
muestra la figura 14.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
31
En Estadstica se le llama ojiva, ya que en un buen numero de casos, toma forma semejante
a una ojiva, a la curva que se obtiene al graficar los datos nominales contra la distribucin
de frecuencias acumuladas en sentido ascendente, es decir, comenzando en cero hasta llegar
la frecuencia total.
Pero debe quedar claro que no siempre la grfica de una distribucin de frecuencias
acumuladas toma una forma semejante a la de la figura 14.
Figura 14
La expresin los datos nominales contra la distribucin de frecuencias acumuladas
significa que sobre el eje de las x se grafican los valores de los datos nominales, mientras
que sobre el eje de las y se representan las frecuencias acumuladas.
Ejemplo 1: la distribucin acumulativa de las estaturas de un grupo, que indica el nmero
de alumnos que midieron menos de la estatura sealada, se muestra en la siguiente tabla.
Construir su ojiva correspondiente.
Estatura 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
Alumnos
()
0 1 5 14 38 67 89 103 108
SOLUCIN: las coordenadas de los puntos de la ojiva son el equivalente a los de la
tabulacin de una ecuacin, en donde los valores de las x corresponden a la de los datos
nominales, en este caso a las estaturas, mientras que los valores de las y corresponden a
las frecuencias acumuladas, de la siguiente manera:
123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
0 1 5 14 38 67 89 103 108
cuya grfica es:
r 1
r 2
r1 = r2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
32
0
20
40
60
80
100
120
123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
datos nominales
f
r
e
c
u
e
n
c
i
a
s
a
c
u
m
u
l
a
d
a
s
Figura 15
Ejemplo 2: Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
la tabla de la pgina 20.
SOLUCIN: las coordenadas de los puntos de la ojiva se muestran en la siguiente tabla:
20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
2 5 7 8 11 13 15 17 19 23 24 25 30 34 34 36
cuya grfica es:
0
5
10
15
20
25
30
35
40
20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
datos nominales
f
r
e
c
u
e
n
c
i
a
s
a
c
u
m
u
l
a
d
a
s
Figura 16
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
33
CUESTIONARIO 8
1. Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
los problemas 14 a 21, cuestionario 4.
2. Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
los problemas 8 a 23, cuestionario 4.
GRFICA DE SECTORES CIRCULARES O PASTEL
Este tipo de grfica es recomendable para datos nominales sustantivos, no numricos,
cuando no son muchos y cuando se desea mostrar el porcentaje de cada uno de ellos,
aunque puede utilizarse en otros casos.
Para ello se recomienda seguir los siguientes pasos.
1) Calcular los porcentajes, respecto del total, de cada frecuencia correspondiente a
cada dato nominal sustantivo. Por una regla de tres simple, en donde la suma de
todas las frecuencias es el 100%, se obtiene
f / 100 = f / x%
despejando:
x% = 100f / f
en donde:
f = suma de todas las frecuencias
f = frecuencia particular del dato seleccionado
x% = porcentaje del dato particular
2) Calcular los grados de la circunferencia que corresponden a cada uno de esos
porcentajes. Tambin por una regla de tres simple, en donde los 360 de la
circunferencia son el 100%, se establece que
360 / 100% = x / x%
despejando:
x = (360) (x%) / 100
en donde:
x = grados correspondientes al porcentaje x%.
x% = porcentaje calculado anteriormente para cada frecuencia.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
34
3) Marcar en un crculo, a partir de cualquier origen arbitrario, los grados de cada
sector obtenidos en el paso anterior.
4) Colocar dentro de cada sector las siguientes dos leyendas:
a) el dato nominal a que corresponde;
b) el porcentaje que le corresponde.
Solamente en caso de que no quepan las leyendas anteriores, se colocarn afuera de los
sectores, relacionando con claridad por medio de lneas, en caso necesario, cada sector con
sus respectivas leyendas.
A pesar de tener mucha aceptacin, no es buena practica rellenar cada sector con
identificadores diferentes, colocando despus en otro sitio la lista de sus significados, ya
que esto complica la lectura en virtud de que obliga a dos lecturas en dos espacios
diferentes.
Ejemplo 1: obtener la grfica de sectores circulares de la siguiente tabla.
Dato nominal sustantivo
Pltano 2500
Manzana 1700
Guayaba 3000
Uva 4000
f =
11200
SOLUCIN: calculando el porcentaje de cada dato nominal sustantivo, se obtiene
a) para pltano
x% = 100 x 2500 / 11200 = 22.321%
b) para manzana
x% = 100 x 1700 / 11200 = 15.178%
c) para guayaba
x% = 100 x 3000 / 11200 = 26.785%
d) para uva
x% = 100 x 4000 / 11200 = 35.714%
A la tabla original conviene agregarle dos columnas ms, una para los porcentajes de cada
dato nominal sustantivo y la otra para los grados que les corresponden a esos porcentajes,
las que se irn llenando conforme se realicen los clculos correspondientes, de la siguiente
manera:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
35
Dato nominal
sustantivo
% grados
Pltano 2500 22.321
Manzana 1700 15.178
Guayaba 3000 26.785
Uva 4000 35.714
f = 11200 99.998
Calculando como siguiente paso del proceso los grados de la circunferencia que
corresponden a cada uno de esos porcentajes:
a) para pltano
x = 360 x 22.321 / 100 = 80.355
b) para manzana
x = 360 x 15.178 / 100 = 54.640
c) para guayaba
x = 360 x 26.785 / 100 = 96.426
d) para uva
x = 360 x 35.714 / 100 = 128.570
Vaciando estos resultados en la ltima columna de la tabla, queda as:
Dato nominal
sustantivo
% grados
Pltano 2500 22.321 80.355
Manzana 1700 15.178 54.640
Guayaba 3000 26.785 96.426
Uva 4000 35.714 128.570
f = 11200 99.998 359.991
Obsrvense que las sumas del porcentaje y de los grados no dan exactamente 100% ni
360, en virtud de los decimales que no se tomaron, pero sus respectivos resultados casi
dieron esas cifras esperadas.
Marcando en un crculo, a partir de cualquier origen arbitrario, aunque de preferencia por
su fcil localizacin se escoge el eje vertical superior y avanzando en el sentido de las
manecillas del reloj en el mismo orden en que aparecen en la tabla, los grados de cada
sector obtenidos en el paso anterior y concentrados en la ltima columna, agregando en
cada sector la leyenda del dato nominal sustantivo y su porcentaje correspondiente, la
grfica de sectores circulares resulta como se muestra en la figura 17.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
36
uva
36%
pltano
22%
manzana
15%
guayaba
27%
Figura 17
Debe entenderse que cada sector circular fue dibujado con auxilio de un transportador,
dando a cada uno de ellos el ngulo en grados que le corresponde, segn la tabla.
Se dijo que no es recomendable rellenar cada sector con identificadores diferentes,
colocando despus en otro sitio la lista de sus significados, ya que esto complica la lectura
en virtud de que obliga a dos lecturas en dos espacios diferentes, como la grfica de la
figura 18. En otras palabras, hacer grficas como sta es colocar distractores a la lectura.
Aunque tampoco puede descartarse esta forma de hacer grficas de sectores circulares, pues
a pesar del inconveniente anterior, tambin tiene algunas ventajas, las que resultan de ms
peso para ciertos trabajos. Una de ellas es la presentacin, ya que una grfica como la de la
figura 18 parece ms elegante que la de la figura 17. Depende entonces qu se prefiera: si
agilidad para su lectura o que sea agradable a la vista.
uva
guayaba
manzana
pltano
Figura 18
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
37
A partir de la grfica por sectores circulares elemental se pueden crear diferentes formas
estilizadas para darle esttica a la presentacin, como pueden ser grficas inclinadas
como las de las figuras 20 y 21, o grficas con grosor como las figuras 20 y 21, o en forma
de anillos como la figura 21, o combinando las anteriores formas de inclinacin o grosor,
etc., sin embargo, en este curso se trabajar solamente con comps y transportador para
construir la grfica de sectores circulares simple, como la de la figura 17.
manzan
a
15%
guayaba
27%
uva
36%
pltano
22%
pltano
22%
manzana
15%
guayaba
27%
uva
36%
Figura 19 Figura 20
pltano
22%
manzana
15%
guayaba
27%
uva
36%
Figura 21
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
38
CUESTIONARIO 9
Dibujar la grfica de sectores circulares para cada uno de los siguientes casos, construyendo
una tabla con las cuatro columnas.
1)
Datos nominales
Gatos 12500
Perros 16000
Borregos 10250
Caballos 22750
2)
Datos nominales
Frijol 650
Maz 220
Garbanzo 335
Chicharo 119
3)
Datos nominales
Frutas 350
Legumbres 600
Carnes 250
Enlatados 750
4)
Datos nominales
Gripes 23650
Amibas 33220
Sarampin 15335
Presin 5119
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
39
5)
Datos nominales
Luz $990
Telfono 2600
Agua 250
Gas 650
Renta 3000
6)
Datos nominales
Cine 3220
Teatro 3990
Futbol 5335
Toros 2119
Otros 4966
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
40
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Medidas de tendencia central
La media
La media, frecuencias simples
Cuestionario 10
La media, frecuencias por intervalos
Cuestionario 11
La moda
La moda, frecuencias simples
La moda, frecuencias por intervalos
Cuestionario 12
La mediana
La mediana, frecuencias simples
Cuestionario 13
La mediana, frecuencias por intervalos
Cuestionario 14
Interpretacin y utilizacin
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
41
4
MEDIDAS DE TENDENCIA CENTRAL
A veces, de los datos recolectados ya organizados en alguna de las formas vistas en
captulos anteriores, se desea encontrar una especie de punto central en funcin de sus
frecuencias. En Estadstica se conocen tres diferentes, llamadas medidas de tendencia
central, cuya utilizacin vara de acuerdo con lo que se desee del conjunto de datos
recolectados. Esas tres medidas de tendencia central son la media, la mediana y la moda.
Cada una de ellas se estudiar en dos partes: primero, cuando los datos estn organizados
en tablas de frecuencias simples; y, segundo, cuando estn organizados en intervalos.
LA MEDIA
La media, llamada pomposamente media aritmtica, es la medida de tendencia central
conocida popularmente como promedio.
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
media se puede calcular por medio de la formula
_
X = fx / n
En donde:
_
X = media
fx = suma de las frecuencias por su correspondiente dato nominal.
n = suma de todas las frecuencias (numero de datos recolectados).
Para calcular la media, debe aadirse una columna a la tabla original en la que se registren
los resultados correspondientes al producto de la frecuencia por su valor nominal (fx).
Ejemplo 1: las calificaciones de Matemticas de los grupos A y B se muestran en la
tabla siguiente. Calcular el promedio (la media) obtenido por esos grupos.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
42
Calificaciones
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n=91
SOLUCIN: debe aadirse a la tabla original una columna encabezada por en donde se
anotarn los resultados correspondientes a las multiplicaciones de cada valor nominal por
su frecuencia respectiva.
Por ejemplo, para la primera fila:
fx = 2 x 0 = 0
para la segunda fila:
fx = 3 x 1 = 3
para la tercera fila:
fx = 3 x 2 = 6
La tabla completa con las tres columnas queda como se muestra en la siguiente tabla. La
suma de los valores de la columna es 544, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 544 / 91
_
X = 5.97
Calificaciones
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n=91
0
3
6
18
32
45
102
154
80
54
50
544
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
43
Ejemplo 2: los precios de los 97 artculos que se venden en una tienda estn sealados en
la tabla siguiente. Calcular el precio promedio que existe en dicha tienda.
Precios
$ 250.00 5
305.50 3
330.00 4
395.75 6
400.00 8
465.80 8
500.00 18
512.35 20
525.00 13
530.00 9
540.40 2
550.00 1
n =97
SOLUCIN: debe aadirse, como en el ejemplo anterior, a la tabla original una columna
encabezada por en donde se anotarn los resultados correspondientes a las
multiplicaciones de cada valor nominal por su frecuencia respectiva.
Por ejemplo, para la primera fila:
fx = 5 x 250.00 = 1250
para la segunda fila:
fx = 3 x 305.50 = 916.5
para la tercera fila:
fx = 4 x 330.00 = 1320.00
La tabla completa con las tres columnas queda como se muestra en la tabla. La suma de los
valores de la columna es 45 260.2, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 45 260.2 / 97
_
X = 466.66
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
44
Precios
$ 250.00 5 1250.00
305.50 3 916.50
330.00 4 1320.00
395.75 6 2374.50
400.00 8 3200.00
465.80 8 3726.40
500.00 18 9000.00
512.35 20 10247.00
525.00 13 6825.00
530.00 9 4770.00
540.40 2 1080.80
550.00 1 550.00
n =97 45260.2
CUESTIONARIO 10
1. A qu se le llama en Estadstica medidas de tendencia central?
2. Mencionar las tres medidas de tendencia central.
3. Qu es la media?
4. Qu otros dos nombres tiene la media?
5. Qu columna debe agregarse a la tabla original para calcular la media, cuando
est organizada en una distribucin de frecuencias simples?
6. Calcular el promedio de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la media se puede calcular por medio de la formula:
_
X = fx / n
En donde:
_
X = media
x = punto medio del intervalo
fx = suma de las frecuencias por su correspondiente dato nominal
n = suma de todas las frecuencias (numero de datos recolectados)
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
45
Obsrvese que es la misma formula que la correspondiente a los datos organizados en
tablas de frecuencias simples, en donde la nica diferencia es la interpretacin de la x. en
una representa el valor nominal, en sta el punto medio del intervalo. De hecho, esta
situacin se va a repetir en las otras dos medidas de tendencia central que faltan de estudiar
an, la mediana y la moda, ya que tambin se estudiarn en dos casos: cuando los datos
estn organizados en tablas con frecuencias simples o cuando estn por intervalos.
Para calcular la media de datos organizados por intervalos, deben aadirse ahora dos
columnas a la tabla original: la primera columna aadida es para anotar el valor del punto
medio del intervalo (x) y la otra en la que se registren los resultados correspondientes al
producto de la frecuencia por el correspondiente valor del punto medio del intervalo (fx).
Ejemplo 1: calcular el promedio (la media) de los valores agrupados en intervalos de la
tabla siguiente.
Intervalos
0 2 12
3 5 13
6 8 23
9 11 16
12 14 18
n = 82
SOLUCIN: deben aadirse a la tabla original dos columnas encabezadas por y por ,
en donde se anotarn los resultados correspondientes a los puntos medios de cada intervalo
y al producto de la frecuencia por ese punto medio. La tabla completa con las cuatro
columnas queda como se muestra a continuacin:
Intervalos Punto medio
0 12 12 1 12
3 5 13 4 52
6 8 23 7 161
9 11 16 10 160
12 14 18 13 234
n =82 fx = 619
La suma de los valores de la columna es 619, de manera que utilizando la formula para
el promedio, se obtiene:
_
X = fx / n = 619 / 82
_
X = 7.548
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
46
CUESTIONARIO 11
1. Qu columnas deben agregarse a la tabla original para calcular la media, cuando
est organizada en una distribucin de frecuencias por intervalos?
2. Calcular el promedio de los datos organizados en intervalos en las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.
LA MODA
La moda es la medida de tendencia central que se define simplemente como aquel valor
nominal que tiene la frecuencia mayor. Por lo tanto, una distribucin de frecuencias puede
tener ms de una moda.
La moda se simboliza con sus dos primeras iniciales: Mo
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
moda se obtiene buscando en la columna de frecuencias simples el o los valores que tengan
mayor frecuencia.
Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.
TABLA A
x f
35 12
40 8
45 13
50 11
55 16
60 10
65 11
70 15
75 14
80 5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
47
TABLA B
x f
100 25
200 29
300 27
400 29
500 22
600 24
700 28
800 25
900 28
1000 19
SOLUCION: para la tabla A, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 16, que corresponde al dato nominal 55. Por lo tanto la moda es
Mo = 55.
Para la tabla B, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 29, que corresponde a los datos nominales 200 y 400. por lo tanto la moda
es Mo = 200 y tambin Mo = 400, es decir, la tabla B tiene dos modas.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la moda se obtiene buscando en la columna de frecuencias el o los valores que
tengan mayor frecuencia. Entonces la moda es el punto medio del intervalo que tiene la
mayor frecuencia.
Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.
TABLA A
I ntervalo f
3 5 52
6 8 68
9 11 53
12 14 41
15 17 70
18 20 64
21 23 69
24 26 68
27 29 55
30 32 52
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
48
33 35 66
36 38 61
39 41 45
42 44 64
45 47 52
TABLA B
I ntervalo f
11 20 75
21 30 62
31 40 77
41 50 55
51 60 77
61 70 70
71 80 58
81 90 63
91 100 69
101 110 72
111 120 77
121 130 76
131 140 75
141 150 42
151 160 53
SOLUCIN: para la tabla A, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 70, que corresponde al intervalo 15 17. Por lo tanto la moda es
el punto medio de ese intervalo, es decir, Mo = 16.
Para la tabla B, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 77, que corresponde a los intervalos 31 40, 51 60 y 111- 120. Por lo
tanto la moda es el punto medio de cada uno de esos intervalos, esto es Mo = 35.5 y
tambin Mo = 55.55, y tambin Mo = 115.5, es decir, la tabla B tiene tres modas.
CUESTIONARIO 12
1. Qu es la moda?
2. Por qu una distribucin de frecuencias puede tener ms de una moda y en
cambio no puede tener ms que una media exactamente?
3. Cmo se simboliza la moda?
4. Cmo se obtiene la moda cuando los datos estn organizados en intervalos?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
49
5. Localizar la moda de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
6. Localizar la moda de los datos organizados en intervalos en las tablas obtenidas
en el cuestionario 3, problemas 8 a 23.
LA MEDIANA
La mediana es la medida de tendencia central que se define como aquel valor nominal que
tiene, dentro de la tabla, arriba y abajo de l, el mismo numero de datos nominales. En otras
palabras, es el que est a la mitad.
Para facilitar la localizacin de la mediana en una tabla, conviene agregarle una columna en
la que se anoten las frecuencias acumuladas. Entonces, el nmero total de datos
recolectados ms uno, dividido entre dos, ese resultado se busca en la columna de las
frecuencias acumuladas y al dato nominal que le corresponda, es la mediana.
La mediana se simboliza con las letras: Mdn
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
mediana se obtiene buscando en la columna de frecuencias acumuladas el valor que est
situado exactamente a la mitad. Si los datos recolectados son numero impar, algn valor
real existente de la tabla coincide con la mediana; pero si son numero par, la mediana se
toma como la media de aquellos dos que fluctan a la mitad.
Ejemplo 1: localizar la mediana del conjunto de calificaciones mostrado en la siguiente
tabla.
x f fa
0 1 1
1 1 2
2 3 5
3 5 10
4 6 16
5 7 23
6 11 34
7 15 49
8 25 74
9 20 94
10 23 117
117
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
50
SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas. La
mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales, es
de 117. Es decir, la tabla corresponde a las calificaciones de 177 alumnos.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 117 y dividindolo entre dos, es decir,
f
c
= 1 + 117 / 2 = 59
Que significa que el dato ordinal 59 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta la calificacin 7, contadas desde
el principio, van apenas 49 alumnos, mientras que hasta la calificacin 8 ya van 74. Esto
significa que dentro de la calificacin 8 est el alumno nmero 59, que es el central. Por lo
tanto, la mediana es Mdn = 8.
Dicho de otra forma: cuando se fueron ordenando una por una las calificaciones, al contar
el ltimo siete se llevaban en ese momento 49 calificaciones ordenadas. Al continuar, el
50 (quincuagsimo) dato o calificacin fue de valor 8; el 51 (quincuagsimo primer) dato
fue tambin de valor 8; el 52 (quincuagsimo segundo) dato o calificacin fue tambin de
valor 8, y as sucesivamente hasta el 74 (septuagsimo cuarto), o sea 25 ms (que es la
frecuencia del dato nominal x = 8) Eso significa que el 59 (quincuagsimo noveno) dato
correspondi al valor nominal x = 8.
El error ms comn que se comete a la hora de intentar localizar la mediana es buscar el
dato nominal x central en vez del dato ordinal, o sea, el error consiste en buscar en la
columna de los datos nominales x el que est a la mitad y eso no es. En el ejemplo anterior,
el dato nominal x central es el 5 y se no es la mediana.
Ejemplo 2: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.
x f fa
500 10 10
525 10 20
550 13 33
600 12 45
700 11 56
750 7 63
800 7 70
900 5 75
950 5 80
1000 3 83
1200 2 85
1250 2 87
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
51
1350 1 88
1400 1 89
89
SOLUCIN: la tabla anterior es la tabla original a la que ya se le aadi la columna de
frecuencias acumuladas.
La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 89. Es decir, la tabla corresponde a 89 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al 89 y dividindolo entre dos, es decir,
f
c
= 1 + 89 / 2 = 45
que significa que el dato ordinal 45 es el que esta situado a la mitad de todos, o sea, hay 44
antes y 44 despus de l. Observando la columna de las frecuencias acumuladas se ve que
hasta el dato nominal x = 600, contados desde el principio, van 45 datos recolectados. Esto
significa que de los 12 datos nominales x = 600, justamente el ultimo de ellos ocupa el
orden 45, que es el central. Por lo tanto, la mediana es Mdn = 600.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos nominales, al
contar el ultimo correspondiente al valor x = 550, se llevaban hasta all 33 datos
recolectados. Al continuar, el 34 (trigsimo cuarto) dato fue de valor x = 600, el 35
(trigsimo quinto) dato fue de valor x = 600, el 36 (trigsimo sexto) dato fue de valor x =
600, y as sucesivamente hasta el 45 (cuadragsimo quinto), o sea 12 ms (que es la
frecuencia del dato nominal x = 600) Eso significa que el 45 (cuadragsimo quinto) dato
correspondi al valor nominal x = 600.
Obsrvese que la mediana Mdn = 600 no es el que est situado a la mitad de la columna de
los datos nominales x.
Ejemplo 3: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.
x f fa
45 100 100
46 106 206
47 63 269
48 112 381
49 81 462
50 70 532
51 27 559
52 5 564
58 10 574
574
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
52
SOLUCIN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x y f.
La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 574. Es decir, la tabla corresponde a 574 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al 574 y dividindolo entre dos, es decir,
f
c
= 1 + 574 / 2 = 287.5
que significa que tanto el dato ordinal 287 como el 288 son los que estn situados a la
mitad de todos. Observando la columna de las frecuencias acumuladas se ve que dentro del
conjunto de 112 datos recolectados con valor nominal x = 48, estn los que ocupan el orden
287 y 288, de manera que en este caso no hay conflicto para determinar la mediana y sta
es Mdn = 48.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo dato nominal con valor x = 47, se llevaban en ese momento 269 datos
recolectados ordenados. Al continuar, el 270 (bicentsimo septuagsimo) dato fue de valor
48; el 271 (bicentsimo septuagsimo primer) dato fue tambin de valor 48; el 272
(bicentsimo septuagsimo segundo) dato fue tambin de valor 48, y as sucesivamente
hasta 112 ms (que es la frecuencia del dato nominal x = 48) Eso significa que el 287
(bicentsimo octagsimo sptimo) dato, lo mismo que el 288 (bicentsimo octagsimo
octavo), correspondieron al valor nominal x = 48.
Obsrvese que la mediana Mdn = 48 no es el que est situado a la mitad de la columna de
los datos nominales x.
Ejemplo 4: las edades de un grupo de 28 personas van de los 45 a los 58 aos. Localizar la
mediana de dicho conjunto de datos, mostrado ya organizado en la siguiente tabla.
Edad x f fa
45 2 2
46 1 3
47 3 6
48 3 9
49 5 14
50 6 20
51 2 22
52 4 26
58 2 28
28
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
53
SOLUCIN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x (edades) y f. este es un ejemplo para ilustrar el caso de conflicto para localizar
la mediana.
La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 28. Es decir, la tabla corresponde a 28 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al numero total de datos 28 y dividindolo entre dos, es decir,
f
c
= 1 + 28 / 2 = 14.5
que significa que tanto el dato ordinal 14 como el 15 son los que estn situados a la mitad
de todos, ya que debe comprenderse que no existen datos ordinales fraccionarios, sino
solamente enteros, o sea, existe el 1er dato, el 2 dato, el 3er dato, el 8 dato, el 19 dato,
etc., pero no puede existir el 14.5 (el dcimo cuarto punto cinco) dato, si acaso el 14
(dcimo cuarto) exactamente.
Observando la columna de las frecuencias acumuladas se ve que el 14 dato fue el ultimo
correspondiente al dato nominal x = 49, mientras que el 15 dato es el primero que
corresponde al dato nominal x = 50, por lo que se entra en el conflicto de cul de los dos ha
de ser la mediana. En casos as, la media de ambos se toma como la mediana, es decir, la
mediana es Mdn = 49.5.
CUESTIONARIO 13
1. Qu es la mediana?
2. Cmo se simboliza la mediana?
3. Cuntas y cules columnas deben agregarse a la tabla original para localizar la
mediana en una distribucin de datos sin agrupar?
4. Cul es la confusin o error ms frecuente que se tiene al intentar localizar una
mediana?
5. Puede haber ms de una mediana en una distribucin de frecuencias, as como
puede tener dos o ms modas? Explicar por qu.
6. Localizar la mediana de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
54
2) FRECUENCIAS POR INTERVALOS O AGRUPADAS:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la mediana podra considerarse el punto medio del intervalo en donde se localiza
el valor central de todas las frecuencias; sin embargo, se acostumbra ms bien localizar con
exactitud un punto dentro de ese intervalo que sea el ms representativo, por lo que la
mediana se obtiene por medio de una formula.
Para utilizar la formula mencionada debe aadirse primero a la tabla una columna de
frecuencias acumuladas.
Se le llama clase de la mediana al intervalo en donde se encuentra la mediana. Clase o
intervalo es lo mismo. El resultado que se obtiene con la formula es una valor que se
encuentra dentro de la clase de la mediana.
La formula correspondiente es
Mdn = L + (n/2 - f
a
/
f) i
En donde:
Mdn = mediana
L = limite inferior de la clase (o intervalo) de la mediana
n = numero total de datos
f
a =
frecuencia acumulada en la clase (intervalo)
inmediata inferior a la clase (intervalo) de
la mediana
f = frecuencia de la clase de la mediana
i = diferencia entre los limites de la clase (intervalo) de la mediana
Para localizar el intervalo de la mediana se procede igual que para datos no agrupados.
Ejemplo 1: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.
I ntervalo x f fa
0 30 1 1
31 60 1 2
61 90 3 5
91 120 5 10
121 150 6 16
151 180 7 23
181 210 11 34
211 240 15 49
49
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
55
SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas.
La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 49.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 49 y dividindolo entre dos, es decir,
f
c
= 1 + 49 / 2 = 25
que significa que el dato ordinal 25 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 151 180, contadas
desde el principio, van apenas 23 datos ordenados, mientras que hasta el intervalo 181
210 ya van 34. Esto significa que dentro del intervalo 181 210 est el dato ordinal numero
25, que es el central. Por lo tanto, la clase de la mediana es 181 210.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo del intervalo 151 -180 se llevaban en ese momento 23 datos ordenados. Al
continuar, el 24 (vigsimo cuarto) dato fue ya del intervalo 181 210; el 25 (vigsimo
quinto) dato fue tambin de la clase 181 210, y as sucesivamente hasta el 34 (trigsimo
cuarto), o sea 11 ms (que es la frecuencia del intervalo) Eso significa que el 25 (vigsimo
quinto) dato correspondi al intervalo 181 210.
As que se tienen los siguientes datos para ser sustituidos en la formula:
L = 181
n = 49
fa = 23
f = 11
i = 210 180 = 30
de modo que
Mdn = 181 + (49/2 - 23 /
11) 30
Mdn = 181 + (0.13636)30
Mdn = 185.09
Obsrvese que, como se dijo antes, el valor de la mediana est adentro del intervalo de la
clase de la mediana, es decir, adentro de 181 210. Lo contrario sera una contradiccin,
pues si se afirma que el intervalo (la clase) de la mediana es 181 210, precisamente dentro
de ese intervalo debe estar la mediana.
Ejemplo 2: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
56
I ntervalo x f fa
5 13 16 16
14 22 11 27
23 31 30 57
32 40 5 62
41 49 2 64
50 58 7 71
59 67 1 72
68 76 3 75
75
SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas.
La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 75.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 75 y dividindolo entre dos, es decir,
f
c
= 1 + 75 / 2 = 38
que significa que el dato ordinal 38 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 14 - 22, contadas
desde el principio, van apenas 27 datos ordenados, mientras que hasta el intervalo 23 31
ya van 57. Esto significa que dentro del intervalo 23 31 est el dato ordinal numero 38,
que es el central. Por lo tanto, la clase de la mediana es 23 31.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo del intervalo 14 22 se llevaban en ese momento 27 datos ordenados. Al
continuar, el 28 (vigsimo octavo) dato fue ya del intervalo 23 31; el 29 (vigsimo
noveno) dato fue tambin del mismo intervalo 23 31, y as sucesivamente hasta el 57
(quincuagsimo sptimo), o sea 30 ms (que es la frecuencia del intervalo) Eso significa
que el 38 (trigsimo octavo) dato correspondi al intervalo 23 31.
As que para calcular la mediana, se tienen los siguientes datos para ser sustituidos en la
formula:
L = 23
n = 75
fa = 27
f = 30
i = 31 23 = 8
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
57
de modo que
Mdn = 23 + (75/2 - 27 /
30) 8
Mdn = 23 + (0.35)8
Mdn = 25.8
Obsrvese que, como se dijo antes, el valor de la mediana est adentro del intervalo de la
clase de la mediana, es decir, adentro de 23 - 31. Lo contrario sera una contradiccin, pues
si se afirma que el intervalo (la clase) de la mediana es 23 - 31, precisamente dentro de ese
intervalo debe estar la mediana.
CUESTIONARIO 14
1. Cuntas y cules columnas deben agregarse a la tabla original para localizar la
mediana en una distribucin de datos agrupados?
2. Localizar la mediana de los datos organizados en las tablas obtenidas en el
cuestionario 3, problemas 8 a 23.
INTERPRETACION Y UTILIZACION
Tres cosas son las importantes respecto de las medidas de tendencia central: Primero,
saberlas obtener; segundo, saberlas interpretar; y tercero, saberlas utilizar. Quedan entonces
pendientes hasta este momento las dos ltimas.
Para la interpretacin de cada una de las tres medidas de tendencia central debe suponerse
que se graficaron todos los valores nominales (eje de las x) contra sus frecuencias (eje de
las y) hasta obtener su curva correspondiente. Mientras mayor sea el nmero de datos
recolectados, mayor ser la precisin.
a) La media es un punto de equilibrio, algo as como un centro de gravedad.
b) La mediana tiene la caracterstica de dividir el rea bajo la curva en dos partes
iguales.
c) La moda es la abscisa (la x) correspondiente a la mayor ordenada (la y), o sea,
seala el pico ms alto de la curva.
La siguiente grfica muestra cada uno de estos casos:
Figura 22
La media: centro de gravedad
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
58
A1 A2
La mediana. A1 = A2
La moda: el pico ms alto
Un caso especial es aquel en el que la media, la mediana y la moda coinciden en el centro
en una misma lnea, lo cual da una grfica llamada curva normal. Tiene la caracterstica
de ser simtrica respecto de esa lnea comn. La figura 23 muestra tal caso.
La curva normal es de mucha utilidad y ms adelante se estudiar en forma ms detallada.
Figura 23
A1 A2
Media = mediana = moda
A1 = A2
Puede hacerse una similitud entre las tres medidas de tendencia central con algunas lneas
principales de los tringulos: la altura y la mediana. Recordando:
La altura es la perpendicular levantada desde uno de sus lados (o su prolongacin) y que
pasa por el vrtice opuesto. Tiene la caracterstica de que seala el punto ms elevado del
triangulo. Puede compararse con la moda.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
59
La mediana es la lnea que va del punto central de un lado al vrtice opuesto. Tiene la
caracterstica de que divide en dos reas iguales al triangulo. Puede compararse con la
mediana de las medidas de tendencia central.
Un caso tambin especial en los tringulos es el del issceles, en el cual la altura, la
mediana y la mediatriz forman una sola lnea. Podra compararse con la curva normal.
Figura 24
punto
medio
A1 A2
mediana
A1 = A2
La utilizacin de cada una de las tres medidas de tendencia central est en funcin de la
forma en que se distribuyan los datos y de lo que se desee obtener. En este curso no es
posible detallar al respecto, pero con un ejemplo el alumno podr intuir bastante sobre la
manera de utilizarlos.
Por ejemplo, el lder de los trabajadores de una fbrica sostiene que deben elevarles los
salarios, ya que ganan muy poco, mientras que el patrn alega que no es cierto, ya que
ganan en promedio $197.27 diarios ($5 918.18 al mes). La siguiente tabla muestra los
salarios de cada trabajador. Quin tiene la razn?
punto ms
alto
altura
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
60
TRABAJ ADOR SUELDO (diario)
Jorge Mndez $950.00
Arturo Gil 850.00
Emmanuel Ruiz 60.00
Luis Corts 50.00
Ren Cordoba 50.00
Juan Estrada 40.00
Jos Aburto 40.00
Luis Soto 40.00
Jorge Fallh 30.00
Sandra Paz 30.00
Elena Ruiz 30.00
PROMEDI O $197.27
El patrn tiene razn en cuanto a que el promedio de sus salarios es de $197.27, solamente
que la medida de tendencia central utilizada no es la adecuada en este caso, pues existe una
gran dispersin en el extremo superior, ya que mientras los dos primeros ganan cerca de mil
pesos diarios, los dems estn por debajo de los $61.00.
La mediana en este caso seria posiblemente la medida de tendencia central ms equilibrada,
o sea el dato ordinal central que corresponde a $40.00.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
61
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Medidas de dispersin
El rango
La desviacin media
La desviacin media, frecuencias simples
Cuestionario 15
La desviacin media, frecuencias por intervalos
Cuestionario 16
La desviacin estndar
La desviacin estndar, frecuencias simples
Cuestionario 17
La desviacin estndar, frecuencias por intervalos
Cuestionario 18
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
62
5
MEDIDAS DE DISPERSIN
En el capitulo anterior se estudiaron las medidas de tendencia central, que son un indicador
de cmo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo,
para una informacin completa de dicho conjunto de datos hace falta saber el
comportamiento opuesto, es decir, de qu manera se dispersan o se alejan algunos datos de
esa parte central.
Por ejemplo, al tomar las temperaturas en una regin A durante diferentes pocas del ao
y a distintas horas del da, se registraron los datos que se muestran en la columna A; por
su parte, las de otra regin diferente B, son las de la columna B.
Al obtener la media, en ambos casos result que la temperatura promedio fue de 20.687,
cuya interpretacin podra ser que en torno, alrededor o cerca de 20.687 fluctan los
dems valores.
A B
19.3 -3
20 0
20.2 6
20.4 22
21 31.5
21.3 34
21.3 36
22 39
20.687 20.687
Como puede verse, eso es bastante aproximado para los datos de la columna A, no as
para los de la B. los datos ms alejados en A son 19.3 y 22, que realmente estn
prximos a 20.687; en cambio, los datos mas alejados en B son -3 y 39, que estn muy
distantes del promedio.
Por qu si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los
valores que estn a su alrededor? La respuesta est en que no se ha tomado en cuenta la
dispersin, es decir, la manera en que se disgregan los datos respecto de la media, pues en
A casi no se dispersan mientras que en B si. Cabra decir que el conjunto de datos A
es bastante compacto mientras que el B es muy dilatado.
Las principales medidas de dispersin son tres: el rango, la desviacin media y la
desviacin estndar. De manera semejante a las medidas de tendencia central, las medidas
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
63
de dispersin deben considerarse en sus dos opciones: cuando no estn agrupados los datos
y cuando estn por intervalos.
EL RANGO
El rango es la diferencia entre los datos mayor y menor del conjunto. Tambin se le suele
llamar recorrido.
En un conjunto de datos, mientras mayor sea el rango, mayor ser su dispersin y, a la
inversa, mientras menor sea su rango, menor su dispersin. Dicho de otra forma; mientras
mayor sea el rango, mayor espacio tendrn los datos para dispersarse, o mientras menor
sea el rango, ms estrechos estarn.
En los casos de las temperaturas del ejemplo anterior, el rango de A es R = 22 19.3, es
decir, R = 2.7; en cambio, el de B es B = 39 (-3), es decir, R = 42.
LA DESVIACIN MEDIA
_
Dado un conjunto de datos cuya media aritmtica o promedio es X, la diferencia o la
distancia de cada valor nominal x a la media aritmtica se llama desviacin del dato x con
respecto a la media. Es decir, es una medicin de cuanto se alej cada valor nominal x de la
media.
Por ejemplo, de los datos mostrados en la tabla siguiente, en donde x = dato nominal y d =
desviacin de la media, la media aritmtica es:
x d
50 50 75 = -25
60 60 75 = -15
70 70 75 = -5
80 80 75 = 5
90 90 75 = 15
100 100 75 = 25
x = 450
_
X = x / n
_
X = 450 / 6 = 75
_
X = 75
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
64
Entonces
_
La desviacin del dato x = 50 con respecto de la media X es d = 50 75 = -25
_
La desviacin del dato x = 60 con respecto de la media X es d = 60 75 = -15
_
La desviacin del dato x = 70 con respecto de la media X es d = 70 75 = -5
_
La desviacin del dato x = 80 con respecto de la media X es d = 80 75 = 5
_
La desviacin del dato x = 90 con respecto de la media X es d = 90 75 = 15
_
La desviacin del dato x = 100 con respecto de la media X es d = 100 75 = 25
_
Resulta obvio que siendo la media aritmtica X el punto central de todos los valores de los
datos x, existan simtricamente valores positivos y negativos, o lo que es lo mismo, la suma
de todas las desviaciones a la media siempre es cero. Para evitar lo anterior, dicha suma se
toma como valor absoluto, esto es:
_
La desviacin del dato x = 50 con respecto de la media X es d = |50 75| = 25
_
La desviacin del dato x = 60 con respecto de la media X es d = |60 75| = 15
_
La desviacin del dato x = 70 con respecto de la media X es d = |70 75| = 5
_
La desviacin del dato x = 80 con respecto de la media X es d = |80 75| = 5
_
La desviacin del dato x = 90 con respecto de la media X es d = |90 75| = 15
_
La desviacin del dato x = 100 con respecto de la media X es d = |100 75| = 25
1) FRECUENCIAS SIMPLES
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, es
decir, sin agrupar, la desviacin media DM se calcula por medio de la formula:
_
DM = f |x X| / n
Al conjunto de datos deben aadirse a la tabla original tres columnas: la primera
encabezada con fx, que servir para calcular la media aritmtica; la segunda encabezada con
_ _
|x X|, que servir para obtener la tercera, y la tercera con f |x X|, que servir para obtener
el numerador de la formula luego de realizar la sumatoria.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
65
Ejemplo 1: obtener la desviacin media DM del conjunto de datos mostrado en la siguiente
tabla.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIN: la tabla es la original a la que deben agregrsele tres columnas:
a) La primera agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo valor nominal x. al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica
_
X = fx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con |x X|, que representa el valor absoluto de la
resta de cada valor nominal menos la media obtenida en el paso anterior, y
_
c) La tercera agregada se encabeza con f |x X|, que representa la multiplicacin de
cada frecuencia f (2 columna) por el valor absoluto correspondiente obtenido en la 4
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria f |x X|.
La tabla, con esas columnas agregadas, queda as:
x f fx
_
|x X|
_
f |x X|
45 2 90 4.7142 9.4285
46 1 46 3.7142 3.7142
47 3 141 2.7142 8.1428
48 3 144 1.7142 5.1428
49 5 245 0.7142 3.5714
50 6 300 0.2857 1.7142
51 2 102 1.2857 2.5714
52 4 208 2.2857 9.1428
58 2 116 8.2857 16.5714
f =28 = 1392 f |x X| =
59.9995
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
66
Se tiene con esta tabla toda la informacin requerida para utilizar la formula de la
desviacin media
_
DM = f |x X| / n
DM = 59.999 / 28 = 2.142
Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 2.142.
CUESTIONARIO 15
1. Qu son las medidas de dispersin?
2. Cuntas y cules son las principales medidas de dispersin?
3. Qu es el rango?
4. Qu es la desviacin media?
5. Cuntas y cules columnas se deben agregar a la tabla original para calcular la
desviacin media, cuando se organizan los datos sin intervalos?
6. Obtener la desviacin media de los datos organizados en el cuestionario 2,
problemas 14 a 21.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos han sido organizados en clases o intervalos, la desviacin media se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula
aplicada a la organizacin de frecuencias simples, solamente que x debe ser el punto
medio del intervalo.
Esto significa que al conjunto de datos original deben aadirse a la tabla ahora cuatro
columnas: la primera encabezada con x para sealar el punto medio de cada intervalo; la
segunda encabezada con fx; que servir para calcular la media aritmtica; la tercera
_ _
encabezada con |x X|, que servir para obtener la cuarta, y la cuarta con f |x X|, que
servir para obtener el numerador de la formula luego de realizar su sumatoria.
Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se
muestran en la siguiente tabla. Obtener la desviacin media DM.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
67
I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100
SOLUCIN: la tabla es la original a la que deben agregrsele tres columnas:
a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria , para calcular la media aritmtica
_
X = fx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con |x X|, que representa el valor absoluto de la
resta de cada punto medio del intervalo menos la media obtenida en el paso anterior.
As:
_
Primera fila: |x X| = |6.5 24.86| = 18.36
_
Segunda fila: |x X| = |12.5 24.86| = 12.36
_
Tercera fila: |x X| = |18.5 24.86| = 6.36
_
Cuarta fila: |x X| = |24.5 24.86| = 0.36
_
Quinta fila: |x X| = |30.5 24.86| = 5.64
_
Sexta fila: |x X| = |36.5 24.86| = 11.64
_
Septima fila: |x X| = |42.5 24.86| = 17.64
_
d) La cuarta agregada se encabeza con f |x X|, que representa la multiplicacin de cada
frecuencia f (2 columna) por el valor absoluto correspondiente obtenido en la 5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
68
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria f |x X|.
La tabla, con esas columnas agregadas, queda as:
I ntervalo
_
|x X|
_
f |x X|
4 9 12 6.5 78 18.36 220.32
10 15 11 12.5 137.5 12.36 135.96
16 21 13 18.5 240.5 6.36 82.68
22 27 19 24.5 465.5 0.36 6.84
28 33 21 30.5 640.5 5.64 118.44
34 39 16 36.5 584 11.64 186.24
40 45 8 42.5 340 17.64 141.12
100 fx = 2486
_
f |x X| =
891.6
Se tiene con esta tabla toda la informacin requerida para utilizar la formula de la
desviacin media
_
DM = f |x X| / n
DM = 891.6 / 100 = 8.916
Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 8.916.
CUESTIONARIO 16
1. Cuntas y cules columnas se deben agregar a la tabla original para calcular
la desviacin media cuando se organizan los datos por intervalos?
2. Obtener la desviacin media de los datos organizados en el cuestionario 3,
problemas 8 a 23.
LA DESVIACION ESTANDAR
La tercera medida de dispersin se llama desviacin estndar, porque con ella se pueden
estandarizar en todos los casos, todas las desviaciones de datos recolectados, como se ver
ms adelante.
La desviacin estndar se simboliza con la letra s.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
69
_
Aqu el truco para quitar los valores negativos de la resta de x X es elevar al cuadrado y
luego regresar con una raz cuadrada.
1) FRECUENCIAS SIMPLES
Cuando los datos estn ordenados en una distribucin de frecuencias simples, la desviacin
estndar se calcula mediante la formula
_
s = (x X)
2
n
en donde:
s = desviacin estndar
f = frecuencia
x = valor nominal
_
X = media aritmtica
Significa que a la tabla original hay que agregarle cuatro columnas, aunque la tercera es
opcional. La primera encabezada con fx, servir para calcular la media aritmtica. La
segunda encabezada con (x X). La tercera con los cuadrados de la anterior, es decir con
_ _
(x X)
2
. Y la cuarta con el producto de la frecuencia f por la anterior, o sea f(x X)
2
.
Ejemplo 1: obtener la desviacin estndar s del conjunto de datos mostrado en la siguiente
tabla.
Nota: por ser el mismo ejemplo que el utilizado para la desviacin media, una vez resuelto
este ejemplo comprense ambos resultados.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
70
a) La primera agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica:
_
X = fx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con (x X), que representa la resta de cada valor
nominal menos la media obtenida en el paso anterior. Esta columna es opcional, pues
directamente se puede elevar al cuadrado y el respectivo valor vaciarlo en la columna
que se especifica en el siguiente inciso; de la siguiente forma:
_
Primera fila: x X = 45 49.7142 = -4.7142
_
Segunda fila: x X = 46 49.7142 = -3.7142
_
Tercera fila: x X = 47 49.7142 = -2.7142
_
Cuarta fila: x X = 48 49.7142 = -1.7142
_
Quinta fila: x X = 49 49.7142 = -0.7142
_
Sexta fila: x X = 50 49.7142 = 0.2857
_
Sptima fila: x X = 51 49.7142 = 1.2857
_
Octava fila: x X = 52 49.7142 = 2.2857
_
Novena fila: x X = 58 49.7142 = 8.2857
c) La tercera agregada, o segunda en caso de haber omitido la anterior, se encabeza con
_
(x X)
2
, que representa el cuadrado de cada valor obtenido en la columna anterior;
_
Primera fila: (x X)
2
= (-4.7142)
2
= 22.2236
_
Segunda fila: (x X)
2
= (-3.7142)
2
= 13.7952
_
Tercera fila: (x X)
2
= (-2.7142)
2
= 7.3668
_
Cuarta fila: (x X)
2
= (-1.7142)
2
= 2.9384
_
Quinta fila: (x X)
2
= (-0.7142)
2
= 0.5100
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
71
_
Sexta fila: (x X)
2
= (0.2857)
2
= 0.0816
_
Septima fila: (x X)
2
= (1.2857)
2
= 1.6530
_
Octava fila: (x X)
2
= (2.2857)
2
= 5.2244
_
Novena fila: (x X)
2
= (8.2857)
2
= 68.6528
d) La cuarta columna agregada o tercera si se omiti la opcional, se encabeza con
_
f (x X)
2
, que representa el producto de cada frecuencia f por su correspondiente
cuadrado obtenido en la columna anterior.
La tabla, con esas columnas agregadas, queda as:
_
(x X)
2
_
f (x X)
2
45 2 90 22.2236 44.4472
46 1 46 13.7952 13.7952
47 3 141 7.3668 22.1004
48 3 144 2.9384 8.8152
49 5 245 0.5100 2.55
50 6 300 0.0816 0.4896
51 2 102 1.6530 3.306
52 4 208 5.2244 20.8976
58 2 116 68.6528 137.3056
f = 28 fx = 1392
_
f (x X)
2 =
253.7068
Se tiene con esta tabla toda la informacin requerida para utilizar la formula de la
desviacin estndar
_
s = (x X)
2
n
s = 253.7068
28
s = 3.0101
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
72
Otra formula para calcular la desviacin estndar que lleva exactamente al mismo resultado
es la siguiente:
_
s = x
2 _
X
2
n
lo que implica agregar solamente tres columnas a la tabla original, la primera encabezada
con fx para obtener la media, igual que en el caso anterior; la segunda encabezada con x
2
y
la otra con el producto fx
2
, por lo que suele resultar menos laborioso el calculo de la
desviacin estndar con esta formula que con la anterior.
Ejemplo 2: obtener la desviacin estndar s del conjunto de datos mostrado en la siguiente
tabla.
Nota: la tabla es la misma que se utiliz para el ejemplo 1, con el objeto de comparar
resultados.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIN: la tabla es la original a la que deben agregrsele tres columnas:
a) La primera agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica:
_
X = fx / n = 1392/28 = 49.7142
b) La segundo columna agregada se encabeza con x
2
que representa el correspondiente
valor al cuadrado de cada dato nominal;
Primera fila: x
2
= 45
2
= 2025
Segunda fila: x
2
= 46
2
= 2116
Tercera fila: x
2
= 47
2
= 2209
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
73
Cuarta fila: x
2
= 48
2
= 2304
Quinta fila: x
2
= 49
2
= 2401
Sexta fila: x
2
= 50
2
= 2500
Septima fila: x
2
= 51
2
= 2601
Octava fila: x
2
= 52
2
= 2704
Novena fila: x
2
= 58
2
= 3364
c) La tercera agregada se encabeza con fx
2
, que representa el producto de cada
frecuencia por el valor obtenido en la columna anterior;
Primera fila: fx
2
= (2)(2025) = 4050
Segunda fila: fx
2
= (1)(2116) = 2116
Tercera fila: fx
2
= (3)(2209) = 6627
Cuarta fila: fx
2
= (3)(2304) = 6912
Quinta fila: fx
2
= (5)(2401) = 12005
Sexta fila: fx
2
= (6)(2500) = 15000
Septima fila: fx
2
= (2)(2601) = 5202
Octava fila: fx
2
= (4)(2704) = 10816
Novena fila: fx
2
= (2)(3364) = 6728
La tabla, con esas columnas agregadas, queda as:
x
2
fx
2
45 2 90 2025 4050
46 1 46 2116 2116
47 3 141 2209 6627
48 3 144 2304 6912
49 5 245 2401 12005
50 6 300 2500 15000
51 2 102 2601 5202
52 4 208 2704 10816
58 2 116 3364 6728
f =28 fx =1392 fx
2
=69456
Se tiene con esta tabla toda la informacin requerida para utilizar la segunda formula de la
desviacin estndar.
_
s = x
2 _
X
2
n
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
74
s = 69456
_
49.7142
2
28
s = 3.0101
Que es el mismo resultado del ejemplo 1, tal y como era de esperarse.
CUESTIONARIO 17
1. Cuntas y cules columnas se deben agregar a la tabla original para calcular la
desviacin estndar cuando se organizan los datos por frecuencias simples y se
emplea la formula
_
s = (x X)
2
n
2. Cuntas y cules columnas se deben agregar a la tabla original para calcular la
desviacin estndar cuando se organizan los datos por frecuencias simples y se
emplea la formula
_
s = x
2 _
X
2
n
3. Obtener la desviacin estndar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la primera formula.
4. Obtener la desviacin estndar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la segunda formula.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos han sido organizados en clases o intervalos, la desviacin estndar se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula aplicada
a la organizacin de frecuencias simples, solamente que x debe ser el punto medio del
intervalo.
De tal manera que pueden emplearse, cuando la organizacin sea por intervalos,
cualesquiera de las dos formulas vistas para la desviacin estndar en frecuencias simples,
motivo por el cual solamente se pondr un ejemplo, pues debe suponerse que a estas alturas
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
75
del curso el alumno ya est familiarizado con este tipo de procesos, es decir, cuando los
datos se organizan por frecuencias simples y cuando se hace por intervalos, en los que se
emplea la misma formula, pero dando un significado diferente a la x en cada caso: en uno
es el valor nominal, en el otro es el punto medio.
Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviacin estndar.
Nota: este ejemplo es el mismo que se utiliz para calcular la desviacin media, por lo que
conviene al final comparar los resultados.
I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100
SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas:
a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria , para calcular la media aritmtica
_
X = fx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con x X, que representa la resta de cada punto
medio del intervalo menos la media obtenida en el paso anterior. Aunque debe
recordarse que esta columna es opcional si el estudiante puede sin equivocarse obtener
directamente sus cuadrados:
_
d) La cuarta agregada se encabeza con (x X)
2
, que representan los cuadrados de cada
resta obtenidos en la columna anterior.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
76
_
e) La quinta columna agregada se encabeza con (x X)
2
en donde se vaciarn los
resultados de cada producto de la frecuencia por el respectivo valor de la columna
anterior.
La tabla, con esas columnas agregadas, queda as:
Intervalo
_
(x X)
2
_
f (x X)
2
4 9 12 6.5 78 337.0896 4045.0752
10 15 11 12.5 137.5 152.7697 1680.4656
16 21 13 18.5 240.5 40.4496 525.8448
22 27 19 24.5 465.5 0.1296 2.4624
28 33 21 30.5 640.5 31.8096 668.0016
34 39 16 36.5 584 135.4896 2167.8336
40 45 8 42.5 340 311.1696 2489.3568
100 f = 2486
_
f (x X)
2 =
11579.04
Sustituyendo en la formula de la desviacin estndar
_
s = (x X)
2
n
s = 11579.04
100
s = 10.7605
Otra formula para calcular la desviacin estndar cuando los datos han sido organizados
por intervalos, que lleva exactamente al mismo resultado es la siguiente:
_
s = x
2 _
X
2
n
donde, como se ha establecido en casos anteriores, x representa el punto medio del
intervalo.
Ejemplo 2: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviacin estndar con la segunda formula.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
77
Nota: este ejemplo es el mismo que se utiliz para calcular la desviacin estndar por
intervalos, por lo que conviene al final comparar los resultados.
I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100
SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas: las dos
primeras son las mismas del ejemplo anterior hasta obtener la media.
c) La tercera columna agregada se encabeza con x
2
que representa el cuadrado de los
puntos medios de cada intervalo.
d) la cuarta columna agregada se encabeza con fx
2
, que representa el producto de la
frecuencia por el correspondiente cuadrado del punto medio.
La tabla, con esas columnas agregadas, queda as:
I ntervalo x
2
fx
2
4 9 12 6.5 42.25 507
10 15 11 12.5 156.25 1718.75
16 21 13 18.5 342.25 4449.25
22 27 19 24.5 600.25 11404.75
28 33 21 30.5 930.25 19535.25
34 39 16 36.5 1332.25 21316
40 45 8 42.5 1806.25 14450
100 fx
2
=73381
Sustituyendo en la segunda formula de la desviacin estndar:
s = 73 381
_
(24.86)
2
100
s = 10.7605
CUESTIONARIO 18
1. Obtener la desviacin estandar de los datos organizados en el cuestionario 3,
problemas 8 a 23.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
78
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Distribucin normal
Estandarizacin de datos
Cuestionario 19
Tabla de reas bajo la curva normal
Cuestionario 20
Porcentaje entre dos datos nominales
Cuestionario 21
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
79
6
DISTRIBUCIN NORMAL
En los captulos anteriores se estudiaron las medidas de tendencia central y las medidas de
dispersin, que son un indicador de cmo y cuanto se concentran los datos en torno a cierto
valor y de cmo y cunto se alejan del mismo.
Ya se mencion el caso especial de datos en que la media, la moda y la mediana coinciden
en el centro en una misma lnea, dando una grafica llamada curva normal, la cual es
simtrica respecto de esa lnea comn. Este capitulo se encargar de hacer un estudio de
esta curva, o lo que es lo mismo, de los datos recolectados que dan esa grafica.
Para comenzar aclarando la idea de esa lnea comn, supngase que se recolectaron los
datos mostrados en la siguiente tabla. Calcular su media, su moda y su mediana. Asimismo,
hacer su grafica.
6 1 6 1
7 2 14 3
8 3 24 6
9 5 45 11
10 9 90 20
11 15 165 35
12 18 216 53
13 15 195 68
14 9 126 77
15 5 75 82
16 3 48 85
17 2 34 87
18 1 18 88
88 1056
A) Para la media, utilizando la formula vista:
X = fx / n = 1056/88 = 12
B) Para la moda, conforme a lo visto, es el de mayor frecuencia, en este caso es
el valor nominal 12 que tiene frecuencia 18, o sea
Mo = 12
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
80
C) Para la mediana, conforme a lo visto, es el dato ordinal que se encuentra a la
mitad, el que se obtiene sumando uno al numero total de datos recolectados,
es decir
f
c
= 1 + 88 / 2 = 44.5
los datos ordinales 44 y 45 son los que estn al centro, pero ambos corresponden al valor
nominal 12, o sea que la mediana es
Mdn = 12
_
Obsrvese que se obtuvo que X = Mo = Mdn = 12.
Para graficar esos datos como se pidi en el enunciado, primeramente se hace una grafica
de barras y luego se unen sus puntos medios, a manera de polgono de frecuencias, como
lo muestra la figura 25.
6 7 8 9 10 11 12 13 14 15 16 17 18
Figura 25
La grfica se suaviza quitndole las lneas rectas que unen esos puntos medios de cada
barra y curvendola hasta que tome la forma de la figura 26.
0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18
Figura 26
Curva
normal
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
81
La figura 26 muestra lo que es una curva normal, que conforme a lo dicho al inicio de este
capitulo, es la que resulta de graficar una distribucin de datos tales que son simtricos y
que, por lo mismo, sus tres medidas de tendencia central coinciden en una misma. La
simetra no solamente se ve en la grafica, sino desde la tabla misma, pues a partir del dato
nominal central x = 12, las frecuencias hacia arriba y hacia debajo de ese dato avanzan en la
misma distancia o son las mismas.
La distribucin de datos que da origen a la curva normal se llama distribucin normal.
Una caracterstica muy importante de la curva normal es que a partir de su eje de simetra,
se puede dividir como lo muestra la figura 27, de tal manera que el valor igual a cero
corresponda siempre a la media aritmtica de la distribucin normal de datos, que el valor
de 1 corresponda siempre a un cierto valor de la distribucin normal, y as sucesivamente
hasta +3 y -3, aproximadamente.
Dicho de otra forma, en toda distribucin normal, los datos nominales se pueden
transformar a uno equivalente de la escala de -3 a +3 de la figura 26. por eso, a los datos
comprendidos en la escala de -3 a +3 se les llama dato estndar.
En esa escala estandarizada, el 1 representa una desviacin estndar, el 2 representa
dos desviaciones estndares, y as sucesivamente. El signo positivo solamente indica
que est a la derecha del cero y el signo negativo significa que est a la izquierda. Con los
ejemplos venideros se aclararn esos significados.
ESTANDARIZACIN DE DATOS
Por lo dicho en el prrafo anterior, los datos pertenecientes a una distribucin normal se
pueden estandarizar o normalizar, lo cual se consigue utilizando la formula:
_
z = x X / s
En donde:
-3 -2 -1 0 1 2 3
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
82
z = dato estandarizado o normalizado
x = valor nominal del dato a estandarizar
_
X = media aritmtica del conjunto de datos
s = desviacin estndar
Ejemplo 1: convertir cada uno de los datos nominales de la tabla de la pgina 79 a datos
estandarizados.
SOLUCIN: para transformar un dato nominal en dato estndar, tambin llamado dato
z, se requiere calcular la media de todo el conjunto. Para este caso ya se calcul en la
pgina 79, resultado que
_
X =12
Debe calcularse tambin la desviacin estndar, para lo cual a la tabla original hay que
agregarle las columnas que se muestran en la siguiente tabla:
x
2
fx
2
6 1 36 36
7 2 49 98
8 3 64 192
9 5 81 405
10 9 100 900
11 15 121 1815
12 18 144 2592
13 15 169 2535
14 9 196 1764
15 5 225 1125
16 3 256 768
17 2 289 578
18 1 324 324
88 13132
Entonces, utilizando la formula de la pgina 72
_
s = x
2 _
X
2
n
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
83
s = 13 132
_
12
2
88
s = 2.28632
Se tienen ya todos los datos para utilizar la formula del dato z:
_
z = x X / s
Los clculos para cada dato se muestran en la siguiente tabla:
Dato nominal x Sustituyendo Dato z
6 z = 6 12 / 2.28632 z = -2.62430
7 z = 7 12 / 2.28632 z = -2.18692
8 z = 8 12 / 2.28632 z = -1.74953
9 z = 9 12 / 2.28632 z = -1.31215
10 z = 10 12 / 2.28632 z = -0.87476
11 z = 11 12 / 2.28632 z = -0.43738
12 z = 12 12 / 2.28632 0
13 z = 13 12 / 2.28632 z = 0.43738
14 z = 14 12 / 2.28632 z = 0.87476
15 z = 15 12 / 2.28632 z = 1.31215
16 z = 16 12 / 2.28632 z = 1.74953
17 z = 17 12 / 2.28632 z = 2.18692
18 z = 18 12 / 2.28632 z = 2.62430
A partir de que la media aritmtica del conjunto es x = 12 y la desviacin estndar es s =
2.28632, el significado es el siguiente: un valor estandarizado z = 1 significa una distancia
de la media aritmtica igual a una desviacin estndar a la derecha, es decir una distancia
de 2.28632. Un valor estandarizado z = -2 significa una distancia de la media aritmtica
igual a dos desviaciones estndar a la izquierda, es decir, una distancia de 4.57264.
Ahora bien, si al dato nominal x = 6 le corresponde un dato estndar z = -2.62430, significa
que ese 6 se alej de la media, 2.62430 desviaciones estndares a la izquierda.
Si al dato nominal x = 13 le corresponde un dato estndar z = 0.43738, significa que ese 13
se alej de la media, 0.43738 desviaciones estndares a la derecha.
Si al dato nominal x = 17 le corresponde un dato estndar z = 2.18692, significa que ese 17
se alej de la media, 2.18692 desviaciones estndares a la izquierda. Y as con cada uno de
los datos nominales x.
Grficamente:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
84
Datos x
Datos z z = -2.6243 z = 1 z = 1 z = 1
2.28632 2.28632 2.28632
1 desviacin estndar
Figura 28
CUESTIONARIO 19
1. Qu es una curva normal?
2. Qu es una distribucin normal?
3. En los datos z, qu significa un valor de z = 1?
4. En una curva normal, el eje de simetra de la figura qu es o que representa?
5. En una curva normal, el eje de simetra qu valor estandarizado le
corresponde?
6. Si a un dato nominal le corresponde un dato estandarizado z = 1.2, qu
significa?
7. Convertir a datos estndar o dato z cada uno de los datos nominales de las
siguientes tablas con distribucin normal:
0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18
12 14.28632 16.5664 18.85896
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
85
a)
4 20
5 21
6 27
7 35
8 27
9 21
10 20
b)
9 1
11 3
13 8
15 10
17 8
19 3
21 1
c)
14 10
15 11
16 17
17 19
18 17
19 11
20 10
d)
2 100
4 300
6 800
8 900
10 800
12 300
14 100
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
86
e)
40 200
45 210
50 245
55 265
60 245
65 210
70 200
f)
39 10
40 13
41 16
42 20
43 16
44 13
45 10
TABLA DE AREAS BAJO LA CURVA NORMAL
En una curva normal, el rea bajo la curva desde el extremo izquierdo hasta la media, es
decir, hasta el eje de simetra, es del 50% y, obviamente, el otro 50% est en la parte
derecha.
Una caracterstica importante de la curva normal y de los datos normalizados es que el rea
bajo la curva desde la media hasta una desviacin estndar, es decir para z = 1, ya sea a la
izquierda o a la derecha, es del 34.13%. Ver parte superior de la figura 29.
De la misma forma, el rea bajo la curva desde la media hasta dos desviaciones estndar, es
decir para z = 2, ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la
figura 29.
A
34.13 %
Z= 1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
87
Figura 29
Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes
de reas bajo la curva tambin lo son para dichos datos, es decir, para una desviacin
estndar, el porcentaje de datos entre la media y z = 1 es de 34.13%; para dos desviaciones
estndar el porcentaje de datos entre la media y z = 2 es de 47.72%.
Por lo tanto, es posible obtener el porcentaje de datos entre la media y cualquier valor
estandarizado, lo cual se ha concentrado en una tabla. La tabla de la siguiente pagina
expresa el porcentaje de rea correspondiente a cada valor z, medidos desde la media.
Esto ltimo es muy importante: debe tomarse en cuenta que los valores mostrados en la
tabla son siempre desde la media hasta el valor estandarizado z.
Resulta entonces muy simple obtener el porcentaje de datos y el numero de datos
comprendidos entre la media y un valor recolectado dado. El proceso es el siguiente:
a) Si el enunciado no lo proporciona, calcular la media aritmtica del conjunto de datos.
b) Si el enunciado no lo proporciona, calcular la desviacin estndar del conjunto de
datos.
c) Convertir a dato z el dato nominal.
d) Buscar en las tablas el porcentaje de rea que le corresponde a ese dato
estandarizado.
e) Calcular, con el porcentaje anterior y el numero total de datos recolectados, el
numero de datos comprendidos entre la media y ese valor nominal por una regla de tres
simple.
PORCENTAJES DE AREAS BAJO LA CURVA NORMAL
DESDE Z=0 HASTA Z = 3.99
A
47.72 %
Z= 2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
88
Z 0 1 2 3 4 5 6 7 8 9
0.0 0 0.40 0.80 1.20 1.60 1.99 2.39 2.79 3.19 3.59
0.1 3.98 4.38 4.78 5.17 5.57 5.96 6.36 6.75 7.14 7.59
0.2 7.93 8.32 8.71 9.10 9.48 9.87 10.26 10.64 11.03 11.41
0.3 11.79 12.17 12.55 12.93 13.31 13.68 14.06 14.43 14.80 15.17
0.4 15.54 15.91 16.28 16.64 17.00 17.36 17.72 18.08 18.44 18.79
0.5 19.15 19.50 19.85 20.19 20.54 20.88 21.23 21.57 21.90 22.24
0.6 22.58 22.91 23.24 23.57 23.89 24.22 24.54 24.86 25.18 25.49
0.7 25.80 26.12 26.42 26.73 27.04 27.34 27.64 27.94 28.23 28.52
0.8 28.81 29.10 29.39 29.67 29.96 30.23 30.51 30.78 31.06 31.33
0.9 31.59 31.86 32.12 32.38 32.64 32.89 33.15 33.40 33.65 33.89
1.0 34.13 34.38 34.61 34.85 35.08 35.31 35.54 35.77 35.99 36.21
1.1 36.43 36.65 36.86 37.08 37.29 37.49 37.70 37.90 38.10 38.30
1.2 38.49 38.69 38.88 39.07 39.25 39.44 39.62 39.80 39.97 40.15
1.3 40.32 40.49 40.66 40.82 40.99 41.15 41.31 41.47 41.62 41.77
1.4 41.92 42.07 42.22 42.36 42.51 42.65 42.79 42.92 43.06 43.19
1.5 43.32 43.45 43.57 43.70 43.82 43.94 44.06 44.18 44.29 44.41
1.6 44.52 44.63 44.74 44.84 44.95 45.05 45.15 45.25 45.35 45.45
1.7 45.54 45.64 45.73 45.82 45.91 45.99 46.08 46.16 46.25 46.33
1.8 46.41 46.49 46.56 46.64 46.71 46.78 46.86 46.93 46.99 47.06
1.9 47.13 47.19 47.26 47.32 47.38 47.44 47.50 47.56 47.61 47.67
2.0 47.72 47.78 47.83 47.88 47.93 47.98 48.03 48.08 48.12 48.17
2.1 48.21 48.26 48.30 48.34 48.38 48.92 48.96 48.50 48.54 48.57
2.2 48.61 48.64 48.68 48.71 48.75 48.78 48.81 48.84 48.87 48.90
2.3 48.93 48.96 48.98 49.01 49.04 49.06 49.09 49.11 49.13 49.16
2.4 49.18 49.20 49.22 49.25 49.27 49.29 49.31 49.32 49.34 49.36
2.5 49.38 49.40 49.41 49.43 49.45 49.46 49.48 49.49 49.51 49.52
2.6 49.53 49.55 49.56 49.57 49.59 49.60 49.61 49.62 49.63 49.64
2.7 49.65 49.66 49.67 49.68 49.69 49.70 49.71 49.72 49.73 49.74
2.8 49.74 49.75 49.76 49.77 49.77 49.78 49.79 49.79 49.80 49.81
2.9 49.81 49.82 49.82 49.83 49.84 49.84 49.85 49.85 49.86 49.86
3.0 49.87 49.87 49.87 49.88 49.88 49.89 49.89 49.89 49.90 49.90
3.1 49.90 49.91 49.91 49.91 49.92 49.92 49.92 49.92 49.93 49.93
3.2 49.93 49.93 49.94 49.94 49.94 49.94 49.94 49.95 49.95 49.95
3.3 49.95 49.95 49.95 49.96 49.96 49.96 49.96 49.96 49.96 49.97
3.4 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.98
3.5 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98
3.6 49.98 49.98 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.7 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.8 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.9 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
89
_
Ejemplo 1: al recolectar 250 datos, se obtuvo que la media es X = 7.65 y la desviacin
estndar s = 2.24. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 8.1.
SOLUCIN: en este caso el enunciado proporciona los valores de la media y de la
desviacin estndar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 8.1 con la
formula dada, o sea:
_
z = x X / s
z = 8.1 7.65 / 2.24 = 0.20
Figura 30
Se toman solamente dos decimales porque as vienen en las tablas. A continuacin,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z
= 0.20 y se localiza que le corresponde A = 7.93%; que significa que el porcentaje de rea
entre la media y el dato z = 0.20 es de 7.93%, pero como ese porcentaje tambin
corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres
el numero de datos nominales comprendidos en esa regin.
250 / 100% = n.d./ 7.93%
de donde el numero de datos n.d. es
n.d. = 250 x 7.93 / 100
n.d. = 19.825
El numero datos en forma calculada es n.d. = 19.825, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros porque se recolectan 200 datos, o
A
7. 93 %
Dato estandarizado z Z = 0 z = 0..2
Dato nominal x x = 7.65 x = 8.1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
90
220 datos, o 300 datos, pero jams 291.8 puesto que es imposible. Entonces entre la media
aritmtica y el dato z = 0.2008 no pueden haber 19.825 datos nominales, o hay 19 o hay 20,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces.
_
SOLUCIN: hay aproximadamente 20 datos entre la media X = 7.65 y el dato nominal x
= 8.1.
_
Ejemplo 2: al recolectar 1200 datos, se obtuvo una media de X = 47.5 y una desviacin
estndar s = 6.4. Calcular el numero de datos aproximados que hay entre la media y el dato
nominal x = 55.
SOLUCIN: en este caso el enunciado proporciona los valores de la media y de la
desviacin estndar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 55, con la
formula dada, o sea:
_
z = x X / s
z = 55 47.5 / 6.4 = 1.17
Figura 31
Se toman solamente dos decimales porque as vienen en las tablas. A continuacin,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z = 1.17 y se
localiza que le corresponde A = 37.90%, que significa que el porcentaje de area entre la
media y el dato z = 1.17 es de 37.90%, pero como ese porcentaje tambin corresponde a los
datos recolectados, entonces puede obtenerse por una simple regla de tres el numero de
datos nominales comprendidos en esa regin.
1200 / 100% = n.d./ 37.9%
de donde el numero de datos n.d. es
A
37.9 %
Dato estandarizado z Z = 0 z = 1.17
Dato nominal x x = 47.5 x = 55
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
91
n.d. = 1200 x 37.90 / 100
n.d. = 454.8
El numero datos en forma calculada es n.d. = 454.8, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros. De tal manera que entre la media
aritmtica y el dato z = 1.17 no pueden haber 454.8 datos nominales, o hay 454 o hay 455,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces
_
SOLUCIN: hay aproximadamente 455 datos entre la media X = 47.5 y el dato nominal x
= 55.
_
Ejemplo 3: al recolectar 850 datos, se obtuvo una media de X = 27 y una desviacin
estndar s = 5.34. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 20.
SOLUCIN: en este caso el enunciado proporciona los valores de la media y de la
desviacin estndar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 20, con la
formula dada, o sea:
_
z = x X / s
z = 20 27 / 5.34 = -1.31
Figura 32
En este caso el valor de z es negativo, lo que significa que el dato nominal x = 20 est a la
izquierda de la media aritmtica, pero en las tablas se busca simplemente como z = 1.31
localizndose que le corresponde un rea de A = 40.49%; que significa que el porcentaje de
rea comprendido entre la media y el dato z = 1.31 es de 40.49%, pero como ese porcentaje
A
40.49 %
Dato nominal x x = 20 x = 27
Dato estandarizado z Z = -1.31 z = 0
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
92
corresponde tambin a los datos recolectados, entonces puede obtener por una simple regla
de tres el numero de datos nominales comprendidos en esa regin.
850 / 100% = n.d./ 40.49%
de donde el numero de datos n.d. es
n.d. = 850 x 40.49 / 100
n.d. = 344.16
El numero datos en forma calculada es n.d. = 344.16, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros. De tal manera que entre la media
aritmtica y el dato z = 1.31 no pueden haber 344.16 datos nominales, o hay 344 o hay 345,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces
_
SOLUCIN: hay aproximadamente 344 datos entre la media X = 27 y el dato nominal x =
20.
CUESTIONARIO 20
1. El rea bajo la curva normal a la izquierda de la media aritmtica. Qu
porcentaje de toda el rea representa?
2. Qu tiene que ver el rea bajo la curva normal con los datos recolectados?
3. Qu porcentaje de rea bajo la curva existe en toda curva normal desde la media
aritmtica hasta el dato estandarizado z = 1?
4. En las tablas, el porcentaje de rea que aparece para cada dato estandarizado,
desde donde hasta donde siempre es considerado?
5. Al recolectar 350 datos, se obtuvo una media de 20.7 y una desviacin estndar
de 7.84. Calcular el numero de datos que hay entre la media y el dato nominal x
= 30.
6. Al recolectar 1300 datos, se obtuvo una media de 420.15 y una desviacin
estndar de 4.4. Calcular el numero de datos que hay entre la media y el dato
nominal x = 426.
7. Al recolectar 2500 datos, se obtuvo una media de 2.25 y una desviacin estndar
de 2.8. Calcular el numero de datos que hay entre la media y el dato nominal x =
3.3.
8. Al recolectar 1430 datos, se obtuvo una media de 120 y una desviacin estndar
de 6.6. Calcular el numero de datos que hay entre la media y el dato nominal x =
125.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
93
9. Al recolectar 373 datos, se obtuvo una media de 220.1 y una desviacin estndar
de 7. Calcular el numero de datos que hay entre la media y el dato nominal x =
211.
10. Al recolectar 800 datos, se obtuvo una media de 99 y una desviacin
estndar de 5.42. Calcular el numero de datos que hay entre la media y el dato
nominal x = 90.
11. Al recolectar 425 datos, se obtuvo una media de 80.725 y una desviacin
estndar de 1.8. Calcular el numero de datos que hay entre la media y el dato
nominal x = 78.3.
12. Al recolectar 1720 datos, se obtuvo una media de 120 y una desviacin
estndar de 9.6. Calcular el numero de datos que hay entre la media y el dato
nominal x = 115.
PORCENTAJE ENTRE DOS DATOS NOMINALES
En el tema anterior se estudi la forma de obtener el nmero de datos recolectados entre la
media aritmtica y un dato nominal establecido. Sin embargo, otro problema que puede
presentarse es como obtener el nmero de datos recolectados ya no a partir de la media,
sino entre dos datos nominales.
Hay dos opciones: la primera es que los datos estandarizados z1 y z2 se localicen uno a la
derecha y el otro a la izquierda de la media. La solucin a este nuevo problema es muy
simple, pues por una lgica muy elemental se puede deducir que el rea total es igual a la
suma del rea 1 ms el rea 2, como se ve en la figura 33.
A
z1 z 2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
94
A = A1 + A2
Figura 33
En donde A1 es el rea desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el rea desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de reas o porcentajes de cada uno.
Otra opcin que puede presentarse es la que se muestra en la figura 34, consistente en que
ambos valores estandarizados z1 y z2 se encuentren del mismo lado respecto de la media,
en la que tambin por una lgica muy elemental puede deducirse que el rea total es
simplemente la resta del rea 1 menos el rea 2.
A
z1 z2
A2
z2
A1
z1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
95
A = A1 + A2
Figura 34
En donde A1 es el rea desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el rea desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de reas o porcentajes de cada uno.
Ejemplo 1: al recolectar 500 datos, se obtuvo una media aritmtica de 55 y una desviacin
estndar de 8.80. Calcular el numero de datos aproximados que hay entre los datos
nominales x1 = 51 y x2 = 64.
SOLUCIN: convirtiendo a dato normalizado o estandarizado x1 = 51 y x2 = 64:
_
z = x X / s
z1 = 51 55 / 8.8 = -0.45
z2 = 64 55 / 8.8 = 1.02
Buscando en tablas se obtiene que para z1 = 0.45 le corresponde un porcentaje de rea de
A1 = 17.36% y para z2 = 1.02 le corresponde un porcentaje de rea de A2 = 34.61%
A2
z2
A1
z1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
96
A1 + A2 = A
Figura 35
Como se ve en la figura 35, el porcentaje de rea total es la suma de A1 + A2, es decir A=
17.36% + 34.61% = 51.97%, porcentaje que tambin corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:
500 / 100% = n.d. / 51.97%
n.d. = 500 x 51.97 / 100
n.d. = 259.85
A= 51.97%
z1 z2
A2 =34.61%
z2 = 1.02
A1=17.36%
z1 = -0.45
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
97
El numero datos en forma calculada es n.d. = 259.85, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros. De tal manera que entre el dato z
= -0.45 y el dato z = 1.02 no pueden haber 259.85 datos nominales, o hay 259 o hay 260,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces
SOLUCIN: hay aproximadamente 260 datos entre el dato nominal x = 51 y el dato
nominal x = 64.
Ejemplo 2: al recolectar 750 datos, se obtuvo una media aritmtica de 205 y una
desviacin estndar de 9.68. Calcular el numero de datos aproximados que hay entre los
datos nominales x1 = 213 y x2 = 230.
SOLUCIN: convirtiendo a dato normalizado o estandarizado x1 = 213 y x2 = 230:
_
z = x X / s
z1 = 213 205 / 9.68 = 0.82
z2 = 230 205 / 9.68 = 2.58
Buscando en tablas se obtiene que para z1 = 0.82 le corresponde un porcentaje de rea de
A1 = 29.32% y para z2 = 2.58 le corresponde un porcentaje de rea de A2 = 49.51%
Como se ve en la figura 36, el porcentaje de rea total es la resta de A2 A1, es decir A=
49.51% - 29.32% = 20.19%, porcentaje que tambin corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:
750 / 100% = n.d. / 20.19%
n.d. = 750 x 20.19 / 100
n.d. = 151.42
El numero datos en forma calculada es n.d. = 151.42, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros. De tal manera que entre el dato z
= 0.82 y el dato z = 2.58 no pueden haber 151.42 datos nominales, o hay 151 o hay 152,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
98
SOLUCIN: hay aproximadamente 151 datos entre el dato nominal x = 213 y el dato
nominal x = 230.
CUESTIONARIO 21
1. Al recolectar 450 datos, se obtuvo una media de 50 y una desviacin estndar de
17.4. Calcular el numero de datos que hay entre el dato nominal x1= 34 y el dato
nominal x2 = 61.
2. Al recolectar 1700 datos, se obtuvo una media de 400 y una desviacin estndar
de 14. Calcular el numero de datos que hay entre el dato nominal x1= 387 y el
dato nominal x2 = 430.
3. Al recolectar 2500 datos, se obtuvo una media de 225 y una desviacin estndar
de 12. Calcular el numero de datos que hay entre el dato nominal x1= 200 y el
dato nominal x2 = 235.
4. Al recolectar 1940 datos, se obtuvo una media de 120 y una desviacin estndar
de 16. Calcular el numero de datos que hay entre el dato nominal x1= 96 y el
dato nominal x2 = 150.
5. Al recolectar 873 datos, se obtuvo una media de 220.1 y una desviacin estndar
de 17. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 230 y el dato nominal x2 = 259.
6. Al recolectar 807 datos, se obtuvo una media de 99 y una desviacin estndar de
5.42. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 103 y el dato nominal x2 = 112.
7. Al recolectar 457 datos, se obtuvo una media de 809 y una desviacin estndar
de 21.8. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 830 y el dato nominal x2 = 852.
8. Al recolectar 1725 datos, se obtuvo una media de 120 y una desviacin estndar
de 19. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 145 y el dato nominal x2 = 164.
9. Al recolectar 2730 datos, se obtuvo una media de 2520 y una desviacin estndar
de 21. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 2500 y el dato nominal x2 = 2481.
10. Al recolectar 1687 datos, se obtuvo una media de 109 y una desviacin
estndar de 10. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 100 y el dato nominal x2 = 97.
11. Al recolectar 570 datos, se obtuvo una media de 89 y una desviacin
estndar de 21. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 73 y el dato nominal x2 = 52.
12. Al recolectar 1756 datos, se obtuvo una media de 120 y una desviacin
estndar de 13. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 110 y el dato nominal x2 = 84.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
99
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Regresin lineal
Ecuacin de la recta
Formulas para m y para b
Cuestionario 22
Coeficiente de correlacin lineal
Cuestionario 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
100
7
REGRESIN LINEAL
En el capitulo anterior se estudiaron aquellos casos en los que los datos recolectados tienen
simetra, dando origen a la curva normal. Evidentemente que no todos los casos son
como sos, por lo que segn sus caractersticas se clasifican de distintas formas. En este
capitulo se estudiarn ahora aquellos otros datos que al graficarse, en vez de dar la curva
normal, dan una lnea recta.
El estudio consiste en tratar de encontrar con la mayor aproximacin la ecuacin de la recta
a la que ms se acercan todos los puntos para, a partir de ella, intentar deducir o inferir el
comportamiento de los que no aparecen en la tabla.
Ejemplo 1: se realiz una encuesta en una fbrica de pinturas para relacionar la cantidad de
cierto aditivo qumico agregado al colorante con el tiempo de secado, obtenindose los
resultados mostrados en la siguiente tabla.
Graficar esos resultados y sealar la recta que ms se aproxima a dichos valores.
Cantidad de aditivo
x
Tiempo de secado
y
1 2.6
2 2.3
3 2.2
4 2
5 1.8
6 1.8
7 1.4
8 1.2
9 1.3
SOLUCIN: graficando los datos de la tabla en donde las abscisas (las X) son los
valores de la primera columna y las ordenas (las Y) los de la segunda columna, se
obtienen los puntos sealados en la figura 37. A la grafica correspondiente a todos esos
puntos se le llama diagrama de dispersin.
Una recta aproximada a esos puntos tambin se ha marcado con lnea punteada en la misma
figura 37.
Se ve que se trata de un caso en el que los datos dan aproximadamente una lnea recta.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
101
1 2 3 4 5 6 7 8 9
Por lo pronto en este ejemplo no se har ninguna deduccin a partir de la grafica. Se trata
por el momento solamente de mostrar visualmente como hay casos en los que los datos
graficados dan aproximadamente una lnea recta.
ECUACION DE LA RECTA
La ecuacin de la recta en forma particular es:
y =mx +b
En donde:
m = pendiente de la recta
b = ordenada al origen
Ejemplos de ecuaciones de rectas son las mostradas en la tabla siguiente, en la que se han
especificado los correspondientes valores de la pendiente m y de la ordenada al origen b.
ECUACI N m b
y = 2x 1 m = 2 b = -1
y = -x/3 + 11 m = - 1/3 b = 11
y = 2x /7 m = 2/7 b = 0
De tal manera que cuando se tiene un conjunto de datos tales que su grafica de
aproximadamente una recta, el primer paso es obtener su ecuacin, para lo cual se requieren
los valores de la pendiente m y de la ordenada al origen b. a esa ecuacin se le llama
ecuacin de regresin, que significa algo as como ecuacin con la que se regresa a la
recta y existen dos formulas que dan cada una respectivamente el valor de m el de b..
Dichas formulas son:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
102
(1)
m = n Y-Y
n
2
-()
2
(2)
b =
2
Y-Y
n
2
-()
2
Ejemplo 1: la relacin entre el nmero de aos (x) laborando para la empresa y el nmero
de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla. Cuntas
ventas pueden esperarse en un trabajador con 16 aos de servicio? Cuntos aos,
aproximadamente se requieren para lograr 14 ventas?
Vendedor Aos laborando
x
Ventas
y
Abel 3 2
Manuel 4 3
Luis 4 4
Gloria 5 4
Jorge 5 4
Eva 6 3
Roque 6 4
Pedro 7 4
Sal 7 5
Daniel 7 6
Ral 8 6
Flor 9 6
Teresa 9 7
Irma 10 7
Efran 10 8
SOLUCIN: lo primero que debe encontrarse es la ecuacin de regresin, es decir, la
ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.
Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersin correspondiente a dicha tabla se muestra en la figura
38.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
103
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12
Figura 38
Puede apreciarse en el diagrama de dispersin que los puntos insinan una recta, de la cual
se va a calcular su ecuacin.
Para eso, conforme a la experiencia obtenida en el trabajo de captulos anteriores, por
inspeccin de las formulas 1 y 2 de la pgina anterior, se puede establecer que se requiere
elaborar una tabla con cuatro columnas, de la siguiente forma:
La 1 columna encabezada con X; la 2 columna encabezada con Y; la 3 columna
encabezada con XY y la 4 columna encabezada con X
2
de la siguiente manera:
X Y XY X
2
Abel 3 2 6 9
Manuel 4 3 12 16
Luis 4 4 16 16
Gloria 5 4 20 25
Jorge 5 4 20 25
Eva 6 3 18 36
Roque 6 4 24 36
Pedro 7 4 28 49
Sal 7 5 35 49
Daniel 7 6 42 49
Ral 8 6 48 64
Flor 9 6 54 81
Teresa 9 7 63 81
Irma 10 7 70 100
Efran 10 8 80 100
= 100 Y= 73 Y= 536 X
2
= 736
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
104
De manera que utilizando la formula (1):
(1)
m = n Y-Y
n
2
-()
2
m = (15)(536) - (100)(73)
(15)(736) - (100)
2
m = 0.7115
Y utilizando la formula (2):
(2)
b =
2
Y-Y
n
2
-()
2
b = (736)(73) - (100)(536)
(15)(736) - (100)
2
b = 0.123
La ecuacin de la recta buscada es
y =0.7115x +0.1230
Esta ecuacin sirve para poder contestar las dos preguntas formuladas en el enunciado del
problema: Cuntas ventas pueden esperarse en un trabajador con 16 aos de servicio?
Cuntos aos, aproximadamente se requieren para lograr 14 ventas?
Como en la ecuacin anterior, x representa los aos laborando y y las ventas, para la
primera pregunta se tiene como dato que x = 16, de manera que sustituyndolo en la
ecuacin de la recta, se obtiene:
y =0.7115 (16) +0.1230
y =11507
Es decir, se pueden esperar aproximadamente entre once y doce ventas de un trabajador con
16 aos laborando.
Para la segunda pregunta, se tiene como dato que y = 14, o sea 14 ventas, de manera que
sustituyendo en la ecuacin de la recta, se obtiene:
14 =0.7115x +0.1230
x =19.5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
105
Significa que se requieren aproximadamente de diez y nueve a veinte aos de servicio para
alcanzar 14 ventas.
Ejemplo 2: la relacin entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla.
Cuntas semanas pueden esperarse para que las prdidas sean nulas?
X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4
SOLUCIN: lo primero que debe encontrarse es la ecuacin de regresin, es decir, la
ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.
Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersin correspondiente a dicha tabla se muestra en la figura
38.
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8
Figura 40
Puede apreciarse en el diagrama de dispersin que los puntos insinan una recta, de la cual
se va a calcular su ecuacin.
Para eso, conforme a la experiencia obtenida en el trabajo de captulos anteriores, por
inspeccin de las formulas 1 y 2, se puede establecer que se requiere elaborar una tabla con
cuatro columnas, de la siguiente forma:
La 1 columna encabezada con X; la 2 columna encabezada con Y; la 3 columna
encabezada con XY y la 4 columna encabezada con X
2
de la siguiente manera:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
106
X Y XY X
2
1 12.3 12.3 1
2 11 22 4
3 9 27 9
4 8 32 16
5 6 30 25
6 5.2 31.2 36
7 4 28 49
= 28 Y= 55.5 Y= 182.5 X
2
= 140
De manera que utilizando la formula (1):
(1)
m = n Y-Y
n
2
-()
2
m = (7)(182.5) - (28)(55.5)
(7)(140) - (28)
2
m = -1.41
Y utilizando la formula (2):
(2)
b =
2
Y-Y
n
2
-()
2
b = (140)(55.5) - (28)(182.5)
(7)(140) - (28)
2
b = 13.57
La ecuacin de la recta buscada es
y =-1.41x +13.57
Esta ecuacin sirve para poder contestar la pregunta formulada en el enunciado del
problema: Cuntas semanas pueden esperarse para que las prdidas sean nulas?
Como en la ecuacin anterior, x representa el nmero de semanas de haber comenzado con
un negocio mientras que y las prdidas registradas, para la pregunta se tiene como dato que
y = 0, de manera que sustituyndolo en la ecuacin de la recta, se obtiene:
0 =-1.41 +13.57
x =9.62
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
107
Es decir, se pueden esperar aproximadamente que entre la novena y la dcima semanas las
perdidas desaparezcan.
CUESTIONARIO 22
1. Se realiz una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos mdicos realizados al mes (Y), la
cual se muestra en la siguiente tabla:
Hijos
X
% de gastos
Y
Familia Carranza 0 1%
Familia Corrales 1 4.6
Familia Bentez 1 4.7
Familia Dvila 1 5
Familia Mndez 1 5.1
Familia Obregn 2 8.9
Familia Reyes 2 9
Familia Jimnez 3 13
Familia Ballesteros 4 17.1
Familia Uribe 4 17.2
Familia Zavala 5 20.8
Familia Quiones 5 21
Familia Ruiz 5 21.1
Familia Hernndez 6 25
a) Qu porcentaje de gastos mdicos puede esperarse de una familia con 11
hijos?
b) Si una familia tiene un gasto aproximado del 40%, cuntos hijos se espera
que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
108
2. Se realiz una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos en ropa realizados al mes (Y), la
cual se muestra en la siguiente tabla:
Hijos
X
% de gastos
Y
Familia Caldern 1 1%
Familia Corrales 1 2
Familia Bentez 1 4.3
Familia Durango 1 4.5
Familia Mondragn 1 3.1
Familia Olvera 2 8.9
Familia Reyes 2 9
Familia Justiniani 3 14
Familia Balbuena 3 17.9
Familia Uribe 4 20
Familia Zavala 4 23
Familia Quiones 4 26
Familia Rentera 5 31.1
Familia Hernndez 5 30
Familia Ocaranza 6 37
a) Qu porcentaje de gastos en ropa puede esperarse de una familia con 10
hijos?
b) Si una familia tiene un gasto aproximado del 51%, cuntos hijos se espera
que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
109
3. Se realiz una encuesta en una fabrica para relacionar el numero de
enfermedades al ao (X) de cada trabajador con el porcentaje de rendimiento en
el trabajo (Y), la cual se muestra en la siguiente tabla:
#de enfermedades
X
% de rendimiento
Y
Ismael Carranza Z. 0 100
Jos Benito Corrales Y. 0 96.6
Ramn Bentez F. 0 94.7
Marco Dvila G. 1 91
Estanislao Mndez M. 1 88.2
Juan Obregn L. 1 90
Jess de la O. Reyes 2 82
Arturo Jimnez A. 2 79.1
Clemente Ballesteros H. 2 85.7
Dionisio Uribe Q. 3 73.2
Estanislao Zavala R. 3 73
Roberto Quinez D. 4 64
Rubn Ruiz de la T. 4 60.8
Fernando Hernndez y H. 5 55
a) Si un trabajador tiene un rendimiento aproximado de 10%, cuntas
enfermedades al ao se espera que tenga?
b) Qu porcentaje de rendimiento puede esperarse de un trabajador que se
enferme siete veces durante el ao?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
110
4. Se realiz una encuesta en una fabrica para relacionar el numero de aos de
experiencia de cada trabajador (X) con el porcentaje de eficiencia en el trabajo
(Y), la cual se muestra en la siguiente tabla:
Antigedad
X
% de eficiencia
Y
Ismael Carranza Z. 0 50
Jos Benito Corrales Y. 0 53.6
Ramn Bentez F. 0 55.7
Marco Dvila G. 1 57
Estanislao Mndez M. 1 58
Juan Obregn L. 1 57
Jess de la O. Reyes 2 60.5
Arturo Jimnez A. 2 61
Clemente Ballesteros H. 2 61
Dionisio Uribe Q. 3 65.2
Estanislao Zavala R. 3 68.1
Roberto Quinez D. 4 69.2
Rubn Ruiz de la T. 4 69
Fernando Hernndez y H. 5 69
Francisco Ocaranza L. 5 73
a) Qu porcentaje de rendimiento puede esperarse de un empleado con 7 aos
de experiencia en el trabajo?
b) Si se desea que los trabajadores alcancen un rendimiento aproximado del
90%, cuntos aos de experiencia laboral debe esperarse que tengan?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
111
5. Se realiz una encuesta en una fbrica de combustible en 15 vehculos de la
misma marca y modelo, para relacionar la velocidad (X) en km/h con el gasto de
combustible (Y) en litros por kilmetro, la cual se muestra en la tabla siguiente:
Velocidad (km/h)
X
Consumo de combustible
Y
Vehculo 1 4.35 5
Vehculo 2 10 4.66
Vehculo 3 15 4.51
Vehculo 4 15 4.46
Vehculo 5 15 4.36
Vehculo 6 20 4
Vehculo 7 20 3.95
Vehculo 8 20 4.06
Vehculo 9 25 3.77
Vehculo 10 25 3.86
Vehculo 11 30 3.61
Vehculo 12 30 3.2
Vehculo 13 35 3.17
Vehculo 14 35 3.15
Vehculo 15 40 2.87
a) Si un vehculo gasta 1 litro por kilmetro, A qu velocidad debe correr
aproximadamente para lograr ese consumo?
b) Qu gasto de combustible puede esperarse de un vehculo cuando corra a
la velocidad de 40 km/h?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
112
6. Se realiz una encuesta en diferentes ciudades importantes de un pas para
relacionar el grado de contaminacin ambiental (X) en imecas con el porcentaje
de poblacin afectado de las vas respiratorias (Y), la cual se muestra en la
siguiente tabla:
imecas
X
% de poblacin afectada
Y
Poblacin 1 45 2
Poblacin 2 45 1.5
Poblacin 3 50 4
Poblacin 4 55 6
Poblacin 5 65 9
Poblacin 6 65 10
Poblacin 7 70 11
Poblacin 8 70 12
Poblacin 9 70 13
Poblacin 10 75 13
Poblacin 11 80 16
Poblacin 12 90 21
Poblacin 13 95 22
Poblacin 14 95 25
Poblacin 15 100 24
Poblacin 16 120 32
a) Si un vehculo alcanza 150 imecas, Qu porcentaje de su poblacin es de
esperarse que padezca de las vas respiratorias?
b) Si una poblacin tiene el 60% de enfermos de las vas respiratorias, Qu
grado de contaminacin es de suponerse que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
113
7. Se realiz una encuesta en diferentes ciudades para relacionar el numero de
cigarros fumados al da por persona (X) con el porcentaje de habitantes
fumadores que adquirieron cncer pulmonar (Y), la cual se muestra en la
siguiente tabla:
#de cigarros al da
X
% de fumadores que
adquirieron cncer
pulmonar
Y
Poblacin 1 2 15
Poblacin 2 2 16
Poblacin 3 3 17.5
Poblacin 4 3 18
Poblacin 5 3 18
Poblacin 6 5 23.5
Poblacin 7 5 24
Poblacin 8 10 37.8
Poblacin 9 10 38
Poblacin 10 12 42
Poblacin 11 12 43
Poblacin 12 12 44
Poblacin 13 15 52
Poblacin 14 15 53
Poblacin 15 20 66.5
Poblacin 16 25 80
a) Si una persona fuma 8 cigarros al da, Qu probabilidad aproximada tiene
de adquirir cncer pulmonar?
b) Si una persona tiene el 95% de probabilidad de adquirir cncer pulmonar,
Cuntos cigarros al da aproximadamente fuma?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
114
8. Se realiz una encuesta en diferentes hogares para relacionar el nivel economico
de las familias medido en numero de salarios mnimos de ingreso (X) con el
numero de kilos de basura diarios producidos al consumir comida chatarra (Y),
la cual se muestra en la siguiente tabla:
I ngreso en salarios
mnimos
X
#de kilos de basura al da
Y
Hogar 1 1 8
Hogar 2 1 8.5
Hogar 3 1.5 7
Hogar 4 1.5 6.5
Hogar 5 2 6
Hogar 6 2 5.8
Hogar 7 2 5.5
Hogar 8 2.5 5
Hogar 9 2.5 4.7
Hogar 10 3 3.6
Hogar 11 3 3.5
Hogar 12 3.5 2.5
Hogar 13 3.5 2.2
Hogar 14 4 2
Hogar 15 4 1.7
Hogar 16 4 1.5
a) Si una familia tiene un ingreso de 6 salarios mnimos, cuntos kilos de
basura producidos por el consumo de comida chatarra es de esperarse que
tiren?
b) Si una familia produce 4 kilos diarios de basura de desperdicios de comida
chatarra, de cuntos salarios mnimos de ingresos es de esperarse que sea
su nivel de vida?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
115
9. se sabe que las higuerillas crecen mejor en aguas contaminadas. Por lo tanto, se
realiz una encuesta en diferentes ros con aguas contaminadas para relacionar el
numero de higuerillas (X) que crecen en sus riveras por cada 5 kilmetros, con el
grado de contaminacin de las aguas (Y), la cual se muestra en la siguiente tabla:
#de higuerillas
X
Grado de contaminacin
Y
Ro 1 6 1
Ro 2 11 2
Ro 3 28 5
Ro 4 30 5
Ro 5 31 5
Ro 6 48 8
Ro 7 50 9
Ro 8 60 10
Ro 9 65 10
Ro 10 88 15
Ro 11 90 15
Ro 12 90 16
Ro 13 96 16
Ro 14 115 20
Ro 15 120 20
Ro 16 180 31
a) Si en un ro se localizan 225 higuerillas a lo largo de kilmetros, qu
porcentaje de contaminacin en sus aguas es de esperarse?
b) Para un ro cuyas aguas estn contaminadas al 70%, cuntas higuerillas
puede esperarse que se encuentren en su rivera por cada 5 km?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
116
10. Para determinar el posible rendimiento de cada jugador, se realiz una
encuesta para relacionar la edad del deportista (X) con el tiempo en minutos (Y)
que soporta antes de bajar su rendimiento por agotamiento, la cual se muestra en
la siguiente tabla:
edad
X
tiempo
Y
Jugador 1 15 100
Jugador 2 15 105
Jugador 3 16 98
Jugador 4 16 96
Jugador 5 17 93
Jugador 6 18 90
Jugador 7 19 85
Jugador 8 19 82
Jugador 9 20 82
Jugador 10 25 65
Jugador 11 25 70
Jugador 12 28 55
Jugador 13 30 50
Jugador 14 30 47
Jugador 15 35 30
Jugador 16 35 26
a) Si un jugador rinde 74 minutos, qu edad es de esperarse que tenga?
b) Para un jugador de 32 aos, cuntos minutos de rendimiento pueden
esperarse?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
117
COEFICIENTE DE CORRELACIN
Al hacer el diagrama de dispersin y trazar sobre l la recta perteneciente a la ecuacin
obtenida, se nota que mientras algunos puntos pertenecen a la recta, es decir, estn sobre
ella, por lo general la mayora de los puntos quedan afuera de ella.
Si los puntos que quedan afuera estn situados muy prximos a la recta, o sea hay poca
distancia entre la recta y cada punto, se dice que hay poca dispersin; a la inversa, si los
puntos que quedan afuera estn situados distantes a la recta, o sea hay mucha distancia
entre la recta y cada punto, se dice que hay mucha dispersin.
Obviamente, cuando se hacen predicciones a partir de la recta obtenida, estas sern ms
confiables mientras menos dispersin exista. Para tener un parmetro o medida de esa
dispersin se utiliza una formula que arroja ciertos resultados numricos, los cuales tienen
el siguiente significado: si da igual a 1 quiere decir que todos los puntos estn sobre la
recta; si da 0 quiere decir que la grafica no se parece en nada a una recta. Los valores
intermedios tienen el significado intermedio entre los dos extremos antes citados.
Dicha formula es:
r = n Y - Y
[n
2
- ()
2
] [n Y
2
- (Y)
2
]
Puede verse que las sumatorias que se requieren son casi las mismas obtenidos en la
elaboracin de la tabla para calcular la ecuacin de regresin de la recta, es decir con esa
misma tabla puede obtenerse la pendiente m, la ordenada al origen b y el coeficiente de
correlacin r, agregando solamente una columna ms como se ver en el siguiente ejemplo.
Ejemplo 1: la relacin entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla:
obtener su coeficiente de correlacin.
X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4
SOLUCIN: se requiere elaborar una tabla con cinco columnas, de la siguiente forma:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.
118
La 1 columna encabezada con X; la 2 columna encabezada con Y; la 3 columna
encabezada con XY; la 4 columna encabezada con X
2
y la 5 columna encabezada con Y
2
de la siguiente manera:
X Y XY X
2
Y
2
1 12.3 12.3 1 151.29
2 11 22 4 121
3 9 27 9 81
4 8 32 16 64
5 6 30 25 36
6 5.2 31.2 36 27.04
7 4 28 49 16
= 28 Y= 55.5 Y= 182.5 X
2
= 140 Y
2=
496.3
3
As que utilizando la frmula del coeficiente de correlacin
r = n Y - Y
[n
2
- ()
2
] [n Y
2
- (Y)
2
]
Sustituyendo:
r = 7(182.5) - (28)(55.5)
[7(140) - (28)
2
] [7(496.33) - (55.5)
2
]
r = 1277.5 - 1554
(980 - 784)(3474.31 - 3080.25)
r = -276.5
77235.76
r = -0.9949
El valor obtenido es negativo porque la recta tiene pendiente negativa y adems es un valor
muy cercano al 1, lo que significa que los puntos estn realmente muy cercanos a la recta
calculada.