Estadistica I Aguilera Oseguera PDF

M.A.
Eduardo Aguilera Oseguera

Profesor de la Facultad de Contadura
y Ciencias Administrativas de la U.M.S.N.H.

1
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Conceptos y definiciones
Poblacin
Muestra
Datos nominales
Datos nominales numricos
Datos nominales sustantivos
Datos ordinales
Estadstica descriptiva
Estadstica inferencial
Cuestionario 1

M.A. Eduardo Aguilera Oseguera

2
1

CONCEPTOS Y DEFINICIONES

La estadstica es el conjunto de mtodos o tcnicas que se aplican a la recoleccin,
organizacin, presentacin, anlisis e interpretacin de datos numricos.

La estadstica consiste en los cuatro pasos fundamentales que se acaban de mencionar:
primero se recolectan datos, los cuales, por lo general, en ese primer paso quedan en
desorden; se podra decir que se tienen los datos, pero todos revueltos. Por qu?
Supngase, por ejemplo, que se quiere saber el promedio del peso (en kilogramos) de las
personas que viajan en avin. Entonces, para recolectar esos datos se les indicar a los
viajeros que pasen a pesarse a la bscula. Una persona se encargar de registrar el peso que
va dando cada persona. Y evidentemente lo mismo podr salir en primer lugar una gente
con 80 kilos que otra con 60; el siguiente apenas con 48 o con 75 kilos; y as
sucesivamente. Es decir, conforme pase a la bascula cada viajero quedarn registrados
todos sus pesos, pero sin ningn orden.

Para eso es la segunda etapa, la de organizar los datos. Organizar los datos significa
ponerlos en orden, ya sea de menor a mayor o a la inversa, cuando los datos son de tipo
numrico, como los pesos de un grupo de personas, o sus edades, o las calificaciones de un
grupo escolar, etc., o tambin por intervalos, anotando cuntos datos se registraron de cada
valor, aunque hay veces que esos datos no son de tipo numrico, como por ejemplo cuando
se desea saber las causas de mortandad en una poblacin, o las enfermedades mas
frecuentes en algn periodo del ao, o las preferencias de la gente en ciertas compras de
artculos. De cualquier forma, ya sea que se traten de datos numricos o no, estos suele
hacerse a travs de tablas.

La presentacin de esos datos ya ordenados es para visualizar el comportamiento del grupo
en estudio. Suelen hacerse esas presentaciones por medio de grficas.

Y finalmente la cuarta etapa es la interpretacin, que de hecho es realmente el objetivo que
se persigue con la estadstica. Sin la interpretacin de los datos carecera de sentido la
estadstica. Seria el equivalente a tener muchos datos recolectados y ya.

Cada una de estas etapas ser motivo de estudio en forma individual cada una en diferente
captulo.
La estadstica o mtodos estadsticos son de gran utilidad en muchas disciplinas, ya que en
la vida prctica frecuentemente se necesita extraer conclusiones vlidas y confiables
respecto de un grupo de individuos u objetos. Por ejemplo, una fbrica de tornillos
seguramente requerir saber el porcentaje de tornillos defectuosos que produce.

La medicina, la biologa, la economa, la sociologa, los deportes, la astronoma, la
docencia, etc., aplican los mtodos estadsticos en diferentes niveles de complejidad, desde

3

aquellos que utilizan tcnicas muy elaboradas hasta los que solamente requieren tablas de
informacin. En la actualidad la mayora de las ciencias debe recurrir a la estadstica de
manera indispensable para su enriquecimiento.

Una poblacin es el conjunto de individuos u objetos con una caracterstica comn, acerca
del cual se quiere saber algo.

Ejemplos: Una poblacin puede ser un grupo del 3er semestre de la escuela, acerca del cual
se desea saber su promedio de calificaciones en un mes determinado, o bien mes por mes.
Una poblacin pueden ser los habitantes de una ciudad de la cual se desea saber el ndice de
enfermedades en las diferentes pocas del ao. Una poblacin pueden ser los trabajadores
de una fbrica de los que se desea saber su porcentaje de rendimiento en el trabajo. Una
poblacin puede ser una especie seleccionada de animales de la cual se desea investigar
patrones de comportamiento. Una poblacin pueden ser todos los tornillos producidos en
una fbrica durante una semana o un mes.

Una poblacin, dicho con otras palabras, es el conjunto universal, es decir, es el todo.

Una muestra es una parte representativa de la poblacin.

A veces no es conveniente analizar uno a uno todos los elementos de una poblacin, ya sea
por razones de costo, de tiempo o de posibilidad, en cuyos casos se seleccionan de manera
representativa algunos integrantes de la poblacin. Esos son la muestra.

Por ejemplo, supngase que se desea estimar el porcentaje de tornillos defectuosos que se
producen en una fbrica en cierto periodo. Si se fabrican 500 mil piezas a la semana, no es
costeable pagar a un trabajador para que se dedique a analizar uno a uno todos los tornillos.
Entonces se seleccionan algunos de los tornillos bajos ciertas tcnicas que proporciona la
estadstica, se calcula el porcentaje de tornillos defectuosos detectados en esa muestra y el
resultado se hace extensivo a toda la poblacin, es decir, si en la muestra el 5% result
defectuoso, debe esperarse que en toda la poblacin el promedio sea igual o muy prximo a
ese 5%.

En otros casos no se puede analizar toda la poblacin porque sta se destruira. Por
ejemplo, supngase que se desea saber el tiempo promedio de duracin de ciertas piezas
antes de que sufran desgaste considerable. Una manera de hacerlo sera probando pieza por
pieza, pero eso implica que haya que someter a todas las piezas a la prueba y esperar a que
se desgasten hasta su inutilizacin para obtener su tiempo y promediar; entonces se tendra
ciertamente la informacin exacta del tiempo promedio de duracin de las piezas
fabricadas, pero a costa de haberlas destruido. De manera que para evitar lo anterior, se
recurre a la muestra.


4

Existen tambin ciertos eventos que dependen del tiempo, siendo la poblacin total los
eventos del pasado, los del presente y los que acontecern en el futuro, por lo tanto resulta
imposible analizar a los del futuro. En tales casos la muestra vienen siendo los sucesos ya
verificados (del pasado). Por ejemplo, se realiza una anlisis durante 50 aos sobre las
temperaturas promedio en las diferentes pocas del ao en una ciudad; al observarse que en
Mayo las temperaturas siempre oscilaron entre los 29 y 32 grados, podr hacerse una
especie de prediccin para los aos futuros en el sentido que se repetirn las mismas
temperaturas en el mes de Mayo. Aqu la muestra son los cincuenta aos ya pasados que
fueron estudiados, mientras que la poblacin la forman todos los aos, incluyendo a los que
estn por venir.

Finalmente, hay casos en que resulta imposible estudiar a todos los elementos de una
poblacin, por lo que se recurre a la muestra. Seria el caso, por ejemplo, del bilogo que
desea descubrir rasgos de comportamiento de alguna especie animal como podra ser su
longevidad, o sea, los aos que vive. No es posible investigar uno a uno a todos los
animales, por lo que se recurre a una muestra y de ellos se sacan conclusiones que se
extienden a toda la poblacin.

Las dos caractersticas ms importantes que debe tener una muestra son: uno, ser aleatorias,
esto es que cada miembro de la poblacin tenga igual oportunidad de salir en la muestra, o
sea la misma probabilidad de ser escogido, y, dos, ser representativas de la poblacin.

Al proceso de seleccionar o de obtener una muestra se le llama muestreo. La teora del
muestreo abarca un capitulo completo dentro de la estadstica; sin embargo, como esto
queda fuera del presente programa, no se abundar en este tema ms all que la simple
mencin.

Una muestra, dicho en otras palabras, es un subconjunto de la poblacin, es decir, es una
parte del todo.

Los datos nominales son aquellos que representan o exhiben los rasgos o caractersticas de
la poblacin o de la muestra que se examina.

Se llaman datos nominales porque se refieren a su nombre. Por ejemplo, son datos
nominales las edades recabadas de ciertas personas, o las enfermedades ms frecuentes en
cierto periodo del ao, o el numero de muertes provocadas por determinada enfermedad, o
los sueldos de los trabajadores de una fbrica, o las temperaturas registradas en un lugar en
las diferentes pocas del ao, o los metros cbicos de lluvia anuales, etc.

Los datos nominales pueden ser:

a) Numricos: si son nmeros. Por ejemplo, la edad de las personas de cierto grupo, las
temperaturas registradas durante el ao en una ciudad, etc.

5

b) Sustantivos: si son nombres propios o comunes. Por ejemplo, si se refiere a los
rboles frutales de alguna regin, o a las enfermedades que provocan muertes, las
marcas de vehculos ms comerciales, etc.

Los datos ordinales son aquellos que, una vez ordenados, simplemente sealan el orden
que ocupa cada dato nominal.

Se llaman datos ordinales porque se refieren al orden que tienen dentro de todo el conjunto.
Por ejemplo, se desean saber las edades de un grupo de personas. Al realizar la encuesta se
obtiene que la siguiente tabla de edades una vez ordenados de menor a mayor:

DATO
(orden del dato)
EDAD
(nombre del dato)
1 23
2 24
3 24
4 24
5 24
6 25
7 25
8 26
9 27

Entonces se dice que al dato numero 3 (en el sentido de tercer dato), le corresponde el
dato 24. A veces se hace necesaria la pregunta: Cul es el dato que est a la mitad, o sea
que tiene igual nmero de datos antes y despus de l? La respuesta podra darse como es
el dato 5, o bien es el dato 24. Cuando se refiere al dato 5 es en el sentido del orden
del dato, o sea del que est en quinto lugar, mientras que cuando se responde que es el
dato 24 se refiere al nombre o valor numrico del dato situado a la mitad. Debe entonces
distinguirse perfectamente el uso de la misma palabra con dos significaciones distintas,
igual que como sucede con casi todas las palabras en el Espaol.

Aunque en estadstica realmente no se utilizan tablas en las que se muestren los datos
ordinales, a veces s es necesario obtener, deducir o referirse a alguno de ellos, como se
ver en el presente curso al analizar el concepto de mediana; sin embargo, para evitar
confusiones, a los datos nominales se les llama tambin variables, porque varan de valor
de caso en caso y se representan con la letra x.

La estadstica descriptiva es la que sus conclusiones se vierten exclusivamente sobre los
individuos analizados en funcin de los rasgos o datos extrados de ellos.

Por ejemplo, el promedio de calificaciones del grupo A del 3er semestre en el mes de
noviembre fue de 7.12 en Matemticas. Esta conclusin se debe a que se consideraron las

6

calificaciones de todos los alumnos, no de unos cuantos. Es decir, el promedio obtenido de
7.12 est describiendo en forma real a ese grupo.

Otro ejemplo: al efectuar el censo en la ciudad, se obtuvo que el 23% de la poblacin no
haba terminado sus estudios de secundaria. Como el censo se realiza casa por casa, es
decir, considerando uno por uno a todos los habitantes, la conclusin anterior describe en
forma real a esa poblacin.

La estadstica inferencial es la que sus conclusiones se generalizan sobre todos los
individuos de la poblacin, en funcin de los rasgos o datos extrados de una muestra.

Por ejemplo, se analizan 300 animales de la misma especie y de ellos se obtiene que su
edad promedio de vida es de 12 aos. Se concluye, es decir, se infiere, que esa especie de
animales viven aproximadamente 12 aos.

Otro ejemplo: en una muestra aleatoria de 450 transistores producidos en una fbrica, 14 de
ellos resultaron defectuosos. Se concluye, es decir se infiere, que el 3.1% de los 12 000
transistores que forman la produccin total deben, o pueden, ser defectuosos.

Tambin puede aplicarse el concepto de que sus conclusiones se generalizan sobre todos
los individuos de la poblacin, a los que por ser dependientes del tiempo, solo pueden
analizarse los que ya acontecieron, extendindose las conclusiones a los que pertenecen al
futuro. En tales casos, la muestra son los acontecimientos pasados, nicos posibles de
haberse analizado, mientras que la poblacin se considera a todos los sucesos iguales
incluyendo a los que en el futuro habrn de acontecer.

Por ejemplo, se realiza un anlisis durante 100 aos sobre los meses que llueve; al
observarse que en casi todos esos 100 aos las lluvias se formalizaron en la segunda
quincena de Junio y que concluyeron a mediados de Octubre, puede hacerse una especie de
prediccin para los aos futuros en el sentido que se repetir el ciclo de la misma manera.
Aqu la muestra son los cien aos ya pasados que fueron estudiados, mientras que la
poblacin la forman todos los aos, incluyendo a los que estn por venir.

Otro ejemplo: por anlisis estadsticos se observa que el crecimiento de una poblacin en
los ltimos quince aos ha estado en relacin al 5% anual; puede entonces predecirse que
para el presente ao tambin el crecimiento va a ser alrededor de ese 5%

Debe entenderse que cuando se habla de prediccin es en cierto sentido un tanto
simblica, pues la interpretacin de los datos no va a llevar a contemplar de manera
infalible el futuro, sino simplemente con un alto grado de certeza que as suceder.

De tal forma que la estadstica sirve fundamentalmente para tres cosas: primero, para
describir el comportamiento o ciertos rasgos de una poblacin a partir del estudio realizado

7

a cada uno de los integrantes de dicha poblacin; segundo, para hacer generalizaciones
sobre toda una poblacin a partir de rasgos comunes en una muestra; y, tercero, para
predecir caractersticas de sucesos futuros.

CUESTIONARIO

1. Qu es la estadstica?
2. Cules son las cuatro etapas de la estadstica?
3. Qu es una poblacin?
4. Citar dos ejemplos, diferentes a los del libro, de poblaciones.
5. Qu es una muestra?
6. Citar dos ejemplos, diferentes a los del libro, de muestras.
7. Citar un ejemplo, diferente al del libro, en el que no resulta costeable
analizar a todos los individuos de una poblacin.
8. Citar un ejemplo, diferente al del libro, en el que no se pueden analizar a
todos los individuos de una poblacin porque sta se destruira.
9. Citar un ejemplo, diferente al del libro, en el que resulta imposible analizar a
todos los individuos de una poblacin, por lo que se recurre a una muestra.
10. Cules son las dos caractersticas fundamentales que debe tener una
muestra?
11. Al conjunto universal, es decir, al todo, al que abarca a todos los individuos,
cmo se le llama?.
12. Al subconjunto de la poblacin, cmo se le llama?
13. Qu es un dato ordinal?
14. Qu es un dato nominal?
15. Por qu se la llama ordinal a ese dato?
16. Por qu se le llama nominal a ese dato?
17. A qu se le llama tambin variable?
18. Con qu letra se representan las variables?
19. Qu es la estadstica descriptiva?
20. Qu es la estadstica inferencial?
21. Cuando se hace estadstica analizando a todos los individuos de una
poblacin, qu tipo de estadstica es?
22. Cuando se hace estadstica analizando una muestra de la que se generaliza
hacia toda la poblacin, qu tipo de estadstica es?
23. Cuando se hace estadstica analizando acontecimientos pasados a partir de
los cuales se predice alguno futuro, qu tipo de estadstica es?


8
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Organizacin de datos
Frecuencia
Distribucin de frecuencia
Distribucin de frecuencias simple
Cuestionario 2
Distribucin de frecuencias por intervalos
Cuestionario 3
Frecuencias acumuladas
Cuestionario 4
Porcentajes y porcentajes acumulados
Cuestionario 5


9

2

ORGANIZACIN DE DATOS

Siendo el dato el material que se debe procesar, es decir, la materia prima de la estadstica,
el primer paso es entonces la recoleccin de datos, para lo cual se emplean diferentes
tcnicas, como la entrevista personal, el cuestionario, la observacin, etc.

El segundo paso es la organizacin y ordenamiento de los datos, lo que se hace a travs de
tablas, las cuales pueden ser simples o con intervalos, en ambos casos agrupando todos
aquellos que corresponden a un mismo dato nominal o variable y expresando en una
columna el nmero de veces que aparece esa variable.

Frecuencia es el nmero de veces que aparece cada variable o dato nominal.

Por ejemplo, se desea hacer una tabla que muestre las calificaciones en Matemticas de un
grupo escolar. Se ve que hubieron dos alumnos que sacaron 10 de calificacin, siete
estudiantes sacaron 9, etc.; se dice entonces que la frecuencia del dato nominal 10 es de
dos; la frecuencia de la variable 9 es 7.

Una distribucin de frecuencias es el resultado de organizar los datos recolectados en
grupos, mostrando la frecuencia de cada uno. Esta puede ser simple o por intervalos.

DISTRIBUCION DE FRECUENCIAS SIMPLE

Organizar los datos recolectados, ya sea de menor a mayor o viceversa, de manera que se
muestre la frecuencia de cada uno de ellos, es hacer una distribucin de frecuencias simple.

El primer paso es localizar el dato menor y el dato mayor dentro del conjunto de datos
recolectados an en desorden, en el caso que los datos sean de carcter numrico. Una vez
conseguido lo anterior, en una primera columna se escriben todos los nmeros que van
desde el menor hasta el mayor, incluidos stos. Luego, se cuenta cuntas veces aparece el
primer valor nominal, para lo cual se aconseja ir marcando con una lnea ( / ) cada vez que
se cuente uno. El proceso debe repetirse para cada variable. Finalmente se cuentan el
numero de marcas que se hayan registrado para cada valor nominal y se procede a construir
la tabla definitiva.

Ejemplo: Ordenar y construir una tabla de frecuencias simple del siguiente conjunto de
datos recolectados.


10

24 20 32 32 29 21
21 22 33 30 27 26
23 24 20 25 26 32
28 22 29 29 33 35
31 28 32 35 33 32
27 21 33 29 25 24

SOLUCION:

Primer paso: se localizan los nmeros ms chico y ms grande: son el 20 y el 33.

Segundo paso: se hace una lista completa de nmeros desde el 20 hasta el 35:

20 24 28 32
21 25 29 33
22 26 30 34
23 27 31 35

Tercer paso: se cuenta cuntos datos nominales 20 aparecen y por cada uno que aparezca
se pone una rayita ( / ). Se hace lo mismo para cada valor:

20 // 24 /// 28 // 32 /////
21/// 25 // 29 //// 33 ////
22 // 26 // 30 / 34
23 / 27 // 31 / 35 //

A manera de comprobacin, para tener la seguridad de que no se escap alguno o no se
contaron de ms, la suma de todas las rayitas ( / ) debe ser igual al numero de datos
nominales del conjunto inicial. En este caso existen 36 datos nominales y 36 rayitas, lo
que significa que el conteo fue correcto.

Cuarto paso: se elabora la tabla definitiva:


11

DATO NOMINAL
(variable) x
FRECUENCIA

20 2
21 3
22 2
23 1
24 3
25 2
26 2
27 2
28 2
29 4
30 1
31 1
32 5
33 4
34 0
35 2
TOTAL: 36

Es conveniente y a veces necesario obtener el total de una columna en una tabla, lo cual se
especifica como lo muestra la tabla anterior.

CUESTIONARIO 2

1. Cul es la materia prima de la estadstica?
2. Cul es el primer paso que se verifica en la estadstica?
3. Cules son las diferentes tcnicas que se emplean en la recoleccin de
datos?
4. Cul es la tcnica ms simple para contar el nmero de veces que aparece
cada dato?
5. Cul es el segundo paso en la estadstica?
6. Para llevar a cabo el segundo paso, qu se utilizan?
7. Cmo pueden ser las tablas?
8. Qu es frecuencia?
9. Qu es una distribucin de frecuencias?
10. Cuntas clases de distribucin de frecuencias existen y cules son?
11. En qu consiste la distribucin de frecuencias simple?
12. En qu consiste la distribucin de frecuencias por intervalos?
13. Describir los cuatro pasos que deben seguirse para hacer una distribucin de
frecuencias simple.

12

14. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

1 5 4 4 9
8 8 6 5 2
9 9 5 3 3
8 7 7 4 2
5 7 7 9 3


5 2 2 1 9
8 3 3 5 2
9 4 6 6 3
8 8 1 1 2
4 2 4 3 9


10 15 14 14 9
18 18 16 15 12
9 19 15 13 13
18 17 17 14 12


21 25 22 24 28
28 28 22 25 28
29 29 25 20 23
28 27 27 24 22


31 25 34 34 29
28 38 26 25 32
39 29 25 33 30
28 27 27 24 23
38 38 26 35 32
33 29 35 33 30
38 37 27 32 23


13


51 65 63 64 59
58 58 60 55 52
59 69 65 63 63
68 67 67 64 62
58 58 56 55 53
53 69 65 53 58
58 67 62 63 62


30 26 36 34 29
28 33 36 21 32
39 39 32 23 30
22 23 32 34 23
38 38 26 25 22
33 29 34 36 36
38 37 37 22 23


35 23 36 33 32
32 32 23 24 32
39 29 22 22 30
22 23 32 24 23
38 28 27 27 21
31 27 35 35 36
38 39 37 24 23

DISTRIBUCIN DE FRECUENCIAS POR INTERVALOS

Los datos recolectados pueden tambin organizarse por intervalos. Por ejemplo, al realizar
un censo en una ciudad, podra interesar cuntas personas tienen 0, 1 o 2 hijos, cuntas 3, 4
o 5 hijos, cuntas 6, 7 u 8 hijos, etc. Cada intervalo se llama tambin clase.

El ancho de clase o longitud del intervalo es la resta de el lmite superior menos el limite
inferior de cada clase o intervalo. As, en el ejemplo anterior, el intervalo de 0 a 2 hijos
tiene un ancho de 2 0 = 2. No debe confundirse el ancho de la clase con el nmero de
datos nominales que contiene el intervalo. El ancho de la clase 0 2 es de 2 mientras que el
numero de datos nominales que contiene es tres (0, 1 y 2).


14

A la organizacin de los datos recolectados en tablas por intervalos se le llama distribucin
de frecuencias por intervalos. La caracterstica ms importante es que el ancho de cada
clase o longitud del intervalo debe ser el mismo para cada intervalo.

Se llama rango a la diferencia que existe entre el dato nominal mayor menos el dato
nominal menor.

Ejemplo: Ordenar y construir una tabla de frecuencias con cuatro intervalos del siguiente
conjunto de datos recolectados.

24 20 32 32 29 21
21 22 33 30 27 26
23 24 20 25 26 32
28 22 29 29 33 35
31 28 32 35 33 32
27 21 33 29 25 24

SOLUCIN:

Conviene iniciar de la misma manera que en la organizacin de frecuencias simple.
Entonces se localizan los nmeros ms chico y ms grande: son el 20 y el 33 y se hace una
lista completa de nmeros desde el 20 hasta el 35. A continuacin se cuentan cuntos datos
nominales aparecen por cada uno y se pone una rayita ( / ), de lo que resulta:

20 // 24 /// 28 // 32 /////
21 /// 25 // 29 //// 33 ////
22 // 26 // 30 / 34
23 / 27 // 31 / 35 //

A manera de comprobacin, para tener la seguridad de que no se escap alguno o no se
contaron de ms, la suma de todas las rayitas ( / ) debe ser igual al numero de datos
recolectados del conjunto inicial. En este caso existen 36 datos recolectados y 36 rayitas,
lo que significa que el conteo fue correcto.

Despus, se cuenta cuntos datos nominales existen dentro del conjunto. En este caso hay
16. Este valor se puede obtener multiplicando 4 por 4, ya que estn dispuestos en cuatro
filas y cuatro columnas, o bien restando 35 menos 20 (dato mayor menos datos menor) y al
resultado sumndole uno, ya que hay que recordar que en una resta uno de los extremos no
queda incluido y en el ejemplo presente ambos extremos, el 20 y el 35, estn incluidos.

Entonces, como hay 16 datos nominales y se piden cuatro intervalos, simplemente se
dividen o se reparte, por lo que cada intervalo incluir a cuatro datos nominales, como lo
muestra la siguiente tabla:

15

INTERVALO FRECUENCIA

20 23 8
24 27 9
28 31 8
32 35 11
TOTAL: 36

CUESTIONARIO 3

1. Qu otro nombre recibe un intervalo?
2. Qu significa ancho de clase?
3. Qu significa longitud del intervalo?
4. Cul es la caracterstica principal que deben tener los intervalos?
5. A la organizacin de los datos recolectados en tablas por intervalos, cmo se le
llama?
6. Qu es una distribucin de frecuencias por intervalos?
7. Qu es un rango?
8. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:

1 5 4 4 9
8 8 6 5 2
9 9 5 3 3
8 7 7 4 2
6 9 5 8 3
5 7 3 4 2

9. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:

5 2 2 1 9
8 3 3 5 2
9 4 6 6 3
8 8 1 1 2
9 5 2 6 3

10. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:


16

10 15 14 14 10
18 18 16 15 12
10 19 15 13 13
18 17 17 14 12
15 18 13 11 12
10 11 11 14 19

intervalos:

31 25 34 34 29
28 38 26 25 32
39 29 25 33 30
28 27 27 24 24
38 38 26 35 32
33 29 34 33 30
38 37 27 32 26

intervalos:

21 25 22 24 28
28 28 22 25 28
29 29 25 20 23
28 27 27 24 22

13. Organizar el conjunto de datos del problema 11 en una tabla que contenga 8
intervalos.
intervalos:

31 26 34 34 29
28 38 26 25 32
36 29 25 33 30
28 31 27 27 29
38 38 26 35 32
33 29 34 33 30
38 37 27 32 24

intervalos.
intervalos:

17

35 23 36 33 32
32 32 23 24 32
38 29 22 22 30
22 23 32 24 23
38 28 27 27 21
31 27 35 35 36
38 30 37 24 23

intervalos.
intervalos.
intervalos:

25 33 36 33 32
32 22 23 24 32
38 29 20 22 30
22 23 32 24 23
39 30 37 24 23

intervalos.
intervalos.
intervalos:

22 32 36 23 32
32 22 23 34 32
38 29 20 23 30
22 33 32 24 23
20 38 20 27 21
21 27 29 35 20
38 30 37 39 23

intervalos.


18

FRECUENCIAS ACUMULADAS

Muchas veces resulta de gran utilidad, una vez organizados los datos recolectados en una
tabla de frecuencias, ya sea simple o por intervalos, tener informacin sobre la frecuencia
que a partir del inicio de la tabla se tiene hasta cierto dato nominal determinado. A lo
anterior se le conoce con el nombre de frecuencias acumuladas (fa), y se aade en una
columna en la misma tabla.

Ejemplo 1: En los datos del ejemplo de la pgina 11, sus frecuencias acumuladas son:

DATO NOMINAL
(variable)
FRECUENCIA

FRECUENCIAS
ACUMULADAS

20 2 2
21 3 5
22 2 7
23 1 8
24 3 11
25 2 13
26 2 15
27 2 17
28 2 19
29 4 23
30 1 24
31 1 25
32 5 30
33 4 34
34 0 34
35 2 36
TOTAL 36 36

Ejemplo 2: En los datos del ejemplo de la pgina 15, sus frecuencias acumuladas son:

DATO NOMINAL
(variable)
FRECUENCIA

FRECUENCIAS
ACUMULADAS

20-23 8 8
24-27 9 17
28-31 8 25
32-35 11 36
TOTAL: 36 36


19

CUESTIONARIO 4

1. Del cuestionario 2, problemas 14 a 21, organizar cada conjunto de datos en una
distribucin de frecuencias simple, agregando una columna de frecuencias
acumuladas.
distribucin de frecuencias por intervalos, conforme al respectivo enunciado,
agregando una columna de frecuencias acumuladas.

PORCENTAJES Y PORCENTAJES ACUMULADOS

Otras dos informaciones muy tiles dentro de la etapa de organizacin de datos es calcular
el porcentaje de cada variable conforme a su frecuencia, lo mismo que su porcentaje
acumulado, ya sea en una distribucin de frecuentas simple o por intervalos.

Para calcular el porcentaje basta hacer una regla de tres, en donde el 100% es el nmero N
de datos recolectados, o sea el total de las frecuencias, esto es

N / 100 = f / x %
Donde:
N = numero total de datos recolectados o frecuencia total
f = frecuencia particular del dato nominal del que se desea saber su porcentaje
x % = porcentaje correspondiente al dato nominal de frecuencia .

O bien, despejando, se obtiene que

x % = 100f / N

EJEMPLO 1: en la tabla del ejemplo 1, aadir una columna que exprese los porcentajes de
cada dato nominal y otra de sus porcentajes acumulados.

SOLUCIN:


20

DATO
NOMINAL
(variable)

PORCENTAJE
x %
PORCENTAJE
ACUMULADO
%

20 2 2 5.5555 5.5555 x %= 100 x 2/36 = 5.5555
21 3 5 8.3333 13.8888
22 2 7 5.5555 19.4443
23 1 8 2.7777 22.2222
24 3 11 8.3333 30.5553 x %= 100 x 3/36 = 8.333
25 2 13 5.5555 36.1108
26 2 15 5.5555 41.6663
27 2 17 5.5555 47.2218
28 2 19 5.5555 52.7773
29 4 23 11.1111 63.8884 x %= 100 x 4/36 = 11.11
30 1 24 2.7777 66.6661
31 1 25 2.7777 69.4438
32 5 30 13.8888 83.3326 x %= 100 x 5/36 = 13.88
33 4 34 11.1111 94.4437
34 0 34 0 94.4437
35 2 36 5.5555 99.9992
TOTAL: 36 99.9992

EJEMPLO 2: en la tabla del ejemplo 2, aadir una columna que exprese los porcentajes de
cada dato nominal y otra de sus porcentajes acumulados.

DATO
NOMINAL
(variable)

PORCENTAJE
x %
PORCENTAJE
ACUMULADO
%
20-23 8 8 22.2222 22.2222
24-27 9 17 25 47.2222
28-31 8 25 22.2222 69.4444
32-35 11 36 30.5555 99.9999
TOTAL: 36 36 99.9999


21

CUESTIONARIO 5

distribucin de frecuencias simple, agregando una columna de porcentajes y otra
de porcentajes acumulados.
distribucin de frecuencias por intervalos, conforme al respectivo enunciado,
agregando una columna de porcentajes y otra de porcentajes acumulados.


22
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Presentacin de datos
Grafica de barras
Cuestionario 6
Polgono de frecuencias
Cuestionario 7
Ojiva
Cuestionario 8
Grafica de sectores circulares o pastel
Cuestionario 9


23

3

PRESENTACIN DE DATOS

Los datos recolectados ya organizados en alguna de las formas vistas en el capitulo
anterior, para presentarlos en alguna forma fcil de entender o asimilar, por lo general es
mejor hacerlo a travs de las grficas.

Existen varias formas de graficas para representar los datos organizados, siendo las ms
comunes aquellas que utilizan un sistema de coordenadas, las que deben cumplir los
siguientes requisitos:

1) El eje vertical debe comenzar forzosamente en cero. El eje horizontal puede
comenzar con otros valores, cuando son numricos, o con nombres especficos
cuando no son numricos, como por ejemplo, cuando son enfermedades,
nombres de frutas, ciudades, etc.
2) Si se hace necesario interrumpir alguna escala, ya sea la vertical o la horizontal,
debe mostrarse en forma clara con una lnea en zig-zag, como lo muestra la
figura 1. Esto se hace cuando los valores representados en el eje horizontal
comienzan lejanos del cero y se desea interrumpir la escala, o cuando los valores
mnimos sobre el eje vertical alcanzan cifras elevadas.
3) Si se utilizan unidades, deben escribirse con toda claridad.
4) Los ttulos deben ser claros y todos los letreros deben colocarse horizontalmente.

Se analizarn a continuacin diferentes tipos de graficas.

FIGURA 1

23

22

21

2

1
0 1 2 20 21 22 23


24

GRFICA DE BARRAS

En este tipo de graficas deben cumplirse los siguientes requisitos, adems de los requisitos
generales enumerados en la pgina anterior:

1) Siendo la grfica de barras una representacin grafica (valga la redundancia) de
una tabla, es requisito indispensable que antes de la grafica exista dicha tabla. En
este curso se exigir que aparezca la tabla cuya representacin es la grafica,
como medida de vigilancia hacia el alumno de que est procediendo
correctamente, aunque debe tenerse presente que cuando se utiliza una grafica ya
en la practica en cualquier campo de la vida, la tabla no se exhibe, pues
precisamente en su lugar se presenta la grafica para mostrar los datos ordenados.
2) Las barras deben tener todas el mismo ancho. Las figuras 2, 3 y 4 muestran
barras del mismo ancho todas, aunque las correspondientes a las figuras 3 y 4
poseen un defecto que se sealar en incisos siguientes, en cambio la figura 5
tiene el defecto de que las barras son de diferente ancho.
3) Debe evitarse en lo posible aadir a la grafica lneas horizontales a partir del
extremo superior de cada barra, para sealar el valor sobre el eje Y que le
corresponde, como lo muestra la figura 4. Para no generar la necesidad de esas
lneas es recomendable utilizar una cuadricula de fondo o en su defecto
solamente sealar sobre el eje vertical los valores que corresponden a cada una
de las barras.
4) La distancia entre cada barra debe ser siempre la misma, la que debe armonizar
con todo el conjunto. Distancias entre barras ms grandes que el ancho de cada
barra o demasiado pequeas desarmonizan la presentacin de la grafica. La
figura 3 tiene el defecto de que las distancias entre barras, aunque son las
mismas, son demasiado grandes. Las figuras 4 y 5 tienen el defecto de que las
distancias entre barras son diferentes.
5) Cuando la grafica de barras no es la representacin de datos numricos, sino de
datos sustantivos, es decir datos con nombres especficos, debe evitarse poner el
nombre de cada barra en forma vertical, pues dificulta su lectura. La figura 6
muestra en primer termino una forma correcta de colocar los identificadores de
las barras en forma horizontal, mientras que la que aparece en segundo termino
muestra lo que indebidamente suele hacerse, escribiendo verticalmente dichos
identificadores.
6) Cuando la grafica de barras es la representacin de datos numricos organizados
por intervalos, justamente en los extremos de cada barra deben colocarse los
valores de los intervalos, como se muestra en la figura 7. A veces dar mayor
claridad escribir los limites del intervalo separados con un guin, como, por
ejemplo, 2 5, aunque esto ltimo no es indispensable. Ver figura 10.
7) Debe evitarse rellenar cada barra con identificadores diferentes, colocando
despus en otro sitio la lista de significados de cada uno de ellos, pues esto
complica su lectura, ya que la grafica debe mostrar todo el contenido de lo que

25

es o representa a primera vista. Hacerlo a base de rellenos implica doble lectura: una
de la grafica misma y la otra de la lista de significados. Es obvio que la lectura
resulta ms gil cuando, en vez de identificadores a base de rellenos, se utilizan
directamente los nombres de lo que representan, como en la parte correcta de la
figura 6.

Figura 2 Figura 3

Figura 4


26

Figura 5

CORRECTO
0
20
40
60
80
100
120
meln sand a mango mamey
INCORRECTO
0
20
40
60
80
100
120
m
e
l
n
s
a
n
d
a
m
a
n
g
o
m
a
m
e
y

Figura 6


27
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8 9 10
CALIFICACIONES

0
5
10
15
20
25
2 5 7 10 12 15
0
5
10
15
20
25
2 5 7 10 12 15
2 5 7 10 12 15

Figura 7 Figura 8

------------------------------------------------------------------------------------

Ejemplo 1: Representar por medio de una grfica de barras los datos organizados en la
siguiente tabla:
SOLUCIN:
Calificacin
0 1
1 1
2 1
3 2
4 8
5 13
6 12
7 10
8 7
9 5
10 2

Figura 9

------------------------------------------------------------------------------------

siguiente tabla:


28

SOLUCIN:

Figura 10

------------------------------------------------------------------------------------

siguiente tabla:

SOLUCIN: Rigurosamente la grfica debera quedar como lo muestra la
figura 11.

0
1
2
3
4
5
6
7
1 3 5 7 9 11 13 15 17 19 21 23

Figura 11

Sin embargo, en casos como ste en los que queda un gran espacio vaco entre el eje
vertical y la primera barra es cuando se debe interrumpir la escala horizontal, para
recorrerla hacia el eje vertical conforme se dijo.

1 3 4
4 6 6
7 9 7
10 12 5
13 15 6

20 2
21 6
22 3
23 5
24 2
0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15

29

La idea es simular que el papel ocupado por el espacio en blanco se dobl para acercar la
grfica hacia el eje vertical. Entonces, sealndolo con una lnea en zig zag, la grfica
debe quedar como lo muestra la figura 12.

9
8
7
6
5
4
3
2
1

0

Figura 12

------------------------------------------------------------------------------------

CUESTIONARIO 6

1. Representar por medio de una grfica de barras las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
2. Representar por medio de una grfica de barras las tablas obtenidas en el

POLGONO DE FRECUENCIAS

Esta grfica se utiliza en la representacin de tablas por intervalos. Consiste en unir los
puntos medios de cada barra, o lo que es lo mismo, los puntos medios de cada intervalo,
comenzando y terminando sobre el eje horizontal a una distancia equivalente al punto
medio de la siguiente barra, simulando que sta existiera.

Ejemplo 1: Construir el polgono de frecuencias correspondiente a los datos organizados
en la tabla siguiente:

1

20 21 22 24 23

30

1 3 4
4 6 6
7 9 7
10 12 5
13 15 6

SOLUCIN: la grfica de barras correspondiente a la tabla es la que se muestra en la parte
izquierda de la figura 13, a la cual se le ha aadido una lnea quebrada que une los puntos
medios. Eliminando las barras se obtiene el polgono de frecuencias.

0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15
POLGONO DE
FRECUENCIAS
0
2
4
6
8
2 5 8 11 14

Figura 13

------------------------------------------------------------------------------------

CUESTIONARIO 7

1. Representar por medio de un polgono de frecuencias cada una de las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.

OJIVA

La palabra ojiva se emplea en el Espaol para denotar la lnea curva compuesta por dos
arcos de circunferencia del mismo radio y sus concavidades en sentido contrario, como lo
muestra la figura 14.

31

En Estadstica se le llama ojiva, ya que en un buen numero de casos, toma forma semejante
a una ojiva, a la curva que se obtiene al graficar los datos nominales contra la distribucin
de frecuencias acumuladas en sentido ascendente, es decir, comenzando en cero hasta llegar
la frecuencia total.

Pero debe quedar claro que no siempre la grfica de una distribucin de frecuencias
acumuladas toma una forma semejante a la de la figura 14.

Figura 14

La expresin los datos nominales contra la distribucin de frecuencias acumuladas
significa que sobre el eje de las x se grafican los valores de los datos nominales, mientras
que sobre el eje de las y se representan las frecuencias acumuladas.

Ejemplo 1: la distribucin acumulativa de las estaturas de un grupo, que indica el nmero
de alumnos que midieron menos de la estatura sealada, se muestra en la siguiente tabla.
Construir su ojiva correspondiente.

Estatura 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
Alumnos
()
0 1 5 14 38 67 89 103 108

SOLUCIN: las coordenadas de los puntos de la ojiva son el equivalente a los de la
tabulacin de una ecuacin, en donde los valores de las x corresponden a la de los datos
nominales, en este caso a las estaturas, mientras que los valores de las y corresponden a
las frecuencias acumuladas, de la siguiente manera:

123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
0 1 5 14 38 67 89 103 108

cuya grfica es:

r 1
r 2
r1 = r2

32

0
20
40
60
80
100
120
123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
datos nominales
f
r
e
c
u
e
n
c
i
a
s

a
c
u
m
u
l
a
d
a
s

Figura 15

Ejemplo 2: Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
la tabla de la pgina 20.

SOLUCIN: las coordenadas de los puntos de la ojiva se muestran en la siguiente tabla:

20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
2 5 7 8 11 13 15 17 19 23 24 25 30 34 34 36

cuya grfica es:

0
5
10
15
20
25
30
35
40
20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
datos nominales
f
r
e
c
u
e
n
c
i
a
s

a
c
u
m
u
l
a
d
a
s

Figura 16

33

CUESTIONARIO 8

1. Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
los problemas 14 a 21, cuestionario 4.
2. Dibujar la ojiva correspondiente a la distribucin de frecuencias acumuladas de
los problemas 8 a 23, cuestionario 4.

GRFICA DE SECTORES CIRCULARES O PASTEL

Este tipo de grfica es recomendable para datos nominales sustantivos, no numricos,
cuando no son muchos y cuando se desea mostrar el porcentaje de cada uno de ellos,
aunque puede utilizarse en otros casos.

Para ello se recomienda seguir los siguientes pasos.

1) Calcular los porcentajes, respecto del total, de cada frecuencia correspondiente a
cada dato nominal sustantivo. Por una regla de tres simple, en donde la suma de
todas las frecuencias es el 100%, se obtiene

f / 100 = f / x%

despejando:
x% = 100f / f

en donde:
f = suma de todas las frecuencias
f = frecuencia particular del dato seleccionado
x% = porcentaje del dato particular

2) Calcular los grados de la circunferencia que corresponden a cada uno de esos
porcentajes. Tambin por una regla de tres simple, en donde los 360 de la
circunferencia son el 100%, se establece que

360 / 100% = x / x%

despejando:
x = (360) (x%) / 100

en donde:
x = grados correspondientes al porcentaje x%.
x% = porcentaje calculado anteriormente para cada frecuencia.


34

3) Marcar en un crculo, a partir de cualquier origen arbitrario, los grados de cada
sector obtenidos en el paso anterior.

4) Colocar dentro de cada sector las siguientes dos leyendas:
a) el dato nominal a que corresponde;
b) el porcentaje que le corresponde.

Solamente en caso de que no quepan las leyendas anteriores, se colocarn afuera de los
sectores, relacionando con claridad por medio de lneas, en caso necesario, cada sector con
sus respectivas leyendas.

A pesar de tener mucha aceptacin, no es buena practica rellenar cada sector con
identificadores diferentes, colocando despus en otro sitio la lista de sus significados, ya
que esto complica la lectura en virtud de que obliga a dos lecturas en dos espacios
diferentes.

Ejemplo 1: obtener la grfica de sectores circulares de la siguiente tabla.

Dato nominal sustantivo
Pltano 2500
Manzana 1700
Guayaba 3000
Uva 4000
f =
11200

SOLUCIN: calculando el porcentaje de cada dato nominal sustantivo, se obtiene

a) para pltano
x% = 100 x 2500 / 11200 = 22.321%
b) para manzana
x% = 100 x 1700 / 11200 = 15.178%
c) para guayaba
x% = 100 x 3000 / 11200 = 26.785%
d) para uva
x% = 100 x 4000 / 11200 = 35.714%

A la tabla original conviene agregarle dos columnas ms, una para los porcentajes de cada
dato nominal sustantivo y la otra para los grados que les corresponden a esos porcentajes,
las que se irn llenando conforme se realicen los clculos correspondientes, de la siguiente
manera:


35

Dato nominal
sustantivo
% grados
Pltano 2500 22.321
Manzana 1700 15.178
Guayaba 3000 26.785
Uva 4000 35.714
f = 11200 99.998

Calculando como siguiente paso del proceso los grados de la circunferencia que
corresponden a cada uno de esos porcentajes:

a) para pltano
x = 360 x 22.321 / 100 = 80.355
b) para manzana
x = 360 x 15.178 / 100 = 54.640
c) para guayaba
x = 360 x 26.785 / 100 = 96.426
d) para uva
x = 360 x 35.714 / 100 = 128.570

Vaciando estos resultados en la ltima columna de la tabla, queda as:

Dato nominal
sustantivo
% grados
Pltano 2500 22.321 80.355
Manzana 1700 15.178 54.640
Guayaba 3000 26.785 96.426
Uva 4000 35.714 128.570
f = 11200 99.998 359.991

Obsrvense que las sumas del porcentaje y de los grados no dan exactamente 100% ni
360, en virtud de los decimales que no se tomaron, pero sus respectivos resultados casi
dieron esas cifras esperadas.

Marcando en un crculo, a partir de cualquier origen arbitrario, aunque de preferencia por
su fcil localizacin se escoge el eje vertical superior y avanzando en el sentido de las
manecillas del reloj en el mismo orden en que aparecen en la tabla, los grados de cada
sector obtenidos en el paso anterior y concentrados en la ltima columna, agregando en
cada sector la leyenda del dato nominal sustantivo y su porcentaje correspondiente, la
grfica de sectores circulares resulta como se muestra en la figura 17.


36

uva
36%
pltano
22%
manzana
15%
guayaba
27%

Figura 17

Debe entenderse que cada sector circular fue dibujado con auxilio de un transportador,
dando a cada uno de ellos el ngulo en grados que le corresponde, segn la tabla.

Se dijo que no es recomendable rellenar cada sector con identificadores diferentes,
colocando despus en otro sitio la lista de sus significados, ya que esto complica la lectura
en virtud de que obliga a dos lecturas en dos espacios diferentes, como la grfica de la
figura 18. En otras palabras, hacer grficas como sta es colocar distractores a la lectura.

Aunque tampoco puede descartarse esta forma de hacer grficas de sectores circulares, pues
a pesar del inconveniente anterior, tambin tiene algunas ventajas, las que resultan de ms
peso para ciertos trabajos. Una de ellas es la presentacin, ya que una grfica como la de la
figura 18 parece ms elegante que la de la figura 17. Depende entonces qu se prefiera: si
agilidad para su lectura o que sea agradable a la vista.

uva
guayaba
manzana
pltano

Figura 18


37

A partir de la grfica por sectores circulares elemental se pueden crear diferentes formas
estilizadas para darle esttica a la presentacin, como pueden ser grficas inclinadas
como las de las figuras 20 y 21, o grficas con grosor como las figuras 20 y 21, o en forma
de anillos como la figura 21, o combinando las anteriores formas de inclinacin o grosor,
etc., sin embargo, en este curso se trabajar solamente con comps y transportador para
construir la grfica de sectores circulares simple, como la de la figura 17.

manzan
a
15%
guayaba
27%
uva
36%
pltano
22%
pltano
22%
manzana
15%
guayaba
27%
uva
36%

Figura 19 Figura 20

pltano
22%
manzana
15%
guayaba
27%
uva
36%

Figura 21

38

CUESTIONARIO 9

Dibujar la grfica de sectores circulares para cada uno de los siguientes casos, construyendo
una tabla con las cuatro columnas.

1)

Datos nominales
Gatos 12500
Perros 16000
Borregos 10250
Caballos 22750

2)

Datos nominales
Frijol 650
Maz 220
Garbanzo 335
Chicharo 119

3)

Datos nominales
Frutas 350
Legumbres 600
Carnes 250
Enlatados 750

4)

Datos nominales
Gripes 23650
Amibas 33220
Sarampin 15335
Presin 5119


39
5)

Datos nominales
Luz $990
Telfono 2600
Agua 250
Gas 650
Renta 3000

6)

Datos nominales
Cine 3220
Teatro 3990
Futbol 5335
Toros 2119
Otros 4966


40
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Medidas de tendencia central
La media
La media, frecuencias simples
Cuestionario 10
La media, frecuencias por intervalos
Cuestionario 11
La moda
La moda, frecuencias simples
La moda, frecuencias por intervalos
Cuestionario 12
La mediana
La mediana, frecuencias simples
Cuestionario 13
La mediana, frecuencias por intervalos
Cuestionario 14
Interpretacin y utilizacin


41

4

MEDIDAS DE TENDENCIA CENTRAL

A veces, de los datos recolectados ya organizados en alguna de las formas vistas en
captulos anteriores, se desea encontrar una especie de punto central en funcin de sus
frecuencias. En Estadstica se conocen tres diferentes, llamadas medidas de tendencia
central, cuya utilizacin vara de acuerdo con lo que se desee del conjunto de datos
recolectados. Esas tres medidas de tendencia central son la media, la mediana y la moda.

Cada una de ellas se estudiar en dos partes: primero, cuando los datos estn organizados
en tablas de frecuencias simples; y, segundo, cuando estn organizados en intervalos.

LA MEDIA

La media, llamada pomposamente media aritmtica, es la medida de tendencia central
conocida popularmente como promedio.

1) FRECUENCIAS SIMPLES:

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
media se puede calcular por medio de la formula
_
X = fx / n

En donde:
_
X = media
fx = suma de las frecuencias por su correspondiente dato nominal.
n = suma de todas las frecuencias (numero de datos recolectados).

Para calcular la media, debe aadirse una columna a la tabla original en la que se registren
los resultados correspondientes al producto de la frecuencia por su valor nominal (fx).

Ejemplo 1: las calificaciones de Matemticas de los grupos A y B se muestran en la
tabla siguiente. Calcular el promedio (la media) obtenido por esos grupos.


42

Calificaciones
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n=91

SOLUCIN: debe aadirse a la tabla original una columna encabezada por en donde se
anotarn los resultados correspondientes a las multiplicaciones de cada valor nominal por
su frecuencia respectiva.

Por ejemplo, para la primera fila:
fx = 2 x 0 = 0
para la segunda fila:
fx = 3 x 1 = 3
para la tercera fila:
fx = 3 x 2 = 6

La tabla completa con las tres columnas queda como se muestra en la siguiente tabla. La
suma de los valores de la columna es 544, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 544 / 91

_
X = 5.97

Calificaciones
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n=91

0
3
6
18
32
45
102
154
80
54
50
544

43

Ejemplo 2: los precios de los 97 artculos que se venden en una tienda estn sealados en
la tabla siguiente. Calcular el precio promedio que existe en dicha tienda.

Precios
$ 250.00 5
305.50 3
330.00 4
395.75 6
400.00 8
465.80 8
500.00 18
512.35 20
525.00 13
530.00 9
540.40 2
550.00 1
n =97

SOLUCIN: debe aadirse, como en el ejemplo anterior, a la tabla original una columna
encabezada por en donde se anotarn los resultados correspondientes a las
multiplicaciones de cada valor nominal por su frecuencia respectiva.

Por ejemplo, para la primera fila:
fx = 5 x 250.00 = 1250
para la segunda fila:
fx = 3 x 305.50 = 916.5
para la tercera fila:
fx = 4 x 330.00 = 1320.00

La tabla completa con las tres columnas queda como se muestra en la tabla. La suma de los
valores de la columna es 45 260.2, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 45 260.2 / 97

_
X = 466.66


44

Precios
$ 250.00 5 1250.00
305.50 3 916.50
330.00 4 1320.00
395.75 6 2374.50
400.00 8 3200.00
465.80 8 3726.40
500.00 18 9000.00
512.35 20 10247.00
525.00 13 6825.00
530.00 9 4770.00
540.40 2 1080.80
550.00 1 550.00
n =97 45260.2

CUESTIONARIO 10

1. A qu se le llama en Estadstica medidas de tendencia central?
2. Mencionar las tres medidas de tendencia central.
3. Qu es la media?
4. Qu otros dos nombres tiene la media?
5. Qu columna debe agregarse a la tabla original para calcular la media, cuando
est organizada en una distribucin de frecuencias simples?
6. Calcular el promedio de los datos organizados en las tablas obtenidas en el

2) FRECUENCIAS POR INTERVALOS

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la media se puede calcular por medio de la formula:
_
X = fx / n
En donde:
_
X = media
x = punto medio del intervalo
fx = suma de las frecuencias por su correspondiente dato nominal
n = suma de todas las frecuencias (numero de datos recolectados)


45

Obsrvese que es la misma formula que la correspondiente a los datos organizados en
tablas de frecuencias simples, en donde la nica diferencia es la interpretacin de la x. en
una representa el valor nominal, en sta el punto medio del intervalo. De hecho, esta
situacin se va a repetir en las otras dos medidas de tendencia central que faltan de estudiar
an, la mediana y la moda, ya que tambin se estudiarn en dos casos: cuando los datos
estn organizados en tablas con frecuencias simples o cuando estn por intervalos.

Para calcular la media de datos organizados por intervalos, deben aadirse ahora dos
columnas a la tabla original: la primera columna aadida es para anotar el valor del punto
medio del intervalo (x) y la otra en la que se registren los resultados correspondientes al
producto de la frecuencia por el correspondiente valor del punto medio del intervalo (fx).

Ejemplo 1: calcular el promedio (la media) de los valores agrupados en intervalos de la
tabla siguiente.
Intervalos
0 2 12
3 5 13
6 8 23
9 11 16
12 14 18
n = 82

SOLUCIN: deben aadirse a la tabla original dos columnas encabezadas por y por ,
en donde se anotarn los resultados correspondientes a los puntos medios de cada intervalo
y al producto de la frecuencia por ese punto medio. La tabla completa con las cuatro
columnas queda como se muestra a continuacin:

Intervalos Punto medio
0 12 12 1 12
3 5 13 4 52
6 8 23 7 161
9 11 16 10 160
12 14 18 13 234
n =82 fx = 619

La suma de los valores de la columna es 619, de manera que utilizando la formula para
el promedio, se obtiene:
_
X = fx / n = 619 / 82
_
X = 7.548


46

CUESTIONARIO 11

1. Qu columnas deben agregarse a la tabla original para calcular la media, cuando
est organizada en una distribucin de frecuencias por intervalos?
2. Calcular el promedio de los datos organizados en intervalos en las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.

LA MODA

La moda es la medida de tendencia central que se define simplemente como aquel valor
nominal que tiene la frecuencia mayor. Por lo tanto, una distribucin de frecuencias puede
tener ms de una moda.

La moda se simboliza con sus dos primeras iniciales: Mo


moda se obtiene buscando en la columna de frecuencias simples el o los valores que tengan
mayor frecuencia.

Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.

TABLA A
x f
35 12
40 8
45 13
50 11
55 16
60 10
65 11
70 15
75 14
80 5


47

TABLA B
x f
100 25
200 29
300 27
400 29
500 22
600 24
700 28
800 25
900 28
1000 19

SOLUCION: para la tabla A, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 16, que corresponde al dato nominal 55. Por lo tanto la moda es
Mo = 55.

Para la tabla B, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 29, que corresponde a los datos nominales 200 y 400. por lo tanto la moda
es Mo = 200 y tambin Mo = 400, es decir, la tabla B tiene dos modas.


intervalos, la moda se obtiene buscando en la columna de frecuencias el o los valores que
tengan mayor frecuencia. Entonces la moda es el punto medio del intervalo que tiene la
mayor frecuencia.

Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.

TABLA A
I ntervalo f
3 5 52
6 8 68
9 11 53
12 14 41
15 17 70
18 20 64
21 23 69
24 26 68
27 29 55
30 32 52

48
33 35 66
36 38 61
39 41 45
42 44 64
45 47 52

TABLA B
I ntervalo f
11 20 75
21 30 62
31 40 77
41 50 55
51 60 77
61 70 70
71 80 58
81 90 63
91 100 69
101 110 72
111 120 77
121 130 76
131 140 75
141 150 42
151 160 53

SOLUCIN: para la tabla A, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 70, que corresponde al intervalo 15 17. Por lo tanto la moda es
el punto medio de ese intervalo, es decir, Mo = 16.

Para la tabla B, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 77, que corresponde a los intervalos 31 40, 51 60 y 111- 120. Por lo
tanto la moda es el punto medio de cada uno de esos intervalos, esto es Mo = 35.5 y
tambin Mo = 55.55, y tambin Mo = 115.5, es decir, la tabla B tiene tres modas.

CUESTIONARIO 12

1. Qu es la moda?
2. Por qu una distribucin de frecuencias puede tener ms de una moda y en
cambio no puede tener ms que una media exactamente?
3. Cmo se simboliza la moda?
4. Cmo se obtiene la moda cuando los datos estn organizados en intervalos?

49

5. Localizar la moda de los datos organizados en las tablas obtenidas en el
6. Localizar la moda de los datos organizados en intervalos en las tablas obtenidas
en el cuestionario 3, problemas 8 a 23.

LA MEDIANA

La mediana es la medida de tendencia central que se define como aquel valor nominal que
tiene, dentro de la tabla, arriba y abajo de l, el mismo numero de datos nominales. En otras
palabras, es el que est a la mitad.

Para facilitar la localizacin de la mediana en una tabla, conviene agregarle una columna en
la que se anoten las frecuencias acumuladas. Entonces, el nmero total de datos
recolectados ms uno, dividido entre dos, ese resultado se busca en la columna de las
frecuencias acumuladas y al dato nominal que le corresponda, es la mediana.

La mediana se simboliza con las letras: Mdn


mediana se obtiene buscando en la columna de frecuencias acumuladas el valor que est
situado exactamente a la mitad. Si los datos recolectados son numero impar, algn valor
real existente de la tabla coincide con la mediana; pero si son numero par, la mediana se
toma como la media de aquellos dos que fluctan a la mitad.

Ejemplo 1: localizar la mediana del conjunto de calificaciones mostrado en la siguiente
tabla.
x f fa
0 1 1
1 1 2
2 3 5
3 5 10
4 6 16
5 7 23
6 11 34
7 15 49
8 25 74
9 20 94
10 23 117
117

50

SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas. La
mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales, es
de 117. Es decir, la tabla corresponde a las calificaciones de 177 alumnos.

El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 117 y dividindolo entre dos, es decir,

f
c
= 1 + 117 / 2 = 59

Que significa que el dato ordinal 59 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta la calificacin 7, contadas desde
el principio, van apenas 49 alumnos, mientras que hasta la calificacin 8 ya van 74. Esto
significa que dentro de la calificacin 8 est el alumno nmero 59, que es el central. Por lo
tanto, la mediana es Mdn = 8.

Dicho de otra forma: cuando se fueron ordenando una por una las calificaciones, al contar
el ltimo siete se llevaban en ese momento 49 calificaciones ordenadas. Al continuar, el
50 (quincuagsimo) dato o calificacin fue de valor 8; el 51 (quincuagsimo primer) dato
fue tambin de valor 8; el 52 (quincuagsimo segundo) dato o calificacin fue tambin de
valor 8, y as sucesivamente hasta el 74 (septuagsimo cuarto), o sea 25 ms (que es la
frecuencia del dato nominal x = 8) Eso significa que el 59 (quincuagsimo noveno) dato
correspondi al valor nominal x = 8.

El error ms comn que se comete a la hora de intentar localizar la mediana es buscar el
dato nominal x central en vez del dato ordinal, o sea, el error consiste en buscar en la
columna de los datos nominales x el que est a la mitad y eso no es. En el ejemplo anterior,
el dato nominal x central es el 5 y se no es la mediana.

Ejemplo 2: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.

x f fa
500 10 10
525 10 20
550 13 33
600 12 45
700 11 56
750 7 63
800 7 70
900 5 75
950 5 80
1000 3 83
1200 2 85
1250 2 87

51
1350 1 88
1400 1 89
89

SOLUCIN: la tabla anterior es la tabla original a la que ya se le aadi la columna de
frecuencias acumuladas.

La mxima frecuencia acumulada, que es lo mismo que el nmero total de datos nominales,
es de 89. Es decir, la tabla corresponde a 89 datos recolectados.

El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al 89 y dividindolo entre dos, es decir,
f
c
= 1 + 89 / 2 = 45
que significa que el dato ordinal 45 es el que esta situado a la mitad de todos, o sea, hay 44
antes y 44 despus de l. Observando la columna de las frecuencias acumuladas se ve que
hasta el dato nominal x = 600, contados desde el principio, van 45 datos recolectados. Esto
significa que de los 12 datos nominales x = 600, justamente el ultimo de ellos ocupa el
orden 45, que es el central. Por lo tanto, la mediana es Mdn = 600.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos nominales, al
contar el ultimo correspondiente al valor x = 550, se llevaban hasta all 33 datos
recolectados. Al continuar, el 34 (trigsimo cuarto) dato fue de valor x = 600, el 35
(trigsimo quinto) dato fue de valor x = 600, el 36 (trigsimo sexto) dato fue de valor x =
600, y as sucesivamente hasta el 45 (cuadragsimo quinto), o sea 12 ms (que es la
frecuencia del dato nominal x = 600) Eso significa que el 45 (cuadragsimo quinto) dato
correspondi al valor nominal x = 600.

Obsrvese que la mediana Mdn = 600 no es el que est situado a la mitad de la columna de
los datos nominales x.

Ejemplo 3: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.

x f fa
45 100 100
46 106 206
47 63 269
48 112 381
49 81 462
50 70 532
51 27 559
52 5 564
58 10 574
574


52

SOLUCIN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x y f.


sumando 1 al 574 y dividindolo entre dos, es decir,

f
c
= 1 + 574 / 2 = 287.5

que significa que tanto el dato ordinal 287 como el 288 son los que estn situados a la
mitad de todos. Observando la columna de las frecuencias acumuladas se ve que dentro del
conjunto de 112 datos recolectados con valor nominal x = 48, estn los que ocupan el orden
287 y 288, de manera que en este caso no hay conflicto para determinar la mediana y sta
es Mdn = 48.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo dato nominal con valor x = 47, se llevaban en ese momento 269 datos
recolectados ordenados. Al continuar, el 270 (bicentsimo septuagsimo) dato fue de valor
48; el 271 (bicentsimo septuagsimo primer) dato fue tambin de valor 48; el 272
(bicentsimo septuagsimo segundo) dato fue tambin de valor 48, y as sucesivamente
hasta 112 ms (que es la frecuencia del dato nominal x = 48) Eso significa que el 287
(bicentsimo octagsimo sptimo) dato, lo mismo que el 288 (bicentsimo octagsimo
octavo), correspondieron al valor nominal x = 48.

Obsrvese que la mediana Mdn = 48 no es el que est situado a la mitad de la columna de

Ejemplo 4: las edades de un grupo de 28 personas van de los 45 a los 58 aos. Localizar la
mediana de dicho conjunto de datos, mostrado ya organizado en la siguiente tabla.

Edad x f fa
45 2 2
46 1 3
47 3 6
48 3 9
49 5 14
50 6 20
51 2 22
52 4 26
58 2 28
28

53

SOLUCIN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x (edades) y f. este es un ejemplo para ilustrar el caso de conflicto para localizar
la mediana.


sumando 1 al numero total de datos 28 y dividindolo entre dos, es decir,

f
c
= 1 + 28 / 2 = 14.5

que significa que tanto el dato ordinal 14 como el 15 son los que estn situados a la mitad
de todos, ya que debe comprenderse que no existen datos ordinales fraccionarios, sino
solamente enteros, o sea, existe el 1er dato, el 2 dato, el 3er dato, el 8 dato, el 19 dato,
etc., pero no puede existir el 14.5 (el dcimo cuarto punto cinco) dato, si acaso el 14
(dcimo cuarto) exactamente.

Observando la columna de las frecuencias acumuladas se ve que el 14 dato fue el ultimo
correspondiente al dato nominal x = 49, mientras que el 15 dato es el primero que
corresponde al dato nominal x = 50, por lo que se entra en el conflicto de cul de los dos ha
de ser la mediana. En casos as, la media de ambos se toma como la mediana, es decir, la
mediana es Mdn = 49.5.

CUESTIONARIO 13

1. Qu es la mediana?
2. Cmo se simboliza la mediana?
3. Cuntas y cules columnas deben agregarse a la tabla original para localizar la
mediana en una distribucin de datos sin agrupar?
4. Cul es la confusin o error ms frecuente que se tiene al intentar localizar una
mediana?
5. Puede haber ms de una mediana en una distribucin de frecuencias, as como
puede tener dos o ms modas? Explicar por qu.
6. Localizar la mediana de los datos organizados en las tablas obtenidas en el


54

2) FRECUENCIAS POR INTERVALOS O AGRUPADAS:

intervalos, la mediana podra considerarse el punto medio del intervalo en donde se localiza
el valor central de todas las frecuencias; sin embargo, se acostumbra ms bien localizar con
exactitud un punto dentro de ese intervalo que sea el ms representativo, por lo que la
mediana se obtiene por medio de una formula.

Para utilizar la formula mencionada debe aadirse primero a la tabla una columna de
frecuencias acumuladas.

Se le llama clase de la mediana al intervalo en donde se encuentra la mediana. Clase o
intervalo es lo mismo. El resultado que se obtiene con la formula es una valor que se
encuentra dentro de la clase de la mediana.

La formula correspondiente es

Mdn = L + (n/2 - f
a
/

f) i

En donde:
Mdn = mediana
L = limite inferior de la clase (o intervalo) de la mediana
n = numero total de datos
f
a =
frecuencia acumulada en la clase (intervalo)

inmediata inferior a la clase (intervalo) de
la mediana
f = frecuencia de la clase de la mediana
i = diferencia entre los limites de la clase (intervalo) de la mediana

Para localizar el intervalo de la mediana se procede igual que para datos no agrupados.

Ejemplo 1: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.

I ntervalo x f fa
0 30 1 1
31 60 1 2
61 90 3 5
91 120 5 10
121 150 6 16
151 180 7 23
181 210 11 34
211 240 15 49
49

55

SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas.

es de 49.


f
c
= 1 + 49 / 2 = 25

que significa que el dato ordinal 25 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 151 180, contadas
desde el principio, van apenas 23 datos ordenados, mientras que hasta el intervalo 181
210 ya van 34. Esto significa que dentro del intervalo 181 210 est el dato ordinal numero
25, que es el central. Por lo tanto, la clase de la mediana es 181 210.

contar el ultimo del intervalo 151 -180 se llevaban en ese momento 23 datos ordenados. Al
continuar, el 24 (vigsimo cuarto) dato fue ya del intervalo 181 210; el 25 (vigsimo
quinto) dato fue tambin de la clase 181 210, y as sucesivamente hasta el 34 (trigsimo
cuarto), o sea 11 ms (que es la frecuencia del intervalo) Eso significa que el 25 (vigsimo
quinto) dato correspondi al intervalo 181 210.

As que se tienen los siguientes datos para ser sustituidos en la formula:

L = 181
n = 49
fa = 23
f = 11
i = 210 180 = 30

de modo que
Mdn = 181 + (49/2 - 23 /

11) 30
Mdn = 181 + (0.13636)30
Mdn = 185.09

Obsrvese que, como se dijo antes, el valor de la mediana est adentro del intervalo de la
clase de la mediana, es decir, adentro de 181 210. Lo contrario sera una contradiccin,
pues si se afirma que el intervalo (la clase) de la mediana es 181 210, precisamente dentro
de ese intervalo debe estar la mediana.

Ejemplo 2: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.

56

I ntervalo x f fa
5 13 16 16
14 22 11 27
23 31 30 57
32 40 5 62
41 49 2 64
50 58 7 71
59 67 1 72
68 76 3 75
75

SOLUCIN: a la tabla original ya se le aadi la columna de frecuencias acumuladas.

es de 75.


f
c
= 1 + 75 / 2 = 38

que significa que el dato ordinal 38 es el que est situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 14 - 22, contadas
desde el principio, van apenas 27 datos ordenados, mientras que hasta el intervalo 23 31
ya van 57. Esto significa que dentro del intervalo 23 31 est el dato ordinal numero 38,
que es el central. Por lo tanto, la clase de la mediana es 23 31.

contar el ultimo del intervalo 14 22 se llevaban en ese momento 27 datos ordenados. Al
continuar, el 28 (vigsimo octavo) dato fue ya del intervalo 23 31; el 29 (vigsimo
noveno) dato fue tambin del mismo intervalo 23 31, y as sucesivamente hasta el 57
(quincuagsimo sptimo), o sea 30 ms (que es la frecuencia del intervalo) Eso significa
que el 38 (trigsimo octavo) dato correspondi al intervalo 23 31.

As que para calcular la mediana, se tienen los siguientes datos para ser sustituidos en la
formula:

L = 23
n = 75
fa = 27
f = 30
i = 31 23 = 8


57
de modo que
Mdn = 23 + (75/2 - 27 /

30) 8
Mdn = 23 + (0.35)8
Mdn = 25.8

Obsrvese que, como se dijo antes, el valor de la mediana est adentro del intervalo de la
clase de la mediana, es decir, adentro de 23 - 31. Lo contrario sera una contradiccin, pues
si se afirma que el intervalo (la clase) de la mediana es 23 - 31, precisamente dentro de ese
intervalo debe estar la mediana.

CUESTIONARIO 14

1. Cuntas y cules columnas deben agregarse a la tabla original para localizar la
mediana en una distribucin de datos agrupados?
2. Localizar la mediana de los datos organizados en las tablas obtenidas en el

INTERPRETACION Y UTILIZACION

Tres cosas son las importantes respecto de las medidas de tendencia central: Primero,
saberlas obtener; segundo, saberlas interpretar; y tercero, saberlas utilizar. Quedan entonces
pendientes hasta este momento las dos ltimas.

Para la interpretacin de cada una de las tres medidas de tendencia central debe suponerse
que se graficaron todos los valores nominales (eje de las x) contra sus frecuencias (eje de
las y) hasta obtener su curva correspondiente. Mientras mayor sea el nmero de datos
recolectados, mayor ser la precisin.
a) La media es un punto de equilibrio, algo as como un centro de gravedad.
b) La mediana tiene la caracterstica de dividir el rea bajo la curva en dos partes
iguales.
c) La moda es la abscisa (la x) correspondiente a la mayor ordenada (la y), o sea,
seala el pico ms alto de la curva.

La siguiente grfica muestra cada uno de estos casos:
Figura 22

La media: centro de gravedad

58

A1 A2

La mediana. A1 = A2

La moda: el pico ms alto

Un caso especial es aquel en el que la media, la mediana y la moda coinciden en el centro
en una misma lnea, lo cual da una grfica llamada curva normal. Tiene la caracterstica
de ser simtrica respecto de esa lnea comn. La figura 23 muestra tal caso.

La curva normal es de mucha utilidad y ms adelante se estudiar en forma ms detallada.
Figura 23

A1 A2

Media = mediana = moda
A1 = A2

Puede hacerse una similitud entre las tres medidas de tendencia central con algunas lneas
principales de los tringulos: la altura y la mediana. Recordando:

La altura es la perpendicular levantada desde uno de sus lados (o su prolongacin) y que
pasa por el vrtice opuesto. Tiene la caracterstica de que seala el punto ms elevado del
triangulo. Puede compararse con la moda.


59

La mediana es la lnea que va del punto central de un lado al vrtice opuesto. Tiene la
caracterstica de que divide en dos reas iguales al triangulo. Puede compararse con la
mediana de las medidas de tendencia central.

Un caso tambin especial en los tringulos es el del issceles, en el cual la altura, la
mediana y la mediatriz forman una sola lnea. Podra compararse con la curva normal.

Figura 24

punto
medio

A1 A2

mediana
A1 = A2

La utilizacin de cada una de las tres medidas de tendencia central est en funcin de la
forma en que se distribuyan los datos y de lo que se desee obtener. En este curso no es
posible detallar al respecto, pero con un ejemplo el alumno podr intuir bastante sobre la
manera de utilizarlos.

Por ejemplo, el lder de los trabajadores de una fbrica sostiene que deben elevarles los
salarios, ya que ganan muy poco, mientras que el patrn alega que no es cierto, ya que
ganan en promedio $197.27 diarios ($5 918.18 al mes). La siguiente tabla muestra los
salarios de cada trabajador. Quin tiene la razn?

punto ms
alto

altura


60

TRABAJ ADOR SUELDO (diario)
Jorge Mndez $950.00
Arturo Gil 850.00
Emmanuel Ruiz 60.00
Luis Corts 50.00
Ren Cordoba 50.00
Juan Estrada 40.00
Jos Aburto 40.00
Luis Soto 40.00
Jorge Fallh 30.00
Sandra Paz 30.00
Elena Ruiz 30.00
PROMEDI O $197.27

El patrn tiene razn en cuanto a que el promedio de sus salarios es de $197.27, solamente
que la medida de tendencia central utilizada no es la adecuada en este caso, pues existe una
gran dispersin en el extremo superior, ya que mientras los dos primeros ganan cerca de mil
pesos diarios, los dems estn por debajo de los $61.00.

La mediana en este caso seria posiblemente la medida de tendencia central ms equilibrada,
o sea el dato ordinal central que corresponde a $40.00.


61
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Medidas de dispersin
El rango
La desviacin media
La desviacin media, frecuencias simples
Cuestionario 15
La desviacin media, frecuencias por intervalos
Cuestionario 16
La desviacin estndar
La desviacin estndar, frecuencias simples
Cuestionario 17
La desviacin estndar, frecuencias por intervalos
Cuestionario 18


62

5

MEDIDAS DE DISPERSIN

En el capitulo anterior se estudiaron las medidas de tendencia central, que son un indicador
de cmo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo,
para una informacin completa de dicho conjunto de datos hace falta saber el
comportamiento opuesto, es decir, de qu manera se dispersan o se alejan algunos datos de
esa parte central.

Por ejemplo, al tomar las temperaturas en una regin A durante diferentes pocas del ao
y a distintas horas del da, se registraron los datos que se muestran en la columna A; por
su parte, las de otra regin diferente B, son las de la columna B.

Al obtener la media, en ambos casos result que la temperatura promedio fue de 20.687,
cuya interpretacin podra ser que en torno, alrededor o cerca de 20.687 fluctan los
dems valores.

A B
19.3 -3
20 0
20.2 6
20.4 22
21 31.5
21.3 34
21.3 36
22 39
20.687 20.687

Como puede verse, eso es bastante aproximado para los datos de la columna A, no as
para los de la B. los datos ms alejados en A son 19.3 y 22, que realmente estn
prximos a 20.687; en cambio, los datos mas alejados en B son -3 y 39, que estn muy
distantes del promedio.

Por qu si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los
valores que estn a su alrededor? La respuesta est en que no se ha tomado en cuenta la
dispersin, es decir, la manera en que se disgregan los datos respecto de la media, pues en
A casi no se dispersan mientras que en B si. Cabra decir que el conjunto de datos A
es bastante compacto mientras que el B es muy dilatado.

Las principales medidas de dispersin son tres: el rango, la desviacin media y la
desviacin estndar. De manera semejante a las medidas de tendencia central, las medidas

63
de dispersin deben considerarse en sus dos opciones: cuando no estn agrupados los datos
y cuando estn por intervalos.

EL RANGO

El rango es la diferencia entre los datos mayor y menor del conjunto. Tambin se le suele
llamar recorrido.

En un conjunto de datos, mientras mayor sea el rango, mayor ser su dispersin y, a la
inversa, mientras menor sea su rango, menor su dispersin. Dicho de otra forma; mientras
mayor sea el rango, mayor espacio tendrn los datos para dispersarse, o mientras menor
sea el rango, ms estrechos estarn.

En los casos de las temperaturas del ejemplo anterior, el rango de A es R = 22 19.3, es
decir, R = 2.7; en cambio, el de B es B = 39 (-3), es decir, R = 42.

LA DESVIACIN MEDIA
_
Dado un conjunto de datos cuya media aritmtica o promedio es X, la diferencia o la
distancia de cada valor nominal x a la media aritmtica se llama desviacin del dato x con
respecto a la media. Es decir, es una medicin de cuanto se alej cada valor nominal x de la
media.

Por ejemplo, de los datos mostrados en la tabla siguiente, en donde x = dato nominal y d =
desviacin de la media, la media aritmtica es:

x d
50 50 75 = -25
60 60 75 = -15
70 70 75 = -5
80 80 75 = 5
90 90 75 = 15
100 100 75 = 25
x = 450

_
X = x / n
_
X = 450 / 6 = 75
_
X = 75


64

Entonces
_
La desviacin del dato x = 50 con respecto de la media X es d = 50 75 = -25
_
_
_
La desviacin del dato x = 80 con respecto de la media X es d = 80 75 = 5
_
_
_
Resulta obvio que siendo la media aritmtica X el punto central de todos los valores de los
datos x, existan simtricamente valores positivos y negativos, o lo que es lo mismo, la suma
de todas las desviaciones a la media siempre es cero. Para evitar lo anterior, dicha suma se
toma como valor absoluto, esto es:
_
La desviacin del dato x = 50 con respecto de la media X es d = |50 75| = 25
_
_
_
_
_

1) FRECUENCIAS SIMPLES

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, es
decir, sin agrupar, la desviacin media DM se calcula por medio de la formula:
_
DM = f |x X| / n

Al conjunto de datos deben aadirse a la tabla original tres columnas: la primera
encabezada con fx, que servir para calcular la media aritmtica; la segunda encabezada con
_ _
|x X|, que servir para obtener la tercera, y la tercera con f |x X|, que servir para obtener
el numerador de la formula luego de realizar la sumatoria.

65
Ejemplo 1: obtener la desviacin media DM del conjunto de datos mostrado en la siguiente
tabla.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28

SOLUCIN: la tabla es la original a la que deben agregrsele tres columnas:
a) La primera agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo valor nominal x. al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica
_
X = fx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con |x X|, que representa el valor absoluto de la
resta de cada valor nominal menos la media obtenida en el paso anterior, y
_
c) La tercera agregada se encabeza con f |x X|, que representa la multiplicacin de
cada frecuencia f (2 columna) por el valor absoluto correspondiente obtenido en la 4
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria f |x X|.
La tabla, con esas columnas agregadas, queda as:
x f fx
_
|x X|
_
f |x X|
45 2 90 4.7142 9.4285
46 1 46 3.7142 3.7142
47 3 141 2.7142 8.1428
48 3 144 1.7142 5.1428
49 5 245 0.7142 3.5714
50 6 300 0.2857 1.7142
51 2 102 1.2857 2.5714
52 4 208 2.2857 9.1428
58 2 116 8.2857 16.5714
f =28 = 1392 f |x X| =
59.9995

66

Se tiene con esta tabla toda la informacin requerida para utilizar la formula de la
desviacin media
_
DM = f |x X| / n
DM = 59.999 / 28 = 2.142

Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 2.142.

CUESTIONARIO 15

1. Qu son las medidas de dispersin?
2. Cuntas y cules son las principales medidas de dispersin?
3. Qu es el rango?
4. Qu es la desviacin media?
5. Cuntas y cules columnas se deben agregar a la tabla original para calcular la
desviacin media, cuando se organizan los datos sin intervalos?
6. Obtener la desviacin media de los datos organizados en el cuestionario 2,
problemas 14 a 21.


Cuando los datos han sido organizados en clases o intervalos, la desviacin media se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula
aplicada a la organizacin de frecuencias simples, solamente que x debe ser el punto
medio del intervalo.

Esto significa que al conjunto de datos original deben aadirse a la tabla ahora cuatro
columnas: la primera encabezada con x para sealar el punto medio de cada intervalo; la
segunda encabezada con fx; que servir para calcular la media aritmtica; la tercera
_ _
encabezada con |x X|, que servir para obtener la cuarta, y la cuarta con f |x X|, que
servir para obtener el numerador de la formula luego de realizar su sumatoria.

Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se
muestran en la siguiente tabla. Obtener la desviacin media DM.


67

I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100


a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria , para calcular la media aritmtica

_
X = fx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con |x X|, que representa el valor absoluto de la
resta de cada punto medio del intervalo menos la media obtenida en el paso anterior.
As:
_
Primera fila: |x X| = |6.5 24.86| = 18.36
_
Segunda fila: |x X| = |12.5 24.86| = 12.36
_
Tercera fila: |x X| = |18.5 24.86| = 6.36
_
Cuarta fila: |x X| = |24.5 24.86| = 0.36
_
Quinta fila: |x X| = |30.5 24.86| = 5.64
_
Sexta fila: |x X| = |36.5 24.86| = 11.64
_
Septima fila: |x X| = |42.5 24.86| = 17.64
_
d) La cuarta agregada se encabeza con f |x X|, que representa la multiplicacin de cada
frecuencia f (2 columna) por el valor absoluto correspondiente obtenido en la 5


68
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria f |x X|.

I ntervalo
_
|x X|
_
f |x X|
4 9 12 6.5 78 18.36 220.32
10 15 11 12.5 137.5 12.36 135.96
16 21 13 18.5 240.5 6.36 82.68
22 27 19 24.5 465.5 0.36 6.84
28 33 21 30.5 640.5 5.64 118.44
34 39 16 36.5 584 11.64 186.24
40 45 8 42.5 340 17.64 141.12
100 fx = 2486
_
f |x X| =
891.6

desviacin media
_
DM = f |x X| / n
DM = 891.6 / 100 = 8.916

Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 8.916.

CUESTIONARIO 16

1. Cuntas y cules columnas se deben agregar a la tabla original para calcular
la desviacin media cuando se organizan los datos por intervalos?
2. Obtener la desviacin media de los datos organizados en el cuestionario 3,
problemas 8 a 23.

LA DESVIACION ESTANDAR

La tercera medida de dispersin se llama desviacin estndar, porque con ella se pueden
estandarizar en todos los casos, todas las desviaciones de datos recolectados, como se ver
ms adelante.

La desviacin estndar se simboliza con la letra s.


69
_
Aqu el truco para quitar los valores negativos de la resta de x X es elevar al cuadrado y
luego regresar con una raz cuadrada.

1) FRECUENCIAS SIMPLES

Cuando los datos estn ordenados en una distribucin de frecuencias simples, la desviacin
estndar se calcula mediante la formula
_
s = (x X)
2

n

en donde:
s = desviacin estndar
f = frecuencia
x = valor nominal
_
X = media aritmtica

Significa que a la tabla original hay que agregarle cuatro columnas, aunque la tercera es
opcional. La primera encabezada con fx, servir para calcular la media aritmtica. La
segunda encabezada con (x X). La tercera con los cuadrados de la anterior, es decir con
_ _
(x X)
2
. Y la cuarta con el producto de la frecuencia f por la anterior, o sea f(x X)
2
.

Ejemplo 1: obtener la desviacin estndar s del conjunto de datos mostrado en la siguiente
tabla.

Nota: por ser el mismo ejemplo que el utilizado para la desviacin media, una vez resuelto
este ejemplo comprense ambos resultados.

Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28

SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas:

70

frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica:
_
X = fx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con (x X), que representa la resta de cada valor
nominal menos la media obtenida en el paso anterior. Esta columna es opcional, pues
directamente se puede elevar al cuadrado y el respectivo valor vaciarlo en la columna
que se especifica en el siguiente inciso; de la siguiente forma:
_
Primera fila: x X = 45 49.7142 = -4.7142
_
Segunda fila: x X = 46 49.7142 = -3.7142
_
Tercera fila: x X = 47 49.7142 = -2.7142
_
Cuarta fila: x X = 48 49.7142 = -1.7142
_
Quinta fila: x X = 49 49.7142 = -0.7142
_
Sexta fila: x X = 50 49.7142 = 0.2857
_
Sptima fila: x X = 51 49.7142 = 1.2857
_
Octava fila: x X = 52 49.7142 = 2.2857
_
Novena fila: x X = 58 49.7142 = 8.2857

c) La tercera agregada, o segunda en caso de haber omitido la anterior, se encabeza con
_
(x X)
2
, que representa el cuadrado de cada valor obtenido en la columna anterior;
_
Primera fila: (x X)
2
= (-4.7142)
2
= 22.2236
_
Segunda fila: (x X)
2
= (-3.7142)
2
= 13.7952
_
Tercera fila: (x X)
2
= (-2.7142)
2
= 7.3668
_
Cuarta fila: (x X)
2
= (-1.7142)
2
= 2.9384
_
Quinta fila: (x X)
2
= (-0.7142)
2
= 0.5100


71
_
Sexta fila: (x X)
2
= (0.2857)
2
= 0.0816
_
Septima fila: (x X)
2
= (1.2857)
2
= 1.6530
_
Octava fila: (x X)
2
= (2.2857)
2
= 5.2244
_
Novena fila: (x X)
2
= (8.2857)
2
= 68.6528

d) La cuarta columna agregada o tercera si se omiti la opcional, se encabeza con
_
f (x X)
2
, que representa el producto de cada frecuencia f por su correspondiente
cuadrado obtenido en la columna anterior.


_
(x X)
2

_
f (x X)
2

45 2 90 22.2236 44.4472
46 1 46 13.7952 13.7952
47 3 141 7.3668 22.1004
48 3 144 2.9384 8.8152
49 5 245 0.5100 2.55
50 6 300 0.0816 0.4896
51 2 102 1.6530 3.306
52 4 208 5.2244 20.8976
58 2 116 68.6528 137.3056
f = 28 fx = 1392
_
f (x X)
2 =
253.7068

desviacin estndar
_
s = (x X)
2

n

s = 253.7068
28

s = 3.0101


72

Otra formula para calcular la desviacin estndar que lleva exactamente al mismo resultado
es la siguiente:

_
s = x
2 _
X
2

n

lo que implica agregar solamente tres columnas a la tabla original, la primera encabezada
con fx para obtener la media, igual que en el caso anterior; la segunda encabezada con x
2
y
la otra con el producto fx
2
, por lo que suele resultar menos laborioso el calculo de la
desviacin estndar con esta formula que con la anterior.

Ejemplo 2: obtener la desviacin estndar s del conjunto de datos mostrado en la siguiente
tabla.

Nota: la tabla es la misma que se utiliz para el ejemplo 1, con el objeto de comparar
resultados.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28


frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria , para calcular la media aritmtica:
_
X = fx / n = 1392/28 = 49.7142

b) La segundo columna agregada se encabeza con x
2
que representa el correspondiente
valor al cuadrado de cada dato nominal;

Primera fila: x
2
= 45
2
= 2025
Segunda fila: x
2
= 46
2
= 2116
Tercera fila: x
2
= 47
2
= 2209

73

Cuarta fila: x
2
= 48
2
= 2304
Quinta fila: x
2
= 49
2
= 2401
Sexta fila: x
2
= 50
2
= 2500
Septima fila: x
2
= 51
2
= 2601
Octava fila: x
2
= 52
2
= 2704
Novena fila: x
2
= 58
2
= 3364

c) La tercera agregada se encabeza con fx
2
, que representa el producto de cada
frecuencia por el valor obtenido en la columna anterior;

Primera fila: fx
2
= (2)(2025) = 4050
Segunda fila: fx
2
= (1)(2116) = 2116
Tercera fila: fx
2
= (3)(2209) = 6627
Cuarta fila: fx
2
= (3)(2304) = 6912
Quinta fila: fx
2
= (5)(2401) = 12005
Sexta fila: fx
2
= (6)(2500) = 15000
Septima fila: fx
2
= (2)(2601) = 5202
Octava fila: fx
2
= (4)(2704) = 10816
Novena fila: fx
2
= (2)(3364) = 6728


x
2
fx
2

45 2 90 2025 4050
46 1 46 2116 2116
47 3 141 2209 6627
48 3 144 2304 6912
49 5 245 2401 12005
50 6 300 2500 15000
51 2 102 2601 5202
52 4 208 2704 10816
58 2 116 3364 6728
f =28 fx =1392 fx
2
=69456

Se tiene con esta tabla toda la informacin requerida para utilizar la segunda formula de la
desviacin estndar.

_
s = x
2 _
X
2

n


74

s = 69456
_
49.7142
2

28

s = 3.0101

Que es el mismo resultado del ejemplo 1, tal y como era de esperarse.

CUESTIONARIO 17

desviacin estndar cuando se organizan los datos por frecuencias simples y se
emplea la formula
_
s = (x X)
2

n

desviacin estndar cuando se organizan los datos por frecuencias simples y se
emplea la formula

_
s = x
2 _
X
2

n

3. Obtener la desviacin estndar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la primera formula.
4. Obtener la desviacin estndar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la segunda formula.


Cuando los datos han sido organizados en clases o intervalos, la desviacin estndar se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula aplicada
a la organizacin de frecuencias simples, solamente que x debe ser el punto medio del
intervalo.

De tal manera que pueden emplearse, cuando la organizacin sea por intervalos,
cualesquiera de las dos formulas vistas para la desviacin estndar en frecuencias simples,
motivo por el cual solamente se pondr un ejemplo, pues debe suponerse que a estas alturas

75

del curso el alumno ya est familiarizado con este tipo de procesos, es decir, cuando los
datos se organizan por frecuencias simples y cuando se hace por intervalos, en los que se
emplea la misma formula, pero dando un significado diferente a la x en cada caso: en uno
es el valor nominal, en el otro es el punto medio.

Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviacin estndar.

Nota: este ejemplo es el mismo que se utiliz para calcular la desviacin media, por lo que
conviene al final comparar los resultados.

I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100

SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas:

a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicacin de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria , para calcular la media aritmtica

_
X = fx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con x X, que representa la resta de cada punto
medio del intervalo menos la media obtenida en el paso anterior. Aunque debe
recordarse que esta columna es opcional si el estudiante puede sin equivocarse obtener
directamente sus cuadrados:
_
d) La cuarta agregada se encabeza con (x X)
2
, que representan los cuadrados de cada
resta obtenidos en la columna anterior.


76
_
e) La quinta columna agregada se encabeza con (x X)
2
en donde se vaciarn los
resultados de cada producto de la frecuencia por el respectivo valor de la columna
anterior.


Intervalo
_
(x X)
2

_
f (x X)
2

4 9 12 6.5 78 337.0896 4045.0752
10 15 11 12.5 137.5 152.7697 1680.4656
16 21 13 18.5 240.5 40.4496 525.8448
22 27 19 24.5 465.5 0.1296 2.4624
28 33 21 30.5 640.5 31.8096 668.0016
34 39 16 36.5 584 135.4896 2167.8336
40 45 8 42.5 340 311.1696 2489.3568
100 f = 2486
_
f (x X)
2 =
11579.04

Sustituyendo en la formula de la desviacin estndar

_
s = (x X)
2

n

s = 11579.04
100

s = 10.7605

Otra formula para calcular la desviacin estndar cuando los datos han sido organizados
por intervalos, que lleva exactamente al mismo resultado es la siguiente:

_
s = x
2 _
X
2

n

donde, como se ha establecido en casos anteriores, x representa el punto medio del
intervalo.

Ejemplo 2: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviacin estndar con la segunda formula.

77

Nota: este ejemplo es el mismo que se utiliz para calcular la desviacin estndar por
intervalos, por lo que conviene al final comparar los resultados.

I ntervalo
4 9 12
10 15 11
16 21 13
22 27 19
28 33 21
34 39 16
40 45 8
100

SOLUCIN: la tabla es la original a la que deben agregrsele cuatro columnas: las dos
primeras son las mismas del ejemplo anterior hasta obtener la media.

c) La tercera columna agregada se encabeza con x
2
que representa el cuadrado de los
puntos medios de cada intervalo.
d) la cuarta columna agregada se encabeza con fx
2
, que representa el producto de la
frecuencia por el correspondiente cuadrado del punto medio.
I ntervalo x
2
fx
2

4 9 12 6.5 42.25 507
10 15 11 12.5 156.25 1718.75
16 21 13 18.5 342.25 4449.25
22 27 19 24.5 600.25 11404.75
28 33 21 30.5 930.25 19535.25
34 39 16 36.5 1332.25 21316
40 45 8 42.5 1806.25 14450
100 fx
2
=73381
Sustituyendo en la segunda formula de la desviacin estndar:

s = 73 381
_
(24.86)
2

100

s = 10.7605

CUESTIONARIO 18

1. Obtener la desviacin estandar de los datos organizados en el cuestionario 3,
problemas 8 a 23.

78
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Distribucin normal
Estandarizacin de datos
Cuestionario 19
Tabla de reas bajo la curva normal
Cuestionario 20
Porcentaje entre dos datos nominales
Cuestionario 21


79

6

DISTRIBUCIN NORMAL

En los captulos anteriores se estudiaron las medidas de tendencia central y las medidas de
dispersin, que son un indicador de cmo y cuanto se concentran los datos en torno a cierto
valor y de cmo y cunto se alejan del mismo.

Ya se mencion el caso especial de datos en que la media, la moda y la mediana coinciden
en el centro en una misma lnea, dando una grafica llamada curva normal, la cual es
simtrica respecto de esa lnea comn. Este capitulo se encargar de hacer un estudio de
esta curva, o lo que es lo mismo, de los datos recolectados que dan esa grafica.

Para comenzar aclarando la idea de esa lnea comn, supngase que se recolectaron los
datos mostrados en la siguiente tabla. Calcular su media, su moda y su mediana. Asimismo,
hacer su grafica.

6 1 6 1
7 2 14 3
8 3 24 6
9 5 45 11
10 9 90 20
11 15 165 35
12 18 216 53
13 15 195 68
14 9 126 77
15 5 75 82
16 3 48 85
17 2 34 87
18 1 18 88
88 1056

A) Para la media, utilizando la formula vista:

X = fx / n = 1056/88 = 12

B) Para la moda, conforme a lo visto, es el de mayor frecuencia, en este caso es
el valor nominal 12 que tiene frecuencia 18, o sea

Mo = 12


80
C) Para la mediana, conforme a lo visto, es el dato ordinal que se encuentra a la
mitad, el que se obtiene sumando uno al numero total de datos recolectados,
es decir
f
c
= 1 + 88 / 2 = 44.5

los datos ordinales 44 y 45 son los que estn al centro, pero ambos corresponden al valor
nominal 12, o sea que la mediana es
Mdn = 12
_
Obsrvese que se obtuvo que X = Mo = Mdn = 12.
Para graficar esos datos como se pidi en el enunciado, primeramente se hace una grafica
de barras y luego se unen sus puntos medios, a manera de polgono de frecuencias, como
lo muestra la figura 25.

6 7 8 9 10 11 12 13 14 15 16 17 18

Figura 25
La grfica se suaviza quitndole las lneas rectas que unen esos puntos medios de cada
barra y curvendola hasta que tome la forma de la figura 26.

0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18

Figura 26
Curva
normal

81

La figura 26 muestra lo que es una curva normal, que conforme a lo dicho al inicio de este
capitulo, es la que resulta de graficar una distribucin de datos tales que son simtricos y
que, por lo mismo, sus tres medidas de tendencia central coinciden en una misma. La
simetra no solamente se ve en la grafica, sino desde la tabla misma, pues a partir del dato
nominal central x = 12, las frecuencias hacia arriba y hacia debajo de ese dato avanzan en la
misma distancia o son las mismas.

La distribucin de datos que da origen a la curva normal se llama distribucin normal.

Una caracterstica muy importante de la curva normal es que a partir de su eje de simetra,
se puede dividir como lo muestra la figura 27, de tal manera que el valor igual a cero
corresponda siempre a la media aritmtica de la distribucin normal de datos, que el valor
de 1 corresponda siempre a un cierto valor de la distribucin normal, y as sucesivamente
hasta +3 y -3, aproximadamente.

Dicho de otra forma, en toda distribucin normal, los datos nominales se pueden
transformar a uno equivalente de la escala de -3 a +3 de la figura 26. por eso, a los datos
comprendidos en la escala de -3 a +3 se les llama dato estndar.

En esa escala estandarizada, el 1 representa una desviacin estndar, el 2 representa
dos desviaciones estndares, y as sucesivamente. El signo positivo solamente indica
que est a la derecha del cero y el signo negativo significa que est a la izquierda. Con los
ejemplos venideros se aclararn esos significados.

ESTANDARIZACIN DE DATOS

Por lo dicho en el prrafo anterior, los datos pertenecientes a una distribucin normal se
pueden estandarizar o normalizar, lo cual se consigue utilizando la formula:
_
z = x X / s
En donde:

-3 -2 -1 0 1 2 3

82

z = dato estandarizado o normalizado
x = valor nominal del dato a estandarizar
_
X = media aritmtica del conjunto de datos
s = desviacin estndar

Ejemplo 1: convertir cada uno de los datos nominales de la tabla de la pgina 79 a datos
estandarizados.

SOLUCIN: para transformar un dato nominal en dato estndar, tambin llamado dato
z, se requiere calcular la media de todo el conjunto. Para este caso ya se calcul en la
pgina 79, resultado que
_
X =12

Debe calcularse tambin la desviacin estndar, para lo cual a la tabla original hay que
agregarle las columnas que se muestran en la siguiente tabla:

x
2
fx
2

6 1 36 36
7 2 49 98
8 3 64 192
9 5 81 405
10 9 100 900
11 15 121 1815
12 18 144 2592
13 15 169 2535
14 9 196 1764
15 5 225 1125
16 3 256 768
17 2 289 578
18 1 324 324
88 13132

Entonces, utilizando la formula de la pgina 72

_
s = x
2 _
X
2

n


83

s = 13 132
_
12
2

88

s = 2.28632

Se tienen ya todos los datos para utilizar la formula del dato z:
_
z = x X / s
Los clculos para cada dato se muestran en la siguiente tabla:

Dato nominal x Sustituyendo Dato z
6 z = 6 12 / 2.28632 z = -2.62430
7 z = 7 12 / 2.28632 z = -2.18692
8 z = 8 12 / 2.28632 z = -1.74953
9 z = 9 12 / 2.28632 z = -1.31215
10 z = 10 12 / 2.28632 z = -0.87476
11 z = 11 12 / 2.28632 z = -0.43738
12 z = 12 12 / 2.28632 0
13 z = 13 12 / 2.28632 z = 0.43738
14 z = 14 12 / 2.28632 z = 0.87476
15 z = 15 12 / 2.28632 z = 1.31215
16 z = 16 12 / 2.28632 z = 1.74953
17 z = 17 12 / 2.28632 z = 2.18692
18 z = 18 12 / 2.28632 z = 2.62430

A partir de que la media aritmtica del conjunto es x = 12 y la desviacin estndar es s =
2.28632, el significado es el siguiente: un valor estandarizado z = 1 significa una distancia
de la media aritmtica igual a una desviacin estndar a la derecha, es decir una distancia
de 2.28632. Un valor estandarizado z = -2 significa una distancia de la media aritmtica
igual a dos desviaciones estndar a la izquierda, es decir, una distancia de 4.57264.

Ahora bien, si al dato nominal x = 6 le corresponde un dato estndar z = -2.62430, significa
que ese 6 se alej de la media, 2.62430 desviaciones estndares a la izquierda.

Si al dato nominal x = 13 le corresponde un dato estndar z = 0.43738, significa que ese 13
se alej de la media, 0.43738 desviaciones estndares a la derecha.

Si al dato nominal x = 17 le corresponde un dato estndar z = 2.18692, significa que ese 17
se alej de la media, 2.18692 desviaciones estndares a la izquierda. Y as con cada uno de

Grficamente:

84

Datos x

Datos z z = -2.6243 z = 1 z = 1 z = 1

2.28632 2.28632 2.28632

1 desviacin estndar
Figura 28

CUESTIONARIO 19

1. Qu es una curva normal?
2. Qu es una distribucin normal?
3. En los datos z, qu significa un valor de z = 1?
4. En una curva normal, el eje de simetra de la figura qu es o que representa?
5. En una curva normal, el eje de simetra qu valor estandarizado le
corresponde?
6. Si a un dato nominal le corresponde un dato estandarizado z = 1.2, qu
significa?
7. Convertir a datos estndar o dato z cada uno de los datos nominales de las
siguientes tablas con distribucin normal:

0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18
12 14.28632 16.5664 18.85896

85

a)

4 20
5 21
6 27
7 35
8 27
9 21
10 20

b)

9 1
11 3
13 8
15 10
17 8
19 3
21 1

c)

14 10
15 11
16 17
17 19
18 17
19 11
20 10

d)

2 100
4 300
6 800
8 900
10 800
12 300
14 100


86

e)

40 200
45 210
50 245
55 265
60 245
65 210
70 200
f)

39 10
40 13
41 16
42 20
43 16
44 13
45 10

TABLA DE AREAS BAJO LA CURVA NORMAL

En una curva normal, el rea bajo la curva desde el extremo izquierdo hasta la media, es
decir, hasta el eje de simetra, es del 50% y, obviamente, el otro 50% est en la parte
derecha.

Una caracterstica importante de la curva normal y de los datos normalizados es que el rea
bajo la curva desde la media hasta una desviacin estndar, es decir para z = 1, ya sea a la
izquierda o a la derecha, es del 34.13%. Ver parte superior de la figura 29.

De la misma forma, el rea bajo la curva desde la media hasta dos desviaciones estndar, es
decir para z = 2, ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la
figura 29.

A
34.13 %
Z= 1

87

Figura 29

Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes
de reas bajo la curva tambin lo son para dichos datos, es decir, para una desviacin
estndar, el porcentaje de datos entre la media y z = 1 es de 34.13%; para dos desviaciones
estndar el porcentaje de datos entre la media y z = 2 es de 47.72%.

Por lo tanto, es posible obtener el porcentaje de datos entre la media y cualquier valor
estandarizado, lo cual se ha concentrado en una tabla. La tabla de la siguiente pagina
expresa el porcentaje de rea correspondiente a cada valor z, medidos desde la media.

Esto ltimo es muy importante: debe tomarse en cuenta que los valores mostrados en la
tabla son siempre desde la media hasta el valor estandarizado z.

Resulta entonces muy simple obtener el porcentaje de datos y el numero de datos
comprendidos entre la media y un valor recolectado dado. El proceso es el siguiente:

a) Si el enunciado no lo proporciona, calcular la media aritmtica del conjunto de datos.

b) Si el enunciado no lo proporciona, calcular la desviacin estndar del conjunto de
datos.

c) Convertir a dato z el dato nominal.

d) Buscar en las tablas el porcentaje de rea que le corresponde a ese dato
estandarizado.

e) Calcular, con el porcentaje anterior y el numero total de datos recolectados, el
numero de datos comprendidos entre la media y ese valor nominal por una regla de tres
simple.

PORCENTAJES DE AREAS BAJO LA CURVA NORMAL
DESDE Z=0 HASTA Z = 3.99
A
47.72 %
Z= 2

88

Z 0 1 2 3 4 5 6 7 8 9
0.0 0 0.40 0.80 1.20 1.60 1.99 2.39 2.79 3.19 3.59
0.1 3.98 4.38 4.78 5.17 5.57 5.96 6.36 6.75 7.14 7.59
0.2 7.93 8.32 8.71 9.10 9.48 9.87 10.26 10.64 11.03 11.41
0.3 11.79 12.17 12.55 12.93 13.31 13.68 14.06 14.43 14.80 15.17
0.4 15.54 15.91 16.28 16.64 17.00 17.36 17.72 18.08 18.44 18.79

0.5 19.15 19.50 19.85 20.19 20.54 20.88 21.23 21.57 21.90 22.24
0.6 22.58 22.91 23.24 23.57 23.89 24.22 24.54 24.86 25.18 25.49
0.7 25.80 26.12 26.42 26.73 27.04 27.34 27.64 27.94 28.23 28.52
0.8 28.81 29.10 29.39 29.67 29.96 30.23 30.51 30.78 31.06 31.33
0.9 31.59 31.86 32.12 32.38 32.64 32.89 33.15 33.40 33.65 33.89

1.0 34.13 34.38 34.61 34.85 35.08 35.31 35.54 35.77 35.99 36.21
1.1 36.43 36.65 36.86 37.08 37.29 37.49 37.70 37.90 38.10 38.30
1.2 38.49 38.69 38.88 39.07 39.25 39.44 39.62 39.80 39.97 40.15
1.3 40.32 40.49 40.66 40.82 40.99 41.15 41.31 41.47 41.62 41.77
1.4 41.92 42.07 42.22 42.36 42.51 42.65 42.79 42.92 43.06 43.19

1.5 43.32 43.45 43.57 43.70 43.82 43.94 44.06 44.18 44.29 44.41
1.6 44.52 44.63 44.74 44.84 44.95 45.05 45.15 45.25 45.35 45.45
1.7 45.54 45.64 45.73 45.82 45.91 45.99 46.08 46.16 46.25 46.33
1.8 46.41 46.49 46.56 46.64 46.71 46.78 46.86 46.93 46.99 47.06
1.9 47.13 47.19 47.26 47.32 47.38 47.44 47.50 47.56 47.61 47.67

2.0 47.72 47.78 47.83 47.88 47.93 47.98 48.03 48.08 48.12 48.17
2.1 48.21 48.26 48.30 48.34 48.38 48.92 48.96 48.50 48.54 48.57
2.2 48.61 48.64 48.68 48.71 48.75 48.78 48.81 48.84 48.87 48.90
2.3 48.93 48.96 48.98 49.01 49.04 49.06 49.09 49.11 49.13 49.16
2.4 49.18 49.20 49.22 49.25 49.27 49.29 49.31 49.32 49.34 49.36

2.5 49.38 49.40 49.41 49.43 49.45 49.46 49.48 49.49 49.51 49.52
2.6 49.53 49.55 49.56 49.57 49.59 49.60 49.61 49.62 49.63 49.64
2.7 49.65 49.66 49.67 49.68 49.69 49.70 49.71 49.72 49.73 49.74
2.8 49.74 49.75 49.76 49.77 49.77 49.78 49.79 49.79 49.80 49.81
2.9 49.81 49.82 49.82 49.83 49.84 49.84 49.85 49.85 49.86 49.86

3.0 49.87 49.87 49.87 49.88 49.88 49.89 49.89 49.89 49.90 49.90
3.1 49.90 49.91 49.91 49.91 49.92 49.92 49.92 49.92 49.93 49.93
3.2 49.93 49.93 49.94 49.94 49.94 49.94 49.94 49.95 49.95 49.95
3.3 49.95 49.95 49.95 49.96 49.96 49.96 49.96 49.96 49.96 49.97
3.4 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.98

3.5 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98
3.6 49.98 49.98 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.7 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.8 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.9 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00


89
_
Ejemplo 1: al recolectar 250 datos, se obtuvo que la media es X = 7.65 y la desviacin
estndar s = 2.24. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 8.1.

SOLUCIN: en este caso el enunciado proporciona los valores de la media y de la
desviacin estndar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 8.1 con la
formula dada, o sea:
_
z = x X / s

z = 8.1 7.65 / 2.24 = 0.20

Figura 30

Se toman solamente dos decimales porque as vienen en las tablas. A continuacin,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z
= 0.20 y se localiza que le corresponde A = 7.93%; que significa que el porcentaje de rea
entre la media y el dato z = 0.20 es de 7.93%, pero como ese porcentaje tambin
corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres
el numero de datos nominales comprendidos en esa regin.

250 / 100% = n.d./ 7.93%

de donde el numero de datos n.d. es

n.d. = 250 x 7.93 / 100

n.d. = 19.825

El numero datos en forma calculada es n.d. = 19.825, pero ese valor carece de sentido, ya
que los datos recolectados siempre son nmeros enteros porque se recolectan 200 datos, o
A
7. 93 %
Dato estandarizado z Z = 0 z = 0..2
Dato nominal x x = 7.65 x = 8.1

90

220 datos, o 300 datos, pero jams 291.8 puesto que es imposible. Entonces entre la media
aritmtica y el dato z = 0.2008 no pueden haber 19.825 datos nominales, o hay 19 o hay 20,
pero no una fraccin de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que es igual, sino como aproximadamente. La solucin es
entonces.
_
SOLUCIN: hay aproximadamente 20 datos entre la media X = 7.65 y el dato nominal x
= 8.1.
_
Ejemplo 2: al recolectar 1200 datos, se obtuvo una media de X = 47.5 y una desviacin
estndar s = 6.4. Calcular el numero de datos aproximados que hay entre la media y el dato
nominal x = 55.

continuando con el inciso c), hay que convertir a dato z el valor nominal x = 55, con la
_
z = x X / s

z = 55 47.5 / 6.4 = 1.17

Figura 31

Se toman solamente dos decimales porque as vienen en las tablas. A continuacin,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z = 1.17 y se
localiza que le corresponde A = 37.90%, que significa que el porcentaje de area entre la
media y el dato z = 1.17 es de 37.90%, pero como ese porcentaje tambin corresponde a los
datos recolectados, entonces puede obtenerse por una simple regla de tres el numero de
datos nominales comprendidos en esa regin.

1200 / 100% = n.d./ 37.9%

A
37.9 %
Dato estandarizado z Z = 0 z = 1.17
Dato nominal x x = 47.5 x = 55

91

n.d. = 1200 x 37.90 / 100

n.d. = 454.8

que los datos recolectados siempre son nmeros enteros. De tal manera que entre la media
entonces
_
SOLUCIN: hay aproximadamente 455 datos entre la media X = 47.5 y el dato nominal x
= 55.
_
Ejemplo 3: al recolectar 850 datos, se obtuvo una media de X = 27 y una desviacin
estndar s = 5.34. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 20.

continuando con el inciso c), hay que convertir a dato z el valor nominal x = 20, con la
_
z = x X / s

z = 20 27 / 5.34 = -1.31

Figura 32

En este caso el valor de z es negativo, lo que significa que el dato nominal x = 20 est a la
izquierda de la media aritmtica, pero en las tablas se busca simplemente como z = 1.31
localizndose que le corresponde un rea de A = 40.49%; que significa que el porcentaje de
rea comprendido entre la media y el dato z = 1.31 es de 40.49%, pero como ese porcentaje
A
40.49 %
Dato nominal x x = 20 x = 27
Dato estandarizado z Z = -1.31 z = 0

92

corresponde tambin a los datos recolectados, entonces puede obtener por una simple regla
de tres el numero de datos nominales comprendidos en esa regin.

850 / 100% = n.d./ 40.49%


n.d. = 850 x 40.49 / 100

n.d. = 344.16

que los datos recolectados siempre son nmeros enteros. De tal manera que entre la media
entonces
_
SOLUCIN: hay aproximadamente 344 datos entre la media X = 27 y el dato nominal x =
20.

CUESTIONARIO 20

1. El rea bajo la curva normal a la izquierda de la media aritmtica. Qu
porcentaje de toda el rea representa?
2. Qu tiene que ver el rea bajo la curva normal con los datos recolectados?
3. Qu porcentaje de rea bajo la curva existe en toda curva normal desde la media
aritmtica hasta el dato estandarizado z = 1?
4. En las tablas, el porcentaje de rea que aparece para cada dato estandarizado,
desde donde hasta donde siempre es considerado?
5. Al recolectar 350 datos, se obtuvo una media de 20.7 y una desviacin estndar
de 7.84. Calcular el numero de datos que hay entre la media y el dato nominal x
= 30.
6. Al recolectar 1300 datos, se obtuvo una media de 420.15 y una desviacin
estndar de 4.4. Calcular el numero de datos que hay entre la media y el dato
nominal x = 426.
de 2.8. Calcular el numero de datos que hay entre la media y el dato nominal x =
3.3.
8. Al recolectar 1430 datos, se obtuvo una media de 120 y una desviacin estndar
de 6.6. Calcular el numero de datos que hay entre la media y el dato nominal x =
125.

93
de 7. Calcular el numero de datos que hay entre la media y el dato nominal x =
211.
10. Al recolectar 800 datos, se obtuvo una media de 99 y una desviacin
nominal x = 90.
11. Al recolectar 425 datos, se obtuvo una media de 80.725 y una desviacin
nominal x = 78.3.
nominal x = 115.

PORCENTAJE ENTRE DOS DATOS NOMINALES

En el tema anterior se estudi la forma de obtener el nmero de datos recolectados entre la
media aritmtica y un dato nominal establecido. Sin embargo, otro problema que puede
presentarse es como obtener el nmero de datos recolectados ya no a partir de la media,
sino entre dos datos nominales.

Hay dos opciones: la primera es que los datos estandarizados z1 y z2 se localicen uno a la
derecha y el otro a la izquierda de la media. La solucin a este nuevo problema es muy
simple, pues por una lgica muy elemental se puede deducir que el rea total es igual a la
suma del rea 1 ms el rea 2, como se ve en la figura 33.

A
z1 z 2

94

A = A1 + A2

Figura 33

En donde A1 es el rea desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el rea desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de reas o porcentajes de cada uno.

Otra opcin que puede presentarse es la que se muestra en la figura 34, consistente en que
ambos valores estandarizados z1 y z2 se encuentren del mismo lado respecto de la media,
en la que tambin por una lgica muy elemental puede deducirse que el rea total es
simplemente la resta del rea 1 menos el rea 2.

A
z1 z2
A2
z2
A1
z1

95

A = A1 + A2

Figura 34

En donde A1 es el rea desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el rea desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de reas o porcentajes de cada uno.

Ejemplo 1: al recolectar 500 datos, se obtuvo una media aritmtica de 55 y una desviacin
estndar de 8.80. Calcular el numero de datos aproximados que hay entre los datos
nominales x1 = 51 y x2 = 64.

SOLUCIN: convirtiendo a dato normalizado o estandarizado x1 = 51 y x2 = 64:
_
z = x X / s

z1 = 51 55 / 8.8 = -0.45

z2 = 64 55 / 8.8 = 1.02

Buscando en tablas se obtiene que para z1 = 0.45 le corresponde un porcentaje de rea de
A1 = 17.36% y para z2 = 1.02 le corresponde un porcentaje de rea de A2 = 34.61%
A2
z2
A1
z1

96

A1 + A2 = A

Figura 35

Como se ve en la figura 35, el porcentaje de rea total es la suma de A1 + A2, es decir A=
17.36% + 34.61% = 51.97%, porcentaje que tambin corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:

500 / 100% = n.d. / 51.97%

n.d. = 500 x 51.97 / 100

n.d. = 259.85

A= 51.97%
z1 z2
A2 =34.61%
z2 = 1.02
A1=17.36%
z1 = -0.45

97

que los datos recolectados siempre son nmeros enteros. De tal manera que entre el dato z
= -0.45 y el dato z = 1.02 no pueden haber 259.85 datos nominales, o hay 259 o hay 260,
entonces

SOLUCIN: hay aproximadamente 260 datos entre el dato nominal x = 51 y el dato
nominal x = 64.

Ejemplo 2: al recolectar 750 datos, se obtuvo una media aritmtica de 205 y una
desviacin estndar de 9.68. Calcular el numero de datos aproximados que hay entre los
datos nominales x1 = 213 y x2 = 230.

SOLUCIN: convirtiendo a dato normalizado o estandarizado x1 = 213 y x2 = 230:
_
z = x X / s

z1 = 213 205 / 9.68 = 0.82

z2 = 230 205 / 9.68 = 2.58

Buscando en tablas se obtiene que para z1 = 0.82 le corresponde un porcentaje de rea de
A1 = 29.32% y para z2 = 2.58 le corresponde un porcentaje de rea de A2 = 49.51%

Como se ve en la figura 36, el porcentaje de rea total es la resta de A2 A1, es decir A=
49.51% - 29.32% = 20.19%, porcentaje que tambin corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:

750 / 100% = n.d. / 20.19%

n.d. = 750 x 20.19 / 100

n.d. = 151.42

que los datos recolectados siempre son nmeros enteros. De tal manera que entre el dato z
= 0.82 y el dato z = 2.58 no pueden haber 151.42 datos nominales, o hay 151 o hay 152,
entonces


98

SOLUCIN: hay aproximadamente 151 datos entre el dato nominal x = 213 y el dato
nominal x = 230.

CUESTIONARIO 21

1. Al recolectar 450 datos, se obtuvo una media de 50 y una desviacin estndar de
17.4. Calcular el numero de datos que hay entre el dato nominal x1= 34 y el dato
nominal x2 = 61.
de 14. Calcular el numero de datos que hay entre el dato nominal x1= 387 y el
dato nominal x2 = 430.
de 17. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 230 y el dato nominal x2 = 259.
6. Al recolectar 807 datos, se obtuvo una media de 99 y una desviacin estndar de
5.42. Calcular el numero de datos aproximados que hay entre el dato nominal
de 21.8. Calcular el numero de datos aproximados que hay entre el dato nominal
estndar de 10. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 100 y el dato nominal x2 = 97.

99
0
1
2
3
4
5
6
7
1 2 3 4 5

INDICE PARTICULAR

Regresin lineal
Ecuacin de la recta
Formulas para m y para b
Cuestionario 22
Coeficiente de correlacin lineal
Cuestionario 23


100

7

REGRESIN LINEAL

En el capitulo anterior se estudiaron aquellos casos en los que los datos recolectados tienen
simetra, dando origen a la curva normal. Evidentemente que no todos los casos son
como sos, por lo que segn sus caractersticas se clasifican de distintas formas. En este
capitulo se estudiarn ahora aquellos otros datos que al graficarse, en vez de dar la curva
normal, dan una lnea recta.

El estudio consiste en tratar de encontrar con la mayor aproximacin la ecuacin de la recta
a la que ms se acercan todos los puntos para, a partir de ella, intentar deducir o inferir el
comportamiento de los que no aparecen en la tabla.

Ejemplo 1: se realiz una encuesta en una fbrica de pinturas para relacionar la cantidad de
cierto aditivo qumico agregado al colorante con el tiempo de secado, obtenindose los
resultados mostrados en la siguiente tabla.

Graficar esos resultados y sealar la recta que ms se aproxima a dichos valores.

Cantidad de aditivo
x
Tiempo de secado
y
1 2.6
2 2.3
3 2.2
4 2
5 1.8
6 1.8
7 1.4
8 1.2
9 1.3

SOLUCIN: graficando los datos de la tabla en donde las abscisas (las X) son los
valores de la primera columna y las ordenas (las Y) los de la segunda columna, se
obtienen los puntos sealados en la figura 37. A la grafica correspondiente a todos esos
puntos se le llama diagrama de dispersin.

Una recta aproximada a esos puntos tambin se ha marcado con lnea punteada en la misma
figura 37.

Se ve que se trata de un caso en el que los datos dan aproximadamente una lnea recta.


101

1 2 3 4 5 6 7 8 9

Por lo pronto en este ejemplo no se har ninguna deduccin a partir de la grafica. Se trata
por el momento solamente de mostrar visualmente como hay casos en los que los datos
graficados dan aproximadamente una lnea recta.

ECUACION DE LA RECTA

La ecuacin de la recta en forma particular es:

y =mx +b
En donde:
m = pendiente de la recta
b = ordenada al origen

Ejemplos de ecuaciones de rectas son las mostradas en la tabla siguiente, en la que se han
especificado los correspondientes valores de la pendiente m y de la ordenada al origen b.

ECUACI N m b
y = 2x 1 m = 2 b = -1
y = -x/3 + 11 m = - 1/3 b = 11
y = 2x /7 m = 2/7 b = 0

De tal manera que cuando se tiene un conjunto de datos tales que su grafica de
aproximadamente una recta, el primer paso es obtener su ecuacin, para lo cual se requieren
los valores de la pendiente m y de la ordenada al origen b. a esa ecuacin se le llama
ecuacin de regresin, que significa algo as como ecuacin con la que se regresa a la
recta y existen dos formulas que dan cada una respectivamente el valor de m el de b..

Dichas formulas son:


102

(1)
m = n Y-Y
n
2
-()
2

(2)
b =
2
Y-Y
n
2
-()
2

Ejemplo 1: la relacin entre el nmero de aos (x) laborando para la empresa y el nmero
de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla. Cuntas
ventas pueden esperarse en un trabajador con 16 aos de servicio? Cuntos aos,
aproximadamente se requieren para lograr 14 ventas?

Vendedor Aos laborando
x
Ventas
y
Abel 3 2
Manuel 4 3
Luis 4 4
Gloria 5 4
Jorge 5 4
Eva 6 3
Roque 6 4
Pedro 7 4
Sal 7 5
Daniel 7 6
Ral 8 6
Flor 9 6
Teresa 9 7
Irma 10 7
Efran 10 8

SOLUCIN: lo primero que debe encontrarse es la ecuacin de regresin, es decir, la
ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.

Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersin correspondiente a dicha tabla se muestra en la figura
38.

103
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12

Figura 38

Puede apreciarse en el diagrama de dispersin que los puntos insinan una recta, de la cual
se va a calcular su ecuacin.

Para eso, conforme a la experiencia obtenida en el trabajo de captulos anteriores, por
inspeccin de las formulas 1 y 2 de la pgina anterior, se puede establecer que se requiere
elaborar una tabla con cuatro columnas, de la siguiente forma:

La 1 columna encabezada con X; la 2 columna encabezada con Y; la 3 columna
encabezada con XY y la 4 columna encabezada con X
2
de la siguiente manera:

X Y XY X
2

Abel 3 2 6 9
Manuel 4 3 12 16
Luis 4 4 16 16
Gloria 5 4 20 25
Jorge 5 4 20 25
Eva 6 3 18 36
Roque 6 4 24 36
Pedro 7 4 28 49
Sal 7 5 35 49
Daniel 7 6 42 49
Ral 8 6 48 64
Flor 9 6 54 81
Teresa 9 7 63 81
Irma 10 7 70 100
Efran 10 8 80 100
= 100 Y= 73 Y= 536 X
2
= 736


104

De manera que utilizando la formula (1):
(1)
m = n Y-Y
n
2
-()
2

m = (15)(536) - (100)(73)
(15)(736) - (100)
2

m = 0.7115

Y utilizando la formula (2):
(2)
b =
2
Y-Y
n
2
-()
2

b = (736)(73) - (100)(536)
(15)(736) - (100)
2

b = 0.123

La ecuacin de la recta buscada es

y =0.7115x +0.1230

Esta ecuacin sirve para poder contestar las dos preguntas formuladas en el enunciado del
problema: Cuntas ventas pueden esperarse en un trabajador con 16 aos de servicio?
Cuntos aos, aproximadamente se requieren para lograr 14 ventas?

Como en la ecuacin anterior, x representa los aos laborando y y las ventas, para la
primera pregunta se tiene como dato que x = 16, de manera que sustituyndolo en la
ecuacin de la recta, se obtiene:

y =0.7115 (16) +0.1230
y =11507

Es decir, se pueden esperar aproximadamente entre once y doce ventas de un trabajador con
16 aos laborando.

Para la segunda pregunta, se tiene como dato que y = 14, o sea 14 ventas, de manera que
sustituyendo en la ecuacin de la recta, se obtiene:

14 =0.7115x +0.1230
x =19.5

105

Significa que se requieren aproximadamente de diez y nueve a veinte aos de servicio para
alcanzar 14 ventas.

Ejemplo 2: la relacin entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla.
Cuntas semanas pueden esperarse para que las prdidas sean nulas?

X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4

SOLUCIN: lo primero que debe encontrarse es la ecuacin de regresin, es decir, la
ecuacin de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.

Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersin correspondiente a dicha tabla se muestra en la figura
38.
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8

Figura 40

Puede apreciarse en el diagrama de dispersin que los puntos insinan una recta, de la cual
se va a calcular su ecuacin.

Para eso, conforme a la experiencia obtenida en el trabajo de captulos anteriores, por
inspeccin de las formulas 1 y 2, se puede establecer que se requiere elaborar una tabla con
cuatro columnas, de la siguiente forma:

encabezada con XY y la 4 columna encabezada con X
2


106

X Y XY X
2

1 12.3 12.3 1
2 11 22 4
3 9 27 9
4 8 32 16
5 6 30 25
6 5.2 31.2 36
7 4 28 49
= 28 Y= 55.5 Y= 182.5 X
2
= 140

De manera que utilizando la formula (1):
(1)
m = n Y-Y
n
2
-()
2

m = (7)(182.5) - (28)(55.5)
(7)(140) - (28)
2

m = -1.41

Y utilizando la formula (2):
(2)
b =
2
Y-Y
n
2
-()
2

b = (140)(55.5) - (28)(182.5)
(7)(140) - (28)
2

b = 13.57
La ecuacin de la recta buscada es

y =-1.41x +13.57

Esta ecuacin sirve para poder contestar la pregunta formulada en el enunciado del
problema: Cuntas semanas pueden esperarse para que las prdidas sean nulas?

Como en la ecuacin anterior, x representa el nmero de semanas de haber comenzado con
un negocio mientras que y las prdidas registradas, para la pregunta se tiene como dato que
y = 0, de manera que sustituyndolo en la ecuacin de la recta, se obtiene:

0 =-1.41 +13.57
x =9.62

107

Es decir, se pueden esperar aproximadamente que entre la novena y la dcima semanas las
perdidas desaparezcan.

CUESTIONARIO 22

1. Se realiz una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos mdicos realizados al mes (Y), la
cual se muestra en la siguiente tabla:

Hijos
X
% de gastos
Y
Familia Carranza 0 1%
Familia Corrales 1 4.6
Familia Bentez 1 4.7
Familia Dvila 1 5
Familia Mndez 1 5.1
Familia Obregn 2 8.9
Familia Reyes 2 9
Familia Jimnez 3 13
Familia Ballesteros 4 17.1
Familia Uribe 4 17.2
Familia Zavala 5 20.8
Familia Quiones 5 21
Familia Ruiz 5 21.1
Familia Hernndez 6 25

a) Qu porcentaje de gastos mdicos puede esperarse de una familia con 11
hijos?

b) Si una familia tiene un gasto aproximado del 40%, cuntos hijos se espera
que tenga?


108

2. Se realiz una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos en ropa realizados al mes (Y), la
cual se muestra en la siguiente tabla:

Hijos
X
% de gastos
Y
Familia Caldern 1 1%
Familia Corrales 1 2
Familia Bentez 1 4.3
Familia Durango 1 4.5
Familia Mondragn 1 3.1
Familia Olvera 2 8.9
Familia Reyes 2 9
Familia Justiniani 3 14
Familia Balbuena 3 17.9
Familia Uribe 4 20
Familia Zavala 4 23
Familia Quiones 4 26
Familia Rentera 5 31.1
Familia Hernndez 5 30
Familia Ocaranza 6 37

a) Qu porcentaje de gastos en ropa puede esperarse de una familia con 10
hijos?

b) Si una familia tiene un gasto aproximado del 51%, cuntos hijos se espera
que tenga?


109

3. Se realiz una encuesta en una fabrica para relacionar el numero de
enfermedades al ao (X) de cada trabajador con el porcentaje de rendimiento en
el trabajo (Y), la cual se muestra en la siguiente tabla:

#de enfermedades
X
% de rendimiento
Y
Ismael Carranza Z. 0 100
Jos Benito Corrales Y. 0 96.6
Ramn Bentez F. 0 94.7
Marco Dvila G. 1 91
Estanislao Mndez M. 1 88.2
Juan Obregn L. 1 90
Jess de la O. Reyes 2 82
Arturo Jimnez A. 2 79.1
Clemente Ballesteros H. 2 85.7
Dionisio Uribe Q. 3 73.2
Estanislao Zavala R. 3 73
Roberto Quinez D. 4 64
Rubn Ruiz de la T. 4 60.8
Fernando Hernndez y H. 5 55

a) Si un trabajador tiene un rendimiento aproximado de 10%, cuntas
enfermedades al ao se espera que tenga?

b) Qu porcentaje de rendimiento puede esperarse de un trabajador que se
enferme siete veces durante el ao?


110

4. Se realiz una encuesta en una fabrica para relacionar el numero de aos de
experiencia de cada trabajador (X) con el porcentaje de eficiencia en el trabajo
(Y), la cual se muestra en la siguiente tabla:

Antigedad
X
% de eficiencia
Y
Ismael Carranza Z. 0 50
Jos Benito Corrales Y. 0 53.6
Ramn Bentez F. 0 55.7
Marco Dvila G. 1 57
Estanislao Mndez M. 1 58
Juan Obregn L. 1 57
Jess de la O. Reyes 2 60.5
Arturo Jimnez A. 2 61
Clemente Ballesteros H. 2 61
Dionisio Uribe Q. 3 65.2
Estanislao Zavala R. 3 68.1
Roberto Quinez D. 4 69.2
Rubn Ruiz de la T. 4 69
Fernando Hernndez y H. 5 69
Francisco Ocaranza L. 5 73

a) Qu porcentaje de rendimiento puede esperarse de un empleado con 7 aos
de experiencia en el trabajo?

b) Si se desea que los trabajadores alcancen un rendimiento aproximado del
90%, cuntos aos de experiencia laboral debe esperarse que tengan?


111

5. Se realiz una encuesta en una fbrica de combustible en 15 vehculos de la
misma marca y modelo, para relacionar la velocidad (X) en km/h con el gasto de
combustible (Y) en litros por kilmetro, la cual se muestra en la tabla siguiente:

Velocidad (km/h)
X
Consumo de combustible
Y
Vehculo 1 4.35 5
Vehculo 2 10 4.66
Vehculo 3 15 4.51
Vehculo 4 15 4.46
Vehculo 5 15 4.36
Vehculo 6 20 4
Vehculo 7 20 3.95
Vehculo 8 20 4.06
Vehculo 9 25 3.77
Vehculo 10 25 3.86
Vehculo 11 30 3.61
Vehculo 12 30 3.2
Vehculo 13 35 3.17
Vehculo 14 35 3.15
Vehculo 15 40 2.87

a) Si un vehculo gasta 1 litro por kilmetro, A qu velocidad debe correr
aproximadamente para lograr ese consumo?

b) Qu gasto de combustible puede esperarse de un vehculo cuando corra a
la velocidad de 40 km/h?


112

6. Se realiz una encuesta en diferentes ciudades importantes de un pas para
relacionar el grado de contaminacin ambiental (X) en imecas con el porcentaje
de poblacin afectado de las vas respiratorias (Y), la cual se muestra en la
siguiente tabla:

imecas
X
% de poblacin afectada
Y
Poblacin 1 45 2
Poblacin 2 45 1.5
Poblacin 3 50 4
Poblacin 4 55 6
Poblacin 5 65 9
Poblacin 6 65 10
Poblacin 7 70 11
Poblacin 8 70 12
Poblacin 9 70 13
Poblacin 10 75 13
Poblacin 11 80 16
Poblacin 12 90 21
Poblacin 13 95 22
Poblacin 14 95 25
Poblacin 15 100 24
Poblacin 16 120 32

a) Si un vehculo alcanza 150 imecas, Qu porcentaje de su poblacin es de
esperarse que padezca de las vas respiratorias?

b) Si una poblacin tiene el 60% de enfermos de las vas respiratorias, Qu
grado de contaminacin es de suponerse que tenga?


113

7. Se realiz una encuesta en diferentes ciudades para relacionar el numero de
cigarros fumados al da por persona (X) con el porcentaje de habitantes
fumadores que adquirieron cncer pulmonar (Y), la cual se muestra en la
siguiente tabla:

#de cigarros al da
X
% de fumadores que
adquirieron cncer
pulmonar
Y
Poblacin 1 2 15
Poblacin 2 2 16
Poblacin 3 3 17.5
Poblacin 4 3 18
Poblacin 5 3 18
Poblacin 6 5 23.5
Poblacin 7 5 24
Poblacin 8 10 37.8
Poblacin 9 10 38
Poblacin 10 12 42
Poblacin 11 12 43
Poblacin 12 12 44
Poblacin 13 15 52
Poblacin 14 15 53
Poblacin 15 20 66.5
Poblacin 16 25 80

a) Si una persona fuma 8 cigarros al da, Qu probabilidad aproximada tiene
de adquirir cncer pulmonar?

b) Si una persona tiene el 95% de probabilidad de adquirir cncer pulmonar,
Cuntos cigarros al da aproximadamente fuma?


114

8. Se realiz una encuesta en diferentes hogares para relacionar el nivel economico
de las familias medido en numero de salarios mnimos de ingreso (X) con el
numero de kilos de basura diarios producidos al consumir comida chatarra (Y),
la cual se muestra en la siguiente tabla:

I ngreso en salarios
mnimos
X
#de kilos de basura al da
Y
Hogar 1 1 8
Hogar 2 1 8.5
Hogar 3 1.5 7
Hogar 4 1.5 6.5
Hogar 5 2 6
Hogar 6 2 5.8
Hogar 7 2 5.5
Hogar 8 2.5 5
Hogar 9 2.5 4.7
Hogar 10 3 3.6
Hogar 11 3 3.5
Hogar 12 3.5 2.5
Hogar 13 3.5 2.2
Hogar 14 4 2
Hogar 15 4 1.7
Hogar 16 4 1.5

a) Si una familia tiene un ingreso de 6 salarios mnimos, cuntos kilos de
basura producidos por el consumo de comida chatarra es de esperarse que
tiren?

b) Si una familia produce 4 kilos diarios de basura de desperdicios de comida
chatarra, de cuntos salarios mnimos de ingresos es de esperarse que sea
su nivel de vida?


115

9. se sabe que las higuerillas crecen mejor en aguas contaminadas. Por lo tanto, se
realiz una encuesta en diferentes ros con aguas contaminadas para relacionar el
numero de higuerillas (X) que crecen en sus riveras por cada 5 kilmetros, con el
grado de contaminacin de las aguas (Y), la cual se muestra en la siguiente tabla:

#de higuerillas
X
Grado de contaminacin
Y
Ro 1 6 1
Ro 2 11 2
Ro 3 28 5
Ro 4 30 5
Ro 5 31 5
Ro 6 48 8
Ro 7 50 9
Ro 8 60 10
Ro 9 65 10
Ro 10 88 15
Ro 11 90 15
Ro 12 90 16
Ro 13 96 16
Ro 14 115 20
Ro 15 120 20
Ro 16 180 31

a) Si en un ro se localizan 225 higuerillas a lo largo de kilmetros, qu
porcentaje de contaminacin en sus aguas es de esperarse?

b) Para un ro cuyas aguas estn contaminadas al 70%, cuntas higuerillas
puede esperarse que se encuentren en su rivera por cada 5 km?


116

10. Para determinar el posible rendimiento de cada jugador, se realiz una
encuesta para relacionar la edad del deportista (X) con el tiempo en minutos (Y)
que soporta antes de bajar su rendimiento por agotamiento, la cual se muestra en
la siguiente tabla:

edad
X
tiempo
Y
Jugador 1 15 100
Jugador 2 15 105
Jugador 3 16 98
Jugador 4 16 96
Jugador 5 17 93
Jugador 6 18 90
Jugador 7 19 85
Jugador 8 19 82
Jugador 9 20 82
Jugador 10 25 65
Jugador 11 25 70
Jugador 12 28 55
Jugador 13 30 50
Jugador 14 30 47
Jugador 15 35 30
Jugador 16 35 26

a) Si un jugador rinde 74 minutos, qu edad es de esperarse que tenga?

b) Para un jugador de 32 aos, cuntos minutos de rendimiento pueden
esperarse?


117

COEFICIENTE DE CORRELACIN

Al hacer el diagrama de dispersin y trazar sobre l la recta perteneciente a la ecuacin
obtenida, se nota que mientras algunos puntos pertenecen a la recta, es decir, estn sobre
ella, por lo general la mayora de los puntos quedan afuera de ella.

Si los puntos que quedan afuera estn situados muy prximos a la recta, o sea hay poca
distancia entre la recta y cada punto, se dice que hay poca dispersin; a la inversa, si los
puntos que quedan afuera estn situados distantes a la recta, o sea hay mucha distancia
entre la recta y cada punto, se dice que hay mucha dispersin.

Obviamente, cuando se hacen predicciones a partir de la recta obtenida, estas sern ms
confiables mientras menos dispersin exista. Para tener un parmetro o medida de esa
dispersin se utiliza una formula que arroja ciertos resultados numricos, los cuales tienen
el siguiente significado: si da igual a 1 quiere decir que todos los puntos estn sobre la
recta; si da 0 quiere decir que la grafica no se parece en nada a una recta. Los valores
intermedios tienen el significado intermedio entre los dos extremos antes citados.

Dicha formula es:

r = n Y - Y

[n
2
- ()
2
] [n Y
2
- (Y)
2
]

Puede verse que las sumatorias que se requieren son casi las mismas obtenidos en la
elaboracin de la tabla para calcular la ecuacin de regresin de la recta, es decir con esa
misma tabla puede obtenerse la pendiente m, la ordenada al origen b y el coeficiente de
correlacin r, agregando solamente una columna ms como se ver en el siguiente ejemplo.

Ejemplo 1: la relacin entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla:
obtener su coeficiente de correlacin.

X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4

SOLUCIN: se requiere elaborar una tabla con cinco columnas, de la siguiente forma:


118
encabezada con XY; la 4 columna encabezada con X
2
y la 5 columna encabezada con Y
2


X Y XY X
2
Y
2

1 12.3 12.3 1 151.29
2 11 22 4 121
3 9 27 9 81
4 8 32 16 64
5 6 30 25 36
6 5.2 31.2 36 27.04
7 4 28 49 16
= 28 Y= 55.5 Y= 182.5 X
2
= 140 Y
2=
496.3
3

As que utilizando la frmula del coeficiente de correlacin

r = n Y - Y

[n
2
- ()
2
] [n Y
2
- (Y)
2
]

Sustituyendo:
r = 7(182.5) - (28)(55.5)

[7(140) - (28)
2
] [7(496.33) - (55.5)
2
]

r = 1277.5 - 1554

(980 - 784)(3474.31 - 3080.25)

r = -276.5

77235.76

r = -0.9949
El valor obtenido es negativo porque la recta tiene pendiente negativa y adems es un valor
muy cercano al 1, lo que significa que los puntos estn realmente muy cercanos a la recta
calculada.

Estadistica I Aguilera Oseguera PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica I Aguilera Oseguera PDF

Cargado por

Copyright:

Formatos disponibles

M.A.

Eduardo Aguilera Oseguera

También podría gustarte